Ir al contenido

Beautiful Soup

De Wikipedia, la enciclopedia libre
Esta es una versión antigua de esta página, editada a las 23:25 16 abr 2020 por Semibot (discusión · contribs.). La dirección URL es un enlace permanente a esta versión, que puede ser diferente de la versión actual.
Beautiful Soup
Información general
Tipo de programa Parseador HTML, web scraping
Autor Leonard Richardson
Licencia Python Software Foundation License (Inferior a la versión 4)
Licencia MIT (A partir de la versión 4)[1]
Información técnica
Programado en Python
Plataformas admitidas Python
Versiones
Última versión estable 4.6.0 ( 07 de mayo de 2017 (7 años y 1 mes))
Enlaces

Beautiful Soup es una biblioteca de Python para analizar documentos HTML (incluyendo los que tienen un marcado incorrecto). Esta biblioteca crea un árbol con todos los elementos del documento y puede ser utilizado para extraer información. Por lo tanto, esta biblioteca es útil para realizar web scraping — extraer información de sitios web.[2]

Está disponible para Python 2.6+ y Python 3.

Código de ejemplo

# extracción de todos los enlaces de un documento html
from bs4 import BeautifulSoup

with open("./index.html") as f:
    soup = BeautifulSoup(f)
 
for anchor in soup.find_all('a'):
    print(anchor.get('href', '/'))

Referencias

  1. «Beautiful Soup website». Consultado el 18 de abril de 2012. «Beautiful Soup is licensed under the same terms as Python itself». 
  2. «Beautiful Soup website». Consultado el 18 de abril de 2012.