Beautiful Soup

Beautiful Soup
Información general
Tipo de programa	Parseador HTML, web scraping
Autor	Leonard Richardson
Licencia	Python Software Foundation License (Inferior a la versión 4); Licencia MIT (A partir de la versión 4)
Información técnica
Programado en	Python
Plataformas admitidas	Python
Versiones
Última versión estable	4.6.0 ( 07 de mayo de 2017 (7 años y 1 mes))
Enlaces
	Sitio web oficial Repositorio de código
	[editar datos en Wikidata]

Beautiful Soup es una biblioteca de Python para analizar documentos HTML (incluyendo los que tienen un marcado incorrecto). Esta biblioteca crea un árbol con todos los elementos del documento y puede ser utilizado para extraer información. Por lo tanto, esta biblioteca es útil para realizar web scraping — extraer información de sitios web.^[2]

Está disponible para Python 2.6+ y Python 3.

Código de ejemplo

# extracción de todos los enlaces de un documento html
from bs4 import BeautifulSoup

with open("./index.html") as f:
    soup = BeautifulSoup(f)
 
for anchor in soup.find_all('a'):
    print(anchor.get('href', '/'))

Referencias

↑ «Beautiful Soup website». Consultado el 18 de abril de 2012. «Beautiful Soup is licensed under the same terms as Python itself».
↑ «Beautiful Soup website». Consultado el 18 de abril de 2012.

Datos: Q2893296

[1] «Beautiful Soup website». Consultado el 18 de abril de 2012. «Beautiful Soup is licensed under the same terms as Python itself».

[2] «Beautiful Soup website». Consultado el 18 de abril de 2012.

[1]

[2]