Beautiful Soup

De Wikipedia, la enciclopedia libre
Ir a la navegación Ir a la búsqueda
Beautiful Soup
Información general
Tipo de programa Parseador HTML, web scraping
Autor Leonard Richardson
Licencia Python Software Foundation License (Inferior a la versión 4)
Licencia MIT (A partir de la versión 4)[1]
Información técnica
Programado en Python
Plataformas admitidas Python
Versiones
Última versión estable 4.6.0 07 de mayo de 2017 (4 años, 2 meses y 22 días)
Asistencia técnica
Enlaces

Beautiful Soup es una biblioteca de Python para analizar documentos HTML (incluyendo los que tienen un marcado incorrecto). Esta biblioteca crea un árbol con todos los elementos del documento y puede ser utilizado para extraer información. Por lo tanto, esta biblioteca es útil para realizar web scraping — extraer información de sitios web.[2]

Está disponible para Python 2.6+ y Python 3.

Código de ejemplo[editar]

# extracción de todos los enlaces de un documento html
from bs4 import BeautifulSoup

with open("./index.html") as f:
    soup = BeautifulSoup(f)
 
for anchor in soup.find_all('a'):
    print(anchor.get('href', '/'))

Referencias[editar]

  1. «Beautiful Soup website». Consultado el 18 de abril de 2012. «Beautiful Soup is licensed under the same terms as Python itself». 
  2. «Beautiful Soup website». Consultado el 18 de abril de 2012.