Beautiful Soup
Apariencia
Beautiful Soup | ||
---|---|---|
Información general | ||
Tipo de programa | Parseador HTML, web scraping | |
Autor | Leonard Richardson | |
Licencia |
Python Software Foundation License (Inferior a la versión 4) Licencia MIT (A partir de la versión 4)[1] | |
Información técnica | ||
Programado en | Python | |
Plataformas admitidas | Python | |
Versiones | ||
Última versión estable | 4.6.0 ( 07 de mayo de 2017 (7 años y 1 mes)) | |
Enlaces | ||
Beautiful Soup es una biblioteca de Python para analizar documentos HTML (incluyendo los que tienen un marcado incorrecto). Esta biblioteca crea un árbol con todos los elementos del documento y puede ser utilizado para extraer información. Por lo tanto, esta biblioteca es útil para realizar web scraping — extraer información de sitios web.[2]
Está disponible para Python 2.6+ y Python 3.
Código de ejemplo
# extracción de todos los enlaces de un documento html
from bs4 import BeautifulSoup
with open("./index.html") as f:
soup = BeautifulSoup(f)
for anchor in soup.find_all('a'):
print(anchor.get('href', '/'))
Referencias
- ↑ «Beautiful Soup website». Consultado el 18 de abril de 2012. «Beautiful Soup is licensed under the same terms as Python itself».
- ↑ «Beautiful Soup website». Consultado el 18 de abril de 2012.