Ir al contenido

Heritrix

De Wikipedia, la enciclopedia libre
Heritrix logo

Heritrix es un rastreador (o crawler) de ficheros web a través de internet. Su licencia es open-source y está escrito completamente en JAVA. Su interfaz de configuración es accesible usando un navegador web, haciéndolo muy versátil y cómodo de usar, aunque también puede ser lanzando desde línea de comandos.

Heritrix fue desarrollado conjuntamente por Internet Archive y "Nordic National Libraries" a principios de 2003. La primera versión fue publicada en enero de 2004 y ha sido continuamente actualizado por los miembros de Internet Archive y terceras partes.

Ficheros Arc

[editar]

Heritrix por defecto almacena los recursos web que crawlea en un fichero Arc. El formato Arc ha sido usado por el "Internet Archive" desde 1996 para almacenar sus archivos webs.

Un fichero Arc almacena múltiples recursos en un único fichero con el fin de evitar la gestión de una gran cantidad de archivos pequeños. El archivo consta de una secuencia de registros de URL, cada una con una cabecera que contiene metadatos acerca de la forma en que el recurso se pidió seguida de la cabecera HTTP y la respuesta.

Ejemplo:

filedesc://IA-2006062.arc 0.0.0.0 20060622190110 text/plain 76
1 1 InternetArchive
URL IP-address Archive-date Content-type Archive-length

http://foo.edu:80/hello.html 127.10.100.2 19961104142103 text/html 187
HTTP/1.1 200 OK
Date: Thu, 22 Jun 2006 19:01:15 GMT
Server: Apache
Last-Modified: Sat, 10 Jun 2006 22:33:11 GMT
Content-Length: 30
Content-Type: text/html

<html>
Hello World!!!
</html>

Herramientas para procesar los ficheros Arc

[editar]

Heritrix incluye un conjunto de herramientas a través de la línea de comandos llamado arcreader el cual puede ser usado para extraer el contenido de un fichero Arc. El siguiente comando lista todas las URLs y metadatos almacenados en el fichero Arc:

arcreader IA-2006062.arc

El siguiente comando extrae hello.html del ejemplo de fichero Arc anterior, suponiendo que el registro empieza en la posición 140:

arcreader -o 140 -f dump IA-2006062.arc

Otras herramientas:

Proyectos que usan Heritrix

[editar]

Referencias

[editar]