Sitio archivo

De Wikipedia, la enciclopedia libre

Un sitio archivo es un tipo de sitio Web que almacena información sobre páginas web del pasado (o las propias páginas web) para que cualquiera la vea.

Técnicas comunes[editar]

Dos técnicas comunes son (1) usar un web crawler o (2) envíos de los usuarios.

(1) Usando un web crawler el servicio no dependerá de una comunidad activa para su contenido, y por tanto se construirá una base de datos más grande más rápido, lo que normalmente resulta en que también la comunidad se haga más grande. Sin embargo, los administradores de sistemas y desarrolladores de sitios web tienen la capacidad de bloquear el acceso de estos robots a [algunas] páginas web (usando un robots.txt).

(2) Aunque puede ser difícil empezar estos servicios debido a las tasas potencialmente bajas de envío de los usuarios, este sistema puede rendir los mejores resultados. Recorriendo páginas web sólo es posible obtener la información que el público se haya ocupado de publicar en la Internet. Puede que no se hayan preocupado de enviarla debido a pensar que nadie estaría interesada en ella, falta de un medio adecuado, etc. Sin embargo, si ven que alguien quiere su información entonces pueden estar más dispuestos a enviarla.

Ejemplos[editar]

Google Groups[editar]

El 12 de febrero de 2001 Google adquirió el servicio de discusión de Usenet de Deja.com y lo convirtió en su servicio Google Groups. Permiten que los usuarios busquen discusiones antiguas con su altamente reputada tecnología de búsqueda, al tiempo que siguen permitiendo que los usuarios publiquen en las listas de distribución de correo.

Internet Archive[editar]

El Internet Archive (sitio web oficial) está construyendo un compendio de páginas web y medios digitales. Desde 1996, Archive ha estado usando un web crawler para construir su base de datos. Son uno de los sitios archivo más conocidos.

TextFiles.com[editar]

TextFiles.com es una gran biblioteca de viejos ficheros de texto sostenida por Jason Scott Sadofsky. Su misión es archivar los viejos documentos que han flotado por los bulletin board systems (BBS) de su juventud y documentar las experiencias de otras personas en las BBS.

PANDORA Archive[editar]

PANDORA (Archivo Pandora), fundado en 1996 por la National Library of Australia, significa Preserving and Accessing Networked Documentary Resources of Australia, lo que explica su misión. Facilitan un catálogo a largo plazo de publicaciones en la red selectas y sitios web realizados por australianos o que traten sobre algún tema australiano. Emplean sus PANDAS (PANDORA Digital Archiving System) para construir su catálogo.

Véase también[editar]