Internet profunda

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda
Ilustración de la Internet profunda.

Se conoce como Internet profunda o Internet invisible (en inglés: Deepweb, Invisible Web, Deep Web, Dark Web o Hidden Web) a todo el contenido de Internet que no forma parte del Internet superficial, es decir, de las páginas indexadas por las redes de los motores de búsqueda de la red. Esto se debe a las limitaciones que tienen las redes para acceder a todos los sitios web por distintos motivos.[1]

Causas[editar]

La principal causa de la existencia de la Internet profunda es la imposibilidad de los motores de búsqueda de encontrar o indexar gran parte de la información existente en Internet. Se estima que la Internet Profunda es 500 veces mayor[2] que la Internet Superficial, siendo el 95% de esta información públicamente accesible. Si los buscadores tuvieran la capacidad para acceder a toda la información entonces la magnitud de la "Internet profunda" se reduciría casi en su totalidad; sin embargo, no desaparecería totalmente porque siempre existirán páginas privadas.

Los siguientes son algunos de los motivos por los que los buscadores son incapaces de indexar la Internet profunda:

  • Páginas y sitios web protegidos con contraseña.
  • Documentos en formatos no indexables.
  • Enciclopedias, diccionarios, revistas en las que para acceder a la información hay que interrogar a la base de datos, como por ejemplo la base de datos de la RAE.[3]

Tamaño[editar]

En el año 2000 se estimaba[4] que el tamaño de la Internet profunda era de 7500 Terabytes de datos en unos 550 000 millones de documentos.[5] Para comparar se estima que en aquella época la Internet superficial ocupaba 167 Terabytes y el contenido de la Biblioteca del Congreso de Estados Unidos tenía unos 3000 Terabytes que no eran accesibles por los motores de búsqueda.

La Internet profunda tiene el mayor crecimiento de nueva información en Internet, más de la mitad del contenido de este reside en bases de datos, la calidad del contenido de la Internet profunda es considerada por lo menos 1000 o 2000 veces mayor que la del Web superficial y el 95% de la información de la web profunda es información totalmente pública, libre de suscripciones y tarifas.[6]

Estimaciones basadas en la extrapolación de un estudio de la Universidad de California en Berkeley especula que actualmente la Internet profunda debe tener unos 91 000 Terabytes.[7]

Mike Bergman ha dicho que la búsqueda en el Internet hoy en día se puede comparar con una red de arrastre a través de la superficie del océano: una gran cantidad puede ser atrapada en la red, pero hay una gran cantidad de información que está en lo profundo y por lo tanto, se pierde. La mayor parte de la información de la Web está enterrada muy abajo en sitios generados dinámicamente, y los motores de búsqueda estándar no la encuentran. Los buscadores tradicionales no pueden "ver" o recuperar el contenido de la Web profunda, esas páginas no existen hasta que se crea de forma dinámica, como resultado de una búsqueda específica. La Web profunda es varios órdenes de magnitud más grande que la web de la superficie profunda.[5]

Denominación[editar]

Logo de Freenet.

Bergman, en un artículo semanal sobre la Web profunda publicado en el Journal of Electronic Publishing, mencionó que Jill Ellsworth utilizó el término "la Web invisible" en 1994 para referirse a los sitios web que no están registrados por algún motor de búsqueda.[5]

Bergman citó un artículo de 1996 de Frank García:[8]

Sería un sitio que, posiblemente esté diseñado razonablemente, pero no se molestaron en registrarlo en alguno de los motores de búsqueda. ¡Por lo tanto, nadie puede encontrarlos! Estás oculto. Yo llamo a esto la Web invisible.

Otro uso temprano del término Web Invisible o web profunda fue por Bruce Monte y Mateo B. Koll de Personal Library Software, en una descripción de la herramienta @ 1 de web profunda, en un comunicado de prensa de diciembre de 1996.[9]

El primer uso del término específico de web profunda, ahora generalmente aceptada, ocurrió en el estudio de Bergman de 2001 mencionado anteriormente.[5]

Por otra parte, el término web invisible se dice que es inexacto porque:

  • Muchos usuarios asumen que la única forma de acceder a la web es consultando un buscador.
  • Alguna información puede ser encontrada más fácilmente que otra, pero ésto no quiere decir que esté invisible.
  • La web contiene información de diversos tipos que es almacenada y recuperada en diferentes formas.
  • El contenido indexado por los buscadores de la web es almacenado también en bases de datos y disponible solamente a través de las interrogaciones del usuario, por tanto no es correcto decir que la información almacenada en bases de datos es invisible.[6]

Ingresando a la internet profunda[editar]

Logo de Tor.

A pesar de que son muchos los servicios y programas para acceder a la web profunda, el software más popular es Tor (The Onion Router), pero existen otras alternativas como I2P y Freenet.[10]

En 2008, con el fin de facilitar el acceso de los usuarios y motores de búsqueda de indexación de la Web profunda, Aaron Swartz diseñó Tor2web un software de proxy capaz de proporcionar el acceso a los servicios ocultos de Tor a través de un navegador web común.[11]

Para descubrir el contenido en la Web, los motores de búsqueda utilizan rastreadores web que siguen hipervínculos a través de números de puertos virtuales de protocolos conocidos. Esta técnica es ideal para descubrir los recursos en la red de superficie, pero a menudo es ineficaz en la búsqueda de recursos web profundas. Estos rastreadores no tratan de encontrar las páginas dinámicas que son el resultado de las consultas de base de datos debido al número indeterminado de consultas que son posibles.[12] Se ha observado que esto puede ser (parcialmente ) a superar proporcionando enlaces para consultar como resultado, pero esto podría involuntariamente inflar la popularidad de un miembro de la Web profunda.

Véase también[editar]

Referencias[editar]

  1. Webactual.org (7 de abril de 2012). «Internet Invisible». Consultado el 4 de junio de 2012.
  2. http://quod.lib.umich.edu/cgi/t/text/text-idx?c=jep;view=text;rgn=main;idno=3336451.0007.104
  3. Webactual.org (13 de abril de 2013). «El diccionario de la RAE pertenece a la internet invisible.». Consultado el 13 de mayo de 2013.
  4. Bergman, Michael K (agosto 2001). «The Deep Web: Surfacing Hidden Value». The Journal of Electronic Publishing 7 (1). http://quod.lib.umich.edu/cgi/t/text/text-idx?c=jep;view=text;rgn=main;idno=3336451.0007.104. 
  5. a b c d Bergman, Michael K (August 2001). «The Deep Web: Surfacing Hidden Value». The Journal of Electronic Publishing 7 (1). doi:10.3998/3336451.0007.104. http://quod.lib.umich.edu/cgi/t/text/text-idx?c=jep;view=text;rgn=main;idno=3336451.0007.104. 
  6. a b Llanes, Lourdes Vilaragut; SUÁREZ, Juan R. Carro (2004). escrito en En Congreso Internacional de Información INFO. 2004. Para acceder al Web profundo: conceptos y herramientas. http://www.bibliociencias.cu/gsdl/collect/eventos/index/assoc/HASHac48.dir/doc.pdf. 
  7. Michael Lesk (1997). «How much information is there in the world?». Consultado el 16 de julio de 2012.
  8. Garcia, Frank (January 1996). «Business and Marketing on the Internet». Masthead 9 (1). Archivado del original el 1996-12-05. http://web.archive.org/web/19961205083117/http://tcp.ca/Jan96/BusandMark.html. 
  9. @1 comenzó con 5.7 terabytes de contenido, estimado en 30 veces el tamaño de la naciente World Wide Web; PLS fue adquirida por AOL en 1998 y @1 fue abandonado.«PLS introduce AT1, el servicio de la primera "segunda generación" de búsqueda en Internet». Personal Library Software. diciembre 1996. Consultado el 24-02-2009. 
  10. http://paoladry.weebly.com/uploads/2/5/7/2/25721613/162798.pdf P. 2
  11. Aaron, Swartz. "In Defense of Anonymity". Retrieved 4 February 2014.
  12. Wright, Alex (2009-02-22). "Exploring a 'Deep Web' That Google Can’t Grasp". The New York Times. Retrieved 2009-02-23.

Enlaces externos[editar]