Googlebot

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

Googlebot es el robot de búsqueda usado por Google. Colecciona documentos desde la web para construir una base de datos para el motor de búsqueda Google.

Si un webmaster no quiere que su página sea descargada por un Googlebot, puede insertar un texto llamado robots.txt, el cual puede hacer que Googlebot (y otros bots) no investiguen una o varias páginas o incluso todo el sitio web.[1]

Googlebot tiene dos versiones, deepbot y freshbot. Deepbot investiga profundamente, tratando de seguir cualquier enlace en esa página, además de poner esta página en el caché, y dejarla disponible para Google. En Marzo del 2006, completaba este proceso en casi un mes.[cita requerida] Freshbot investiga la web buscando contenido nuevo. Visita sitios que cambian frecuentemente. Idealmente, el freshbot visitará la página de un periódico todos los días, mientras que la de una revista cada semana, o cada 15 días. Así, por ejemplo, puede captar noticias que recién hayan ocurrido, sin tener que esperar semanas.[2]

Googlebot descubre enlaces a otras páginas, y se dirige hacia ellos también, así puede abarcar toda la web fácilmente.


Googlebot es el robot que utiliza Google para 'rastrear' los sitios de Internet. No solamente indexa páginas web (HTML), sino que también extrae información de ficheros PDF, PS, XLS, DOC y algunos otros más.

La frecuencia con la que Googlebot accede a un sitio web depende del PageRank de éste. Mientras mayor sea este valor, el robot accederá más asiduamente a sus páginas.

Por ejemplo, podemos comprobar que los sitios con PR10 (el valor más alto), como yahoo.com o usatoday.com, han sido 'rastreados' por Googlebot ayer o incluso o hoy mismo, mientras que otros han sido accedidos hace varias semanas. Esto se puede comprobar accediendo al 'cache' de esta página.

Para comprobar si Googlebot ha accedido a nuestro sitio web, deberemos echar un vistazo a los logs de nuestro servidor. En ellos, deberemos observar si hay registros de accesos en los que aparezca 'googlebot'. Generalmente aparecerá el nombre del servidor, el cual podrá ser alguno de estos:

SERVIDOR DIRECCION IP

crawl1.googlebot.com 216.239.46.20

crawl2.googlebot.com 216.239.46.39

crawl3.googlebot.com 216.239.46.61

crawl4.googlebot.com 216.239.46.82

... ...

crawl9.googlebot.com 216.239.46.234

crawler1.googlebot.com 64.68.86.9

crawler2.googlebot.com 64.68.86.55

... ...

crawler14.googlebot.com 64.68.82.138


Una vez que Googlebot haya 'rastreado' nuestra página, seguirá los enlaces que en ella encuentre (los HREF y los SRC).

Por lo tanto, si quieres que Googlebot indexe tu página web, solamente es necesario que algún otro sitio tenga un hiperenlace al tuyo. Si no es así, siempre puedes añadir directamente tu URL.


Referencias[editar]

  1. Google. «Herramientas para webmasters de Google». Consultado el 22 de febrero de 2014.
  2. dirson.com. «Freshbot». Consultado el 22 de febrero de 2014.

Enlaces externos[editar]