Googlebot

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

GoogleBot es el robot de búsqueda usado por la empresa Google que colecciona documentos desde la web con el fin de construir una base de datos para el motor de búsqueda Google.

Robots.txt[editar]

Si un WebMaster no desea que su página sea analizada por un Bot, puede insertar un metodo llamado robots.txt, el cual evita que GoogleBot (y otros bots) investiguen una o varias páginas (o incluso todo el contenido en total) del sitio web.

Mas información[editar]

GoogleBot descubre enlaces a otras páginas, y se dirige hacia ellos también, así puede abarcar toda la web fácilmente. Es el robot que utiliza Google para 'rastrear' los sitios de Internet. No solamente indexa páginas web (HTML), sino que también extrae información de ficheros PDF, PS, XLS, DOC y algunos otros más.

La frecuencia con la que Googlebot accede a un sitio web depende del PageRank de éste. Mientras mayor sea este valor, el robot accederá más asiduamente a sus páginas.

Por ejemplo, podemos comprobar que los sitios con PR10 (el valor más alto), como yahoo.com o usatoday.com, han sido 'rastreados' por GoogleBot ayer o incluso o hoy mismo, mientras que otros han sido accedidos hace varias semanas. Esto se puede comprobar accediendo al 'cache' de esta página.

DeepBot[editar]

Googlebot tiene dos versiones, DeepBot y FreshBot. DeepBot investiga profundamente tratando de seguir cualquier enlace de una pagina, además de poner tal página en el caché, y dejarla disponible para Google. En Marzo del 2006, completaba este proceso en casi un mes.

FreshBot[editar]

Freshbot investiga la web buscando contenido nuevo. Visita sitios que cambian frecuentemente. Idealmente, el FreshBot visitará la página de un periódico todos los días, mientras que la de una revista cada semana, o cada 15 días. Así, por ejemplo, puede captar noticias que recién hayan ocurrido, sin tener que esperar semanas.

Comprobación[editar]

Para comprobar si GoogleBot ha accedido a nuestro sitio web, deberemos echar un vistazo a los logs de nuestro servidor. En ellos, deberemos observar si hay registros de accesos en los que aparezca 'GoogleBot'. Generalmente aparecerá el nombre del servidor, el cual podrá ser alguno de estos:

 SERVIDOR           DIRECCION IP's
 
 crawl1.googlebot.com   216.239.46.20
 
 crawl2.googlebot.com   216.239.46.39
 
 crawl3.googlebot.com   216.239.46.61
 
 crawl4.googlebot.com   216.239.46.82
 
 crawl9.googlebot.com   216.239.46.234
 
 crawler1.googlebot.com 64.68.86.9
 
 crawler2.googlebot.com 64.68.86.55
 
 crawler14.googlebot.com        64.68.82.138

Una vez que Googlebot haya 'rastreado' nuestra página, seguirá los enlaces que en ella encuentre (los HREF y los SRC).

Por lo tanto, si quieres que GoogleBot indexe tu página web, solamente es necesario que algún otro sitio tenga un enlace al tuyo. Si no es así, siempre puedes añadir directamente tu URL desde Google.

Referencias[editar]

Enlaces externos[editar]