Googlebot

GoogleBot, originalmente Google Crawler, mejor conocido como “Robots de Google” o “GoogleBots” es el nombre que recibe el robot de Google que se encarga de rastrear las diferentes páginas web que se encuentran en internet. Su función principal es encontrar contenido, evaluarlo, clasificarlo y por último indexarlos en las serps.

Cómo funciona Googlebot

El robot de google tiene la capacidad de rastrear continuamente millones de páginas web. Esto lo logra a través de los algoritmos del mismo Google donde identifica los sitios que debe rastrear, las páginas que se deben explorar a profundidad, con qué frecuencia debe hacerlo inclusive el tiempo que debe dedicar para conseguir páginas nuevas. A pesar de los numerosos e infinitos rastreos que puede realizar a gran velocidad, cumple con el objetivo de rastrear el mayor número de páginas sin saturar el servidor donde se encuentren ubicadas dichas páginas, evitando el colapso del ancho de banda del mismo. La frecuencia con la que debe rastrear cada página la determinará su algoritmo, en donde influyen más de 200 factores. (Factores que solo Google conoce). Solo algunos SEO pueden enumerar unos pocos basados en sus teorías prácticas.

Cómo bloquear a Googlebot

Si un webmaster no desea que su página sea analizada por un Bot, puede insertar un método llamado robots.txt, el cual evita que GoogleBot (y otros bots) investiguen una o varias páginas (o incluso todo el contenido en total) del sitio web.

Más información

GoogleBot descubre enlaces a otras páginas, y se dirige hacia ellos también, así puede abarcar toda la web fácilmente. Es el robot que utiliza Google para 'rastrear' los sitios de Internet. No solamente indexa páginas web (HTML), sino que también extrae información de ficheros PDF, PS, XLS, DOC y algunos otros más.

La frecuencia con la que Googlebot accede a un sitio web depende del PageRank de éste. Mientras mayor sea este valor, el robot accederá más asiduamente a sus páginas.

Por ejemplo, podemos probar que los sitios con PR10 (el valor más alto), como yahoo.com o usatoday.com, han sido 'rastreados' por GoogleBot ayer o incluso o hoy mismo, mientras que otros han sido accedidos hace varias semanas. Esto se puede comprobar accediendo al 'cache' de esta página.

DeepBot

Googlebot tiene dos versiones, DeepBot y FreshBot. DeepBot investiga profundamente tratando de seguir cualquier enlace de una página, además de poner tal página en el caché, y dejarla disponible para Google. En marzo del 2006, completaba este proceso en casi un mes.

FreshBot

Freshbot investiga la web buscando contenido nuevo. Visita sitios que cambian frecuentemente. Idealmente, el FreshBot visitará la página de un periódico todos los días, mientras que la de una revista cada semana, o cada 15 días. Así, por ejemplo, puede captar noticias que recién hayan ocurrido, sin tener que esperar semanas.

Comprobación

Para comprobar si GoogleBot ha accedido a nuestro sitio web, deberemos echar un vistazo a los logs de nuestro servidor. En ellos, deberemos observar si hay registros de accesos en los que aparezca 'GoogleBot'. Generalmente aparecerá el nombre del servidor, el cual podrá ser alguno de estos:

 SERVIDOR	         DIRECCION IP's
 
 crawl1.googlebot.com	              216.239.46.20
 
 crawl2.googlebot.com	              216.239.46.39
 
 crawl3.googlebot.com	              216.239.46.61
 
 crawl4.googlebot.com	              216.239.46.82
 
 crawl9.googlebot.com	              216.239.46.234
 
 crawler1.googlebot.com	          64.68.86.9
 
 crawler2.googlebot.com	          64.68.86.55
 
 crawler14.googlebot.com	          64.68.82.138

 crawl-66-249-75-69.googlebot.com    66.249.75.69

Una vez que Googlebot haya 'rastreado' nuestra página, seguirá los enlaces que en ella encuentre (los HREF y los SRC).

Por lo tanto, si quieres que GoogleBot indexe tu página web, solamente es necesario que algún otro sitio tenga un enlace al tuyo. Si no es así, siempre puedes añadir directamente tu URL desde Google.

Referencias

Enlaces externos

Datos: Q1425771