Diferencia entre revisiones de «Googlebot»

← Ir a diferencia anterior Ir a siguiente diferencia →

Contenido eliminado Contenido añadido

En renglón

Revisión del 20:13 24 jul 2013

Googlebot es el robot de búsqueda usado por Google. Colecciona documentos desde la web para construir una base de datos para el motor de búsqueda Google.

Si un webmaster no quiere que su página sea descargada por un Googlebot, puede insertar un texto llamado robots.txt, el cual puede hacer que Googlebot (y otros bots) no investiguen una o varias páginas o incluso todo el sitio web.

Googlebot tiene dos versiones, deepbot y freshbot. Deepbot investiga profundamente, tratando de seguir cualquier enlace en esa página, además de poner esta página en el caché, y dejarla disponible para Google. En Marzo del 2006, completaba este proceso en casi un mes. Freshbot investiga la web buscando contenido nuevo. Visita sitios que cambian frecuentemente. Idealmente, el freshbot visitará la página de un periódico todos los días, mientras que la de una revista cada semana, o cada 15 días.

Googlebot descubre enlaces a otras páginas, y se dirige hacia ellos también, así puede abarcar toda la web fácilmente.

Enlaces externos

FAQ oficial de Googlebot

Googlebot es el robot que utiliza Google para 'rastrear' los sitios de Internet. No solamente indexa páginas web (HTML), sino que también extrae información de ficheros PDF, PS, XLS, DOC y algunos otros más.

La frecuencia con la que Googlebot accede a un sitio web depende del PageRank de éste. Contra mayor sea este valor, el robot accederá más asiduamente a sus páginas.

Por ejemplo, podemos comprobar que los sitios con PR10 (el valor más alto), como yahoo.com o usatoday.com, han sido 'rastreados' por Googlebot ayer o incluso o hoy mismo, mientras que otros han sido accedidos hace varias semanas. Esto se puede comprobar accediendo al 'cache' de esta página.

Para comprobar si Googlebot ha accedido a nuestro sitio web, deberemos echar un vistazo a los logs de nuestro servidor. En ellos, deberemos observar si hay registros de accesos en los que aparezca 'googlebot'. Generalmente aparecerá el nombre del servidor, el cual podrá ser alguno de estos:

SERVIDOR DIRECCION IP crawl1.googlebot.com 216.239.46.20 crawl2.googlebot.com 216.239.46.39 crawl3.googlebot.com 216.239.46.61 crawl4.googlebot.com 216.239.46.82 ... ... crawl9.googlebot.com 216.239.46.234 crawler1.googlebot.com 64.68.86.9 crawler2.googlebot.com 64.68.86.55 ... ... crawler14.googlebot.com 64.68.82.138 Googlebot intentará acceder, como hacen la mayoría de los robots de los motores de búsqueda, al fichero 'robots.txt'. En este archivo se deberán indicar las zonas de nuestro sitio web donde no queremos que entre ni Googlebot ni el resto de los buscadores. Para conocer más sobre 'robots.txt', existe un magnígico recurso: www.robotstxt.org.

Una vez que Googlebot haya 'rastreado' nuestra página, seguirá los enlaces que en ella encuentre (los HREF y los SRC).

Por lo tanto, si quieres que Googlebot indexe tu página web, solamente es necesario que algún otro sitio tenga un hiperenlace al tuyo. Si no es así, siempre puedes añadir directamente tu URL.

Además de este robot GoogleBot, existe otro, llamado FreshBot que 'rastrea' con mayor frecuencia los sitios webs con las noticias 'más frescas'. Googlebot Googlebot es el robot de rastreo web de Google (en ocasiones, también denominado "araña"). El rastreo es el proceso mediante el cual Googlebot descubre páginas nuevas y actualizadas y las añade al índice de Google.

Utilizamos una enorme cantidad de equipos informáticos para obtener (o "rastrear") miles de millones de páginas de la Web. Googlebot utiliza un proceso de rastreo algorítmico: a través de programas informáticos se determinan los sitios que hay que rastrear, la frecuencia y el número de páginas que hay que buscar en cada sitio.

El proceso de rastreo de Googlebot comienza con una lista de URL de páginas web generada a partir de procesos de rastreo anteriores y se amplía con los datos de los sitemaps que ofrecen los webmasters. A medida que Googlebot visita cada uno de esos sitios web, detecta enlaces (SRC y HREF) en sus páginas y los añade a la lista de páginas que debe rastrear. Los sitios nuevos, los cambios en los existentes y los enlaces obsoletos se detectan y se utilizan para actualizar el índice de Google.

Para webmasters: Googlebot y tu sitio

Cómo accede Googlebot a tu sitio

De media, Googlebot no suele acceder a la mayoría de los sitios más de una vez cada pocos segundos. Sin embargo, debido a los retrasos de la red, esta frecuencia puede parecer ligeramente superior durante breves períodos de tiempo. Por lo general, Googlebot descarga una sola copia de cada página de forma simultánea. Si detectas que Googlebot descarga la misma página varias veces, es probable que esto se deba a la detención y al reinicio del rastreador.

Googlebot está diseñado para distribuirse en varios equipos con el fin de mejorar el rendimiento y el alcance a medida que la Web se desarrolla. Además, para reducir el uso del ancho de banda, muchos de los rastreadores se ejecutan en equipos ubicados cerca de los sitios que indexan en la red. Por tanto, es posible que tus registros muestren visitas de varios equipos a la página google.com, en todos los casos con Googlebot como "user-agent". Nuestro objetivo consiste en rastrear el mayor número posible de páginas de tu sitio en cada visita sin colapsar el ancho de banda de tu servidor. Solicita la modificación de la frecuencia de rastreo.

Cómo bloquear el acceso de Googlebot al contenido de tu sitio

Resulta prácticamente imposible no publicar enlaces a un servidor web para mantenerlo en secreto. En el momento en que un usuario utilice un enlace de tu servidor "secreto" para acceder a otro servidor web, tu URL "secreta" podrá aparecer en la etiqueta de referencia, y el otro servidor web podrá almacenarla y publicarla en su registro de referencia. Además, la Web contiene un gran número de enlaces obsoletos y dañados. Siempre que se publique un enlace incorrecto a tu sitio o que los enlaces no se actualicen correctamente para reflejar los cambios realizados en tu servidor, Googlebot tratará de descargar un enlace incorrecto de tu sitio.

Dispones de varias opciones para evitar que Googlebot rastree el contenido de tu sitio, incluido el uso del archivo robots.txt para bloquear el acceso a los archivos y a los directorios de tu servidor.

Es posible que Googlebot tarde un tiempo en detectar los cambios una vez que hayas creado el archivo robots.txt. Si Googlebot sigue rastreando contenido bloqueado en el archivo robots.txt, comprueba que la ubicación de este archivo sea correcta. El archivo robots.txt se debe ubicar en el directorio principal del servidor (por ejemplo, www.mihost.com/robots.txt), ya que su inclusión en un subdirectorio no tendrá ningún efecto.

Si solo quieres evitar que aparezcan en el registro de tu servidor web mensajes de error en los que se indique que no se puede encontrar el archivo, crea un archivo vacío con el nombre "robots.txt". Para evitar que Googlebot siga los enlaces a una página de tu sitio, utiliza la metaetiqueta nofollow. Para evitar que Googlebot siga un enlace específico, añade el atributo rel="nofollow" al enlace.

A continuación se indican otras sugerencias:

Comprueba si tu archivo robots.txt funciona correctamente. La herramienta Probar robots.txt de la pestaña URL bloqueadas (robots.txt) de la página Acceso de rastreadores te permite comprobar cómo interpretará exactamente Googlebot el contenido de tu archivo robots.txt. El robot "user-agent" de Google es, muy apropiadamente, Googlebot. La herramienta Explorar como Google de las Herramientas para webmasters de Google te permite comprobar cómo ve exactamente tu sitio Googlebot. Esta herramienta puede resultarte muy útil para la resolución de incidencias relacionadas con el contenido del sitio o con su visibilidad en los resultados de búsqueda. Cómo asegurarse de que se pueda rastrear tu sitio

Googlebot encuentra sitios siguiendo enlaces entre páginas. En la página Errores de rastreo de las Herramientas para webmasters de Google se indican los problemas detectados por Googlebot al rastrear tu sitio. Te recomendamos que consultes con regularidad esos errores de rastreo para identificar los problemas relacionados con tu sitio.

Si estás ejecutando una aplicación AJAX con contenido que quieres que aparezca en los resultados de búsqueda, te recomendamos que consultes nuestra propuesta sobre cómo hacer que el contenido basado en AJAX se pueda rastrear e indexar.

Si tu archivo robots.txt funciona correctamente, pero el sitio no presenta tráfico, es posible que la posición del contenido en las páginas de resultados no sea buena por alguno de los motivos que se indican a continuación.

Incidencias relacionadas con emisores de spam y con otros user-agents

Las direcciones IP que utiliza Googlebot varían cada cierto tiempo. La mejor forma de identificar los accesos de Googlebot es utilizar el robot "user-agent" (Googlebot). Para comprobar si el robot que accede a tu servidor es realmente Googlebot, realiza una búsqueda DNS inversa.

Googlebot, al igual que el resto de robots de los motores de búsqueda acreditados, respetará las directrices del archivo robots.txt, pero es posible que algunos emisores de spam y otros usuarios malintencionados no las respeten. Informa sobre actividades fraudulentas a Google.

Google también dispone de otros user-agents, como Feedfetcher (user-agent: Feedfetcher-Google). Las solicitudes de Feedfetcher proceden de acciones explícitas realizadas por usuarios que han añadido feeds a la página principal de Google o a Google Reader (y no de rastreadores automatizados), por lo que Feedfetcher no sigue las directrices del archivo robots.txt. Para evitar que Feedfetcher rastree tu sitio, configura tu servidor para que muestre mensajes de estado de error 404 o 410 o de cualquier otro tipo al user-agent Feedfetcher-Google. Para obtener más información sobre Feedfetcher, consulta esta página.

Todos ebjetos por Este"Coins":<Dinero> 89598595955