Estándar de exclusión de robots
De Wikipedia, la enciclopedia libre
| El texto que sigue es una traducción defectuosa o incompleta. Si deseas colaborar con Wikipedia, busca el artículo original y mejora o finaliza esta traducción. Puedes dar aviso al autor principal del artículo pegando el siguiente código en su página de discusión: {{subst:Aviso maltraducido|Estándar de exclusión de robots}} ~~~~ |
El estándar de exclusión de robots, también conocido como el protocolo de la exclusión de robots o protocolo de robots.txt es un método para evitar que ciertos bots que analizan los sitios Web u otros robots que investigan todo o una parte del acceso de un sitio Web, público o privado. Los robots son de uso frecuente por los motores de búsqueda categorizar y los sitios Webs del archivo, o por los webmasters para corregir su código fuente.
Contenido |
[editar] El archivo robots.txt
Un archivo robots.txt en un sitio web funcionará como una petición que especifica que determinados robots no hagan caso a archivos o directorios específicos en su búsqueda. Esto puede estar, por ejemplo, fuera de una preferencia por aislamiento de resultados de una búsqueda avanzada, o de la creencia que el contenido de los directorios seleccionados pudo ser engañoso o inaplicable a la clasificación del sitio en su totalidad, o fuera de un deseo que un uso funciona solamente encendido ciertos datos.
[editar] Desventajas
El protocolo, sin embargo, es puramente consultivo. Confía en la cooperación de los robots del sitio Web, de modo que marca un área de un sitio fuera de los límites con robots.txt no garantice aislamiento. Algunos administradores de sitios web han intentado utilizar el archivo robots.txt para hacer de algunas secciones privadas de un sitio web invisibles al resto del mundo, pero el archivo está necesariamente disponible en forma pública y su contenido puede ser visto fácilmente por cualquier persona con un navegador Web.
No hay cuerpo de los estándares o RFC oficial para el protocolo de robots.txt. Fue creado por consenso en junio de 1994 por los miembros de robots que enviaban la lista (robots-request@nexor.co.uk). La información que especifica las piezas que no deben ser alcanzadas se especifica en un archivo llamado robots.txt en el directorio a nivel superior del sitio Web. Los patrones de robots.txt son emparejados por comparaciones simples de la subsecuencia, así que el cuidado se debe tomar para cerciorarse de que los directorios de la concordancia con el modelo tienen “/” del final carácter añadido, si no todos los archivos con nombres comenzando con esa subsecuencia emparejarán, más bien que apenas ésos en el directorio previsto.
[editar] Ejemplos
- Este ejemplo permite que todos los robots visiten todos los archivos que se encuentran almacenados en el código raíz de la página web porque el comodín “*” especifica todos los robots:
User-agent: * Disallow:
Cabe destacar que el comodín (*) significa "ALL" o en lo sucesivo en español "TODOS"
- Este ejemplo les niega el acceso a todos los bots (implementando el comodin [*], en todos los archivos almacenados en el directorio raíz:
User-agent: * Disallow: /
Cabe destacar que el comodín (/), le niega el acceso la entrada al bot.
- El siguiente es un ejemplo que dice todos los subdirectorios que incluyan el comodín (/), deben de ser bloqueadas solamente, y exceptúa a todos los demás archivos que no contienen un comodín, para su revisión:
User-agent: * Disallow: /cgi-bin/ Disallow: /images/ Disallow: /tmp/ Disallow: /private/
[editar] Observaciones
El robots de los buscadores, son sensibles a las mayúsculas y minúsculas, es importante agregarlos tal y como se especifica aquí, para una buena programación y entendimiento (Robot-Servidor)

