Diferencia entre revisiones de «Estándar de exclusión de robots»
Estandar Etiquetas: Edición visual Edición desde móvil Edición vía web móvil |
Sin resumen de edición |
||
Línea 1: | Línea 1: | ||
El '''estándar de exclusión de robots''', también conocido como el '''protocolo de la exclusión de robots''' o '''protocolo de ''robots.txt''''' es un método para [[evitar]] que ciertos ''[[bot]]s'' que analizan los [[Sitio Web|sitios Web]] u otros robots que investigan todo o una parte del acceso de un sitio Web, público o privado, agreguen información innecesaria a los resultados de búsqueda. Los robots son de uso frecuente por los motores de búsqueda para categorizar archivos de los sitios Webs, o por los ''[[webmaster]]s'' para corregir o filtrar el [[código fuente]]. |
El '''estándar de exclusión de robots''', también conocido como el '''protocolo de la exclusión de robots''' o '''protocolo de ''robots.txt''''' es un método para [[evitar]] que ciertos ''[[bot]]s'' que analizan los [[Sitio Web|sitios Web]] u otros robots que investigan todo o una parte del acceso de un sitio Web, público o privado, agreguen información innecesaria a los resultados de búsqueda. Los robots son de uso frecuente por los motores de búsqueda para categorizar archivos de los sitios Webs, o por los ''[[webmaster]]s'' para corregir o filtrar el [[código fuente]]. |
||
== El archivo ''robots.txt'' == |
|||
Un archivo ''robots.txt'' en un sitio web funcionará como una petición que especifica que determinados robots no hagan caso a [[Archivo (informática)|archivos]] o [[Directorio|directorios]] específicos en su búsqueda. Esto puede realizarse, por ejemplo, para dejar fuera de una preferencia los resultados de una búsqueda avanzada, o de la creencia que el contenido de los directorios seleccionados puede ser engañoso o inaplicable a la clasificación del sitio en su totalidad. |
|||
== Desventajas == |
== Desventajas == |
Revisión del 06:44 16 oct 2016
El estándar de exclusión de robots, también conocido como el protocolo de la exclusión de robots o protocolo de robots.txt es un método para evitar que ciertos bots que analizan los sitios Web u otros robots que investigan todo o una parte del acceso de un sitio Web, público o privado, agreguen información innecesaria a los resultados de búsqueda. Los robots son de uso frecuente por los motores de búsqueda para categorizar archivos de los sitios Webs, o por los webmasters para corregir o filtrar el código fuente.
Desventajas
Este protocolo es consultivo. Confía en la cooperación de los robots del sitio Web, de modo que marca una o más áreas de un sitio fuera de los límites de búsqueda con el uso de un archivo robots.txt, aunque éste no necesariamente garantice aislamiento completo. Algunos administradores de sitios Web utilizan el archivo robots.txt para hacer algunas secciones privadas, invisibles al resto del mundo, pero dado que los archivos están disponibles en forma pública, su contenido podría ser visto de todas maneras por cualquier persona con un navegador Web y conocimientos medianamente avanzados. En algunos casos el incluir un directorio en este archivo le anuncia su presencia a posibles hackers, así ellos pueden determinar fácilmente algunos softwares usados en el sitio mediante buscar "huellas típicas" en el robots.txt.
Ejemplos
- Este ejemplo permite que todos los robots visiten todos los archivos que se encuentran almacenados en el código raíz de la página web porque el comodín * especifica todos los robots:
User-agent: * Disallow:
Cabe destacar que el comodín (*) significa "ALL" (en español «todos»)
- Este ejemplo les niega el acceso a todos los bots (implementando el comodín [/]), en todos los archivos almacenados en el directorio raíz:
User-agent: * Disallow: /
Cabe destacar que el comodín (/), le niega el acceso la entrada al bot.
- Este ejemplo permite el acceso a un solo bot:
User-agent: Unsolobot # Donde Unsolobot es el nombre del bot al que le queremos permitir el acceso Disallow: User-agent: * Disallow: /
- El siguiente es un ejemplo que dice que todos los subdirectorios que incluyan el comodín (/) deben ser bloqueados, únicamente éstos, exceptuando a todos los demás archivos y directorios que no contienen un comodín, para su revisión:
User-agent: * Disallow: /cgi-bin/ Disallow: /images/ Disallow: /tmp/ Disallow: /private/
- Ejemplo que dice a un robot específico no entrar en un directorio
User-agent: BadBot # sustituir 'BadBot' con el nombre del bot Disallow: /private/
- Ejemplo que dice a todos los bots no entrar en un archivo en concreto
User-agent: * Disallow: /directory/file.html
El resto de archivos del directorio seguirán estando disponibles
- Ejemplo usando comentarios
# Los comentarios aparecen tras el símbolo "#"al comienzo de una línea o al final de un directorio User-agent: * # todos los bots Disallow: / # impedir su entrada
robots.txt de una página ficticia
User-agent: * Disallow:/portal/ Disallow:/portal/ Disallow:/wp-* Disallow:/?FICTICIA=LADRONES=MONOPOLIO Disallow:/?Monopolio Disallow:/?Ficticia Disallow:/? Disallow:/?* Disallow:/author/ Disallow:/category/ Disallow:/portal/ Disallow:/search/ Disallow:/home2/ Disallow:/sg0-no-tocar/ Disallow:/sg1-no-tocar/ Disallow:/sg2-no-tocar/ Disallow:/sg3-no-tocar/ Disallow:/sg4-no-tocar/ Disallow:/sg5-no-tocar/ Disallow:/sg-5-no-tocar/ Disallow:/sg-4-no-tocar/ Disallow:/sg-3-no-tocar/ Disallow:/sg-2-no-tocar/ Disallow:/sg-1-no-tocar/ Disallow:/sg* Disallow:/search/search-es.jsp?texto=<a href="">ladrones</a> Disallow:/search/search-es.jsp?texto=%3Cscript%3Ealert(%22efectivamente,%20somos%20unos%20ladrones%22);%3C/script%3E Disallow:/search/search-es.jsp?texto=%3Ch1%3ESomos%20unos%20ladrones%20salgamos%20primeros%20en%20google%20o%20no%3C/h1%3E Disallow:/search/search-es.jsp?texto=%3Ca%20href=%22%22%3Eladrones%3C/a%3E Disallow:/?utm_source=example.com/blog
Observaciones
Los robots de los buscadores son sensibles a las mayúsculas y minúsculas, es importante agregarlos tal y como aparecen listados en el servidor, para una buena programación y entendimiento (robot-servidor).