Evitar que los subdirectorios seleccionados sean indexados por un webcrawler

Nivel de expertise: Medio


Se puede evitar que las arañas web (webcrawlers) accedan a ciertos directorios de su sitio web usando la opción desactivar en su archivo robot.txt
Los dueños de sitios web usan el archivo /robots.txt para dar instrucciones sobre su sitio a los robots web. Funciona así: un robot quiere visitar el URL de un sitio web (ejemplo: http://www.example.com/welcome.html). Antes de hacerlo, el robot busca http://www.example.com/robots.txt, y encuentra:

User-agent: *
Disallow: /


El "User-agent: *" significa que esta sección se aplica a todos los robots. El "Disallow: /" le dice al robot que no debe visitar ninguna página en el sitio. Si usted necesita evitar que los robots accedan al directorio cgi-bin, use las siguientes líneas en su archivo robot.txt:

User-agent: *
Disallow: /cgi-bin/

Las directivas para el robot para Disallow/Allow son sensibles a mayúsculas y minúsculas. Use las mayúsculas necesarias para hacer coincidir el nombre de su sitio.

Entre los símbolos adicionales permitidos en las directivas para el robot.txt se incluyen:


  • '*' – hace coincidir una secuencia de caracteres

Ejemplo de '*':

User-agent: Slurp
Allow: /public*/
Disallow: /*_print*.html
Disallow: /*?sessionid

 

  • Las anteriores directivas para robots:


1. Permiten que todos los directorios que inician con “public” sean indexados.
Ejemplo: /public_html/ o /public_graphs/
2. Desautorizan archivos o directorios que contengan "_print" para no ser indexados.
Ejemplo: /card_print.html o /store_print/product.html
3. Desautorizan archivos con "?sessionid" en su cadena de URL para que no sean indexados.
Ejemplo: /cart.php?sessionid=342bca31
'$' – ancla al final de la cadena del URL

  • Ejemplo de '$':
User-agent: Slurp
Disallow: /*.gif$
Allow: /*?$

Las anteriores directivas para el robot:

1. Desautorizan todos los archivos terminados en '.gif' en todo su sitio.
Nota: Omitir el '$' desautorizaría todos los archivos que contengan '.gif' en su ruta de archivo.
2. Permiten que todos los archivos que terminen en '?' sean incluidos. Esto no autorizaría a cualquier archivo que simplemente contenga '?' en alguna parte de la cadena del URL.


Hay dos consideraciones importantes cuando use el archivo /robots.txt:
Los robots pueden ignorar el archivo /robots.txt. Especialmente, los robots de malware que escanean la web buscando vulnerabilidades en la seguridad y los buscadores de direcciones de correo electrónico, no le pondrán atención.
El archivo /robots.txt está disponible al público. Cualquiera puede ver qué secciones de su servidor usted no quiere que usen los robots.

¿Tiene más preguntas? Enviar una solicitud

0 Comentarios

El artículo está cerrado para comentarios.
Tecnología de Zendesk