Protéger certains sous-répertoires d'être analysés par un crawler web

Niveau d'expertise: Médium 

Protéger les sous-répertoires des web crawlers à l'aide du refus d'option du fichier robots.txt.

Les propriétaires des sites web utilisent le fichier /robots.txt pour donner des consignes concernant leurs sites aux robots. Lorsqu'un robot désire visiter un site web, par exemple : http://www.exemple.com/bienvenue.html. doit, avant de le faire vérifier le robots.txt, exemple : http://www.exemple.com/robots.txt, où il trouvera ceci :

User-agent: *
Disallow: /


(disallow: refuser)

Les directives robot pour Disallow/Allow (Refuser/Permettre sont sensibles à la casse. Veuillez utiliser des majuscules si nécessaire lorsque vous inscrivez votre site web.

Les symboles supplémentaires autorisés dans les directives robots.txt sont:

  • '*' - correspond à une séquence de caractères

    Exemple de '*':

    User-agent: Slurp
    Allow: /public*/
    Disallow: /*_print*.html
    Disallow: /*?sessionid

    User-agent = Agent-utilisateur
    Allow = Permettre
    Disallow = Refuser 

    Voici l'explication des directives ci-dessus :

    1. Permettre à tous les répertoires qui commencent par "public" d'être explorés (crawled).
    Exemple: /public_html/ or /public_graphs/
    2. Refuser les fichier ou les répertoires qui contiennent "_print" d'être explorés (crawled).
    Exemple: /card_print.html ou /store_print/product.html
    3. Refuser l'exploration (crawling) des fichiers qui contiennent "?sessionid" dans leur chaîne URL.
    Exemple: /cart.php?sessionid=342bca31

 

  • '$' - des ancres à la fin de la chaîne URL

    Exemple of '$':

    User-agent: Slurp
    : /*.gif$
    Allow: /*?$


    Voici l'explication des directives ci-dessus :

    1. Refuser le crawling de tous les fichiers se terminant en '.gif' dans votre site web.
    Note: Supprimer les' $ 'équivaudrait à refuser tous les fichiers contenant ". Gif" dans leur chemin d'accès au fichier.

    2. Permettre à tous les fichiers se terminant en '?' d'être inclus.
    Cela ne permettrait pas l'accès des fichiers qui contiennent seulement "?" quelque part dans la chaîne URL.

Il y a deux considérations importantes lors de l'utilisation de /robots.txt:

  • Les robots peuvent ignorer les /robots.txt. En particulier les robots malveillants, qui scrutent le web pour déceler des faiblesses dans la sécurité ou ceux qui cherchent des adresses courriel pour expédier des spams.
  • Le fichier /robots.txt est disponible au public. N'importe qui peut savoir quelles sections vous voulez protéger des robots.
Vous avez d’autres questions ? Envoyer une demande

0 Commentaires

Cet article n'accepte pas de commentaires.
Réalisé par Zendesk