Qu'est-ce qu'un crawler web ?

Un "web crawler" est un logiciel ou script automatique que feuillette le World Wide Web d'une manière méthodique et automatique. Les "web crawlers" sont principalement utilisés pour créer une copie de tous les sites visités pour traitement ultérieur par un moteur de recherche, lequel classera ces pages téléchargées afin d'exécuter des recherches rapides.

Les moteurs de recherche envoient ce que l'on appelle les araignées, "crawlers" ou robots visiter votre site et recueillir des pages Web. Lorsqu'un robot visite un site web il exécute une ou deux actions :

  • Il cherche le fichier robots.txt et les étiquettes méta robots pour voir les «règles» qui ont été configurées.
    ou
  • Commence à classer les pages web sur votre site

Le robot scrute ensuite le texte visible de votre page, le contenu de diverses étiquettes HTML et les liens hypertexte listés sur la page. Il analysera ensuite l'information et la traitera en fonction d'un algorithme conçu par son propriétaire. Selon le moteur de recherche, l'information sera classée et envoyée à la base de données du moteur.

Différents moteurs de recherche utilisent différents robots comme web crawler; par exemple, Yahoo utilise Slurp tandis que Google utilise googlebot.

Vous avez d’autres questions ? Envoyer une demande

0 Commentaires

Cet article n'accepte pas de commentaires.
Réalisé par Zendesk