Comprender qué son las arañas web (crawlers)

Una araña web (crawler) es un programa o script automatizado que inspecciona la World Wide Web de una manera metódica y automatizada. Las arañas web son utilizadas principalmente para crear una copia de todas las páginas visitadas para su procesamiento posterior con un motor de búsqueda que creará un índice de las páginas descargadas para proveer búsquedas más rápidas. 

Los motores de búsqueda envían arañas y robots para visitar su sitio y recolectar páginas web. Cuando un robot visita un sitio web hace una de dos cosas: 

  • Busca el archivo robots.txt y la meta etiqueta robots para ver las “reglas” que se han establecido.

  • Comienza a crear un índice de las páginas web que hay en su sitio. 

El robot explora entonces el texto visible en la página, el contenido de varias etiquetas HTML y los hipervínculos enlistados en la página. Analizará y procesará la información de acuerdo al algoritmo diseñado por su propietario. Dependiendo del motor de búsqueda, la información es indexada y enviada a la base de datos del motor de búsqueda. 

Motores de búsqueda distintos utilizan diferentes robots como sus arañas web. Por ejemplo, Yahoo utiliza Slurp como su robot de indexación web. Google utiliza Googlebot para hacer lo propio y así sucesivamente. 

¿Tiene más preguntas? Enviar una solicitud

0 Comentarios

El artículo está cerrado para comentarios.
Tecnología de Zendesk