Les robots d’indexation ou web crawler

robots indexation

L’indexation

La plupart des web crawlers scrutent intégralement le net, mais il existe d’autres logiciels programmés pour ne rapporter que certaines informations. L’on sait ainsi que des robots ont été conçus pour la comparaison de prix ou la comparaison performance/prix par exemple. L’on recense également certains robots dits spambots réalisant l’archivage ou la collecte d’adresses électroniques pour en faire des spams.

L’indexation de nouvelles ressources se fait à partir d’une page pivot. Les hyperliens présents sur cette dernière sont suivis de manière récursive. Le robot d’indexation mémorise ensuite l’URL des ressources rencontrées et adapte sa fréquence de visite à leur fréquence de mise à jour.

Les robots d’indexation ou web crawler

Le terme robot d’indexation désigne un logiciel chargé d’explorer le net à la recherche de pages web, de vidéos, de documents ou de vidéos. Il permet au moteur de recherche d’indexer toutes les ressources présentes sur le web.

Connaître les robots

Les équipes MP6 interviennent pour rendre votre site aussi facile à indexer que pertinent sur vos mots-clés. Notre travail repose sur une appréhension complète de tous les aspects associés au référencement, de l’optimisation à la création de contenu. Nous utilisons le fonctionnement des robots d’indexation des grands moteurs de recherche pour fonder notre consulting et vous offrir un SEO de qualité.

Principe

Le robot d’indexation explore de manière automatique toutes les ressources du web. Il collecte les pages, les images, les vidéos ainsi que les documents afin de faciliter leur indexation par les moteurs de recherche.

Quelques erreurs

Il s’avère toutefois que de nombreuses ressources peuvent échapper aux web crawlers puisque ces derniers ne peuvent pas suivre tous les liens que contient l’immensité du web. Toutefois, ces liens sont en théorie visibles. La présence de pages dynamiques au sein d’un site, l’absence de liens dans les différentes pages d’un site, la nécessité d’obtenir une authentification pour avoir accès à un contenu, la présence d’éléments HTML frameset au lieu des body dans la conception des pages, l’application du langage JavaScript ou l’utilisation de données non prises en charge par les moteurs de recherche sont autant de raisons qui expliquent ce phénomène. La partie du web non soumise à l’indexation est appelée web profond.

Robots.txt

Il est également possible que les robots d’indexation suivent les règles du fichier d’exclusion robots.txt. Ce fichier est intégré dans la racine d’un site afin de fournir aux web crawlers une liste de ressources à éviter. Les bots ignorent dans ce cas les contenus listés par le robots.txt et ne crawlent pas les ressources considérées comme peu pertinentes ou inutiles. Ils allègent la charge du serveur web de cette manière.

Une énorme quantité d’informations

La quantité de données à traiter ainsi que la bande passante sont des éléments susceptibles de compliquer la tâche des robots d’indexation. L’essor d’Internet et la croissance permanente du nombre d’utilisateurs connectés ont en effet contribué à multiplier le volume de données hébergées sur le web. De plus, la complexité des pages mises en ligne ainsi que la modification fréquente de ces contenus rendent difficile le crawl effectué par les bots. Le débit disponible sur la bande passante n’a cependant pas progressé en même temps que la quantité de données à indexer. Il en résulte un débit de plus en plus limité pour le traitement d’un nombre d’informations de plus en plus croissant. Les web crawlers se trouvent ainsi dans l’obligation de classer leurs téléchargements par ordre de priorité.

Principe de sélection

Les robots d’indexation fonctionnent sur la base de différents principes. En premier lieu, un principe de sélection choisit les pages à télécharger. Un principe de re-visite choisit ensuite la fréquence de vérification de mise à jour des pages. Un principe de politesse défini les délais et permet d’éviter les surcharges de pages. Enfin, un principe de parallélisation se charge de coordonner les web crawlers.

Les robots d’indexation à l’heure du web 3.0

Le web 3.0 désigne la prochaine étape de transformation du web. La signification de l’expression n’est pas encore réellement définie. Toutefois, les spécialistes sont nombreux à y voir l’évolution du web actuellement connu. La plupart d’entre eux considèrent le web 3.0 comme celui des objets tandis que d’autres souhaitent en faire un web sémantique.

Le web des objets est considéré comme l’extension d’Internet dans le monde physique. Il prend la forme de puces RFID, d’étiquettes codées, mais également d’URL liées aux lieux et objets. Le web sémantique se résume quant à lui à la liaison ainsi qu’à la structuration de l’information présente sur le net afin d’en tirer la connaissance. Pour rappel, le web 1.0 désigne le web du début des années 90 avec des pages liées par des hyperliens tandis que le web 2.0désigne le web social matérialisé par les blogs, sites de discussion et autres réseaux sociaux.

L’arrivée imminente du web 3.0 contribuera à l’évolution des robots d’indexation. De nouveaux principes de recherche ainsi que des technologies avancées devront alors être mises en oeuvre. Les normes du web sémantique représenteront sans aucun doute la base des futurs web crawlers. Toutefois, les méthodes d’indexation de l’avenir devraient voir l’apparition de techniques associant les personnes aux machines. Elles seront évidemment plus intelligentes que celles connues à l’heure actuelle.

Les robots d’indexation actuellement utilisés sur le web

Heritrix est un logiciel programmé en langage Java créé de manière conjointe par les Bibliothèques nationales nordiques et Internet Archive, une société en charge de l’archivage du web. Il propose une interface accessible à partir d’un navigateur web et fonctionne en environnement Linux ou Windows. Sa dernière version a été publiée en mai 2012.

VoilaBot est le logiciel d’indexation utilisé par l’entreprise de télécommunications Orange.

HTTrack est un robot d’indexation distribué sous licence GPL. Il offre la possibilité de créer un miroir de site web. Les logiciels pouvant réaliser ce type d’action sont appelés aspirateurs de site web. Le fonctionnement de HTTrack est relativement simple, il copie un site afin de pouvoir l’utiliser hors ligne.

Googlebot est le web crawlers utilisé par Google et son moteur de recherche. Il permet le recensement ainsi que l’indexation des pages web. Il constitue l’un des bots les plus utilisés sur Internet en raison de la taille conséquente de l’index de Google. Il existe en version mobile afin de faciliter le crawl des contenus sur smartphones et tablettes.

Parmi les autres robots d’indexation sur le net, l’on peut également citer Scooter utilisé par l’ancien moteur de recherche AltaVista, le MSNBot qui a été conçu par MSN, Slurp qui est utilisé par Yahoo!, KB Crawl conçu et utilisé par KB Crawl SAS ou encore OmniExplorer_Bot de la société OmniExplorer. Outre ces quelques exemples, de nombreux autres web crawlers peuvent également être cités : ExaBot, MooveOnBot, glObotBot, VerticrawlBot, TwengaBot, GNU Wget et YacyBot.