Moteurs de recherche sur internet

Principe des moteurs de recherche
Les moteurs de recherche sont des sites qui lancent des requêtes sur une base de données constituée de façon automatique d'après le contenu des pages recensées par les "spiders", outils qui parcourent régulièrement le web en se basant sur les liens hypertextes.

On peut avoir une idée de ce que "voit" un spider sur le site http://www.spider-simulator. Les données contenues dans les pages rencontrées sont indexées et pondérées automatiquement, selon différents critères qui varient selon les outils :


 * structuration du code "source" de la page (les termes reçoivent une pondération plus ou moins importantes selon les "zones" de la page où ils sont placés.
 * "notoriété" de la page (déterminée par le nombre de liens hypertexte pointant vers celle-ci)
 * fréquentation de la page.

Lorsque l'on interroge un moteur de recherche, c'est dans cette base préconstituée qu'il va puiser pour proposer une liste de réponses, triées en fonction de leur adéquation supposée (c'est à dire calculée) avec la question. Chaque moteur a sa propre méthode de tri - jalousement gardée...

Limites
Les performances des moteurs s'accroissent régulièrement (cf http://www.searchenginewatch.com/reports/ ). Mais le nombre de pages web est en progression constante et aucun moteur ne peut toutes les indexer :


 * Les robots ne peuvent pas parcourir toutes les pages existantes : ils faut qu'au moins un lien les conduisent sur une page donnée (cf la théorie du noeud papillon).
 * délai de mise à jour (entre 2 visites d'un robot à une page web ) : de 1 jour à quelques semaines. Ainsi des bases très importantes peuvent contenir des informations périmées(demandez par exemple à un moteur de recherche le "compte rendu du dernier conseil des ministres" : il est peu probable qu'il vous propose celui de mercredi dernier).
 * Il existe un "web invisible" qui ne peut pas, du fait de sa structure, être consulté par les moteurs de recherche "classiques")

Quant aux résultats proposés par les moteurs, ils sont souvent très pertinents et génèrent relativement peu de "bruit" ( réponses sans rapport avec la question), mais :


 * il y a beaucoup de "silence", pour les raisons évoquées ci-dessus et parce que la structuration des pages HTML ne permet pas une indexation très poussée des documents (cf le cours sur la gestion de site) ;
 * et seul l'esprit humain est capable de juger de la qualité de l'information trouvée.