Les moteurs de recherche

Le
principe de fonctionnement
Exemples de formulation de recherche
La logique Booléenne
Les principaux moteurs de recherche
Les principaux annuaires
La quantité astronomique d'information présente sur Internet est estimée
à plus de 500 millions de documents, avec un abondant renouvellement quotidien.
Alors comment s'y retrouver ?
Les moteurs de recherche sont indispensables pour donner une existence
concrète à l'Internet , ceux sont des machines spécifiques ( matériel et
logiciel ) qui visitent tous les sites, index, trient le contenu et classent les
pages pour vous permettre de trouver en quelques secondes les informations que
vous cherchez .
Si certains sites sont périodiquement remis à jour, d'autres apparaissent
un jour et disparaissent le lendemain. L'actualisation des documents est donc
très importante .
Aucun des moteurs de recherche ne peuvent actuellement scruter la totalité
de l'Internet, et chacun d'entre eux adoptent une stratégie différente pour
revisiter les site déjà indexés en en redécouvrir des nouveaux. Quelques
moteurs peuvent malgré tout calculer la fréquence de rafraîchissement des
pages les plus visitées. Un moteur mettra deux semaines à un mois pour boucler
"sa tournée" et revenir sur un site .
Le principe de fonctionnement d'un moteur de recherche
.
Des robots explorent tous les sites Web et examinent des millions de pages
pour constituer des bases de données associant des adresses à des mots clés .
L'utilisateur d'un moteur de recherche remplit le formulaire sur son
navigateur , en formulant sa requête à l'aide des opérateurs booléens
"et","ou" ,"not",etc... .
La requête est traduite en langage SQL puis le moteur de recherche effectue,
si nécessaire un travail linguistique sur les termes de la demande .

La réponse du moteur recherche apparaît à travers le navigateur sous la
forme d'une liste de liens suivis par le début du texte de la page .

Les réponses trouvées dans la base de données sont classées selon un
pourcentage de pertinence . Si elle répondent à tous les mots de la requête
,ce pourcentage est de 100%. Il diminue si tous les mots ne sont pas pris en
compte

Le premier risque d'une recherche est le silence , c'est à dire le manque de
résultat pertinent , il faut donc élargir sa recherche avec des synonymes et
des mots apparentés.
La recherche comporte un autre risque , qui constitue à obtenir trop de
réponses . Ce phénomène s'appelle le bruit , au sein du requête donnée, les
mots exclus jouent un rôle aussi important que les mots inclus et permettent de
limiter le bruit .
Exemples
de formulation de recherche |
type de recherche |
Type de requète à
utiliser |
Un nom propre ou une phrase distincte ? |
Dupont ou "la chimie du
pétrole" |
Le sujet recherché est commun et peut
avoir plusieurs sens |
Utilisez le "AND" booléen ou le
"NEAR" pour limiter la recherche : commerce AND Internet |
Vous ne voulez pas voir apparaître
certains mots |
Utilisez le "AND NOT" : commerce
AND NOT dollar |
Le mot recherché possède des synonymes,
des orthographes ou des traductions différentes |
Utilisez le "OR" : physique OR
physic |
Vous recherchez la page d'accueil d'une
organisation ou d'une société bien connue . |
Limitez votre champ de recherche au titre
du document titre :"Total" |
Vous recherchez les différentes
terminaisons possibles d'un mot |
Utilisez la notion de troncature : femini*
Le moteur recherchera
"féminin","féministe","féminisme","féminine" |
Votre clé est sensible aux majuscules |
Les mots écrits en minuscules recherchent
aussi bien les majuscules que les minuscules. Les majuscules sont
utilisées strictement . |
La
logique Booléenne |
Opérateur |
Définition |
Exemple |
AND |
Renvoie les documents communs à deux
sujets en limitant la recherche à leur partie commune |
France AND industrie
envoie les documents qui contiennent à la fois "France" et
"industrie" |
OR |
Permet de rechercher les documents
traitant au moins un des sujets présents . |
assurances OR banques
envoie les documents contenant soit assurances soit banques soit les deux
à la fois . |
NOT |
Exclut le sujet qui le suit |
juridique NOT these
délivre tous les documents contenant le mot juridique , excluant ceux qui
comprennent le mot these . |
NEAR |
Utilisé pour retrouver des documents
contenant soit les deux mots clés , soit des expressions de "x"
mots dont le sens est proche des deux mots clés .. |
Economy NEAR software
pourra indiquer Borland, Novell, Microsoft mais aussi les documents
économiques sur l'indutrie du logiciel . |
Guillemets ("") |
Si vous tapez des guillemets autour d'un
groupe de mots , le moteur les interprète comme une phrase et non comme
des mots séparés . |
"la chimie du
pétrole en France" force le moteur à trouver le
résultat contenant tous ces mots dans l'ordre . |
Essentiel/Exclure |
Taper les symboles "+" et
"-" devant les mots clés les identifie comme essentiel(+) ou
les exclut(-) de votre recherche . |
economie +financier-personnel
garantit que le mot "financier" figure dans toutes les pages
trouvées et que "personnel" n'est dans aucune d'elles . |
Les
principaux moteurs de recherche |
Nom et éditeur |
Sites Web |
Commentaires |
AltaVista de Digital |
www.altavista.digital.com |
Accessible depuis décembre 95 et associé avec Yahoo depuis
96, il comporte plus de 30 millions de pages .Son logiciel robot ,
baptisé Scooter possède une indexation intégrale ,laquelle occupe près
de 60 Go d'espace disque . |
Ecila |
www.ecila.com |
Moteur de recherche disponible en français, utilisé
surtout sur les sites supportant une grande quantité d'information . |
Excite |
www.excite.com |
Lancé en 95, Excite s'est rapidement développé en misant
sur la publicité |
HotBot de Wired Digital |
www.hotbot.com |
HotBot référence plus de 50 millions de pages. |
Lycos |
www.lycos.com |
Crée par la Carnegie Mellon University, Lycos teste la
pertinence d'une adresse selon la fréquence d'apparition. |
Infoseek |
www.infoseek.com |
Développé en 95 , ce moteur propose les deux types
d'approches : par annuaire et au travers d'un module de recherche. |