sumhbudd.gif (1767 octets)

 

 

sumhbudd.gif (1767 octets)

 

Les moteurs de recherche

sumbul2a.gif (226 octets) Le principe de fonctionnement

sumbul2a.gif (226 octets) Exemples de formulation de recherche

sumbul2a.gif (226 octets) La logique Booléenne

sumbul2a.gif (226 octets) Les principaux moteurs de recherche

sumbul2a.gif (226 octets) Les principaux annuaires

 

La quantité astronomique d'information présente sur Internet est estimée à plus de 500 millions de documents, avec un abondant renouvellement quotidien. Alors comment s'y retrouver ?

Les moteurs de recherche sont indispensables pour donner une existence concrète à l'Internet , ceux sont des machines spécifiques ( matériel et logiciel ) qui visitent tous les sites, index, trient le contenu et classent les pages pour vous permettre de trouver en quelques secondes les informations que vous cherchez .

Si certains sites sont périodiquement remis à jour, d'autres apparaissent un jour et disparaissent le lendemain. L'actualisation des documents est donc très importante .

Aucun des moteurs de recherche ne peuvent actuellement scruter la totalité de l'Internet, et chacun d'entre eux adoptent une stratégie différente pour revisiter les site déjà indexés en en redécouvrir des nouveaux. Quelques moteurs peuvent malgré tout calculer la fréquence de rafraîchissement des pages les plus visitées. Un moteur mettra deux semaines à un mois pour boucler "sa tournée" et revenir sur un site .

Le principe de fonctionnement d'un moteur de recherche .

Des robots explorent tous les sites Web et examinent des millions de pages pour constituer des bases de données associant des adresses à des mots clés .

L'utilisateur d'un moteur de recherche remplit le formulaire sur son navigateur , en formulant sa requête à l'aide des opérateurs booléens "et","ou" ,"not",etc... .

La requête est traduite en langage SQL puis le moteur de recherche effectue, si nécessaire un travail linguistique sur les termes de la demande .

sql.gif (19036 octets)

La réponse du moteur recherche apparaît à travers le navigateur sous la forme d'une liste de liens suivis par le début du texte de la page .

reponse.gif (12682 octets)

Les réponses trouvées dans la base de données sont classées selon un pourcentage de pertinence . Si elle répondent à tous les mots de la requête ,ce pourcentage est de 100%. Il diminue si tous les mots ne sont pas pris en compte

consultation.gif (20924 octets)

Le premier risque d'une recherche est le silence , c'est à dire le manque de résultat pertinent , il faut donc élargir sa recherche avec des synonymes et des mots apparentés.

La recherche comporte un autre risque , qui constitue à obtenir trop de réponses . Ce phénomène s'appelle le bruit , au sein du requête donnée, les mots exclus jouent un rôle aussi important que les mots inclus et permettent de limiter le bruit .

Exemples de formulation de recherche
type de recherche Type de requète à utiliser
Un nom propre ou une phrase distincte ? Dupont ou "la chimie du pétrole"
Le sujet recherché est commun et peut avoir plusieurs sens Utilisez le "AND" booléen ou le "NEAR" pour limiter la recherche : commerce AND Internet
Vous ne voulez pas voir apparaître certains mots Utilisez le "AND NOT" : commerce AND NOT dollar
Le mot recherché possède des synonymes, des orthographes ou des traductions différentes Utilisez le "OR" : physique OR physic
Vous recherchez la page d'accueil d'une organisation ou d'une société bien connue . Limitez votre champ de recherche au titre du document titre :"Total"
Vous recherchez les différentes terminaisons possibles d'un mot Utilisez la notion de troncature : femini* Le moteur recherchera "féminin","féministe","féminisme","féminine"
Votre clé est sensible aux majuscules Les mots écrits en minuscules recherchent aussi bien les majuscules que les minuscules. Les majuscules sont utilisées strictement .
La logique Booléenne
Opérateur Définition Exemple
AND Renvoie les documents communs à deux sujets en limitant la recherche à leur partie commune France AND industrie envoie les documents qui contiennent à la fois "France" et "industrie"
OR Permet de rechercher les documents traitant au moins un des sujets présents . assurances OR banques envoie les documents contenant soit assurances soit banques soit les deux à la fois .
NOT Exclut le sujet qui le suit juridique NOT these délivre tous les documents contenant le mot juridique , excluant ceux qui comprennent le mot these .
NEAR Utilisé pour retrouver des documents contenant soit les deux mots clés , soit des expressions de "x" mots dont le sens est proche des deux mots clés .. Economy NEAR software pourra indiquer Borland, Novell, Microsoft mais aussi les documents économiques sur l'indutrie du logiciel .
Guillemets ("") Si vous tapez des guillemets autour d'un groupe de mots , le moteur les interprète comme une phrase et non comme des mots séparés . "la chimie du pétrole en France" force le moteur à trouver le résultat contenant tous ces mots dans l'ordre .
Essentiel/Exclure Taper les symboles "+" et "-" devant les mots clés les identifie comme essentiel(+) ou les exclut(-) de votre recherche . economie +financier-personnel garantit que le mot "financier" figure dans toutes les pages trouvées et que "personnel" n'est dans aucune d'elles .

Les principaux moteurs de recherche
Nom et éditeur Sites Web Commentaires
AltaVista de Digital www.altavista.digital.com Accessible depuis décembre 95 et associé avec Yahoo depuis 96, il comporte plus de 30 millions de pages .Son logiciel robot , baptisé Scooter possède une indexation intégrale ,laquelle occupe près de 60 Go d'espace disque .
Ecila www.ecila.com Moteur de recherche disponible en français, utilisé surtout sur les sites supportant une grande quantité d'information .
Excite www.excite.com Lancé en 95, Excite s'est rapidement développé en misant sur la publicité
HotBot de Wired Digital www.hotbot.com HotBot référence plus de 50 millions de pages.
Lycos www.lycos.com Crée par la Carnegie Mellon University, Lycos teste la pertinence d'une adresse selon la fréquence d'apparition.
Infoseek www.infoseek.com Développé en 95 , ce moteur propose les deux types d'approches : par annuaire et au travers d'un module de recherche.

Les principaux annuaires
Nom et éditeur Sites Web Commentaires
Lokace www.lokace.com En français, cet annuaire recherche aussi bien des sites que des adresses e-mail.
Yahoo www.yahoo.fr Yahoo est devenu l'outil de recherche le plus utilisé. Crée en 94 c'est le plus ancien des répertoire de sites Web.
UREC du CNRS www.urec.fr La référence absolue en matière d'annuaire de l'Internet: Index, recherche par thèmes et par carte.
PagesWeb www.pagesweb.com Animé par France Télécom , il peut recherché en priorité sur les sites français ( 4 millions de pages )

Bibliographie : Internet Professionnel

 

Association EVARISTE : Haage@cnam.fr    Webmaster : Canu@cnam.fr

Copyright EVARISTE 1999