Les moteurs sémantiques proches du sens des mots

Face à la multitude d’informations véhiculées au sein d’une entreprise, les éditeurs de moteurs sémantiques tirent leur épingle du jeu. En proposant des solutions de plus en plus proches du langage courant, ils remettent en question les techniques habituelles de recherche. Simple pari ou réelle menace ? Les moteurs sémantiques semblent être à la hauteur de leur prétention.  

Trouver l’information souhaitée dans les nombreux documents dont dispose une entreprise devient vite un casse tête chinois si l’on ne possède pas les outils adéquats. Les moteurs sémantiques, qui prétendent analyser le sens des textes, représentent une alternative intéressante aux outils de recherche classique. Ce type de moteur, tel l’outil de recherche fourni dans Windows, fonctionne sur le modèle des moteurs de recherche plein texte.

Moteur de recherche sémantique ou plein texte ?

Simple à utiliser, celui-ci n’est efficace que lorsqu’on connaît exactement ce que l’on cherche. La raison est simple : la recherche plein texte consiste à repérer une chaîne de caractères (un ou plusieurs mots) dans les documents.

Cela signifie qu’elle ne permet d’établir des correspondances qu’au mot et au caractère près, laissant peu de place à l’interprétation et ne tolérant aucune faute d’orthographe dans la requête faite par l’utilisateur. Seuls les opérateurs (et, ou, %, ?…) peuvent s’avérer utiles pour affiner la recherche, à la condition de connaître leur fonctionnement. Par exemple, artist% va donner des résultats tels que »artist, artists, artistique, artiste, artistry, artista, artistico…« 

La pertinence du résultat dépend alors de la précision de la requête et de la maîtrise de ces opérateurs.

En dépit de cela, la recherche plein texte est encore la méthode la plus employée car elle permet de rechercher des documents sans avoir à les indexer préalablement. Elle répond aussi à des besoins élémentaires tels que rechercher le nom d’une personne ou d’une société.

Des outils spécifiques tentent bien d’affiner cette recherche en identifiant une combinaison de chaîne de caractères jugée pertinente par le moteur grâce à un traitement statistique. Ce qui permet de soumettre à l’utilisateur un plus grand nombre de réponses et évite le travail fastidieux d’un documentaliste consistant à mettre à jour régulièrement des bases de connaissance. Dans les moteurs statistiques, les résultats de la requête dépendent de la fréquence d’apparition des mots et expressions demandés ainsi que de leur répétition au sein de chaque document. On peut alors s’interroger sur la pertinence des résultats obtenus par de tels procédés. Basés sur une analyse quantitative, ils ne considèrent pas le sens du langage. Seuls les moteurs sémantiques répondent à ce genre d’exigence.

A chaque moteur, sa méthode

En jeu : une pertinence accrue. Retrouver l’information dans son contexte et s’adapter à un contexte métier, cela veut dire prendre en compte la sémantique.

En effet, les moteurs sémantiques cherchent à comprendre le sens des documents qu’ils indexent. Ils effectuent des recherches sur les concepts des mots. En calculant de manière statistique et linguistique les mots et les expressions liés à l’objet de la recherche.

Pour l’analyse linguistique, ils s’appuient sur des thésaurus où chaque mot est relié à d’autres mots par des liens logiques du type le mot 1 est inclus dans le mot 2, ou le mot 3 est synonyme du mot 4. Par exemple : la marque Peugeot est incluse dans automobile qui est synonyme de voiture.

En replaçant la requête dans son contexte, le moteur sémantique considère le sens des mots au delà de leur simple juxtaposition. Ce tour de force nécessite un gros travail d’indexation préalable.

Des moteurs de recherche avec différentes méthodes d’indexation

Le potentiel d’un moteur sémantique repose sur deux composantes importantes : ses méthodes d’indexation (plein texte, concept et taxonomie) et ses outils linguistiques (thésaurus et assistants de requête). Pour comprendre un document, il est primordial d’abord de bien l’indexer ».

Du choix des méthodes d’indexation découle la pertinence du classement. Pour tirer parti des meilleurs aspects de chacune de ces techniques, il arrive souvent que les moteurs sémantiques se dotent de plusieurs d’entre elles.

Par exemple, certains sont basés sur l’analyse sémantique et le plein texte. Ils trient les requêtes et résultats par concept en prenant en compte le sens des mots. Ainsi, ils permettent à l’utilisateur d’affiner leur recherche en proposant des concepts proches de leur requête. Ils classent également par catégories les résultats de la requête. Cette catégorisation dites indexation par taxonomie aident ainsi l’utilisateur à visualiser l’emplacement des documents qu’il cherche mais surtout à définir ses centres d’intérêt. Ce type d’indexation contribue également à la veille d’information et à la recherche de compétence.

Grâce à la taxonomie, les moteurs sémantiques mettent en relation des personnes qui effectuent la même requête.

On parlera ainsi de réseaux de compétences, de réseaux sociaux et de réseaux d’expert. Cela permet à l’utilisateur de consulter des requêtes effectuées sur le même sujet par d’autres utilisateurs.

Afin de renforcer leur analyse sémantique, les moteurs de recherche se dotent aussi d’outils linguistiques.  Une bonne analyse de la langue passe par de bonnes ressources lexicales, (dictionnaires syntaxiques et sémantiques) et aussi par des règles grammaticales. Pour cela, il existe plusieurs types d’outils : les thésaurus et les assistants de requête.

Des moteurs de recherche proches du langage courant

Les premiers sont des dictionnaires thématiques qui traitent à la fois de la synonymie des mots et de la taxonomie (catégorisation hiérarchique). Seul inconvénient, ils nécessitent une mise à jour régulière et ne couvrent pas toujours tous les domaines d’activités. Il est alors nécessaire de créer un dictionnaire spécifique.

Les assistants de requêtes ne nécessitent pas d’intervention humaine. D’un point de vue technique, ils indexent d’abord les termes d’un document avec plusieurs niveaux d’analyse, par rapport au mot mais aussi à la structure des phrases (dictionnaire morphosyntaxique). Puis, ces analyses sont mises en relation avec les dictionnaires intégrés.

Ces différents outils permettent à l’utilisateur de formuler une requête sur le modèle du langage courant sans que cela pénalise les résultats. Cela explique aussi l’importance des traitements multilingues mis en œuvre dans les moteurs sémantiques. Tous les éditeurs proposent ce type de fonctionnalité en accordant plus ou moins d’importance à l’interlinguisme (requête en une langue sur des documents d’une autre langue).

Outre la nécessité d’enrichir régulièrement une base de connaissance, le potentiel d’un moteur sémantique se mesure aussi par sa capacité technique à reconnaître les différentes sources que peut constituer cette base. Pour cela, il doit gérer un maximum de formats de données : texte, html, PAO, zip, PDF… Selon les moteurs sémantiques, les formats acceptés diffèrent.

Bien entendu, les éditeurs voulant s’ouvrir à tout type de données, ils intègrent tous le format XML dans leurs solutions.

 

Pas de commentaire.

Ajouter un commentaire