Introduction

Les vocabulaires structurés (thésaurus, taxonomies…) jouent un rôle important dans de nombreuses applications quand il s’agit d’organiser ou de rendre accessible des informations complexes, volumineuses ou fugaces. Un bon exemple est le célèbre thésaurus MeSH qui facilite la recherche et l’accès à des articles médicaux. L’enrichissement de contenu scientifique avec les termes du MeSH permet de garantir qu’un article sur un thème spécifique, par exemple  » le Diabète sucré de type 2″, puisse être retrouvé même si son auteur à utilisé un des nombreux synonymes de cette maladie comme « NIDDM » ou « Adult Onset Diabetes Mellitus » .

Tant de nouveaux termes, si peu de temps

Les thésaurus, cependant, doivent être constamment mis à jour, car les domaines qu’ils couvrent évoluent : De nouveaux termes deviennent pertinents quand de nouvelles découvertes scientifiques sont réalisées ou que des technologies innovantes apparaissent. La mise à jour de ces vocabulaires peut s’avérer une tâche lourde et fastidieuse lorsqu’il y a des dizaines de milliers de concepts à gérer.

Le cas de la veille technologique

La société TecIntelli propose  ainsi à ses clients des informations détaillées sur des marchés technologiques hautement compétitifs et versatiles : Prenons le domaine des technologies liées aux batteries : La batterie est devenue un composant essentiel pour la mobilité de demain et les progrès technologiques se produisent à un rythme effréné partout dans le monde. Qui propose telle ou telle technologie de batterie ? Où sont les principaux endroits où cette innovation a  lieu ? Quels acteurs concluent des alliances ou annoncent de nouvelles fonctionnalités ? Suivre ces questions avec des approches traditionnelles, c’est-à-dire manuelles,  devient rapidement impossible surtout si votre client s’intéresse à d’autres sujets tout aussi complexes. Dès lors, l’aide de l’IA devient indispensable.

L’approche avec un vocabulaire d’amorçage

L’approche que nous  décrivons maintenant repose sur l’hypothèse qu’il existe au départ un thésaurus à base de termes spécifiques du domaine étudié (ici, les différents types de batteries et les technologies utilisées). Nous nous proposons ensuite d’utiliser le grand nombre de publications existantes portant sur ces technologies et sur le marché des batteries. Le défi consiste maintenant à s’assurer qu’au fur et à mesure que le domaine évolue, les nouvelles technologies qui méritent d’être incluses dans le thésaurus soient bien identifiées et portées à la connaissance de l’expert.

Comment procéder ?

La réponse de Kairntech à ce défi comprend les étapes suivantes : 

Créez un projet de type REN (Reconnaissance d’Entités Nommées) et importer le corpus de publications mentionné ci-dessus.

Importez le vocabulaire d’amorçage dans un des formats tels que xls, csv, skos, txt…

Recherchez et parcourez tous les termes de votre vocabulaire. 

Configurez un annotateur de texte (« Gazetteer« ) avec le vocabulaire de départ en utilisant le moteur “PhraseMatcher” fournit par la plateforme et synchronisez le pour qu’il soit prêt à annoter !

Annotez automatiquement l’ensemble du corpus avec le Gazetteer “PhraseMatcher”. 

Examinez la qualité du corpus d’apprentissage obtenu en utilisant le moteur de recherche, les fonctions de navigation et de filtrage et diverses statistiques. Repérez les éventuelles incohérences sur les annotations qui pourraient affecter la qualité du modèle d’IA que vous allez créer !

Entraînez un modèle sur le corpus d’apprentissage en utilisant l’un des moteurs fournis par la plateforme (CRF-Suite, Spacy, Delft, Flair…). Configurez une première expérience avec Flair par exemple et lançez ensuite le processus d’entraînement :

L’entraînement est effectué dans le cloud, il n’est pas nécessaire de s’en occuper.

Construisez et sauvegardez un plan d’annotation combinant le Gazetteer PhraseMatcher et le modèle Flair que vous venez de créer afin de pouvoir extraire à la fois des entités connues (du vocabulaire) et des entités inconnues

Testez le plan d’annotation dans la page de Test avec un texte et vérifiez les résultats :

Le plan d’annotation entraîné sur les types connus de batteries reconnaît également de nouvelles instances du même type d’entité, comme « MVI2 flow battery », qui ne faisaient pas partie de la liste initiale des types de batterie connus. Le système a découvert une « nouvelle » technologie potentielle dans la littérature.

Si vous êtes satisfait des tests unitaires, vous pouvez utiliser ce plan d’annotation à plus grande échelle :

  • via l’API REST ;
  • ou en créant un nouveau projet dans Kairntech Studio, en important un corpus et en annotant automatiquement l’ensemble du corpus avec le plan d’annotation. Vous pourrez alors rechercher, naviguer et filtrer votre corpus et découvrir de nouveaux termes.

Bien que tout cela ne constitue plus un obstacle technologique majeur aujourd’hui, l’exigence que nous avons chez Kairntech est que ces différentes étapes puissent être effectuées par des non-informaticiens, c’est-à-dire des experts ayant une connaissance approfondie du domaine mais pas nécessairement de compétences en programmation. 

L’exécution de ces étapes produit de nouveaux termes qui non seulement  enrichissent le vocabulaire initial mais mettent en évidence des technologies récentes et nouvelles qu’il était indispensable de lui ajouter. 

Conclusion

Parmi les nombreuses tâches auxquelles les experts sont confrontés aujourd’hui lorsqu’il s’agit de gérer et d’analyser de grandes quantités de documents, figure la création, la gestion et la mise à jour de vocabulaires spécifiques pour un domaine donné. L’approche décrite ici peut être réalisée sans disposer de compétence en programmation et permet à un utilisateur d’économiser un temps considérable qui, sinon, serait consacré à un travail long, fastidieux et souvent très complexe.