Comment l’IA peut aider à découvrir et enrichir des connaissances à partir de l’analyse de documents
Les vocabulaires structurés (lexiques, dictionnaires, thésaurus, taxonomies…) jouent un rôle important dans de nombreuses applications quand il s’agit d’organiser ou de rendre accessible des informations.
Un bon exemple est le célèbre thésaurus MeSH qui facilite la recherche et l’accès à des articles médicaux.
Ces vocabulaires doivent être constamment mis à jour car les domaines qu’ils couvrent évoluent : de nouveaux termes deviennent pertinents quand de nouvelles découvertes scientifiques sont réalisées.
Or, la mise à jour de ces vocabulaires peut s’avérer une tâche lourde et fastidieuse surtout lorsqu’il y a des centaines voire des milliers de concepts à gérer ou plus encore !
Le cas de la veille juridique et informationnelle
Prenons par exemple le domaine de la veille juridique : Toute entreprise doit respecter la loi et se plier à une conformité réglementaire. Pour un professionnel de l’information, il est primordial de se tenir au fait des informations pertinentes dans les domaines législatif, réglementaire, jurisprudentiel, voire doctrinal.
Or, on remarque une évolution constante des concepts ou notions juridiques : Quels sont les concepts juridiques émergents, les nouveaux acronymes, les nouveaux termes utilisés par les juristes en droit du travail, en droit commercial, en droit de la propriété intellectuelle ou dans tout autre domaine du droit ?
Rappelons qu’il existe plus de 75 codes juridiques en France qui évoluent constamment. Suivre ces questions avec des approches manuelles devient rapidement impossible surtout si votre client s’intéresse à d’autres sujets tout aussi complexes.
Dès lors, une assistance devient indispensable pour acquérir les nouvelles informations essentielles c’est-à -dire celles qui seront utiles à l’activité de l’entreprise.
L’approche avec un vocabulaire d’amorçage
L’approche que nous décrivons ici repose sur l’hypothèse qu’il existe au départ un vocabulaire d’amorçage.
Dans notre exemple, ce sera une liste ou un thésaurus de différents concepts juridiques. Nous nous proposons ensuite d’utiliser un corpus de documents juridiques.
Le défi consiste à analyser automatiquement le contenu des documents et s’assurer que les nouveaux concepts qui méritent d’être inclus dans le vocabulaire soient bien identifiés et portés à la connaissance de l’expert.
Comment procéder ?
La réponse de Kairntech à ce défi comprend les étapes suivantes :
1. Créer un projet dans la plateforme Kairntech, importer le corpus de documents et le vocabulaire d’amorçage mentionnés ci-dessus.
2. Configurer un annotateur de texte avec le vocabulaire d’amorçage puis annoter automatiquement le corpus.
3. Examiner la qualité du corpus annoté, apporter d’éventuelles corrections manuellement ou de manière assistée. Le corpus annoté devient un corpus d’apprentissage.

4. Créer des expériences d’apprentissage automatique avec les moteurs de Machine Learning et de réseaux de neurones fournis par la plateforme. Comparer leur qualité respective et sélectionner le modèle d’entraînement donnant le meilleur résultat en terme de qualité.

5. Construire une chaîne de traitement (« pipeline NLP ») combinant (i) l’annotateur de texte construit à partir du vocabulaire d’amorçage, (ii) le modèle d’entraînement retenu, (iii) un composant de réconciliation fournit par la plateforme qui distinguera automatiquement les termes connus des nouveaux. Enfin tester la chaîne de traitement sur un nouveau texte et vérifier que celle-ci vous permet d’extraire de nouveaux termes.

Ce système est utilisable à plus grande échelle :
- via l’API REST de la plateforme Kairntech ;
- ou en créant un nouveau projet en important un corpus et en annotant automatiquement l’ensemble du corpus avec la chaîne de traitement mise en place. Il est alors possible de rechercher, naviguer, filtrer son corpus et ainsi découvrir tous les nouveaux termes.
Bien que tout cela ne constitue plus un obstacle technologique majeur aujourd’hui, l’exigence poursuivie par Kairntech est que ces différentes étapes puissent être effectuées par des non-informaticiens, c’est-à-dire des experts ayant une connaissance approfondie du domaine mais pas nécessairement de compétences en programmation.
L’exécution de ces étapes produit de nouveaux termes qui non seulement enrichissent le vocabulaire initial mais mettent en évidence des technologies récentes et nouvelles qu’il était indispensable de lui ajouter.
Conclusion
Parmi les nombreuses tâches auxquelles les experts sont confrontés aujourd’hui lorsqu’il s’agit de gérer et d’analyser de grandes quantités de documents, figurent la création, la gestion et la mise à jour de vocabulaires métiers, de bases de connaissance, de dictionnaires pour un domaine donné.
L’approche décrite ici peut être réalisée simplement et rapidement et ce sans disposer de compétence en programmation.
Ceci permet à un utilisateur d’économiser un temps considérable qui, sinon, serait consacré à un travail long, fastidieux et souvent très complexe.