Données d’apprentissage : le point dur de tout projet d’IA
L’intelligence artificielle (IA) repose sur l’existence de données d’apprentissage. Les données d’apprentissage sont les exemples sur lesquels les algorithmes (réseaux de neurones…) apprennent à effectuer une tâche. La fabrication de données d’apprentissage, représentatives du problème à traiter, est le point dur de tout projet d’IA. C’est là où l’essentiel du temps est passé. C’est particulièrement vrai pour les données non structurées telles que la littérature scientifique, les brevets, les articles de presse et dépêches, les contrats juridiques de tout type, les décisions de justice, les formulaires, les verbatim, les courriels, les compte rendus et PV etc…
Projet de recherche – Dispositif RAPID
En septembre 2021, la société Kairntech a signé avec la DGA-AID (Direction Générale de l’Armement – Agence de l’Innovation de Défense) une convention pour la réalisation d’un projet de recherche industrielle dans le cadre du dispositif RAPID (Régime d’Appui à l’Innovation Duale).

Pour ce projet, d’une durée de deux ans, Kairntech s’est associé à l’Inalco (Institut National des Langues et Civilisations Orientales).

Objectifs du projet
Le projet de recherche consiste à étudier de nouvelles capacités innovantes de fabrication de ces données d’apprentissage. Il s’agit aussi de trouver les techniques offrant le meilleur compromis entre qualité, coût et temps de développement puis de les implémenter dans la plateforme Kairntech et enfin, de les évaluer.
Pour cela, Kairntech et l’Inalco exploreront et testeront différentes techniques comme celles d’Apprentissage Actif (« Active Learning ») pour assister l’opérateur et ainsi lui faire gagner du temps, d’Apprentissage par Transfert (“Transfert Learning”) pour exploiter au mieux les ressources ou modèles existants et enfin celles d’Amorçage lorsqu’aucune donnée d’apprentissage n’existe encore.
En effet, pour créer rapidement des données d’apprentissage de qualité, il est nécessaire de :
- Trouver les exemples les plus représentatifs du problème considéré et distinguer parmi ceux-ci les plus utiles ou complexes à traiter ;
- Utiliser au mieux les différents niveaux ou domaines d’expertise des collaborateurs au sein d’une entreprise ;
- Disposer des outils et métriques permettant de contrôler la fiabilité et la représentativité des annotations.
A ce stade, Kairntech et l’Inalco ont découpé le problème en deux grandes parties :
1] Le cas où il existe au départ quelques données d’apprentissage ou lexicales. Ce cas inclut également le fait de disposer de quelques données d’apprentissage dans une langue différente de celle dans laquelle les données d’apprentissage doivent être créées (c’est le cas par exemple pour analyser des textes dans un dialecte).
2] Le cas où il n’existe aucune ressource d’apprentissage ou lexicale. C’est par exemple le cas d’une entreprise dont la problématique est très spécifique, ce qui est fréquent dans le domaine de la recherche, du droit, dans les administrations ayant un pouvoir régalien…

Le cas des langues peu dotées
Certaines langues sont considérées comme peu dotées car disposant de peu de ressources linguistiques.
C’est le cas par exemple du Cantonais comparé au Mandarin, du Kurde, du Farsi… C’est aussi le cas de certains dialectes arabes ou de l’arabizi (l’Arabe écrit phonétiquement en caractère latin) pour lesquelles les techniques d’amorçage seront indispensables.
On comprend dès lors que certaines langues parmi les langues orientales offrent un champ d’application parfait pour le déploiement de toutes les techniques mentionnées ci-dessus.

De plus, dans certains cas, il est sans doute plus facile de traiter le problème dans une langue mieux dotée et d’utiliser les techniques de “Transfert Learning” pour résoudre le problème dans la langue moins bien dotée.
Notons enfin que la plupart des langues orientales nécessitent l’utilisation de composants logiciels ou linguistiques spécifiques différents de ceux des langues occidentales.
Conclusion
Ce projet de recherche s’intègre parfaitement dans la volonté de Kairntech de démocratiser l’IA au sein des entreprises ou des organisations en rendant ses solutions rapides, faciles à utiliser et peu onéreuses tout en offrant des résultats d’une très grande qualité. La présence de l’Inalco à nos côtés est un grand privilège. Sans elle, il n’aurait pas été possible d’intégrer ces langues dans la plateforme.