La taxonomie verte Européenne

Taxonomie, le mot est soudain revenu récemment sur toutes les lèvres des investisseurs financiers quand la Commission Européenne a voulu publier la sienne concernant les activités durables.

Rappelons rapidement qu’une taxonomie (au départ un terme utilisé en biologie) désigne une suite de mots formant des listes qui permettront, par leur règle de combinaison, de rendre compte, dans un domaine spécifique, des phrases ou expressions utilisées d’une langue.

Dans le cas de la Commission Européenne il s’agissait de savoir si le gaz et l’énergie nucléaire devaient être classés dans les énergies ayant un impact favorable sur l’environnement.

On comprend aisément dans ce cas les conséquences d’un tel classement pour les investisseurs…et pour le reste des êtres humains.

Les taxonomies au cœur des système IT des entreprises

Mais les notions de dictionnaire, de thésaurus (une taxonomie sans hiérarchie), de taxonomie, voire d’ontologie (une taxonomie enrichie de hiérarchies subjectives philosophiques ou politiques) sont des concepts de plus en plus utilisés dans les entreprises. En fait, chaque domaine de l’entreprise dispose de sa propre taxonomie.

Pour la R&D c’est le langage technique, scientifique, médical, des chercheurs dans chaque discipline.

Ensuite que l’on soit juriste, fiscaliste, économiste, financier, chacun dispose de ses propres expressions, souvent partagée par les professionnels mais comprenant des termes et des hiérarchies propres à l’entreprise.

Thesaurus juridique pour construire un annotateur de texte

C’est encore le cas lorsqu’il faut analyser les opinions des clients dont les expressions varient en fonction des catégories sociales, des classes d’âge, des centres d’intérêts.

Taxonomie et Traitement Automatique des Langues

Pour analyser toute cette documentation, il existe de nombreux outils. Certains bien connus du public aujourd’hui : moteur de recherche, analyseur sémantique, outil de catégorisation ou de résumé automatique. D’autres moins : plongement de mots (Word Embeddings), modèle de langage pré entrainé, corpus d’apprentissage etc…

Mais pour obtenir une compréhension fine, supérieure à celle de ses concurrents, propre à l’entreprise, de ce qui se passe dans son secteur d’activité, de ce que pensent ses clients, pour surveiller son environnement économique, juridique ou financier ou pour trouver les documentations techniques ou scientifiques les plus pertinentes ou les plus innovantes, il est indispensable d’ajouter à tous les outils cités ci-dessus, ses propres vocabulaires métiers ou taxonomies.

Le TAL permet non seulement d’assister les entreprises dans la création de dictionnaires, de taxonomies à partir de l’analyse de documents mais aussi de préparer à une gouvernance des données d’entreprise solide et à des capacités d’intelligence artificielle avancées, y compris des solutions telles que les moteurs de recommandation, des systèmes de classification de texte automatisés

Annotation automatique avec thésaurus juridique et Wikidata

Les entreprises qui délaisseront ce domaine sont condamnées à rester aveugles et sourdes et donc vulnérables dans un monde où chaque changement, chaque annonce, chaque découverte peut être une opportunité ou une menace.