Traitement Automatique du Langage et Base de connaissance
Le large succès des méthodes par apprentissage telles que les réseaux de neurones en TAL (Traitement Automatique des Langues) risque parfois de minimiser l’importance des connaissances explicites et symboliques requises pour de nombreuses tâches en analyse de texte : par exemple, extraire des entités nommées dans un texte doit non seulement reconnaître les entités (où les méthodes à base d’apprentissage sont importantes), mais aussi normaliser, désambiguïser et si possible relier les entités reconnues à des connaissances explicites.
Le terme « goulot d’étranglement de l’acquisition des connaissances » fait référence au fait qu’il est souvent difficile (et coûteux) de s’assurer que les connaissances requises sont disponibles et présentes dans les bons formats pour les algorithmes d’extraction d’entités nommées.
Quand Wikidata entre en scène…
Chez Kairntech, nous avons mis en place l’extraction d’entités nommées d’une manière à largement bénéficier de sources publiques comme Wikipedia et Wikidata. Comme cette source est constamment mise à jour, les utilisateurs bénéficient toujours de connaissances actualisées lors de l’analyse du contenu. Les entités reconnues sont extraites, désambiguïsées (il peut y avoir une autre personne, un autre lieu, un autre concept du même nom) et finalement liées à des informations de référence, ce qui enrichit le contenu analysé.

Dans l’exemple ci-dessus, nous voyons que ce service, mis à jour automatiquement le 3 mars 2020, a donc accès aux dernières informations sur le Brexit, qui, après de longues négociations, a finalement eu lieu à la fin du mois de janvier 2020. Les informations les plus récentes sur cette entité ainsi que sur des dizaines de millions d’autres dans plusieurs langues sont à la disposition du service de reconnaissance d’entités nommées de notre plateforme.