Soyez bref, s’il vous plaît !
Dans le contexte actuel d’activité intense, de nombreux utilisateurs souhaitent pouvoir parcourir rapidement de grandes quantités de documents – actualités, sites web, publications, documentation – et décider rapidement si un élément donné mérite que l’on prenne le temps de le lire ou même simplement de cliquer dessus.
Souvent, les créateurs et les fournisseurs de contenu tentent de faciliter cette décision en choisissant un titre et une phrase d’accroche appropriés.
Mais souvent, cela ne suffit pas pour permettre aux gens d’assimiler assez rapidement le contenu qu’ils estiment devoir surveiller.
C’est là qu’intervient le résumé automatique et Kairntech offre désormais la possibilité de laisser le logiciel générer un tel résumé pour un texte ou un ensemble de textes.
Les conséquences du principe « publier ou périr » : Beaucoup d’articles à lire
Prenez, par exemple, la tâche de vous tenir au courant des nouvelles découvertes dans votre domaine d’expertise technique ou scientifique.
Selon le sujet, il peut y avoir des dizaines ou des centaines de publications qui sortent chaque semaine et qui peuvent vous intéresser.
Heureusement, il existe une pratique bien établie qui consiste à accompagner une publication d’un résumé permettant d’évaluer le contenu de l’article et ses principales revendications.
Ce n’est que si le résumé semble pertinent que le lecteur accède à l’article complet. C’est une bonne chose tant que le lecteur n’a besoin d’évaluer qu’une poignée d’articles.
Mais s’il s’agit d’évaluer des listes plus longues de dizaines ou de centaines de textes, comme par exemple dans un résultat de recherche ou dans les actes d’une grande conférence, ou si le contenu doit être adapté à des appareils dotés d’écrans plus petits, comme les smartphones, cela peut devenir lourd et prendre du temps, car même un résumé peut déjà être composé de 3 à 4 paragraphes détaillés.
Kairntech offre donc à l’utilisateur l’accès à deux types de résumés différents :
- Synthèse extractive
- Résumé abstrait
Synthèse extractive
Le résumé extractif est la méthode la plus simple et la plus rapide, mais il fournit souvent déjà le résultat souhaité qui permet d’évaluer la pertinence d’un élément de contenu. Les phrases les plus informatives d’un document sont identifiées et concaténées.
L’exemple ci-dessous montre un résumé extractif d’un nouvel article sur les événements politiques africains. Nous pouvons clairement reconnaître le sujet principal du texte, cependant, nous noterons souvent que le résultat de la concaténation de phrases provenant de différentes parties d’un document peut ne pas aboutir à un nouveau texte cohérent.

Dans l’exemple de résumé extractif ci-dessus (en gris), nous voyons par exemple que dans la deuxième phrase, l’expression « le bloc » fait référence à une entité (la « Communauté de l’Afrique de l’Est ») qui a été introduite dans le texte original, mais cette phrase spécifique est absente du résumé, de sorte que le lecteur doit se demander à quoi « le bloc » fait référence.
Lors d’un résumé abstractif, l’algorithme génère un nouveau texte basé sur le sens sous-jacent du document original.
Là encore, nous fournissons un exemple de résumé pour cette approche, dans lequel un nouveau texte complet, reprenant les idées principales de l’original, est proposé.
Résumé abstrait
Le résumé abstrait est beaucoup plus exigeant en termes de calcul et peut nécessiter une attention particulière lors de l’ajustement des paramètres. Comme pour d’autres sujets, le logiciel Kairntech donne aux utilisateurs l’accès à une variété d’approches puissantes du domaine public.

Le comportement des deux algorithmes est régi par de nombreux paramètres – Kairntech s’efforce de les régler sur des valeurs par défaut raisonnables, mais il est conseillé à l’utilisateur de consulter les options et de vérifier si le fait de les régler en fonction de ses besoins spécifiques permet d’obtenir des améliorations supplémentaires.

Dans l’exemple ci-dessus, l’utilisateur a choisi d’effectuer le résumé abstractif à l’aide de la base de données préentraînée et prépackagée distilbert et une longueur minimale de 15 % de la longueur du texte original.
Une plateforme – de nombreux cas d’utilisation
Combiné aux autres fonctionnalités clés du logiciel Kairntech – reconnaissance d’entités, catégorisation de documents, indexation basée sur un thésaurus et autres – le résumé est un autre ingrédient important d’une vaste plate-forme NLP d’analyse de contenu à usage général.
