Introduction

Nous nous intéresserons ici, à la partie investigations et vérifications qui est sans doute l’une des plus importantes mais aussi l’une des plus consommatrices de temps pour les auditeurs. Elle est cependant indispensable pour garantir la sincérité des comptes d’une entreprise.

Cette partie dispose déjà d’outils d’analyses puissants pour toutes les données structurées (principalement les données chiffrées). Ils permettent de détecter des anomalies, des variations brutales voire des erreurs, dans les données produites par le système d’information de l’entreprise auditée. Ces outils pointent les opérations à contrôler prioritairement et orientent les investigations. Leur amélioration continue ces dernières années a d’ailleurs, permis aux auditeurs de faire face à l’accroissement vertigineux du nombre de données à traiter.

Reste la masse encore plus importante des données non structurées. Elles représentent l’essentiel des données disponibles dans l’entreprise. Il s’agit entre autres:

  • Des contrats de travail avec leurs avenants pour les salariés,
  • Des contrats de ventes pour l’établissement du chiffre d’affaires et donc des offres de crédit pour les établissements bancaires, des polices d’assurance pour les assureurs et des baux commerciaux pour les sociétés foncières,
  • Des contrats avec les fournisseurs pour les achats de matières premières ou de prestations de service.
  • Etc..

De plus, l’utilisation massive du courriel est venue encore complexifier la situation. Ainsi, les courriels offrent un nouveau moyen de modifier des accords d’une manière permanente ou temporaire voire parfois de manière significative. C’est extrêmement fréquent en particulier dans la grande distribution lors des remises, promotions ponctuelles ou lors de changement de barème. C’est aussi souvent le cas avec les contrats de travail pour lesquels il est rare que toutes les modifications y figurent. Ce phénomène concerne toutes les entreprises.

L’objectif de l’auditeur est de vérifier que des informations contenues dans ces contrats ou dans ces courriels, soient correctement reportées dans la comptabilité de l’entreprise. Ces informations peuvent être des montants, des taux, des nombres de mois ou des dates. Il faut y ajouter ensuite, toutes les clauses qui sont susceptibles de créer un engagement dans le bilan ou hors bilan.

Malheureusement et jusqu’à présent il n’existait qu’une solution pour cela : relire tous ces documents et en extraire les informations nécessaires qui étaient reportées dans un fichier Excel puis comparées avec celles figurant dans le système d’information. Dans la pratique, pour effectuer cette opération longue et fastidieuse, les auditeurs procédaient par échantillonnage, choisissant au hasard quelques contrats dans chaque catégorie qu’ils vérifiaient.

Analyse de contrat et Intelligence Artificielle

Il existe aujourd’hui, des outils, faciles à utiliser par des auditeurs, ne demandant aucune connaissance en matière de programmation. Ces outils nécessitent que leur soient définies les informations qu’ils doivent extraire dans les différents types de contrats puis à partir d’exemples fournis par ces mêmes auditeurs peuvent apprendre (grâce aux réseaux de neurones) à extraire cette information. Ce sont donc les auditeurs qui construisent eux-mêmes, leur solution d’extraction d’information applicable à tous les contrats qu’ils ont à auditer.

En pratique : les baux commerciaux

Prenons l’exemple concret de l’audit d’une foncière où l’objectif est d’analyser tous les contrats de type “baux commerciaux”. Le besoin de l’auditeur est de trouver dans chaque bail la durée, le montant annuel du loyer, l’adresse, le montant du dépôt de garantie… et de remplir un fichier Excel de toutes ces données pour ensuite consolider tous les chiffres et faire des calculs d’audit. 

Il y a des centaines de baux à analyser pour chaque audit, la tâche est impossible à faire à la main. Que peut faire l’IA pour aider l’auditeur ? Extraire automatiquement ces données à partir des documents avec une qualité supérieure à 90% et générer ainsi un rapport Excel.

Comment procéder ?

L’auditeur doit dans un premier temps définir l’ensemble de ces concepts ou “étiquettes” : durée du bail, montant du loyer, adresse du bail, durée…

Définition des étiquettes dans le projet

Puis l’auditeur doit surligner dans des contrats des exemples pour chacune de ces étiquettes :

Annotation du contrat avec le étiquettes

Ce travail fait manuellement peut être long et fastidieux.

Que peut faire l’IA pour aider l’auditeur à créer des exemples plus rapidement ?

Dès la création de quelques exemples, l’IA peut commencer à apprendre et à suggérer des exemples que l’auditeur devra valider, corriger ou rejeter. Ainsi l’auditeur gagnera du temps ou pourra facilement sous traiter cette tâche le cas échéant.

Interface de validation des étiquettes suggérées par le moteur

Une fois que l’auditeur aura constitué un jeu de données représentatif, il pourra contrôler sa qualité, par exemple la bonne distribution des exemples (annotations) au niveau des étiquettes.

Distribution des annotations dans le jeu de données

Une fois ces données étiquetées, l’auditeur voudra trouver le meilleur algorithme fournissant la meilleur qualité possible pour extraire automatiquement ces données à partir de nouveaux documents. Ainsi il souhaitera tester différents algorithmes parmi les plus performants du marché, et adaptés à sa problématique, tels que Spacy, CRF-Suite, DeLFT (BiLSTM), Flair… pour l’extraction d’entités nommées par exemple.

Expérimentation de différents algorithme d’apprentissage automatique et réseaux de neurones sur le jeu de données.

Il pourra entrainer ces algorithmes puis les tester sur son jeu de données et finalement comparer leur qualité respective et ce… étiquette par étiquette :

Comparaison de la qualité de différents algorithmes

Il faut souvent affiner les résultats en modifiant les paramètres des algorithmes, c’est le domaine réservé des Data Scientists et des spécialistes de l’IA.

Paramétrage de chaque algorithme proposé pour l’expert en Science de Données

L’auditeur, lui, pourra affiner son jeu de données sur telle ou telle étiquette et procéder à nouveau à une phase d’expérimentation.

La dernière étape consiste à mettre le modèle ainsi créé en production, il va pouvoir extraire les données de milliers de baux commerciaux sans intervention humaine avec 95% de qualité dans le meilleur des cas, c’est à dire une qualité supérieur à ce que l’homme peut faire.

Extraction automatique de données chiffrées sur des baux commerciaux en production
Les données extraites automatiquement sont finalement consolidées dans un fichier Excel pour l’auditeur

On imagine facilement le temps gagné, temps qui va pouvoir être mis à profit pour apporter plus de valeur aux clients audités

Les baux commerciaux ne sont qu’un exemple et comme nous l’indiquions au départ, il peut être nécessaire aujourd’hui, d’analyser des courriels pour valider des accords entre un acheteurs et ses fournisseurs. C’est typiquement le cas avec la grande distribution où des modifications sont très fréquemment demandées dans le cadre de promotions commerciales. Le nombre énorme de documents en jeux, leur structure sous forme de dialogue, rend leur traitement « manuel » extrêmement difficile. De plus, la méthode du sondage est par définition non applicable puisqu’il faut trouver certaines informations dans tous ces courriels. Dans un contexte juridique français, permettant de remonter 5 ans en arrière, pour les paiements on devine aisément la quantité de courriels qu’il conviendrait de traiter si on souhaitait vérifier que toutes les remises ou promotions des fournisseurs ont bien été prises en compte et déduites…

Conclusion

L’IA offre aujourd’hui de nouveaux outils aux auditeurs dans leurs missions. Ces outils peuvent être utilisés par des personnes qui n’ont aucune compétence en informatique ni en linguistique. Mais ils sont surtout facilement paramétrables par ces derniers et donc peuvent évoluer en fonction des missions pour lesquelles ils sont utilisés. Inversement, ils conservent l’expérience acquise au cours de chacune des missions, accroissant ainsi leur qualité globale au cours du temps.

Nous pensons qu’à l’instar des outils d’analyse des données numériques qui sont aujourd’hui communément utilisés par les auditeurs, ces nouvelles solutions, à base d’IA seront vites adoptées par ces professionnels et qu’elles transformeront leur manière de travailler.