L’anonymisation des données dans le cadre du GDPR
Depuis l’entrée en application en 2018 du règlement général pour la protection des données personnelles (RGPD), les entreprises doivent redoubler de vigilance quant à la dissémination de documents internes comprenant des données personnelles, qu’il s’agisse de données de collaborateurs, de clients ou de toute autre personne physique. L’article 35 du règlement leur impose de produire une étude d’impact sur la vie privée (Privacy impact assessment) des personnes dans le cas où ce risque s’avère élevé. Cette étude doit définir les mesures de protection en fonction de l’analyse des risques. Une mesure de protection qui vient naturellement à l’esprit consiste à anonymiser ces noms dans les documents avant de les rendre publics à d’autres personnes que les destinataires du document en version intègre.
La loi de programmation 2018/2022 et de réforme de la justice a récemment précisé des règles de pseundonymisation applicables à des décisions de justice préalablement à leur mise à disposition du public (open data). Les noms et prénoms des parties et des tiers, à l’exception des magistrats et des greffiers, doivent être occultés.
Dans l’entreprise aussi, les règles d’anonymisation doivent être adaptées en fonction de la nature du document, du type de personne physique mentionnée, et de la population ciblée par la diffusion du document. Une anonymisation systématique pourrait en effet nuire à l ‘intelligibilité du document restant et être disproportionnée par rapport aux risques encourus. Par exemple, pour exploiter un corpus de contrats d’assurance-vie à des fins de ventes croisées, l’entreprise pourrait anonymiser les noms des ayants-droits tout en laissant en clair le nom du client, seul nécessaire aux besoins du marketing.
Quand la plateforme Kairntech intervient…
C’est là que l’IA et la plateforme Kairntech ont tout leur intérêt. La phase de configuration du corpus d’apprentissage permet en effet d’annoter manuellement les noms de personnes physiques en fonction de leur contexte sémantique. L’outil apprend ainsi quand ces noms doivent être remplacés par des initiales, et quand ils doivent être laissés intègres.

La qualité d’anonymisation se mesure avec une batterie d’indicateurs, comme le taux de précision et le taux de rappel. La taille du corpus d’apprentissage, en nombre de pages et en nombre de documents, le nombre, la variété et la complexité sémantique relative des étiquettes, et le nombre d’annotations dans chacune de ces étiquettes portées dans ce corpus d’apprentissage, constituent ensuite les paramètres essentiels qui déterminent le niveau global de qualité.
Conclusion
La plateforme Kairntech ne va pas seulement exécuter l’anonymisation de documents. Elle va aussi produire les indicateurs de qualité de ce traitement. Ceux-ci permettront de nourrir, puis réviser, l’étude d’impact, et ainsi justifier de l’algorithme d’anonymisation utilisé en cas d’audit ou de litige.