Analyse des données des courriels d’Enron
Kairntech RAG (Retrieval Augmented Generation) pour la criminalistique est l’un des cas d’utilisation les plus récents des grands modèles de langage. Il permet d’analyser des informations internes tout en bénéficiant de la puissance des LLM. Et tout cela sans avoir à partager les données avec des tiers ou à mener des campagnes coûteuses de recyclage ou de mise au point.
Kairntech a mis en œuvre RAG dans le cadre de sa solution. Ici, nous décrivons brièvement un cas d’utilisation autour de l’analyse d’un grand nombre de documents électroniques. Nous utilisons le corpus Enron Mail: une vaste collection de courriels qui ont été rendus publics après l’affaire de fraude Enron de 2001.
Kairntech RAG pour la criminalistique – téléchargement de documents
Les documents peuvent être téléchargés dans Kairntech à partir d’une variété de formats tels que PDF, HTML, DOC et bien d’autres. Dans ce cas, nous voulons nous assurer que nous conservons les riches métadonnées qui accompagnent les documents envoyés par courrier électronique. Qui a envoyé quoi à qui, quand et avec quel sujet, etc. Pour cela, nous traduisons les documents électroniques au format json de Kairntech :
{
"metadata": {
"Source": "maildir/allen-p/all_documents/100.",
"Date": "Mon, 9 Oct 2000 07:16:00 -0700 (PDT)",
"From": "phillip.allen@enron.com",
"To": ["keith.holst@enron.com"],
"Subject": "Consolidated positions: Issues"
},
"text": " … Below is the issues & to do list as we go forward with documenting the requirements for consolidated physical/financial positions and transport trade capture. What we need to focus on is the first bullet in Allan's list …”
}Les documents contiennent, outre un élément « texte », un champ « métadonnées » dans lequel nous pouvons stocker les informations pertinentes relatives à ce courrier électronique spécifique. Le fait d’avoir les métadonnées à côté du texte deviendra important pour l’analyse médico-légale.
Après l’importation des documents, il est temps de les analyser en posant des questions en langage naturel.
Parlez aux documents en langage naturel
RAG effectue une analyse sémantique de la question et la compare aux résultats de l’analyse sémantique préalable des documents importés. Il sélectionne ensuite ceux qui contiennent des informations pertinentes pour répondre à la question. Le sous-ensemble de correspondances extraites est ensuite résumé par un LLM pour fournir une réponse finale.

Souvent, une réponse RAG renvoie des informations condensées qu’un expert humain mettrait des heures, voire des jours, à obtenir en utilisant uniquement les méthodes de recherche textuelle traditionnelles.
Intégrer des modèles
Les utilisateurs peuvent accéder à un certain nombre d’options pour affiner le processus de recherche et de génération de réponses : Par exemple, différents LLM peuvent différer par leur qualité, leur comportement en cours d’exécution ou leur prix par requête. Dans la configuration ci-dessous, un utilisateur peut choisir le LLM à utiliser : GTP3.5, le GPT4, plus récent, plus puissant et plus coûteux, ou le modèle Dolphin de Mixtral, moins coûteux mais compétitif.

Texte et métadonnées : une combinaison gagnante
Comme nous avons enregistré les métadonnées des courriers électroniques, nous pouvons les utiliser pour restreindre l’ensemble des documents pour notre prochaine question à l’ensemble des documents dont nous avons besoin. Voici la question : Quels étaient les sujets abordés dans les courriers électroniques envoyés par Ann Schmidt à Karen Denne ?

Savoir où chercher
Comme nous disposons des métadonnées pour chaque document, nous pouvons également les combiner avec le contenu du courrier. Cela permet de poser des questions qui doivent étudier à la fois le contenu et les métadonnées afin que le LLM puisse y répondre correctement. Par exemple, dans la question ci-dessous, le LLM « comprend » que les « courriers envoyés par Michelle Cash » nécessitent de rechercher des documents contenant Michelle Cash dans le champ « From : ».

Cliquez ici pour voir comment faire en sorte que le RAG prenne en compte le texte et les métadonnées.






