Comment enquêter sur une entreprise avec 60 millions de documents

  • Par Michael Dempsey
  • Reporter en Technologie des Affaires
Yousr Khalil, juricomptable

Crédit photo, FRA

Légende image,

Yousr Khalil faisait partie d'une équipe de 70 enquêteurs

Imaginez que vous deviez chercher dans tous les documents, les courriels et les messages d'une grande multinationale. Yousr Khalil n'a pas besoin d'imaginer.

Cet experte comptable faisait partie d'une équipe qui a dû trouver des preuves de méfaits chez le géant de l'aérospatiale Airbus après que celui-ci ait admis avoir versé des pots-de-vin par le biais d'intermédiaires.

"Airbus était comme une tour d'habitation avec 900 appartements à l'intérieur. Nous devions décider sur lesquels nous allions enquêter", dit-elle.

A ne pas manquer sur BBC Afrique :

Mme Khalil travaille pour la FRA, une entreprise d'investigation médico-légale qui soutient des affaires juridiques dans le monde entier. Mais il s'agissait d'une affaire inédite et du plus gros travail jamais réalisé par la FRA.

Afin de pouvoir bénéficier d'un accord de report de poursuites judiciaires (DPA), Airbus a ouvert ses opérations à un examen approfondi en 2016.

Le projet de quatre ans visant à éradiquer les pratiques de corruption a aidé Airbus à conclure un accord avec les régulateurs du Royaume-Uni, des États-Unis et de la France.

L'entreprise a payé plus de 2 300 milliards FCFA (3,6 milliards d'euros) d'amendes en reconnaissance d'actes de fraude et de corruption.

Crédit photo, Getty Images

Légende image,

Airbus avait 60 millions de documents et de transactions qui devaient être analysés

Mme Khalil et une équipe de 70 personnes ont été confrontées à un océan de fichiers, de données de transactions et de courriels couvrant des activités sur le plan mondial pour la plupart tout à fait anodines.

Alors comment ont-ils tracé leur chemin ? L'intelligence artificielle (IA) et un ordinateur sur mesure, différent de tous les PC sur lesquels vous avez travaillé, ont joué un rôle important dans cette épopée de données.

Une impressionnante collection de 500 millions de documents et de transactions a dû être réduite à sa plus simple expression.

Avec la croissance exponentielle des volumes de données, l'IA est de plus en plus souvent utilisée dans ce type d'enquêtes.

Après avoir éliminé les doublons et autres documents non pertinents, les enquêteurs se sont retrouvés avec 60 millions de documents à examiner.

Lire plus :

L'IA a recherché des modèles et a repéré des bribes qui n'étaient pas à leur place, comme un contrat de sponsoring sportif de 100 millions de dollars. Comment se sont déroulées les relations avec le personnel d'Airbus pendant tout ce temps ?

"Aucune entreprise n'est jamais vraiment prête pour une enquête médico-légale complète", dit Mme Khalil, mais ses confrères d'Airbus ont été très réactifs.

"Quand le régulateur a insisté pour une réponse rapide sur quelque chose, ils l'ont fait."

Comme si 60 millions de supports n'étaient pas un défi suffisant, 800 employés d'Airbus dans le monde entier ont été légalement désignés comme gardiens de ces documents.

"Vous pouvez avoir des informations réparties sur différents supports, comme des ordinateurs portables, des dispositifs de stockage, des clés USB, etc. Nous devions identifier qui était le gardien de ces données", explique Greg Mason, partenaire fondateur et co-responsable de l'analyse des données à la FRA.

Crédit photo, Getty Images

Légende image,

L'enquête a été compliquée par des projets militaires sensibles d'Airbus

Sept sites d'enquête sécurisés ont été mis en place. Ils ont permis d'examiner des documents en toute sécurité, un point crucial pour Airbus.

Il s'agit d'une vaste entreprise liée à de grands projets d'avions militaires européens. L'enquête a donc dû trouver un moyen d'écarter les documents sensibles sur le plan national.

Des logiciels spécialisés ont permis de recueillir des informations sans voir l'intégralité du document d'où elles provenaient, préservant ainsi les informations secret-défense des regards indiscrets.

En outre, des ordinateurs spécialisé d'une valeur de 100 000 dollars, fonctionnant sur plusieurs disques et sans connexion à Internet ont été utilisés.

Lire aussi :

C'est ce que l'on appelle le "air gapping", qui établit une séparation nette entre les données sensibles et le monde extérieur de l'internet.

Le traitement d'une montagne de données devient plus facile et plus rapide si elles sont traitées comme de simples données.

La FRA a extrait les métadonnées, les informations qui sous-tendent chaque document électronique et qui définissent ce qu'il est, et les a utilisées pour indexer le matériel afin que les fichiers non pertinents puissent être supprimés.

L'IA a constitué la base de cette révision assistée par la technologie (TAR).

L'IA a été formée à la recherche de données non structurées telles que les courriers électroniques. Ceux-ci sont difficiles à scanner, contrairement aux données structurées contenues dans les formulaires et les colonnes.

Vous pourriez aussi être intéressés par :

En utilisant le principe de l'apprentissage automatique, selon lequel le logiciel d'IA voit plusieurs exemples d'un type de message particulier et commence à repérer à quelle catégorie ils appartiennent, la FRA a pu extraire les documents pertinents à un rythme soutenu.

"Le programme d'IA a cherché le contexte des messages, le contexte est tout", observe M. Mason.

Le logiciel recherchait les pots-de-vin qui étaient arrangés par des codes, comme un médecin prescrivant un médicament.

En exécutant des exemples de ce type de message caché, le logiciel a acquis le concept de médicament, puis celui de prescription.

Il pouvait ainsi parcourir des données non structurées et repérer les pratiques de corruption.

"Au fur et à mesure que vous identifiez de plus en plus d'exemples de paiement dissimulé, l'IA apprend à la volée. C'est la beauté et la magie de l'IA", déclare M. Mason.

Un système de notation a été mis en place, avec des points ajoutés pour certains attributs. Tout score supérieur à un certain nombre a été jugé digne d'être examiné plus avant.

La technologie d'apprentissage par machine s'est améliorée au fur et à mesure des progrès.

Crédit photo, Getty Images

Légende image,

L'intelligence artificielle peut être formée pour passer au crible des millions de documents à la recherche d'anomalies

Greg Mason, partenaire fondateur et co-responsable de l'analyse des données à la FRA, estime que seulement 5% des documents mis de côté ont été vérifiés par des personnes, mais cela représente tout de même trois millions de dossiers.

"L'IA n'est pas une panacée, mais la façon dont elle apprend est assez extraordinaire

Statisticien de formation, il est impressionné par la façon dont la technologie de l'IA permet de traiter rapidement de gros chiffres.

"Même un petit cas aujourd'hui est accompagné d'un énorme volume de données."

Il a dû vendre le concept novateur de la TAR à des organismes de réglementation tels que le Serious Fraud Office (SFO) britannique et obtenir l'approbation de ce qui n'était pas une approche traditionnelle d'une enquête. "C'était l'enquête la plus complexe que j'avais jamais mise en place".

Une enquête de quatre ans semble épuisante. Mais démasquer la fraude avec un assistant d'AI a donné à l'équipe beaucoup de satisfaction personnelle.

Et leur travail a reçu un sceau a été approuvé sur le plan légal.

Victoria Sharp, l'un des plus hauts magistrats des tribunaux civils d'Angleterre et du Pays de Galles, a résumé l'impact considérable de cette enquête avec son rôle prépondérant pour l'IA.

S'exprimant au nom de la partie britannique de l'affaire tri-nationale en janvier 2020, elle a déclaré qu'Airbus "a vraiment fait ses frais et est maintenant une société différente de celle qui existait au moment des faits"."

Regarder :

Légende vidéo,

Transport aérien: est-ce déjà la fin de A380?