Challenges en eDiscovery audio

21. avril 2016, by Irène Wilson
Recording voice sound laptop

Introduction

Avez-vous déjà entendu parler d’eDiscovery audio? L’année passée, Swiss FTS a eu l’opportunité de pénétrer ce domaine fascinant. Tandis que les affaires impliquant du contenu audio demeurent soumises à des problématiques traditionnelles d’eDiscovery, telles que la quantité de données et les restrictions liées à la protection des données personnelles, nous avons toutefois rencontré de nouveaux challenges. Par exemple, comment faire des recherches dans du contenu audio? Est-il possible d’accéder au contenu de types de fichiers méconnus ou propriétaires? Si vous commencez à creuser en matière d’eDiscovery audio, vous serez soufflés par l’étendue et la précision des informations et articles disponibles. Laissez-moi vous présenter cette nouvelle dimension…

Quel contenu audio?

Alors que les fichiers audio sont souvent ignorés en eDiscovery traditionnelle et relégués au rang de “playliste des chansons préférée de M. Bad Guy”, il arrive qu’ils soient de la plus haute importance dans certains domaines spécifiques. Par exemple, les entreprises offrant des services de trading sont tenues par la loi d’enregistrer les appels des traders. Beaucoup de hotlines et centres de support technique enregistrent également les appels. Les boîtes vocales et enregistrement personnels peuvent aussi s’avérer pertinents dans certains cas.

Bien que les contenus audio existent dans le monde de l’eDiscovery, ils se cachent souvent dans l’ombre des revues de courriels traditionnelles. Le domaine n’est toutefois pas complètement alien, puisqu’il partage une problématique avec la revue de courriels: la variété des formats. Cela va bien plus loin que juste le format du fichier et implique des nuances bien plus subtiles comme les codecs et la fréquence (bit rates). Vous aurez besoin de savoir quel système d’enregistrement votre client utilise, ainsi que la version du logiciel et sa configuration afin de procéder à une analyse complète.

Non seulement le contenu audio lui-même peut être formaté de bien des manières, mais les métadonnées y-relatives peuvent être conservées à différents emplacements, tels que dans le nom du fichier, dans un tableau distinct ou une base de données. Elles nécessiteront d’être interprétées ou extraites, et liées aux pistes audio correspondantes.

L’identification des protagonistes de la conversation est beaucoup plus complexe que pour des courriels. Savez-vous à qui était attribuée la ligne que vous écoutez ? Alors que le propriétaire de la ligne est parfois clairement défini, il n’est pas inhabituel que le flot audio soit lié à une source particulière plutôt qu’à une personne, comme par exemple un bureau ou un téléphone. Dans de tels cas de figure, l’identification des propriétaires n’est pas aisée et nécessite des efforts supplémentaires. Cette lourde tâche peut être facilitée par des systèmes d’identification d’interlocuteurs, qui permettent d’identifier les caractéristiques du langage d’une personne avec seulement 5 minutes d’enregistrement, et d’étendre la reconnaissance au set de données entier.

Pour garantir la complétude des données collectées, il vous faudra aussi prendre en considération quelques points supplémentaires. Est-ce que les appels entrants et sortants sont enregistrés de la même manière ? Comment sont traités les appels redirigés, et quel en est l’impact sur les métadonnées ? Ce dernier aspect peut facilement mener à un manque de données s’il est négligé.

Gérer vos projets d’eDiscovery audio

Tout cela sonne déjà comme un challenge excitant, n’est-ce pas? Je sais que les geeks sont déjà perdus dans leurs pensées, évaluant les différents obstacles possibles lors de la préparation de ce type de données pour la revue de leurs clients. C’est très bien, mais ne pas perdez pas de vue quelques réalités plus terre-à-terre. Soyons organisés et fournissons au client quelques informations de management de projet. Penchons-nous ainsi sur de petits problèmes tels que l’organisation temporelle du projet. Plusieurs facteurs doivent être clarifiés avant de pouvoir répondre à cette question, même vaguement.

Premièrement, le cadre de l’investigation en matière de période et d’interlocuteurs/lignes doit être défini. D’autres considérations supplémentaires utiles à réduire le set de données comprennent la réduction des données audio aux horaires d’ouverture (certains systèmes enregistrent 24 heures sur 24, 7 jours sur 7), le filtrage des parties d’enregistrement qui ne contiennent pas de conversation, et le filtrage des interlocuteurs. Tout comme pour la revue de courriels, la quantité de données impacte fortement le planning du projet. Des informations telles que la fréquence (bit rates) et le volume total de données sont des facteurs critiques à la prédiction du nombre d’heures de données audio avec lesquelles il faut compter.

Un autre facteur impactant le planning est la façon dont les données sont stockées. Il y a bien des chances que les fichiers soient conservés sur des cassettes de sauvegarde, en format crypté et compressé. La restauration et la conversion de ces données dans un format utilisable sont des tâches longues qu’il ne faut pas négliger. Les limitations du système audio est un autre goulet d’étranglement: Jeff Schlueter mentionne dans l’un de ses articles que l’un des systèmes les plus utilisés limite l’export à seulement 50 fichiers à la fois (i). Bien que cet aspect soit hors de votre contrôle, il faut toutefois en tenir compte pour donner des estimations de temps réalistes à ses clients.

Stratégies de revue

Maintenant que vous avez une bonne compréhension du nombre d’heures de données audio ciblées par votre projet ainsi que du temps nécessaire au client pour vous les transmettre, il est temps de penser aux différentes stratégies de revue. A ce sujet, l’eDiscovery audio offre plus de variété et d’originalité que l’eDiscovery traditionnelle.

Revue linéaire

La première stratégie de revue est simplement la revue linéaire. Vous donnez aux investigateurs accès aux fichiers audio. Ils vont ensuite les écouter tous et les classifier selon leur pertinence. Quelques sources (ii) relèvent que la revue d’1 heure de contenu audio prend en moyenne 4 heures. Cette information peut vous aider à évaluer la durée de la revue, en vous basant sur la quantité de données audio ciblées.

Cette approche a l’avantage de nécessiter peu de technologie, ce qui limite les coûts indirects liés à la revue. Cependant, cela peut avoir un impact sérieux en termes de délais et de coûts de revue pour les grandes affaires.

Transcriptions

La transcription est une approche qui est souvent sous-estimée et qui implique la création d’une transcription texte de chaque fichier audio manuellement par du personnel dédié. Bien que cela prenne du temps et entraîne des coûts supplémentaires, cette approche a l’immense avantage de ramener le contenu audio à l’eDiscovery traditionnel. Les transcriptions peuvent être traitées à l’aide de vos méthodes d’eDiscovery habituelles pour les indexer, les préparer, les investiguer et les réviser. Cette stratégie vous ramène à des outils que vous connaissez et maîtrisez, et vous permet d’appliquer un processus unique et uniforme à toutes vos données. De plus, cela ouvre également la porte aux outils analytiques et à la revue assistée par ordinateur. Il est important toutefois de relever que les transcriptions ne sont pas exemptes d’erreurs et qu’elles ne capturent pas l’intention ou l’intonation de l’interlocuteur. Les plus gros points faibles de cette approche sont ses impacts en termes de temps, coûts et précision.

Indexation et recherche

Certains outils spécifiques à l’eDiscovery audio offrent des solutions d’indexation et de recherche des données. L’indexation peut être s’appliquer jusqu’à 340 fois plus vite que la vitesse réelle (iii) et la quantité de données peut être réduite grâce à un filtrage par mot-clé. Cela vous semble-t-il familier ? Bien que les concepts de bases soient similaires aux recherches traditionnelles, il y a des particularités qui diffèrent des données textuelles. La plus petite unité dans l’indexation de texte est le mot ou le caractère, alors qu’en matière d’audio c’est le phonème. C’est la plus petite partie du discours, les sons individuels contenus dans notre langue. Cette définition met bien en évidence la dépendance à la langue. Le processus nécessite d’identifier la langue du document avant d’appliquer le modèle d’indexation approprié. Cette particularité prend toute son importance dans un pays comme la Suisse, où 4 langues (ou plus !) sont fréquentes.

Tandis que cette approche est intéressante en termes de ciblage des données pertinentes au travers de mots-clés, et ainsi en termes de limitation du nombre d’heure nécessaires à la revue, les investissements informatiques qu’elle nécessite ne sont pas négligeables et ne doivent pas être sous-estimés. L’infrastructure et en particulier l’application nécessaires à cette stratégie ont un coût. Il existe différents modèles de prix, qui augmentent le plus souvent en fonction du nombre de langues nécessaires. Cette approche peut toutefois s’avérer rentable dans de grandes affaires où la revue linéaire n’est plus une option efficace. Par exemple, un projet impliquant 5’000 heures de données audio prendrait environ 5 mois complets à une équipe de 25 investigateurs dans une stratégie de revue linéaire (iv). Avec une stratégie d’indexation et de recherche, ces données pourraient être indexées et prêtes pour des recherches en moins d’un jour. Même si les mots-clés n’étaient pas particulièrement efficaces et conservaient 20% des données cela réduirait déjà le temps nécessaire à la revue de 5 mois à 1 mois.

Reconnaissance audio

La dernière stratégie de revue est encore de l’ordre de la science-fiction. La reconnaissance audio, speech recognition ou speech-to-text en anglais, automatise le processus de transcription en utilisant un ordinateur pour traduire l’audio en texte. Bien que cela soit admirable en théorie, l’état actuel de la recherche ne permet pas des résultats suffisamment fiables pour qu’ils soient utilisés en eDiscovery. Tout quidam ayant testé les commandes vocales sur son téléphone ou dicté un message via Whatsapp® sait que le taux d’erreur est encore très haut à l’heure actuelle. Les enregistrements ajoutent encore un degré de complexité supplémentaire avec le bruit de fond et les accents individuels. Le problème du prix d’une telle technologique ne doit pas être oublié non plus.

Recherche audio

Si vous optez pour la stratégie vous permettant de réduire la quantité de données au travers d’une recherche par mots clés, il y a différents aspects dont vous devez être conscient.

Plus vos recherches sont uniques, meilleurs sont les résultats. Ceci n’est pas une remarque triviale, puisque nous parlons de sons et non de mots. Les mots « compte » et « conte » décrivent des concepts très différents, mais se prononcent exactement de la même manière. En général, plus l’expression recherchée est longue et mieux c’est. Bien que « compte » et « conte » sont oralement ambigus, les expressions « compte bancaire » et « conte de fées » sont clairement distinctes.

Les dates, signes, nombres et acronymes sont particulièrement problématiques et nécessite de rechercher multiples variantes. 97 peut se prononcer « neuf-sept », « nonante-sept » ou « quatre-vingt-dix-sept ».

Vos recherches doivent aussi tenir compte du fait que le parler est moins formel que l’écrit, omettant par exemple le « ne » des négations. Des termes plus familiers sont aussi utilisés comme « tickets » ou « balles » au lieu de « franc » ou « euro ». Des différences régionales sont également importantes, car « panosse » et « serpillère », ou « linge » et « torchon » sont des sons bien différents bien qu’ils aient la même signification. De plus, l’impact des différents dialectes ne doit pas être sous-estimé. Le suisse allemand par exemple varie d’un canton à l’autre, compliquant la tâche de lister toutes les différentes façons d’exprimer une même idée. Finalement, la langue parlée est extrêmement versatile. Non seulement elle évolue vite, mais des différences notables peuvent être remarquées selon les générations.

Conclusion

Comme promis en début d’article, l’eDiscovery audio est bel et bien fascinant. Bien qu’elle s’exerce dans le même contexte qu’une revue de messages électroniques, elle nécessite une approche et des outils différents, et vous force à voir le projet sous un nouvel angle. Pour moi, la vérité la plus frappante concernant l’eDiscovery audio est l’importance d’être préparé avant d’aborder ce domaine. Au minimum, recherchez le sujet, contactez des vendeurs d’applications et testez les différents outils disponibles. Si vous reléguez les données audio comme juste un autre format de données au lieu de les approcher comme un domaine à part entière en eDiscovery, vous allez assurément faire des promesses à vos clients que vous ne pourrez tenir.


Notes de bas de page

(i) Jeff Schlueter, 2013, Dodd-Frank and Audio Discovery Requirements, http://www.audiodiscovery.com/dodd-frank-and-audio-discovery-requirements/

(ii) Jeff Schlueter, inconnu, AUDIO : Searching is Different than Documents, EDRM Magazine, http://www.nexidia.com/files/resource_files/EDRM%20Audio%20Searching%20is%20Different_495.pdf

(iii) Jeff Schlueter, 2008, Did I Really Hear That?, EDRM Magazine, http://www.nexidia.com/about-nexidia/news/did-i-really-hear-that/

(iv) 5’000h de contenu audio, prenant chacune 4h de revue, revient à 20’000h de revue en tout. En partant du principe que l’équipe travaille 8h par jour, 20 jours par mois, 25 investigateurs prendraient 5 mois à terminer le travail.

Irène Wilson

Irène Wilson

Directrice Lausanne

Irène Wilson est spécialisée dans l’investigation informatique et dans l'eDiscovery. Au cours de ses nombreuses années d'expérience, elle a travaillé pour des clients de nombreux secteurs différents dans toute l'Europe. Parmi ses nombreuses qualifications, figurent les prestigieux titres de master pour Nuix Workstation et Nuix Discover.

Irène