Implications méconnues de la Déduplication

06. janvier 2015, by Irène Wilson

Introduction

La déduplication est souvent utilisée lors de revue de documents afin de réduire la quantité de données à investiguer. Lorsque plusieurs fichiers ont le même contenu, une seule version est conservée. Des valeurs hash telles que MD5 sont utilisées pour déterminer si les documents sont identiques. Une autre approche permettant de ne pas consulter plusieurs fois le même fichier est la propagation automatique des décisions de la revue à toutes les copies du document.

Dans les deux cas, certains détails des fichiers sont ignorés lors de l’évaluation de la ressemblance entre deux documents. Cet article dévoile des implications méconnues lors de l’utilisation de déduplication ou de la propagation, découlant directement de ces informations ignorées.

Identiques, à quel point?

Identifier les copies

Pour décider si deux fichiers sont identiques, le flux binaire de chaque fichier est haché avec un algorithme afin de produire une valeur hash. Cette valeur est considérée comme étant « l’empreinte digitale » du fichier et deux documents sont considérés comme identiques si leur valeurs hash sont les mêmes.

Les algorithmes les plus répandus à cet effet sont MD5, SHA-1 et SHA-256. Pour tous ces algorithmes, un simple bit différent va impacter grandement le processus et aboutir à une valeur complètement différente. Cette méthode est si précise qu’une différence d’encodage, de compression ou de format impacte la valeur hash. De ce fait, deux documents peuvent contenir le même texte mais demeurer différents du point de vue de leur hashs.

Tandis que cette précision est fort utile d’un point de vue forensique, elle cause également quelques soucis lorsqu’il s’agit d’identifier deux courriels comme ayant le même contenu. Par exemple, l’en-tête des courriels varie énormément selon les serveurs par lesquels ils passent. L’application utilisée pour lire ou collecter les courriels peut également impacter leur format. De même, le champ BCC n’est pas présent ou identique sur la copie de chaque destinataire. Il en découle qu’un même courriel aura différentes valeurs hash selon qu’il vient de la boîte de l’auteur ou des différents destinataires. En outre, le même courriel obtenu du même compte, mais une fois au travers d’un téléphone portable et une autre fois au travers d’un ordinateur, pourrait être considéré complètement différent selon le client utilisé pour y accéder et/ou le format d’exportation utilisé. L’archivage et les systèmes de sauvegarde changent souvent le contenu binaire des courriels, impactant du même coup leurs empreintes. En réponse à toutes ces difficultés, beaucoup d’outils d’eDiscovery adaptent la valeur hash des courriels afin de mieux identifier les différentes copies. Cette adaptation ignore d’habitude une grande partie de l’en-tête et formate parfois également le contenu du courriel.

Informations ignorées

Le processus standard de hachage prend en compte tout le flux binaire, mais ignore complètement le contexte du fichier. Cela signifie que le même document sous un chemin d’accès différent, avec un nom différent ou des dates différents obtiendra exactement la même empreinte. D’une manière générale, le nom, le chemin d’accès et les dates ne sont pas pris en considération dans le calcul du hash. Les dates systèmes sont la date de création, de dernière modification, de dernier accès ainsi que de dernière modification de l’entrée (entry last modified). D’autres attributs qui n’impactent pas non plus le hash sont le propriétaire des données, le répertoire sous lequel il était sauvé, le fait qu’il soit ou non supprimé, ainsi que son origine.

Concernant les courriels, l’adaptation du processus de hachage ignore également le champ BCC ainsi que la date d’expédition/de réception. D’autres détails techniques de l’en-tête sont ignorés.

Les impacts de la déduplication

La déduplication peut avoir des effets pervers à différentes phases du processus d’eDiscovery.

Filtrage

Le filtrage des fichiers ne devrait jamais avoir lieu après la déduplication. Cependant, il arrive souvent que la cible de l’investigation soit peu claire; la quantité de données est réduite au travers de la déduplication et le client décide après coup de filtrer à nouveau afin de réduire le nombre de fichier à chercher ou consulter. Dans les faits, cette pratique peut conduire à l’exclusion de fichiers qui seraient en fait dans le viseur de l’enquête.

En ce qui concerne le filtrage en fonction du propriétaire des données, il y a deux risques majeurs induits par une déduplication préliminaire. Tout d’abord, si vous appliquez une déduplication globale (au travers de votre set de données comme un tout), vous allez conserver une version de chaque fichier indépendamment de son propriétaire. De ce fait, un filtrage par propriétaire appliqué après coup peut conduire à l’exclusion erronée de fichiers. En effet, si la version conservée après déduplication appartient à quelqu’un d’autre, vous risquez de négliger le fait qu’une copie de ce fichier appartenait en fait à une personne d’intérêt. Cela signifie qu’appliquer une déduplication globale et faire une revue de chaque propriétaire isolément sont intuitivement incompatibles. Il y a toutefois des astuces pour pallier à cette situation, mais ce challenge ne doit malgré tout pas être sous-estimé. Le second piège est cependant bien plus pernicieux. Pour avoir une vision plus complète des fichiers impliquant une personne, vous pouvez, outre le fait de vous fier au propriétaire officiel des données, chercher les propriétés des fichiers ainsi que l’auteur et les destinataires des courriels. Cela permet d’identifier des données qui ne sont plus en possession de la personne d’intérêt au moment de la collection mais lui appartenait ou la concernait à moment donné. L’exclusion du champ BCC lors du calcul du hash a ici un impact considérable. Elle a pour conséquence principale que différentes versions d’un courriel jugées comme identiques n’ont pas nécessairement les mêmes destinataires. De ce fait, appliquer une déduplication avant de rechercher dans les destinataires une personne en particulier peut conduire à écarter des courriels pourtant pertinents.

Un autre type de filtrage qui est impacté par une déduplication antérieure est lié aux dates. Bien souvent, à la découverte du nombre de fichiers contentant un hit pour les mots clés choisis, les clients décident de limiter le cadre de l’investigation aux années les plus pertinentes. La déduplication a un impact sur ce processus. En ce qui concerne les courriels, comme mentionné précédemment, les dates sont normalement ignorées lors de la comparaison des fichiers. Toutefois, l’on peut s’attendre à ce que les dates des différentes versions d’un même courriel soient contenues dans un laps de temps très court, entraînant un impact limité. La situation est cependant toute autre lorsqu’il s’agit d’autres types de fichiers. Premièrement, la question se pose de quelle date considérer: date de création ? de dernière modification ? de dernier accès ? Qu’en est-il de la date de suppression ? Mais au-delà de ces considérations, il est important de souligner que les copies d’un même document ont probablement différentes dates. Par exemple, copier un fichier vers un nouvel emplacement met généralement à jour sa date de création à la date actuelle. Selon la version gardée après déduplication, votre fichier peut, presque aléatoirement, se retrouver ou non dans les résultats de votre filtrage par dates.

Recherche

Lors de recherches par mots clés, une déduplication préliminaire a les impacts suivants:

Chemin d’accès : Parfois, on rassemble tous les fichiers liés à un sujet précis sous un même répertoire. Si votre mot clé apparaît dans le chemin d’accès du fichier (le nom du dossier par exemple) mais n’est pas présent dans le fichier lui-même, alors la déduplication peut avoir un impact. En effet, différentes versions d’un même fichier ont généralement différents chemins d’accès. La version gardée après déduplication peut ne plus contenir le mot clé que vous cherchez.
Nom du fichier : La même difficulté intervient lorsqu’on parle de noms de fichiers. Ceci n’impacte normalement pas les courriels mais les différentes versions d’autres types de fichiers peuvent avoir des noms différents. Par exemple, un fichier téléchargé temporairement depuis Internet aura souvent un nom aléatoire, tandis qu’une version sauvée volontairement par l’utilisateur aura probablement un nom complètement différent et bien plus éloquent.
Destinataires en copie cachée (BCC) : Comme mis en évidence plus haut, lorsque l’on recherche une personne, l’exclusion du champ BCC du calcul de la valeur hash peut être critique. Vos résultats peuvent être incomplets de ce fait.

Catégorisation des documents

Tandis que la décision de classer un fichier comme pertinent ou non est d’habitude guidée principalement par son contenu, son contexte et ses propriétés peuvent parfois être extrêmement importants. Par exemple, il est crucial de pouvoir prouver qui avait accès aux données et où elles étaient stockées dans des cas de fuite de données. Le vol de données et le chantage peuvent avoir le même type d’intérêt. Ici le chemin d’accès et le nom du propriétaire sont de la plus haute importance.

Le manque de contexte causé par la déduplication peut également influencer grandement l’enquête. L’exemple le plus connu est celui d’un même fichier lié à différents courriels, ou sauvé seul sans contexte. Sa pertinence à l’enquête ne sera probablement pas évaluée de la même manière, c’est pourquoi la déduplication devrait typiquement s’appliquer au niveau des familles (considérant ainsi un email avec ces pièces jointes comme une même entité) plutôt qu’au niveau des fichiers individuels. Donner au réviseur une vision complète du contexte d’un fichier a un impact non-négligeable sur la justesse de sa décision.

La propagation automatique des décisions peut également avoir un impact sur la fiabilité des résultats de la revue. Appliquer automatiquement le résultat de la revue à toutes les copies d’un document n’est judicieux que si la décision se base uniquement sur le contenu du fichier et est complètement indépendante de son contexte. Lorsqu’un courriel est marqué pertinent à cause de l’une de ses pièces jointes, la propagation automatique a un impact négatif sur la qualité des résultats.

Une autre facette du manque de contexte concerne la structure des dossiers. Lorsqu’un fichier intéressant est trouvé, vous pourriez vouloir jeter un œil aux autres fichiers sauvés par l’utilisateur dans le même répertoire. Toutefois, comme souligné plus tôt, si la version conservée après déduplication pour l’un de ces fichiers a un chemin d’accès différent, vous ne le trouverez pas en vous basant sur le chemin d’accès et vous n’aurez pas une vision complète du contenu du dossier.

Résultats de l’enquête

En fin de compte, tous ces pièges peuvent avoir un effet plus ou moins mesurable sur la qualité et la précision des résultats de l’enquête. Même sans considérer les fichiers ignorés avec le filtrage, les hits de mots clés manqués lors de la recherche et les fichiers pertinents négligés lors de la revue, la déduplication peut encore avoir un impact direct sur l’interprétation des résultats de l’enquête.

L’identification d’un suspect peut être directement influencée par les métadonnées d’un fichier. Vous pourriez par exemple vous fier à qui avait accès au fichier pour l’identification du suspect, tout en oubliant les autres emplacements contenant des copies du document. Les dates d’un fichier sont particulièrement pertinentes lors de l’évaluation d’un alibi. Dans certains cas, connaître qui avait accès à l’ordinateur, à quel moment, ainsi que la fiabilité de ces informations est crucial.

Finalement, quand une affaire va au tribunal, si la partie adverse a pris une approche différente et obtenu des informations sur un document qui diffèrent des vôtres – en conséquence de méthodes de déduplication inappropriées de votre côté – cela peut en venir à faire la différence entre gagner et perdre l’affaire.

Conclusion

L’expression « le diable est dans les détails » résume très bien les difficultés décrites dans cet article. Alors que la déduplication est d’une grande aide lorsqu’il s’agit de manipuler de très grandes quantités de données, il est nécessaire de planifier votre approche avec attention, ainsi que d’être conscient des conséquences. Il n’y a pas de solution parfaite et les limitations en termes de temps et de budget sont à prendre en compte. Cependant, il est important de connaître les risques et d’en informer votre client. La déduplication peut avoir un impact particulièrement important selon le type d’enquêtes. Une bonne communication avec le client vous permettra de prévoir et de prévenir ce genre de problèmes. A la fin, la méthode à appliquer devrait toujours être pensée et conçue selon les spécificités de chaque affaire.

Irène Wilson

Directrice Lausanne

Irène Wilson est spécialisée dans l’investigation informatique et dans l'eDiscovery. Au cours de ses nombreuses années d'expérience, elle a travaillé pour des clients de nombreux secteurs différents dans toute l'Europe. Parmi ses nombreuses qualifications, figurent les prestigieux titres de master pour Nuix Workstation et Nuix Discover.

Irène