Reconnaissance Optique de Caractères – OCR
Introduction
La plupart des outils forensiques permettent une recherche aisée au travers de fichiers textes ou de documents simples. Cependant, une image peut potentiellement contenir du texte. C’est typiquement le cas de fichiers PDF sans reconnaissance de texte, de documents scannés, de captures d’écran, etc. Pour ce type de données, la reconnaissance optique de caractères (OCR) est nécessaire afin d’identifier et d’extraire le texte contenu dans l’image. Sans cette étape, toute recherche retournera potentiellement des résultats incomplets, puisque tout document non-cherchable ne sera pas pris en compte. De ce fait, afin de garantir un haut niveau de fiabilité des résultats, l’OCR est une étape critique du processus d’eDiscovery.
Sélection de documents pour l’OCR
Bien que l’utilité de l’OCR ne soit plus discutée, la sélection des documents candidats à l’OCR s’avère une tâche bien plus complexe. Une grande variété de critères peut être prise en compte et chaque expert a sa propre recette. Il n’existe pas de solution universelle, puisque la meilleure stratégie sera toujours taillée sur mesure en fonction des besoins et moyens du projet. L’impact de l’OCR sur les délais et les coûts devrait toujours être mis en balance avec sa pertinence, afin de combler au mieux les attentes et besoins du client.
Le critère le plus basic est habituellement le type de fichier. Images et fichiers PDF sont souvent examinés lorsqu’il s’agit d’OCR. Cette sélection est rendue d’autant plus facile avec des outils tels que Nuix, qui extrait les images incluses dans d’autres documents. Par exemple, une image insérée dans un document Word apparaîtra comme un objet distinct et sera de ce fait plus facile à repérer. Quant à savoir si tout type d’image doit passer par l’OCR, seulement certains types ou aucun, cela dépend du projet. A quel point est-il plausible que des informations importantes pour le cas soient contenues dans une image? Typiquement, alors qu’en matière de fraude l’intérêt se portera plus particulièrement sur les données comptables, des captures d’écran prennent une toute autre dimension dans une affaire de vol de données. La question de la pertinence de tous les types d’images peut malgré tout rester d’actualité, puisque toute image ne contient pas forcément du texte. Certaines entreprises ont des scanners qui exportent dans des formats spécifiques qu’il peut être intéressant de prendre en compte en priorité. De même, si le client utilise une application spécifique pour les captures d’écran, connaître les formats possibles aidera à optimiser la sélection. Une bonne connaissance de l’environnement du client et de sa politique peut avoir un impact réel sur votre stratégie en matière d’OCR. Il est de coutume de présenter les différentes options au client tout en expliquant leur impact par rapport à leur pertinence.
Exclure les fichiers cryptés ou corrompus est probablement le critère le plus largement accepté. Un désavantage par contre pourrait être des fichiers reconnus à tort comme corrompus. Malheureusement, il ne s’agit pas là d’une hypothèse théorique mais d’une histoire vécue. Dans certains cas, des fichiers PDF identifiés comme corrompus par des outils forensiques peuvent en réalité être ouverts dans leur format original, et même donner des résultats positifs avec l’OCR. De ce fait, l’on ne peut que rappeler une fois encore l’importance d’un contrôle de qualité des données et de leur extraction.
Un autre critère bien plus ambigu est la limitation de la sélection à des fichiers dépourvus de texte. Bien qu’il soit indéniable que de tels fichiers font de très bons candidats, cette règle peut s’avérer trop stricte sous certaines circonstances. Il peut y avoir des fichiers PDF dont seuls les entêtes ou pieds de page ont été extraits. De ce fait, un nombre de caractères maximum pourrait être plus approprié. Cependant, il existe des cas encore pires. Certains fichiers PDF possèdent un encodage spécifique que seul Adobe sait interpréter. En conséquence, les outils forensiques extraient un texte qui ne correspond pas au contenu réel du fichier mais s’avère incompréhensible. Ce type de fichiers aura un nombre suffisant de caractères pour échapper au processus de sélection. En fin de compte, lorsque les besoins du projet, les coûts et délais sont mis en balance, faire au mieux est la seule réponse correcte.
La taille des fichiers peut également être utilisée comme filtre supplémentaire, bien que cela nécessite une connaissance détaillée des données et un certain temps passé à les explorer. En excluant les fichiers trop petits pour contenir du texte, le nombre de candidats à l’OCR peut parfois être massivement réduit. Une limite supérieure peut également être une option suivant le type d’affaire, puisque des photos de très bonne qualité contiennent rarement du texte.
Puisque l’on en est à aborder le sujet des photos, si les images créées par un appareil photo sont peu pertinentes pour l’affaire, exclure les fichiers contenant des métadonnées EXIF ou GPS peut être judicieux. Toutefois, d’après mon expérience, cela n’a souvent qu’un impact mineur sur le nombre de candidats.
Pour les utilisateurs de Nuix, un choix supplémentaire se pose en matière d’objets immatériels. Alors que la plupart des gens tend à les ignorer, il est cependant important d’être conscient du fait que les objets immatériels peuvent contenir du texte ou des images. De ce fait, ils ne doivent pas être écartés d’office des candidats à l’OCR. De plus, une option d’ingestion dans Nuix (“Hide immaterial items (text rolled up to parent)”) permet à l’utilisateur de cacher les objets immatériels sans perte du texte qu’ils peuvent contenir, puisque celui-ci est ajouté à leurs parents. Alors qu’en est-il des images immatérielles? Après test, nous avons observé qu’elles étaient ré-incluses dans leurs parents. Alors que cela peut donner l’impression d’éviter toute perte de données, l’impact sur la sélection pour l’OCR est cependant considérable et ne devrait pas être négligé. Comment peut-on identifier ou même envoyer une image à l’OCR quand elle est incluse dans un document Word? Est-ce que tous les documents Word doivent dès lors être sélectionnés pour l’OCR? Et qu’en est-il des fichiers PDF dont le texte a été extrait par Nuix, mais qui contiennent des graphes ou tableaux sous forme d’images? Bien qu’en matière d’eDiscovery, faire au mieux et adapter les solutions aux besoins du projet sont la règle d’or, l’impact de toute décision doit être dûment compris et assumé sciemment.
Limitations de l’OCR
Une fois les candidats à l’OCR sélectionnés, dédupliquer les résultats évitera tout travail redondant et réduira le temps nécessaire. Il y a ensuite différentes façons d’achever une reconnaissance de caractères. Certaines applications forensiques ou d’eDiscovery comprennent une option d’OCR, alors que d’autres outils spécialisés peuvent également être utilisés. Certains créent une image des documents avant de mettre en oeuvre l’OCR, alors que d’autres travaillent directement sur les fichiers originaux. Toutes ces options ont leurs avantages et désavantages, mais en fin de compte, ce qui motive le choix de l’outil reste généralement la rapidité d’exécution.
Peu importe l’outil utilisé, l’important est de ne jamais oublié qu’aucun produit n’est parfait. La qualité des résultats est fortement influencée par la résolution du fichier original, sa qualité et son contraste. Par exemple, certains outils fournissent de piètres résultats lors de contrastes inversés (texte en blanc sur fond noir). Chiffres et signes sont parfois interprétés de manière erronée. La plupart des outils se reposent également sur des dictionnaires spécifiques aux différentes langues afin d’optimiser leurs résultats. D’un côté, un document dans une langue qui n’a pas été sélectionnée au préalable donnera de mauvais résultats. D’un autre côté, plus on sélectionne de langues et plus la qualité des résultats se détériore. Finalement, il faut également considérer le cas des documents qui échouent complètement lors de l’OCR. Il s’agit souvent de documents visibles mais protégés. Il est important de garder à l’esprit que ces documents ne feront jamais réellement partie d’une recherche par mot clé, puisque le texte n’a pas pu être extrait. Dès lors, une approche de revue systématique et manuelle reste l’option la plus sûre pour ceux-ci. La qualité des résultats de l’OCR impacte bien entendu la fiabilité des résultats de recherche par mot clé sur tous ces documents. Comme d’habitude en forensique, l’absence de preuve n’est jamais la preuve de l’absence. Ne pas obtenir de résultats avec un mot clé NE signifie PAS que le mot clé est absolument absent des données examinées.
Conclusion
Au contraire de sciences plus traditionnelles, l’eDiscovery ne respecte pas un ensemble de règles strictes et universelles. Faire au mieux est le mot d’or. Cela a deux conséquences principales. Premièrement, aucune décision n’est ni bonne ni mauvaise. Deuxièmement, il est crucial de connaître les implications, bénéfices et inconvénients de chacune de ses décisions. Un choix judicieux est un choix qui peut être justifié. Il en va de même en matière d’OCR. Que l’on applique de l’OCR ou non, et de quelle manière cela est fait n’est pas le plus important. Ce qui importe réellement et fera de vous un expert est la connaissance des limitations et conséquences de vos choix. Cependant, l’on peut aller encore plus loin. Aider le client à prendre une décision éclairée quant à l’approche à appliquer prouvera que vous ne maîtriser pas seulement l’aspect technique, mais que vous êtes également capable de communiquer clairement à des parties non-techniques. Bien que notre domaine puisse paraître quelque peu obscur au profane, le présenter comme une boîte noire ne rend pas service au client. Mettre en place un projet de façon collaborative, en incluant le client dans les décisions et en prenant en compte son point de vue vous assurera une meilleure compréhension de ses attentes et, dès lors, vous permettra de fournir un service de grande qualité.