Arbutus Analyzer : Le fuzzy-matching ou la recherche approchée
On pourrait traduire le Fuzzy-Matching par « correspondance floue » ou « correspondance approchée ».
La correspondance approchée est un domaine relativement nouveau dans son application à l’analyse et l’audit de données. Pour ceux d’entre vous qui ne connaissent pas ce terme, il s’agit d’identifier des éléments qui ne sont pas exactement les mêmes, mais qui sont suffisamment « proches » pour être considérés comme identiques.
Bien souvent, ces éléments « proches » sont en réalité le même élément qui a été saisi plus d’une fois, mais de manière légèrement différente à chaque fois.
Vous pouvez ainsi identifier des enregistrements en double, comme des noms de sociétés « Société ABC » et « Sté ABC », des numéros de factures comme 500178 et 500718 associés à des montants identiques ou approchés… etc.
Bien que la plupart de ces doublons soient généralement dus à une simple erreur de saisie, ils peuvent également s’avérer être un vecteur utilisé pour d’éventuelles fraudes.
Les recherches de correspondances approchées concernent de multiples domaines d’activité et se traduisent dans la plupart des cas par des économies directes dans la trésorerie des sociétés :
• Lorsque vous identifiez et éliminez des clients ou des fournisseurs en double, vous augmentez la productivité de vos équipes de gestion et économisez indirectement les coûts associés à la gestion des relances, aux vérifications à postériori du bien fondé des relances, des corrections à apporter aux enregistrements informatiques en cause et aux autres traitements complémentaires,
• Lorsque vous identifiez des factures qui ont été payées deux fois, cela se traduit directement par une amélioration de la trésorerie et une meilleure rentabilité.
Parmi les fonctions proposées par Analyzer dans le domaine de la correspondance approchée, on retrouvera des fonctions dédiées à la préparation des données afin de les « normaliser » et faciliter leur comparaison, des fonctions basées sur la distance Damerau-Levenshtein ainsi que des fonctions basées sur l’analyse phonétique de type Soundex.
La fonction DIFFERENCE indiquera par exemple la distance Damerau-Levenshtein, c’est-à-dire le nombre de permutations, insertions et suppressions nécessaires pour rendre deux chaînes de caractères identiques :
La recherche de correspondances approchées est très intensive en terme de ressources de calcul, beaucoup plus que des opérations de tri par exemple. C’est probablement le calcul le plus intensif en matière d’analyse de données puisque la demande de ressources de calcul augmente par le carré de la taille des jeux de données utilisés : lorsque vous multipliez le nombre de vos données par cent les calculs nécessaires seront multipliés par dix mille !
La raison de cette forte utilisation des ressources informatiques vient du fait que chaque enregistrement doit être comparé à tous les autres enregistrements sans exclusion car les éléments peuvent différer très légèrement sur le premier caractère, le dernier, une suite de caractères, des permutations, des données manquantes…etc.
Cela signifie qu’un test qui ne prend qu’une seconde pour 1.000 enregistrements peut prendre une semaine pour 1.000.000 enregistrements ce qui peut fortement limiter la mise en pratique de cette technique pourtant précieuse.
Pour répondre à cette problématique Arbutus Analyzer utilise des techniques de traitement parfaitement optimisées incluant de multiples technologies comme le traitement en parallèle des fonctions de recherche afin d’utiliser toute la puissance processeur mise à disposition.
Comparer un millier d’enregistrements avec Analyzer se fait instantanément et la comparaison d’un million de lignes ne prendra généralement que quelques secondes. Cette rapidité permet de tester l’intégralité de vos données même les plus volumineuses comme vos fichiers de transactions avec, à la clé, la possibilité d’identifier des factures ou autres transactions payées plus d’une fois.
Credit to Grant BRODIES - President, Arbutus Software
Arbutus Analyzer : solution pour l'audit et l'analyse informatique des données