Arbutus Analyzer – La qualité des données – Partie 1
La problématique de la qualité des données
Si tout le monde a entendu parler du concept « Garbage in, Garbage out » ou (GIGO), pour la plupart d’entre nous, il s’agit d’un concept accepté, mais abstrait. Aujourd’hui, nous allons explorer de plus près la qualité des données (QD) et montrer comment minimiser le GIGO.
Définition de la qualité des données
La qualité des données, en informatique se réfère à la conformité des données aux usages prévus, dans les modes opératoires, les processus, les prises de décision, et la planification (J.M. Juran).
De même, les données sont jugées de grande qualité si elles représentent correctement la réalité à laquelle elles se réfèrent.
Ces deux points de vue peuvent souvent entrer en contradiction, y compris lorsqu’un même ensemble de données est utilisé avec un objectif commun.
Les défis actuels
Dans un monde idéal, chaque système informatique devrait intégrer les niveaux les plus élevés de contrôles de qualité des données, mais malheureusement, ce n’est presque jamais le cas.
Il existe un certain nombre de raisons à cela, en voici donc quelques-unes :
- Défaut de vérification de la qualité des données dans les systèmes informatiques les plus anciens
- Difficulté à appréhender et répertorier les points critiques du système d’information
- Coûts de mise à niveau des procédures de vérification en fonction de l’évolution du Système d’Information
- Difficulté à évaluer les bénéfices d’une démarche de Qualité des données et des économies potentielles associées
Impact sur les systèmes d’information
Avec l’explosion des échanges de données et des formats hétérogènes, la prise de conscience de l’importance de la Qualité des Données a rapidement augmentée. Cependant, plus le système est ancien, plus la qualité des contrôles de données est faible. Les systèmes et environnements anciens sont particulièrement sensibles. Cela s’explique par le fait que non seulement l’importance de la qualité numérique était historiquement moindre, mais les ressources et la puissance de calcul nécessaires à une mise en œuvre appropriée de tests complets étaient également limitées.
Exemple concret : la gestion des dates
Prenons l’exemple de la saisie d’une date dans un système informatique : Même lorsqu’il s’agit d’un système moderne, Il est courant de trouver des incohérences critiques tels que des dates très anciennes (sont-ils vraiment devenus clients en 1919 ?), des dates dans le futur, ou simplement des dates non valables (« Inconnu », ou l’omniprésent » / / « ). Il existe toutes sortes de situations qui ne sont pas difficiles à imaginer, mais qui peuvent être négligées. Qu’en est-il du séquençage, comme par exemple une marchandise expédiée avant la commande, ou d’autres situations similaires ? Qu’en est-il du formatage de la date (J/M/A vs M/J/A vs A/M/J), ou simplement des différentes façons de la saisir (barres obliques vs points vs tirets) ?
Aucune entreprise ne veut gaspiller de l’argent, et même la Qualité des données devient une analyse coûts/bénéfices. Le problème est que les coûts et les avantages ultérieurs associés à l’utilisation future des données sont inconnus au moment où les décisions de mise en œuvre sont prises.
Solutions et perspectives
L’approche moderne
Les sélecteurs de date constituent une approche moderne de cette problématique, mais peuvent ne pas être disponibles pour les environnements anciens. Des questions plus difficiles peuvent être les week-ends, les jours fériés et autres, lorsque l’entreprise est fermée.
Une solution pragmatique : tester à postériori
Étant donné que les données d’entreprise englobent une large variété de systèmes, construits dans des environnements différents, à des moments différents et par des personnels différents, il serait un peu naïf de s’attendre à ce que chaque système ait le niveau approprié de QD de base. Au lieu de cela, une approche puissante peut consister à tester les données à posteriori.
Tester après coup permet de vous donner l’avantage du recul. Plutôt que d’anticiper chaque utilisation potentielle de chaque élément de données lors de la mise en œuvre d’un système, vous pouvez concevoir et exécuter de nouveaux tests de QD dès maintenant, et identifier les problèmes de qualité des données qui affectent vos analyses actuelles. En outre, à mesure que vos besoins d’analyse changent (et par conséquent vos attentes en matière de QD), vous serez en mesure de vérifier ces nouvelles exigences, sans nécessairement recourir à la mise à jour coûteuse du logiciel source.
La réponse aux problèmes découverts variera en fonction de leur gravité. Vous pouvez choisir d’ignorer le problème, de corriger les données ou même de mettre à jour le système source pour éviter que l’erreur ne se reproduise. Chaque type d’erreur a un impact unique sur vos analyses, mais la prise de conscience de l’existence d’un problème constitue la première étape.
INTUINEO EST DISTRIBUTEUR AGRÉÉ DES SOLUTIONS ARBUTUS SOFTWARE
L'analyse de données reste plus que jamais cruciale pour garantir l'intégrité et la conformité de vos processus. Les solutions d'analyse avancées d'Arbutus Analyzer facilitent considérablement cette démarche en renforçant la fiabilité des contrôles.
Pour découvrir comment Arbutus Analyzer peut transformer votre approche de l'analyse de données et de l'audit, l'équipe d'Experts Intuineo se tient à votre disposition pour une démonstration personnalisée adaptée à vos besoins spécifiques.
Vous avez des questions complémentaires ?
Notre équipe est à votre disposition pour vous accompagner
Intuineo SAS
Immeuble Skyline
22 mail Pablo Picasso
44000 Nantes
Tél +33 (0)2 40 95 38 40