La qualité de la donnée, Data Quality en anglais, fait référence à la capacité d’une entreprise à maintenir la pérennité de ses données à travers le temps. À écouter certains professionnels de la qualité des données on peut avoir le sentiment qu’améliorer la qualité des données est la solution à tous les problèmes métiers – que cela devrait donc être une top priorité.
Chez Zeenea, la réalité est, selon nous, à nuancer : la Data Quality devrait être considérée uniquement comme un moyen parmi d’autres de réduire l’incertitude d’atteindre les objectifs de votre entreprise.
Dans cette série d’articles, nous vous livrerons tout ce que les professionnels des données doivent savoir sur la gestion de la qualité des données ou Data Quality Management (DQM) :
- Les neuf dimensions de la qualité de la donnée
- Les défis et risques liés à la qualité des données
- Les principales fonctionnalités d’un outil de DQM
- La contribution du Data Catalog au DQM
Un data catalog n’est pas un outil de DQM
Un point essentiel étant qu’un catalogue de données ne doit pas être considéré comme un outil de gestion de la qualité à part entière.
Tout d’abord, l’un des principes au cœur de la qualité de la donnée est que les contrôles doivent idéalement s’effectuer directement dans le système source. Le fait d’effectuer ces contrôles uniquement dans le data catalog – et non directement à la source et dans les flux de transformation de données – augmente le coût global de la démarche.
Ensuite, un data catalog doit être exhaustif et le moins intrusif possible pour favoriser son déploiement rapide au sain de l’entreprise. Cela n’est pas compatible avec la complexité des transformations de données et la multitude des outils utilisés pour réaliser ces transformations.
Enfin, un data catalog doit rester un outil simple à comprendre et à utiliser, comme décrit dans l’article 3 de notre Data Democracy.
Comment un data catalog contribue-t-il à l’amélioration de la Data Quality ?
Si le data catalog n’est pas un outil de qualité des données, il y contribue néanmoins largement. Et voici comment :
- Un data catalog permet aux consommateurs de la donnée de comprendre facilement les métadonnées afin d’éviter les interprétations sur les données. Cette fonctionnalité de base fait écho à la dimension de clarté de la qualité ;
- Un data catalog permet d’avoir une vue centralisée sur toutes les données disponibles dans l’entreprise. Les informations de qualité de données sont donc des métadonnées comme les autres qui apportent de la valeur, et qui doivent être mises à disposition de tous les utilisateurs. Elles doivent être faciles à interpréter et à récupérer, faisant écho aux dimensions de précision, de cohérence, de conformité, d’unicité, de complétude et de fraîcheur.
- Un data catalog possède des capacités de traçabilité des données (Data Lineage), faisant écho à la dimension de traçabilité de la qualité ;
- Un data catalog permet en général d’accéder directement à la source des données, faisant écho à la dimension de disponibilité de la qualité.
La stratégie d’implémentation du DQM
Le tableau suivant détaille comment la qualité de la donnée est prise en compte en fonction des différentes solutions existantes sur le marché :
Comme décrit précédemment, le maximum de tests et vérifications sur la qualité doivent par défaut être fait directement dans le système source. L’intégration des tests de qualité dans un data catalog peut certes améliorer l’expérience utilisateur, mais n’est pas indispensable du fait de ses limitations – la Data Quality n’étant pas intégrée aux flux de transformation.
Néanmoins, lorsque les systèmes se complexifient et que l’on cherche par exemple à consolider les données de plusieurs systèmes heteroclites qui n’ont pas implémenté les mêmes règles fonctionnelles, un outil de Data Quality spécialisé devient alors indispensable.
La stratégie d’implémentation va dépendre des cas d’utilisation et des objectifs de l’entreprise. Il est néanmoins pertinent d’essayer de mettre en place la qualité de la donnée de manière incrémentale :
- S’assurer que le système source ait bien mis en place les règles de qualité pertinentes ;
- Mettre en place un data catalog pour améliorer la qualité sur les dimensions de clarté, traçabilité et/ou de disponibilité ;
- Intégrer la Data Quality dans les flux de transformation avec un outil spécialisé, tout en remontant automatiquement ces informations dans le data catalog via API.
Conclusion
La Data Quality fait référence à la capacité d’une entreprise à maintenir la pérennité de ses données dans le temps. Chez Zeenea, nous la définissons via le prisme de neuf des soixante dimensions décrites par DAMA International : la complétude, la précision, la conformité, l’unicité, la cohérence, la fraîcheur, la traçabilité, la clarté et la disponibilité.
En tant que fournisseur de data catalog, nous réfutons l’idée qu’un catalogue de données est un outil de gestion de la qualité à part entière. En réalité, il s’agit uniquement d’un moyen parmi d’autres de contribuer à l’amélioration de la Data Quality, notamment via les dimensions de clarté, de disponibilité et de traçabilité.
Découvrez notre guide de la gestion de la qualité des données
Pour plus d’informations sur la qualité des données et la discipline du DQM, téléchargez notre guide gratuit : « Guide du Data Quality Management » dès maintenant !