Afin de vous démarquer de vos concurrents, d’innover et de proposer des produits et services toujours plus personnalisés, vos données sont essentielles. Mais attention, chaque jour de nouveaux petits désordres peuvent entamer leur qualité. Données incomplètes ou inexactes, problèmes de sécurité, données cachées, doublons, incohérences ou inexactitudes, la liste est longue.
Voici un tour d’horizon des erreurs liées à la data quality les plus courantes et une présentation des leviers à actionner pour les circonscrire pour de bon !
Les risques associés à des données de mauvaise qualité
On ne le répètera jamais assez : en matière de data, le véritable enjeu n’est pas celui du volume disponible mais celui de la qualité des données. Le data quality management (DQM) est une discipline exigeante qui repose sur une remise en question permanente des processus data, mais aussi sur une veille constante sur la nature même des informations qui constituent votre patrimoine de données. La mauvaise qualité des données peut se traduire directement par une baisse des revenus et une hausse des coûts opérationnels, entraînant potentiellement des pertes financières pour votre entreprise.
Lorsque la qualité des données est dégradée, les analyses, les projections, les prévisions, les décisions même peuvent être faussées. Et plus le volume de données dégradées est important, plus le décalage entre la réalité et votre compréhension de la réalité l’est aussi. Veiller à la qualité des données passe d’abord par une bonne compréhension des erreurs qui peuvent les affecter.
Les principales erreurs liées à la data quality
Veiller à la qualité des données est un enjeu-clé pour toute entreprise qui appuie sa stratégie de développement sur la data. Pour mener des actions ciblées, il faut savoir prioriser les tâches et ne pas s’éparpiller. Le data quality management consiste à identifier l’ensemble des informations erronées susceptibles de fausser vos prises de décision. Ces données erronées peuvent être classées en quatre catégories.
Les données dupliquées
La confusion est fréquente entre données dupliquées et données en doublon. Pourtant, elles sont différentes. Lorsque des données sont en doublon, cela signifie qu’une même information est présente à plusieurs reprises dans une même base de données ou un même fichier. On parle de données dupliquées lorsqu’une même information est présente dans différents fichiers. La duplication de données est donc plus insidieuse car souvent plus difficile à détecter. Au-delà de 5% de données dupliquées, on considère que la qualité des données commence à être dégradée. Les outils de CRM sont par exemple souvent générateurs de données dupliquées, car leurs utilisateurs ajoutent parfois des contacts sans vérifier leur présence préalable en base.
Les données cachées
Au quotidien, votre entreprise génère un volume croissant de données. Très souvent, vous n’exploitez qu’une partie limitée du volume d’information disponible. Le reste de la data produite par votre activité se disperse et se retrouve dilué dans des silos de données. Elles demeurent alors définitivement inexploitées. Par exemple, les historiques d’achat d’un client ne sont pas toujours mis à disposition des équipes du service client. Or, ces informations permettraient de mieux cerner le profil du client et donc, d’apporter des réponses plus pertinentes à ses demandes spécifiques, voire de réaliser de l’upsell ou du cross-sell en lui faisant des suggestions adaptées.
Les données incohérentes
Patrick Dupont et Patrick Dupond sont-ils vraiment deux clients différents ? Il n’est pas toujours simple de le savoir. Les données incohérentes nuisent considérablement à la qualité des données. Elles peuvent aussi être créées par un autre phénomène bien connu : celui de la redondance. Ce phénomène se manifeste lorsqu’au-delà de vos données propres, vous travaillez avec plusieurs sources (notamment des données tierces). Divergences de formats de données, d’unité, ou encore d’orthographe, autant d’incohérences qui doivent être traquées dans une démarche de data quality.
Les données inexactes
Cela peut sembler évident mais les données inexactes sont le pire fléau susceptible d’entamer la qualité des données. Lorsque les données clients sont inexactes, les expériences client personnalisées proposées ne seront pas pertinentes. Si par exemple les données liées à vos stocks sont erronées, les difficultés d’approvisionnement ou les coûts de stockage risquent d’exploser. Coordonnées erronées, informations manquantes ou vides, vous devez tout mettre en œuvre pour éradiquer les données inexactes.
Comment résoudre les problèmes de qualité des données ?
Si les principes de bon sens président souvent à une bonne gestion de la qualité des données, ils ne suffisent pas à la garantir.
Pour relever le défi et résoudre vos problèmes de qualité des données, il vous faudra vous doter d’un outil de Data Quality Management. Mais pour choisir la solution adaptée, vous devrez commencer par réaliser une cartographie rigoureuse de vos actifs data afin d’identifier la réalité des usages dans votre entreprise et d’évaluer leur qualité réelle. Déploiement d’une solution de Data Quality Management, gouvernance de la donnée, formation et sensibilisation de vos équipes à la bonne gestion de la data… sont autant de piliers indispensables pour limiter les erreurs liées à la data quality !