Les priorités et défis majeurs du Chief Data Officer (CDO) en 2024

Les priorités et défis majeurs du Chief Data Officer (CDO) en 2024

Dans le monde dynamique des affaires modernes, la collecte, la transformation et l’utilisation des données sont devenues indispensables pour les organisations cherchant à maintenir un avantage concurrentiel. La volonté de devenir plus “data-centric” est évidente dans toutes les industries, et de nombreuses organisations nomment des Chief Data Officers (CDO) pour les guider vers un avenir où des informations précieuses sont rapidement découvertes et exploitées. Au cours de l’été 2023, AWS a mené une étude mondiale approfondie sur l’évolution du rôle des CDO, leurs principales priorités et les défis auxquels ils ont été confrontés en 2023.

Dans cet article, nous allons analyser les principales conclusions de cette étude et nous intéresser aux sujets majeurs sur lesquels les CDO vont se concentrer en 2024.

L’IA générative, une tendance à venir ?

Une approche enthousiaste du potentiel de l’IA générative

 

Alors que l’adoption de l’IA générative n’en est qu’à ses débuts, les CDO de tous les secteurs d’activité explorent activement ses possibilités. L’IA générative suscite beaucoup d’enthousiasme, certains CDO exprimant la façon dont elle a revalorisé leur statut au sein de leur organisation. Cependant, l’étude révèle que, pour l’instant, l’utilisation de l’IA générative est largement expérimentale pour de nombreuses organisations. Près d’un tiers des personnes interrogées ont indiqué qu’elles « expérimentaient au niveau individuel », sans stratégie d’entreprise globale.

Malgré la nature exploratoire actuelle des initiatives d’IA générative, les CDO envisagent un avenir transformateur. Ce sont pas moins de 80 % des personnes interrogées qui pensent que l’IA générative transformera à terme les activités de leur organisation. En outre, 46 % prévoient ou constatent déjà une adoption généralisée de l’IA générative au sein de leur organisation et 62 % prévoient d’augmenter leurs investissements dans l’IA générative.

La qualité des données, la confiance et la sécurité sont les plus grands défis de l’IA générative

 

Cependant, un pourcentage important de CDO a désigné la qualité des données comme le principal défi de l’IA générative. Le rôle fondamental des données de haute qualité dans l’entraînement des modèles d’IA générative ne peut être surestimé, et trouver les bons cas d’usage est essentiel pour générer des perspectives et une valeur significatives.

L’établissement de barrières pour une utilisation responsable est également apparu comme une préoccupation, car 43 % des CDO reconnaissent la nécessité de pratiques éthiques et responsables en matière d’IA. La sécurité et la confidentialité des données suivent de près, ainsi que la connaissance et la maîtrise des données, soulignant le besoin d’une main-d’œuvre capable d’exploiter la puissance de l’IA générative.

La gouvernance des données reste une priorité

Les entreprises changent d’approche en matière de gouvernance des données

 

Pour la deuxième année consécutive, la gouvernance des données s’est imposée comme la principale activité consommatrice du temps des CDO, reflétant une croissance de 44 % en 2022 à 63 % en 2023. En outre, plus de la moitié des CDO (51 %) considèrent la gouvernance des données comme une responsabilité de premier plan, 66 % indiquant qu’elle consomme au moins 20 % de leur temps.

Le rapport AWS souligne que les objectifs de la gouvernance des données consistent à garantir la disponibilité des données, à renforcer la confiance et à assurer la protection des données. Sans une solide composante de gouvernance des données, aucune stratégie data ne peut être exécutée efficacement – la gouvernance des données est considérée comme le premier levier de création de valeur pour les CDO.

Les CDO reconnaissent que la mise en place d’une gouvernance des données efficace est un défi, principalement en raison des changements de comportement significatifs qu’elle nécessite au sein des organisations. Le concept traditionnel de « gouvernance » est en train de se transformer dans certaines entreprises, avec une évolution positive vers “l’activation des données« . Ce changement de terminologie reflète une évolution qui positionne la gouvernance des données comme un catalyseur plutôt que comme une mesure restrictive.

La culture et la maîtrise des données restent un défi pour une utilisation efficace

 

Selon le rapport, la création d’une culture data-driven est le principal défi à relever. L’enquête met en évidence les multiples facettes de ce défi, qui englobe les comportements organisationnels, les attitudes et l’absence d’une culture axée sur les données ou d’une approche de la prise de décision. Les CDO s’efforcent d’inculquer un état d’esprit centré sur les données au sein de leur organisation, en rencontrant divers obstacles au cours du processus :

  • Difficulté à changer les comportements et les attitudes au sein de l’organisation (70 %)
  • Absence d’une culture ou d’une prise de décision axée sur les données (59 %)
  • Manque de maîtrise ou de compréhension des données (50 %)
  • Ressources insuffisantes pour atteindre les objectifs (55%)

Pour relever ces défis, les CDO s’engagent activement dans des initiatives d’acculturation data, plus de la moitié d’entre eux consacrant un cinquième de leur temps ou plus à ces programmes. Ces initiatives comprennent souvent des programmes de maîtrise des données et des approches de gestion du changement adaptées à des projets spécifiques data ou analytiques.

Création de valeur commerciale visible

L’analytique et l’IA dans le développement de projets

 

En 2022, les projets d’analytique et d’IA étaient reconnus comme cruciaux pour apporter une valeur mesurable, un sentiment qui n’a fait que se renforcer en 2023. Plus de la moitié des répondants privilégient désormais une approche ciblée, en se concentrant sur un petit ensemble de projets clés d’analytique ou d’IA comme principale source de création de valeur.

Bien que la gestion des données soit une responsabilité primordiale, 44 % des CDO mettent l’accent sur les initiatives de gestion des données, telles que l’amélioration de l’infrastructure, dans le contexte spécifique de chaque cas d’usage analytique et IA, plutôt que comme un effort autonome.

Vers une approche axée sur les produits de données

 

Le concept de produits de données (data products), né avec le Data Mesh, représente une nouvelle approche de la gestion des données. Fondé sur le principe du traitement des données comme un produit, ce concept innovant introduit un ensemble de caractéristiques qui redéfinissent la façon dont les organisations perçoivent et exploitent leurs actifs de données.

Selon l’étude, 39 % des CDO adoptent une orientation de gestion des produits de données et intègrent dans leurs équipes des data product managers dédiés. Cette approche garantit une gestion complète et disciplinée de toutes les facettes des initiatives analytiques ou IA, de la conception au déploiement et à la maintenance continue.

Dans le rapport, Sebastian Klapdor, Chief Data and Technology chez Vista, déclare : « L’accent mis sur les data products a permis de rapprocher les experts data du reste de l’organisation. Désormais, les responsables des produits de données commenceront à suivre la même méthode de travail que les products managers qui développent des logiciels destinés aux clients ».

En conclusion

 

Le paysage des CDO en 2024 est façonné par des défis dynamiques et des priorités en constante évolution, comme le révèle le CDO Agenda 2024 d’AWS. L’exploration de l’IA générative montre à la fois l’excitation et la prudence des CDO – alors que le potentiel de transformation est largement reconnu, des défis tels que la qualité des données, les considérations éthiques et la sécurité soulignent la nécessité d’une approche équilibrée et responsable.

En outre, la gouvernance des données reste une préoccupation constante, avec une perspective changeante vers « l’activation des données » et la lutte continue pour instiller une culture axée sur les données au sein des organisations.

Enfin, la recherche d’une création de valeur commerciale visible met l’accent sur une évolution vers une approche de produit de données et une intégration stratégique de l’analytique et de l’IA dans le développement de projets. Les CDO ne se contentent pas de naviguer dans les avancées technologiques, ils s’attaquent aussi activement aux changements culturels et organisationnels nécessaires pour exploiter tout le potentiel des données.

Retour sur les évolutions de la plateforme Zeenea en 2023

Retour sur les évolutions de la plateforme Zeenea en 2023

2023 a été une belle année pour Zeenea. Avec plus de 50 releases et mises à jour de notre plateforme, ces 12 derniers mois ont été riches en nouveautés et améliorations pour libérer la valeur de vos données d’entreprise. En effet, nos équipes travaillent constamment sur des fonctionnalités qui simplifient et améliorent la vie quotidienne de vos équipes data et métier.

Dans cet article, nous sommes heureux de partager certaines de nos fonctionnalités préférées de 2023 qui ont permis à nos clients de :

  • Réduire le temps de recherche et de découverte des données
  • Augmenter la productivité et l’efficacité des Data Stewards
  • Fournir des informations fiables, sécurisées et conformes dans l’ensemble de l’organisation
  • Établir une connectivité de bout en bout avec toutes leurs sources de données

Réduire le temps de recherche et de découverte des données

 

L’une des valeurs fondamentales du produit Zeenea est la simplicité. Nous sommes convaincus que la découverte des données doit être simple et rapide afin d’accélérer les initiatives data dans l’ensemble de l’organisation.

De nombreuses équipes chargées des données ont encore du mal à trouver les informations dont elles ont besoin pour établir un rapport ou un cas d’usage spécifique. Soit parce qu’elles ne parviennent pas à localiser les données parce qu’elles sont dispersées dans diverses sources, fichiers ou feuilles de calcul, soit parce qu’elles sont confrontées à une quantité colossale d’informations et qu’elles ne savent même pas par où commencer leur recherche.

En 2023, nous avons continué de faire évoluer notre plateforme pour qu’elle soit la plus simple possible à utiliser. En offrant des moyens simples et rapides d’explorer les données, Zeenea a permis à nos clients de trouver, découvrir et comprendre leurs actifs en quelques secondes.

Un nouveau look pour Zeenea Explorer

 

L’une des premières façons dont nos équipes ont voulu améliorer l’expérience de découverte de nos clients a été de fournir une expérience plus conviviale sur notre application d’exploration de données, Zeenea Explorer. Cette refonte comprenait :

Une nouvelle page d’accueil

 

Notre page d’accueil avait besoin d’un lifting pour une expérience de découverte plus fluide. En effet, pour les utilisateurs qui ne savent pas ce qu’ils cherchent, nous avons ajouté de tout nouveaux chemins d’exploration directement accessibles via la page d’accueil de Zeenea Explorer.

 

  • Navigation par Type d’Objet : Si l’utilisateur est sûr du type de données qu’il recherche, comme un jeu de données, une visualisation, un processus ou une donnée personnalisée, il accède directement au catalogue pré-filtré avec le type de données recherché.
  • Navigation dans le Glossaire Métier : Les utilisateurs peuvent rapidement naviguer dans le glossaire métier de l’entreprise en accédant directement aux ressources du glossaire qui ont été définies ou importées par les Data Stewards dans Zeenea Studio.
  • Navigation par Thème : L’application permet aux utilisateurs de naviguer dans une liste d’Objets qui représentent un thème spécifique, un cas d’usage ou tout autre élément pertinent pour l’entreprise (plus d’informations ci-dessous).
New Zeenea Explorer Homepage 2023

De nouvelles pages de détail des Objets

 

Pour comprendre un Objet du Catalogue en un coup d’œil, l’un des premiers changements notables a été la position des onglets de l’Objet. À l’origine, les onglets étaient placés sur le côté gauche de la page, ce qui prenait beaucoup de place. Désormais, les onglets se trouvent en haut de la page, ce qui correspond mieux à la présentation de l’application Zeenea Studio. Cette nouvelle disposition permet aux consommateurs de données de trouver les informations les plus significatives sur un Objet, telles que :

  • Les propriétés mises en évidence, définies par le Data Stewards dans la conception du catalogue,
  • Les termes associés du glossaire, pour comprendre le contexte de l’Objet,
  • Les personnes clés, pour atteindre rapidement les contacts liés à l’Objet.

En outre, notre nouvelle mise en page permet aux utilisateurs de trouver instantanément tous les Champs, les métadonnées et tous les autres Objets liés. Divisés en trois onglets distincts dans l’ancienne version, les consommateurs de données trouvent désormais la description de l’Objet et tous les Objets liés dans un seul onglet nommé « Détails ». En effet, selon le Type d’Objet que vous parcourez, tous les Champs, entrées et sorties, Objets du Glossaire parents/enfants, implémentations et autres métadonnées se trouvent dans la même section, ce qui vous permet de gagner un temps précieux dans la recherche de données.

Enfin, les espaces pour nos composants graphiques ont été agrandis – les utilisateurs ont maintenant plus de place pour voir le lignage de leur Objet, le modèle de données, etc.

New Item Detail Page Zeenea Explorer

Un nouveau système de filtrage

 

Zeenea Explorer offre un système de filtrage intelligent pour contextualiser les résultats de recherche. Il y a des filtres préconfigurés de Zeenea, comme par exemple, un filtrage par Type d’Objet, Connexion, Contact, ou par les filtres personnalisés de l’organisation. Pour des recherches encore plus efficaces, nous avons repensé notre page de résultats de recherche et notre système de filtrage :

 

  • Les filtres disponibles sont toujours visibles, ce qui permet d’affiner plus facilement la recherche,
  • En cliquant sur un résultat de recherche, un panneau d’aperçu contenant plus d’informations est toujours disponible sans perdre le contexte de la recherche,
  • Les filtres les plus pertinents pour la recherche sont placés en haut de la page, ce qui permet d’obtenir rapidement les résultats nécessaires pour des cas d’usage spécifiques.
New Filtering System Explorer

Exploration du catalogue par Thème

 

L’une des principales nouveautés de 2023 est notre fonctionnalité nommée Thèmes. En effet, pour permettre aux utilisateurs métier de trouver (encore plus !) rapidement leurs actifs de données pour leurs cas d’usage, les Data Stewards peuvent facilement définir des Thèmes dans Zeenea Studio. Pour ce faire, ils sélectionnent simplement les filtres dans le Catalogue qui représentent un Thème spécifique, un cas d’usage, ou tout autre élément pertinent pour l’entreprise.

Les équipes data qui utilisent Zeenea Explorer peuvent donc facilement et rapidement effectuer des recherches dans le catalogue par Thème afin de réduire leur temps de recherche de l’information dont elles ont besoin. Les Thèmes sont directement accessibles sur la page d’accueil de Zeenea Explorer et la barre de recherche lors de la navigation dans le catalogue.

Browse By Topic Explorer New

Des noms alternatifs pour les Objets du Glossaire

 

Afin que les utilisateurs puissent trouver facilement les données et les termes métier dont ils ont besoin pour leurs cas d’usage, les Data Stewards peuvent ajouter des synonymes, des acronymes et des abréviations pour les éléments du glossaire !

Ex : Customer Relationship Management > CRM

Alternative Names Zeenea Studio

Amélioration des performances de recherche

 

Tout au long de l’année, nous avons mis en œuvre un grand nombre d’améliorations afin d’accroître l’efficacité du processus de recherche. L’ajout de “mots vides” (stop words), comprenant les pronoms, les articles et les prépositions, permet d’obtenir des résultats plus précis et plus pertinents pour les requêtes. En outre, nous avons ajouté un opérateur « INFIELD : », qui permet aux utilisateurs de rechercher les Jeux de Données contenant des Champs spécifiques.

Search In Fields Explorer

Intégration de Microsoft Teams

 

Zeenea a également renforcé ses capacités de communication et de collaboration. Plus précisément, lorsqu’un contact est lié à une adresse email Microsoft, Zeenea facilite désormais le lancement de conversations directes via Teams. Cette intégration permet aux utilisateurs de Teams d’engager rapidement le dialogue avec les personnes concernées pour obtenir des informations supplémentaires sur des Objets spécifiques. D’autres intégrations avec divers outils sont en cours de développement ⭐

Microsoft Teams Zeenea Explorer

Augmenter la productivité et l’efficacité des Data Stewards

 

L’objectif de Zeenea est de simplifier la vie des producteurs de data afin qu’ils puissent gérer, maintenir et enrichir la documentation de leurs données d’entreprise en quelques clics. Voici quelques fonctionnalités et améliorations qui aident à rester organisé, concentré et productif.

Imports automatiques des Jeux de Données

 

Lors de l’importation de nouveaux Jeux de Données dans le catalogue, les administrateurs peuvent activer la fonction d’import automatique qui importe automatiquement les nouveaux Objets après chaque inventaire programmé. Cette amélioration fait gagner du temps augmente l’efficacité opérationnelle, permettant aux Data Stewards de se concentrer sur des tâches plus stratégiques plutôt que sur le processus d’importation de routine.

Auto Import Zeenea Studio 2

Suppression des Champs orphelins

 

Nous avons également ajouté la possibilité de gérer plus efficacement les Champs orphelins. Cela inclut la possibilité d’effectuer des suppressions en masse de champs orphelins, ce qui accélère le processus de désencombrement et d’organisation du catalogue. Les Stewards peuvent également supprimer un seul Champ orphelin directement à partir de sa page de détails, apportant une approche plus granulaire et plus précise de la maintenance du catalogue.

Orphan Field Details

Construction de de rapports basés sur le contenu du catalogue

 

Nous avons ajouté une nouvelle section dans Zeenea Studio – le Tableau de Bord Analytique – pour générer facilement des rapports basés sur le contenu et l’usage du catalogue de l’organisation.

Directement sur la page du Tableau de Bord Analytique, les Data Stewards peuvent voir le niveau de complétude de leurs Types d’Objets, y compris les Objets personnalisés. Chaque composant est cliquable pour afficher rapidement la section du catalogue filtrée par le Type d’Objet sélectionné.

Pour obtenir des informations plus détaillées sur le niveau de complétude d’un Type d’Objet en particulier, les Stewards peuvent créer leurs propres analyses ! Ils sélectionnent le Type d’Objet et une Propriété, et ils peuvent consulter, pour chaque valeur de cette Propriété, le niveau de complétude de tous les l’élément du template du Type d’Objet, y compris sa description, et les Objets du Glossaire qui y sont liés.

New Analytics Dashboard Gif Without Adoption

Nouveau look pour le Tableau de Bord du Steward

 

Zeenea Explorer n’est pas la seule application à avoir fait peau neuve ! En effet, pour aider les gestionnaires de données à rester organisés, concentrés et productifs, nous avons repensé la présentation du Tableau de Bord pour qu’il soit plus intuitif et que le travail soit effectué plus rapidement. Cela inclut :

 

  • Nouveau design du Périmètre : Un tout nouveau niveau de personnalisation lors de la connexion au Tableau de Bord. Le périmètre s’étend désormais au-delà du niveau de complétude des Jeux de Données – il inclut tous les Objets pour lesquels on est Dépositaire, y compris les Champs, les traitement de données, les Objets du Glossaire et les Objets Personnalisés.
  • Widget des Watchlists : Tout comme les Data Stewards peuvent créer des Thèmes pour améliorer l’organisation des utilisateurs des Explorers, ils peuvent désormais créer des Watchlists pour faciliter l’accès aux Objets nécessitant des actions spécifiques. En filtrant le catalogue avec les critères de leur choix, ils enregistrent ces préférences en tant que nouvelle Watchlist via le bouton « Enregistrer les filtres sous », et y accèdent directement via le widget Watchlist lorsqu’ils se connectent à leur Tableau de Bord.
  • Le widget Dernières Recherches : Il s’adresse désormais spécifiquement au Data Steward, en se concentrant sur ses recherches récentes pour permettre de reprendre là où il/elle s’était arrêté.
  • Le widget Objets les plus populaires : Il présente les Objets les plus consultés et les plus utilisés dans le périmètre du Steward par les autres utilisateurs. Chaque Objet est cliquable, ce qui permet d’accéder instantanément à son contenu.

 

Lire la Feature Note

New Steward Dashboard Studio

Fournir des informations fiables, sécurisées et conformes dans l’ensemble de l’organisation

Échantillonnage de données sur les Jeux de Données

 

Pour certaines connexions, il est possible d’obtenir un échantillonnage de données pour les Jeux de Données. Nos capacités de data sampling permettent aux utilisateurs d’obtenir des sous-ensembles représentatifs d’ensembles de données existants, offrant une approche plus efficace pour travailler avec de grands volumes de données. Lorsque l’échantillonnage des données est activé, les administrateurs peuvent configurer les champs pour qu’ils soient offusqués, ce qui réduit le risque d’affichage d’informations personnelles sensibles.

Cette fonction revêt une grande importance pour nos clients, car elle permet aux utilisateurs de gagner un temps précieux et d’économiser des ressources en travaillant avec des portions plus petites, mais représentatives, de vastes Jeux de Données. Elle permet également d’identifier rapidement les problèmes liés aux données, améliorant ainsi la qualité globale des données et les analyses ultérieures. Plus particulièrement, la capacité d’offusquer les Champs répond à des préoccupations essentielles en matière de confidentialité et de sécurité, en permettant aux utilisateurs de travailler avec des sous-ensembles anonymisés ou pseudonymisés de données sensibles, en garantissant la conformité avec les réglementations en matière de confidentialité et en protégeant les données contre les accès non autorisés.

Data Sampling Zeenea Studio

Puissantes capacités de lignage

 

En 2022, nous avons apporté de nombreuses améliorations à notre graphe de lignage. Non seulement nous avons simplifié sa conception et sa mise en page, mais nous avons également permis aux utilisateurs d’afficher uniquement le premier niveau de lignage, de développer et de fermer le lignage à la demande, et d’obtenir une vue en surbrillance du lignage directe d’un Objet sélectionné.

Cette année, nous avons apporté d’autres modifications importantes à l’interface utilisateur, notamment la possibilité de développer ou de réduire tous les niveaux de lignage en un seul clic, de masquer les processus de données qui n’ont pas au moins une entrée et une sortie, et de visualiser facilement les connexions à l’aide d’une infobulle pour les connexions dont les noms sont longs.

Cependant, la nouveauté la plus notable est la possibilité d’avoir un data lineage au niveau du Champ ! En effet, il est désormais possible de récupérer les Champs d’entrée et de sortie des tables et des rapports, et pour plus de contexte, d’ajouter la description de l’opération. Ensuite, les utilisateurs peuvent directement visualiser leurs transformations au niveau du Champ au fil du temps dans le graphe de lignage des données dans Zeenea Explorer et Zeenea Studio.

Field Level Lineage Zeenea Studio 2

Informations sur la qualité des données

 

En s’appuyant sur les technologies GraphQL et le Knowledge Graph, Zeenea offre une approche flexible pour intégrer les meilleures solutions de gestion de la qualité de données. Via nos capacités d’API de catalogue, Zeenea synchronise les Jeux de Données par le biais de simples opérations de requête et de mutation à partir d’un outil de Data Quality Management (DQM) tiers. L’outil de DQM fournira en temps réel les résultats de l’analyse de la qualité des données du Jeu de Données correspondant dans la plateforme, ce qui permettra aux utilisateurs d’examiner facilement les informations relatives à la qualité des données directement dans le catalogue.

Cette nouvelle fonctionnalité comprend :

  • Un onglet Qualité des données dans les pages de détails de votre Jeu de Données, où les utilisateurs peuvent voir ses contrôles de qualité exécutés ainsi que leurs type, statut, description, dernière date d’exécution, etc.
  • La possibilité d’afficher plus d’informations sur la qualité de l’ensemble de données directement dans l’outil DQM via le lien « Ouvrir le Tableau de Bord dans [Nom de l’outil] ».
  • Un indicateur de la qualité des données d’un Jeu de Données directement affiché dans les résultats de la recherche et dans le lignage.

 

Lire la Feature Note

Zeenea Explorer Data Quality Graph

Établir une connectivité de bout en bout avec toutes leurs sources de données

 

Avec Zeenea, vous vous connectez à toutes vos sources de données en quelques secondes. Les scanners et API intégrés de notre plateforme permettent aux organisations de collecter, consolider et relier automatiquement les métadonnées dans leur écosystème. Cette année, nous avons apporté des améliorations significatives à notre connectivité pour permettre à nos clients de construire une plateforme qui représente réellement leur écosystème de données.

Une API de gestion du Catalogue

 

Reconnaissant l’importance de l’intégration des API, Zeenea a développé de puissantes capacités API qui permettent aux organisations de connecter et d’exploiter de manière transparente leur catalogue de données au sein de leur écosystème existant.
En 2023, Zeenea a développé l’API Catalogue, qui aide les gestionnaires de données dans leurs tâches de documentation. Elle comprennent :

Des opérations de requêtes pour récupérer des actifs spécifiques du catalogue : Les opérations de requête de notre API incluent la récupération d’un actif spécifique, en utilisant sa référence unique ou par son nom et son type, ou la récupération d’une liste d’actifs via une connexion ou un Type d’Objet donné. En effet, l’API Catalogue de Zeenea permet une certaine flexibilité lors des requêtes, permettant de restreindre les résultats afin de ne pas être submergé par une pléthore d’informations.

Opérations de mutation pour créer et mettre à jour les actifs du catalogue : Pour gagner encore plus de temps lors de la documentation et de la mise à jour des données de l’entreprise, l’API Catalogue de Zeenea permet aux producteurs de données de créer, modifier et supprimer facilement des ressources du Catalogue. Cela permet de créer, mettre à jour et supprimer des Objets Personnalisés et des processus de données ainsi que leurs métadonnées associées, et de mettre à jour les Jeux de Données et Visualisations. Cela est également possible pour les Contacts. Ceci est particulièrement important lorsque les utilisateurs quittent l’entreprise ou changent de rôle – les producteurs de données peuvent facilement transférer les informations qui étaient liées à une personne particulière à une autre.

Lire la Feature Note

Gestion des codes de Propriété et de Responsabilité

Une autre fonctionnalité qui a été mise en œuvre est la possibilité d’ajouter un code aux propriétés et aux responsabilités afin de les utiliser facilement dans les scripts API pour des requêtes et des récupérations plus fiables.

Pour toutes les Propriétés et Responsabilités qui ont été créées dans Zeenea (par exemple, les informations d’identification personnelle) ou récoltées à partir de connecteurs, il est possible de modifier leur nom et leur description afin de mieux les adapter au contexte de l’organisation.

Property Responsibility Codes Studio

Plus d’une douzaine de connecteurs supplémentaires

 

Chez Zeenea, nous développons des connecteurs avancés pour synchroniser automatiquement les métadonnées entre notre plateforme de découverte de données et toutes vos sources. Cette connectivité native vous évite la tâche fastidieuse et difficile de trouver manuellement les données dont vous avez besoin pour un cas d’usage spécifique qui nécessite souvent l’accès à des ressources techniques limitées.

Rien qu’en 2023, nous avons développé plus d’une douzaine de nouveaux connecteurs ! Cette réalisation souligne notre agilité et notre compétence dans l’intégration rapide des diverses sources de données utilisées par nos clients. En élargissant nos options de connectivité, nous visons à donner une plus grande flexibilité et une meilleure accessibilité.

 

Voir nos connecteurs

Comment l’IA peut-elle renforcer la gouvernance de vos données d’entreprise ?

Comment l’IA peut-elle renforcer la gouvernance de vos données d’entreprise ?

Si l’on se réfère à un rapport publié par le cabinet McKinsey à la fin de l’année 2022, 50% des organisations auraient déjà intégré l’usage de l’Intelligence artificielle tant pour optimiser les opérations de service que pour créer de nouveaux produits. Le développement de l’IA et du machine learning dans le quotidien des entreprises traduit le rôle éminent de la donnée dans les stratégies de développement des dirigeants. Pour fonctionner efficacement, l’IA dépend de vastes ensembles de données qui doivent faire l’objet d’une gouvernance méthodique et rigoureuse.

Derrière le concept de data governance, on trouve l’ensemble des processus, des politiques et des normes qui régissent la collecte, le stockage, la gestion, la qualité et l’accès aux données au sein d’une organisation. Le rôle de la gouvernance de données ? Garantir que les données sont précises, sécurisées, accessibles et conformes aux réglementations en vigueur. La relation entre l’IA et la gouvernance des données est étroite. En effet, les modèles d’IA apprennent à partir des données, et des données de mauvaise qualité ou biaisées peuvent entraîner des décisions erronées ou discriminatoires.

Vous souhaitez garantir que les données utilisées par les systèmes d’IA et leurs algorithmes sont fiables, éthiques et conformes au respect de la vie privée ? Alors l’enjeu de la gouvernance de données s’impose à vous comme un prérequis indispensable. En avançant de front sur un double projet d’IA et de data governance, vous créez une boucle vertueuse. En effet, l’IA peut elle-même être utilisée pour améliorer la gouvernance des données, en automatisant des tâches telles que la détection des anomalies ou la classification des données.

Retour sur les avantages (nombreux !) d’une gouvernance des données renforcée par l’IA.

Quels sont les avantages de l’IA pour une gouvernance data ?

Amélioration de la qualité de vos données

 

La qualité des données doit être le socle de toute stratégie data. Plus les données sont fiables, plus les enseignements, les choix et les orientations qui s’en dégagent gagnent en pertinence. Or, l’IA contribue à améliorer la qualité des données grâce à plusieurs mécanismes. Les algorithmes d’IA peuvent notamment automatiser la détection et la correction des erreurs dans les ensembles de données, réduisant d’autant les incohérences et les inexactitudes.

De plus, l’IA peut aider à normaliser les données en les structurant de manière cohérente, afin de fluidifier et fiabiliser leur exploitation, leur comparaison, leur mise en perspective. Avec l’apprentissage automatique (machine learning), il est également possible d’identifier des tendances et des modèles cachés dans les données, permettant ainsi de découvrir des erreurs ou des datas manquantes.

Automatisation de la mise en conformité de vos données

 

Alors que la cybermenace explose littéralement, l’enjeu de la conformité des données doit être une priorité dans votre entreprise. Mais garantir cette conformité suppose une vigilance de tous les instants qui ne peut être portée exclusivement par l’intelligence humaine. D’autant que l’IA peut surveiller de manière proactive les violations potentielles des réglementations en matière de données. Comment ? En effectuant une analyse en temps réel de l’ensemble des flux pour détecter toute anomalie ou tout accès non autorisé, et en déclenchant des alertes automatiques et effectuant même des préconisations pour corriger les problèmes éventuels. De plus, l’IA facilite la classification et l’étiquetage des données sensibles, garantissant leur traitement approprié. Enfin, les systèmes d’IA peuvent générer des rapports de conformité automatiques, réduisant la charge de travail administrative.

Renforcer la sécurité de vos datas

 

Par sa capacité à détecter les menaces de manière proactive en analysant en temps réel les modèles d’accès aux données, l’IA peut alerter sur des comportements suspects, tels que des tentatives d’intrusion ou d’accès non autorisé. Pour aller encore plus loin au service de la gouvernance des données, l’IA exploite des systèmes de détection des logiciels malveillants basés sur l’apprentissage automatique. Ces systèmes sont capables d’identifier des signatures de logiciels malveillants connus et détecter des variantes inconnues en analysant les comportements. Enfin, elle contribue à la sécurité en automatisant la gestion des correctifs de sécurité et en surveillant la conformité aux politiques de sécurité.

Démocratisation des données

 

Le cœur de votre stratégie data repose sur un objectif : encourager vos collaborateurs à utiliser les données à chaque fois que cela est possible. Ainsi, vous favorisez le développement d’une culture de la donnée au sein de votre organisation. La clé pour y parvenir consiste à faciliter l’accès à la data en simplifiant la recherche et l’analyse de données complexes. Les moteurs de recherche IA peuvent extraire rapidement des informations pertinentes à partir de vastes ensembles de données, permettant aux employés de trouver rapidement ce dont ils ont besoin. De plus, l’IA peut automatiser l’agrégation et la présentation de données sous forme de tableaux de bord interactifs, ce qui rend les informations toujours plus accessibles et faciles à partager !

Quel sera le futur de la gouvernance des données ?

 

Toujours plus de données, toujours plus d’analyses, toujours plus de prédictibilité. Tel est le sens de l’histoire. Ce faisant, les entreprises adopteront des approches plus holistiques de leurs enjeux. Prise de hauteur, prise de distance pour toujours plus de proximité avec leurs marchés. Pour relever le défi, il est capital d’intégrer la gouvernance des données dans les stratégies globales. Dans ce contexte, l’automatisation sera essentielle et reposera en grande partie sur des outils d’intelligence artificielle et de machine learning pour détecter, classer et sécuriser les données de manière proactive.

L’avenir s’écrira sous le prisme d’une plus grande collaboration entre les équipes IT, juridiques et métiers, essentielle pour garantir le succès de la gouvernance des données et maintenir la confiance de l’ensemble des parties prenantes.

Qu’est-ce la modernisation des données ?

Qu’est-ce la modernisation des données ?

La modernisation des données est cruciale pour libérer la valeur des données. Qu’il s’agisse de briser les silos, d’améliorer la collaboration, ou d’utiliser l’IA et l’analyse avancée, la data modernization permet de prendre des décisions basées sur les données, la détection de tendances, l’optimisation des opérations, la personnalisation des expériences clients et l’innovation. Envie de passer à l’action ? Suivez le guide !

Inflation galopante, volatilité des marchés, mutation des attentes des consommateurs, hyper-concurrence, accélération du time-to-market… Un cocktail qui vous amène à repenser vos processus et votre organisation pour vous montrer toujours plus agile et flexible. Vos données n’échappent pas à cette nécessité. Pour relever ces multiples défis, la modernisation des données (également appelée Data Modernization en anglais) constitue pour votre entreprise la promesse de tirer pleinement parti de vos données selon quatre axes prioritaires :

  • Prendre des décisions plus éclairées,
  • Stimuler l’innovation,
  • Améliorer l’agilité dans un contexte fait d’incertitudes,
  • Rester compétitif sur des marchés en constante évolution.

Derrière le concept de Data Modernization, on trouve un processus stratégique visant à transformer et à mettre à jour les pratiques, les infrastructures et les technologies liées à la gestion des données au sein d’une organisation. Pour engager cette démarche de modernisation des données, vous devrez impérativement vous appuyer sur des éléments essentiels, comme la remise à plat de l’architecture de données. Celle-ci repose sur la conception et la mise en place de systèmes et de structures de données plus agiles, flexibles et évolutifs pour répondre aux besoins changeants de l’entreprise.

L’autre volet essentiel d’un projet de modernisation des données est l’intégration des données. Elle repose sur l’unification des données provenant de sources disparates, internes et externes, afin de créer une vue complète et cohérente du patrimoine informationnel.

Dans un troisième temps, vous devrez envisager l’automatisation du traitement de vos données et un recours systématisé à l’IA afin d’accélérer les processus d’analyse et de prise de décision.

Enfin, la modernisation des données s’articule également sur un renforcement de la protection des données sensibles pour garantir la conformité de vos actifs data et une meilleure data governance pour assurer la qualité, la traçabilité et la responsabilité.

Pourquoi est-il nécessaire de moderniser ses données ?

 

Les bénéfices de la modernisation des données dans un contexte aussi complexe que celui que nous traversons à l’échelle mondiale semblent évidents. Mais il existe d’autres raisons tout aussi valables de s’engager sur le chemin de la data modernisation.

Raison N°1 : S’adapter aux évolutions technologiques

 

Les avancées technologiques rapides ont introduit de nouvelles opportunités pour stocker, traiter et analyser les données de manière plus efficace. En modernisant vos données, vous pouvez exploiter ces nouvelles technologies et ainsi avoir toutes les chances de demeurer compétitif.

Raison N°2 : Faire face à l’explosion des données

 

La quantité de données générées par les entreprises a considérablement augmenté. La modernisation permet de gérer ces volumes massifs de manière plus efficiente, évitant la saturation des infrastructures existantes.

Raison N°3 : s’approprier et valoriser les nouveaux types de données

 

Les entreprises traitent désormais une variété de données plus diversifiée, notamment des données non structurées comme celles provenant des médias sociaux et des vidéos. La modernisation permet d’intégrer et d’exploiter ces différentes sources de données.

Raison N°4 : Relever le défi de l’agilité commerciale

 

Vous le mesurez au quotidien sur le terrain. Votre organisation comme vos équipes doivent être toujours plus agiles pour s’adapter rapidement aux évolutions du marché. La data modernization vous permet de vous appuyer sur une infrastructure de données plus flexible et par conséquent, plus agile !

Raison N°5 : Garantir la sécurité et la conformité

 

Les réglementations sur la protection des données évoluent constamment. Une modernisation appropriée permet de renforcer la sécurité des données et de garantir la conformité avec les exigences légales.

Raison N°6 : Améliorer la qualité des données en continu

 

La modernisation des données permet de nettoyer, normaliser et enrichir les données, améliorant ainsi leur qualité et leur fiabilité pour une prise de décision plus pertinente.

Raison N°7 : Rester dans la course de l’innovation

 

Dans un monde massivement digitalisé, les entreprises qui se seront engagées sur le chemin de la modernisation des données seront en mesure d’explorer de nouvelles opportunités d’innovation, telles que l’exploitation de l’intelligence artificielle, de l’apprentissage automatique et de l’analyse avancée.

Quelles sont les bonnes pratiques pour la modernisation de vos données ?

 

Vous souhaitez lancer un projet de modernisation des données dans votre entreprise ? Il s’agit de partir sur de bonnes bases. Pour commencer, attachez-vous à définir des objectifs précis. Pour quelles raisons vous lancez-vous ? Quelle est votre vision stratégique ? En répondant à ces questions, vous pourrez alors poser une feuille de route précise qui vous garantira que le processus est aligné sur les besoins et les priorités de l’entreprise.

Veillez ensuite à mettre en place une gouvernance des données robuste. Celle-ci repose sur des processus précis pour gérer, sécuriser et garantir la qualité des données. Elle clarifie également les rôles et les responsabilités, assurant ainsi la responsabilité et la conformité réglementaire. Savoir qui fait quoi, pour quand et pour qui, permet de piloter au quotidien des actifs data toujours plus variés.

Concentrez-vous dans un troisième temps sur la qualité des données. Mettez tout en œuvre pour identifier et corriger les erreurs, supprimer les doublons et garantir que les données exploitées sont précises et cohérentes. Des données de qualité améliorent la confiance et l’efficacité des processus décisionnels.

Enfin, adoptez une approche méthodologique fondée sur l’agilité. Gardez à l’esprit la méthode des petits pas. N‘espérez pas le big bang, mais appuyez-vous sur des itérations et des ajustements continus dans le processus de modernisation des données. Cela vous permettra de vous adapter rapidement aux besoins fluctuants de votre entreprise tout en minimisant les turbulences.

Un dernier conseil ? Ne pensez pas la modernisation des données comme un projet technologique ! Impliquez vos équipes et accompagnez le changement en misant sur la formation pour garantir son adoption.

Qu’est-ce que la normalisation des données ?

Qu’est-ce que la normalisation des données ?

Vous êtes soucieux de la qualité de vos données ? Alors, tout comprendre de la normalisation des données vous sera sans doute bien utile ! La data normalization ou normalisation des données consiste à transformer les données – sans les dénaturer – pour améliorer leur efficacité et pour qu’elles correspondent à un ensemble prédéfini et contraint de valeurs.

Découvrez l’importance de cette technique devenue indispensable pour les entreprises data-driven.

Comme toute entreprise qui s’oriente vers les données pour améliorer sa productivité, son efficacité, ou la pertinence de son offre ou de son discours sur son marché, la représentativité des données est un enjeu crucial. Votre défi : faire en sorte que l’intelligence issue de vos données soit maximale. Pour ce faire, il faut tout mettre en œuvre pour limiter la distorsion de l’information. C’est la vocation de la data normalization, que l’on appelle également normalisation des données.

La normalisation des données est un processus couramment utilisé en statistiques, en science des données et en apprentissage automatique (machine learning) pour mettre à l’échelle les valeurs de différentes variables dans un même intervalle. L’objectif principal de la normalisation est de rendre les données comparables entre elles et plus facilement interprétables par les algorithmes d’analyse et de modélisation.

Pourquoi la normalisation des données est-elle importante pour les entreprises ?

 

Dans de nombreux cas, les données peuvent avoir des échelles très différentes, c’est-à-dire que certaines variables peuvent avoir des valeurs beaucoup plus grandes ou plus petites que d’autres. Cela peut poser des problèmes pour certaines techniques statistiques ou algorithmes d’apprentissage automatique, car ils peuvent être sensibles à l’échelle des données. La normalisation permet de résoudre ce problème en ajustant les valeurs des variables pour qu’elles se situent dans un intervalle spécifié, souvent entre 0 et 1, ou autour de la moyenne avec un écart-type donné.

Quels sont les avantages associés à la normalisation des données ?

 

La normalisation des données améliore la qualité, la performance et l’interprétabilité des analyses statistiques et des modèles d’apprentissage automatique en éliminant les problèmes liés à l’échelle des variables, et en permettant une comparaison plus juste entre différentes caractéristiques des données. Dans les faits, cela se traduit par des avantages concrets :

Comparabilité maximale : Les données normalisées sont mises à la même échelle, permettant une comparaison et une interprétation plus facile entre différentes variables.

Optimisation de l’apprentissage automatique : La normalisation facilite la convergence plus rapide des algorithmes d’apprentissage automatique en réduisant l’échelle des variables, aidant ainsi à atteindre des résultats fiables et consolidés plus rapidement.

Stabilité renforcée des modèles : La normalisation réduit l’impact des valeurs extrêmes (outliers) et rend les modèles plus stables et résistants aux variations des données.

Amélioration de l’interprétabilité : La normalisation des données facilite l’interprétation des coefficients, rendant l’analyse plus compréhensible.

Quelles sont les méthodes utilisées pour normaliser les données ?

 

Il existe plusieurs méthodes de normalisation des données, mais deux d’entre elles sortent du lot à commencer par la méthode de Min-Max Scaling. Elle repose sur le principe d’une mise à l’échelle des valeurs d’une variable afin qu’elles se situent dans un intervalle spécifié, généralement entre 0 et 1. Cette technique est particulièrement utile lorsque vous souhaitez conserver la relation linéaire entre les valeurs originales.

Une autre méthode, appelée Z-Score normalization est une technique qui répond davantage à un impératif de standardisation. Elle transforme les valeurs d’une variable pour qu’elles aient une moyenne de 0 et un écart-type de 1. Contrairement à la normalisation Min-Max, la standardisation n’impose pas de limite supérieure ou inférieure spécifique aux valeurs transformées. Cette technique est recommandée lorsque les variables ont des échelles très différentes, car elle permet de centrer les données autour de zéro et de les mettre à l’échelle par rapport à l’écart-type.

D’autres méthodes peuvent également être envisagées dans une optique de normalisation des données, mais elles sont plus marginales. Retenez toutefois la normalisation par décimale (Decimal Scaling) ou la normalisation par vecteur unitaire (Unit Vector Scaling).

La normalisation par décimale consiste à diviser chaque valeur d’une variable par une puissance de 10 en fonction du nombre de chiffres significatifs. Cela déplace la virgule vers la gauche, plaçant le chiffre le plus significatif à gauche de la décimale. Cette technique ajuste les valeurs pour qu’elles se situent dans un intervalle plus petit, simplifiant ainsi les calculs.

La normalisation par vecteur unitaire est utilisée dans le domaine de l’apprentissage automatique. Elle consiste à diviser chaque valeur d’un vecteur de données par la norme euclidienne du vecteur, transformant ainsi le vecteur en un vecteur unitaire (de longueur 1). Cette technique est souvent employée dans des algorithmes qui calculent les distances ou les similarités entre des vecteurs.

Quelle est la différence entre normalisation et standardisation des données ?

 

La normalisation des données (data normalization) et la standardisation des données (data standardization) répondent au même enjeu de représentativité de la donnée mais dans des perspectives différentes. Bien qu’elles soient toutes les deux des techniques de mise à l’échelle des données, elles diffèrent dans la manière dont elles transforment les valeurs des variables.

La standardisation transforme les valeurs d’une variable pour qu’elles aient une moyenne de 0 et un écart-type de 1. Contrairement à la normalisation, la standardisation ne fixe pas de plage spécifique pour les valeurs transformées. La standardisation est utile lorsque les variables ont des échelles très différentes, et elle permet de centrer les données autour de zéro et de les mettre à l’échelle par rapport à l’écart-type, ce qui peut faciliter l’interprétation des coefficients dans certains modèles. En fonction de la nature de vos données et des enseignements que vous souhaitez en tirer, il faudra tantôt recourir à la data normalization, tantôt à la data standardization.

Qu’est-ce que la Data Integrity ?

Qu’est-ce que la Data Integrity ?

Parce que nous sommes entrés de plain-pied dans un monde où la data constitue l’actif le plus précieux de votre entreprise : la qualité, la sécurité et la bonne santé de vos données sont essentielles. Pour les garantir, il faut veiller en permanence à l’intégrité des données. Vous souhaitez comprendre les règles fondamentales de la Data Integrity pour engager votre entreprise sur la voie d’une exploitation sereine et fiable de la donnée ? Suivez le guide !

Si la notion d’intégrité des données est souvent évoquée lorsqu’il est question de sécurité et de compromission de la donnée, il ne faut pas la confondre avec la Data Integrity qui constitue une discipline à part entière dans le monde complexe et exigeant de l’exploitation des datas.

La définition exacte de la Data Integrity, c’est le maintien et l’assurance de l’exactitude et de la cohérence des données tout au long de leur cycle de vie.

Garantir l’intégrité des données, c’est faire en sorte que les informations stockées dans une base de données restent complètes, exactes et fiables. Ce, quels que soient leur durée de stockage, leur fréquence d’accès ou encore leur traitement.

Les différents types d’intégrité des données

La notion d’intégrité des données est complexe car elle revêt des formes et des acceptions multiples. Au-delà d’une démarche globale de Data Integrity, il faut comprendre qu’il existe différents types d’intégrité des données. Ces derniers ne s’opposent pas les uns les autres mais se complètent, se combinent au service de la qualité et de la sécurité de vos actifs data.

Garantir l’intégrité des données, dans toutes ses dimensions, constitue non seulement un enjeu de conformité mais aussi d’exploitation optimale de l’information disponible. Il faut distinguer deux grands types d’intégrité des données : l’intégrité physique d’une part, et l’intégrité logique d’autre part.

L’intégrité Physique

Protéger l’intégrité physique des données, c’est éviter de les exposer à des erreurs humaines, à des pannes matérielles (comme les dysfonctionnements de serveurs stockage, par exemple).
Cela consiste également à faire en sorte que les données ne puissent être dénaturées par des programmeurs système par exemple. De la même façon, l’intégrité physique des données est remise en question lorsqu’une panne de courant ou encore un incendie affecte une base de données.

Enfin, l’intégrité physique est également compromise quand un pirate parvient à accéder aux données.

L’intégrité Logique

Garantir l’intégrité logique de vos données, c’est faire en sorte de conserver les données inchangées en toutes circonstances. Si l’intégrité logique a, comme l’intégrité physique, vocation à protéger la data des manipulations et erreurs humaines, elle s’exerce toutefois de façon différente et sur quatre axes distincts :

Intégrité de l’entité

Également appelée Entity integrity, l’intégrité de l’entité exploite le principe de l’association de clés primaires à chaque donnée collectée. Ces valeurs uniques permettent d’identifier l’ensemble de vos éléments de données. L’intégrité de l’entité constitue une garantie de lutte efficace contre les doublons par exemple, car chaque donnée n’est répertoriée qu’une seule fois.

Intégrité référentielle

Le principe de l’intégrité référentielle décrit la série de processus qui garantissent que les données sont stockées et utilisées de manière uniforme et homogène. Le mode référentiel constitue votre meilleure assurance que seuls les changements, ajouts ou suppressions de données adéquates et autorisés sont effectués. L’intégrité référentielle permet de définir des règles pour éradiquer les saisies en doublons, ou pour vérifier en temps réel l’exactitude de la donnée saisie.

Intégrité de domaine

L’intégrité de domaine fait référence à l’ensemble des processus qui garantissent l’exactitude des données rattachées à un domaine. Un domaine se caractérise par un ensemble de valeurs considérées comme acceptables et qu’une colonne peut contenir. Il peut inclure différentes règles afin de définir tantôt le format des données ou encore le type ou la quantité d’informations pouvant être saisies.

Intégrité définie par l’utilisateur

L’intégrité définie par l’utilisateur implique les règles créées par l’utilisateur pour répondre à ses besoins liés à son propre usage. En ajoutant un certain nombre de règles métier spécifiques dans les mesures d’intégrité des données, il est possible de compléter la gestion de l’intégrité de l’entité, de l’intégrité référentielle, et de l’intégrité du domaine.

Pourquoi est-il important de garantir l’intégrité des données ?

L’intégrité des données est importante pour deux raisons essentielles.

La première est un enjeu de conformité des données. Alors que le RGPD fixe des règles strictes et prévoit des sanctions sévères, garantir l’intégrité des données à chaque instant est un enjeu majeur.

La seconde est liée à l’exploitation même de vos données. Quand l’intégrité est préservée, vous avez la certitude que l’information disponible est fiable et de qualité et surtout, conforme à la réalité !

Les différences entre Data Integrity et Data Security

La Data Security est une discipline qui rassemble toutes les mesures qui sont déployées en vue d’empêcher la corruption des données. Elle repose sur l’utilisation de systèmes, de processus et de procédures qui restreignent l’accès non autorisé à vos données.

La Data Integrity, quant à elle, adresse l’ensemble des techniques et solutions permettant d’assurer la préservation de l’intégrité et de l’exactitude des informations pendant tout leur cycle de vie.

En d’autres termes, la Data Security est l’un des volets qui contribuent à l’intégrité des données.

Quelles sont les principales erreurs liées à la data quality et comment les résoudre ?

Quelles sont les principales erreurs liées à la data quality et comment les résoudre ?

Afin de vous démarquer de vos concurrents, d’innover et de proposer des produits et services toujours plus personnalisés, vos données sont essentielles. Mais attention, chaque jour de nouveaux petits désordres peuvent entamer leur qualité. Données incomplètes ou inexactes, problèmes de sécurité, données cachées, doublons, incohérences ou inexactitudes, la liste est longue.

Voici un tour d’horizon des erreurs liées à la data quality les plus courantes et une présentation des leviers à actionner pour les circonscrire pour de bon !

Les risques associés à des données de mauvaise qualité

On ne le répètera jamais assez : en matière de data, le véritable enjeu n’est pas celui du volume disponible mais celui de la qualité des données. Le data quality management (DQM) est une discipline exigeante qui repose sur une remise en question permanente des processus data, mais aussi sur une veille constante sur la nature même des informations qui constituent votre patrimoine de données. La mauvaise qualité des données peut se traduire directement par une baisse des revenus et une hausse des coûts opérationnels, entraînant potentiellement des pertes financières pour votre entreprise.

Lorsque la qualité des données est dégradée, les analyses, les projections, les prévisions, les décisions même peuvent être faussées. Et plus le volume de données dégradées est important, plus le décalage entre la réalité et votre compréhension de la réalité l’est aussi. Veiller à la qualité des données passe d’abord par une bonne compréhension des erreurs qui peuvent les affecter.

Les principales erreurs liées à la data quality

Veiller à la qualité des données est un enjeu-clé pour toute entreprise qui appuie sa stratégie de développement sur la data. Pour mener des actions ciblées, il faut savoir prioriser les tâches et ne pas s’éparpiller. Le data quality management consiste à identifier l’ensemble des informations erronées susceptibles de fausser vos prises de décision. Ces données erronées peuvent être classées en quatre catégories.

Les données dupliquées

La confusion est fréquente entre données dupliquées et données en doublon. Pourtant, elles sont différentes. Lorsque des données sont en doublon, cela signifie qu’une même information est présente à plusieurs reprises dans une même base de données ou un même fichier. On parle de données dupliquées lorsqu’une même information est présente dans différents fichiers. La duplication de données est donc plus insidieuse car souvent plus difficile à détecter. Au-delà de 5% de données dupliquées, on considère que la qualité des données commence à être dégradée. Les outils de CRM sont par exemple souvent générateurs de données dupliquées, car leurs utilisateurs ajoutent parfois des contacts sans vérifier leur présence préalable en base.

Les données cachées

Au quotidien, votre entreprise génère un volume croissant de données. Très souvent, vous n’exploitez qu’une partie limitée du volume d’information disponible. Le reste de la data produite par votre activité se disperse et se retrouve dilué dans des silos de données. Elles demeurent alors définitivement inexploitées. Par exemple, les historiques d’achat d’un client ne sont pas toujours mis à disposition des équipes du service client. Or, ces informations permettraient de mieux cerner le profil du client et donc, d’apporter des réponses plus pertinentes à ses demandes spécifiques, voire de réaliser de l’upsell ou du cross-sell en lui faisant des suggestions adaptées.

Les données incohérentes

Patrick Dupont et Patrick Dupond sont-ils vraiment deux clients différents ? Il n’est pas toujours simple de le savoir. Les données incohérentes nuisent considérablement à la qualité des données. Elles peuvent aussi être créées par un autre phénomène bien connu : celui de la redondance. Ce phénomène se manifeste lorsqu’au-delà de vos données propres, vous travaillez avec plusieurs sources (notamment des données tierces). Divergences de formats de données, d’unité, ou encore d’orthographe, autant d’incohérences qui doivent être traquées dans une démarche de data quality.

Les données inexactes

Cela peut sembler évident mais les données inexactes sont le pire fléau susceptible d’entamer la qualité des données. Lorsque les données clients sont inexactes, les expériences client personnalisées proposées ne seront pas pertinentes. Si par exemple les données liées à vos stocks sont erronées, les difficultés d’approvisionnement ou les coûts de stockage risquent d’exploser. Coordonnées erronées, informations manquantes ou vides, vous devez tout mettre en œuvre pour éradiquer les données inexactes.

Comment résoudre les problèmes de qualité des données ?

Si les principes de bon sens président souvent à une bonne gestion de la qualité des données, ils ne suffisent pas à la garantir.

Pour relever le défi et résoudre vos problèmes de qualité des données, il vous faudra vous doter d’un outil de Data Quality Management. Mais pour choisir la solution adaptée, vous devrez commencer par réaliser une cartographie rigoureuse de vos actifs data afin d’identifier la réalité des usages dans votre entreprise et d’évaluer leur qualité réelle. Déploiement d’une solution de Data Quality Management, gouvernance de la donnée, formation et sensibilisation de vos équipes à la bonne gestion de la data… sont autant de piliers indispensables pour limiter les erreurs liées à la data quality !

 

Pour en savoir plus sur la discipline du Data Quality Management, n’hésitez pas à télécharger gratuitement notre ebook Le Guide du Data Quality Management 👇

Banner Data Quality Management

Tout savoir sur la Data Observability

Tout savoir sur la Data Observability

Les entreprises collectent et traitent davantage de données qu’elles ne le faisaient hier et bien moins qu’elles ne le feront demain. Après le développement d’une vraie culture data, il est essentiel de disposer d’une visibilité totale et continue sur ses données. L’objectif ? Anticiper tout problème et toute éventuelle dégradation des données. C’est la fonction que remplit la Data Observability, ou observabilité des données. Explications.

4,95 milliards d’internautes. 5,31 milliards de mobinautes. 4,62 milliards d’utilisateurs actifs des réseaux sociaux. Les chiffres du Digital Report 2022 Global Overview de HootSuite et We Are Social illustrent à quel point le monde entier est connecté. Une digitalisation galopante qui fait exploser le nombre de données à la disposition des entreprises. Rien qu’au cours de l’année 2021, 79 zettabytes de données auraient été produits et collectés, un chiffre 40 fois supérieur au volume de données généré en 2010 ! Et selon les chiffres publiés par Statista, d’ici la fin 2022, le seuil des 97 zettabytes serait atteint et il pourrait doubler à l’horizon 2025. Cette profusion d’informations est un défi pour les entreprises.

La collecte, la gestion, l’organisation et l’exploitation des données peut devenir un casse-tête car, à mesure qu’elles sont manipulées, déplacées, elles peuvent être dégradées, voire rendues inexploitables. La Data Observability (ou observabilité des données) est une des pistes qui vous permettra de reprendre le contrôle sur la fiabilité, la qualité et l’accessibilité de vos données.

Qu’est-ce que la Data Observability ?

L’observabilité des données est une discipline qui consiste à analyser, comprendre, diagnostiquer et gérer la santé des données en s’appuyant sur plusieurs outils informatiques tout au long de leur cycle de vie.

Pour vous engager sur la voie de la Data Observability, il faudra constituer une plateforme d’observabilité des données. Celle-ci vous permettra alors non seulement de disposer d’une vision précise et holistique de vos données mais aussi d’identifier les problèmes de qualité, de duplication – en temps réel. Comment ? En s’appuyant sur des outils de télémétrie continue.

Ne pensez pas pour autant que l’observabilité des données se limite à une mission de surveillance des données. Cela va plus loin. La Data Observability contribue également à optimiser la sécurisation de vos données. En effet, la vigilance permanente sur les flux de données permet de garantir l’efficacité des dispositifs de sécurisation. Elle agit comme un moyen de détection précoce de tout problème éventuel.

Quels sont les bénéfices de l’observabilité des données ?

Le premier bénéfice de la Data Observability, c’est la capacité à anticiper la dégradation éventuelle de la qualité ou de la sécurité de vos données. Le principe de l’observabilité reposant sur une surveillance continue et automatisée de vos données, vous pourrez détecter très précocement toute difficulté.

De cette visibilité de bout en bout et en permanence sur vos données, vous pourrez tirer un autre bénéfice : celui de la fiabilisation de vos flux de collecte et de traitement de vos actifs data. Alors que les volumes de données sont toujours plus importants et que l’ensemble de vos processus de décision sont liés à la data, il est essentiel d’assurer la continuité du traitement de l’information. Chaque seconde d’interruption dans les processus de gestion de la donnée peut s’avérer préjudiciable pour votre activité.

L’observabilité des données permet non seulement de limiter votre exposition au risque d’interruption mais aussi de rétablir les flux dans les meilleurs délais en cas d’incident.

Les 5 piliers de la Data Observability

Pour exploiter le plein potentiel de l’observabilité des données, il s’agit de comprendre le périmètre d’action de votre plateforme. Celle-ci s’articule autour de cinq piliers fondamentaux.

Pilier N°1 : la Fraîcheur

Une plateforme de Data Observability vous permet notamment de vérifier la fraîcheur des données et ainsi lutter efficacement contre l’obsolescence de l’information. Le principe : garantir la pertinence de la connaissance tirée de la donnée.

Pilier N°2 : la Distribution

La notion de distribution est essentielle lorsque l’on s’intéresse à la fiabilité des données. Le concept est simple : s’appuyer sur la valeur probable d’une donnée pour en prédire la fiabilité.

Pilier N°3 : le Volume

Pour savoir si vos données sont bien complètes, il faut anticiper le volume attendu. C’est ce que propose la Data Observability qui permet d’estimer, pour un échantillon donné, le volume nominal attendu et de comparer avec le volume de données disponible. Lorsque les variables concordent, les données sont complètes.

Pilier N°4 : le Schéma ou programme

Savoir si vos données ont été dégradées. C’est la vocation du Schéma, également appelé Programme. Le principe consiste à assurer la surveillance des modifications apportées aux tables de données et à l’organisation des datas pour identifier plus rapidement les données endommagées.

Pilier N°5 : le Lineage

En assurant la collecte des métadonnées et en effectuant un mapping rigoureux des sources de data, il est possible, comme pour une fuite d’eau dans une robinetterie, de repérer dans les délais les plus brefs et avec une grande précision, les sources et points d’interruption dans vos processus de traitement des données.

Comprendre la différence entre Data Observability et Data Quality

Si l’observabilité des données est un des éléments qui permet d’optimiser en continu, la qualité de vos données, elle diffère cependant de la Data Quality qui prévaut sur la Data Observability. En effet, pour que l’observabilité puisse être pleinement utilisée, il faut, au préalable, que la Data Quality ait été assurée.

Alors que la Data Quality mesure l’état d’un ensemble de données, et plus précisément son adéquation aux besoins d’une organisation, la Data Observability détecte, dépanne et évite les problèmes qui affectent la qualité des données et la fiabilité du système.

Qu’est-ce que l’ingestion des données ?

Qu’est-ce que l’ingestion des données ?

Décider dans l’incertain et se fier à l’intuition n’est plus une option lorsque vos concurrents sont déjà engagés dans l’exploitation de la donnée. vous devez aller plus loin. Avec la Data Ingestion ou ingestion de la donnée, vous accédez plus rapidement et plus efficacement à l’information en la centralisant en un point unique. Tour d’horizon.

Dans un contexte d’hyper-concurrence et de digitalisation de votre activité, votre entreprise est engagée dans une course contre le temps. Une course qui ne vous oppose pas nécessairement à vos concurrents directs, mais une course qui se joue entre votre entreprise et vos clients. L’enjeu : identifier toujours plus vite les tendances de consommation et les besoins de vos cibles pour anticiper les attentes. Être le premier à satisfaire un besoin donné, s’implanter avant tous les autres sur un marché émergeant… Des nécessités stratégiques qui trouvent une réponse dans la Data Ingestion ou ingestion des données.

Cette pratique contribue à disposer d’une connaissance plus fine de vos clients ou de votre marché en exploitant des données toujours plus hétérogènes qui vous permettent d’identifier des signaux faibles en vue de dégager rapidement des tendances mais surtout efficacement.

 

Comprendre ce qu’est l’ingestion des données

Le principe de l’ingestion de données repose sur l’idée de centraliser, en un point, différentes sources de données. Par nature, ces données hétéroclites doivent faire l’objet d’un nettoyage et d’un dédoublonnage méticuleux, afin d’être réunies dans un environnement cible, pour ensuite être traitées et exploitées. Que vos données proviennent d’un datalake, de fichiers clients, d’applications SaaS ou de toute autre source, elles peuvent être agrégées au sein d’un site cible afin de les réconcilier dans le but d’améliorer la compréhension d’un marché, d’un écosystème, d’une cible.

Le terme de réconciliation résume parfaitement la vocation de l’ingestion de données. Le principe étant de combiner la connaissance que recèlent différents types de base de données pour en maximiser les enseignements.

 

Quels sont les principaux avantages de l’ingestion des données ?

Si vous décidez de vous engager dans un projet de Data Ingestion, vous pourrez tirer différents bénéfices de votre effort. Tout d’abord, vous gagnerez immanquablement en réactivité et en flexibilité. En effet, les outils permettant de réaliser de l’ingestion de données sont en mesure de gérer et de traiter non seulement de très grands volumes de données mais aussi une large gamme de types de données, notamment des données non structurées.

L’ingestion de données, c’est également une promesse de simplicité.

Par sa capacité à réconcilier des sources d’information disparates, la Data Ingestion facilite considérablement les processus d’extraction de données et de restructuration dans des formats prédéfinis, afin de les rendre plus aisément exploitables.

Ces informations auxquelles l’ingestion de données vous donnent accès peuvent ensuite être valorisées au sein d’outils analytiques avancés. L’objectif : maximiser les bénéfices de cette connaissance approfondie de vos clients ou de votre marché, afin de nourrir des outils de business Intelligence. Vous pourrez ainsi plus aisément prendre de la hauteur pour définir de nouvelles orientations stratégiques, adossées à un vrai projet data qui gagne en profondeur et vous permet d’inscrire votre entreprise dans une perspective « data-driven ». En effet, l’ingestion de données contribue à simplifier l’accès à la donnée à vos collaborateurs.

Une culture data plus développée rime aussi avec des prises de décision plus rapides et plus éclairées et, par conséquent, un avantage concurrentiel pour définir des axes tactiques et stratégiques plus performants.

 

Quels défis relever pour réussir l’ingestion des données ?

Une discipline comme la Data Ingestion demeure exigeante, et pour délivrer son plein potentiel elle a besoin qu’un certain nombre de conditions soient réunies. Ainsi, il faut savoir que l’ingestion de très grands volumes de données peut soulever des problématiques de Data Quality qui non seulement peuvent dégrader la pertinence des analyses, mais aussi rallonger les délais de traitement. Par ailleurs, la diversité des sources de données augmente mécaniquement l’exposition à des vulnérabilités. Ces deux défis majeurs en induisent un troisième dont il faut avoir conscience avant de se lancer.

Plus de complexité et plus d’exposition au risque, cela induit mécaniquement un risque d’augmentation des coûts de traitement. Pour réussir un projet d’ingestion de données, il faut avoir conscience de ces risques pour s’en prémunir… 

Comment réussir un projet de Data Ingestion ?

Le premier conseil pour engager efficacement un projet de Data Ingestion, c’est celui de l’anticipation. De la bonne cartographie de vos actifs data dépend votre capacité à anticiper les risques et les difficultés.

L’autre levier à actionner est celui de l’automatisation.

Les volumes de données traités par Ingestion de données sont tels que les opérations manuelles doivent être limitées au maximum. L’automatisation du traitement de l’information présente par ailleurs l’avantage d’offrir plus de cohérence à la structure de vos données.

Enfin, pour maximiser les chances de succès de votre projet d’ingestion de données, vous pouvez également envisager d’opter pour une data ingestion en temps réel. Connue également sous le nom d’ingestion en streaming ou en flux, elle est particulièrement adaptée lorsque vous cherchez à actualiser en permanence la connaissance que vous pouvez avoir d’un marché. Cette ingestion en temps réel apporte une réponse-clé à des enjeux de prise de décision en temps réel.

7 obstacles à la démocratisation de l’accès aux données en entreprise

7 obstacles à la démocratisation de l’accès aux données en entreprise

Nombreuses sont les organisations qui ont pour objectif de devenir data-driven, c’est-à-dire qui souhaitent appuyer leurs décisions stratégiques – non pas sur des intuitions ou des tendances – mais sur des données et des analyses précises, fiables. Cela implique une démarche de stockage, de documentation et de mise à disposition de ces données pour les exploiter au mieux. Si ces entreprises s’équipent en ce sens d’outils modernes pour démocratiser l’accès aux données, elles sont confrontées à une multitude de difficultés qui peuvent freiner la démarche. Cet article s’appuie sur notre retour d’expérience aux côtés des utilisateurs Zeenea, issus d’organisations de tailles et de secteurs hétérogènes, pour décrire 7 obstacles fréquemment rencontrés sur le chemin de la démocratisation des données.
 

Des outils nécessaires, mais pas suffisants

Chez les utilisateurs des solutions Zeenea, la démocratisation des données et le souhait de basculer vers un modèle décisionnel data-driven sont naturellement des priorités. D’ailleurs, l’accès aux données de ces organisations est partiellement démocratisé puisqu’elles sont toutes équipées d’outils dédiés comme des data lakes et data labs. Naturellement, le déploiement d’un Data Catalog dans ces entreprises en est également l’illustration, avec l’exploitation d’une plateforme unique capable de centraliser tout un patrimoine de données qui est partagé avec l’ensemble des collaborateurs.

Ces outils sont des briques essentielles à toute démarche data-driven, mais ils ne permettent pas à eux seuls de démocratiser l’accès à la donnée. Si l’on prend l’exemple d’un data catalog, l’outil devient particulièrement efficace dès lors qu’il est utilisé par le plus grand nombre dans l’organisation. Ce sont la multiplication des cas d’usages et le travail de documentation des actifs de données par un maximum de collaborateurs qui permettent de libérer la valeur de la mine d’informations de l’entreprise. Chacun à son échelle peut alors bénéficier du travail du collègue, un cercle vertueux en somme. Et pour favoriser cela, un changement culturel est nécessaire.
 

La culture d’entreprise

Il subsiste parfois au sein des organisations que nous accompagnons un déficit de prise de conscience de la valeur du patrimoine de données à disposition et d’adhésion à la démarche de documentation et de partage des données. Le challenge se situe notamment au niveau de l’usage des outils mentionnés précédemment, avec des données qui restent souvent dans silos entre les différents départements et équipes. Cet état d’esprit est d’autant plus difficile à changer au niveau des métiers, alors que les équipes IT sont culturellement plus sensibilisées et enclines à la documentation et au partage des datas.

Des cellules de gouvernances sont en ce sens créées pour favoriser cette prise de conscience, mais elles souffrent d’un déficit de légitimité dans l’organisation ce qui complique leur travail de sensibilisation au rôle central de la data pour l’entreprise. Dans la littérature du data mesh, il est d’ailleurs conseillé de fédérer / décentraliser la gouvernance de la donnée. Les équipes métiers doivent y être intégrées, au risque qu’un écart de langage se crée : les équipes de gouvernance doivent travailler avec les Data Owners, Data Engineers, Data Analysts, etc. La démocratisation de l’accès aux données doit nécessairement passer par la rencontre entre producteurs et consommateurs de données.

La notion de changement d’état d’esprit dans l’entreprise est une nécessité pour compléter l’outillage en place pour démocratiser la donnée. Les recherches publiées par Gartner montrent qu’historiquement les organisations évoluent dans une culture défensive du “ne jamais partager, sauf” de bonnes raisons de la partager. L’institut de recherche insiste sur la nécessité de basculer sur une philosophie du “toujours partager la donnée, sauf”. Les outils (data lakes, data labs, data catalogs etc.) ne suffisent pas pour démocratiser la donnée s’ils ne sont pas portés par ce changement culturel.

 

La documentation a posteriori

De nombreux projets sont d’abord guidés par les coûts et les délais, et dans ces cas de figure, la data gouvernance et la data quality ne sont généralement pas des sujets prioritaires dès le départ pour les métiers dans l’organisation. On observe ainsi une tendance à la documentation a posteriori, compliquant la tâche de partage et de documentation. La qualité des données, et a fortiori de sa documentation, sont ainsi trop souvent la dernière roue du carrosse.
 

Le manque de temps

Le manque de documentation est un biais exacerbé dans les organisations dont le produit et la valeur sont créés via l’exploitation des données. Le frein à la démocratisation est alors plutôt lié au manque de temps pour la documentation qu’à un déficit de culture d’entreprise data-driven comme évoqué plus haut. Si l’on s’appuie de nouveau sur l’exemple du data catalog et du métier de Data Scientist, on observe que ce type de population a plus ou moins l’envie de documenter son activité mais ne prend pas le temps de le faire puisque la complétude du data catalog n’est pas une priorité.

En outre, la documentation et la mise à disposition des données ne sont pas toujours au programme des missions des collaborateurs. Il y a donc aussi une dimension RH pour la démocratisation. La mission de documentation peut être ajoutée au scope des missions des collaborateurs pour favoriser la démocratisation et la responsabilisation.
 

Le volume des données

Une forme de peur naît parfois lorsqu’il est demandé aux contributeurs de partager leurs propres données métier au sein d’un grand conteneur commun (data lake ou data catalog). Il s’agit de la crainte de se retrouver noyé dans un océan de données ajoutées par d’autres entités de l’organisation, et de ne plus s’y retrouver.

Le data catalog est précieux pour apaiser cette crainte chez les producteurs de données. En effet, l’outil leur offre d’une part la possibilité d’explorer facilement leurs propres données, mais également de se servir de datas produites par d’autres pour leurs propres cas d’usages.
 

La sécurité des données

L’aspect sécurité revient régulièrement comme un prétexte pour ne pas partager la donnée au sein de l’entreprise. Hors il existe aujourd’hui des systèmes efficaces de gestion des permissions utilisateurs comme celui intégré au data catalog Zeenea par exemple, qui couplé à une culture du partage et de la responsabilisation peuvent permettre de passer outre cette barrière.
 

La propriété des données

En ce qui concerne la notion de propriété, on observe trop souvent un ownership des jeux de données à un niveau local. Pourtant la donnée est un bien d’entreprise, un patrimoine commun, et seuls des aspects réglementaires devraient justifier une propriété locale. Dans les autres cas, cet ownership devient rapidement un frein à la documentation : la culture d’entreprise doit favoriser la mise à disposition de la donnée au plus grand nombre, sous la responsabilité d’une entité ou d’individus.

Si vous souhaitez échanger avec nous sur les obstacles à la démocratisation des données en entreprise décrits dans cet article, ou si vous souhaitez une présentation des solutions Zeenea à destination des entreprises data-driven :

Guide du Data Quality Management n°4 – La contribution du Data Catalog au DQM

Guide du Data Quality Management n°4 – La contribution du Data Catalog au DQM

La qualité de la donnée, Data Quality en anglais, fait référence à la capacité d’une entreprise à maintenir la pérennité de ses données à travers le temps. À écouter certains professionnels de la qualité des données on peut avoir le sentiment qu’améliorer la qualité des données est la solution à tous les problèmes métiers – que cela devrait donc être une top priorité. 

Chez Zeenea, la réalité est, selon nous, à nuancer : la Data Quality devrait être considérée uniquement comme un moyen parmi d’autres de réduire l’incertitude d’atteindre les objectifs de votre entreprise.

Dans cette série d’articles, nous vous livrerons tout ce que les professionnels des données doivent savoir sur la gestion de la qualité des données ou Data Quality Management (DQM) :

  1. Les neuf dimensions de la qualité de la donnée
  2. Les défis et risques liés à la qualité des données
  3. Les principales fonctionnalités d’un outil de DQM
  4. La contribution du Data Catalog au DQM

     

    Un data catalog n’est pas un outil de DQM

    Un point essentiel étant qu’un catalogue de données ne doit pas être considéré comme un outil de gestion de la qualité à part entière.

    Tout d’abord, l’un des principes au cœur de la qualité de la donnée est que les contrôles doivent idéalement s’effectuer directement dans le système source. Le fait d’effectuer ces contrôles uniquement dans le data catalog – et non directement à la source et dans les flux de transformation de données – augmente le coût global de la démarche.

    Ensuite, un data catalog doit être exhaustif et le moins intrusif possible pour favoriser son déploiement rapide au sain de l’entreprise. Cela n’est pas compatible avec la complexité des transformations de données et la multitude des outils utilisés pour réaliser ces transformations.

    Enfin, un data catalog doit rester un outil simple à comprendre et à utiliser, comme décrit dans l’article 3 de notre Data Democracy.

    Comment un data catalog contribue-t-il à l’amélioration de la Data Quality ?

    Si le data catalog n’est pas un outil de qualité des données, il y contribue néanmoins largement. Et voici comment :

    • Un data catalog permet aux consommateurs de la donnée de comprendre facilement les métadonnées afin d’éviter les interprétations sur les données. Cette fonctionnalité de base fait écho à la dimension de clarté de la qualité ;
    • Un data catalog permet d’avoir une vue centralisée sur toutes les données disponibles dans l’entreprise. Les informations de qualité de données sont donc des métadonnées comme les autres qui apportent de la valeur, et qui doivent être mises à disposition de tous les utilisateurs. Elles doivent être faciles à interpréter et à récupérer, faisant écho aux dimensions de précision, de cohérence, de conformité, d’unicité, de complétude et de fraîcheur.
    • Un data catalog possède des capacités de traçabilité des données (Data Lineage), faisant écho à la dimension de traçabilité de la qualité ;
    • Un data catalog permet en général d’accéder directement à la source des données, faisant écho à la dimension de disponibilité de la qualité.

    La stratégie d’implémentation du DQM

    Le tableau suivant détaille comment la qualité de la donnée est prise en compte en fonction des différentes solutions existantes sur le marché :

    Comme décrit précédemment, le maximum de tests et vérifications sur la qualité doivent par défaut être fait directement dans le système source. L’intégration des tests de qualité dans un data catalog peut certes améliorer l’expérience utilisateur, mais n’est pas indispensable du fait de ses limitations – la Data Quality n’étant pas intégrée aux flux de transformation.

    Néanmoins, lorsque les systèmes se complexifient et que l’on cherche par exemple à consolider les données de plusieurs systèmes heteroclites qui n’ont pas implémenté les mêmes règles fonctionnelles, un outil de Data Quality spécialisé devient alors indispensable.

    La stratégie d’implémentation va dépendre des cas d’utilisation et des objectifs de l’entreprise. Il est néanmoins pertinent d’essayer de mettre en place la qualité de la donnée de manière incrémentale : 

    1. S’assurer que le système source ait bien mis en place les règles de qualité pertinentes ;
    2. Mettre en place un data catalog pour améliorer la qualité sur les dimensions de clarté, traçabilité et/ou de disponibilité ;
    3. Intégrer la Data Quality dans les flux de transformation avec un outil spécialisé, tout en remontant automatiquement ces informations dans le data catalog via API.

    Conclusion

    La Data Quality fait référence à la capacité d’une entreprise à maintenir la pérennité de ses données dans le temps. Chez Zeenea, nous la définissons via le prisme de neuf des soixante dimensions décrites par DAMA International : la complétude, la précision, la conformité, l’unicité, la cohérence, la fraîcheur, la traçabilité, la clarté et la disponibilité.

    En tant que fournisseur de data catalog, nous réfutons l’idée qu’un catalogue de données est un outil de gestion de la qualité à part entière. En réalité, il s’agit uniquement d’un moyen parmi d’autres de contribuer à l’amélioration de la Data Quality, notamment via les dimensions de clarté, de disponibilité et de traçabilité.

    data-quality-data-catalog-FR

    Découvrez notre guide de la gestion de la qualité des données

    Pour plus d’informations sur la qualité des données et la discipline du DQM, téléchargez notre guide gratuit : « Guide du Data Quality Management » dès maintenant !

    le-guide-du-data-quality-management-mockup

    Guide du Data Quality Management n°3 – Les fonctionnalités d’un outil de DQM

    Guide du Data Quality Management n°3 – Les fonctionnalités d’un outil de DQM

    La qualité de la donnée, Data Quality en anglais, fait référence à la capacité d’une entreprise à maintenir la pérennité de ses données à travers le temps. À écouter certains professionnels de la qualité des données on peut avoir le sentiment qu’améliorer la qualité des données est la solution à tous les problèmes métiers – que cela devrait donc être une top priorité. 

    Chez Zeenea, la réalité est, selon nous, à nuancer : la Data Quality devrait être considérée uniquement comme un moyen parmi d’autres de réduire l’incertitude d’atteindre les objectifs de votre entreprise.

    Dans cette série d’articles, nous vous livrerons tout ce que les professionnels des données doivent savoir sur la gestion de la qualité des données ou Data Quality Management (DQM) :

    1. Les neuf dimensions de la qualité de la donnée
    2. Les défis et risques liés à la qualité des données
    3. Les principales fonctionnalités d’un outil de DQM
    4. La contribution du Data Catalog au DQM

    Une façon de comprendre les enjeux de la qualité de la donnée est d’étudier les solutions qui existent sur le marché pour la gérer.

    Comment fait-on pour identifier et corriger des problèmes de qualité de façon opérationnelle ? Que proposent la plupart des outils du marché comme fonctionnalités pour améliorer la qualité de la donnée ?

    Sans rentrer trop dans les détails, je vous propose d’illustrer les qualités d’un outil de Data Quality Management en m’appuyant sur les principaux critères d’évaluation du Magic Quadrant for Data Quality Solutions de Gartner.

    La connectivité

    Un outil de gestion de la qualité doit être capable de récupérer et d’appliquer des règles de qualité sur toutes les données de l’entreprise (données internes, externes, on-prem, cloud, relationnelles, non relationnelles etc.). L’outil doit donc être capable de se connecter à toutes les données importantes de l’entreprise pour appliquer des règles de qualité.

    Le profilage, la mesure et la visualisation des données

    Pour pouvoir corriger des problèmes de qualité, encore faut-il pouvoir les détecter. Le profilage des données permet aux utilisateurs métier et à l’IT d’avoir un aperçu des données, dans le but d’identifier et de comprendre les problèmes de qualité des données.

    L’outil doit donc être capable de réaliser l’exercice décrit dans la partie Les neuf dimensions de la qualité de la donnée pour identifier les problèmes de qualité à travers les dimensions les plus importantes pour l’entreprise.

    Le monitoring

    L’outil doit pouvoir surveiller l’évolution de la qualité de la donnée et alerter les responsables à partir de certains seuils.

    La standardisation et le nettoyage des données

    Vient forcément le moment de nettoyer la donnée. L’objectif ici est de fournir des fonctionnalités de nettoyage des données afin d’appliquer des normes ou des règles métiers pour modifier les données (format, valeurs ou mise en page).

    Le matching et la fusion des données

    L’objectif est d’identifier et de supprimer les doublons qui peuvent être présents au sein ou entre des ensembles de données.

    La validation des adresses

    L’objectif est de pouvoir standardiser des adresses qui pourraient être incomplètes ou erronées.

    La curation et l’enrichissement des données

    Ce sont les capacités d’un outil de Data Quality Management qui permettent d’intégrer des données provenant de sources externes afin d’améliorer la complétude – et donc d’ajouter de la valeur à la donnée.

    Le développement et la mise en oeuvre de règles métier

    Ce sont les capacités d’un outil de gestion de la qualité permettant de créer, déployer et gérer des règles métier, qui peuvent ensuite être utilisées pour valider les données.

    La résolution des problèmes

    L’outil de gestion de la qualité devrait permettre aux métiers et à l’IT d’affecter, d’escalader, de résoudre et de surveiller les problèmes de qualité des données.

    La gestion des métadonnées

    L’outil devrait également être capable de capturer et de réconcilier toutes les métadonnées relatives au processus de qualité des données.

    La convivialité

    Enfin, la solution doit s’adapter aux différents rôles de l’entreprise, et particulièrement aux utilisateurs métiers non techniques.

    Découvrez notre guide de la gestion de la qualité des données

    Pour plus d’informations sur la qualité des données et la discipline du DQM, téléchargez notre guide gratuit : « Guide du Data Quality Management » dès maintenant !

    le-guide-du-data-quality-management-mockup

    Guide du Data Quality Management n°2 – Les défis et risques liés à la qualité des données

    Guide du Data Quality Management n°2 – Les défis et risques liés à la qualité des données

    La qualité de la donnée, Data Quality en anglais, fait référence à la capacité d’une entreprise à maintenir la pérennité de ses données à travers le temps. À écouter certains professionnels de la qualité des données on peut avoir le sentiment qu’améliorer la qualité des données est la solution à tous les problèmes métiers – que cela devrait donc être une top priorité. 

    Chez Zeenea, la réalité est, selon nous, à nuancer : la Data Quality devrait être considérée uniquement comme un moyen parmi d’autres de réduire l’incertitude d’atteindre les objectifs de votre entreprise.

    Dans cette série d’articles, nous vous livrerons tout ce que les professionnels des données doivent savoir sur la gestion de la qualité des données ou Data Quality Management (DQM) :

    1. Les neuf dimensions de la qualité de la donnée
    2. Les défis et risques liés à la qualité des données
    3. Les principales fonctionnalités d’un outil de DQM
    4. La contribution du Data Catalog au DQM

       

      Les entreprises face au défi de la qualité des données

      Les initiatives d’amélioration de la qualité des données sont traditionnellement mises en place par les entreprises pour répondre aux exigences de conformité et de réduction des risques. Elles sont également indispensables pour faciliter la prise de décision fiable.

      Il existe malheureusement de nombreuses frictions qui peuvent empêcher d’atteindre ces objectifs d’amélioration de la qualité des données. En voici quelques exemples :

      • La croissance exponentielle du volume, de la vitesse et de la variété des données rend l’environnement plus complexe etincertain ;
      • La pression croissante des réglementations de conformité telles que RGPD, BCBS 239 ou HIPAA ;
      • Les équipes sont de plus en plus décentralisées, avec chacune leur domaine de compétence ;
      • Les équipes IT et Data sont débordées et n’ont pas le temps de traiter le sujet de la Data Quality ;
      • Ces mêmes équipes peuvent parfois éviter la tâche qu’il trouvent ingrate ;
      • Les processus sont complexes et longs pour agréger les données ;
      • Il peut être difficile de standardiser les données entre différentes sources ;
      • L’audit des changements entre les systèmes est complexe ;
      • Les politiques de gouvernance sont difficiles à mettre en oeuvre.

      D’un autre côté, les opportunités sont également nombreuses. S’assurer d’avoir des données de qualité permet notamment aux entreprises de faciliter l’innovation avec l’intelligence artificielle, au service de la création d’une expérience personnalisée pour les clients. Mais encore faut-il avoir suffisamment de données de qualité. 

      Gartner prédit ainsi que jusqu’en 2022, 85 % des projets d’IA produiront des résultats erronés en raison de biais dans les données, les algorithmes ou les équipes chargées de les gérer.

      Diminuer le niveau de risque en améliorant la qualité des données

      La mauvaise qualité des données devrait être considérée comme un risque, et les logiciels qui améliorent la qualité comme des traitements possibles pour réduire ce niveau de risque.

      Le processus de traitement d’un problème de qualité :

      Si l’on part du postulat précédent, tout problème de qualité devrait alors être adressé en plusieurs phases :

      1. Identification des risques : cette phase consiste à rechercher, reconnaître et décrire les risques qui peuvent aider ou empêcher l’entreprise d’atteindre ses objectifs – et notamment en raison d’un manque de qualité de données.

      2. L’analyse du risque : cette phase a pour objectif de comprendre la nature du risque et ses caractéristiques. Elle inclut des facteurs de vraisemblance d’événements et leurs conséquences, la nature et l’importance de ces conséquences, l’efficacité des moyens de maîtrise existants etc. 

      On va donc chercher ici à identifier ce qui a pu causer la mauvaise qualité des données marketing. On pourrait citer par exemple :

      • Une mauvaise expérience utilisateur du système source qui entraîne des erreurs de saisie ;
      • Un manque de vérification de la complétude, la précision, la conformité, l’unicité, la cohérence ou la ponctualité des données ;
      • Un manque de moyens simples pour assurer la traçabilité, la clarté et la disponibilité des données ;
      • L’absence de process de gouvernance et d’implication des équipes métiers.

      3. L’évaluation du risque : cette phase vise à comparer les résultats de l’analyse du risque avec les critères de risque établis. Elle permet de déterminer si une action supplémentaire est exigée pour la prise de décision – par exemple maintenir les moyens existants, examiner les options de traitement, ou encore entreprendre une analyse plus approfondie etc.

      Concentrons-nous sur les neuf dimensions de la Data Quality et essayons d’évaluer l’impact d’une mauvaise qualité sur chacune d’entre elles en nous appuyant sur une matrice probabilité / gravité :

      Data Quality évaluation des risques

      Les valeurs renseignées pour les niveaux de probabilité et de gravité doivent être définies avec les principales parties prenantes, c’est-à-dire les opérationnels qui connaissent le mieux les données en question.

      4. Traitement du risque : cette phase de traitement a pour but d’établir les options à choisir pour réduire le risque et mettre en œuvre les actions pour y parvenir. Ce traitement implique aussi d’apprécier l’efficacité des actions menées, de déterminer si le risque résiduel est acceptable ou non – et dans ce dernier cas – d’éventuellement envisager un traitement complémentaire.

      L’amélioration de la qualité de la donnée n’est donc pas un but en soi :

      • Son coût doit être évalué au regard des objectifs de l’entreprise ;
      • Les traitements à mettre en place doivent être évalués à travers chacune des dimensions de la qualité.

      Découvrez notre guide de la gestion de la qualité des données

      Pour plus d’informations sur la qualité des données et la discipline du DQM, téléchargez notre guide gratuit : « Guide du Data Quality Management » dès maintenant !

      le-guide-du-data-quality-management-mockup
      Guide du Data Quality Management n°2 – Les défis et risques liés à la qualité des données

      Guide du Data Quality Management n°1 – Les 9 dimensions de la qualité des données

       

      La qualité de la donnée, Data Quality en anglais, fait référence à la capacité d’une entreprise à maintenir la pérennité de ses données à travers le temps. À écouter certains professionnels de la qualité des données on peut avoir le sentiment qu’améliorer la qualité des données est la solution à tous les problèmes métiers – que cela devrait donc être une top priorité. 

      Chez Zeenea, la réalité est, selon nous, à nuancer : la Data Quality devrait être considérée uniquement comme un moyen parmi d’autres de réduire l’incertitude d’atteindre les objectifs de votre entreprise.

      Dans cette série d’articles, nous vous livrerons tout ce que les professionnels des données doivent savoir sur la gestion de la qualité des données ou Data Quality Management (DQM) :

      1. Les neuf dimensions de la qualité de la donnée
      2. Les défis et risques liés à la qualité des données
      3. Les principales fonctionnalités d’un outil de DQM
      4. La contribution du Data Catalog au DQM

       

      Qu’est-ce que la Data Quality

      Si vous demandez à des Data Analysts ou des Data Engineers de définir ce qu’est la qualité de la donnée, vous aurez très probablement des réponses différentes – ce même au sein d’une même entreprise et pour le même type de profil. Certains vont par exemple parler d’unicité des données, quand d’autres vous parleront de standardisation. Vous avez d’ailleurs vous-même peut-être votre propre interprétation.

      La norme ISO 9000-2015 définit la qualité comme “L’aptitude d’un ensemble de caractéristiques intrinsèques à satisfaire des exigences”. 

      DAMA International (The Global Data Management Community) – association internationale de référence regroupant les professionnels métiers et techniques de la gestion de la donnée – dérive cette définition dans le contexte data : La qualité des données est le degré auquel les dimensions des données répondent aux exigences.

      L’approche dimensionnelle de la qualité de la donnée

      Opérationnellement, la qualité de la donnée se traduit dans ce que l’on appelle les dimensions de la Data Quality, où chaque dimension se réfère à un aspect spécifique de la qualité. Les quatre dimensions les plus fréquemment utilisées sont généralement la complétude, la précision, la conformité et la disponibilité.

      On trouve dans la littérature un grand nombre de dimensions et critères différents qui permettent de décrire la qualité de la donnée. Mais il faut bien comprendre qu’il n’y a pas aujourd’hui de consensus sur ce que sont ces dimensions. DAMA définit par exemple soixante dimensions – quand la plupart des vendeurs de logiciels de Data Quality Management en proposent généralement cinq ou six.

      Les neuf dimensions de la qualité des données

      Chez Zeenea, nous pensons que le compromis idéal est de prendre en compte neuf dimensions de la qualité des données, à savoir : la complétude, la précision, la conformité, l’unicité, la cohérence, la fraîcheur, la traçabilité, la clarté et la disponibilité.

      Nous vous proposons d’illustrer ces neuf dimensions et les différents concepts abordés dans cette publication avec un exemple simple :

      Arthur a pour responsabilité d’envoyer des campagnes marketing à ses clients et prospects pour présenter les nouvelles offres de son entreprise. Il rencontre un certain nombre de problèmes :

      • Arthur envoie parfois plusieurs fois des communications aux mêmes personnes,
      • Les emails renseignés dans son CRM sont souvent invalides,
      • Les prospects et clients ne reçoivent pas toujours le bon contenu,
      • Certaines informations sur les prospects sont obsolètes,
      • Des clients reçoivent des emails avec des erreurs de qualification du
      • genre,
      • Il y a deux adresses pour les clients et prospects mais il n’est pas évident de comprendre à quoi elles correspondent,
      • Il ne sait pas toujours d’où viennent les données qu’il exploite ou comment il peut accéder à leurs sources.

      Les données suivantes sont celles à disposition d’Arthur pour sa prospection commerciale. Nous allons les utiliser pour illustrer chacune des neuf dimensions de la Data Quality :

      data-quality-table

       

      1. La complétude (Completeness)

      Est ce que la donnée est complète ? Manque-t-il des informations ? L’objectif de cette dimension est d’identifier les données vides, nulles ou manquantes. Dans notre cas pratique, Arthur a constaté qu’il y a des adresses emails qui ne sont pas renseignées :

      Data Quality - Table Empty Email

      Pour pallier ce problème, il pourrait essayer d’identifier si d’autres systèmes contiennent ces informations. Arthur pourrait également demander à des spécialistes de ces données de renseigner manuellement les adresses email manquantes.

       

      2. La précision (Accuracy)

      Est-ce que les valeurs présentes sont cohérentes avec les données réelles, c’est-àdire celles que l’on retrouve dans le monde réel ?

      Arthur a constaté que des lettres envoyées aux clients importants sont renvoyées car les adresses postales ne sont pas correctes. On constate effectivement que l’une des adresses ne correspond pas au format des adresses du monde réel :

      Data Quality - Table Address

      Il pourrait être intéressant pour Arthur d’utiliser des services de vérification des adresses postales.

       

      3. La conformité (Validity)

      Est-ce que la donnée est conforme à la syntaxe de sa définition ? L’objectif de cette dimension est de s’assurer que la donnée respecte un modèle ou une règle particulière.

      Arthur a constaté qu’il reçoit régulièrement des retours pour emails invalides. Autre problème, il s’avère que certains prospects et clients ne reçoivent pas le bon contenu car ils ne sont pas correctement qualifiés. On constate qu’effectivement l’adresse email annalincoln@apple n’a pas le bon format et que le type de client Csutomer n’est pas correct.

      Data Quality - Table Input Errors

      Pour résoudre ce type de problème, il peut par exemple s’assurer que les valeurs Client Type font partie d’une liste de valeurs de référence (Customer ou Prospect) et que l’adresse email respecte un format spécifique.

      4. La cohérence (Consistency)

      Est ce que différentes valeurs d’un même enregistrement sont en conformité par rapport à une règle ? L’objectif est de s’assurer de la cohérence des données entre plusieurs colonnes.

      Arthur a constaté que certains de ses clients masculins se plaignent de recevoir des mails en étant qualifiés à tort de Madame. Il y a effectivement une incohérence entre les colonnes Gender et Title pour Lino Rodrigez.

      Data Quality - Table Title and Gender

      Pour résoudre ce type de problème, il est possible de créer une règle logique qui s’assurera que si le Genre est Male, alors le Title devra être Mr.

       

      5. La fraîcheur (Timeliness)

      Est-ce que la période entre le moment de la création de la donnée et sa disponibilité est appropriée ? L’objectif est de s’assurer que la donnée est accessible dans des délais raisonnables par rapport à son utilisation.

      Arthur a constaté que certaines informations sur les prospects ne sont pas à jour car les données sont trop vieilles. Effectivement, dans son métier et pour son entreprise, une donnée liée à un prospect qui a plus de 6 mois ne devrait pas être utilisée.

      Data Quality - Table Time Value

      Il pourrait imaginer pallier ce problème en créant une règle pour identifier et exclure les données trop anciennes. Une autre alternative serait de récupérer la même information dans un autre système qui contiendrait une donnée plus fraîche.

       

      6. L’unicité (Uniqueness)

      Y a-t-il des enregistrements présents plus d’une fois ? L’objectif est de s’assurer que les données ne sont pas dupliquées.

      Arthur a constaté qu’il a envoyé les mêmes communications plusieurs fois aux mêmes personnes. On observe que le client Lisa Smith est dupliqué dans le fichier :

      Data Quality - Table Double

      Dans cet exemple simplifié, les données dupliquées sont exactement les mêmes. Des algorithmes plus avancés de type Jaro, Jaro-Winkler ou Levenshtein – par exemple – permettent de regrouper plus finement les données dupliquées.

       

      7. La clarté (Clarity)

      Est-il simple pour les consommateurs de la donnée d’en comprendre les métadonnées ? L’objectif est de comprendre la signification des données et d’éviter les interprétations.

      Arthur a eu des doutes sur les deux adresses présentes car il n’est pas évident de comprendre à quoi elles correspondent. Les noms Street Address 1 et Street Address 2 sont sujets à interprétation et devraient autant que possible être modifiés.

      Clarity Data Quality

      Le renommage au sein d’une base de données est souvent une opération compliquée, et doit être correctement documenté avec au moins une description.

       

      8. La traçabilité (Traceability)

      Est-il possible d’obtenir la traçabilité des données ? L’objectif est d’accéder aux origines de la donnée, ainsi qu’aux transformations qu’elle aurait pu subir.

      Arthur ne sait pas très bien d’où viennent ses données et comment il peut accéder aux données sources. Cela pourrait pourtant lui être très utile, notamment pour s’assurer que les problèmes soient bien corrigés à la source. Il aurait donc besoin de savoir que les données qu’il utilise avec son outil marketing proviennent des données du data warehouse de son entreprise, provenant elles-même de l’outil de CRM.

      Data Quality - CRM

      9. La disponibilité (Availability)

      Comment les données peuvent-elles être consultées ou récupérées par les consommateurs ? L’objectif est de faciliter l’accès aux données.

      Arthur ne sait pas comment il pourrait facilement accéder aux données sources. Si on reprend le schéma précédent, il aimerait pouvoir accéder simplement et rapidement aux données du data warehouse et/ou de l’outil CRM. Arthur devra dans certains cas faire une demande avant de pouvoir accéder directement à ces informations.

      Découvrez notre guide de la gestion de la qualité des données

      Pour plus d’informations sur la qualité des données et la discipline du DQM, téléchargez notre guide gratuit : « Guide du Data Quality Management » dès maintenant !

      le-guide-du-data-quality-management-mockup

      Les 7 mensonges des fournisseurs de Data Catalog – n°2- Un Data Catalog n’est pas une solution de DQM (Data Quality Management)

      Les 7 mensonges des fournisseurs de Data Catalog – n°2- Un Data Catalog n’est pas une solution de DQM (Data Quality Management)

      Le marché du Data Catalog a beaucoup évolué depuis ses débuts, et ce composant est désormais identifié comme une brique essentielle dans le déploiement d’une stratégie data-centric.

      Victime de son succès, ce marché a attiré un grand nombre d’acteurs opérant sur des marchés adjacents et qui ont revu leur positionnement marketing pour se présenter comme solution de Data Catalog.

      En réalité, faibles sur les promesses du Data Catalog, ils cherchent à convaincre, avec un succès proportionnel à leurs moyens marketing, qu’un Data Catalog n’est pas simplement un outil de recherche ultra-performant destiné aux équipes data, mais une solution intégrée susceptible d’adresser tout un tas d’autres sujets.

      C’est le discours de ces vendeurs de Data Catalog de la dernière heure que l’on souhaite déconstruire dans cette série d’articles.

      Un Data Catalog n’est pas une solution de DQM (Data Quality Management)

       

      Soyons une nouvelle fois clairs: chez Zeenea, nous ne sous-estimons pas l’importance de la qualité des données pour le succès des projets data, bien au contraire. Il est juste absurde de confier ce sujet à une solution qui, par nature, ne sera pas en mesure de réaliser les contrôles au bon moment.

      Il existe une règle élémentaire en matière de contrôle qualité, une règle que l’on peut appliquer virtuellement dans tous les domaines où la qualité est un enjeu, que ce soit une chaîne de production industrielle, une organisation de développement logiciel ou la cuisine d’un grand restaurant: plus un défaut est détecté tôt, moins il est coûteux à corriger.

      On imagine mal un constructeur automobile se contenter d’une batterie de tests une fois le véhicule achevé, quand tout le coût de production a été engagé, quand l’occurrence d’un défaut a le prix le plus élevé. Non. Chaque pièce fait l’objet de contrôles poussés, chaque étape de la production est testée, les pièces défectueuses sont écartées avant même d’être intégrées dans le circuit de production, et la chaîne complète peut être stoppée si des problèmes de qualité sont détectés à l’une quelconque de ses étapes. Quant aux problèmes de qualité à proprement parler, ils sont corrigés le plus en amont possible du processus de production – car c’est aussi en amont que les corrections sont les moins coûteuses et les plus durables.

       

      « Dans une organisation data moderne, la production de données repose sur les mêmes principes. Il s’agit d’une chaîne d’assemblage destinée à alimenter des usages à haute valeur ajoutée. Le contrôle de la qualité doit être fait à chacune des étapes, et les corrections réalisées le plus en amont possible. La nature et le niveau des contrôles sont au demeurant très dépendants des usages (ou, pour être précis, du coût de la non qualité, qui est lui dépendant des usages). »

       

      Si vous traitez de la donnée, vous disposez nécessairement de pipelines destinés à alimenter vos usages. Ces pipelines comprennent potentiellement des dizaines d’étapes – acquisition des données, nettoyage, transformations diverses, combinaison avec d’autres sources, etc. Pour développer ces pipelines, vous utilisez probablement une batterie de technologies, allant de scripts maisons à de coûteux ETL, en passant par d’autres middlewares plus 10 ou moins exotiques.

      C’est dans ces pipelines que vous devez insérer et piloter vos mesures qualité, le plus tôt possible, en les adaptant aux enjeux du produit fini. Mesurer uniquement le niveau de qualité des données finales est non seulement absurde, c’est également fondamentalement inefficace.

      Partant de ce constat, il est difficile de déterminer comment un Data Catalog (dont le rôle est d’inventorier et documenter tous les jeux de données potentiellement exploitables afin d’en faciliter la découverte et la consommation) pourrait se révéler un outil efficace de mesure et de pilotage de la qualité.

      Un Data Catalog travaille sur le stock (les jeux de données disponibles), vise l’exhaustivité (tous les systèmes contenant des données) et devrait être aussi peu intrusif que possible afin de se déployer rapidement dans toute l’organisation.

      Une solution de DQM travaille sur les flux (les pipelines), se focalise sur les données de production (celles effectivement utilisées dans des usages) et est par construction intrusive et longue à déployer. Et je ne vois pas d’architecture logicielle permettant de combiner efficacement les deux problématiques sans dégrader radicalement l’une ou l’autre de ses promesses.

      Les vendeurs de Data Catalogs qui promettent de résoudre au passage vos problèmes de qualité sont à notre sens dans une impasse – il est peu probable qu’ils aillent au-delà d’une démo alléchante. Quant aux vendeurs de DQM (qui vendent également souvent des ETLs), leurs solutions sont trop complexes et coûteuses à déployer pour se transformer en catalogues crédibles.

      La bonne nouvelle, c’est que l’orthogonalité entre les problématiques de catalogage et celles de contrôle qualité permet de faire cohabiter facilement des solutions spécialisées dans chaque domaine, sans chevauchement de responsabilités.

       

      En effet, si un Data Catalog n’a pas vocation à réaliser les contrôles qualité, il peut en revanche exploiter avec beaucoup de bénéfices les informations sur la qualité des jeux de données qu’il contient.

       

      Le Data Catalog exploite cette métadonnée en premier lieu pour diffuser l’information (et les éventuelles alertes qui l’accompagnent) auprès de consommateurs avérés ou potentiels de ces jeux de données; il peut également tirer bénéfice de ces informations pour ajuster son moteur de recherche et de recommandation et orienter les utilisateurs vers les jeux de données les plus qualitatifs.

      Et il suffit de quelques APIs pour intégrer à peu de frais les deux solutions…

       

      Take Away

      La qualité des données s’évalue le plus tôt possible dans les pipelines d’alimentation de vos usages.

      Le rôle d’un Data Catalog n’est pas de réaliser les contrôles qualité, juste de diffuser le plus largement possible le résultat de ces contrôles. Par nature, un Data Catalog est une mauvaise solution de DQM, et les solutions de DQM sont des Data Catalog médiocres ou trop complexes. L’intégration entre une solution de DQM (ou un système ad hoc) et un Data Catalog devrait être très simple, et constitue l’approche la plus pragmatique.

      Téléchargez notre eBook : Les 7 mensonges des fournisseurs de Data Catalog pour en savoir plus !

      Data quality management : les ingrédients pour renforcer la qualité de vos données

      Disposer d’un important volume de données ne sert à rien si celles-ci sont de piètre qualité. L’enjeu du Data Quality Management est une priorité pour les entreprises. Outil d’aide à la décision, au pilotage de l’innovation autant que de la satisfaction des clients, veiller sur la qualité des données exige rigueur et méthode.

      Produire de la donnée pour produire de la donnée, parce que c’est la mode, que vos concurrents le font, que vous lisez dans la presse professionnelle ou sur Internet, que cela se fait, c’était avant.

      Aujourd’hui aucun secteur d’activité ne nie le caractère éminemment stratégique de la donnée. Mais derrière cet engouement généralisé pour la data, le véritable enjeu c’est la qualité de la donnée. Or, si l’on s’en réfère à l’édition 2020 du Gartner Magic Quadrant for Data Quality Solutions, il apparaît que plus d’un quart des données critiques des plus grandes entreprises sont erronées. Une situation qui engendre des coûts directs et indirects. 

      Erreurs stratégiques, mauvaises décisions, frais divers associés à la gestion des données… Le coût moyen d’une mauvaise Data Quality s’établit à 11 millions d’euros par an. Pourquoi ? Tout simplement parce que désormais l’ensemble des stratégies de votre entreprise sont guidées par votre connaissance de vos clients, de vos fournisseurs, de vos partenaires. Si l’on considère que la donnée est omniprésente dans votre activité, la Data Quality devient l’enjeu central. Gartner n’est pas le seul à souligner cette réalité. 

      Ainsi à la fin de l’année 2020, le célèbre cabinet IDC révélait dans une étude que les entreprises sont confrontées à de nombreux défis pour tirer profit de l’exploitation de leurs données. Près de 2 entreprises sur 3 considèrent ainsi l’identification des données pertinentes comme un défi et elles sont 76% à juger perfectible la collecte des données et 72% à penser que leurs processus de transformation des données à des fins d’analyse pourraient être améliorés.

       

      Data Quality Management : Une discipline exigeante

      Comme en cuisine, plus vous vous appuyez sur des ingrédients de qualité, plus la recette sera appréciée de vos convives. Parce que les données sont des éléments qui doivent amener à de meilleures analyses et donc à de meilleures décisions, il est capital de s’assurer que celles-ci soient de bonne qualité. 

      Mais qu’est-ce qu’une donnée de qualité ? 

      Plusieurs critères peuvent entrer en ligne de compte. L’exactitude de la donnée (un numéro de téléphone complet), sa conformité (un numéro se compose de 10 chiffres précédés d’un préfixe national), sa validité (il est toujours utilisé), sa fiabilité (il permet en effet de joindre votre correspondant), etc. 

      Pour un Data Quality Management efficace, il s’agit de s’assurer que l’ensemble des critères que vous aurez défini pour considérer que la donnée est de qualité soient remplis. Mais attention ! Il faudra encore distinguer faire vivre ces données pour s’assurer de leur qualité dans le temps. Cela signifie que lorsqu’une donnée n’a pas été actualisée depuis un moment, elle est peut-être devenue obsolète. Et une donnée obsolète ou une donnée qui n’est ni actualisée, ni partagée, ni exploitée, perd instantanément de sa valeur car elle ne contribue plus efficacement à nourrir vos réflexions, vos stratégies et vos décisions.

      Les “best practices” de la Data Quality

      Pour garantir l’intégrité, la cohérence, l’exactitude, la validité et, en un mot la qualité de vos données, vous devrez agir avec méthode. L’étape essentielle d’un projet Data Quality Management efficace, c’est d’abord d’éviter les doublonsAu-delà d’agir comme un poids mort dans vos bases de données, les doublons faussent les analyses et peuvent entamer la pertinence de vos décisions.

      Si vous optez pour un outil de Data Quality Management, assurez-vous qu’il intègre un module permettant d’automatiser l’exploitation des métadonnées. En centralisant l’ensemble des connaissances dont vous disposez sur vos données au sein d’une interface unique, leur exploitation est facilitée. C’est le deuxième pilier constitutif de votre projet de Data Quality management. 

      La définition précise de vos données, leur nomenclature permet d’engager efficacement le processus d’optimisation de la qualité. Ensuite, vos données étant clairement identifiées, classées, il s’agit pour en évaluer la qualité de les mettre en perspective avec les attentes des différents métiers au sein de l’entreprise. 

      Ce travail de rapprochement entre la nature des données disponibles et leur exploitation par les métiers est un élément déterminant du pilotage de la Data Quality. Mais il faut aussi aller plus loin et s’interroger sur la sensibilité des données. Du caractère sensible ou non de la Data, dépendent vos arbitrages par rapport à l’enjeu de la conformité aux réglementations. 

      Depuis l’entrée en vigueur du RGPD en 2018, les conséquences de choix hasardeux sur le plan de la sécurité des données sont sévères et pas seulement du point de vue financier.

      En effet, les citoyens, vos clients sont désormais très sensibles à la nature, à l’usage et à la protection des données qu’ils partagent avec vous. En pilotant efficacement la Data Quality, vous contribuez également à entretenir la confiance avec vos clients… Une confiance qui n’a pas de prix !