Il est évident que les entreprises qui souhaitent tirer un maximum de profit des quantités pléthoriques d’informations qu’elles génèrent doivent s’équiper d’outils performants pour leur gestion et leur valorisation. En effet, de grands volumes de données impliquent de grandes responsabilités ! Ces organisations doivent notamment mettre en place des solutions pour permettre aux équipes data (mais pas que) de trouver, gérer et faire confiance à leur patrimoine de données.
Une de ces solutions se nomme le data catalog ! Créé pour unifier toutes les données d’une entreprise, un catalogue de données permet aux gestionnaires et utilisateurs data d’améliorer leur productivité et leur efficacité.
En 2017, Gartner déclarait déjà que les data catalogs étaient « le nouvel or noir pour la gestion et l’analyse des données ». Dans Augmented Data Catalogs : Now an Enterprise Must-Have for Data and Analytics Leaders, on pouvait lire :
« La demande pour le data catalog est en pleine expansion, car les organisations continuent de rencontrer des difficultés pour trouver, inventorier et analyser des données très diverses et très distribuées. »
Dans cet article, nous allons présenter tout ce qu’il faut savoir au sujet des data catalogs – l’outil indispensable des entreprises qui cherchent à devenir data-driven.
Qu’est-ce qu’un data catalog ?
Avant d’aborder le sujet du catalogue des données, il est important de comprendre le concept de gestion des métadonnées. Un catalogue de données exploite avant tout les métadonnées – les données sur les données – pour créer un référentiel de tous les actifs informationnels de l’entreprise. Ces métadonnées collectées via diverses sources (Big Data, services Cloud, feuilles Excel, etc.) sont automatiquement scannées pour permettre aux utilisateurs du catalogue de rechercher et d’obtenir des informations telles que la disponibilité, la fraîcheur ou encore la qualité d’un actif de données.
Chez Zeenea, nous définissons un data catalog comme suit :
“Un data catalog est un inventaire détaillé de tous les actifs informationnels disponibles dans une organisation ainsi que des métadonnées permettant d’exploiter ces actifs.”
Quel est l’objectif d’un data catalog ?
Les sujets autour de la donnée sont souvent considérés comme extrêmement techniques. Pourtant, l’innovation data n’est possible que si elle est partagée par le plus grand nombre dans l’organisation. C’est l’objectif même d’un catalogue de données : démocratiser l’accès aux données.
Un data catalog est destiné à servir différents utilisateurs finaux – data analysts, data stewards, data scientists, business analysts et bien d’autres – qui ont des attentes, des besoins, des profils et des façons de comprendre les données différents. Un data catalog doit alors s’adapter à tous : il ne doit pas nécessiter d’expertise technique pour découvrir, rechercher, et comprendre le patrimoine de données de l’entreprise.
Quels sont les avantages d’un data catalog ?
Comme mentionné précédemment, un catalogue de données centralise et unifie les métadonnées collectées afin qu’elles puissent être partagées avec les équipes IT et les fonctions métier au sein de l’organisation. Cette vue unifiée des données apporte de nombreux avantages, et permet de :
Accélérer la découverte des données
Avec des milliers de données créées chaque jour, les entreprises se retrouvent avec des informations qu’elles n’arrivent ni à comprendre ni à gérer correctement. De récentes études indiquent que les équipes data science passent encore 80% de leur temps à préparer et nettoyer leurs données plutôt que de les analyser. En déployant un data catalog dans votre organisation, la vitesse à laquelle vos équipes data peuvent découvrir leurs données est multipliée par cinq. Ainsi, vos équipes peuvent se concentrer sur l’essentiel : livrer leurs projets data dans les meilleurs délais.
Maintenir une culture des données
Tout comme la culture organisationnelle ou d’entreprise, la culture data fait référence à un environnement de travail où les décisions sont prises sur la base de preuves empiriques et emphatiques. Un data catalog permet de ne plus limiter la connaissance des données à un groupe d’experts, et ainsi de mieux collaborer sur leurs actifs informationnels.
Construire une gouvernance des données agile
Au lieu de déployer des processus complexes et difficiles à maintenir sur des informations supposées, les data catalogs permettent une gouvernance des données avec une approche bottom-up et agile. Un catalogue de données permet aux utilisateurs data de créer un registre de processus, de documenter les obligations légales, de suivre le cycle de vie des données, ainsi que d’identifier les informations sensibles. Tout cela dans un référentiel unique.
Maximiser la valeur des données
En rassemblant l’ensemble des données d’une entreprise sur une plateforme data de référence, il devient possible de croiser ces assets et d’en tirer de la valeur plus facilement. La collaboration des équipes techniques et métiers à l’intérieur même du data catalog permet des innovations répondant à des besoins marché avérés.
Produire mieux, plus vite
Plus de 70% du temps consacré à l’analyse des données est engagé dans des activités de “conflit de données”. Le catalogue simplifie la recherche des données, l’identification des sachants et donc, la prise de décisions intelligentes.
Assurer un bon niveau de contrôle des données
Avec des données mal interprétées ou erronées, les entreprises s’exposent à fonder leurs décisions sur de mauvaises informations. Les data catalogs permettent d’accéder à des données toujours à jour, et les utilisateurs de ces datas ont l’assurance d’exploiter des informations fiables et exploitables.
Quelles sont les fonctionnalités essentielles d’un data catalog ?
Le métamodèle
Un data catalog doit automatiquement capturer et mettre à jour les métadonnées des sources de données d’une entreprise. Grâce à un métamodèle flexible, les administrateurs du catalogue doivent être en mesure d’ajouter, de configurer et de superposer des propriétés pour documenter les ensembles de données cataloguées. Grâce à cette approche, le catalogue offre un moyen simple et modulaire de configurer les modèles de documentation en fonction des objectifs et des priorités de l’entreprise.
Le moteur de recherche
L’une des principales caractéristiques d’un data catalog est son moteur de recherche. Toutes les métadonnées indexées doivent être consultables via un champ de recherche. Grâce à l’utilisation de mots clés, un catalogue de données doit être capable d’afficher les résultats les plus précis en réponse à une requête. Il doit également permettre aux utilisateurs de filtrer les résultats de leur recherche, tout en les optimisant en fonction de leur profil et préférences.
Le graphe de connaissances
La présence d’un graphe de connaissances est essentielle à tout projet de catalogue de données. Le graphe de connaissances (ou knowledge graph en anglais) est ce qui permet la représentation des différents concepts et des liens entre les objets (sémantiques ou statiques). Le graphe de connaissances d’un catalogue de données fournit aux utilisateurs des résultats de recherche riches et approfondis, une exploration des données optimisée, des recommandations intelligentes, etc.
Le Data Lineage
Avec le data lineage, il est possible de visualiser dans son ensemble l’origine et les transformations d’une donnée au fil du temps. Cela permet de comprendre d’où viennent les datas, quand et où elles se séparent et fusionnent avec d’autres. Ces transformations et traitements effectués par les données sont indispensables pour se conformer au RGPD et aux autres réglementations data.
Le glossaire métier
Un glossaire métier permet aux consommateurs de données de gérer un vocabulaire métier commun et de le rendre accessible à l’ensemble de l’organisation. Cette fonctionnalité indispensable donne une signification et un contexte clairs aux termes associés aux données.Quels sont les cas d’usage d’un catalogue de données ?
Pour le Chief Data Officer
Le Chief Data Officer joue un rôle clé dans la stratégie data de l’entreprise. Il recherche, entre autres, à maîtriser le patrimoine de données et à faciliter son accès en vue de devenir data-driven. Un catalogue de données l’aide à :
- Assurer la fiabilité et la valeur des données de l’entreprise
- Créer une organisation data literate
- Valoriser la documentation du patrimoine de données
- Instaurer une data democracy
- Engager un processus de mise en conformité
Pour le Data Steward
Reconnu comme l’interlocuteur data de référence sur son périmètre, de par ses connaissances techniques et métier, le Data Steward s’est vu attribuer le surnom de “master of data” ! Un data catalog lui permet de :
- Centraliser la connaissance des données sur une seule plateforme
- Enrichir la documentation
- Établir une communication avec les utilisateurs data
- Qualifier la valeur des données
- Démarrer une gestion des métadonnées
Pour le Data Scientist
Pour mener à bien leurs missions, les utilisateurs finaux tels que des data scientists, doivent être en mesure de trouver et comprendre rapidement les données pour leurs cas d’usage spécifiques. Un data catalog les aide à :
- Trouver très facilement les données, peu importe où elles sont stockées
- Consulter l’historique des jeux de données et leur lineage
- Comprendre le contexte métier des données
- Identifier les sachants pour chaque dataset
- Collaborer facilement avec les pairs.
Le cycle d’exploitation d’un data catalog
Un catalogue de données est extrêmement pratique dans les différentes phases de vos projets :
Un catalogue de données en phase de déploiement
Connexion aux sources de données – Un data catalog se connecte à toutes vos sources de données. Connectez vos solutions d’intégration de données, de préparation, de visualisation, de CRM, etc.
Un catalogue de données en phase de documentation
Création du méta-modèle – Un data catalog saisit et met à jour les métadonnées techniques et opérationnelles des sources de données de l’entreprise. Il permet d’ajouter, de configurer ou de superposer des informations (obligatoires ou non) sur les ensembles de données catalogués.
Un catalogue de données en phase de découverte
Compréhension des données – Avec un data catalog, les utilisateurs – avec ou sans connaissances techniques – sont en mesure de comprendre pleinement les données d’entreprise.
Définition des données – Un data catalog permet aux responsables data – tels que les DPO ou les CDO – de définir correctement les données pertinentes à utiliser. Grâce aux métadonnées, les data managers peuvent facilement documenter leurs jeux de données, ce qui permet à leurs équipes d’accéder à des datas contextualisées.
Exploration des données – Découvrez et collectez les données disponibles dans un data catalog. En cataloguant toutes les données d’entreprise dans un référentiel unique, les utilisateurs data peuvent s’assurer que leurs données sont fiables et exploitables.
Un catalogue de données dans la phase de collaboration
Communication via les données – Un data catalog permet aux utilisateurs de maîtriser les données. Les départements IT et métiers sont capables de comprendre et de communiquer autour de différents projets data entre eux. Grâce à des fonctionnalités de collaboration telles que les discussions, les données deviennent un sujet que tout le monde peut partager dans l’entreprise.
Commencez l’aventure avec Zeenea Data Catalog
Zeenea est une solution 100 % basée sur le cloud, disponible partout dans le monde en quelques clics. En choisissant Zeenea, vous offrez à vos équipes data le meilleur environnement pour trouver, comprendre et utiliser vos actifs de données.
Découvrez nos deux applications :
Zeenea Studio – l’application destinée à vos équipes de data management pour gérer, maintenir et enrichir la documentation d’un patrimoine de données.
Zeenea Explorer – qui fournit aux utilisateurs une interface user-friendly et des parcours d’exploration personnalisés pour gagner en efficacité.
Pour une démonstration de notre produit ou pour obtenir plus d’informations sur notre catalogue de données :