data-catalog

En 2017, Gartner a déclaré que les data catalogs étaient « le nouveau noir dans la gestion et l’analyse des données ». Aujourd’hui, ils sont devenus une solution incontournable pour les responsables data ! Dans « Augmented Data Catalogs : Now an Enterprise Must-Have for Data and Analytics Leaders« , ils déclarent :

« La demande de data catalog est en pleine expansion, car les organisations continuent à se battre pour trouver, inventorier et analyser des données très diverses et très distribuées. »

Chez Zeenea, nous définissons un data catalog comme étant :

Un inventaire détaillé de tous les actifs de données d’une organisation et de leurs métadonnées, conçu pour aider les professionnels de la donnée à trouver rapidement les informations les plus appropriées pour tout objectif business et analytique.

Pourquoi un data catalog ?

Les sujets data sont encore aujourd’hui la chasse gardée de profils trop techniques. Or, l’innovation par la donnée n’est possible que si celle-ci est partagée au plus grand nombre. Le métier doit avoir l’autonomie d’accéder aux données pour mesurer, démarrer ou encore optimiser un produit ou service. Innover demande une certaine flexibilité et agilité qui est, à ce jour, trop peu présente dans les organisations.

Démocratiser l’accès aux données ! 

C’est la raison même des data catalogs : permettre à l’ensemble de ses collaborateurs de trouver les données dont ils ont besoin via une plateforme simple d’utilisation au-dessus des systèmes data.

Les data catalogs ne nécessitent pas de compétences techniques pour enfin découvrir ce qui est nouveau et saisir des opportunités. Business analysts, data scientists ou encore équipes marketing deviennent autonomes dans l’exploration des données.

Quant aux data stewards, ils sont enfin outillés pour construire une gouvernance data et évangéliser une culture data-centric au sein des organisations.

Les objectifs d’un data catalog ?

Un data catalog permet d’acquérir une vision métier des données entreposées dans les systèmes data. Il centralise et unifie les informations collectées afin qu’elles puissent être partagées auprès des équipes IT et fonctions métier puis connectées aux outils de l’entreprise. Cette vue unifiée des données permet de :

Construire une gouvernance des données de manière agile

Un data catalog connecté vous permet de conserver les données directement extraites du SI de votre entreprise. De cette façon, votre organisation commence à créer un paysage de données compréhensible et fiable via une plate-forme centralisée. Nous croyons en une approche bottom-up où la connaissance globale de vos actifs devrait être le point de départ de votre gouvernance des données, au lieu de déployer des processus trop complexes et trop difficiles à maintenir sur des informations supposées. En plus de cette connaissance permise par un data catalog piloté, l’organisation s’ouvrirait pas à pas, avec une boucle rétroactive, la création de rôles, de processus et d’accès aux données…

> Pourquoi commencer une gouvernance agile des données ? Livre blanc gratuit

zeenea-livre-blanc-FR-V0-min

Démarrer une gestion des métadonnées

Un data catalog permet de créer un répertoire de métadonnées techniques et business. Il permet la synchronisation des métadonnées avec les sources de données et renforce la documentation par vos équipes data (par les data owners, les data managers, les utilisateurs data, etc.), ce qui permet de maintenir au fil du temps un patrimoine de données puissant et fiable au niveau de l’entreprise.

> Lisez notre livre blanc sur la gestion des métadonnées 

le guide du metadata management

Maintenir une culture des données

Un data catalog devient l’outil de référence pour tous les employés. Comme son interface ne nécessite pas d’expertise technique pour découvrir et comprendre les données, la connaissance du patrimoine de données n’est plus limitée à un groupe d’experts. Il permet également à votre organisation de mieux collaborer sur ces actifs et de les travailler de manière simple.  Chez Zeenea, nous considérons qu’un data catalog est une pierre angulaire pour construire une puissante démocratie des données

> Lisez notre livre blanc sur la data democracy

 Accélérer toute data discovery

Avec des milliers de données créées chaque jour, les entreprises se retrouvent avec des informations qu’elles n’arrivent ni à comprendre ni à gérer correctement.  De récentes enquêtes indiquent que les équipes de data science passent encore 80% de leur temps à préparer et nettoyer leurs données plutôt que de les analyser. En déployant un data catalog dans votre organisation, la vitesse à laquelle vos équipes data peuvent découvrir leurs données est multipliée par cinq.  Ainsi, elles peuvent se concentrer sur l’essentiel : livrer leurs projets de données dans les délais.

> Lisez notre livre blanc sur le Data Discovery vu par les Géants du Web

data-discovery-mockup-FR-no-shadow

Les fonctionnalités clés d’un data catalog ?

Registre de métadonnées

Ce référentiel de métadonnées dynamique intervient à tous les niveaux : du jeu de données à la donnée en elle-même. Pour chaque élément, ce registre de métadonnées peut faire figurer une description business et technique, les propriétaires, des indicateurs de qualité ou encore créer une taxonomie (properties, tags, etc.).

metadata-resgistry-data-catalog-1

Moteur de recherche

Toutes les métadonnées renseignées dans le registre sont requêtables depuis le moteur de recherche du data catalog. Les recherches peuvent être triées, filtrées à tous les niveaux.

search-engine-data-catalog-2

Data lineage et registre de traitements

Grâce au data lineage, il est possible de visualiser dans son ensemble l’origine et les transformations d’une donnée spécifique au fil du temps. Cela vous permet de comprendre d’où proviennent les données, quand et où elles se séparent et fusionnent avec d’autres données.

Ces transformations et traitements effectués sur la donnée sont ainsi répertoriés dans ce qu’on appelle un registre de traitements, indispensable pour répondre aux attentes de la réglementation européenne (GDPR).

data-lineage-data-catalog-3

Fonctionnalités collaboratives

Dans une approche user centric, un data catalog est l’outil data de référence d’une entreprise. Il permet de visualiser la donnée comme un asset et de travailler de manière transparente sur celle-ci. Partager, assigner, commenter, qualifier à l’intérieur même de l’outil pour augmenter la productivité et la connaissance auprès de tous les collaborateurs.

dashboard-data-catalog-4

Détection des données sensibles

Les algorithmes de machine learning et d’intelligence artificielle peuvent reconnaître les données sensibles au sein du data catalog et lors de nouveaux imports dans l’outil. Le data catalog est à même de surveiller l’activité de ces données et d’avertir les personnes référentes en cas de problèmes.

Quels sont les cas d’utilisation d’un catalogue de données ? Et pour qui ?

Pour le Chief Data Officer

En savoir plus sur le Chief Data Officer >

Le Chief Data Officer joue un rôle clé dans la stratégie data de l’entreprise ; il recherche, entre autres, à maîtriser son patrimoine de données et à faciliter son accès en vue de devenir data-driven. Un catalogue de données l’aide à :

  • Assurez la fiabilité et la valeur des données de l’entreprise
  • Créer une organisation “data literate” 
  • Valorisez la documentation de votre patrimoine de données
  • Instaurez une data democracy dans l’organisation 
  • Engager un processus de mise en conformité avec le règlement Européen (GDPR).

Pour le Data Steward

En savoir plus sur le Data Steward >

Reconnu comme l’interlocuteur data de référence sur son périmètre, de par ses connaissances techniques et métier, le Data Steward s’est vu attribuer le surnom de “master of data” ! Un data catalog permet aux data stewards de :

  • Centraliser la connaissance des données sur une seule plateforme
  • Enrichir la documentation des données
  • Établir une communication avec leurs data users
  • Qualifier la valeur des données.
  • Démarrer une gestion des métadonnées

> En savoir plus sur Zeenea Studio, l’application parfaite pour vos data managers

Pour le Data Scientist 

Considéré comme le chercheur d’or du 21ème siècle, vos Data Scientists s’aventurent dans le patrimoine (Big) Data d’une entreprise à la recherche de pépites à transformer.

Ce nouveau métier possède des enjeux tant opérationnels que stratégiques. Ses missions sont, entre autre : élaborer des modèles prédictifs, rendre lisible et exploitable la donnée pour la direction, et construire des algorithmes de machine learning. Un data catalog les aide à :

  • Trouver très facilement vos données, peu importe où elles sont stockées.
  • Consulter l’historique des jeux de données : date de création et les actions effectuées dessus.
  • Comprendre le contexte métier des données.
  • Identifier les sachants par jeu de données.
  • Collaborer facilement avec ses pairs.
  • Créer une documentation automatisée de part mes actions au sein du data catalog.
  • Recommandation de données pertinentes par rapport aux autres jeux de données consultés.

En savoir plus sur Zeenea Explorer, parfait pour vos équipes data

Le parcours d’un data catalog

C’est un fait que les data catalogs sont une brique essentielle dans la stratégie de données de toute organisation, et ce pour une raison. Un catalogue de données devient extrêmement pratique dans les différentes phases de vos projets :

Un catalogue de données en phase de déploiement

Se connecter à vos sources de données

Un data catalog se connecte à toutes vos sources de données. Connectez vos solutions d’intégration de données, de data préparation, de data visualisation, de CRM, etc. afin d’intégrer pleinement toutes vos technologies en une seule source de vérité. 

> Voir nos connecteurs

Un catalogue de données en phase de documentation

Créer un méta-modèle

Un data catalogs saisit et met à jour les métadonnées techniques et opérationnelles des sources de données d’une entreprise.  Il permet d’ajouter et de configurer – de la main de l’administrateur – ou de superposer des informations (obligatoires ou non) sur les ensembles de données catalogués. Ces informations supplémentaires, sont appelés des propriétés ! Ces informations contextuelles se réfèrent principalement à la documentation commerciale et opérationnelle.

> Construisez votre template de métamodèle

Un catalogue de données en phase de découverte

Comprendre vos données

Avec un data catalog, vos utilisateurs – avec ou sans capacités techniques – sont en mesure de comprendre pleinement leurs données d’entreprise. Un data catalog permet aux utilisateurs d’avoir accès et de rechercher facilement toute information dans le catalogue. 

Définissez vos données

Un data catalog permet aux responsables des données, tels que les DPO ou les CDO, de définir correctement les données pertinentes à utiliser. Grâce aux métadonnées, les data managers peuvent facilement documenter leurs jeux de données, ce qui permet à leurs équipes d’accéder à des données contextualisées. 

Explorez vos données

Découvrez et collectez les données disponibles dans un data catalog. En cataloguant toutes les données d’entreprise dans un référentiel central, les utilisateurs data peuvent s’assurer que leurs données sont fiables et utilisables.

Un catalogue de données dans la phase de collaboration

Communiquer avec les données

Un data catalog permet aux utilisateurs de maîtriser les données. Les départements informatique et business sont capables de comprendre et de communiquer autour de différents projets de données entre eux. Grâce à des fonctionnalités de collaboration telles que les discussions, les données deviennent un sujet que tout le monde peut partager dans l’entreprise.

Les points clés d’un Data Catalog

Maintenant que nous savons tout sur les data catalogs, revenons sur les trois principaux points à retenir sur les catalogue de données ainsi que les bénéfices pour votre entreprise :

Maximiser la valeur des données

 En rassemblant l’ensemble des données d’une entreprise sur un outil data de référence, il devient possible de croiser ces assets et en tirer de la valeur plus facilement. La collaboration des équipes techniques et métier à l’intérieur même du data catalog permet des innovations répondant à des besoins marché avérés.

Produire mieux et vite

Vos équipes le confirmeront : plus de 70% du temps consacré à l’analyse des données est engagé dans des activités de “querelles de données”. Le catalogage simplifie la recherche des données, l’identification des sachants et donc, la prise de décisions intelligentes.

Assurer le bon contrôle des données

Mal interprétées ou erronées, les entreprises s’exposent à fonder leurs décisions sur de mauvaises informations. Les data catalogs connectés permettent d’accéder à des données toujours à jour. Les utilisateurs des données peuvent s’assurer que les données et leurs informations sont correctes et utilisables