a data catalog is not a governance solution

Les 7 mensonges des fournisseurs de Data Catalog – n°1- Un Data Catalog n’est pas une solution de Data Gouvernance

juin 16, 2021

Le marché du Data Catalog a beaucoup évolué depuis ses débuts, et ce composant est désormais identifié comme une brique essentielle dans le déploiement d’une stratégie data-centric.

Victime de son succès, ce marché a attiré un grand nombre d’acteurs opérant sur des marchés adjacents et qui ont revu leur positionnement marketing pour se présenter comme solution de Data Catalog.

En réalité, faibles sur les promesses du Data Catalog, ils cherchent à convaincre, avec un succès proportionnel à leurs moyens marketing, qu’un Data Catalog n’est pas simplement un outil de recherche ultra-performant destiné aux équipes data, mais une solution intégrée susceptible d’adresser tout un tas d’autres sujets.

C’est le discours de ces vendeurs de Data Catalog de la dernière heure que l’on souhaite déconstruire dans cette série d’articles.

Un Data Catalog n’est pas une solution de Data Gouvernance

 

C’est sans doute l’aspect le plus controversé de nos propos, et l’origine de cette controverse tient probablement aux puissants messages marketing du leader mondial de la gestion de métadonnées, dont la solution est en réalité une plateforme de gouvernance, et qui cherche à se vendre comme catalogue de données.

Soyons très clair: une bonne gouvernance des données est l’un des piliers d’une stratégie data performante. Mais la gouvernance n’a que peu à voir avec l’outillage, il s’agit avant tout de définir des rôles et des responsabilités, des politiques, des procédures, des contrôles, des comités… bref de déployer et de mettre en musique une organisation complète visant à assurer, puis améliorer continuellement, la maîtrise interne des données dans toutes ses dimensions.

Admettons simplement que la gouvernance des données possède de nombreux aspects (architectures de traitement et de stockage, classification, rétention, qualité, risques, conformité, innovation, etc.) et qu’il n’existe pas un modèle universel clé en main adapté à toutes les organisations. Au même titre que d’autres domaines de gouvernance, chaque organisation doit concevoir et piloter son dispositif en s’appuyant sur un état de l’art, sur ses capacités et ambitions, et sur une analyse rigoureuse des risques qui lui sont propres.

La mise en place effective d’une gouvernance des données n’est pas un projet, mais un programme de transformation.

Aucune “solution” commerciale ne viendra se substituer à cet effort de transformation.

Quid du catalogue de données dans tout cela?

La recherche d’un Data Catalog naît généralement d’une expression de besoin très opérationnel: une fois mis en place un Da ta Lake et quelques outils de self-service, la question se pose rapidement de savoir ce que contient le Da ta Lake (sur le plan technique et sémantique), d’où proviennent les données, quelles transformations elles subissent, qui en a la charge, quelles sont les politiques internes qui s’appliquent à elles, qui les utilise déjà et pour quoi faire, etc.

 

L’incapacité à fournir rapidement ces informations aux utilisateurs finaux est source de risques importants pour l’organisation, et un Data Catalog est la meilleure solution pour mitiger ces risques. Mais s’agissant d’une solution transverse, impliquant un grand nombre de personnes appartenant à des départements différents, le choix de la solution est très souvent confié aux équipes précisément chargées de la gouvernance, et qui semblent le plus à même de coordonner les attentes d’un grand nombre de parties prenantes.

 

C’est alors que l’alchimie opère. Le Data Catalog, qui visait initialement à équiper rapidement les équipes data d’une solution pour découvrir, explorer, comprendre et savoir exploiter les données à leur disposition, devient un projet mammouth dans lequel devront être réglés tous les aspects de la gouvernance.

Il devra :

  • Gérer la qualité des données,
  • Gérer les données personnelles et la conformité réglementaire (GDPR en premier lieu),
  • Gérer la confidentialité, la sécurité et l’accès aux données,
  • Autoriser le requêtage croisé sur les sources de données, en respectant les habilitations des utilisateurs sur ces sources, et tant qu’à faire, en anonymisant à la volée les résultats,
  • Proposer une gestion des données maître (MDM),
  • Assurer le lignage champ à champ automatique pour tous les jeux de données,
  • Supporter l’ensemble des rôles définis dans le système de gouvernance, et permettre la configuration des workflows correspondant,
  • Intégrer tous les modèles métier produits depuis 10 ans dans le cadre du programme d’urbanisation, que l’on a déterré pour l’occasion,
  • Etc.

 

Certains vendeurs parviennent à convaincre leurs clients que leur solution peut être ce monstrueux guichet unique de la gouvernance des données. Si vous y croyez, vous pouvez les contacter, ils se feront un plaisir de vous satisfaire. Mais pour être honnête nous, Zeenea, ne croyons absolument pas qu’une telle plateforme soit possible, ni même souhaitable. Trop complexe, trop rigide, trop coûteuse, trop bureaucratique, elle ne sera jamais adaptée à une organisation data centric.

 

Selon nous, le Data Catalog a un rôle clé à jouer dans un programme de gouvernance. Ce rôle ne consiste pas à suppor ter tous les aspects de la gouvernance, mais à faciliter la communication et l’acculturation de l’organisation aux règles de gouvernance, et à aider chacune des par ties prenantes à devenir un acteur de cette gouvernance.

 

Nous pensons également que dans une organisation data-centric, s’appuyant sur un data lake et un pipeline de données moderne, le Data Catalog est l’une des briques possédant le plus fort retour sur investissement, pour peu qu’il ait un coût raisonnable et puisse êtr e déployé très rapidement.

 

Take Away

 

Un Data Catalog n’est pas une plateforme de gestion de la gouvernance des données.

La gouvernance des données est essentiellement un programme de transformation aux multiples dimensions; aucune solution ne peut efficacement adresser toutes les problématiques. Dans un organisation data-centric, la combinaison de règles de gouvernance claires et d’un Data Catalog moderne pour les communiquer aux utilisateurs finaux est le meilleur moyen de démarrer, d’apprendre, d’éduquer et de rester agile.

Téléchargez notre eBook : Les 7 mensonges des fournisseurs de Data Catalog pour en savoir plus !

zeenea logo

At Zeenea, we work hard to create a data fluent world by providing our customers with the tools and services that allow enterprises to be data driven.

zeenea logo

Chez Zeenea, notre objectif est de créer un monde “data fluent” en proposant à nos clients une plateforme et des services permettant aux entreprises de devenir data-driven.

Be(come) Data Fluent

Read the latest trends on big data, data cataloging, data governance and more on Zeenea’s data blog.

Join our community by signing up to our newsletter!

Devenez Data Fluent

Découvrez les dernières tendances en matière de big data, data management, de gouvernance des données et plus encore sur le blog de Zeenea.

Rejoignez notre communauté en vous inscrivant à notre newsletter !

LET’S GET STARTED

Make data meaningful & discoverable for your teams

Démarrer MAINTeNaNT

Donnez du sens à votre patrimoine de données