Un Data Catalog n’est pas une solution de Data Gouvernance
C’est sans doute l’aspect le plus controversé de nos propos, et l’origine de cette controverse tient probablement aux puissants messages marketing du leader mondial de la gestion de métadonnées, dont la solution est en réalité une plateforme de gouvernance, et qui cherche à se vendre comme catalogue de données.
Soyons très clair: une bonne gouvernance des données est l’un des piliers d’une stratégie data performante. Mais la gouvernance n’a que peu à voir avec l’outillage, il s’agit avant tout de définir des rôles et des responsabilités, des politiques, des procédures, des contrôles, des comités… bref de déployer et de mettre en musique une organisation complète visant à assurer, puis améliorer continuellement, la maîtrise interne des données dans toutes ses dimensions.
Admettons simplement que la gouvernance des données possède de nombreux aspects (architectures de traitement et de stockage, classification, rétention, qualité, risques, conformité, innovation, etc.) et qu’il n’existe pas un modèle universel clé en main adapté à toutes les organisations. Au même titre que d’autres domaines de gouvernance, chaque organisation doit concevoir et piloter son dispositif en s’appuyant sur un état de l’art, sur ses capacités et ambitions, et sur une analyse rigoureuse des risques qui lui sont propres.
La mise en place effective d’une gouvernance des données n’est pas un projet, mais un programme de transformation.
Aucune “solution” commerciale ne viendra se substituer à cet effort de transformation.
Quid du catalogue de données dans tout cela?
La recherche d’un Data Catalog naît généralement d’une expression de besoin très opérationnel: une fois mis en place un Da ta Lake et quelques outils de self-service, la question se pose rapidement de savoir ce que contient le Da ta Lake (sur le plan technique et sémantique), d’où proviennent les données, quelles transformations elles subissent, qui en a la charge, quelles sont les politiques internes qui s’appliquent à elles, qui les utilise déjà et pour quoi faire, etc.
L’incapacité à fournir rapidement ces informations aux utilisateurs finaux est source de risques importants pour l’organisation, et un Data Catalog est la meilleure solution pour mitiger ces risques. Mais s’agissant d’une solution transverse, impliquant un grand nombre de personnes appartenant à des départements différents, le choix de la solution est très souvent confié aux équipes précisément chargées de la gouvernance, et qui semblent le plus à même de coordonner les attentes d’un grand nombre de parties prenantes.
C’est alors que l’alchimie opère. Le Data Catalog, qui visait initialement à équiper rapidement les équipes data d’une solution pour découvrir, explorer, comprendre et savoir exploiter les données à leur disposition, devient un projet mammouth dans lequel devront être réglés tous les aspects de la gouvernance.
Il devra :
- Gérer la qualité des données,
- Gérer les données personnelles et la conformité réglementaire (GDPR en premier lieu),
- Gérer la confidentialité, la sécurité et l’accès aux données,
- Autoriser le requêtage croisé sur les sources de données, en respectant les habilitations des utilisateurs sur ces sources, et tant qu’à faire, en anonymisant à la volée les résultats,
- Proposer une gestion des données maître (MDM),
- Assurer le lignage champ à champ automatique pour tous les jeux de données,
- Supporter l’ensemble des rôles définis dans le système de gouvernance, et permettre la configuration des workflows correspondant,
- Intégrer tous les modèles métier produits depuis 10 ans dans le cadre du programme d’urbanisation, que l’on a déterré pour l’occasion,
- Etc.
Certains vendeurs parviennent à convaincre leurs clients que leur solution peut être ce monstrueux guichet unique de la gouvernance des données. Si vous y croyez, vous pouvez les contacter, ils se feront un plaisir de vous satisfaire. Mais pour être honnête nous, Zeenea, ne croyons absolument pas qu’une telle plateforme soit possible, ni même souhaitable. Trop complexe, trop rigide, trop coûteuse, trop bureaucratique, elle ne sera jamais adaptée à une organisation data centric.
Selon nous, le Data Catalog a un rôle clé à jouer dans un programme de gouvernance. Ce rôle ne consiste pas à suppor ter tous les aspects de la gouvernance, mais à faciliter la communication et l’acculturation de l’organisation aux règles de gouvernance, et à aider chacune des par ties prenantes à devenir un acteur de cette gouvernance.
Nous pensons également que dans une organisation data-centric, s’appuyant sur un data lake et un pipeline de données moderne, le Data Catalog est l’une des briques possédant le plus fort retour sur investissement, pour peu qu’il ait un coût raisonnable et puisse êtr e déployé très rapidement.
Take Away
Un Data Catalog n’est pas une plateforme de gestion de la gouvernance des données.
La gouvernance des données est essentiellement un programme de transformation aux multiples dimensions; aucune solution ne peut efficacement adresser toutes les problématiques. Dans un organisation data-centric, la combinaison de règles de gouvernance claires et d’un Data Catalog moderne pour les communiquer aux utilisateurs finaux est le meilleur moyen de démarrer, d’apprendre, d’éduquer et de rester agile.