Au cours de la dernière décennie, les catalogues de données ont émergé en tant que piliers dans l’écosystème data. Cependant, de nombreux fournisseurs ne répondent pas aux attentes – avec en cause des délais prolongés, des projets complexes et coûteux, des modèles bureaucratiques de gouvernance des données, des taux d’adoption faibles et une création de valeur limitée. Cette problématique va au-delà des projets de gestion des métadonnées, reflétant un échec plus général au niveau de la gestion des données.
Face à ces lacunes, un nouveau concept a le vent en poupe, celui de place de
marché interne à l’organisation, que nous appelons Enterprise Data Marketplace (EDM) chez Zeenea.
Dans cette série d’articles, vous trouverez des extraits de notre Guide Pratique du Data Mesh dans lequel nous expliquons l’intérêt des data marketplaces internes pour la production et la consommation de data products, comment une EDM prend en charge l’exploitation du data mesh à l’échelle, et comment elles vont de pair avec une solution de catalogue de données :
- Faciliter la consommation des data products avec les métadonnées
- Déployer une marketplace à l’échelle de l’entreprise
- Alimenter la marketplace via des data catalogs par domaine
—
La structuration du data management autour de domaines et de data products est une transformation organisationnelle qui ne change pas la réalité opérationnelle de la plupart des organisations : les données sont disponibles en grande quantité, en provenance de nombreuses sources, évoluent rapidement, et leur maîtrise est complexe.
Les Data Catalogs ont traditionnellement pour fonction d’inventorier l’ensemble des données disponibles, et de gérer un ensemble de métadonnées permettant d’en assurer la maîtrise et d’asseoir les pratiques de gouvernance.
Le data mesh ne supprime pas cette complexité : il permet de distinguer certaines données, gérées sous forme de data products, et qui sont destinées à être partagées et utilisées au-delà du domaine auquel elles appartiennent. Mais chaque domaine est également chargé de gérer ses données internes, celles qui lui serviront à développer des data products – ses données privatives en somme.
Gestion des métadonnées dans le contexte d’une marketplace interne alimentée par des catalogues par domaine
Dans le data mesh, le besoin d’un Data Catalog ne disparaît pas, bien au contraire : chaque domaine devrait disposer d’un catalogue lui permettant de gérer efficacement ses données privatives, de supporter la gouvernance du domaine, et d’accélérer le développement de data products robustes et à forte valeur ajoutée. La gestion des métadonnées se fait donc à deux niveaux :
- Au niveau de chaque domaine – sous la forme d’un catalogue permettant de documenter et d’organiser l’univers de données du domaine. Le Data Catalog étant une brique privative, il n’est pas nécessaire que tous les domaines utilisent la même solution.
- Au niveau du mesh – sous la forme d’une marketplace dans laquelle sont enregistrés les data products partagés par tous les domaines ; la marketplace est par nature commune à tous les domaines.
Avec un composant marketplace dédié, l’architecture générale de la gestion de métadonnées est la suivante :
Dans cette architecture, chaque domaine dispose de son propre catalogue – qui peut s’appuyer sur une solution unique ou non, mais devrait être instancié pour chaque domaine afin de lui permettre d’organiser ses données de la façon la plus efficace pour lui, et éviter les chausse-trappes d’une organisation universelle des métadonnées.
La marketplace est un composant dédié, offrant une ergonomie simplifiée, et dans laquelle chaque domaine déploie les métadonnées (voire les données) de ses data products. Cette approche demande d’intégrer étroitement les différents modules :
- Les catalogues privatifs doivent être intégrés avec la marketplace – afin de ne pas dupliquer les efforts de production de certaines métadonnées – on pense au lignage en particulier, mais aussi au dictionnaire de données (schéma), ou encore aux définitions métier qui seront présents dans les deux systèmes.
- Les catalogues privatifs doivent potentiellement être intégrés entre eux – afin de partager/synchroniser certaines informations, en premier lieu le glossaire métier mais aussi certains référentiels.
Les capacités du catalogue de données vs l’EDM
Quand on se penche sur les capacités respectives d’une Enterprise Data Marketplace et d’un Data Catalog, on se rend compte que ces capacités sont très similaires :
Au final, sur le strict plan fonctionnel, leurs capacités sont très proches. Ce qui va distinguer un Data Catalog moderne d’une EDM sont :
- Leur périmètre – le Data Catalog a pour vocation de couvrir l’ensemble des données, quand la marketplace se limite aux objets partagés par les domaines (data products et autres produits data du domaine).
- Leur expérience utilisateur – le Data Catalog est souvent un outil assez complexe, destiné à supporter globalement les processus de gouvernance – il est centré sur les workflows de data stewardship. La marketplace quant à elle offre typiquement une ergonomie très simple, fortement inspirée de celle d’une plateforme de e-commerce, et propose une expérience centrée sur la consommation – le data shopping.
Le Guide Pratique du Data Mesh: Mettre en place et superviser un data mesh à l’échelle de l’entreprise
Rédigé par Guillaume Bodet, co-fondateur et CPTO chez Zeenea, ce guide vous apportera une approche pratique pour mettre en œuvre un data mesh dans votre organisation, en vous aidant à :
✅ Entamer votre démarche data mesh avec un projet pilote focalisé
✅ Découvrir des méthodes efficaces pour mettre votre mesh à l’échelle,
✅ Comprendre le rôle essentiel joué par une data marketplace interne pour faciliter la consommation des data products
✅ Découvrir pourquoi Zeenea est un système de supervision robuste du data mesh à l’échelle de l’entreprise