Si la littérature sur le data mesh est très fournie, elle décrit souvent un état final, rarement comment y parvenir en pratique. La question se pose alors :
Quelle démarche adopter pour transformer le data management et mettre en place un data mesh ?
Dans cette série d’articles, vous trouverez des extraits de notre Guide Pratique du Data Mesh dans lequel nous proposons une démarche itérative de mise en place d’un data mesh au sein de votre organisation. Cette démarche s’articule autour de ses quatre principes clés (domain-oriented decentralized data ownership and architecture, data as a product, self-serve data infrastructure as a platform, and federated computational governance) et s’appuie sur les ressources humaines et technologiques existantes.
- Partie 1: Définir le périmètre de votre projet pilote
- Partie 2: Constituer l’équipe de développement et la plateforme data du projet pilote
- Partie 3: Produire vos premiers Data Products
- Partie 4: Passer à un modèle de gouvernance fédérée
Tout au long de cette série d’articles, et dans le but d’illustrer cette démarche itérative pour la mise en place d’un data mesh, nous nous appuierons sur un exemple : celui de l’entreprise fictive Premium Offices – il s’agit d’une société d’immobilier commercial dont l’activité consiste à acquérir des biens pour les louer à des entreprises
–
Dans l’article précédent, nous avons abordé les conditions préalables à la définition du périmètre de votre projet pilote de décentralisation de la gestion des données, en identifiant les domaines et en sélectionnant un premier cas d’usage. Dans cet article, nous expliquons comment assembler son équipe de développement et sa plateforme data.
La constitution d’une équipe de développement du pilote
Pour rappel, la première étape de notre démarche consiste à identifier un premier use case, mais surtout de le développer en mettant en place les 4 principes du data mesh avec les ressources existantes. La constitution de l’équipe chargée de développer le pilote qui va permettre de mettre en place le premier principe du data mesh, domain-oriented decentralized data ownership.
EXEMPLE PREMIUM OFFICES
Les données nécessaires au pilote appartiennent au domaine Brokerage, où va donc être créée l’équipe chargée de développer le pilote. Cette équipe est pluridisciplinaire et comporte :
- Un Data Product Owner
- Qui devra avoir à la fois une bonne connaissance du métier et une bonne culture data pour assumer les responsabilités suivantes : concevoir des data products et gérer leur cycle de vie, définir faire respecter leurs politiques d’usage, garantir leur conformité aux standards internes et aux réglementations auxquels ils sont soumis, mesurer et superviser la performance économique et la conformité de son portefeuille de produits. La composition de cette équipe de développement diffère bien sûr en fonction des contextes, mais elle devrait respecter deux exigences : comporter un Data Product Owner, et Intégrer toutes les compétences nécessaires pour développer et gérer ses produits.
- Deux ingénieurs
- L’un provenant des équipes du domaine Brokerage - qui apporte la connaissance des systèmes opérationnels et des pratiques d’ingénierie logicielle du domaine, et l’autre provenant de l’équipe data - qui connaît DBT, GCP et BigQuery.
- Un développeur Tableau
- Qui pourra concevoir et construire le tableau de bord.
Outillage des domaines : la plateforme data du data mesh
L’un des principaux freins à la décentralisation, c’est le risque de démultiplier les efforts et les compétences nécessaires pour opérer les pipelines et les infrastructures dans chaque domaine. Mais sur cet aspect, il existe là aussi un état de l’art solide hérité des architectures distribuées.
La solution consiste à structurer une équipe chargée de fournir aux domaines les primitives technologiques et les outils nécessaires pour extraire, traiter, stocker et servir les données de leur domaine.
Ce modèle existe depuis plusieurs années pour les infrastructures applicatives, et s’est progressivement généralisé et automatisé via la virtualisation, la conteneurisation, les outils devops, et les plateformes cloud. Même si l’outillage autour des infrastructures data n’est pas aussi mature que celui des infrastructures logicielles, notamment en matière d’automatisation, la plupart des solutions sont transposables et les capacités sont déjà présentes dans les organisations – c’est le produit des investissements passés. Rien n’interdit donc de mettre en place une équipe infrastructure data, de fixer sa feuille de route et de la laisser améliorer progressivement son offre de service : simplification et automatisation étant les axes principaux de cette progression.
Les trois plans de la plateforme data mesh
La plateforme data du data mesh couvre un large éventail de capacités, plus large que les services d’infrastructure. Cette plateforme se décompose en trois plans :
1. Le plan infrastructure (Data infrastructure provisioning plane) – qui fournit les services bas niveau pour allouer les ressources physiques nécessaires à l’extraction, au traitement, au stockage big data, à la distribution temps réel ou non, au cryptage, au caching, au contrôle d’accès, au réseau, à la co-localité, etc.
2. Le plan développement (Data product developer experience plane) – qui fournit les outils nécessaires pour développer des data products : déclaration des data products, build et déploiement continus, test, contrôles qualité, monitoring, sécurisation, etc. L’idée est de fournir des abstractions au-dessus de l’infrastructure pour en masquer la complexité et automatiser les conventions adoptées à l’échelle du mesh.
3. Le plan supervision (Data mesh supervision plane) – qui fournit un ensemble de capacités globales pour la découverte des data products, le lineage, la gouvernance, la conformité, le reporting global, le contrôle des policies, etc.
Certaines entreprises ont déjà investi dans un plateforme commune, et il semble logique d’exploiter les capacités de cette plateforme pour développer le mesh. Mais d’autres disposent de plusieurs plateformes, certaines entités, ou certains domaines ayant leur propre infrastructure. Il est tout à fait possible de déployer le data mesh sur ces infrastructures hybrides : dès lors que les data products respectent les normes communes en matière d’adressabilité, d’interopérabilité et de contrôle d’accès, les modalités techniques de leur exécution importent peu.
EXEMPLE PREMIUM OFFICES
Pour le projet pilote, Premium Offices a choisi de construire un tableau de bord du risque de crédit de ses locataires, afin de mieux anticiper et prévenir les éventuels défauts. Ce tableau de bord doit croiser les données sur les locataires, présentes dans son progiciel, et des données de crédit, acquises auprès d’un fournisseur spécialisé. Ces données sont déjà utilisées au niveau opérationnel, dans le processus d’évaluation d’un nouveau locataire.
En conclusion, la mise en place d’une équipe de développement dédiée est essentielle à la réussite de votre projet pilote de décentralisation de data mesh. En réunissant des personnes aux compétences et à l’expertise diverses, les organisations peuvent mettre en œuvre efficacement les principes du data mesh et obtenir des informations utiles à partir de leurs données. En outre, l’exploitation des plateformes existantes et l’investissement dans l’automatisation rationalisent le processus de développement, ouvrant la voie à l’évolutivité et au succès à long terme.
Dans le prochain article, découvrez comment exécuter votre projet pilote par la conception et le développement de vos premiers data products.
Le Guide Pratique du Data Mesh: Mettre en place et superviser un data mesh à l’échelle de l’entreprise
Rédigé par Guillaume Bodet, co-fondateur et CPTO chez Zeenea, ce guide vous apportera une approche pratique pour mettre en œuvre un data mesh dans votre organisation, en vous aidant à :
✅ Entamer votre démarche data mesh avec un projet pilote focalisé
✅ Découvrir des méthodes efficaces pour mettre votre mesh à l’échelle,
✅ Comprendre le rôle essentiel joué par une data marketplace interne pour faciliter la consommation des data products
✅ Découvrir pourquoi Zeenea est un système de supervision robuste du data mesh à l’échelle de l’entreprise