Tout comme l’achat de biens en ligne implique de sélectionner des objets, les ajouter à un panier et de choisir les options de livraison et de paiement, le processus d’acquisition de données au sein des organisations a évolué de manière similaire. À l’ère des data products et du data mesh, les data marketplaces internes permettent aux utilisateurs métiers de rechercher, de découvrir et d’accéder aux données pour leurs cas d’usage.
Dans cette série d’articles, vous trouverez un extrait de notre Guide Pratique du Data Mesh et découvrirez tout ce qu’il y a à savoir sur le data shopping ainsi que l’expérience de Zeenea en matière de shopping de données via son Enterprise Data Marketplace :
- La consommation de Data Products
- L’expérience de Data Shopping dans Zeenea
—
Comme mentionné précédemment, toutes les marketplaces classiques proposent une expérience de “checkout” très similaire, et familière pour un grand nombre de personnes. Les produits retenus sont placés dans un panier, puis, au moment de valider son panier l’acheteur se voit présenter différentes options de livraison, puis de paiement. La livraison à proprement parler est généralement effectuée en dehors de la marketplace, qui propose simplement des fonctionnalités de suivi.
La livraison peut être immédiate (pour les produits numériques) ou différée (pour les produits physiques). Certaines marketplaces disposent de leur propre dispositif logistique, mais le plus souvent, la livraison est du ressort du vendeur. Le délai de livraison est un élément important de la satisfaction client – plus il est court, plus les utilisateurs sont satisfaits.
Comment se traduit cette expérience de shopping dans une data marketplace d’entreprise ? Pour répondre à cette question, il faut s’attacher à ce que signifie la livraison des données dans un contexte d’entreprise, et pour cela, se pencher sur le consommateur des données.
Livraison des data products
Un data product propose un ou plusieurs protocoles de consommation – ce sont ses outbound ports. Ces protocoles pourront différer d’un data product à l’autre, en fonction de la nature des données – des données temps réel pourront par exemple proposer un protocole de streaming, quand des données plus statiques se borneront à proposer une interface SQL (et des instructions pour exploiter cette interface depuis plusieurs langages de programmation ou depuis les outils de visualisation maison).
Pour des besoins de consommation interactive, par exemple dans une application, le data product peut également proposer des APIs de consommation, qui à leur tour pourront se conformer à un standard (REST, GraphQL, OData, etc.). Ou encore, simplement télécharger les données dans un format fichier.
Certains consommateurs pourront intégrer le data product dans leurs propres pipelines, pour construire d’autres data products ou des usages de plus haut niveau. D’autres se contenteront de consommer les données une fois, par exemple pour entraîner un modèle de ML. Charge à eux de choisir le protocole le mieux adapté à leur cas d’usage.
Quels que soient les protocoles retenus, ils possèdent tous une caractéristique essentielle : ils sont sécurisés. C’est une des règles universelles de la gouvernance – l’accès aux données doit être contrôlé, et les droits d’accès supervisés.
À de rares exceptions près, l’acte d’achat consiste donc simplement à obtenir un accès aux données via l’un des protocoles de consommation.
Gestion des droits d’accès aux data products
Mais dans le monde de la data, la gestion des accès n’est pas un sujet simple, et pour une raison élémentaire : consommer des données est un acte risqué.
Certains data products peuvent être désensibilisés – en éliminant d’une façon ou d’une autre les données personnelles ou sensibles qui sont porteuses du plus grand risque. Mais cette désensibilisation ne peut être réalisée sur tout le portefeuille de produits : à défaut, l’organisation renonce à exploiter des données pourtant porteuses d’une forte valeur (données financières ou RH sensibles, données commerciales, données de marché, données personnelles des clients, etc.). D’une façon ou d’une autre, le contrôle des accès est donc une activité critique pour le développement et la généralisation du data mesh.
Dans la logique de décentralisation du data mesh, l’évaluation du risque et l’octroi de jetons d’accès devraient être réalisés par le propriétaire du data product, qui en assure la gouvernance et la conformité. Il s’agit à la fois d’approuver la demande d’accès, mais aussi de déterminer les éventuelles transformations à appliquer aux données pour les conformer à un usage particulier. Cette activité porte le nom de policy enforcement.
Évaluer une demande d’accès consiste à en analyser trois dimensions :
- Les données elles-mêmes (certaines sont porteuses de plus de risque que d’autres) – le quoi.
- Le demandeur, sa fonction et sa géographie (l’aspect géographique peut avoir un impact fort, notamment au niveau réglementaire) – le qui.
- L’usage – le pourquoi.
En fonction de cette analyse, les données pourront être consommées telles quelles, ou nécessiter une transformation avant d’être livrées (filtrage des données, particulièrement celles non couvertes par le consentement, anonymisation de certaines colonnes, obfuscation d’autres, etc.). Parfois, d’autres formalités devront être remplies – par exemple, l’adhésion à un contrat de redistribution pour des données acquises auprès d’un tiers, ou le respect des politiques de rétention et de droit à l’oubli, etc.
Sur le plan technique, là aussi, la livraison des données peut prendre différentes formes, selon les technologies et protocoles utilisés pour les exposer.
Pour des données peu sensibles, un simple octroi d’accès en lecture peut être suffisant – il s’agit alors simplement de déclarer un utilisateur additionnel. Pour des données sensibles, il est nécessaire de réaliser un contrôle fin des permissions, au niveau des colonnes et des lignes. Les plateformes data modernes supportent pour la plupart des mécanismes natifs pour appliquer des règles d’accès complexes par simple configuration – généralement à l’aide de tags sur les données, et d’un moteur de policy enforcement. La mise en place des droits d’accès consiste alors à créer la policy adéquate, ou d’intégrer un nouveau consommateur dans une policy existante. Pour des technologies plus anciennes, ne supportant pas un contrôle d’accès suffisamment granulaire, il peut être nécessaire de créer un pipeline spécifique, qui va transformer les données pour les mettre en conformité, les stocker dans un espace dédié, et donner l’accès au consommateur à cet espace.
Il s’agit bien sûr d’une approche longue et potentiellement coûteuse, qui pourra être optimisée en migrant vers une plateforme data supportant un modèle de sécurité plus granulaire, ou en investissant dans une solution de policy enforcement tierce supportant la plateforme déjà en place.
Le Shopping au sein d’une data marketplace interne
Au final, dans une data marketplace, la livraison des données, qui est au coeur de l’expérience du consommateur, se traduit par un workflow plus ou moins complexe, mais dont les grandes étapes sont les suivantes :
- Le consommateur soumet une demande d’accès – en décrivant précisément son usage des données.
- Le propriétaire des données évalue cette demande – dans certains cas, il pourra s’appuyer sur des experts en matière de risque ou de réglementation, voire nécessiter certaines validations additionnelles – et détermine les règles d’accès requises.
- Un ingénieur dans le domaine ou dans l’équipe “Infra & tooling” se charge de mettre en place l’accès – cette opération peut être plus ou moins complexe en fonction des technologies utilisées.
L’acte de shopping consiste donc, pour le consommateur, à déclencher ce workflow depuis la marketplace.
Pour la marketplace Zeenea, nous avons choisi de ne pas intégrer ce workflow directement dans la solution, mais plutôt de s’interfacer avec des solutions externes
Dans notre prochain article, découvrez l’expérience de Data Shopping Zeenea et nos choix technologiques qui nous distinguent des autres éditeurs du marché.
Le Guide Pratique du Data Mesh: Mettre en place et superviser un data mesh à l’échelle de l’entreprise
Rédigé par Guillaume Bodet, co-fondateur et CPTO chez Zeenea, ce guide vous apportera une approche pratique pour mettre en œuvre un data mesh dans votre organisation, en vous aidant à :
✅ Entamer votre démarche data mesh avec un projet pilote focalisé
✅ Découvrir des méthodes efficaces pour mettre votre mesh à l’échelle,
✅ Comprendre le rôle essentiel joué par une data marketplace interne pour faciliter la consommation des data products
✅ Découvrir pourquoi Zeenea est un système de supervision robuste du data mesh à l’échelle de l’entreprise