Le rôle des data catalogs dans l’accélération des initiatives d’IA

Le rôle des data catalogs dans l’accélération des initiatives d’IA

Les organisations s’appuient de plus en plus sur l’IA pour dégager des tendances, stimuler l’innovation et maintenir un avantage concurrentiel. En effet, les technologies de l’IA, y compris le machine learning, le traitement du langage naturel et l’analyse prédictive, transforment les opérations des entreprises, leur permettant de prendre des décisions plus intelligentes, d’automatiser les processus et de découvrir de nouvelles opportunités. Cependant, le succès des initiatives d’IA dépend de manière significative de la qualité, de l’accessibilité et de la gestion efficace des données.

C’est ici que la mise en place d’un data catalog joue un rôle crucial.

En facilitant la gouvernance des données, leur découverte et leur accessibilité, les catalogues de données permettent aux organisations de tirer pleinement parti de leurs projets d’IA, en s’assurant que les modèles d’IA sont construits sur une base solide de données précises et bien organisées.

Tout d’abord : qu’est-ce qu’un data catalog ?

 

Un data catalog est un référentiel centralisé qui stocke les metadonnées—des données sur les données—permettant aux organisations de gérer plus efficacement leurs actifs data. Ces metadata collectées par diverses sources de données sont automatiquement scannées pour permettre aux utilisateurs du catalogue de rechercher leurs données et d’obtenir des informations telles que leur disponibilité, leur fraîcheur et leur qualité.
Par conséquent, un data catalog est devenu un outil essentiel pour une gestion des métadonnées efficace et la découverte des données. Chez Zeenea, nous définissons un data catalog comme étant :

Un inventaire détaillé de tous les actifs informationnels disponibles dans une organisation ainsi que des métadonnées permettant d’exploiter ces actifs.

Comment le data catalog accélère-t-il les initiatives d’IA dans les organisations ?

 

Maintenant que nous avons brièvement défini ce qu’est un data catalog, découvrons comment ces derniers peuvent stimuler de manière significative les initiatives d’IA dans les organisations :

Découverte de données améliorée

 

Le succès des modèles d’IA est déterminé par la capacité d’accéder à et d’utiliser de grands ensembles de données diversifiés qui représentent avec précision le champ d’un problème. Un data catalog permet ce succès en offrant des capacités de recherche et de filtrage robustes, permettant aux utilisateurs de trouver rapidement des jeux de données pertinents en fonction de critères tels que des mots-clés, des tags, des sources de données et toute autre information sémantique fournie. Ces fonctionnalités de recherche similaires à Google permettent aux utilisateurs de données de naviguer efficacement dans le patrimoine data de l’organisation et de trouver les actifs dont ils ont besoin pour leurs cas d’usage spécifiques.

Par exemple, un data scientist travaillant sur un modèle de maintenance prédictive pour des équipements de fabrication peut utiliser un data catalog pour localiser des historiques de maintenance, des données de capteurs et des logs opérationnels. Cette découverte de données améliorée est cruciale pour les projets d’IA, car elle permet aux data scientists d’identifier et de récupérer les jeux de données les plus appropriés pour l’entraînement et la validation de leurs modèles.

 

💡La différence Zeenea : Obtenez des expériences de découverte de données personnalisées avec Zeenea ! Notre plateforme permet aux consommateurs de données de profiter d’une expérience de découverte unique via des parcours exploratoires personnalisés en veillant à ce que chaque profil utilisateur soit pris en compte dans le classement des résultats de recherche. Nos algorithmes fournissent également des recommandations et des suggestions intelligentes sur vos actifs data, jour après jour.

 

Découvrez nos fonctionnalités de découverte de données.

Amélioration de la qualité et de la fiabilité des données

 

Les données sous-jacentes doivent être de haute qualité pour que les modèles d’IA fournissent des résultats précis et fiables. Des données de haute qualité sont cruciales car elles impactent directement la capacité du modèle à apprendre et à faire des prédictions reflétant des scénarios réels. Des données de mauvaise qualité peuvent entraîner des conclusions incorrectes et des résultats peu fiables, affectant négativement les décisions business.

Un data catalog inclut généralement des fonctionnalités pour le profilage des données et l’évaluation de la qualité. Ces fonctionnalités aident à identifier les problèmes de qualité des données tels que les valeurs manquantes, les incohérences et les valeurs aberrantes, qui peuvent fausser les résultats des modèles d’IA. En s’assurant que seules des données propres et fiables sont utilisées dans les initiatives d’IA, les organisations peuvent améliorer la fiabilité et la performance de leurs modèles.

 

💡La différence Zeenea : Zeenea s’appuie sur la technologie GraphQL et sur son knowledge graph afin d’offrir une approche flexible pour l’intégration des meilleures solutions de gestion de la qualité des données du marché, directement dans le catalogue. Synchronisez simplement les indicateurs de data quality de vos outils tiers via des requêtes API simples. Les capacités de notre API Catalogue permettent la mise à jour automatique de toutes les modifications apportées dans votre outil de DQM directement au sein de notre plateforme.

 

Découvrez nos fonctionnalités de qualité des données.

Amélioration de la gouvernance et de la conformité des données

 

La gouvernance des données est essentielle pour maintenir l’intégrité, la sécurité et la conformité des données avec les exigences réglementaires. Elle implique les processus, politiques et standards qui garantissent que les données sont gérées et utilisées correctement tout au long de leur cycle de vie. Des exigences réglementaires telles que le GDPR en Europe et le CCPA en Californie, États-Unis, sont des exemples de lois strictes auxquelles les organisations doivent se conformer.

En outre, la gouvernance des données promeut la transparence, la responsabilité et la traçabilité des données, facilitant pour les parties prenantes l’identification des erreurs et la réduction des risques associés à des insights d’IA erronés ou mal représentés avant qu’ils n’affectent négativement les opérations ou n’endommagent la réputation de l’organisation. Les catalogues de données soutiennent ces initiatives de gouvernance en fournissant des metadata détaillées, y compris le data lineage, l’ownership et les politiques d’utilisation.

Pour les initiatives d’IA, une gouvernance des données robuste signifie que les données peuvent être utilisées de manière responsable et éthique, minimisant les risques de violations et de non-conformité. Cela protège l’organisation légalement et éthiquement et renforce la confiance des clients et parties prenantes, garantissant que les initiatives d’IA sont durables et crédibles.

 

💡La différence Zeenea : Zeenea garantit la conformité réglementaire en identifiant, classifiant et en gérant automatiquement les actifs de données personnelles à l’échelle de l’entreprise. Grâce à des recommandations intelligentes, la plateforme détecte les informations à caractère personnel et donne des suggestions sur les actifs à étiqueter – en veillant à ce que les informations sur les politiques et les réglementations soient bien communiquées à tous les consommateurs de données au sein de l’organisation.

 

Découvrez nos fonctionnalités de gouvernance des données.

Collaboration et partage des connaissances

 

Les projets d’IA impliquent souvent des équipes cross-fonctionnelles, y compris des data scientists, des ingénieurs, des analystes et les fonctions business. Les catalogues de données jouent un rôle clé en promouvant la collaboration en servant de plateforme partagée où les membres de l’équipe peuvent documenter, partager et discuter des actifs de données. Des fonctionnalités telles que les annotations, les commentaires et les évaluations des données permettent aux utilisateurs de contribuer directement à leurs insights et connaissances au sein du data catalog. Cette fonctionnalité favorise un environnement collaboratif où les parties prenantes peuvent échanger des idées et itérer sur des tâches liées aux données.

Par exemple, les data scientists peuvent annoter des jeux de données avec des informations sur la qualité ou des caractéristiques spécifiques utiles pour les modèles de machine learning. Les ingénieurs peuvent laisser des commentaires concernant les exigences d’intégration des données ou les considérations techniques. Les analystes peuvent évaluer la pertinence ou l’utilité de différents ensembles de données en fonction de leurs besoins analytiques.

 

💡La différence Zeenea : Zeenea fournit des onglets de discussion pour chaque objet du catalogue, facilitant une communication efficace entre les Data Stewards et les consommateurs de données concernant leurs actifs. Bientôt, les consommateurs de données pourront également fournir des suggestions concernant le contenu de leurs objets, garantissant une amélioration continue et le maintien de la plus haute qualité de documentation des données au sein du catalogue.

Compréhension commune des termes IA à l’échelle de l’entreprise

 

Les catalogues de données intègrent souvent un business glossary, ou glossaire métier, un référentiel centralisé pour définir et standardiser les termes business et les définitions des données et de l’IA à travers une organisation. Un business glossary améliore l’alignement entre les parties prenantes business et les gestionnaires des données en établissant des définitions claires et en garantissant la cohérence de la terminologie.

Cette clarté est essentielle dans les initiatives d’IA, où une compréhension et une interprétation précises des données sont cruciales pour développer des modèles précis. Par exemple, un glossaire métier bien défini permet aux data scientists d’identifier rapidement et d’utiliser les bons jeux de données pour entraîner les modèles d’IA, réduisant le temps consacré à la préparation des data et augmentant la productivité. En facilitant une compréhension commune des données à travers les départements, un business glossary accélère les cycles de développement de l’IA et permet aux organisations de tirer des insights significatifs de leur patrimoine data.

 

💡La différence Zeenea : Zeenea fournit aux équipes de data management un support unique pour créer leurs catégories de concepts sémantiques, les organiser en hiérarchies et configurer la manière dont les objets du glossaire sont associés avec les actifs techniques.

 

Découvrez nos fonctionnalités de Business Glossary.

En conclusion

 

Dans un paysage data en constante évolution et l’émergence de prises de décisions basées sur l’IA, les catalogues de données sont devenus des outils indispensables pour les organisations cherchant à exploiter efficacement leurs actifs data. Les data catalogs garantissent que les initiatives d’IA sont bâties sur des données de haute qualité, bien gouvernées et bien documentée. Un socle essentiel pour obtenir des tendances précises et créer de la valeur durablement pour le business.

Alors que les organisations continuent d’investir massivement dans les capacités liées à l’IA, l’adoption d’un data catalog robuste jouera un rôle clé pour maximiser la valeur des actifs de données, stimuler l’innovation et maintenir un avantage concurrentiel.

[SÉRIE] Data Shopping Partie 2 – L’expérience de Data Shopping dans Zeenea

[SÉRIE] Data Shopping Partie 2 – L’expérience de Data Shopping dans Zeenea

Tout comme l’achat de biens en ligne implique de sélectionner des objets, les ajouter à un panier et de choisir les options de livraison et de paiement, le processus d’acquisition de données au sein des organisations a évolué de manière similaire. À l’ère des data products et du data mesh, les data marketplaces internes permettent aux utilisateurs métiers de rechercher, de découvrir et d’accéder aux données pour leurs cas d’usage.

Dans cette série d’articles, vous trouverez un extrait de notre Guide Pratique du Data Mesh et découvrirez tout ce qu’il y a à savoir sur le data shopping ainsi que l’expérience de Zeenea en matière de shopping de données via son Enterprise Data Marketplace :

  1. La consommation de Data Products
  2. L’expérience de Data Shopping dans Zeenea

 

Dans notre précédent article, nous avons abordé le concept de data shopping au sein d’une data marketplace interne, en abordant des éléments tels que la livraison des data products et la gestion de l’accès. Dans cet article, nous allons explorer les raisons qui ont poussé Zeenea à étendre son expérience de data shopping au-delà des frontières internes, ainsi que la façon dont notre interface, Zeenea Studio, permet l’analyse de la performance globale de vos data products.

Le Data Product Shopping dans Zeenea

 

Dans notre article précédent, nous avons abordé les complexités de la gestion des droits d’accès aux data products en raison des risques inhérents à la consommation de données. Dans un data mesh décentralisé, le propriétaire du data product évalue les risques, accorde l’accès et applique des politiques basées sur la sensibilité des données, le rôle, la localisation et l’objectif du demandeur. Cela peut impliquer une transformation des données ou des formalités supplémentaires, avec une livraison allant de l’accès en lecture seule à des contrôles granulaires.

Dans une data marketplace, les consommateurs déclenchent un workflow en soumettant des demandes d’accès, que les propriétaires de données évaluent et pour lesquelles ils déterminent les règles d’accès, parfois avec l’avis d’experts. Pour la marketplace Zeenea nous avons choisi de ne pas intégrer ce workflow directement dans la solution, mais plutôt de s’interfacer avec des solutions externes.

L’idée est de proposer une expérience uniforme pour déclencher une demande d’accès, mais d’accepter que le traitement de cette demande puisse être très différent d’un environnement à l’autre, voire d’un domaine à l’autre dans la même organisation. Là aussi, le principe est hérité des marketplaces classiques. La plupart proposent une expérience unique pour réaliser une commande, mais débranchent sur d’autres systèmes pour la mise en œuvre opérationnelle de la livraison – dont les modalités peuvent être très différentes en fonction du produit et du vendeur.

Ce découplage entre l’expérience de shopping et la mise en œuvre opérationnelle de la livraison nous semble indispensable pour plusieurs raisons.

La principale est l’extrême variabilité des processus impliqués. Certaines organisations disposent déjà de workflows opérationnels, s’appuyant sur une solution plus large (la demande d’accès aux données est intégrée à un processus général de demande d’accès, supporté par exemple par un outil de ticketing tel que ServiceNow ou Jira). D’autres se sont équipées de solutions dédiées, supportant un fort niveau d’automatisation, mais dont le déploiement n’est pas encore généralisé. D’autres reposent sur les capacités de leur plateforme data, en d’autres encore sur rien du tout – l’accès se fait via des demandes directes adressées au propriétaire des données, qui les traite sans processus formel. Cette variabilité se manifeste d’une organisation à l’autre, mais aussi dans une même organisation – structurellement, quand différents domaines utilisent des technologies différentes, ou temporellement, quand l’organisation décide d’investir dans un dispositif plus efficace ou plus sécurisé et doit migrer progressivement la gestion des accès vers ce nouveau dispositif.

Découpler permet donc d’offrir une expérience homogène au consommateur, tout en s’adaptant à la variabilité des modes opératoires

Pour le client de la data marketplace, l’expérience de shopping est donc très simple. Une fois le ou les data products d’intérêt identifiés, il déclenche une demande d’accès en fournissant les informations suivantes :

  1. Qui il est – cette information est en principe déjà disponible.
  2. À quel data product il souhaite accéder – là aussi l’information est déjà présente, ainsi que les métadonnées nécessaires pour réaliser les arbitrages.
  3. Quel usage il entend faire des données – ce point est fondamental, puisqu’il pilote la gestion de risque et les exigences de conformité.

Avec Zeenea, une fois la demande d’accès soumise, elle est traitée dans un autre système, et son statut peut être suivi depuis la marketplace – c’est le strict équivalent du suivi de commandes que l’on trouve sur les sites e-commerce.

Du point de vue du consommateur, la data marketplace fournit un catalogue de data products (et d’autres produits digitaux), et un système simple et universel pour obtenir l’accès à ces produits.

Pour le producteur, la data marketplace remplit un rôle fondamental dans le pilotage de son portefeuille de produits.

Améliorez la performance des data products avec Zeenea Studio

 

Comme évoqué précédemment, outre le système de e-commerce, qui est destiné aux consommateurs, une marketplace classique propose aussi des outils dédiés aux vendeurs, leur permettant de superviser leurs produits, de répondre aux sollicitations des acheteurs et de contrôler la performance économique de leur offre. Et d’autres outils encore, destinés aux gestionnaires de la marketplace, pour analyser la performance globale des produits et des vendeurs.

L’Enterprise Data Marketplace de Zeenea intègre ces capacités dans un outil de back-office dédié, Zeenea Studio. Il permet de gérer la production, la consolidation et l’organisation des métadonnées dans un catalogue privatif, et de décider quels objets seront placés dans la marketplace – qui est un espace de recherche accessible au plus grand nombre.

Ces activités relèvent avant tout du processus de production – les métadonnées sont produites et organisées conjointement avec les data products. Mais il permet également de superviser l’utilisation de chaque data product, notamment en fournissant la liste de tous ses consommateurs, et des usages qui leur sont associés.

Ce suivi des consommateurs permet d’asseoir les deux piliers de la gouvernance du data mesh :

  • La conformité et la gestion de risque – en mettant en place des revues régulières, des certifications, et des analyses d’impact lors des évolutions des data products.
  • Le pilotage de la performance – le nombre de consommateurs, ainsi que la nature des usages qui en sont fait, sont les principaux indicateurs de la valeur d’un data product. En effet, un data product qui n’est pas consommé n’a aucune valeur.

Outil de support pour les domaines permettant de contrôler la conformité de leurs produits et leurs performances, l’Enterprise Data Marketplace de Zeenea offre également des capacités d’analyse globale du mesh – lineage des data products, scoring et évaluation de leurs performances, contrôle de la conformité globale et des risques, éléments de reporting réglementaire, etc.

C’est la magie du graphe fédéré, qui permet d’exploiter l’information à toutes les échelles – et fournit une représentation exhaustive de tout le patrimoine data.

Le Guide Pratique du Data Mesh: Mettre en place et superviser un data mesh à l’échelle de l’entreprise

 

Rédigé par Guillaume Bodet, co-fondateur et CPTO chez Zeenea, ce guide vous apportera une approche pratique pour mettre en œuvre un data mesh dans votre organisation, en vous aidant à :

✅ Entamer votre démarche data mesh avec un projet pilote focalisé
✅ Découvrir des méthodes efficaces pour mettre votre mesh à l’échelle,
✅ Comprendre le rôle essentiel joué par une data marketplace interne pour faciliter la consommation des data products
✅ Découvrir pourquoi Zeenea est un système de supervision robuste du data mesh à l’échelle de l’entreprise

Signature Data Mesh Fr
[SÉRIE] Data Shopping Partie 1 – La consommation de  Data Products

[SÉRIE] Data Shopping Partie 1 – La consommation de  Data Products

Tout comme l’achat de biens en ligne implique de sélectionner des objets, les ajouter à un panier et de choisir les options de livraison et de paiement, le processus d’acquisition de données au sein des organisations a évolué de manière similaire. À l’ère des data products et du data mesh, les data marketplaces internes permettent aux utilisateurs métiers de rechercher, de découvrir et d’accéder aux données pour leurs cas d’usage.

Dans cette série d’articles, vous trouverez un extrait de notre Guide Pratique du Data Mesh et découvrirez tout ce qu’il y a à savoir sur le data shopping ainsi que l’expérience de Zeenea en matière de shopping de données via son Enterprise Data Marketplace :

  1. La consommation de Data Products
  2. L’expérience de Data Shopping dans Zeenea

 

Comme mentionné précédemment, toutes les marketplaces classiques proposent une expérience de “checkout” très similaire, et familière pour un grand nombre de personnes. Les produits retenus sont placés dans un panier, puis, au moment de valider son panier l’acheteur se voit présenter différentes options de livraison, puis de paiement. La livraison à proprement parler est généralement effectuée en dehors de la marketplace, qui propose simplement des fonctionnalités de suivi.

La livraison peut être immédiate (pour les produits numériques) ou différée (pour les produits physiques). Certaines marketplaces disposent de leur propre dispositif logistique, mais le plus souvent, la livraison est du ressort du vendeur. Le délai de livraison est un élément important de la satisfaction client – plus il est court, plus les utilisateurs sont satisfaits.

Comment se traduit cette expérience de shopping dans une data marketplace d’entreprise ? Pour répondre à cette question, il faut s’attacher à ce que signifie la livraison des données dans un contexte d’entreprise, et pour cela, se pencher sur le consommateur des données.

Livraison des data products

 

Un data product propose un ou plusieurs protocoles de consommation – ce sont ses outbound ports. Ces protocoles pourront différer d’un data product à l’autre, en fonction de la nature des données – des données temps réel pourront par exemple proposer un protocole de streaming, quand des données plus statiques se borneront à proposer une interface SQL (et des instructions pour exploiter cette interface depuis plusieurs langages de programmation ou depuis les outils de visualisation maison).

Pour des besoins de consommation interactive, par exemple dans une application, le data product peut également proposer des APIs de consommation, qui à leur tour pourront se conformer à un standard (REST, GraphQL, OData, etc.). Ou encore, simplement télécharger les données dans un format fichier.

Certains consommateurs pourront intégrer le data product dans leurs propres pipelines, pour construire d’autres data products ou des usages de plus haut niveau. D’autres se contenteront de consommer les données une fois, par exemple pour entraîner un modèle de ML. Charge à eux de choisir le protocole le mieux adapté à leur cas d’usage.

Quels que soient les protocoles retenus, ils possèdent tous une caractéristique essentielle : ils sont sécurisés. C’est une des règles universelles de la gouvernance – l’accès aux données doit être contrôlé, et les droits d’accès supervisés.

À de rares exceptions près, l’acte d’achat consiste donc simplement à obtenir un accès aux données via l’un des protocoles de consommation.

Gestion des droits d’accès aux data products

 

Mais dans le monde de la data, la gestion des accès n’est pas un sujet simple, et pour une raison élémentaire : consommer des données est un acte risqué.

Certains data products peuvent être désensibilisés – en éliminant d’une façon ou d’une autre les données personnelles ou sensibles qui sont porteuses du plus grand risque. Mais cette désensibilisation ne peut être réalisée sur tout le portefeuille de produits : à défaut, l’organisation renonce à exploiter des données pourtant porteuses d’une forte valeur (données financières ou RH sensibles, données commerciales, données de marché, données personnelles des clients, etc.). D’une façon ou d’une autre, le contrôle des accès est donc une activité critique pour le développement et la généralisation du data mesh.

Dans la logique de décentralisation du data mesh, l’évaluation du risque et l’octroi de jetons d’accès devraient être réalisés par le propriétaire du data product, qui en assure la gouvernance et la conformité. Il s’agit à la fois d’approuver la demande d’accès, mais aussi de déterminer les éventuelles transformations à appliquer aux données pour les conformer à un usage particulier. Cette activité porte le nom de policy enforcement.

Évaluer une demande d’accès consiste à en analyser trois dimensions :

  • Les données elles-mêmes (certaines sont porteuses de plus de risque que d’autres) – le quoi.
  • Le demandeur, sa fonction et sa géographie (l’aspect géographique peut avoir un impact fort, notamment au niveau réglementaire) – le qui.
  • L’usage – le pourquoi.

En fonction de cette analyse, les données pourront être consommées telles quelles, ou nécessiter une transformation avant d’être livrées (filtrage des données, particulièrement celles non couvertes par le consentement, anonymisation de certaines colonnes, obfuscation d’autres, etc.). Parfois, d’autres formalités devront être remplies – par exemple, l’adhésion à un contrat de redistribution pour des données acquises auprès d’un tiers, ou le respect des politiques de rétention et de droit à l’oubli, etc.

Sur le plan technique, là aussi, la livraison des données peut prendre différentes formes, selon les technologies et protocoles utilisés pour les exposer.

Pour des données peu sensibles, un simple octroi d’accès en lecture peut être suffisant – il s’agit alors simplement de déclarer un utilisateur additionnel. Pour des données sensibles, il est nécessaire de réaliser un contrôle fin des permissions, au niveau des colonnes et des lignes. Les plateformes data modernes supportent pour la plupart des mécanismes natifs pour appliquer des règles d’accès complexes par simple configuration – généralement à l’aide de tags sur les données, et d’un moteur de policy enforcement. La mise en place des droits d’accès consiste alors à créer la policy adéquate, ou d’intégrer un nouveau consommateur dans une policy existante. Pour des technologies plus anciennes, ne supportant pas un contrôle d’accès suffisamment granulaire, il peut être nécessaire de créer un pipeline spécifique, qui va transformer les données pour les mettre en conformité, les stocker dans un espace dédié, et donner l’accès au consommateur à cet espace.

Il s’agit bien sûr d’une approche longue et potentiellement coûteuse, qui pourra être optimisée en migrant vers une plateforme data supportant un modèle de sécurité plus granulaire, ou en investissant dans une solution de policy enforcement tierce supportant la plateforme déjà en place.

Le Shopping au sein d’une data marketplace interne

 

Au final, dans une data marketplace, la livraison des données, qui est au coeur de l’expérience du consommateur, se traduit par un workflow plus ou moins complexe, mais dont les grandes étapes sont les suivantes :

  • Le consommateur soumet une demande d’accès – en décrivant précisément son usage des données.
  • Le propriétaire des données évalue cette demande – dans certains cas, il pourra s’appuyer sur des experts en matière de risque ou de réglementation, voire nécessiter certaines validations additionnelles – et détermine les règles d’accès requises.
  • Un ingénieur dans le domaine ou dans l’équipe “Infra & tooling” se charge de mettre en place l’accès – cette opération peut être plus ou moins complexe en fonction des technologies utilisées.

L’acte de shopping consiste donc, pour le consommateur, à déclencher ce workflow depuis la marketplace.

Pour la marketplace Zeenea, nous avons choisi de ne pas intégrer ce workflow directement dans la solution, mais plutôt de s’interfacer avec des solutions externes

Dans notre prochain article, découvrez l’expérience de Data Shopping Zeenea et nos choix technologiques qui nous distinguent des autres éditeurs du marché.

Le Guide Pratique du Data Mesh: Mettre en place et superviser un data mesh à l’échelle de l’entreprise

 

Rédigé par Guillaume Bodet, co-fondateur et CPTO chez Zeenea, ce guide vous apportera une approche pratique pour mettre en œuvre un data mesh dans votre organisation, en vous aidant à :

✅ Entamer votre démarche data mesh avec un projet pilote focalisé
✅ Découvrir des méthodes efficaces pour mettre votre mesh à l’échelle,
✅ Comprendre le rôle essentiel joué par une data marketplace interne pour faciliter la consommation des data products
✅ Découvrir pourquoi Zeenea est un système de supervision robuste du data mesh à l’échelle de l’entreprise

Signature Data Mesh Fr
[SÉRIE] La data marketplace pour le data mesh –  Partie 3 : Alimenter la marketplace via des data catalogs par domaine

[SÉRIE] La data marketplace pour le data mesh –  Partie 3 : Alimenter la marketplace via des data catalogs par domaine

Au cours de la dernière décennie, les catalogues de données ont émergé en tant que piliers dans l’écosystème data. Cependant, de nombreux fournisseurs ne répondent pas aux attentes – avec en cause des délais prolongés, des projets complexes et coûteux, des modèles bureaucratiques de gouvernance des données, des taux d’adoption faibles et une création de valeur limitée. Cette problématique va au-delà des projets de gestion des métadonnées, reflétant un échec plus général au niveau de la gestion des données.

Face à ces lacunes, un nouveau concept a le vent en poupe, celui de place de
marché interne à l’organisation, que nous appelons Enterprise Data Marketplace (EDM) chez Zeenea.

Dans cette série d’articles, vous trouverez des extraits de notre Guide Pratique du Data Mesh dans lequel nous expliquons l’intérêt des data marketplaces internes pour la production et la consommation de data products, comment une EDM prend en charge l’exploitation du data mesh à l’échelle, et comment elles vont de pair avec une solution de catalogue de données :

  1. Faciliter la consommation des data products avec les métadonnées
  2. Déployer une marketplace à l’échelle de l’entreprise
  3. Alimenter la marketplace via des data catalogs par domaine

 

La structuration du data management autour de domaines et de data products est une transformation organisationnelle qui ne change pas la réalité opérationnelle de la plupart des organisations : les données sont disponibles en grande quantité, en provenance de nombreuses sources, évoluent rapidement, et leur maîtrise est complexe.

Les Data Catalogs ont traditionnellement pour fonction d’inventorier l’ensemble des données disponibles, et de gérer un ensemble de métadonnées permettant d’en assurer la maîtrise et d’asseoir les pratiques de gouvernance.

Le data mesh ne supprime pas cette complexité : il permet de distinguer certaines données, gérées sous forme de data products, et qui sont destinées à être partagées et utilisées au-delà du domaine auquel elles appartiennent. Mais chaque domaine est également chargé de gérer ses données internes, celles qui lui serviront à développer des data products – ses données privatives en somme.

Gestion des métadonnées dans le contexte d’une marketplace interne alimentée par des catalogues par domaine

 

Dans le data mesh, le besoin d’un Data Catalog ne disparaît pas, bien au contraire : chaque domaine devrait disposer d’un catalogue lui permettant de gérer efficacement ses données privatives, de supporter la gouvernance du domaine, et d’accélérer le développement de data products robustes et à forte valeur ajoutée. La gestion des métadonnées se fait donc à deux niveaux :

  • Au niveau de chaque domaine – sous la forme d’un catalogue permettant de documenter et d’organiser l’univers de données du domaine. Le Data Catalog étant une brique privative, il n’est pas nécessaire que tous les domaines utilisent la même solution.
  • Au niveau du mesh – sous la forme d’une marketplace dans laquelle sont enregistrés les data products partagés par tous les domaines ; la marketplace est par nature commune à tous les domaines.

Avec un composant marketplace dédié, l’architecture générale de la gestion de métadonnées est la suivante :

Architecture Générale Pour La Gestion Des Métadonnées

Dans cette architecture, chaque domaine dispose de son propre catalogue – qui peut s’appuyer sur une solution unique ou non, mais devrait être instancié pour chaque domaine afin de lui permettre d’organiser ses données de la façon la plus efficace pour lui, et éviter les chausse-trappes d’une organisation universelle des métadonnées.

La marketplace est un composant dédié, offrant une ergonomie simplifiée, et dans laquelle chaque domaine déploie les métadonnées (voire les données) de ses data products. Cette approche demande d’intégrer étroitement les différents modules :

  • Les catalogues privatifs doivent être intégrés avec la marketplace – afin de ne pas dupliquer les efforts de production de certaines métadonnées – on pense au lignage en particulier, mais aussi au dictionnaire de données (schéma), ou encore aux définitions métier qui seront présents dans les deux systèmes.
  • Les catalogues privatifs doivent potentiellement être intégrés entre eux – afin de partager/synchroniser certaines informations, en premier lieu le glossaire métier mais aussi certains référentiels.

Les capacités du catalogue de données vs l’EDM

 

Quand on se penche sur les capacités respectives d’une Enterprise Data Marketplace et d’un Data Catalog, on se rend compte que ces capacités sont très similaires :

Data Catalog Vs Enterprise Data Marketplace

Au final, sur le strict plan fonctionnel, leurs capacités sont très proches. Ce qui va distinguer un Data Catalog moderne d’une EDM sont :

 

  • Leur périmètre – le Data Catalog a pour vocation de couvrir l’ensemble des données, quand la marketplace se limite aux objets partagés par les domaines (data products et autres produits data du domaine).

 

  • Leur expérience utilisateur – le Data Catalog est souvent un outil assez complexe, destiné à supporter globalement les processus de gouvernance – il est centré sur les workflows de data stewardship. La marketplace quant à elle offre typiquement une ergonomie très simple, fortement inspirée de celle d’une plateforme de e-commerce, et propose une expérience centrée sur la consommation – le data shopping.

Le Guide Pratique du Data Mesh: Mettre en place et superviser un data mesh à l’échelle de l’entreprise

 

Rédigé par Guillaume Bodet, co-fondateur et CPTO chez Zeenea, ce guide vous apportera une approche pratique pour mettre en œuvre un data mesh dans votre organisation, en vous aidant à :

✅ Entamer votre démarche data mesh avec un projet pilote focalisé
✅ Découvrir des méthodes efficaces pour mettre votre mesh à l’échelle,
✅ Comprendre le rôle essentiel joué par une data marketplace interne pour faciliter la consommation des data products
✅ Découvrir pourquoi Zeenea est un système de supervision robuste du data mesh à l’échelle de l’entreprise

Signature Data Mesh Fr
[SÉRIE] La data marketplace pour le data mesh – Partie 2 : Construire une marketplace à l’échelle de l’entreprise

[SÉRIE] La data marketplace pour le data mesh – Partie 2 : Construire une marketplace à l’échelle de l’entreprise

Au cours de la dernière décennie, les catalogues de données ont émergé en tant que piliers dans l’écosystème data. Cependant, de nombreux fournisseurs ne répondent pas aux attentes – avec en cause des délais prolongés, des projets complexes et coûteux, des modèles bureaucratiques de gouvernance des données, des taux d’adoption faibles et une création de valeur limitée. Cette problématique va au-delà des projets de gestion des métadonnées, reflétant un échec plus général au niveau de la gestion des données.

Face à ces lacunes, un nouveau concept a le vent en poupe, celui de place de
marché interne à l’organisation, que nous appelons Enterprise Data Marketplace (EDM) chez Zeenea.

Dans cette série d’articles, vous trouverez des extraits de notre Guide Pratique du Data Mesh dans lequel nous expliquons l’intérêt des data marketplaces internes pour la production et la consommation de data products, comment une EDM prend en charge l’exploitation du data mesh à l’échelle, et comment elles vont de pair avec une solution de catalogue de données :

  1. Faciliter la consommation des data products avec les métadonnées
  2. Déployer une marketplace à l’échelle de l’entreprise
  3. Alimenter la marketplace via des data catalogs par domaine

 

Comme mentionné dans notre précédent article, une Enterprise Data Marketplace est un système simple dans lequel les consommateurs peuvent rechercher parmi l’offre de data products celui ou ceux éligibles pour réaliser un cas d’usage spécifique, prendre connaissance des informations relatives à ces produits, puis les commander. La commande se matérialise par une ouverture d’accès, une livraison physique des données, ou encore une demande d’évolution des data products pour couvrir le nouveau cas d’utilisation.

Les trois grandes options pour mettre en place une data marketplace interne

 

Lors de la mise en place d’une data marketplace interne, les organisations envisagent généralement trois approches principales :

La développer

 

Cette approche consiste à créer une marketplace personnalisée, adaptée aux besoins uniques de l’organisation. Bien qu’elle offre la possibilité d’une expérience utilisateur optimisée, cette option implique souvent un investissement important en temps et en argent.

Intégrer une solution du marché

 

Les organisations peuvent également opter pour des solutions préexistantes disponibles sur le marché. Conçues à l’origine pour la commercialisation de données ou l’échange de données externes, ces solutions peuvent être reconverties pour un usage interne. Cependant, elles peuvent nécessiter une personnalisation pour s’aligner sur les flux de travail internes et les normes de sécurité.

Utiliser les systèmes existants

 

Certaines organisations choisissent de tirer parti de leur infrastructure actuelle en réutilisant des outils tels que les catalogues de données et les wikis d’entreprise. Bien que cette approche puisse offrir une certaine familiarité et une intégration avec les flux de travail existants, elle peut ne pas offrir les fonctionnalités spécialisées des solutions dédiées au marché des données.

Les inconvénients des marketplaces commerciales

 

Bien que proposant une expérience utilisateur souvent satisfaisante, et un support natif de la notion de data product, les marketplaces commerciales présentent quant à elles souvent des inconvénients importants : très focalisées sur les aspects transactionnels (distribution, licence, contractualisation, achat ou souscription, paiement, etc.), elles sont souvent mal intégrées aux plateformes data et aux outils de contrôle d’accès interne. Elles nécessitent généralement que les données soient également distribuées par la marketplace – ce qui signifie qu’elles constituent un nouveau composant d’infrastructure sur lequel les données devront être transférées pour être partagées (un tel système est parfois appelé Data Sharing Platform).

L’Enterprise Data Marketplace de Zeenea

 

Dans une approche pragmatique, nous ne croyons pas que, dans la plupart des cas, il soit souhaitable d’introduire une nouvelle brique d’infrastructure pour déployer un data mesh – comme déjà évoqué, il semble très préférable d’exploiter les capacités déjà existantes autant que possible.

C’est pourquoi, chez Zeenea, nous avons fait évoluer notre Data Discovery Platform et son data catalog pour offrir une solution unique, un miroir du data mesh au niveau des métadonnées pour s’adapter continuellement à l’évolution de l’architecture de la plateforme data de l’organisation. Cette Entreprise Data Marketplace (EDM) intègre une place de marché interdomaines avec des catalogues de données privatifs adaptés aux besoins de chaque domaine.

Une approche que nous détaillons dans le prochain article de notre série, rendue possible par ce qui a longtemps distingué Zeenea et le différencie de la plupart des autres catalogues ou métadonnées : un knowledge graph évolutif.

Dans notre dernier article de la série, découvrez comment une data marketplace interne associée à des catalogues spécifiques par domaine constitue un système de supervision du data mesh complet.

Le Guide Pratique du Data Mesh: Mettre en place et superviser un data mesh à l’échelle de l’entreprise

 

Rédigé par Guillaume Bodet, co-fondateur et CPTO chez Zeenea, ce guide vous apportera une approche pratique pour mettre en œuvre un data mesh dans votre organisation, en vous aidant à :

✅ Entamer votre démarche data mesh avec un projet pilote focalisé
✅ Découvrir des méthodes efficaces pour mettre votre mesh à l’échelle,
✅ Comprendre le rôle essentiel joué par une data marketplace interne pour faciliter la consommation des data products
✅ Découvrir pourquoi Zeenea est un système de supervision robuste du data mesh à l’échelle de l’entreprise

Signature Data Mesh Fr
[SÉRIE] La data marketplace pour le data mesh –  Partie 1 : Faciliter la consommation des data products avec les métadonnées

[SÉRIE] La data marketplace pour le data mesh –  Partie 1 : Faciliter la consommation des data products avec les métadonnées

Au cours de la dernière décennie, les catalogues de données ont émergé en tant que piliers dans l’écosystème data. Cependant, de nombreux fournisseurs ne répondent pas aux attentes – avec en cause des délais prolongés, des projets complexes et coûteux, des modèles bureaucratiques de gouvernance des données, des taux d’adoption faibles et une création de valeur limitée. Cette problématique va au-delà des projets de gestion des métadonnées, reflétant un échec plus général au niveau de la gestion des données.

Face à ces lacunes, un nouveau concept a le vent en poupe, celui de place de
marché interne à l’organisation, que nous appelons Enterprise Data Marketplace (EDM) chez Zeenea.

Dans cette série d’articles, vous trouverez des extraits de notre Guide Pratique du Data Mesh dans lequel nous expliquons l’intérêt des data marketplaces internes pour la production et la consommation de data products, comment une EDM prend en charge l’exploitation du data mesh à l’échelle, et comment elles vont de pair avec une solution de catalogue de données :

  1. Faciliter la consommation des data products avec les métadonnées
  2. Déployer une marketplace à l’échelle de l’entreprise
  3. Alimenter la marketplace via des data catalogs par domaine

 

 

Avant d’aborder le concept de data marketplace interne, revenons un instant sur la notion de data product, qui selon nous constitue la pierre angulaire du data mesh, et la première étape de la transformation du data management.

Partage et exploitation des data products grâce aux métadonnées

 

Comme mentionné dans notre précédente série d’articles sur le data mesh, un data product est un jeu de données gouverné, réutilisable, évolutif, et offrant des garanties en matière de qualité de données et de conformité aux différentes réglementations et règles internes. Notons que cette définition est assez restrictive – elle exclut d’autres types de produits tels que les algorithmes ou modèles de machine learning (ML), ou encore les tableaux de bord.

Il est bien sûr souhaitable que ces artefacts soient également gérés comme des produits, mais ce ne sont pas des data products. Ce sont d’autres types de produits, que l’on pourrait qualifier de façon très générale d’Analytics Products, et dont les data products sont l’une des sous-catégories.

En pratique, un data product opérationnel est constitué de deux choses :

  • Data (1)1. Les données - matérialisées sur une plateforme data centralisée ou non, et garantissant l’adressage, l’interopérabilité et la sécurisation de l’accès aux données.
  • Metadata (1)2. Les métadonnées - qui fournissent l’ensemble des informations nécessaires pour partager et exploiter les données.

Les métadonnées permettent d’assurer que les consommateurs disposent de toutes les informations nécessaires pour utiliser le produit.

Elle couvrent typiquement les aspects suivants :

Schema

Le schéma – qui fournit la structure technique du data product, la classification des données, des échantillons, ainsi que leur origine (lignage).

Governance

La gouvernance – qui identifie le ou les responsables du produit, ses versions successives, son éventuelle dépréciation, etc.

Semantics

La sémantique – qui fournit une définition claire des informations exposées, idéalement rattachée au glossaire métier de l’organisation, et une documentation exhaustive du data product.

Contract

Le contrat – qui définit les garanties en matière de qualité, les modalités de consommation (protocoles et sécurité), les éventuelles restrictions d’usage, les règles de redistribution, etc.

Dans la logique du data mesh, ces métadonnées sont gérées par l’équipe produit, et déployées selon le même cycle de vie que les données et les pipelines. Reste une question fondamentale : où déployer les métadonnées ?

Utilisation d’une data marketplace pour déployer les métadonnées

 

La plupart des organisations disposent déjà d’un système de gestion des métadonnées, généralement sous la forme d’un Data Catalog.

Mais les Data Catalogs, sous leur forme actuelle, présentent des inconvénients majeurs :

Dont Support Data Product

Ils ne supportent pas toujours la notion de data product – elle doit être plus ou moins émulée avec d’autres notions.

Complex To Use

Ils sont complexes à utiliser – ils ont été conçus pour cataloguer un grand nombre d’assets avec une granularité parfois très fine, et souffrent très souvent d’un déficit d’adoption au-delà des équipes de data management centralisées.

Rigid Organization

Ils imposent le plus souvent une organisation rigide et unique des données, décidée et conçue en central – cela peine à refléter la variété des différents domaines ou les évolutions de l’organisation à mesure que le data mesh s’étend.

Limited Search Capacities

Leurs capacités de recherche sont souvent limitées, particulièrement pour les aspects exploratoires – il est souvent nécessaire de savoir ce que l’on cherche pour pouvoir le trouver.

Lacks Simplicity

L’expérience qu’ils proposent manque parfois de la simplicité à laquelle les utilisateurs aspirent – je recherche avec quelques mots-clés, j’identifie le data product adéquat, puis je déclenche le processus opérationnel de demande d’accès ou de livraison des données.

Une data marketplace interne, ou Enterprise Data Marketplace (EDM), est donc un nouveau concept qui gagne en popularité dans le domaine du data mesh. Au même titre qu’une place de marché généraliste, l’EDM a pour vocation à fournir une expérience de shopping aux consommateurs de données. Elle est une composante indispensable pour assurer l’exploitation du data mesh à grande échelle – elle permet aux consommateurs de données de disposer d’un système simple et efficace pour rechercher et accéder aux data products des différents domaines.

Dans notre prochain article, découvrez les différentes façons de mettre en place une data marketplace interne, et pourquoi elles sont essentielles pour l’exploitation du data mesh.

Le Guide Pratique du Data Mesh: Mettre en place et superviser un data mesh à l’échelle de l’entreprise

 

Rédigé par Guillaume Bodet, co-fondateur et CPTO chez Zeenea, ce guide vous apportera une approche pratique pour mettre en œuvre un data mesh dans votre organisation, en vous aidant à :

✅ Entamer votre démarche data mesh avec un projet pilote focalisé
✅ Découvrir des méthodes efficaces pour mettre votre mesh à l’échelle,
✅ Comprendre le rôle essentiel joué par une data marketplace interne pour faciliter la consommation des data products
✅ Découvrir pourquoi Zeenea est un système de supervision robuste du data mesh à l’échelle de l’entreprise

Signature Data Mesh Fr
Qu’est-ce que le Data Sharing : bénéfices, défis et bonnes pratiques

Qu’est-ce que le Data Sharing : bénéfices, défis et bonnes pratiques

Dans le paysage digital et data d’aujourd’hui, le partage de données ou Data Sharing, est devenu essentiel pour créer de la valeur. En effet, dans tous les secteurs et domaines, les organisations et les individus exploitent le pouvoir du partage de données pour favoriser la collaboration et stimuler la croissance. En échangeant des data products d’entreprise, les parties prenantes peuvent ouvrir des perspectives précieuses, découvrir des tendances cachées et prendre des décisions qui ont un impact tangible.

Cependant, le Data Sharing présente des complexités et des défis – de la garantie de la sécurité et de la confidentialité des données à la conformité réglementaire, les parties prenantes doivent tenir compte de nombreuses considérations pour favoriser une culture du partage de données responsable.

Dans cet article, découvrez tout ce que vous devez savoir sur le partage de données et comment une place de marché interne, ou data marketplace, peut faciliter vos initiatives de Data Sharing.

Définition du Data Sharing

 

Le Data Sharing, comme son nom l’indique, désigne le partage des données entre différentes parties prenantes. Au-delà du partage, le Data Sharing implique un engagement à maintenir l’intégrité et la fiabilité des données partagées tout au long de leur cycle de vie. Cela signifie non seulement rendre les données accessibles à toutes les parties prenantes, mais aussi veiller à ce qu’elles conservent leur qualité, leur cohérence et leur utilité pour le traitement et l’analyse par les consommateurs de données. Une partie cruciale de ce processus implique que les producteurs de données documentent soigneusement des jeux de données, en fournissant des descriptions détaillées et des définitions claires pour que d’autres puissent facilement trouver, découvrir et comprendre les données partagées.

De plus, le Data Sharing implique de rendre les données accessibles aux individus, domaines ou organisations pertinents en utilisant des contrôles d’accès et des permissions. Cela garantit que seules les personnes autorisées peuvent accéder à des jeux de données spécifiques, respectant ainsi les exigences de conformité réglementaire et atténuant les risques liés aux violations et à l’usage abusif des données.

Partage de données interne vs. externe

 

Nous devons faire la distinction entre le partage de données interne et externe, avec leurs différentes approches pour diffuser des informations au sein des organisations.

Le partage de données interne concerne l’échange d’informations dans les limites d’une organisation. L’objectif est de briser les silos et de veiller à ce que toutes les parties de l’organisation puissent accéder aux données dont elles ont besoin, quand elles en ont besoin, dans un environnement sécurisé. Le partage interne peut être facilité avec une marketplace d’entreprise, mais nous y reviendrons plus tard.

Le partage de données externe, en revanche, va au-delà des frontières de l’organisation pour inclure les partenaires, les clients, les fournisseurs et les organismes de réglementation. Étant donné sa nature, le partage de données externe est soumis à des mesures de conformité réglementaire et de sécurité plus strictes, nécessitant des protocoles robustes pour protéger les informations sensibles et maintenir la confiance entre l’organisation et ses parties prenantes externes.

Les avantages du Data Sharing

 

Le Data Sharing comporte de nombreux avantages pour les organisations. En voici les principaux :

Facilitez les efforts collaboratifs

 

En facilitant le partage de données au sein de votre entreprise, vous favorisez une meilleure collaboration entre les équipes internes, les partenaires et les différentes branches de votre organisation. Lorsque les entreprises partagent des informations pertinentes, toutes les parties prenantes bénéficient d’une compréhension plus approfondie des aspects critiques tels que les tendances du marché, les préférences clients, les stratégies réussies et les analyses perspicaces. Ces données partagées permettent aux équipes de collaborer de manière plus efficace sur des projets communs ou des initiatives de recherche et de développement.

De plus, grâce à l’échange de données à la fois internes et externes, les organisations peuvent explorer collectivement des idées innovantes et des approches alternatives, tirant des enseignements et des expertises de sources diverses. Cet environnement collaboratif favorise une culture d’expérimentation et de créativité, entraînant finalement la génération de solutions dans un large éventail d’industries et de domaines.

Enfin, un exemple concret des avantages du partage de données avec l’externe peut être observé dans le secteur de la santé grâce à des initiatives telles que les échanges d’informations sur la santé (HIE). Les HIE sont des réseaux qui facilitent le partage de dossiers médicaux électroniques entre les prestataires de soins de santé, les hôpitaux, les cliniques et autres établissements médicaux. En partageant les informations des patients de manière sécurisée et efficace, les HIE permettent aux prestataires de santé d’accéder à des antécédents médicaux complets, à des résultats de tests diagnostiques, à des listes de médicaments et à d’autres informations vitales sur les patients, quel que soit l’endroit où ils ont reçu des soins.

Améliorez la productivité de vos équipes

 

Le partage de données améliore considérablement la productivité en facilitant l’accès à des informations critiques. Lorsque les organisations partagent des données en interne entre les équipes ou en externe avec des partenaires et des parties prenantes, cela élimine les silos et permet aux employés d’accéder rapidement et efficacement aux informations pertinentes. Cela élimine l’effort laborieux de fouiller dans des systèmes disparates ou d’attendre la récupération de données par d’autres.

De plus, le partage de données lutte contre les informations dupliquées et redondantes, favorisant la prise de conscience des actifs de données, des tableaux de bord et d’autres produits de données existants grâce à une connaissance partagée. En minimisant les tâches redondantes, le partage de données non seulement diminue les erreurs, mais optimise également l’allocation des ressources, permettant aux équipes de se concentrer sur des initiatives à valeur ajoutée.

Travaillez en toute confiance avec des données de qualité

 

Le partage de données joue un rôle crucial dans l’amélioration de la confiance et de la qualité des données de diverses manières. Lorsque les données sont partagées entre différentes parties prenantes, elles font l’objet de processus de validation et de vérification approfondis. Cette évaluation par plusieurs parties permet d’identifier les incohérences, les erreurs ou les inexactitudes, conduisant finalement à des améliorations de la précision et de la fiabilité des données.

De plus, les données partagées encouragent les revues et commentaires par les pairs, facilitant les efforts collaboratifs pour affiner et améliorer la qualité de l’information. Ce processus itératif en continu instaure la confiance dans la précision et la fiabilité des données partagées.

Le partage de données implique souvent le respect de protocoles normalisés et de normes de qualité. Grâce à la normalisation des formats, des définitions et des métadonnées, les organisations assurent la cohérence et la compatibilité entre les ensembles de données, garantissant ainsi la qualité des données et permettant l’interopérabilité.

Enfin, dans le cadre de la gouvernance des données, les initiatives de partage de données établissent des politiques, des procédures et des meilleures pratiques claires pour une gestion responsable des données. Des mécanismes d’audit et de suivi robustes sont utilisés pour suivre l’accès et l’utilisation des données, permettant aux organisations d’appliquer des contrôles d’accès et de maintenir l’intégrité des données en toute confiance.

Les défis du partage de données

Des volumes de données massifs

 

Le partage de grands ensembles de données à travers plusieurs réseaux peut poser d’importants défis en raison de la nature chronophage du processus et de la demande de bande passante importante. Cela conduit souvent à des vitesses de transfert lentes et potentiellement à une congestion sur le réseau. De plus, le stockage de volumes massifs de données partagées nécessite une capacité de stockage étendue et des ressources d’infrastructure. Les organisations doivent allouer suffisamment d’espace de stockage pour accueillir de grands ensembles de données, ce qui peut entraîner une augmentation des coûts de stockage et d’infrastructure.

De plus, le traitement et l’analyse de volumes massifs de données partagées peuvent surcharger les ressources et les capacités de traitement. Pour gérer efficacement la complexité et l’échelle des grands ensembles de données, les organisations doivent déployer des cadres de traitement de données robustes et des ressources informatiques évolutives. Ces mesures sont essentielles pour assurer une analyse et une interprétation efficaces des données tout en naviguant dans les complexités des vastes ensembles de données.

Des mesures de sécurité robustes

 

Assurer la sécurité des données pose un défi important dans le domaine du partage de données, exigeant une attention soigneuse et des mesures de protection robustes pour protéger efficacement les informations sensibles. Pendant les processus de Data Sharing, les informations traversant les réseaux et les plateformes deviennent vulnérables à diverses menaces de sécurité, notamment les tentatives d’accès non autorisées, les violations de données et les cyber-attaques malveillantes. Pour garantir la confidentialité, l’intégrité et la disponibilité des données partagées, des protocoles de sécurité rigoureux, des mécanismes de cryptage et des contrôles d’accès doivent être mis en œuvre dans tous les aspects des initiatives de partage de données.

Des exigences de conformité

 

Un autre défi notable du partage de données est le maintien de la confidentialité des données et la conformité aux exigences réglementaires. Au fur et à mesure que les organisations partagent des données avec des partenaires externes, des parties prenantes ou des fournisseurs tiers, elles doivent se conformer à des lois et réglementations complexes régissant la collecte, le stockage et le partage d’informations personnelles ou sensibles. La conformité aux réglementations telles que le RGPD dans l’Union européenne, la HIPAA (Health Insurance Portability and Accountability Act) dans le secteur de la santé et la CCPA (California Consumer Privacy Act) en Californie est cruciale pour éviter les responsabilités légales et les pénalités.

Bonnes pratiques en matière de Data Sharing

 

Pour relever ces défis, voici quelques bonnes pratiques :

Établir des politiques de gouvernance claires

 

L’établissement de politiques de gouvernance des données claires est crucial pour permettre un partage des données efficace. Ces politiques impliquent de définir les rôles, les responsabilités et les procédures de gestion, d’accès et de partage des données. En désignant des responsables de données, des administrateurs et des utilisateurs avec des tâches spécifiques, les organisations assurent la responsabilité et la surveillance tout au long du cycle de vie des données.

De plus, des procédures standardisées pour la collecte, le stockage, le traitement et l’archivage des données jouent un rôle crucial dans la promotion de la cohérence et de l’efficacité des pratiques de gouvernance des données. En standardisant ces procédures, les organisations peuvent garantir que les données sont traitées de manière cohérente et systématique dans tous les départements et équipes.

Définir des protocoles de partage de données

 

Définir des protocoles et des directives clairs pour le partage de données à l’intérieur et à l’extérieur de l’organisation est vital pour promouvoir la transparence, la responsabilité et la conformité.

Les organisations doivent établir des critères et des conditions précis pour le partage de données, y compris la définition des objectifs, de la portée et des destinataires prévus des données partagées. Toutes les limitations ou restrictions concernant l’utilisation, la redistribution ou la modification des données doivent être clairement définies pour garantir l’alignement avec les objectifs organisationnels et les mandats légaux. La mise en œuvre de techniques de cryptage, de contrôles d’accès et d’anonymisation des données assure la transmission et le stockage sécurisés des données partagées, améliorant ainsi l’ensemble des mesures de sécurité des données.

De plus, l’élaboration d’accords et de protocoles formels de partage de données est essentielle pour gouverner les activités d’échange de données avec des partenaires externes ou des parties prenantes. Ces accords définissent les droits, les responsabilités et les obligations de chaque partie impliquée dans le processus de partage de données, couvrant des aspects tels que la propriété des données, la confidentialité, les droits de propriété intellectuelle et la responsabilité.

Mettre en place une data marketplace

 

Une place de marché, ou data marketplace, sert de système central où les organisations peuvent facilement partager et accéder à des ressources de données. En consolidant divers ensembles de données provenant de différentes sources, elle simplifie le processus de découverte et d’acquisition de données pertinentes.

De plus, une data marketplace favorise la collaboration et l’innovation en connectant les fournisseurs de données aux consommateurs dans différents secteurs. Les organisations peuvent partager facilement leurs actifs de données sur le marché, tandis que les consommateurs de données ont accès à une vaste gamme de datas pour enrichir leurs insights et leurs stratégies.

De plus, une data marketplace accorde la priorité à la gouvernance des données et à la conformité en respectant les normes et réglementations relatives à la confidentialité, à la sécurité et à l’utilisation des données. Elle fournit des outils et des fonctionnalités pour gérer l’accès aux données, les permissions et le consentement, garantissant que les activités de partage de données sont conformes aux exigences légales et réglementaires.

Partagez les données au sein de votre entreprise avec Zeenea

 

Zeenea offre des capacités de partage de données internes grâce à sa Enterprise Data Marketplace (EDM), où chaque domaine au sein de l’organisation gère son propre catalogue de données fédéré, offrant la flexibilité de partager des objets clés tels que des Data Products, modèles d’IA, tableaux de bord, Glossaires, et bien plus encore à travers l’organisation. Notre plateforme permet aux producteurs de données d’administrer leur catalogue, leurs utilisateurs, leurs permissions et d’identifier les objets qu’ils souhaitent partager avec d’autres domaines de données.

Pourquoi un data catalog est-il essentiel pour la gestion des Data Products ?

Pourquoi un data catalog est-il essentiel pour la gestion des Data Products ?

Le Data Mesh est l’un des sujets les plus tendance dans l’espace data. En effet, selon une récente enquête réalisée par BARC, 54% des entreprises prévoient de mettre en œuvre ou sont en train de mettre en œuvre une approche Data Mesh. Mettre en œuvre une architecture Data Mesh signifie adopter une approche centrée sur le domaine et traiter les données comme un produit. La gestion de Data Products est donc cruciale dans le processus de transformation vers le Data Mesh. L’enquête du groupe Eckerson en 2024 a révélé que 70% des organisations ont ou sont en train de mettre en œuvre des Data Products.

Cependant, de nombreuses entreprises ont du mal à gérer, à maintenir et à tirer profit de la valeur de leurs Data Products – La réussite de la gestion des Data Products nécessite l’harmonisation des bonnes personnes, processus et technologies. Dans cette optique, l’une de ces technologies essentielles est le data catalog.

Dans cet article, découvrez comment un catalogue de données renforce la gestion des Data Products dans les entreprises data-driven.

Rapide définition d’un Data Product

 

Dans un précédent article sur les Data Products, nous avons détaillé la définition et leurs caractéristiques. Chez Zeenea, nous définissons un Data Product comme étant :

« Un ensemble d’actifs de données de valeur, spécifiquement conçus et gérés pour être consommés rapidement et en toute sécurité, tout en garantissant le plus haut niveau de qualité, de disponibilité, et de conformité aux réglementations et aux politiques internes. »

Rappelons-nous des caractéristiques d’un Data Product. Selon Zhamak Dehghani, le gourou du Data Mesh, pour offrir la meilleure expérience utilisateur aux consommateurs de données, les Data Products doivent avoir les qualités de base suivantes :

  • Découvrables
  • Addressables
  • Fiables et dignes de confiance
  • Avoir une sémantique et une syntaxe auto-descriptives
  • Interopérables et gouvernés par des normes globales
  • Sécurisés et gouvernés par un contrôle d’accès global

Comment pouvez-vous vous assurer que vos actifs de données répondent aux critères pour devenir un Data Product fonctionnel et de valeur ? C’est là qu’intervient le catalogue de données.

Qu’est-ce qu’un catalogue de données ?

 

De nombreuses définitions existent pour le data catalog. Chez Zeenea, nous le définissons comme « un inventaire détaillé de tous les actifs informationnels disponibles dans une organisation ainsi que des métadonnées permettant d’exploiter ces actifs. »

Fondamentalement, l’objectif d’un catalogue de données est de créer une bibliothèque complète de tous les actifs de données de l’entreprise, y compris leurs origines, leurs définitions et leurs relations avec d’autres données. Et comme un catalogue pour les livres dans une bibliothèque, les data catalogs facilitent la recherche, la découverte et la recherche de données.

Par conséquent, dans un écosystème où les volumes de données se multiplient et changent à une vitesse phénoménale, il est crucial de mettre en œuvre une solution de catalogage de données – un data catalog répond aux questions de qui, quoi, quand, où et pourquoi de vos données.

Mais, comment cela se rapporte-t-il aux Data Products ? Comme mentionné dans notre paragraphe précédent, les Data Products ont des caractéristiques fondamentales qu’ils doivent respecter pour être considérés comme des Data Products. Plus important encore, ils doivent être compréhensibles, accessibles et mis à la disposition de l’utilisateur final. Par conséquent, un catalogue de données est la solution idéale pour créer et maintenir des Data Products.

En savoir plus sur les capacité de notre solution de data catalog

Un data catalog rend les Data Products découvrables

 

Un data catalog collecte, indexe et met à jour les données et les métadonnées de toutes les sources de données dans un référentiel unique. Grâce à un moteur de recherche intuitif, les catalogues de données simplifient la recherche de Data Products en tapant des mots-clés simples.

Chez Zeenea, notre data catalog permet aux utilisateurs de données non seulement de trouver leurs Data Products, mais aussi de découvrir pleinement leur contexte, y compris leur origine et leurs transformations au fil du temps, leurs propriétaires, et surtout, à quelles autres ressources ils sont liés pour une découverte de données à 360°. Zeenea a été conçue pour que les utilisateurs puissent toujours découvrir leurs Data Products, même s’ils ne savent pas ce qu’ils recherchent. En effet, notre plateforme offre des chemins exploratoires uniques et personnalisés afin que les utilisateurs puissent rechercher et trouver les informations dont ils ont besoin en quelques clics seulement.

En savoir plus sur nos capacités en matière de data discovery

Un data catalog rend les Data Products adressables

 

Une fois qu’un consommateur de données a trouvé le Data Product, il doit pouvoir y accéder ou demander l’accès de manière simple, facile et efficace. Bien qu’un catalogue de données ne joue pas un rôle direct dans l’adressabilité, il peut certainement faciliter et automatiser une partie du travail. Une solution de catalogage automatisé se branche sur des solutions de policy enforcement, accélérant l’accès aux données (si l’utilisateur dispose des autorisations appropriées).

Un data catalog s’assure que les Data Products sont dignes de confiance

 

Chez Zeenea, nous croyons fermement qu’un data catalog n’est pas un outil de qualité des données. Cependant, notre catalogue récupère et met à jour automatiquement les indicateurs de qualité à partir des systèmes de data quality management tiers. Avec Zeenea, les utilisateurs peuvent consulter leurs indicateurs de qualité via un graphique convivial et identifier instantanément les contrôles de qualité qui ont été effectués, ainsi que leur quantité, et s’ils ont réussi, échoué ou émis des avertissements. De plus, nos capacités de lignage fournissent des informations statistiques sur les données et reconstituent le lineage du Data Product, ce qui facilite la compréhension de l’origine et des différentes transformations au fil du temps. Ces fonctionnalités combinées renforcent la confiance dans les données et garantissent que les utilisateurs travaillent toujours avec des Data Products de qualité.

En savoir plus sur nos capacités en matière de conformité des données

Un data catalog rend les Data Products compréhensibles

 

Un des rôles les plus significatifs d’un data catalog est de fournir tout le contexte nécessaire pour comprendre les données. En documentant efficacement les données, tant sur le plan technique que métier, les consommateurs data peuvent facilement comprendre la nature de leurs données et tirer des conclusions. Chez Zeenea, les responsables data peuvent facilement créer des modèles de documentation pour leurs Data Products en en documentant chaque aspect, y compris des descriptions détaillées, les Objets du Glossaire liés, les relations avec d’autres Data Products, et plus encore. En fournissant une vue structurée et transparente de vos données, le catalogue de données de Zeenea favorise l’utilisation autonome des Data Products par les consommateurs de données dans l’organisation.

En savoir plus sur nos capacités de Data Stewardship

Un data catalog permet l’interopérabilité des Data Products

 

Avec une documentation complète, un data catalog facilite l’intégration des Data Products à travers différents systèmes et plateformes. Il offre une vue claire des dépendances entre les Data Products et des relations entre différentes technologies, garantissant le partage de normes dans toute l’organisation. De plus, un catalogue de données maintient un référentiel de métadonnées unifié, contenant des définitions standardisées, des formats et une sémantique pour divers actifs de données. Chez Zeenea, notre plateforme est construite sur une technologie de Knowledge Graph puissante qui identifie, classifie et suit automatiquement les Data Products en fonction de facteurs contextuels, cartographiant les actifs de données pour répondre aux normes définies au niveau de l’entreprise.

En savoir plus sur le Knowledge Graph

Un data catalog permet la sécurité des Data Products

 

Un data catalog comprend généralement des mécanismes robustes de contrôle d’accès qui permettent aux organisations de définir et de gérer les autorisations des utilisateurs. Cela garantit que seul le personnel autorisé a accès aux métadonnées sensibles, réduisant ainsi le risque d’accès non autorisé ou de data breach. Chez Zeenea, créez un data catalog sécurisé, où seules les bonnes personnes peuvent agir sur la documentation d’un Data Product.

En savoir plus sur notre modèle de permission

Commencez à gérer les Data Products dans Zeenea

 

Vous souhaitez en savoir plus sur le fonctionnement de la gestion des Data Products dans Zeenea ? Obtenez une démo personnalisée de 30 minutes avec l’un de nos experts dès maintenant !

En attendant, consultez notre Feature Note sur la gestion des Data Products.

 

5 raisons d’enrichir votre Data Catalog avec une Enterprise Data Marketplace (EDM)

5 raisons d’enrichir votre Data Catalog avec une Enterprise Data Marketplace (EDM)

Au cours de la dernière décennie, les data catalogs ont émergé en tant que piliers dans l’écosystème data. Cependant, de nombreux fournisseurs ne répondent pas aux attentes – avec en cause des délais prolongés, des projets complexes et coûteux, des modèles bureaucratiques de gouvernance des données, des taux d’adoption faibles et une création de valeur limitée. Cette problématique va au-delà des projets de gestion des métadonnées, reflétant un échec plus général au niveau de la gestion des données.

La situation actuelle révèle une déconnexion entre la compétence technique et la connaissance métier, un manque de collaboration entre producteurs et consommateurs de données, des problèmes persistants de latence et de qualité des données, et une scalabilité insatisfaite des sources de données et des cas d’usage. Malgré d’importants investissements en personnel et en technologie, les entreprises se retrouvent à faire face à une réalité brutale : l’incapacité à répondre aux besoins métier.

La bonne nouvelle, cependant, est que cette situation peut être inversée via l’adoption d’une Enterprise Data Marketplace (EDM) et en tirant parti des investissements existants.

Présentation de l’Enterprise Data Marketplace

 

Une EDM n’est pas une solution universelle, mais plutôt transformative. Elle oblige les entreprises à revoir leur approche du data management en introduisant une nouvelle entité – les Data Products. Un Data Mesh robuste, tel que préconisé par Zhamak Dehghani dans son article, devient impératif, l’EDM servant de couche expérientielle au sein du Data Mesh.

Cependant, le paysage a évolué avec une nouvelle génération d’EDM – une plateforme de partage de données intégrée à un Data Catalog fédéré :

 

EDM = Plateforme de Partage de Données + Data Catalog Puissant

 

C’est précisément ce que Zeenea accomplit et prévoit d’améliorer davantage, avec notre définition d’une EDM :

Une Enterprise Data Marketplace est une solution offrant une expérience similaire au e-commerce, où les producteurs de données publient leurs Data Products et les consommateurs de données explorent, comprennent et acquièrent ces Data Products publiés.

La marketplace fonctionne sur le catalogue de données, facilitant le partage et l’échange des données des domaines les plus précieuses, packagées en tant que Data Products.

Pourquoi compléter votre Data Catalog avec une Enterprise Data Marketplace ?

 

Nous avons compilé 5 raisons principales d’enrichir votre Data Catalog avec à une Enterprise Data Marketplace.

Raison n°1 : Rationaliser le Processus de Création de Valeur

 

En confiant aux domaines la responsabilité de créer des Data Products, vous libérez la valeur des connaissances détenues par les métiers et favorisez une collaboration plus fluide avec les data engineers, data scientists et les équipes IT. Alignés sur des objectifs métier partagés, la conception, la création et la maintenance des Data Products prêts à l’emploi s’appuient sur une mentalité de Product Design Thinking.

Dans ce cadre, les équipes s’organisent de manière autonome, rationalisant les cérémonies pour une livraison incrémentale des Data Products, apportant de la fluidité au processus de création. Comme les Data Products intègrent des métadonnées fraîches pour guider les consommateurs de données dans leur utilisation, une EDM assume un rôle crucial dans la définition et l’exploration des métadonnées liées aux Data Products – servant essentiellement d’Experience Plane au sein de l’approche Data Mesh.

En respectant les subtilités spécifiques au domaine, il y a une réduction notable à la fois du volume et du type de métadonnées, aux côtés d’un processus de curation plus efficace. Dans de tels cas, une EDM robuste, ancrée sur un catalogue de données puissant comme Zeenea, émerge comme le moteur central du Data Mesh. L’EDM facilite non seulement la conception d’ontologies spécifiques au domaine, mais elle dispose également de capacités de collecte automatisée à partir de sources de données onprem et sur le Cloud. De plus, elle permet la fédération de data catalogs pour mettre en œuvre diverses topologies de Data Mesh et offre aux utilisateurs finaux une expérience de shopping des données aussi intuitive qu’un site d’e-commerce.

Raison n°2 : Rationaliser les Investissements Existants

 

En utilisant une EDM (aux côtés d’un Data Catalog puissant), les investissements existants dans les plateformes de données modernes et dans les ressources humaines peuvent être considérablement optimisés. Éliminer les pipelines de données complexes, où les données n’ont souvent pas besoin d’être déplacées, entraîne des économies substantielles. De même, réduire les réunions de synchronisation complexes, nombreuses et inutiles avec des équipes pluridisciplinaires conduit à des économies de temps considérables.

Par conséquent, une approche ciblée est conservée via l’organe de gouvernance fédéré, se concentrant uniquement sur les activités liées au Data Mesh. Cette stratégie ciblée optimise l’allocation des ressources et accélère la création de Data Products délégués et incrémentaux, réduisant le time-to-value.

Pour garantir des résultats mesurables, la mesure des performances des Data Products avec des KPI précis devient primordiale – cette mesure proactive améliore la prise de décision et contribue à la livraison de résultats tangibles.

Raison n°3 : Booster l’Adoption vs. un Simple Data Catalog

 

Une EDM, couplée à un Data Catalog puissant, joue un rôle crucial dans l’adoption par les utilisateurs dans l’entreprise. Au niveau du domaine, la marketplace aide à concevoir et à collecter des métadonnées spécifiques au domaine facilement compréhensibles par les utilisateurs métier du domaine. Cela occulte le besoin d’une « couche commune », une embûche typique dans l’adoption de Data Catalogs. Au niveau du Mesh, elle offre des moyens de consommer efficacement les Data Products, fournissant des informations sur la localisation, la version, la qualité, l’état, la provenance, la plateforme, le schéma, etc. Un métamodèle dynamique spécifique au domaine, associé à des capacités de recherche et de découverte puissantes, font de l’EDM un élément déterminant.

La valeur ajoutée d’une EDM réside dans la fourniture de droits de provisionnement et d’accès, intégrant des systèmes de ticketing, des plates-formes dédiées à l’application des politiques de données, et des fonctionnalités des fournisseurs de plateformes de données modernes – un concept appelé Gouvernance des Données Informatiques.

Raison n°4 : Clarifier les Responsabilités et Mesurer la Valeur Créée

 

Appliquer les principes de product management aux Data Products et attribuer la propriété aux domaines apportent de la clarté en termes de responsabilités. Chaque domaine devient responsable de la conception, de la production et de la gestion du cycle de vie de ses Data Products. Cette approche ciblée garantit que les rôles et les attentes sont bien définis.

L’EDM ouvre ensuite les Data Products à l’ensemble de l’organisation, établissant des normes auxquelles les domaines doivent adhérer. Cette exposition contribue à maintenir la cohérence et garantit que les Data Products sont alignés sur les objectifs organisationnels et les normes de qualité.

Dans le cadre de l’EDM, les entreprises établissent des KPI tangibles pour surveiller la performance économique des Data Products. Cette approche proactive permet aux organisations d’évaluer l’efficacité de leurs stratégies data. De plus, elle donne aux consommateurs de données la possibilité de contribuer au processus d’évaluation grâce à des évaluations participatives, favorisant un environnement collaboratif et inclusif pour la rétroaction et l’amélioration.

Raison n°5 : Appliquer les Principes du Développement Logiciel Lean à la Stratégie Data

 

La création de Data Products suit un paradigme similaire aux principes de Développement Logiciel Lean qui ont révolutionné la transformation digitale. Adopter des principes tels que l’élimination du gaspillage, l’amplification de l’apprentissage, la prise de décision tardive, la livraison rapide et la construction de la qualité est essentiel à l’approche Data Mesh.

Dans ce contexte, l’EDM agit comme une plateforme collaborative pour les équipes engagées dans la création de Data Products. Elle facilite :

 

  • Les fonctionnalités de Data Discovery : Offrant une curation technique automatique des types de données, des informations de lignage et des schémas, permettant la création rapide de produits ad hoc.
  • La collecte de métadonnées spécifiques au Data Mesh : L’EDM intègre des capacités de curation automatique de métadonnées spécifiquement conçues pour le Data Mesh, à condition que le Data Catalog dispose de capacités de fédération 
  • Couverture à 360° des informations sur les Data Products : Assurant une couverture complète des informations liées aux Data Products, englobant leur conception et leurs aspects de livraison.

En conclusion, la collaboration entre une Enterprise Data Marketplace et un Data Catalog améliore non seulement l’écosystème global des données, mais apporte également des avantages tangibles en optimisant les investissements, en réduisant les complexités inutiles et en améliorant l’efficacité du processus de création de valeur des données.

Tout savoir sur les Data Products

Tout savoir sur les Data Products

Ces dernières années, le data management connaît un changement de paradigme avec l’émergence du Data Mesh. Inventé par Zhamak Dehghani en 2019, le Data Mesh est une architecture qui favorise une approche décentralisée et orientée vers les domaines pour la gestion des données. Un principe notable dans l’architecture Data Mesh consiste à considérer les données comme des produits, introduisant ainsi le concept de Data Products. Cependant, le terme Data Product est souvent utilisé sans une compréhension claire de son essence. Dans cet article, nous partageons tout ce que vous devez savoir sur les Data Products et l’approche centrée sur le produit (product thinking).

Transition vers une approche de type product thinking

 

Pour que les organisations considèrent les données comme des produits et transforment leurs jeux de données en Data Products, il est essentiel que les équipes adoptent d’abord une mentalité orientée produit. Selon J. Majchrzak et al. dans Data Mesh in Action,

L’approche centrée sur le produit sert comme méthodologie pour la résolution de problèmes, en accordant une priorité à la compréhension complète des besoins des utilisateurs et du problème central avant de se plonger dans le processus de création du produit. L’objectif principal est de réduire l’écart entre les exigences des utilisateurs et la solution proposée.

Dans leur livre, ils mettent en avant deux principes fondamentaux :

  • Agir sur le problème, pas sur la solution : Avant d’entamer la phase de conception d’un produit, il est impératif de comprendre les utilisateurs et le problème spécifique qui est adressé.
  • Penser produit, pas fonctionnalité : Bien qu’il y ait une inclination naturelle à se concentrer sur l’ajout de nouvelles fonctionnalités et la personnalisation, il est crucial de considérer les données comme un produit qui satisfait directement les besoins des utilisateurs.

Ainsi, avant de dévoiler un jeu de données, adopter une approche de type product thinking implique de se poser ces questions essentielles :

  • Quel problème souhaitez-vous résoudre ?
  • Qui utilisera votre produit ?
  • Pourquoi faites-vous cela ? Quelle est la vision derrière ?
  • Quelle est votre stratégie ? Comment allez-vous faire ?

 

Voici quelques exemples de réponses à ces questions tirées d’un extrait de Data Mesh in Action :

Quel problème souhaitez-vous résoudre ? : Actuellement, les données déclaratives sur les coûts de production sont utilisées pour la facturation directe, entre l’équipe de production et l’équipe financière. Le fichier de données a également des coûts ventilés par catégories. Ces informations pourraient être utilisées pour des analyses plus complexes et des comparaisons de coûts entre les catégories de différentes productions. Par conséquent, rendre ces données plus largement disponibles pour des analyses complexes a du sens.

Qui utilisera votre produit ? : Le data analyst l’utilisera pour analyser manuellement et compiler les coûts de production et prévoir les budgets pour de nouvelles productions. L’ingénieur de données l’utilisera pour importer des données dans la solution analytique.

Pourquoi faites-vous cela ? Quelle est la vision derrière ? : Nous créerons une solution dédiée et personnalisée pour analyser les données des coûts de production et les activités de planification. Les ingénieurs de données peuvent utiliser les fichiers originaux pour importer des données historiques.

Lire l’extrait complet : https://livebook.manning.com/book/data-mesh-in-action/chapter-5/37

Définition du Data Product

 

La philosophie du product thinking nous pousse donc à voir un Data Product à travers un développement continu à long terme, une adaptation issue des retours utilisateurs et un engagement pour l’amélioration continue et la qualité. Un produit peut être un objet, un système ou un service mis à disposition pour l’utilisation du consommateur, à sa demande. Alors, qu’est-ce qui fait d’un produit un Data Product ?

Chez Zeenea, nous définissons un Data Product comme un ensemble d’actifs de données de valeur, spécifiquement conçus et gérés pour être consommés rapidement et en toute sécurité, tout en garantissant le plus haut niveau de qualité, de disponibilité, et de conformité aux réglementations et aux politiques internes.

Selon Data Mesh in Action, l’utilisation délibérée du terme produit dans le contexte Data Mesh est intentionnelle et s’oppose au terme couramment utilisé de projet dans les initiatives organisationnelles. Il est important de souligner que la création d’un Data Product n’est pas synonyme de projet. Comme décrit dans Products Over Projects de Sriram Narayan, les projets sont des efforts temporaires visant à atteindre des objectifs spécifiques, avec une fin définie qui ne conduit pas nécessairement à une continuité.

Caractéristiques Fondamentales d’un Data Product

 

Dans How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh, Zhamak Dehghani affirme qu’un Data Product doit présenter les caractéristiques suivantes :

Découvrable

 

Assurer la facilité de découverte d’un Data Product est impératif. Une approche largement adoptée consiste à mettre en œuvre un registre ou un catalogue de données contenant des méta-informations complètes telles que les propriétaires, la source, le lignage et des extraits de jeux de données pour tous les Data Products disponibles. Cette découvrabilité centralisée permet aux consommateurs de données, aux data engineers et data scientists au sein d’une organisation de localiser facilement des jeux de données d’intérêt.

Addressable

 

Une fois découvert, un Data Product doit posséder une adresse unique suivant une convention globale. Les organisations, influencées par le stockage et le format de leurs données, peuvent adopter différentes conventions de dénomination. À la recherche d’un accès facilité, les conventions communes deviennent indispensables dans une architecture décentralisée.

Fiable et digne de confiance

 

Les propriétaires de Data Products doivent s’engager sur des Objectifs de Niveau de Service concernant la véracité des données, nécessitant l’arrêt des extractions traditionnelles sujettes aux erreurs. L’utilisation de techniques telles que le nettoyage des données et les tests automatisés d’intégrité sont cruciales pour garantir un niveau de qualité acceptable lors de la création du Data Product.

Une sémantique et une syntaxe auto-descriptives

 

Les Data Products de haute qualité exigent une expérience utilisateur autonome – ils doivent être indépendamment découvrables, compréhensibles et consommables. Pour construire des jeux de données en tant que produits avec un minimum de friction pour les ingénieurs et les data scientists, il est essentiel d’articuler rigoureusement la sémantique et la syntaxe des données.

Interopérable et gouverné par des normes globales

 

Corréler des données à travers des domaines dans une architecture distribuée repose sur le respect de normes globales et des règles d’harmonisation. La gouvernance des normes, comprenant le formatage des champs, l’identification des polysèmes, les conventions d’adresse, les champs de métadonnées et les formats d’événements, assurent l’interopérabilité et une corrélation significative.

Sécurisé et gouverné par un contrôle d’accès global :

 

Sécuriser l’accès aux jeux de données des produits est impératif, que l’architecture soit centralisée ou non. Dans le monde des Data Products décentralisés et orientés vers les domaines, le contrôle d’accès opère à un niveau plus nuancé – spécifiquement adapté à chaque Data Product d’un domaine. Tout comme les domaines opérationnels définissent de manière centralisée les politiques de contrôle d’accès, ces politiques sont appliquées dynamiquement lors de l’accès aux jeux de données individuels. Tirer parti d’un Système de Gestion de l’Identité d’entreprise, souvent facilité par une authentification unique (SSO), et l’utilisation de politiques de contrôle d’accès basées sur les rôles (RBAC), offre une approche pratique et efficace pour mettre en œuvre le contrôle d’accès pour les jeux de données des produits.

Exemples de Data Products

 

Un Data Product potentiel peut prendre diverses formes, avec différentes représentations de données qui apportent de la valeur aux utilisateurs. Voici plusieurs exemples de technologies contenant des Data Products :

 

  • Moteurs de Recommandation : Des plateformes telles que Netflix, Amazon et Spotify utilisent des moteurs de recommandation en tant que Data Products pour suggérer du contenu ou des produits en fonction du comportement et des préférences des utilisateurs.
  • Modèles d’Analyse Prédictive : Les modèles prédisant la perte de clients, les prévisions de ventes ou les défaillances d’équipements sont des exemples de Data Products qui fournissent des informations précieuses pour la prise de décision.
  • Systèmes de Détection de Fraude : Les institutions financières déploient des Data Products pour détecter et prévenir les activités frauduleuses en analysant les modèles de transactions et en identifiant les anomalies.
  • Campagnes de Marketing Personnalisées : La publicité ciblée et les campagnes de marketing personnalisées utilisent des Data Products pour adapter le contenu en fonction des données démographiques, du comportement et des interactions historiques des utilisateurs.
  • Outils de Diagnostic Médical : Les outils de diagnostic qui analysent les données médicales, telles que les dossiers des patients et les résultats d’analyses, dans le but d’aider les professionnels de santé à poser des diagnostics précis.

Retour sur les évolutions de la plateforme Zeenea en 2023

Retour sur les évolutions de la plateforme Zeenea en 2023

2023 a été une belle année pour Zeenea. Avec plus de 50 releases et mises à jour de notre plateforme, ces 12 derniers mois ont été riches en nouveautés et améliorations pour libérer la valeur de vos données d’entreprise. En effet, nos équipes travaillent constamment sur des fonctionnalités qui simplifient et améliorent la vie quotidienne de vos équipes data et métier.

Dans cet article, nous sommes heureux de partager certaines de nos fonctionnalités préférées de 2023 qui ont permis à nos clients de :

  • Réduire le temps de recherche et de découverte des données
  • Augmenter la productivité et l’efficacité des Data Stewards
  • Fournir des informations fiables, sécurisées et conformes dans l’ensemble de l’organisation
  • Établir une connectivité de bout en bout avec toutes leurs sources de données

Réduire le temps de recherche et de découverte des données

 

L’une des valeurs fondamentales du produit Zeenea est la simplicité. Nous sommes convaincus que la découverte des données doit être simple et rapide afin d’accélérer les initiatives data dans l’ensemble de l’organisation.

De nombreuses équipes chargées des données ont encore du mal à trouver les informations dont elles ont besoin pour établir un rapport ou un cas d’usage spécifique. Soit parce qu’elles ne parviennent pas à localiser les données parce qu’elles sont dispersées dans diverses sources, fichiers ou feuilles de calcul, soit parce qu’elles sont confrontées à une quantité colossale d’informations et qu’elles ne savent même pas par où commencer leur recherche.

En 2023, nous avons continué de faire évoluer notre plateforme pour qu’elle soit la plus simple possible à utiliser. En offrant des moyens simples et rapides d’explorer les données, Zeenea a permis à nos clients de trouver, découvrir et comprendre leurs actifs en quelques secondes.

Un nouveau look pour Zeenea Explorer

 

L’une des premières façons dont nos équipes ont voulu améliorer l’expérience de découverte de nos clients a été de fournir une expérience plus conviviale sur notre application d’exploration de données, Zeenea Explorer. Cette refonte comprenait :

Une nouvelle page d’accueil

 

Notre page d’accueil avait besoin d’un lifting pour une expérience de découverte plus fluide. En effet, pour les utilisateurs qui ne savent pas ce qu’ils cherchent, nous avons ajouté de tout nouveaux chemins d’exploration directement accessibles via la page d’accueil de Zeenea Explorer.

 

  • Navigation par Type d’Objet : Si l’utilisateur est sûr du type de données qu’il recherche, comme un jeu de données, une visualisation, un processus ou une donnée personnalisée, il accède directement au catalogue pré-filtré avec le type de données recherché.
  • Navigation dans le Glossaire Métier : Les utilisateurs peuvent rapidement naviguer dans le glossaire métier de l’entreprise en accédant directement aux ressources du glossaire qui ont été définies ou importées par les Data Stewards dans Zeenea Studio.
  • Navigation par Thème : L’application permet aux utilisateurs de naviguer dans une liste d’Objets qui représentent un thème spécifique, un cas d’usage ou tout autre élément pertinent pour l’entreprise (plus d’informations ci-dessous).
New Zeenea Explorer Homepage 2023

De nouvelles pages de détail des Objets

 

Pour comprendre un Objet du Catalogue en un coup d’œil, l’un des premiers changements notables a été la position des onglets de l’Objet. À l’origine, les onglets étaient placés sur le côté gauche de la page, ce qui prenait beaucoup de place. Désormais, les onglets se trouvent en haut de la page, ce qui correspond mieux à la présentation de l’application Zeenea Studio. Cette nouvelle disposition permet aux consommateurs de données de trouver les informations les plus significatives sur un Objet, telles que :

  • Les propriétés mises en évidence, définies par le Data Stewards dans la conception du catalogue,
  • Les termes associés du glossaire, pour comprendre le contexte de l’Objet,
  • Les personnes clés, pour atteindre rapidement les contacts liés à l’Objet.

En outre, notre nouvelle mise en page permet aux utilisateurs de trouver instantanément tous les Champs, les métadonnées et tous les autres Objets liés. Divisés en trois onglets distincts dans l’ancienne version, les consommateurs de données trouvent désormais la description de l’Objet et tous les Objets liés dans un seul onglet nommé « Détails ». En effet, selon le Type d’Objet que vous parcourez, tous les Champs, entrées et sorties, Objets du Glossaire parents/enfants, implémentations et autres métadonnées se trouvent dans la même section, ce qui vous permet de gagner un temps précieux dans la recherche de données.

Enfin, les espaces pour nos composants graphiques ont été agrandis – les utilisateurs ont maintenant plus de place pour voir le lignage de leur Objet, le modèle de données, etc.

New Item Detail Page Zeenea Explorer

Un nouveau système de filtrage

 

Zeenea Explorer offre un système de filtrage intelligent pour contextualiser les résultats de recherche. Il y a des filtres préconfigurés de Zeenea, comme par exemple, un filtrage par Type d’Objet, Connexion, Contact, ou par les filtres personnalisés de l’organisation. Pour des recherches encore plus efficaces, nous avons repensé notre page de résultats de recherche et notre système de filtrage :

 

  • Les filtres disponibles sont toujours visibles, ce qui permet d’affiner plus facilement la recherche,
  • En cliquant sur un résultat de recherche, un panneau d’aperçu contenant plus d’informations est toujours disponible sans perdre le contexte de la recherche,
  • Les filtres les plus pertinents pour la recherche sont placés en haut de la page, ce qui permet d’obtenir rapidement les résultats nécessaires pour des cas d’usage spécifiques.
New Filtering System Explorer

Exploration du catalogue par Thème

 

L’une des principales nouveautés de 2023 est notre fonctionnalité nommée Thèmes. En effet, pour permettre aux utilisateurs métier de trouver (encore plus !) rapidement leurs actifs de données pour leurs cas d’usage, les Data Stewards peuvent facilement définir des Thèmes dans Zeenea Studio. Pour ce faire, ils sélectionnent simplement les filtres dans le Catalogue qui représentent un Thème spécifique, un cas d’usage, ou tout autre élément pertinent pour l’entreprise.

Les équipes data qui utilisent Zeenea Explorer peuvent donc facilement et rapidement effectuer des recherches dans le catalogue par Thème afin de réduire leur temps de recherche de l’information dont elles ont besoin. Les Thèmes sont directement accessibles sur la page d’accueil de Zeenea Explorer et la barre de recherche lors de la navigation dans le catalogue.

Browse By Topic Explorer New

Des noms alternatifs pour les Objets du Glossaire

 

Afin que les utilisateurs puissent trouver facilement les données et les termes métier dont ils ont besoin pour leurs cas d’usage, les Data Stewards peuvent ajouter des synonymes, des acronymes et des abréviations pour les éléments du glossaire !

Ex : Customer Relationship Management > CRM

Alternative Names Zeenea Studio

Amélioration des performances de recherche

 

Tout au long de l’année, nous avons mis en œuvre un grand nombre d’améliorations afin d’accroître l’efficacité du processus de recherche. L’ajout de “mots vides” (stop words), comprenant les pronoms, les articles et les prépositions, permet d’obtenir des résultats plus précis et plus pertinents pour les requêtes. En outre, nous avons ajouté un opérateur « INFIELD : », qui permet aux utilisateurs de rechercher les Jeux de Données contenant des Champs spécifiques.

Search In Fields Explorer

Intégration de Microsoft Teams

 

Zeenea a également renforcé ses capacités de communication et de collaboration. Plus précisément, lorsqu’un contact est lié à une adresse email Microsoft, Zeenea facilite désormais le lancement de conversations directes via Teams. Cette intégration permet aux utilisateurs de Teams d’engager rapidement le dialogue avec les personnes concernées pour obtenir des informations supplémentaires sur des Objets spécifiques. D’autres intégrations avec divers outils sont en cours de développement ⭐

Microsoft Teams Zeenea Explorer

Augmenter la productivité et l’efficacité des Data Stewards

 

L’objectif de Zeenea est de simplifier la vie des producteurs de data afin qu’ils puissent gérer, maintenir et enrichir la documentation de leurs données d’entreprise en quelques clics. Voici quelques fonctionnalités et améliorations qui aident à rester organisé, concentré et productif.

Imports automatiques des Jeux de Données

 

Lors de l’importation de nouveaux Jeux de Données dans le catalogue, les administrateurs peuvent activer la fonction d’import automatique qui importe automatiquement les nouveaux Objets après chaque inventaire programmé. Cette amélioration fait gagner du temps augmente l’efficacité opérationnelle, permettant aux Data Stewards de se concentrer sur des tâches plus stratégiques plutôt que sur le processus d’importation de routine.

Auto Import Zeenea Studio 2

Suppression des Champs orphelins

 

Nous avons également ajouté la possibilité de gérer plus efficacement les Champs orphelins. Cela inclut la possibilité d’effectuer des suppressions en masse de champs orphelins, ce qui accélère le processus de désencombrement et d’organisation du catalogue. Les Stewards peuvent également supprimer un seul Champ orphelin directement à partir de sa page de détails, apportant une approche plus granulaire et plus précise de la maintenance du catalogue.

Orphan Field Details

Construction de de rapports basés sur le contenu du catalogue

 

Nous avons ajouté une nouvelle section dans Zeenea Studio – le Tableau de Bord Analytique – pour générer facilement des rapports basés sur le contenu et l’usage du catalogue de l’organisation.

Directement sur la page du Tableau de Bord Analytique, les Data Stewards peuvent voir le niveau de complétude de leurs Types d’Objets, y compris les Objets personnalisés. Chaque composant est cliquable pour afficher rapidement la section du catalogue filtrée par le Type d’Objet sélectionné.

Pour obtenir des informations plus détaillées sur le niveau de complétude d’un Type d’Objet en particulier, les Stewards peuvent créer leurs propres analyses ! Ils sélectionnent le Type d’Objet et une Propriété, et ils peuvent consulter, pour chaque valeur de cette Propriété, le niveau de complétude de tous les l’élément du template du Type d’Objet, y compris sa description, et les Objets du Glossaire qui y sont liés.

New Analytics Dashboard Gif Without Adoption

Nouveau look pour le Tableau de Bord du Steward

 

Zeenea Explorer n’est pas la seule application à avoir fait peau neuve ! En effet, pour aider les gestionnaires de données à rester organisés, concentrés et productifs, nous avons repensé la présentation du Tableau de Bord pour qu’il soit plus intuitif et que le travail soit effectué plus rapidement. Cela inclut :

 

  • Nouveau design du Périmètre : Un tout nouveau niveau de personnalisation lors de la connexion au Tableau de Bord. Le périmètre s’étend désormais au-delà du niveau de complétude des Jeux de Données – il inclut tous les Objets pour lesquels on est Dépositaire, y compris les Champs, les traitement de données, les Objets du Glossaire et les Objets Personnalisés.
  • Widget des Watchlists : Tout comme les Data Stewards peuvent créer des Thèmes pour améliorer l’organisation des utilisateurs des Explorers, ils peuvent désormais créer des Watchlists pour faciliter l’accès aux Objets nécessitant des actions spécifiques. En filtrant le catalogue avec les critères de leur choix, ils enregistrent ces préférences en tant que nouvelle Watchlist via le bouton « Enregistrer les filtres sous », et y accèdent directement via le widget Watchlist lorsqu’ils se connectent à leur Tableau de Bord.
  • Le widget Dernières Recherches : Il s’adresse désormais spécifiquement au Data Steward, en se concentrant sur ses recherches récentes pour permettre de reprendre là où il/elle s’était arrêté.
  • Le widget Objets les plus populaires : Il présente les Objets les plus consultés et les plus utilisés dans le périmètre du Steward par les autres utilisateurs. Chaque Objet est cliquable, ce qui permet d’accéder instantanément à son contenu.

 

Lire la Feature Note

New Steward Dashboard Studio

Fournir des informations fiables, sécurisées et conformes dans l’ensemble de l’organisation

Échantillonnage de données sur les Jeux de Données

 

Pour certaines connexions, il est possible d’obtenir un échantillonnage de données pour les Jeux de Données. Nos capacités de data sampling permettent aux utilisateurs d’obtenir des sous-ensembles représentatifs d’ensembles de données existants, offrant une approche plus efficace pour travailler avec de grands volumes de données. Lorsque l’échantillonnage des données est activé, les administrateurs peuvent configurer les champs pour qu’ils soient offusqués, ce qui réduit le risque d’affichage d’informations personnelles sensibles.

Cette fonction revêt une grande importance pour nos clients, car elle permet aux utilisateurs de gagner un temps précieux et d’économiser des ressources en travaillant avec des portions plus petites, mais représentatives, de vastes Jeux de Données. Elle permet également d’identifier rapidement les problèmes liés aux données, améliorant ainsi la qualité globale des données et les analyses ultérieures. Plus particulièrement, la capacité d’offusquer les Champs répond à des préoccupations essentielles en matière de confidentialité et de sécurité, en permettant aux utilisateurs de travailler avec des sous-ensembles anonymisés ou pseudonymisés de données sensibles, en garantissant la conformité avec les réglementations en matière de confidentialité et en protégeant les données contre les accès non autorisés.

Data Sampling Zeenea Studio

Puissantes capacités de lignage

 

En 2022, nous avons apporté de nombreuses améliorations à notre graphe de lignage. Non seulement nous avons simplifié sa conception et sa mise en page, mais nous avons également permis aux utilisateurs d’afficher uniquement le premier niveau de lignage, de développer et de fermer le lignage à la demande, et d’obtenir une vue en surbrillance du lignage directe d’un Objet sélectionné.

Cette année, nous avons apporté d’autres modifications importantes à l’interface utilisateur, notamment la possibilité de développer ou de réduire tous les niveaux de lignage en un seul clic, de masquer les processus de données qui n’ont pas au moins une entrée et une sortie, et de visualiser facilement les connexions à l’aide d’une infobulle pour les connexions dont les noms sont longs.

Cependant, la nouveauté la plus notable est la possibilité d’avoir un data lineage au niveau du Champ ! En effet, il est désormais possible de récupérer les Champs d’entrée et de sortie des tables et des rapports, et pour plus de contexte, d’ajouter la description de l’opération. Ensuite, les utilisateurs peuvent directement visualiser leurs transformations au niveau du Champ au fil du temps dans le graphe de lignage des données dans Zeenea Explorer et Zeenea Studio.

Field Level Lineage Zeenea Studio 2

Informations sur la qualité des données

 

En s’appuyant sur les technologies GraphQL et le Knowledge Graph, Zeenea offre une approche flexible pour intégrer les meilleures solutions de gestion de la qualité de données. Via nos capacités d’API de catalogue, Zeenea synchronise les Jeux de Données par le biais de simples opérations de requête et de mutation à partir d’un outil de Data Quality Management (DQM) tiers. L’outil de DQM fournira en temps réel les résultats de l’analyse de la qualité des données du Jeu de Données correspondant dans la plateforme, ce qui permettra aux utilisateurs d’examiner facilement les informations relatives à la qualité des données directement dans le catalogue.

Cette nouvelle fonctionnalité comprend :

  • Un onglet Qualité des données dans les pages de détails de votre Jeu de Données, où les utilisateurs peuvent voir ses contrôles de qualité exécutés ainsi que leurs type, statut, description, dernière date d’exécution, etc.
  • La possibilité d’afficher plus d’informations sur la qualité de l’ensemble de données directement dans l’outil DQM via le lien « Ouvrir le Tableau de Bord dans [Nom de l’outil] ».
  • Un indicateur de la qualité des données d’un Jeu de Données directement affiché dans les résultats de la recherche et dans le lignage.

 

Lire la Feature Note

Zeenea Explorer Data Quality Graph

Établir une connectivité de bout en bout avec toutes leurs sources de données

 

Avec Zeenea, vous vous connectez à toutes vos sources de données en quelques secondes. Les scanners et API intégrés de notre plateforme permettent aux organisations de collecter, consolider et relier automatiquement les métadonnées dans leur écosystème. Cette année, nous avons apporté des améliorations significatives à notre connectivité pour permettre à nos clients de construire une plateforme qui représente réellement leur écosystème de données.

Une API de gestion du Catalogue

 

Reconnaissant l’importance de l’intégration des API, Zeenea a développé de puissantes capacités API qui permettent aux organisations de connecter et d’exploiter de manière transparente leur catalogue de données au sein de leur écosystème existant.
En 2023, Zeenea a développé l’API Catalogue, qui aide les gestionnaires de données dans leurs tâches de documentation. Elle comprennent :

Des opérations de requêtes pour récupérer des actifs spécifiques du catalogue : Les opérations de requête de notre API incluent la récupération d’un actif spécifique, en utilisant sa référence unique ou par son nom et son type, ou la récupération d’une liste d’actifs via une connexion ou un Type d’Objet donné. En effet, l’API Catalogue de Zeenea permet une certaine flexibilité lors des requêtes, permettant de restreindre les résultats afin de ne pas être submergé par une pléthore d’informations.

Opérations de mutation pour créer et mettre à jour les actifs du catalogue : Pour gagner encore plus de temps lors de la documentation et de la mise à jour des données de l’entreprise, l’API Catalogue de Zeenea permet aux producteurs de données de créer, modifier et supprimer facilement des ressources du Catalogue. Cela permet de créer, mettre à jour et supprimer des Objets Personnalisés et des processus de données ainsi que leurs métadonnées associées, et de mettre à jour les Jeux de Données et Visualisations. Cela est également possible pour les Contacts. Ceci est particulièrement important lorsque les utilisateurs quittent l’entreprise ou changent de rôle – les producteurs de données peuvent facilement transférer les informations qui étaient liées à une personne particulière à une autre.

Lire la Feature Note

Gestion des codes de Propriété et de Responsabilité

Une autre fonctionnalité qui a été mise en œuvre est la possibilité d’ajouter un code aux propriétés et aux responsabilités afin de les utiliser facilement dans les scripts API pour des requêtes et des récupérations plus fiables.

Pour toutes les Propriétés et Responsabilités qui ont été créées dans Zeenea (par exemple, les informations d’identification personnelle) ou récoltées à partir de connecteurs, il est possible de modifier leur nom et leur description afin de mieux les adapter au contexte de l’organisation.

Property Responsibility Codes Studio

Plus d’une douzaine de connecteurs supplémentaires

 

Chez Zeenea, nous développons des connecteurs avancés pour synchroniser automatiquement les métadonnées entre notre plateforme de découverte de données et toutes vos sources. Cette connectivité native vous évite la tâche fastidieuse et difficile de trouver manuellement les données dont vous avez besoin pour un cas d’usage spécifique qui nécessite souvent l’accès à des ressources techniques limitées.

Rien qu’en 2023, nous avons développé plus d’une douzaine de nouveaux connecteurs ! Cette réalisation souligne notre agilité et notre compétence dans l’intégration rapide des diverses sources de données utilisées par nos clients. En élargissant nos options de connectivité, nous visons à donner une plus grande flexibilité et une meilleure accessibilité.

 

Voir nos connecteurs

Principaux enseignements du Zeenea Exchange 2023 : oú comment exploiter la richesse du catalogue de données d’entreprise ?

Principaux enseignements du Zeenea Exchange 2023 : oú comment exploiter la richesse du catalogue de données d’entreprise ?

Chaque année, Zeenea organise des événements exclusifs qui rassemblent nos clients et partenaires de diverses organisations, favorisant ainsi un environnement propice aux discussions collaboratives et au partage d’expériences et de bonnes pratiques. La troisième édition du Zeenea Exchange France s’est déroulée au cœur du 8ème arrondissement de Paris avec nos clients et partenaires francophones, tandis que la première édition du Zeenea Exchange International s’est tenue en ligne.

Dans cet article, nous donnons un aperçu des discussions qui ont eu lieu lors de ces tables rondes organisées toutes les deux en juin 2023 sur le thème : « Quels sont vos usages et objectifs actuels & futurs pour vos initiatives de catalogues de données ? ».

Quelles sont les raisons qui ont motivé la mise en œuvre d’une solution de catalogue de données ?

Explosion des volumes d’information

 

Nos clients sont confrontés au défi de collecter et inventorier de grandes quantités d’informations provenant de différentes sources. Un grand nombre de nos participants se sont lancés en adoptant un Data Lake ou une autre plateforme pour stocker leurs informations. Cependant, ils se sont vite rendu compte qu’il était difficile de gérer ce vaste océan de données et se sont posé des questions telles que : « Quelles sont les données dont je dispose ? D’où viennent-elles ? Qui est responsable de ces données ? Ai-je le droit de consulter ces données ? Que signifient ces données ? ».

Par conséquent, la recherche d’une solution capable d’automatiser la centralisation des informations de l’entreprise et de fournir des informations précises sur leurs données est devenue un objectif crucial, ce qui a conduit à la recherche d’une solution de catalogue de données.

Accès limité aux données

 

L’accès aux données est un autre défi commun qui s’est présenté au sein de notre communauté de clients. Avant de centraliser leurs données dans un référentiel commun, de nombreuses entreprises participantes étaient confrontées à des systèmes d’information disparates, dédiés à différents secteurs d’activité ou départements au sein de l’organisation. Les données étaient donc conservées dans des silos, ce qui rendait difficile, voire impossible, l’établissement de rapports efficaces ou la communication autour de ces informations.

La nécessité de mettre les données à la disposition de tous est une autre raison clé pour laquelle nos clients ont cherché une solution qui pourrait démocratiser l’accès aux données.

Rôles et responsabilités mal définis

 

Une autre raison majeure de la recherche d’un catalogue de données était d’attribuer des rôles et des responsabilités clairs aux différents consommateurs et producteurs de données. En effet, l’objectif d’un data catalog est de centraliser et de maintenir à jour les informations de contact pour chaque donnée, en fournissant une visibilité claire sur la personne ou l’entité appropriée à contacter lorsque des questions se posent concernant un ensemble spécifique de données.

Quels sont les usages et les défis actuels concernant leurs initiatives de catalogue de données ?

L’absence d’un langage commun

 

La création d’un langage commun pour les définitions de données et les concepts métier est un défi important auquel sont confrontés beaucoup de nos clients. Ce problème est particulièrement répandu chez nos clients lorsque les différentes branches d’activité ou départements manquent d’alignement dans la définition de concepts ou d’indicateurs de performance spécifiques. Par exemple, certains KPIs peuvent manquer de définitions claires ou plusieurs versions du même KPI peuvent exister avec des définitions différentes. Compte tenu de la complexité du paysage de données de certains de nos clients, comprenant de nombreuses filiales et agences, l’alignement des parties prenantes sur la signification et la définition des concepts pose des défis importants et reste une tâche cruciale.

Plus d’autonomie pour les utilisateurs métier

 

La mise en œuvre d’un catalogue de données a permis d’accroître considérablement l’autonomie des utilisateurs métier chez la majorité de nos clients. En utilisant Zeenea, qui offre des capacités intuitives de recherche et de découverte des données à travers le patrimoine informationnel de l’organisation, les utilisateurs non techniques disposent désormais d’un moyen convivial et efficace de localiser et d’utiliser les données pour leurs rapports et leurs cas d’usage.

Un client a notamment témoigné que le catalogue de données a accéléré la recherche, la découverte et l’acquisition de données, a amélioré la compréhension des datas, et facilité l’accès aux données existantes et amélioré le processus global d’analyse de la qualité – inspirant ainsi aux utilisateurs une plus grande confiance dans les données.

L’adoption du catalogue reste un sujet sensible

 

Un autre défi important auquel sont confrontés certains de nos clients est la difficulté de promouvoir l’adoption du catalogue de données et d’encourager une culture axée sur les données. Cette résistance peut être attribuée au fait que de nombreux utilisateurs ne sont pas familiarisés avec les avantages que le data catalog peut offrir. L’instauration d’une culture data-driven nécessite des efforts soutenus pour expliquer les avantages de l’utilisation d’un catalogue. Pour ce faire, il convient de le promouvoir auprès des différents services par le biais de canaux de communication efficaces, d’organiser des sessions de formation et de mettre en évidence les petites réussites qui démontrent la valeur de l’outil dans l’ensemble de l’organisation.

Les avantages de l’automatisation

 

Le catalogue de données offre la possibilité d’automatiser les tâches fastidieuses liées à la collecte des données, ce qui s’avère être un atout important pour nombre de nos clients. En effet, les API de Zeenea permettent de récupérer des métadonnées externes à partir de différentes sources, facilitant ainsi l’inventaire des termes du glossaire, des informations sur les rôles de propriété, des indicateurs de qualité technique et métier provenant d’outils de qualité des données, etc.

En outre, le catalogue de données permet d’accélérer les programmes de transformation IT et l’intégration de nouveaux systèmes en fournissant une vue claire des sources essentielles, ce qui permet de mieux planifier les nouvelles intégrations.

Quelles sont les prochaines étapes de leur expérience avec le catalogue de données ?

Vers une approche Data Mesh

 

Certains de nos clients, en particulier ceux qui ont participé à l’édition internationale, ont manifesté leur intérêt pour l’adoption d’une approche Data Mesh. Selon un sondage réalisé pendant l’événement, 66 % des personnes interrogées envisagent ou déploient actuellement une approche Data Mesh au sein de leur organisation.

Une de nos clientes a partagé qu’elle dispose de data warehouse et de data lake, mais le manque de transparence concernant la propriété et l’utilisation des données dans les différents domaines a fait naître le besoin d’une plus grande autonomie, et d’un passage d’un data lake centralisé à une architecture spécifique à chaque domaine.

Zeenea en tant que référentiel central

 

Nombre de nos clients, quels que soient leurs secteurs d’activité ou leurs tailles, utilisent le catalogue de données comme référentiel centralisé pour leurs données d’entreprise. Cette approche les aide à consolider les informations provenant de plusieurs branches ou filiales au sein d’une plateforme unique, ce qui permet d’éviter les doublons et de garantir l’exactitude des données.

L’objectif du data catalog est de leur permettre de trouver des données dans tous les départements, en facilitant l’utilisation de solutions partagées et en améliorant les processus de découverte et de compréhension des données.

Utiliser le catalogue de données pour les initiatives de conformité

 

Les initiatives de conformité gagnent en effet en importance pour les organisations, en particulier dans des secteurs très réglementés tels que la banque et l’assurance. Un sondage réalisé lors de l’édition internationale a révélé que 50 % des personnes interrogées utilisent actuellement le catalogue de données à des fins de conformité, tandis que les 50 % restants pourraient envisager de l’utiliser à l’avenir. Un des participants qui a répondu favorablement, a témoigné que son entreprise envisage même de créer un moteur permettant d’interroger et d’extraire des informations sur les données qu’elle possède sur une personne si elle en fait la demande.

Si ces retours d’expérience et témoignages résonnent avec votre quotidien au sein de votre entreprise, n’hésitez pas à nous contacter. Nous serons ravis de vous accueillir dans la communauté des utilisateurs de Zeenea et de vous inviter à nos prochaines éditions du Zeenea Exchange.

Zeenea transforme la découverte de données avec la recherche en langage naturel – Intégration OpenAI

Zeenea transforme la découverte de données avec la recherche en langage naturel – Intégration OpenAI

Zeenea est heureux d’annoncer l’intégration de capacités de recherche par traitement du langage naturel (NLP) dans sa plateforme de découverte de données ! Cette fonctionnalité innovante permet aux utilisateurs d’interagir avec le moteur de recherche Zeenea en utilisant le langage de tous les jours, rendant ainsi l’exploration des données plus intuitive et plus efficace.

Voyons comment cette innovation permet aux utilisateurs d’obtenir des résultats précis et pertinents lors de leurs recherches de données.

Comment l’intégration de la recherche NLP a-t-elle été rendue possible dans Zeenea ?

 

Pour réaliser cette fonctionnalité, Zeenea a exploité le potentiel des API d’OpenAI et les capacités avancées de traitement du langage de GPT-3.5. Les ingénieurs de Zeenea ont conçu un prompt qui convertit efficacement les questions en langage naturel en requêtes de recherche et en filtres.

Et voilà ! Les utilisateurs bénéficient ainsi d’une expérience fluide et sans effort, car le moteur de recherche comprend les requêtes et y répond de manière experte

Quelques exemples de recherches NLP dans Zeenea

 

La fonctionnalité de recherche en langage naturel de Zeenea ouvre un monde de possibilités aux utilisateurs pour interagir avec leur catalogue de données plus facilement. Voici quelques exemples de questions que vous pouvez désormais poser dans le moteur de recherche :

→ « Veuillez trouver tous les ensembles de données contenant des données clients dans le data lake. »
→ “Est-il possible de répertorier tous les jeux de données dupliqués dans le catalogue ? »
→ « Trouver une analyse de nos performances historiques en matière de fidélisation des clients. »

Ces requêtes illustrent la flexibilité et la commodité de la communication avec Zeenea en utilisant le langage naturel. Que vous préfériez un ton décontracté ou une approche plus professionnelle, le moteur de recherche Zeenea comprend votre intention et fournit des résultats précis.

Nlp Zeenea Explorer

Une fonctionnalité encore en développement

 

Bien que la fonction de recherche en langage naturel soit actuellement en phase expérimentale, Zeenea collabore activement avec des clients sélectionnés afin de garantir sa précision et sa pertinence dans divers contextes. En effet, la structure dynamique du graphe de connaissances de Zeenea nécessite de nombreux tests en situation réelle afin d’affiner le système et d’offrir la meilleure expérience possible à nos utilisateurs.

En route vers la découverte de données pilotée par l’IA

 

L’engagement de Zeenea pour l’innovation va au-delà de la recherche NLP. Nous explorons plusieurs fonctions alimentées par l’IA qui promettent de révolutionner le paysage de la découverte de données. Voici quelques-uns de ces développements passionnants :

 

  • Chatbot interactif : le développement d’un chatbot interactif qui pourrait offrir une expérience de recherche conversationnelle alternative, afin que les utilisateurs puissent s’engager dans des conversations naturelles pour obtenir des informations et des idées pertinentes.
  • Génération et correction automatiques des définitions métier : Zeenea vise à accélérer la recherche dans le catalogue et à améliorer la qualité du glossaire en générant et en corrigeant automatiquement les définitions métier spécifiques à un domaine.
  • Résumé automatique des descriptions : un résumé automatique qui permettrait aux utilisateurs de saisir rapidement les informations essentielles en condensant les longues descriptions en synthèses concises, ce qui leur permettrait de gagner du temps et d’améliorer leur compréhension des données.
  • Amélioration de l’auto-classification et des suggestions de marquage des données : les algorithmes d’intelligence artificielle de Zeenea sont en cours d’amélioration afin de fournir une auto-classification plus précise et des suggestions de marquage des données.

 

…et bien plus encore !

 

Restez connectés et suivez-nous pour ne manquer aucun des développements passionnants de Zeenea qui révolutionnent la data discovery.

5 Avantages du Data Lineage pour votre Entreprise

5 Avantages du Data Lineage pour votre Entreprise

Vous nourrissez l’ambition de faire de votre organisation une entreprise data-driven ? Vous n’échapperez pas à la nécessité de cartographier avec précision l’ensemble de vos actifs data, d’en monitorer la qualité et d’en garantir la fiabilité. Cette mission, le data lineage peut vous aider à l’accomplir. Explications.

Pour savoir quelles données vous utilisez, ce qu’elles signifient, connaître leur provenance, mesurer leur fiabilité tout au long de leur cycle de vie, vous devez disposer d’une vision holistique de tout ce qui est susceptible de les transformer, de les modifier et de les altérer. C’est exactement la mission que remplit le data lineage (lignage des données) qui est une technique d’analyse de données permettant de suivre le parcours des données depuis leur source jusqu’à leur utilisation finale. Une technique qui présente de nombreux avantages !

Avantage N°1 : Une gouvernance des données améliorée

 

La gouvernance des données est un enjeu prioritaire pour votre entreprise et pour délivrer tout le potentiel de votre stratégie data. En suivant le parcours de la donnée – de sa collecte jusqu’à son exploitation – le data lineage permet de comprendre d’où les données proviennent et les transformations qu’elles ont subies dans le temps pour créer un écosystème data riche et contextualisé. Ainsi, le data lineage facilite la recherche de la cause racine des problèmes liés aux données en permettant de remonter jusqu’à leur origine. Cette traçabilité constitue votre meilleur atout transparence au service de la gouvernance data.

Avantage N°2 : Des données plus fiables, précises et de qualité

 

Comme mentionné ci-dessus, une force incontournable du data lineage réside notamment dans sa capacité à tracer la provenance des données, mais aussi d’identifier les erreurs qui se produisent lors de leur transformation et de leur manipulation. Ainsi, vous êtes en mesure de non seulement corriger ces erreurs, mais également de faire en sorte qu’elles ne se reproduisent plus pour une meilleure qualité des données. Une logique d’amélioration continue particulièrement efficace dans le cadre d’une stratégie data. Par ailleurs, le data lineage permet de suivre les changements apportés aux données, de savoir qui les a modifiées et quand. Cela améliore la transparence et permet aux utilisateurs de comprendre comment les données ont été obtenues et traitées.

Avantage N°3 : Une analyse d’impact rapide

 

Faire en sorte que vous ne persistiez jamais trop longtemps dans l’erreur. C’est l’une des promesses tenues par le data lineage. Comment ? En identifiant les flux de données avec précision. Cette première phase repose sur une connaissance fine de vos processus métier et des sources de données disponibles. Lorsque les flux de données critiques sont identifiés et cartographiés, il est possible d’analyser rapidement les impacts potentiels d’un changement sur les données et les processus métier. Les impacts de chaque transformation de la data étant évalués en temps réel, vous disposez de tous les éléments indispensables pour identifier les voies et moyens qui permettent d’en circonscrire les conséquences. Visibilité, traçabilité, réactivité, le data lineage saura vous faire gagner un temps précieux !

Avantage N°4 : Plus de contexte pour les données

 

Vous l’avez compris, le data lineage veille en continu sur le parcours de vos actifs data. Dès lors, au-delà de la source d’origine de la donnée, vous disposez d’une visibilité totale sur les transformations qui ont été appliquées aux données tout au long de leur parcours. Une visibilité qui s’étend également à l’utilisation qui est faire de la data au sein de vos différents processus de traitement ou par le biais des applications déployées dans votre organisation. Ce suivi ultra précis de l’historique des interactions avec la data, permet de donner davantage de contexte aux données en vue d’en améliorer la qualité, de faciliter les analyses et les audits et de prendre des décisions plus éclairées en se basant sur des informations précises et complètes.

Avantage N° 5 : Construire des rapports de conformité (plus !) fiables

 

Les principales attentes du régulateur en matière de conformité sont la transparence et la traçabilité. Il s’agit du cœur de la promesse de valeur du Data lineage. En exploitant le data lineage, vous avez toutes les cartes en mains pour réduire les risques de non-conformité, améliorer la qualité des données, faciliter les audits et les vérifications, et renforcer la confiance des parties prenantes dans les rapports de conformité produits.

5 Leviers d’un Data Catalog pour promouvoir la Data Literacy en Entreprise

5 Leviers d’un Data Catalog pour promouvoir la Data Literacy en Entreprise

Dans le monde d’aujourd’hui, les organisations de tous secteurs collectent d’énormes quantités de données provenant de diverses sources comme par exemple les objets connectés (IoT), les applications ou encore les réseaux sociaux. Cette explosion des données a créé de nouvelles opportunités pour les entreprises afin de récupérer des informations précieuses concernant leurs opérations, leurs clients et leurs marchés. Cependant, ces opportunités ne peuvent se concrétiser que si les entreprises maîtrisent la donnée, pour la comprendre et l’utiliser efficacement.

En effet, la data literacy, ou maîtrise des données, fait référence à la capacité à lire, comprendre, analyser et interpréter les données. Il s’agit d’une compétence essentielle pour que les individus et les organisations restent compétitifs et prennent des décisions fondées sur des informations concrètes. En effet, selon une étude récente d’Accenture, les entreprises favorisant la data literacy ont plus de chances de réussir leurs initiatives de transformation digitale.

Pour promouvoir une organisation “data literate”, les entreprises doivent fournir à leurs employés un accès simple à des données de qualité, bien organisées, bien documentées et faciles à utiliser. C’est là qu’intervient un catalogue de données.

Dans cet article, découvrez les 5 leviers d’un data catalog pour promouvoir la data literacy dans les organisations.

Définition du data catalog

 

Chez Zeenea, nous définissons le data catalog comme étant un inventaire détaillé de tous les actifs informationnels disponibles dans une organisation. Il fournit une interface simple d’utilisation pour trouver, comprendre et faire confiance aux données de l’entreprise.

En effet, créé pour unifier toutes les données de l’entreprise, un catalogue de données permet aux data managers et aux consommateurs de données d’améliorer leur productivité et leur efficacité. En 2017, Gartner déclarait déjà les catalogues de données comme « le nouvel or noir de la gestion des données et de l’analytique ». Et dans « Augmented Data Catalogs : Now an Enterprise Must-Have for Data and Analytics Leaders », l’institut précise que « la demande pour le data catalog est en pleine expansion, car les organisations continuent de rencontrer des difficultés pour trouver, inventorier et analyser des données très diverses et très distribuées”.

Un data catalog est donc un outil crucial pour la promotion de la data literacy au sein d’une organisation.

n°1 Un data catalog centralise toutes les données en une seule source de vérité

.

Un data catalog collecte et met à jour automatiquement toutes les données de l’entreprise à partir de différentes sources dans un référentiel unique – dans le but de créer une vue d’ensemble du paysage de données de l’organisation. En indexant les métadonnées de l’entreprise, les data catalogs augmentent la visibilité des données et permettent aux utilisateurs de trouver facilement leurs informations depuis plusieurs systèmes.

Les catalogues de données aident ainsi à briser les silos entre les différents départements et équipes en fournissant un référentiel unique et consultable de tous les actifs de données disponibles. En ce sens, aucune expertise technique n’est nécessaire pour accéder et comprendre l’écosystème de données d’une entreprise – les organisations peuvent alors facilement collaborer et partager leurs actifs informationnels au sein d’une plateforme unique.

#2 Un data catalog augmente la connaissance des données grâce aux capacités de documentation augmentées

 

Les data catalogs permettent d’accroître la connaissance des données à l’échelle de l’entreprise grâce à l’automatisation des capacités de documentation. En fournissant aux producteurs de données ces fonctions de documentation, les utilisateurs obtiennent des informations descriptives sur leurs actifs de données, telles que leur signification, leur utilisation et leur pertinence pour les processus business. Ces fonctionnalités de documentation automatisées du data catalog offrent la possibilité aux utilisateurs de plus facilement comprendre et utiliser les données, favorisant la connaissance des données dans l’ensemble de l’entreprise.

En outre, en s’assurant que la documentation est précise, cohérente et à jour, les organisations disposant d’un catalogue de données peuvent réduire le risque d’erreurs et d’incohérences dans le patrimoine de données. Ces dernières sont donc plus fiables, ce qui est essentiel pour une prise de décision éclairée et de meilleurs résultats pour l’entreprise.

#3 Un data catalog permet une découverte des données améliorée

 

La data discovery (découverte des données) est le processus d’exploration et d’analyse des données afin d’obtenir des informations et de découvrir des modèles ou des relations cachés. Cette fonctionnalité indispensable du catalogue de données favorise la maîtrise des datas en permettant aux utilisateurs de mieux comprendre les données avec lesquelles ils travaillent, et en les encourageant à se poser les bonnes questions et à les explorer plus en profondeur.

Grâce aux fonctionnalités de découverte des données, un data catalog aide ses utilisateurs à identifier des modèles et tendances depuis les datas. En visualisant les données sous différents angles, les utilisateurs peuvent identifier des corrélations, des observations et d’autres modèles qui ne seraient pas immédiatement visibles dans les données brutes. Cela peut aider les utilisateurs à acquérir de nouvelles connaissances et à développer une compréhension plus approfondie des données avec lesquelles ils travaillent.

#4 Un data catalog fournit un vocabulaire de données commun via un glossaire métier

 

Un business glossary (glossaire métier) est un élément clé d’un catalogue de données, puisqu’il véhicule un langage commun et une compréhension des termes et définitions métier pour l’ensemble de l’organisation. Un glossaire métier définit la signification des principaux termes et concepts métier, ce qui permet aux consommateurs de données de comprendre le contexte et la pertinence des actifs informationnels.

Les data catalogs aident ainsi les équipes en charge des données à éviter les malentendus et à maximiser la confiance dans le patrimoine data de l’entreprise. Cela favorise donc la compréhension de la donnée et la data literacy dans l’ensemble de l’organisation.

#5 Un data catalog offre de puissantes fonctionnalités de lignage

 

Le data lineage (lignage des données) permet de comprendre clairement l’origine et la transformation des données, ce qui est essentiel pour saisir comment les données sont utilisées et comment elles sont liées à d’autres actifs. Ces informations soutiennent les initiatives de gestion des données, car elles permettent de garantir l’exactitude, la fiabilité et la conformité des données.

En retraçant les données de leur source jusqu’à leur destination, le lignage des données renforce la connaissance des datas en fournissant aux utilisateurs des informations sur leur objectif, les processus opérationnels qu’elles utilisent et les dépendances qui existent entre les différents actifs. Ces informations peuvent aider les consommateurs à comprendre la pertinence et l’importance des données avec lesquelles ils travaillent, et comment elles s’intègrent dans le contexte plus large de l’organisation.

L’historique des données peut également aider à identifier les anomalies, les incohérences ou les problèmes de qualité susceptibles d’affecter leur exactitude ou leur fiabilité.

Conclusion

 

Le catalogue de données est un outil puissant pour promouvoir la data literacy au sein des organisations. En centralisant les données et les métadonnées, en donnant accès à des informations sur le cheminement des données et en offrant des capacités de data discovery, les data catalogs peuvent permettre à leurs utilisateurs de trouver et de comprendre plus facilement les données avec lesquelles ils travaillent. Indispensables en somme pour toute organisation qui souhaite devenir data literate !

Ne laissez pas ces 4 cauchemars data vous hanter – Zeenea est là pour vous aider

Ne laissez pas ces 4 cauchemars data vous hanter – Zeenea est là pour vous aider

Vous vous réveillez avec le cœur qui bat à cent à l’heure. Vos pieds tremblent – Il y a quelques instants à peine, vous étiez poursuivi par des milliers de données incomplètes, inexactes et incorrectes. En tant que professionnels de la donnée, nous sommes tous passés par là. Et les cauchemars data peuvent parfois devenir réalité.

Ne vous inquiétez pas – Zeenea est là pour vous aider ! Dans cet article, découvrez les cauchemars data les plus courants et comment notre plateforme de découverte de données agit comme un attrape-rêves.

Cauchemar n°1 – Des données coincées dans des silos

 

Vous avez des rapports à construire, et pourtant, les informations que vous recherchez sont enfermées, inaccessibles ou même gardées par des gardes du corps effrayants. Aussi, les personnes qui sont en mesure de vous ouvrir l’accès sont inconnues ou pire encore, ont disparu de l’organisation – ce qui rend impossible l’obtention des données dont vous avez besoin pour vos cas d’utilisation métier !

L’attrappe-rêve Zeenea : notre plateforme fournit une source unique de vérité pour les informations de votre entreprise – elle centralise et synchronise vos métadonnées provenant de toutes vos différentes sources, et les rend accessibles à tous les membres de l’organisation. Avec Zeenea, la connaissance des données n’est plus limitée à un groupe d’experts, ce qui stimule la collaboration, augmente la productivité et maximise la valeur des datas.

Découvrez notre catalogue de données

Cauchemar n°2 – Des données qui ne sont pas fiables

 

Vous parcourez votre patrimoine de données et vous n’aimez pas ce que vous voyez. Les données sont dupliquées (si ce n’est plus), elles sont incomplètes – ou vides – obsolètes, et vous ne savez même pas d’où elles viennent ni à quoi elles sont liées… Les longues heures de documentation des données qui vous attendent sont votre pire cauchemar.

L’attrappe-rêve Zeenea : pour que les gestionnaires des données puissent toujours fournir des informations complètes, fiables et de qualité à leurs équipes, Zeenea fournit des templates de métamodèles flexibles et adaptables pour les objets prédéfinis et personnalisés. Importez ou créez automatiquement les templates de documentation de vos actifs en faisant glisser les propriétés, balises et autres champs qui doivent être documentés pour vos cas d’utilisation dans le modèle.

⭐️ Bonus : les templates de documentation peuvent être modifiés à tout moment – Zeenea met automatiquement à jour les modèles existants en prenant en compte vos modifications, ce qui vous fait gagner du temps sur vos initiatives de documentation.

Découvrez notre application de documentation des données

Cauchemar n°3 – Des données qui sont mal comprises

 

On vous a demandé de creuser les tendances qui vous permettront d’offrir des expériences plus personnalisées à vos clients. Cependant, en recherchant vos informations, vous tombez sur de multiples termes… Duquel s’agit-il ? Les commerciaux utilisent le terme « client », les équipes chargées du service après-vente utilisent le terme « utilisateur », mais les équipes IT emploient le terme « consommateur ». Sans un vocabulaire business clair, vous êtes plongé dans le noir !

L’attrappe-rêve Zeenea : notre Business Glossary permet la création et le partage d’un langage data cohérent pour toutes les personnes au sein de l’organisation. Importez ou créez facilement vos termes d’entreprise, ajoutez une description, des balises, des contacts associés et toute autre propriété pertinente pour vos cas d’utilisation. Nos fonctionnalités uniques permettent aux Data Stewards de créer leurs catégories de concepts sémantiques, de les organiser en hiérarchies et de configurer la manière dont les éléments du glossaire sont mis en correspondance avec les actifs physiques.

Découvrez notre glossaire métier

Cauchemar n°4 – Des données qui ne sont pas conformes

 

Avec le nombre croissant de réglementations sur les données qui sont imposées, les initiatives de sécurité et de gouvernance des données sont devenues une priorité majeure pour les entreprises data-driven. En effet, les conséquences de la non-conformité sont très graves – amendes importantes, atteinte à la réputation… de quoi vous empêcher de bien dormir la nuit.

L’attrappe-rêve Zeenea : nous garantissons la conformité réglementaire en identifiant, classant et gérant automatiquement vos données personnelles. Grâce à des recommandations intelligentes, notre plateforme détecte les informations personnelles et donne des suggestions sur les objets à taguer – en veillant à ce que les informations sur les politiques et réglementations data soient bien communiquées à tous les consommateurs de données au sein de l’organisation dans leurs activités quotidiennes.

Découvrez comment nous soutenons la conformité des données.

Démarrez le projet data de vos rêves avec Zeenea !

 

Si vous êtes intéressé(e) par Zeenea pour vos initiatives data-driven, contactez-nous pour une démo personnalisée de 30 minutes avec l’un de nos experts data.

Etat des lieux de l’accès aux données dans les entreprises data-driven – BARC Data Culture Survey 23

Etat des lieux de l’accès aux données dans les entreprises data-driven – BARC Data Culture Survey 23

Nous sommes ravis de soutenir le travail de l’institut de recherche BARC, et nous vous offrons la possibilité de télécharger gratuitement sa dernière étude Data Culture Survey 23 ici.

Dans cette même étude l’an dernier, BARC définissait l’accès aux données comme l’aspect le plus important de son Data Culture Framework. Cette année, l’institut de recherche a réalisé un état des lieux des expériences et des projets des entreprises en ce qui concerne leurs efforts pour créer une réelle culture data, en mettant l’accent sur cet accès aux données.

L’étude s’est appuyée sur les résultats d’une enquête mondiale menée en ligne en juillet et août 2022. L’enquête a été promue au sein du panel BARC, ainsi que via des sites web et des listes de diffusion de newsletters. Au total, 384 personnes y ont participé, incluant une importante variété de rôles, de secteurs et de tailles d’entreprises.

Dans cet article, découvrez les résultats concernant l’accès aux données d’entreprise – extraits de l’enquête 2023 menée par BARC.

L’approche Droit de savoir (Right to know) vs. Besoin de savoir (Need to know)

.

53% des entreprises best-in-class* s’appuient sur le principe du Droit de savoir (Right to know). Alors que seulement 24 % des entreprises laggards* sont en faveur de ce principe.

Dans son étude, BARC décrit deux principes que l’on peut observer en matière d’accès aux données : le principe du Besoin de savoir (Need to know) fait référence à une approche plus restrictive, où les utilisateurs doivent demander une autorisation pour accéder aux données. En revanche, celui du Droit de savoir (Right to know) fait référence à la mise en place d’une data democracy, où l’accès aux données est libre pour tous les employés – limité uniquement par des données intentionnellement restreintes (par exemple, des données sensibles, personnelles ou similaires).

L’approche Besoin de savoir (Need to know) a toujours été le modèle prédominant pour l’accès aux données, 63 % des participants confirmant que cette approche prévaut dans leur organisation. Toutefois, nettement plus de la moitié de l’échantillon considère que le modèle Droit de savoir (Right to know) est le plus avantageux.

Pour de nombreuses personnes interrogées, cependant, il existe encore un écart important entre leurs souhaits et la réalité. Le Droit de savoir (Right to know) est pratiqué principalement par les petites entreprises. Ce n’est pas surprenant, car leurs structures organisationnelles sont simples et à plat, et les canaux de communication sont directs. En effet, BARC constate que plus la taille d’une entreprise augmente, plus sa complexité organisationnelle et les exigences en matière de gouvernance des données augmentent. Le principe du Besoin de savoir (Need to know) tend à prévaloir dans ce cas.

Les entreprises qui pratiquent principalement le principe du Droit de savoir (Right to know) estiment qu’elles tirent davantage de bénéfices data que les entreprises qui adoptent le principe du Besoin de savoir (Need to know). Par exemple, elles font état d’un taux de réussite bien plus élevé lorsqu’il s’agit d’obtenir un avantage concurrentiel, de préserver la position sur le marché et d’accroître les revenus.

Need To Know Versus Right To Know Barc Data Culture Survey

Les technologies & outils associés à l’accès aux données

Ce n’est pas un secret, l’accès aux données nécessite un support technique. Selon BARC, environ deux tiers des entreprises interrogées utilisent des technologies traditionnelles de data warehousing et de BI. De plus, 69 % utilisent Excel et 51 % utilisent des outils d’analyse en libre-service. Ces chiffres ne sont pas surprenants si l’objectif est de résoudre ces problématiques d’accès à la donnée avec les outils d’entreprise existants.

Il convient de mentionner que 32 % utilisent du code pour gérer l’accès aux données, ce qui correspond à la perception générale du marché de BARC selon laquelle des langages tels que Python prennent de plus en plus de place dans le paysage des données d’entreprise.

À son tour, le besoin de transparence pour pouvoir trouver des données, des fonctionnalités et des algorithmes de manière simple et les intégrer de manière sécurisée augmente également. Le terrain est ainsi propice pour que les fournisseurs de logiciels proposent de nouvelles solutions qui aident à gérer et à surveiller le code afin de disposer d’un processus de contrôle et de monitoring.

Technologies And Concepts Used In Organization Barc Data Culture Survey

Enfin, l’enquête montre qu’il y a beaucoup de retard à rattraper en termes de technologies d’accès aux données ! Moins de 25 % des entreprises interrogées utilisent des plateformes de data intelligence ou des catalogues de données. Pourtant, ce sont précisément ces solutions qui permettent de compiler les connaissances sur les données en dehors du contexte de la BI, à travers les systèmes, et de les rendre analysables, répondant ainsi aux principaux défis de l’accès aux données.

L’importance de la connaissance des données a été reconnue avant tout par les entreprises best-in-class*. 58 % d’entre elles utilisent des plateformes de data intelligence, contre seulement 19 % des laggards*.

Laggards Versus Best In Class Technologies Used Barc Data Culture Survey

Un manque de compétence vis-à-vis des nouvelles technologies

La technologie ne représente que la moitié de la solution aux problèmes d’accès aux données. Comme mentionné dans un article précédent, de nombreux défis data trouvent leur origine dans un manque de stratégie ou d’organisation.

La valeur ajoutée des technologies pour améliorer l’accès aux données est limitée. Seulement un peu plus de la moitié des entreprises interrogées réussit à améliorer l’accès aux données grâce aux technologies de BI et de data warehousing, et seule une entreprise sur trois y parvient avec des outils d’analyse en libre-service.

Les outils de virtualisation des données, les plateformes de data intelligence et les catalogues de données jouent un rôle notable dans le support technique de l’accès aux données. Ces outils peuvent clairement apporter une valeur ajoutée, mais BARC affirme qu’il y a probablement un manque de connaissances et de formation pour pouvoir les utiliser de manière extensive.

En effet, 39 % des personnes interrogées évoquent un manque de compétences comme deuxième obstacle le plus courant à l’accès aux données !

Libérez l’accès et la valeur des données pour vos utilisateurs data en mettant en place une culture des données

Si vous souhaitez en savoir plus sur les résultats de cette étude, téléchargez gratuitement le document. Vous obtiendrez des informations précieuses sur :

 

  • L’évaluation des philosophies concernant l’accès aux données,
  • Les effets de la mise en œuvre d’une culture data,
  • Les défis de la mise en œuvre de l’accès aux données,
  • Et bien plus encore.
* L’échantillon a été divisé entre les « best-in-class » et les « laggards » afin d’identifier les différences en termes de culture de données actuelle au sein des organisations. Cette division a été effectuée sur la base de la question « Comment évaluez-vous la culture de la donnée de votre entreprise par rapport à vos principaux concurrents ? ». Les entreprises dont la culture de la donnée est bien meilleure que celle de leurs concurrents sont qualifiées de « best-in-class », tandis que celles dont la culture de la donnée est légèrement ou nettement moins bonne que celle de leurs concurrents sont classées comme « laggards ».

Comment le data catalog supporte les 4 principes fondamentaux du Data Mesh ?

Comment le data catalog supporte les 4 principes fondamentaux du Data Mesh ?

Introduction : qu’est-ce que le data mesh?

Avec la prise de conscience de l’importance stratégique de la donnée pour leur activité, les entreprises ont tenté de s’organiser afin de libérer tout le potentiel de leur patrimoine data. La question du stockage de la donnée a ainsi fait émerger progressivement diverses solutions pour tenter d’y répondre : datamarts, data warehouses puis data lakes pour permettre d’absorber des volumes de données de plus en plus importants et mettre à disposition ces actifs data au plus grand nombre et de façon centralisée, afin de briser les silots de l’entreprise.

Mais les entreprises peinent encore à répondre aux besoins des métiers. En effet, la vitesse de production, de transformation et la complexité grandissante des données (natures, provenance, etc.) mettent à l’épreuve les capacités de scalabilité d’une telle organisation centralisée. Le puit central de données tend à devenir un goulot d’étranglement où les équipes de data management ne peuvent répondre efficacement à la demande des métiers et où ne s’y retrouvent que quelques équipes expertes.

Ce constat est d’autant plus vrai dans un contexte où les entreprises sont issues de fusions, de rachats, ou sont organisées en filiales. La construction d’une vision et d’une organisation commune entre toutes les entités peut s’avérer complexe et laborieuse.

C’est fort de ce constat que Zhamak Dehghani a développé le concept de “Data Mesh”, proposant un changement de paradigme dans la gestion des données analytiques, avec une approche décentralisée.

Le Data Mesh n’est en effet pas une solution technologique mais plutôt un objectif, une étoile du Nord comme l’appelle Mick Lévy, qu’il faut suivre pour relever les défis lancés aux entreprises dans le contexte actuel :

  • Répondre avec élégance à la complexité, la volatilité, et l’incertitude du business
  • Maintenir l’agilité face à la croissance
  • Accélérer la production de valeur, proportionnellement à l’investissement

Comment le Data Catalog facilite la mise en place d’une approche Data Mesh ?

Un outil Data Catalog a pour objectif de cartographier l’ensemble des données de l’entreprise et de les mettre à disposition des équipes techniques ou métier de façon à faciliter leur exploitation, la collaboration autour de leurs usages et ainsi à maximiser et accélérer la création de valeur.

Dans une organisation comme le Data Mesh où les données sont stockées à différents endroits et gérées par différentes équipes, le défi du Data Catalog est d’assurer un point d’accès central aux ressources data pour toute l’entreprise.

Mais pour cela, le Data Catalog doit soutenir les quatres principes fondamentaux du Data Mesh qui sont :

  • « Domain-driven ownership of data »,
  • « Data as a product »,
  • « Self-serve data platform »
  • « Federated computational governance »

Domain ownership

Le premier principe du Data Mesh est de décentraliser les responsabilités autour de la donnée. L’entreprise doit d’abord définir des domaines métier, de façon plus ou moins granulaire, en fonction de son contexte et de ses cas d’usages (ex : Production, Distribution, Logistique, etc.).

Chaque domaine devient alors responsable des données qu’il produit. Les domaines gagnent en autonomie pour gérer et valoriser plus facilement des volumes grandissant de données. La qualité de la donnée est notamment améliorée, profitant d’une expertise métier au plus proche de la source.

Cette approche remet notamment en question la pertinence d’un Master Data Management centralisé proposant une modélisation unique de la donnée, exhaustive mais par conséquent complexe à comprendre par les consommateurs des données et difficile à maintenir dans le temps.

Grâce au Data Catalog, les équipes métier doivent pouvoir s’appuyer sur le Data Catalog pour faire l’inventaire de leurs données et décrire leur périmètre métier grâce à une modélisation orientée par les usages propres au domaine.

Cette modélisation doit être accessible par l’intermédiaire d’un glossaire métier associé au Data Catalog. Ce glossaire métier tout en restant une source unique de vérité doit permettre de refléter les différentes facettes de la donnée en fonction des usages et des besoins de chaque domaine.

En effet, si par exemple le concept de “produit” est commun à toute l’entreprise, ses attributs n’auront pas le même intérêt s’il on s’intéresse à la logistique, au design, ou à la vente.

Un glossaire métier basé sur un graphe sera donc plus approprié de par la souplesse et les capacitiés de modélisation et d’exploration qu’il peut offrir comparativement à une approche hiérarchique prédéfinie. Tout en assurant la cohérence globale de cette couche sémantique à l’échelle de l’entreprise, un glossaire métier basé sur un graphe permet aux responsables des données de mieux prendre en compte les spécificités de leurs domaines respectifs.

Le Data Catalog doit donc permettre aux différents domaines de collaborer à la définition et la maintenance du métamodèle et de la documentation des assets, afin d’en assurer la qualité.

Pour cela, le Data Catalog doit donc également offrir un système de gestion de permissions approprié, pour permettre de découper les responsabilités de façon non ambigüe et permettre à chaque responsable de domaine de prendre en main la documentation de son périmètre.

Data as a product

Le second principe du Data Mesh consiste à penser la donnée non plus comme un asset mais comme un produit avec son expérience utilisateur et son cycle de vie. L’objectif est notamment d’éviter de recréer des silos dans l’entreprise du fait de la décentralisation des responsabilités.

Chaque domaine est ainsi responsable de mettre un ou plusieurs data products à disposition des autres domaines. Mais au-delà de cet objectif de décloisonnement, penser la donnée comme un produit permet d’avoir une démarche centrée sur les attentes et les besoins des utilisateurs finaux : quels sont les personas consommateurs de données ? dans quel(s) format les utilisateurs utilisent-ils la donnée ? avec quels outils ? comment mesurer la satisfaction des utilisateurs ?

En effet, avec une approche centralisée, les entreprises pennent à répondre aux besoins des utilisateurs métiers et à passer à l’échelle. Le Data Mesh va par conséquent participer à faciliter la diffusion de la culture data en réduisant la hauteur de la marche à franchir pour exploiter la donnée.

Selon Zhamak Dehghani, un data product devrait répondre à différents critères et le Data Catalog permet d’aider à y répondre en partie :

Découvrable : La première étape pour un Data analyst, un Data Scientist ou tout autre consommateur de données dans son parcours de recherche de données est de savoir quelles données existent et quels types d’insights il va pouvoir creuser. Le Data Catalog adresse cette problématique grâce à un moteur de recherche intelligent permettant de rechercher par mots clés, acceptant les erreurs de frappe ou de syntaxe, grâce à la génération de suggestions, ainsi que par capacités de filtrage avancées et intuitives. Le Data Catalog doit également proposer des parcours d’exploration personnalisés de son contenu afin de mieux promouvoir les différents data products. Enfin, l’expérience de recherche et de navigation dans le Data Catalog doit être simple et basée sur des standards du marché comme Google ou Amazon, afin de faciliter l’onboarding des utilisateurs non techniques.

Compréhensible : Les données doivent être facilement comprises et consommées. C’est également une des missions du Data Catalog d’apporter tout le contexte nécessaire à la compréhension de la donnée : description, concepts métiers associés, classification, relations avec les autres data products, etc. Les domaines métier peuvent s’appuyer sur le Data Catalog pour rendre les consommateurs autonomes autant que possible dans la compréhension de leurs data products. Un plus serait une intégration avec les outils data, des sandbox pour mieux appréhender le comportement de la donnée.

Digne de confiance : Les consommateurs doivent avoir confiance dans les données qu’ils utilisent. Là encore le Data Catalog va jouer un rôle important. Un Data Catalog n’est pas un outil de Data Quality mais les indicateurs de qualités doivent pouvoir être récupérés et mis à jour automatiquement dans le Data Catalog pour pouvoir les exposer aux utilisateurs (complétude, fréquence de mise à jour, etc.). Le Data Catalog devrait pouvoir également remonter lorsque c’est possible, des informations statistiques sur les données ou reconstituer le lignage de la donnée, grâce notamment à des systèmes automatisés pour en comprendre l’origine et les différentes transformations opérées.

Accessible nativement : Un data product devraient être délivré sous la forme attendue par les personas (data analysts, data scientists, etc.). Un même data product peut donc potentiellement être délivré dans plusieurs formats, en fonction des usages et des compétences des utilisateurs ciblés. Il devrait être aussi facile à interfacer avec les outils qu’ils utilisent. Sur ce point, le catalogue n’a par contre pas de rôle particulier à jouer.

Valorisable : Une des clés de succès d’un data product est aussi qu’il puisse être consommé de façon autonome, qu’il soit significatif en soi. Il doit être pensé afin de limiter le besoin de réaliser des jointures avec d’autres data products, afin de délivrer lui même une valeur mesurable à ses consommateurs.

Adressable : Une fois que le consommateur a trouvé le data product dont il a besoin dans le Data Catalog, il doit pouvoir y accéder facilement ou pouvoir y demander l’accès de façon simple et efficace. Pour cela, le Data Catalog doit pouvoir s’interfacer avec des systèmes de policy enforcement qui facilitent et accélérent l’accès à la donnée grâce à l’automatisation d’une partie du travail.

Sécurisé : Ce point est lié au précédent. Les utilisateurs doivent pouvoir accéder facilement aux données mais de façon sécurisée, en fonction des polices mises en place sur les droits d’accès. Là aussi, l’intégration du Data Catalog avec une solution de policy enforcement permet de faciliter cet aspect.

Interopérable : Afin de faciliter les échanges entre les domaines et éviter une nouvelle fois les silos, les data products doivent répondre à des normes définies au niveau de l’entreprise afin de pouvoir facilement consommer tout type de data product et pouvoir intégrer les data products entre eux. Le Data Catalog doit pouvoir également permettre de diffuser les métadonnées des data products pour interconnecter les domaines grâce à des APIs.

Self-serve data infrastructure

Dans une organisation de type Data Mesh, les domaines métier sont donc responsables de mettre à disposition les Data Products pour toute l’entreprise. Mais pour atteindre cet objectif, les domaines doivent disposer de services leurs facilitant cette mise en place et d’automatiser au maximum les tâches de gestion. Ces services doivent permettre de masquer la complexité de l’architecture sous-jacente dans l’objectif de rendre les domaines le plus autonomes possible vis-à-vis des équipes infrastructure.

Dans une organisation décentralisée, cette couche de service va également permettre de réduire les coûts, notamment liés à la charge des data engineers, ressources qui plus est difficiles à trouver.

Le Data Catalog fait partie de cette couche d’abstraction en permettant aux domaines métier de facilement inventorier les sources de données dont ils sont responsables. Pour cela, le Data Catalog doit proposer lui-même un catalogue de connecteurs supportant les diverses technologies utilisées (stockage, transformation, etc.) par les domaines et automatiser au maximum les tâches de curation.

Grâce à des APIs simples d’utilisation, le Data Catalog permet également aux domaines de synchroniser facilement leurs référentiels métiers ou techniques, connecter leurs outils de gestion de la qualité, etc.

Federated computational governance

Le Data Mesh propose une approche décentralisée de la gestion des données où les domaines acquièrent uen certaine souveraineté. Cependant, la mise en place d’une gouvernance fédérée permet d’assurer la cohérence globale des règles de gouverance, l’interopérabilité des data products et un monitoring à l’échelle du Data Mesh.

Le Data Office intervient donc plus en tant que facilitateur, diffusant les principes de gouvernances et les politiques qu’en tant que contrôleur. En effet, le CDO n’est plus responsable de la qualité ou de la sécurité mais responsable de définir ce qui constitue la qualité, la sécurité, etc. Les responsables de domaines prenant le relais de façon locale pour l’application de ces principes.

Ce changement de paradigme est possible notamment grâce à l’automatisation de l’application des politiques de gouvernance. L’application de ces politiques est ainsi accélérée par rapport à une approche centralisée car effectuée au plus proche de la source.

Le Data Catalog peut être utilisé ici aussi dans la diffusion des principes et des politiques de gouvernances qui peuvent être documentées ou répertoriées dans le Data Catalog et liées aux data products auxquels ils s’appliquent. Le Data Catalog va fournir également des métadonnées aux systèmes responsables d’automatiser l’application des règles et politiques.

Conclusion

Dans un environnement data de plus en plus complexe et changeant, le Data Mesh apporte une réponse socio-architecturale alternative aux approches centralisées qui peinent à passer à l’échelle et à répondre aux besoins des métiers de qualité et de réactivité.

Le Data Catalog joue un rôle central dans cette organisation, en fournissant un portail d’accès central pour la découverte et de partage des data products à toute l’entreprise, en permettant aux domaines métier de gérer simplement leurs data products mais aussi en diffusant les métadonnées permettant l’automatisation de politiques nécessaire à une gouvernance fédérée.

Les pièges à éviter pour réussir votre projet de data catalog –   L’intégration technique

Les pièges à éviter pour réussir votre projet de data catalog – L’intégration technique

La gestion des métadonnées est une composante importante dans un projet plus global de Data Management, et elle nécessite plus que la simple mise en place d’une solution logicielle de data catalog, aussi connecté soit-il.

Certes le catalogue va permettre d’alléger la charge induite, mais il ne pourra à lui seul garantir le succès.

Inspiré par nos retours d’expérience issus de contextes très variés, cette série d’articles
présente les principaux écueils et idées reçues que vous devez à tout prix éviter lors
de la mise en place d’un catalogue de données à l’échelle de votre entreprise.

Les pièges décrits dans cette série s’articulent autour de quatre thématiques centrales à
la réussite de la démarche :

  1. La culture de la donnée dans l’organisation
  2. Le sponsorship du projet en interne
  3. Le pilotage du projet
  4. L’intégration technique du data catalog

L’intégration du data catalog dans l’écosystème de l’entreprise favorise des opportunités de création de valeur. Il est primordial de bien considérer cet aspect et d’en comprendre les bénéfices.

Toutes les métadonnées ne doivent être saisies à la main

De plus en plus de systèmes produisent, agrègent et permettent une saisie de métadonnées à valeur locale. Ces informations doivent être récupérées et consolidées dans le catalogue – sans double saisie – pour des raisons évidentes d’économie, de fiabilité et de rapidité de mise à disposition.

Le data catalog est donc une opportunité pour consolider ces informations avec les savoirs portés par les collaborateurs sur leurs périmètres respectifs. Cependant, cette consolidation doit être pensée à travers une intégration technique et non un travail à réaliser manuellement. Même s’il semble évident que la double saisie n’est pas une approche pérenne ou efficace, procéder à des imports / exports entre systèmes reposant sur des actions humaines n’est pas non plus une approche pertinente.

La force d’un data catalog doit être sa capacité à ingérer des métadonnées via des chaînes d’intégration techniques, et d’ainsi permettre une synchronisation robuste entre les systèmes.

Le data catalog n’est pas un outil “automagique”

À l’inverse, penser que le data catalog saura extraire tous types de métadonnées quelle que soit la source ou le format, serait plus que trompeur.

Le catalogue doit certes faciliter la récupération de métadonnées, mais certaines ne pourront pas y être déversées automatiquement. Il reste donc toujours un coût porté par l’intervention de contributeurs.

La première raison à cela réside tout simplement dans l’origine même de certaines métadonnées : des informations ne sont peut-être tout simplement pas encore présentes dans des systèmes car elles sont uniquement issues du savoir d’experts. Le data catalog est donc dans ce cas un candidat potentiel pour devenir le système maître afin de les recevoir.

Au contraire, certaines informations peuvent être présentes dans des systèmes sans qu’il soit possible ou presque de les récupérer de façon automatisée et ce, pour de nombreuses raisons. Nous pourrions par exemple citer l’absence d’une interface permettant d’accéder de façon stable aux informations ou encore la nécessité d’avoir recours à de la rétro-ingénierie pour tenter d’isoler des informations pertinentes. Le risque de produire du bruit sur l’information est donc élevé et ceci conduirait à dégrader la qualité du contenu du catalogue, et in fine, à en détourner les utilisateurs.

Le data catalog ne doit pas être connecté à une source unique de métadonnées

Les métadonnées appartiennent à des couches nombreuses et variées. Les sources sont donc multiples et complémentaires pour une compréhension globale. C’est justement le rapprochement de ces informations dans une solution centrale, le data catalog, qui va apporter les éléments nécessaires aux utilisateurs pour leurs besoins.

Choisir un data catalog connecté est un véritable atout, car la découverte des actifs et la récupération de leurs métadonnées associées sont grandement simplifiées par cette automatisation.

Mais cette connectivité peut aussi très souvent s’étendre à d’autres systèmes complémentaires. Ces systèmes sont potentiellement d‘autres systèmes en amont ou en aval du premier, permettant, si désiré, de matérialiser le data lineage et de documenter ainsi les flux et les transformations entre les systèmes.

Les systèmes peuvent aussi être non liés les uns aux autres et juste permettre, par leur ajout au data catalog, de constituer une cartographie exhaustive du patrimoine de l’entreprise.

Enfin, de par la variété des types d’actifs pouvant être documentés dans le data catalog, les différentes sources connectées peuvent aussi contribuer chacune à l’enrichissement d’un univers spécifique dans le data catalog : couche sémantique pour certaines, couche physique pour d’autres etc.

Toujours fidèle à une approche itérative, les sources multiples qui alimenteront le data catalog seront intégrées progressivement – selon une stratégie influencée par le souci de production de valeur – sous le pilotage global du Data Office.

Les 10 pièges à éviter pour réussir son projet de Data Catalog

Si vous souhaitez en savoir plus sur les pièges à éviter pour réussir son projet de data catalog, téléchargez notre eBook gratuitement !

Le 10 Pieges A Eviter Pour Reussir Votre Projet De Data Catalog Mockup

Les pièges à éviter pour réussir votre projet de data catalog –  La culture des données

Les pièges à éviter pour réussir votre projet de data catalog – La culture des données

La gestion des métadonnées est une composante importante dans un projet plus global de Data Management, et elle nécessite plus que la simple mise en place d’une solution logicielle de data catalog, aussi connecté soit-il.

Certes le catalogue va permettre d’alléger la charge induite, mais il ne pourra à lui seul garantir le succès.

Inspiré par nos retours d’expérience issus de contextes très variés, cette série d’articles
présente les principaux écueils et idées reçues que vous devez à tout prix éviter lors
de la mise en place d’un catalogue de données à l’échelle de votre entreprise.

Les pièges décrits dans cette série s’articulent autour de quatre thématiques centrales à
la réussite de la démarche :

  1. La culture de la donnée dans l’organisation
  2. Le sponsorship du projet en interne
  3. Le pilotage du projet
  4. L’intégration technique du data catalog

Rares sont les entreprises dont la donnée est le produit principal. Si la donnée est omniprésente, elle est très souvent un produit dérivé de l’activité de l’entreprise. Il n’est
donc pas surprenant que certains collaborateurs de l’organisation n’aient pas toujours une perception précise de l’importance qu’elle peut revêtir. La culture de la donnée n’est pas innée et le défaut de sensibilisation peut devenir un obstacle majeur dans un projet de déploiement d’un data catalog.

Illustrons-le par quelques idées reçues récurrentes.

Tous les collaborateurs ne sont pas sensibilisés aux enjeux de la gestion des métadonnées

Le premier frein est probablement celui de la compréhension globale de la démarche. Commencer à évoquer l’importance de la gestion de la métadonnée auprès de collaborateurs qui ne perçoivent pas suffisamment le rôle crucial que peut jouer la donnée dans le développement de l’entreprise est voué à l’échec. Il est fort probable qu’il faille prévoir, dans un programme plus vaste, une acculturation d’un maximum de collaborateurs aux enjeux liés à la gestion de la donnée en entreprise.

La plus grande considération à assimiler est probablement que la donnée est un bien commun, signifiant que le ou les dépositaires d’un jeu de données ont l’obligation de le rendre visible et intelligible pour l’entreprise et l’ensemble des collaborateurs.

En effet, l’un des obstacles les plus puissants sur le chemin d’une initiative de metadata management est l’incompréhension quant à l’effort demandé pour produire et maintenir une documentation. Un obstacle exacerbé lorsque la perception de la cible des utilisateurs intéressés est restreinte à quelques personnes déjà sachantes en la matière. Dès lors qu’il est admis que la cible n’est plus ce sous-ensemble, mais l’entreprise toute entière et potentiellement tous les collaborateurs, il devient évident de devoir consigner le savoir sous une forme “scalable”.

Un data catalog n’est pas un outil à tout faire

La culture de la donnée peut aussi concerner l’équipe chargée du pilotage du projet. Plus rare, mais constaté, une connaissance imprécise des outils et de leur finalité peut induire en erreur et conduire à des choix peu optimaux, voire à terme pénalisants.

Le data catalog est un composant logiciel central dans la démarche de gestion des métadonnées, mais il n’est potentiellement pas le seul mobilisé. Il n’est donc pas indiqué d’essayer de tout faire avec cet outil. Cela peut sembler évident, mais en pratique il peut être difficile de bien identifier les limites au-delà desquelles le recours à une solution tierce spécialisée devient nécessaire.

Le data catalog est la clé de voûte de la documentation, et doit être le point d’entrée par lequel doit passer tout collaborateur ayant une question relative à un concept lié à la donnée. Cependant, cela n’en fait pas pour autant la solution dans laquelle tout doit
se trouver. Cette nuance est importante, car référencer ou synthétiser l’information ne
signifie pas forcément porter l’information toute entière.

En effet, nombreux sont les sujets qui remontent lors des phases préparatoires d’un projet de metadata management : la modélisation technique et/ou fonctionnelle, la gestion des habilitations sur les données, le workflow pour les demandes d’accès etc. Tous ces sujets sont importants, portent de la valeur et sont liés à la donnée. Pour autant, ils ne sont pas spécifiquement destinés à être gérés par une solution permettant de documenter vos actifs.

Il est donc important de commencer par identifier ces besoins, de définir une stratégie pour y répondre – supportée par un outillage adapté – puis d’intégrer cet outillage dans un écosystème plus large auquel appartient le data catalog.

Les 10 pièges à éviter pour réussir son projet de Data Catalog

Si vous souhaitez en savoir plus sur les pièges à éviter pour réussir son projet de data catalog, téléchargez notre eBook gratuitement !

Le 10 Pieges A Eviter Pour Reussir Votre Projet De Data Catalog Mockup

Pourquoi Zeenea a-t-elle fait le choix du Privacy by Design pour son data catalog ?

Pourquoi Zeenea a-t-elle fait le choix du Privacy by Design pour son data catalog ?

Depuis le début du 21e siècle, nous vivons une véritable révolution numérique. Le monde est en constante digitalisation et l’activité humaine se structure toujours plus autour de la donnée et des réseaux. L’industrie, les loisirs, les services d’Etats, le secteur tertiaire, le médical, et tant d’autres domaines s’organisent désormais autour de systèmes d’informations complexes et interconnectés. Par conséquent, de plus en plus de données sont continuellement collectées par les appareils et technologies présents dans notre quotidien (Web, Smartphone, IoT) et transitent de systèmes en systèmes. Il est devenu central pour toute entreprise qui fournit des produits ou des services de tout mettre en œuvre pour protéger les données de leurs clients utilisateurs. Pour y arriver, la meilleure approche est celle du Privacy by Design

Dans cet article, nous définissons ce qu’est la notion du Privacy by Design, et nous expliquons comment nous l’avons appliquée dans la conception de notre data catalog chez Zeenea. Enfin, nous exposons la manière dont un data catalog peut aider les entreprises à mettre en place le Privacy by Design.

La protection des données : un enjeu capital pour les entreprises

Parmi toutes ces données évoquées précédemment, certaines permettent d’identifier directement ou indirectement des personnes physiques. Ce sont les données personnelles, telles que définies par la CNIL. Elles revêtent une importance capitale dans le monde moderne du fait de leur valeur intrinsèque. 

Quotidiennement, des volumes gigantesques transits entre les individus, les entreprises et les États. Il existe un véritable risque de détournement de leur l’usage, comme l’a montré par exemple le scandale Cambridge Analytica en 2015. Les cybercriminels peuvent également en tirer des gains substantiels, via le piratage de compte, la revente de données à d’autres cybercriminels, l’usurpation d’identité, ou encore l’attaque d’entreprises via phishing ou arnaque au président. C’est par exemple ainsi qu’un promoteur immobilier s’est récemment vu subtiliser plusieurs dizaines de millions d’euros.

Le besoin de protéger ses données n’a jamais été aussi important.

Les États ont rapidement pris conscience de cette problématique pour protéger les individus des dérives liées à l’exploitation de leurs données. En Europe par exemple, le RGPD (le Règlement Général sur la Protection des Données) est en vigueur depuis 2016 et est déjà bien ancré dans les activités quotidiennes des entreprises. Dans le reste du monde, la réglementation évolue constamment et est une préoccupation pour quasiment tous les pays. Récemment, la Californie a voté une loi sur le caractère privé des données des consommateurs, assimilée à un équivalent américain du RGPD. Même la Chine vient de légiférer sur ce sujet.

 

Privacy by Design : définition d’une notion essentielle pour la protection des données

Si de nombreuses législations s’appuient fortement sur la notion de Privacy by Design, elle a été conceptualisée par Ann Cavoukian à la fin des années 90 alors qu’elle occupait le poste d’Information and Privacy Commissioner de la province de l’Ontario au Canada. L’essence de cette idée est d’inclure la problématique de protection des données personnelles dès la conception d’un système informatique. 

En ce sens, le Privacy by Design liste sept principes fondamentaux :

#1 – La proactivité : toute entreprise doit mettre en place les dispositions nécessaires à la protection des données en amont, et ne doit pas s’appuyer sur une politique réactive ;

#2 – La protection des données personnelles comme paramètre par défaut : tout système doit prendre comme configuration par défaut le plus haut niveau de protection possible pour les données sensibles de ses utilisateurs ;

#3 – La protection des données personnelles intégrée à la conception : la protection des données personnelles doit être un aspect systématiquement étudié et pris en compte lors de la conception et l’implémentation d’une nouvelle fonctionnalité  ;

#4 – La fonctionnalité complète : aucun compromis ne doit être fait avec les protocoles de sécurité ou avec l’expérience utilisateur ;

#5 – La sécurité de bout en bout : le système doit garantir la sécurité des données sur l’ensemble du cycle de vie, depuis leur collecte jusqu’à leur destruction (y compris si lesdites données sont sous-traitées) ;

#6 – La visibilité et la transparence : le système et l’entreprise doivent documenter et communiquer les procédures de protection des données personnelles et les actions réalisées de manière claire, cohérente et transparente ;

#7 – Le respect de la vie privée de l’utilisateur : chaque décision de conception et d’implémentation doit se faire en mettant au centre l’intérêt de l’utilisateur.

L’application du Privacy by Design chez Zeenea

Chez Zeenea, et notamment parce que l’entreprise a été créée en 2017, nous avons bâti notre produit sur les fondements du Privacy by Design.

Le traitement des données personnelles des utilisateurs

Tout d’abord, nous avons ancré la protection des données au cœur de notre architecture. Les données de chaque client sont séparées dans des tenants différents, chiffrés chacun avec leur propre clé. L’authentification des utilisateurs est gérée via un système tiers spécialisé. Nous encourageons la fédération d’identité chez nos clients, ce qui leur permet de garder le contrôle sur les données nécessaires à l’identification et l’authentification des utilisateurs.

Nous avons également inclus le concept de Privacy by Design lors de la conception de notre applicatif. Par exemple, nous ne récoltons que le strict minimum d’information, tous les extrants du système sont anonymisés (traces de log, erreur applicative, APIs).

Le traitement des données métier des clients

Notre principale mission étant de documenter la donnée, notre solution contient par essence majoritairement des métadonnées. Par conception, Zeenea n’extrait aucune donnée des systèmes de nos clients. En effet, le risque est intrinsèquement moindre sur la métadonnée que sur la donnée. 

Nous proposons néanmoins au sein de l’application Zeenea plusieurs fonctionnalités permettant de fournir de l’information sur la donnée présente dans les systèmes clients (des statistiques, du sampling, etc.). Du fait de notre architecture, les calculs se font toujours sur l’infrastructure du client, au plus près des données et de leur sécurisation. Et dans le respect du principe #2 du Privacy by Design, nous avons placé la protection des données personnelles comme paramètre par défaut. Ainsi, toutes ces fonctionnalités sont désactivées par défaut et ne peuvent être activées que sur décision du client.

Comment notre catalogue de données aide les entreprises à mettre en place le Privacy by Design

Le data catalog peut aider votre entreprise à mettre en place le Privacy by Design, surtout sur les aspects de contrôle et de vérification. Si l’on reprend les 7 principes décrits plus tôt, le data catalog peut participer efficacement à deux d’entre eux : le principe de visibilité et de transparence, et celui de sécurité de bout en bout. Le catalogue de données permet aussi l’automatisation de l’identification des données sensibles.

La visibilité et la transparence via le data catalog

L’objectif du data catalog est de centraliser le patrimoine de données de l’entreprise, de le documenter, et de le partager au plus grand nombre afin d’en permettre l’usage éclairé. Par exemple, cette centralisation permet à chaque employé de savoir quelles sont les données collectées par le CRM, et aux équipes marketing et Customer Success de traiter cette information dans des rapports de suivi des acquisitions et de churn.

Une fois cet inventaire établi, le catalogue permet d’envisager de documenter certaines informations supplémentaires et nécessaires au bon fonctionnement de l’entreprise. C’est notamment le cas du caractère sensible ou non d’une information documentée, des règles de gouvernances, des traitements, ou encore les procédures d’accès qui doivent s’appliquer. 

Dans le contexte d’une démarche Privacy by Design, le data catalog permet par exemple d’ajouter un terme métier correspondant à une donnée sensible (un numéro de sécurité sociale, un numéro de téléphone etc.). Ce terme métier peut alors facilement être associé aux tables ou aux champs physiques qui contiennent la donnée, permettant ainsi son identification aisée. Cette initiative contribue ainsi au principe de visibilité et de transparence du Privacy by Design.

La sécurité de bout en bout via le data catalog

Le data catalog offre également des fonctionnalités de lignage des données (ou data lineage). Le lignage automatique permet de s’assurer que les traitements qui sont appliqués aux données identifiées comme sensibles sont bien conformes à ce qui est défini par la gouvernance des données dans l’entreprise. Il est alors simple avec le catalogue de données de renseigner les règles de gouvernances à appliquer aux données sensibles. 

De plus, le lignage permet de suivre l’ensemble du cycle de vie de la donnée, de sa création à son utilisation finale, en passant par ses transformations. Ainsi il est aisé de contrôler que toutes les étapes de ce cycle de vie sont conformes aux règles et de corriger les éventuelles erreurs. 

Le data catalog, via le data lineage, contribue ainsi au principe de sécurité de bout en bout du Privacy by Design.

Attention : chez Zeenea nous restons convaincus que le data catalog n’est pas une solution de compliance, mais bien un outil d’acculturation des équipes à la donnée sensible et à ses particularités d’usage.

L’identification des données sensibles via le data catalog

Dans un environnement data qui évolue extrêmement rapidement, le catalogue de données doit être le plus possible un reflet de la réalité pour conserver la confiance de ses utilisateurs. Sans cela, c’est l’adoption toute entière du projet de data catalog qui est mise en question. 

Chez Zeenea, nous sommes intimement convaincus que le data catalog doit être automatisé un maximum pour être scalable et efficace. Cela commence par l’inventaire des données disponibles. En ce sens, notre inventaire est automatisé et se charge de répercuter toutes les modifications du système d’origine (source) des données directement dans le catalogue. Ainsi, à tout moment, le client dispose d’une liste exhaustive des données présentes dans ses systèmes. 

Et pour aider nos clients à identifier dans ces données inventoriées celles qui méritent un traitement particulier du fait de leur statut de données sensible, l’automatisation ne s’arrête pas à l’inventaire. Nous proposons aujourd’hui un système qui suggère le taggage des nouvelles données inventoriées présentant un profil de données sensible. Ainsi, le travail de mise en avant de ces données est facilité et l’information se propage plus vite et plus facilement dans l’entreprise.

Pour plus d’information sur la technologie utilisée chez Zeenea, téléchargez notre eBook “Les 5 ruptures technologiques d’un Data Catalog

Conclusion

La donnée personnelle est devenue en quelques années un vrai sujet de préoccupation pour la plupart des consommateurs. De plus en plus de pays mettent en place des réglementations pour garantir à leur concitoyens une protection à la hauteur des enjeux. L’un des principes majeurs régissant toutes ces réglementation est le Privacy by Design.

Chez Zeenea, nous avons dès le départ inclus la réflexion autour de la donnée personnelle au cœur de notre produit. Aussi bien dans notre technique de développement et de traitement des données de nos utilisateurs directs, que dans notre réflexion sur les données que nos clients traitent via notre catalogue. 

Nous pensons que le catalogue de données peut être un atout non négligeable dans la mise en place et le suivi des politiques induites par le Privacy by Design. Nous misons également beaucoup sur l’automatisation et l’IA pour y apporter encore de nombreuses améliorations dans les mois à venir : construction automatique du lignage technique des données, amélioration de la détection des données sensibles dans les objets du catalogue pour mieux les documenter, contrôle de qualité des processus appliqués aux données sensibles etc. Les possibilités sont nombreuses. 

Pour en savoir plus sur les avantages du catalogue dans la gestion de vos données sensibles et personnelles, n’hésitez pas à nous contacter !

Les 5 valeurs produit qui créent l’adhésion des équipes et renforcent l’expérience client Zeenea

Les 5 valeurs produit qui créent l’adhésion des équipes et renforcent l’expérience client Zeenea

Pour rester compétitives, les organisations doivent prendre des décisions rapidement et la moindre erreur peut faire perdre un temps précieux dans cette course à la réussite. Définir la raison d’être de l’entreprise, sa direction et sa stratégie permet de construire des bases solides pour créer cet alignement et faciliter par la suite les décisions impactantes sur le développement du produit. Réussir à aligner toutes les parties prenantes au développement d’un produit est un véritable challenge pour les Product Managers.

Il s’agit pourtant d’une mission essentielle pour amener un produit au succès, et d’un prérequis évident à la motivation des équipes qui ont besoin de savoir pourquoi elles se lèvent tous les matins pour aller au bureau.

Les bases d’une vision produit partagée dans l’entreprise

Différents “frameworks” (NorthStar, OKR, etc.) ont été développés depuis quelques années pour permettre aux entreprises et à leurs équipes produit de poser ces bases, les diffuser au sein de l’organisation et construire une roadmap qui crée l’adhésion. Ces frameworks permettent généralement de définir quelques artefacts clés et ont déjà donné lieu à une importante littérature. Si les versions peuvent différer d’un framework à l’autre, on retrouve tout de même généralement les concepts suivants : 

  • La vision : le rêve, le véritable Nord d’une équipe. La vision doit être inspirante et créer un sens commun de l’objectif dans toute l’entreprise.
  • La mission : elle représente l’objectif primordial de l’organisation et doit être mesurable, réalisable.
  • Les objectifs : déclinaisons de la mission, les objectifs définissent des jalons mesurables à court ou moyen termes pour accomplir la mission.
  • La roadmap : une source de vérité partagée – elle décrit la vision, la direction, les priorités et les progrès d’un produit au fil du temps.

Grâce à une définition claire et partagée de ces concepts au sein de l’entreprise, les équipes produits ont une base solide pour identifier les problèmes à résoudre en priorité et ordonner efficacement les backlogs produits.

Les valeurs produit : clé de l’adhésion et de l’alignement des équipes dans le temps

Bien définis au départ, ces concepts décrits précédemment peuvent malgré tout tomber dans l’oubli au bout de quelque temps ou devenir obsolètes ! En effet, l’entreprise et le produit évoluent, les équipes changent, et par conséquent le produit peut perdre le cap… Un travail de remise en cause et d’acculturation doit donc être effectué en continu par les équipes produit pour tenir dans la durée.

En effet, le développement produit est à la fois un sprint et un marathon ! Une des difficultés principales des équipes produit est de conserver cet alignement dans le temps. À ce titre, on retrouve un autre concept dans ces frameworks est souvent sous-exploité quand il n’est pas complètement oublié par les organisations : il s’agit des valeurs du produit

Jeff Steiner de LinkedIn a particulièrement mis en avant l’importance de définir les valeurs de l’entreprise grâce au framework Vision to values. LinkedIn définit ainsi la notion de valeurs comme Les principes qui guident les décisions quotidiennes de l’organisation ; un élément déterminant de votre culture”. Par exemple “être honnête et constructif”, “exiger l’excellence”, etc.

Définir les valeurs du produit en complément de celles de l’entreprise peut être un excellent moyen pour les équipes produit de créer cet alignement dans le temps et c’est ce que l’on fait chez Zeenea.

De la vision d’entreprise aux valeurs produit : focus sur Zeenea Data Catalog

Organisation & cohérence produit chez Zeenea

Chez Zeenea, nous avons une vision partagée ”Be the first step of any data journey” – et une mission claire“To help data teams accelerate their initiatives by creating a smart & reliable data asset landscape at the enterprise level”.  

Nous nous positionnons comme un pure-player du Data Catalog et nous partageons la responsabilité d’un seul produit entre plusieurs Product Managers. C’est pourquoi nous nous sommes organisés en feature teams. Ainsi chaque équipe de développement peut prendre en charge n’importe quelle nouvelle fonctionnalité ou évolution en fonction des priorités de l’entreprise, et les mener à bien de bout-en-bout.

Si nous priorisons le backlog et le delivery en définissant et en adaptant notre stratégie et notre organisation en fonction des objectifs, trois problématiques subsistent : 

  • Comment nous assurer que le produit reste cohérent dans le temps quand il y a plusieurs pilotes dans l’avion ? 
  • Comment favoriser une approche plutôt qu’une autre ? 
  • Comment s’assurer que toute nouvelle fonctionnalité soit cohérente avec le reste de l’application ? 

En effet, chaque Product Manager a sa propre sensibilité, son propre background. Et si les problèmes sont clairement identifiés, il existe généralement plusieurs façon de les résoudre. C’est là où entrent en jeu les valeurs produit…

 

Les valeurs produit Zeenea

Si la vision et la mission nous aident à répondre au “pourquoi ?”, les valeurs du produit nous permettent de rester aligner sur la question “comment ?”. Il s’agit d’un outil précieux pour challenger les différentes approches possibles pour répondre à un besoin client. Et chaque Product Manager peut se référer à ces valeurs communes pour faire des choix, prioriser une fonctionnalité ou la rejeter, et assurer une expérience utilisateur unifiée dans toute l’application et différenciée face à la concurrence.

Ainsi, chaque nouvelle fonctionnalité est réalisée avec pour guides les 5 valeurs produit suivantes :

La simplicité (simple) 

Cette valeur est au cœur de nos convictions. L’objectif d’un Data Catalog est de démocratiser l’accès à la donnée. Pour cela, faciliter l’adoption du produit par les utilisateurs finaux est un élément primordial. La simplicité se traduit clairement dans la façon dont chaque fonctionnalité est proposée. Beaucoup d’applications finissent par ressembler à des sapins de Noël avec des boutons dans tous les sens que personne ne sait utiliser ; d’autres demandent des semaines de formation avant de pouvoir cliquer sur le premier bouton. L’utilisation du Data Catalog ne doit pas être réservée à des experts et doit donc être évidente et fluide quel que soit l’objectif de l’utilisateur. Cette valeur se retranscrit notamment dans notre choix d’avoir créé deux interfaces pour notre Data Catalog : une dédiée à la recherche et l’exploration, et une autre pour la gestion et le monitoring du contenu du catalogue. 

L’autonomie (empowering)  

Les tâches de documentation sont souvent ingrates et il peut être difficile de motiver les sachants à partager et formaliser leurs connaissances. De la même façon, le produit doit encourager le plus possible les consommateurs de données à être autonomes dans leurs usages de la donnée. C’est pourquoi nous avons fait le choix de ne pas proposer de workflows de validation rigides pour leur préférer un système de responsabilisation. Celui-ci permet aux Data Stewards de prendre conscience des impacts de leurs modifications. Couplé à un système d’alerting et d’audit a posteriori, il assure une meilleure autonomie tout en gardant une bonne traçabilité en cas de problème. 

La confiance (reassuring) 

Il est essentiel de permettre aux utilisateurs finaux d’avoir confiance dans la donnée qu’ils consomment. Le produit doit donc rassurer l’utilisateur de part sa façon de présenter l’information. De la même manière, les Data Stewards qui maintiennent une grande quantité de données ont besoin d’être rassurés vis-à-vis des opérations dont ils sont responsables : ai-je bien tout traité ? comment m’assurer qu’il n’y a pas d’incohérence dans la documentation ? Que va-t-il vraiment se passer si je clique sur ce bouton ? Et si ça plante ? Le produit doit créer un environnement où l’utilisateur se sent en confiance vis-à-vis de l’outil et de son contenu. Cette valeur se traduit par des messages préventifs plutôt que des rapports d’erreurs, un type de langage, le caractère idempotent des opérations d’imports, etc.

La flexibilité (flexible)  

Chaque client a son propre contexte métier, son historique, ses règles de gouvernance, ses besoins, etc. Le Data Catalog doit pouvoir s’adapter à ce contexte là encore pour faciliter son adoption. Mais la flexibilité est aussi une valeur essentielle pour permettre au catalogue de s’adapter à tous les contextes technologiques actuels et être réellement le référentiel de la donnée à l’échelle de l’entreprise. Le produit doit donc s’adapter au contexte de l’utilisateur et être aussi proche que possible de ses usages. Notre modélisation à plat et incrémentale s’appuie sur cette valeur, face à des modèles hiérarchiques plus rigides proposés sur le marché.

La Deep Tech 

Cette valeur est également très importante dans nos choix de développement. La technologie est au cœur de notre produit et doit servir les autres valeurs (notamment de simplicité et de flexibilité). Documenter, maintenir et exploiter la valeur d’un patrimoine de données à l’échelle de l’entreprise ne peut se faire sans l’aide de technologies intelligentes (automatisation, intelligence artificielle, etc.). Le choix de baser notre moteur de recherche sur un graphe de connaissance ou notre positionnement en termes de connectivité sont des illustrations de l’application de cette valeur “deep tech” chez Zeenea.

Take away

Créer l’alignement autour d’un produit est un travail de longue haleine. Il  demande aux Product Managers – en synergie avec toutes les parties prenantes – de bien définir au départ : la vision, la mission et les objectifs de l’entreprise pour pouvoir prioriser efficacement le travail des équipes. Mais pour assurer la cohérence d’un produit dans le temps, l’utilisation des valeurs du produit est un outil précieux. Chez Zeenea, nos valeurs produit sont la simplicité, l’autonomie, la confiance, la flexibilité et la technologie. Elles se reflètent dans la façon dont nous concevons et faisons évoluer notre Data Catalog et nous permettent d’assurer une meilleure expérience client dans le temps. 

 

Si vous souhaitez en savoir davantage sur notre produit, ou pour obtenir plus d’informations au sujet de  Data Catalog :

Qu’est-ce qui rend un data catalog « smart » (malin) ? n°5 – L’expérience utilisateur

Qu’est-ce qui rend un data catalog « smart » (malin) ? n°5 – L’expérience utilisateur

Un data catalog consolide des millions d’informations de nature très diverses – et ce volume croît de façon exponentielle. Cette volumétrie d’informations va soulever deux challenges majeurs : 

  • Comment alimenter et maintenir ce volume d’information sans exploser le coût de gestion des métadonnées ? 
  • Comment trouver le jeu de données le plus pertinent pour un cas d’usage donné ?

Chez Zeenea, nous pensons qu’un data catalog doit être smart pour répondre à ces 2 questions, via des dispositifs technologiques et conceptuels que l’on qualifie de malins qui ne se cantonnent pas pas à l’intégration d’algorithmes d’intelligence artificielle. 

En ce sens, nous avons identifié 5 domaines dans lesquels un data catalog peut être Smart – la plupart ne faisant pas appel au machine learning : 

  1. La modélisation du métamodèle 
  2. L’inventaire des données 
  3. La gestion de métadonnées 
  4. Le moteur de recherche
  5. L’expérience utilisateur

Un data catalog doit être smart dans l’expérience qu’il propose aux différentes populations d’utilisateurs qui seront amenées à le consommer. En effet, l’un des principaux enjeux du déploiement d’un catalogue de données est son adoption par ceux à qui il est destiné in fine – les consommateurs de datas. Et l’expérience utilisateur joue bien sûr un rôle majeur dans cette adoption.

La notion d’expérience utilisateur dans le domaine du data catalog

La notion d’expérience utilisateur se repose principalement sur l’identification de persona dont on cherche à modéliser le comportement et les objectifs, afin de leur fournir une interface graphique aussi performante et ergonomique que possible. Dans le domaine du data catalog, la caractérisation des personas est problématique, car il n’existe pas d’organisation canonique – il s’agit d’un outil universel, précieux pour des entreprises de toutes tailles, opérant sur virtuellement tous les secteurs d’activité et dans toutes les géographies.

Plutôt que modéliser d’insaisissables personas, il est possible d’aborder le sujet en étudiant l’adoption. Pour cela, on peut distinguer deux grandes populations d’utilisateurs 

  • Les producteurs de métadonnées, qui vont alimenter le catalogue et monitorer la qualité de son contenu – nous les appellerons de façon générique les Data Stewards ;
  • Les consommateurs de métadonnées, qui vont utiliser le catalogue dans le cadre d’un objectif opérationnel lié à leur fonction – nous les appellerons simplement Utilisateurs.

Ces deux populations ne sont bien sûr pas totalement disjointes : certains Data Stewards, polyvalents, sont aussi Utilisateurs.

Les freins à l’adoption du catalogue dans l’entreprise

La vraie valeur d’un data catalog réside dans sa capacité à être adopté largement non par les spécialistes du Data Management, mais par la population beaucoup plus vaste des consommateurs de données (ou de métadonnées).

Cette population est très diversifiée. On y retrouve des experts de la donnée (ingénieurs, architectes, data analysts, data scientists, etc.), des profils métiers (chefs de projets, responsables de domaines, responsables produits, etc.), des spécialistes de la conformité ou du risque. Et plus généralement – dans les organisations les plus matures – tous les responsables opérationnels qui sont amenés à consommer des données pour améliorer leurs performances.

L’adoption du data catalog par ces populations d’Utilisateurs est typiquement freinée par les aspects suivants :

  • Pour ces Utilisateurs, l’usage du data catalog est sporadique : ils l’utilisent ponctuellement pour répondre à une question précise, puis utilisent la réponse à leur question dans leur activité opérationnelle. Ils n’ont généralement ni le temps ni l’envie de supporter une courbe d’apprentissage longue sur un outil qu’ils n’utilisent que de façon ponctuelle – il peut s’écouler des semaines entre deux utilisations

  • Tous n’ont pas le même prisme sur les métadonnées. Certains seront davantage concernés par les métadonnées techniques, d’autres auront un prisme beaucoup plus sémantique, d’autres encore seront focalisés sur les aspects organisationnels ou de gouvernance.

  • Tous ne maîtrisent pas le métamodèle ni l’organisation interne de l’information dans le catalogue. Ils peuvent rapidement se sentir intimidés par une avalanche de concepts potentiellement abscons à leurs yeux.

Le Smart Data Catalog va chercher à adresser ces différents freins pour accélérer l’adoption du catalogue. 

Les solutions mises en place par Zeenea pour favoriser l’adoption du catalogue

Le premier élément de réponse tient à l’interface graphique. Nous estimons que les Utilisateurs doivent avoir une courbe d’apprentissage la plus faible possible pour utiliser le catalogue – en pratique, cela signifie qu’ils devraient être en mesure de l’utiliser de façon efficace sans formation préalable. Pour cela, nous avons pris plusieurs décisions.

La première consiste à ne pas proposer la même interface graphique aux Data Stewards et aux Utilisateurs. La solution Zeenea propose deux interfaces :

Zeenea Studio : l’outil de gestion et de monitoring du contenu du catalogue – un outil expert destiné aux Data Stewards.

Zeenea Explorer : qui est destiné aux Utilisateurs – leur propose une expérience de recherche et d’exploration du catalogue la plus simple possible.

Cette approche reprend les principes ergonomiques des solutions de marketplace – qui restent les grands spécialistes de la gestion de catalogue au sens large. Ces solutions proposent typiquement au moins deux applications. L’une, que l’on pourrait qualifier de back-office, permet au personnel de la marketplace (ou à ses partenaires) d’alimenter le catalogue de la façon la plus automatisée possible et de contrôler son contenu pour monitorer sa qualité. L’autre, destinée aux consommateurs, est le plus souvent matérialisée par un site de commerce électronique, et permet aux utilisateurs finaux de rechercher des articles ou d’explorer thématiquement le catalogue. Zeenea Studio et Zeenea Explorer tiennent respectivement ces deux rôles.

Une information hiérarchisée en fonction du rôle de l’utilisateur dans l’organisation

Le second dispositif imaginé par Zeenea est encore au stade expérimental. Il consiste à adapter dynamiquement la hiérarchie de l’information dans la catalogue selon le profil de l’Utilisateur.

En effet, pour un catalogue de données, la hiérarchie de l’information est tributaire du rôle opérationnel de l’Utilisateur. Pour certains, l’information la plus importante sur un jeu de données va être ses caractéristiques techniques : emplacement, sécurité, formats, types, etc. D’autres voudront avant tout connaître la sémantique des données et leur lineage métier. D’autres encore sauront connaître les processus et contrôles qui pilotent la production des données – à des fins réglementaires ou plus opérationnelles.

Le Smart Data Catalog devrait ajuster dynamiquement la structure de l’information pour s’adapter à ces différents prismes.

Enfin, le dernier frein concerne l’organisation de l’information dans le catalogue, qui se matérialise par des axes d’exploration thématiques (un peu comme les rayonnages d’une marketplace). Là aussi, difficile de trouver une structure qui satisfasse toutes les populations d’utilisateurs. Certains chercheront plutôt à explorer le catalogue selon des axes techniques (systèmes, applications, technologies, etc.). D’autres voudront l’explorer selon une classification fonctionnelle – domaines et sous-domaines métier, d’autres encore sous un angle plutôt sémantique à travers un glossaire métier, etc.

La difficulté d’accorder tout le monde sur une classification universelle nous semble insurmontable, et là aussi, le Smart Data Catalog devrait s’adapter à ces différents prismes plutôt que demander aux Utilisateurs de maîtriser une classification qui n’a peut-être pas de sens pour eux. L’expérience utilisateur est donc l’un des facteurs de succès les plus importants pour un catalogue de données. 

    post-wp-smart-data-catalog-fr

    Pour comprendre comment une expérience utilisateur “smart” (maligne) renforce les capacités d’un data catalog, téléchargez notre eBook : “Qu’est-ce qu’un Smart Data Catalog ?” dès maintenant!

    Qu’est-ce qui rend un data catalog « smart » (malin) ? n°4 – Le moteur de recherche

    Qu’est-ce qui rend un data catalog « smart » (malin) ? n°4 – Le moteur de recherche

    Un data catalog consolide des millions d’informations de nature très diverses – et ce volume croît de façon exponentielle. Cette volumétrie d’informations va soulever deux challenges majeurs : 

    • Comment alimenter et maintenir ce volume d’information sans exploser le coût de gestion des métadonnées ? 
    • Comment trouver le jeu de données le plus pertinent pour un cas d’usage donné ?

    Chez Zeenea, nous pensons qu’un data catalog doit être smart pour répondre à ces 2 questions, via des dispositifs technologiques et conceptuels que l’on qualifie de malins qui ne se cantonnent pas pas à l’intégration d’algorithmes d’intelligence artificielle. 

    En ce sens, nous avons identifié 5 domaines dans lesquels un data catalog peut être Smart – la plupart ne faisant pas appel au machine learning : 

    1. La modélisation du métamodèle 
    2. L’inventaire des données 
    3. La gestion de métadonnées 
    4. Le moteur de recherche
    5. L’expérience utilisateur

    Un moteur de recherche puissant pour une exploration efficace

    Selon nous, dans un univers d’information très volumineux, comme c’est le cas d’un catalogue de données d’entreprise, la recherche n’est pas une fonction annexe mais le principal mécanisme par lequel les utilisateurs vont pouvoir exploiter le catalogue. Elle doit donc être simple, puissante, et surtout efficace – les résultats doivent satisfaire les utilisateurs. Google ou Amazon.com fixent en la matière la barre très haut, et l’expérience de recherche qu’ils proposent est devenue une sorte de référence dans le domaine. 

    Ils fixent le la de l’expérience de recherche, que l’on pourrait résumer de la sorte :

    • Je saisis quelques mots clés dans la barre de recherche – souvent assisté par un système de suggestion me proposant des associations fréquentes de termes permettant de mieux qualifier ma recherche.
    • La réponse, quasi instantanée, m’affiche les résultats dans un ordre précis, et je m’attends à trouver celui ou ceux qui m’intéressent sur la première page de résultats.
    • À défaut, je vais soit ajouter un terme à ma recherche pour mieux la circonscrire, soit utiliser un système plus ou moins poussé de filtrage permettant d’éliminer les résultats non pertinents.

    Or dans le monde du data catalog, en matière de capacités de recherche, les solutions du marché proposent au mieux un bon système d’indexation. Cette approche donne des résultats satisfaisants quand l’utilisateur a une idée précise de ce qu’il cherche (high intent search), mais est décevante pour ceux dont la démarche est plus exploratoire (low intent search) ou quand il s’agit de suggérer spontanément certains résultats pertinents à un utilisateur (no intent).

    En somme, la simple indexation permet au mieux de retrouver les éléments dont on connaît les caractéristiques précises, mais n’est pas suffisante lorsque la recherche est plus évasive. Les résultats sont alors trop souvent pollués par de nombreux faux positifs, et l’ordre des résultats est surdéterminé par les correspondances exactes.

    Une approche multidimensionnelle de la recherche

    Nous avons décidé quant à nous, dès le départ, qu’un simple système d’indexation serait trop limitatif pour répondre de façon pertinente aux questions des utilisateurs. Nous avons donc pris le parti d’isoler le moteur de recherche dans un module dédié de la plateforme, et d’en faire une zone d’innovation (et d’investissement) forte.

    Nous ne disposons bien sûr pas des moyens de Google, ni de sa connaissance en matière d’optimisation des résultats de recherche. Mais nous avons néanmoins intégré dans notre moteur de recherche plusieurs features qui permettent d’ores et déjà une très bonne pertinence, et qui sont en amélioration continue – tester et valider la performance d’un moteur de recherche est en soit une gageure.

    Nous nous sommes donc naturellement intéressés aux travaux des fondateurs de Google sur leur algorithme Page Rank. Celui-ci prend en compte plusieurs dizaines d’aspects (appelées features), parmi lesquels on retrouve la densité des relations entre les différents objets du graphe (liens hypertextes dans le cas de pages Internet), le traitement linguistique des termes de la recherche ou encore l’analyse sémantique du knowledge graph.

    Les principales features que nous avons intégré sont les suivantes :

    • L’indexation classique, à plat, de tous les attributs d’un objet (son nom, sa description et toutes ses propriétés) avec une pondération en fonction du type de propriété.
    • Une couche de NLP (Natural Language Processing) permettant de prendre en compte les approchants (fautes de frappe ou d’orthographe).
    • Une couche d’analyse sémantique, reposant sur le traitement du knowledge graph.
    • Une couche de personnalisation, reposant actuellement sur une classification simple des utilisateurs selon leurs cas d’usage, mais qui sera dans le future enrichie de données de profilage individuel.

    Le smart filtering pour contextualiser et limiter les résultats de recherche

    Pour compléter le moteur de recherche, nous proposons également un système de smart filtering. Il s’agit d’une capacité que l’on trouve fréquemment dans les sites e-commerce (typiquement Amazon.com ou Booking.com), et qui consiste à proposer des filtres contextualisés pour réduire le résultat d’une recherche.

    Ces filtres fonctionnent de la façon suivante :

    • Seules les propriétés qui permettent effectivement de réduire la liste des résultats sont proposées dans la liste des filtres – les propriétés non discriminantes n’apparaissent pas.
    • Chaque filtre indique son impact – c’est-à-dire le nombre de résultats résiduels une fois le filtre appliqué.
    • L’application d’un filtre rafraîchit instantanément la liste des résultats.

    En combinant la recherche multidimensionnelle et le smart filtering, nous estimons aujourd’hui offrir une expérience de recherche véritablement smart. Et notre architecture découplée nous permet d’expérimenter de façon continue de nouvelles approches, tout en intégrant très rapidement celles qui nous semblent efficaces.

      post-wp-smart-data-catalog-fr

      Pour comprendre comment un moteur de recherche “smart” (malin) renforce les capacités d’un data catalog, téléchargez notre eBook : “Qu’est-ce qu’un Smart Data Catalog ?” dès maintenant!

      Qu’est-ce qui rend un data catalog « smart » (malin) ? n°2 – L’inventaire des données

      Qu’est-ce qui rend un data catalog « smart » (malin) ? n°2 – L’inventaire des données

      Un data catalog consolide des millions d’informations de nature très diverses – et ce volume croît de façon exponentielle. Cette volumétrie d’informations va soulever deux challenges majeurs : 

      • Comment alimenter et maintenir ce volume d’information sans exploser le coût de gestion des métadonnées ? 
      • Comment trouver le jeu de données le plus pertinent pour un cas d’usage donné ?

      Chez Zeenea, nous pensons qu’un data catalog doit être smart pour répondre à ces 2 questions, via des dispositifs technologiques et conceptuels que l’on qualifie de malins qui ne se cantonnent pas pas à l’intégration d’algorithmes d’intelligence artificielle. 

      En ce sens, nous avons identifié 5 domaines dans lesquels un data catalog peut être Smart – la plupart ne faisant pas appel au machine learning : 

      1. La modélisation du métamodèle 
      2. L’inventaire des données 
      3. La gestion de métadonnées 
      4. Le moteur de recherche
      5. L’expérience utilisateur

      Le second domaine sur lequel un data catalog peut être smart, c’est l’inventaire. Rappelons-le : un data catalog est fondamentalement un inventaire aussi exhaustif que possible des actifs informationnels, complété d’un ensemble de métadonnées permettant d’exploiter de façon optimale les actifs en question. Tout effort de mise en place d’un catalogue de données repose donc en premier lieu sur un inventaire des actifs présents dans les différents systèmes.

      Le défi de l’automatisation de l’inventaire

      Aussi bien pensée soit-elle, l’approche déclarative pour la construction de l’inventaire ne nous semble pas spécialement smart. Elle requiert une charge de travail conséquente pour initialiser le catalogue, et oblige à un travail constant et passablement rébarbatif pour le maintenir à jour – dans un univers digital en perpétuelle évolution, l’inventaire initial est rapidement frappé d’obsolescence.

      Le premier moyen pour réaliser un inventaire de façon maline, c’est bien sûr de l’automatiser. À de rares exceptions près, les jeux de données d’une entreprise sont gérés par des systèmes spécialisés, qui vont du système de fichiers distribué aux ERPs en passant par des bases de données relationnelles ou non, des progiciels, des dataware houses, etc. Tous ces systèmes maintiennent, d’une façon ou d’une autre, un registre des données qu’ils gèrent, et un ensemble de métadonnées nécessaires à leur bon fonctionnement.

      Inutile donc de recréer manuellement ces informations : il suffit de se connecter aux différents registres, et de synchroniser le contenu du catalogue avec celui des systèmes source. Le principe est simple, la réalisation nettement plus délicate. En effet, il n’existe aucun standard auquel se conformeraient les différentes technologies pour offrir une méthode universelle d’accès à leur métadonnées.

      Le rôle essentiel de la connectivité aux systèmes sources

      Une couche de connectivité maline est donc constitutive du Smart Data Catalog. Pour une description plus poussée de la technologie de Zeenea en matière de connectivité, je vous renvoie de nouveau à notre précédent livre blanc, les 5 ruptures technologiques d’un data catalog de nouvelle génération. Rappelons simplement ici ses principales caractéristiques, elle est :

      • Propriétaire – nous ne nous reposons pas sur une solution tierce, pour conserver son ultra-spécialisation sur la récupération de métadonnées.
      • Distribuée – pour ne pas limiter la portée du catalogue.
      • Ouverte – quiconque voulant l’enrichir peut développer simplement ses propres connecteurs.
      • Universelle – elle permet de synchroniser n’importe quelle source de métadonnées

      Cette production de métadonnées nécessite non plus simplement l’accès aux registres des systèmes sources, mais aux données elles-mêmes, qui vont être analysées par nos scanners pour enrichir automatiquement le catalogue.

      À ce jour, nous produisons deux types de métadonnées :

      • De l’analyse statistique qui permet de construire le profil des données – distribution des valeurs, taux de valeurs nulles, top valeurs, etc. (la nature de ces métadonnées dépend bien sûr du type natif des données analysées) ;

      • De l’analyse structurelle pour déterminer le type fonctionnel de certaines données textuelles (email, adresse postale, numéro de sécurité sociale, code client, etc. – le système est extensible et personnalisable).

      Le mécanisme d’inventaire doit lui aussi être malin

      Outre la connectivité, qui permet d’alimenter automatiquement le catalogue avec les actifs contenus dans les différents systèmes, notre mécanisme d’inventaire est lui-même smart en plusieurs points :

      • La détection des jeux de données s’appuie sur une grande connaissance des structures de stockage, notamment dans des contextes Big Data. Par exemple, un jeu de données IoT constitué de milliers de fichiers de mesures time series sera bel et bien identifié comme un jeu de données unique ;
      • L’inventaire n’est pas par défaut directement intégré dans le catalogue, pour éviter d’importer des jeux de données techniques ou temporaires, dont la présence dans le catalogue est généralement inutile (soit parce-que les données ne sont pas exploitables, soit parce qu’elles sont redondantes) ;

      • La sélection des actifs à importer dans le catalogue est elle- même assistée – nous nous efforçons d’identifier les objets les plus susceptibles d’intégrer le catalogue, en utilisant plusieurs approches complémentaires pour réaliser cette sélection.
      post-wp-smart-data-catalog-fr

      Pour comprendre comment un inventaire de données “smart” (malin) renforce les capacités d’un data catalog, téléchargez notre eBook :

      “Qu’est-ce qu’un Smart Data Catalog ?” dès maintenant!

      Qu’est-ce qui rend un data catalog « smart » (malin) ? n°1 – La modélisation du métamodèle

      Qu’est-ce qui rend un data catalog « smart » (malin) ? n°1 – La modélisation du métamodèle

      Un data catalog consolide des millions d’informations de nature très diverses – et ce volume croît de façon exponentielle. Cette volumétrie d’informations va soulever deux challenges majeurs : 

      • Comment alimenter et maintenir ce volume d’information sans exploser le coût de gestion des métadonnées ? 
      • Comment trouver le jeu de données le plus pertinent pour un cas d’usage donné ?

      Chez Zeenea, nous pensons qu’un data catalog doit être smart pour répondre à ces 2 questions, via des dispositifs technologiques et conceptuels que l’on qualifie de malins qui ne se cantonnent pas pas à l’intégration d’algorithmes d’intelligence artificielle. 

      En ce sens, nous avons identifié 5 domaines dans lesquels un data catalog peut être Smart – la plupart ne faisant pas appel au machine learning : 

      1. La modélisation du métamodèle 
      2. L’inventaire des données 
      3. La gestion de métadonnées 
      4. Le moteur de recherche
      5. L’expérience utilisateur

      Un métamodèle universel et statique ne peut être smart

      Le nombre de métadonnées nécessaire pour exploiter efficacement les actifs informationnels peut être considérable. Et ces métadonnées seront spécifiques à chaque organisation, voire à des populations distinctes dans une même organisation. Par exemple, un business analyst ne cherchera pas nécessairement les mêmes informations qu’un ingénieur ou un responsable produit.

      Partant de là, chercher à définir un métamodèle universel ne nous semble pas spécialement malin. En effet, un tel métamodèle devrait s’adapter à tous les contextes imaginables, tombant fatalement dans l’un des trois écueils classiques de l’universalisme :

      • Un simplisme excessif, qui ne permettra pas à terme de couvrir tous les cas d’usage ;

      • Un niveau d’abstraction excessif, potentiellement capable de s’adapter à de nombreux contextes mais au prix d’un apprentissage long et difficile des concepts – difficilement compatible avec le déploiement à grande échelle du catalogue ;

      • Un niveau d’abstraction trop faible, qui oblige à multiplier les concepts concrets en combinant les notions issues d’un grand nombre de contextes différents – mais qui pour beaucoup seront inutiles dans un contexte particulier, compliquant inutilement le métamodèle, potentiellement au point de le rendre incompréhensible.

      La métamodélisation Smart, selon nous, doit permettre d’adapter le métamodèle à chaque contexte, et de l’enrichir à mesure que les cas d’usage, ou le niveau de maturité de l’organisation se développent.

      L’approche organique du métamodèle

      Un métamodèle est un domaine de connaissance, et la structure formelle d’un modèle de connaissance porte le nom d’ontologie.

      Une ontologie définit un ensemble de classes d’objets, leurs attributs et les relations qu’elles peuvent avoir entre elles. Dans un modèle universel, l’ontologie est statique – les classes, les attributs et les relations sont prédéfinis, avec un niveau d’abstraction et de complexité variable.

      Chez Zeenea, nous avons choisi de ne pas nous appuyer sur une ontologie statique, mais plutôt de nous reposer sur un graphe de connaissance complètement évolutif.

      Au démarrage, le métamodèle est donc volontairement très simple – il ne comprend qu’une poignée de types, représentant les différentes classes d’actifs informationnels (sources de données, jeux de données, champs, tableaux de bords), chacun doté de quelques attributs que nous jugeons universels (nom, description, contacts).

      Ce métamodèle de base est complété automatiquement par les métadonnées techniques extraites des sources de données, qui varient en fonction de la technologie sous- jacente (les métadonnées techniques d’une table dans un data warehouse ne sont pas strictement les mêmes que celles d’un fichier parquet dans un data lake).

      Smart Data Catalog - Metamodel

      Cette métamodélisation que l’on pourrait qualifier d’organique, est selon nous la façon la plus smart d’aborder la problématique de l’ontologie dans un data catalog. Elle présente en effet plusieurs intérêts majeurs :

      • Le métamodèle peut être complètement adapté à chaque contexte, s’appuyant sur une modélisation souvent pré- existante, intégrant la nomenclature et la terminologie maison sans nécessiter un cycle d’apprentissage long et coûteux ;

      • Le métamodèle n’a pas besoin d’être intégralement défini pour démarrer l’exploitation du catalogue – il suffira de se focaliser sur les quelques classes d’objets et les quelques attributs nécessaires pour couvrir les premiers cas d’utilisation, puis d’augmenter ce modèle à mesure que la portée du catalogue se développe ;

      • Les feedbacks utilisateurs pourront être intégrés progressivement, améliorant l’adoption du catalogue, et par conséquent le retour sur investissement de la gestion de métadonnées.

      L’ajout d’attributs fonctionnels au métamodèle pour faciliter la recherche

      Cette approche de la métamodélisation présente des avantages massifs, mais également un inconvénient majeur : le métamodèle étant complètement dynamique, il est difficile pour le moteur d’en comprendre la structure, et par conséquent d’assister efficacement les utilisateurs pour l’alimenter et le consommer (ces deux sujets étant au cœur du Smart Data Catalog).

      Une partie de la solution concerne le métamodèle, et notamment les attributs de l’ontologie. Classiquement, les attributs d’un métamodèle sont définis par leur type technique (une date, un chiffre, une chaîne de caractères, une liste de valeurs, etc.). Chez Zeenea, la bibliothèque de types contient bien sûr ces types techniques, mais également des types fonctionnels – un niveau de qualité, un niveau de confidentialité, un caractère personnel, etc.

      Utiliser ces types fonctionnels permet au moteur Zeenea de mieux comprendre l’ontologie pour affiner ses algorithmes et adapter la représentation de l’information.

      post-wp-smart-data-catalog-fr

      Pour comprendre comment un métamodèle “smart” (malin) renforce les capacités d’un data catalog, téléchargez notre eBook :

      “Qu’est-ce qu’un Smart Data Catalog ?” dès maintenant!

      Le glossaire métier : levier de productivité du Data Catalog

      Le glossaire métier : levier de productivité du Data Catalog

      Les entreprises manipulent des volumes gigantesques et toujours croissants d’assets techniques, avec généralement beaucoup d’informations dupliquées dans différents systèmes. Documenter un à un tous ces actifs, même avec l’aide de solutions d’automatisation, est un véritable challenge qui est pratiquement impossible à relever pour la majorité des entreprises.

      Grâce à des solutions d’automatisation, un certain nombre d’informations sont ainsi récupérées et permettent d’obtenir assez souvent une documentation technique détaillée de ce que contient le système d’information. Les solutions standards de data catalog permettent ensuite à des utilisateurs avertis de compléter cette documentation en y ajoutant des attributs de classification, afin de décrire plus spécifiquement l’écosystème technique de l’entreprise.

      Cependant, si ces informations permettent de répondre à certaines questions des interlocuteurs les plus techniques (ingénieurs, architectes, etc.), elles restent généralement obscures pour une population croissante de consommateurs du patrimoine de données dans l’entreprise. En effet, ces consommateurs ne peuvent ni exploiter, ni gouverner efficacement ces données.

      Pour apporter tout le contexte nécessaire à la consommation de ces données, les utilisateurs ont besoin de différents types d’informations : organisationnelles, statistiques, conformité, etc.

      En particulier, la documentation technique doit s’accompagner d’informations dites sémantiques. C’est l’objectif de l’implémentation d’un glossaire métier.

      Construire un langage commun grâce au glossaire métier

      Lorsque des utilisateurs métier évoquent les données, ils font généralement référence à des concepts tels que l’adresse du client, les ventes, ou le chiffre d’affaires de 2021. Ils ne parlent pas d’une table ou d’un schéma de base de données, dont ils n’ont pas nécessairement la connaissance ou la compréhension. Un glossaire métier va permettre de définir ces concepts et de partager ces définitions entre tous les collaborateurs.

      L’ajout de métadonnées sémantiques répond ainsi à plusieurs objectifs :

      • Faire le pont entre les utilisateurs métier et les utilisateurs techniques, en construisant un langage commun permettant de collaborer efficacement ;

      • Aligner les utilisateurs métier, notamment entre différentes entités au sein de l’entreprise sur ces définitions. Cela permet en particulier d’éviter les ambiguïtés entre les termes proches ;

      • Permettre à tous les utilisateurs de trouver plus facilement la donnée recherchée et apporter le contexte nécessaire pour la comprendre et l’exploiter.

      Un bon outil de Data Catalog doit donc proposer une solution pour administrer ces concepts métier, permettre de les lier aux assets techniques qui implémentent ces concepts, et ainsi ouvrir l’utilisation du catalogue à l’échelle de l’entreprise.

      Vous voulez en savoir plus sur les glossaires métier ?

      Si vous souhaitez approfondir vos connaissances sur le glossaire métier dans un data catalog, téléchargez notre eBook gratuit : « Glossaire Métier  : composant essentiel du Data Catalog pour les organisations data fluents ».

      Dans cet eBook, vous trouverez : 

      • une description complète des approches existantes en fonction de l’objectif de l’entreprise lorsqu’il s’agit de décrire un domaine de connaissances : lexique, thésaurus, ontologie formelle ;

      • une présentation de l’approche de Zeenea basée sur des graphes, qui offre la flexibilité, la simplicité et la scalabilité nécessaires pour couvrir les besoins des utilisateurs de la donnée.

      Comment construire un système de permissions efficace pour un Data Catalog ?

      Comment construire un système de permissions efficace pour un Data Catalog ?

      Le Data Catalog d’une organisation permet de valoriser l’ensemble de son patrimoine de données en s’appuyant notamment sur deux types d’informations – d’une part les informations purement techniques synchronisées automatiquement depuis les sources ; et d’autre part les informations métier qui sont issues du travail des Data Stewards. Ces dernières sont mises à jour manuellement et apportent ainsi leur lot de risques à l’échelle de l’organisation.

      Un système de permissions est alors essentiel afin de définir et hiérarchiser les droits d’accès des utilisateurs du catalogue. Dans cet article, nous détaillons les caractéristiques fondamentales et les approches possibles pour bâtir un système de permissions efficace, ainsi que la solution mise en place dans le Data Catalog Zeenea.

      Le système de permissions : un outil indispensable à l’échelle de l’organisation

      Pour que l’utilisateur du Data Catalog ait confiance dans les informations qu’il consulte, il est essentiel que la documentation des objets catalogués soit pertinente, de qualité et surtout fiable. Vos utilisateurs doivent facilement trouver, comprendre et exploiter le patrimoine de données à leur disposition. 

      Origine des informations du catalogue et automatisation 

      Un catalogue de données intègre généralement deux types d’informations. D’une part, on trouve des informations purement techniques qui proviennent directement de la source de données. Chez Zeenea, ces informations sont synchronisées de façon complètement automatisée et continue entre le Data Catalog et chaque source de données, pour en garantir la véracité et la fraîcheur. D’autre part, le catalogue contient toute la documentation métier ou organisationnelle (majoritaire), qui est quant à elle issue du travail des Data Stewards. Ces informations ne peuvent pas être automatisées, elles sont mises à jour manuellement par les équipes de data management de l’entreprise.

      Le système de permissions comme prérequis à l’utilisation du catalogue

      C’est pour gérer cette deuxième catégorie d’informations que le catalogue doit comporter des mécanismes de contrôle de la saisie. En effet, il n’est pas souhaitable que n’importe quel utilisateur du Data Catalog de votre organisation puisse créer, éditer, importer, exporter ou même supprimer des informations sans avoir été crédité des autorisations préalables. Un système de gestion des permissions des utilisateurs est alors un prérequis, c’est lui qui joue ce rôle de garde fou. Il définit les droits d’accès des utilisateurs.

      Les 3 caractéristiques fondamentales du système de permissions d’un Data Catalog

      La mise en place d’un système de permissions à l’échelle de l’entreprise est soumise à de nombreuses attentes qui vont devoir être prises en compte pour sa conception même. Parmi elles, nous avons choisi dans cet article de nous concentrer sur trois grandes caractéristiques fondamentales d’un système de permissions : son niveau de granularité et de flexibilité, sa lisibilité et son auditabilité, ainsi que sa simplicité d’administration.

      Granularité et flexibilité

      Tout d’abord, un système de permissions doit avoir le bon niveau de granularité et de flexibilité. Certaines actions doivent être disponibles sur l’ensemble du catalogue afin d’en faciliter l’usage. D’autres actions doivent être restreintes à certaines parties du catalogue uniquement. Certains utilisateurs auront des droits globaux liés à tous les objets du catalogue, d’autres seront limités à ne pouvoir éditer que le périmètre qui leur aura été attribué. Le système de permissions doit donc permettre cet éventail de possibilités allant de la permission globale à la finesse d’un objet dans le catalogue. 

      Chez Zeenea par exemple, les clients sont de toutes tailles, avec des niveaux de maturité sur les sujets de la gouvernance data très hétérogènes. Certains sont des Start-ups, d’autres de grandes entreprises. Certains ont une culture data déjà bien intégrée dans leur processus, d’autres au contraire n’en sont qu’au début de leur démarche d’acculturation data. Le système de permissions doit donc être suffisamment flexible pour s’adapter à toutes les typologies d’organisations.

      Lisibilité et auditabilité

      Ensuite, un système de permissions doit être lisible et facile à suivre. Lors d’un audit, ou d’une revue des permissions du système, un administrateur qui explore un objet doit être en mesure de rapidement savoir qui est en capacité de le modifier. Inversement quand un administrateur regarde le détail des droits d’un utilisateur, il doit rapidement être capable de déterminer le périmètre qui lui est attribué et ses actions autorisées sur celui-ci. 

      Cela permet de s’assurer simplement que les bonnes personnes ont accès aux bons périmètres, et ont le bon niveau de permission par rapport à leur rôle dans l’entreprise. 

      Ne vous-êtes vous jamais retrouvé face à un système de permissions et d’autorisations tellement complexe qu’il était impossible de comprendre pourquoi un utilisateur avait le droit de consulter une information ? Ou au contraire en était incapable ?

      Simplicité d’administration

      Enfin, un système de permissions doit être résilient face à l’augmentation du volume du catalogue. On sait aujourd’hui que nous vivons dans un monde de données : 2,5 exaoctet de données étaient générées par jour en 2020 et on estime à 463 exaoctet le volume de données générées par jour en 2025. Nouveaux projets, nouveaux produits, nouveaux usages : les entreprises doivent faire face quotidiennement à l’explosion de leur patrimoine data.

      Pour rester pertinent, un Data Catalog doit évoluer avec la data de l’entreprise. Le système de permissions doit alors absolument être résilient face à la modification de son contenu ou même suite aux mouvements de collaborateurs dans l’organisation.

      Les différentes approches pour la conception d’un système de permissions d’un catalogue de données

      Il existe différentes approches pour la conception du système de permissions d’un Data Catalog, qui répondent plus ou moins bien aux caractéristiques principales attendues et évoquées ci-dessus. Nous avons choisi d’en détailler trois dans cet article.

      Le Crowdsourcing

      Premièrement, l’approche crowd sourcing – on fait confiance au collectif pour s’auto-corriger. Une poignée d’administrateurs peuvent modérer le contenu et l’ensemble des utilisateurs peut contribuer à la documentation. Un système d’audit vient généralement compléter le dispositif pour s’assurer de ne pas perdre d’information par erreur ou malveillance. Dans ce cas, aucun contrôle a priori, mais une correction collective a posteriori. C’est typiquement le système choisi par des encyclopédies en ligne telles que Wikipedia. Ces systèmes sont dépendants du nombre de contributeurs et de leurs connaissances propres pour bien fonctionner, l’auto-correction ne pouvant être efficace que grâce au collectif. 

      Ce système répond parfaitement au besoin de lisibilité – tous les utilisateurs ayant le même niveau de droit, il n’y a pas de question à se poser sur les droits d’accès de chacun. Il est également simple à administrer – tout nouvel utilisateur possède le niveau de droit commun à tous, et tout nouvel objet dans le Data Catalog est accessible par tous. En revanche, il n’existe pas de possibilité de gérer la granularité des droits. Tout le monde peut tout faire et tout voir.

      La permission rattachée à l’utilisateur 

      Seconde approche pour la conception du système de permissions : les solutions où le périmètre est attaché au profil de l’utilisateur. Lors de la création d’un utilisateur dans le Data Catalog, les administrateurs lui assignent un périmètre qui définit les ressources que celui-ci aura la possibilité de voir et de modifier. Dans ce cas, tous les contrôles sont faits en amont et un utilisateur ne peut pas avoir accès à une ressource par inadvertance. C’est le type de système d’un OS type Windows par exemple.

      Ce système a l’avantage d’être très sûr, il n’y a aucun risque qu’une nouvelle ressource soit visible ou modifiable pour les personnes qui n’en auraient pas le droit. Ce système répond également au besoin de lisibilité : pour chaque utilisateur, toutes les ressources qui lui sont accessibles sont simples à retrouver. Le niveau de granularité attendu est également bon, puisqu’il est possible d’attribuer ressource par ressource les données du système. 

      En revanche, l’administration en est plus complexe – à chaque nouvelle ressource ajoutée au catalogue, il faut l’ajouter aux périmètres des utilisateurs concernés. Il est possible de pallier cette limitation en créant des périmètres dynamiques. Pour ce faire on peut définir des règles qui attribuent les ressources aux utilisateurs, par exemple tous les fichiers de type PDF lui seront accessibles. Mais des règles contradictoires peuvent facilement apparaître, compliquant alors la lisibilité du système.

      La permission rattachée à la ressource 

      Dernière grande approche pour concevoir le système de permissions d’un Data Catalog : les solutions où les actions autorisées sont attachées à la ressource à modifier. Pour chaque ressource, les permissions possibles sont définies utilisateur par utilisateur. Ainsi c’est elle qui porte sa propre liste de permissions. En regardant la ressource, il est alors possible de savoir tout de suite qui peut la consulter ou l’éditer. C’est par exemple le type de système d’un OS de type UNIX.

      Le besoin en lisibilité est parfaitement comblé – un administrateur voit immédiatement les droits des différents utilisateurs en consultant la ressource. Idem pour le besoin en granularité – cette approche permet de donner des droits au niveau le plus macro par un système d’héritage, ou au niveau le plus micro directement sur la ressource. Enfin, côté facilité d’administration, il est nécessaire de rattacher chaque nouvel utilisateur aux différentes ressources ce qui est potentiellement fastidieux. Il existe cependant des systèmes de groupe qui permettent de mitiger cette complexité.

      Le modèle de permissions du Data Catalog Zeenea : simple, lisible et flexible

      Parmi ces approches, détaillons celle qui a été choisie par Zeenea et comment elle est appliquée.

      L’approche au niveau de la ressource privilégiée

      Récapitulons les différents avantages et inconvénients de chacune des approches abordées précédemment. Dans les deux systèmes de permissions rattachées à la ressource ou à l’utilisateur, le besoin en granularité est correctement appréhendé – ces systèmes permettent d’assigner des droits ressource par ressource. En revanche, dans le cas du crowdsourcing, la philosophie de base est que tout le monde peut accéder à tout.

      La lisibilité ensuite est clairement plus simple à suivre dans les systèmes de type crowdsourcing ou pour ceux dans lesquels les permissions sont rattachées à la ressource. Elle reste convenable dans les systèmes où les permissions sont rattachées à l’utilisateur mais souvent au détriment de la simplicité d’administration.

      Enfin, la simplicité d’administration est très optimisée pour l’approche crowdsourcing et dépend alors de ce qu’on va le plus modifier – la ressource ou bien les utilisateurs.

       Le besoin de granularité n’étant pas respecté dans l’approche crowdsourcing, nous l’avons éliminée. Il nous restait alors deux solutions : la permission rattachée à la ressource ou la permission rattachée à l’utilisateur. La lisibilité étant un peu meilleure sur les permissions rattachées à la ressource, et étant donné que le contenu du catalogue va évoluer plus vite que le nombre d’utilisateurs, l’option des permissions attachées à l’utilisateur nous semblait la moins pertinente.

      L’option que nous avons privilégiée chez Zeenea est donc la troisième : les permissions sont rattachées aux ressources.

      Le fonctionnement du système de permissions du Data Catalog Zeenea

      Dans le catalogue de données Zeenea, il est possible de définir pour chaque utilisateur s’il aura le droit de manipuler les objets de l’ensemble du catalogue, un ou plusieurs types d’objets, ou uniquement ceux de son périmètre. Ainsi la granularité la plus fine est permise, mais également des rôles plus globaux. Par exemple, des “super-stewards” pourraient avoir la permission d’agir sur des parties entières du catalogue, comme le glossaire.

      On associe ensuite une liste de dépositaires à chaque objet du catalogue, c’est-à-dire les responsables de la documentation de cet objet. Ainsi, simplement en explorant les détails de l’objet, on peut immédiatement savoir à qui s’adresser pour corriger, compléter la documentation, ou encore répondre à une question sur celle-ci. Le système est donc lisible et simple à comprendre. Les périmètres d’actions des utilisateurs sont déterminés avec précision grâce à un système granulaire, jusqu’à l’objet du catalogue.

      Lorsqu’un nouvel utilisateur est ajouté au catalogue, il faut alors lui définir son périmètre d’actions. Pour le moment, cette configuration se fait en passant par une édition en masse des objets. Afin de simplifier encore la gestion, il sera bientôt possible de définir des groupes d’utilisateurs responsables, pour qu’à l’arrivée d’un nouveau collaborateur il n’y ait plus besoin de l’ajouter nominativement sur chaque objet dans son périmètre. Il suffira alors de l’ajouter au groupe responsable, et son périmètre lui sera automatiquement attribué.

      Enfin, nous avons volontairement fait le choix de ne pas implémenter de workflow de validation de la documentation dans le catalogue. Nous pensons en effet que la responsabilisation des équipes est une des clés de la réussite d’une démarche de mise en place d’un Data Catalog. C’est pourquoi le seul contrôle que nous mettons en place est celui qui détermine les droits de l’utilisateur et son périmètre. Une fois ces deux éléments déterminés, les responsables de la documentation sont libres de leurs actions ! Un journal d’événements sur les modifications afin de permettre une auditabilité complète, ainsi qu’un système de discussion sur les objets, permettant à tous de proposer des évolutions ou de signaler des erreurs sur la documentation, viennent compléter le dispositif.

      Si vous souhaitez en savoir davantage sur notre modèle de permissions, ou pour obtenir plus d’informations au sujet de  Data Catalog :

      Data Curation : un enjeu majeur pour valoriser votre patrimoine data

      Data Curation : un enjeu majeur pour valoriser votre patrimoine data

      Posséder d’importants volumes de données, c’est bien. Les exploiter au quotidien avec pragmatisme, intelligence et finesse, c’est mieux ! Pour y parvenir, il faut distiller une véritable culture data au sein de votre entreprise. Le socle de cette culture, c’est la data curation.

      90% des données mondiales ont été créées au cours des deux dernières années. Avec la croissance exponentielle des appareils connectés, les entreprises seront confrontées à une funeste réalité : notre capacité à créer des données surpassera de très loin notre capacité à les gérer et à les exploiter. 

      Et cela ne risque pas de s’arranger ! Selon les estimations publiées dans le Digital Economy Compass 2020 de Statista, le volume annuel de données numériques créées à l’échelle mondiale a été multiplié par plus de vingt au cours de la dernière décennie et dépassera le seuil des 50 zettaoctets en 2021 !

      Dans ce contexte, rien d’étonnant à ce que la plupart des entreprises ne soient actuellement en mesure d’analyser que 12 % des données dont elles disposent ! Car, derrière la collecte, le stockage et la sécurisation de la donnée, il y a surtout la valeur business que l’on est susceptible d’en tirer.

      C’est tout l’enjeu auquel répond le concept de Data Curation (curation des données en français) : l’étape essentielle pour exploiter le potentiel d’un patrimoine de données abondant d’une organisation. 

       

      Data Curation : une tentative de définition

      Si l’on s’en réfère à la définition qu’en donne lINIST (Institut de l’Information Scientifique et Technique) qui est rattaché au CNRS, 

      « On désigne par curation l’ensemble des activités et opérations nécessaires à une gestion active des données de recherche numérique, tout au long de leur cycle de vie. L’objectif est de les rendre accessibles, partageables et réutilisables de façon pérenne. Trois intervenants peuvent être identifiés dans le cycle de vie de données : les créateurs, le plus souvent les chercheurs, les « curateurs » et les utilisateurs ». 

      En d’autres termes, la curation de données est une tâche qui consiste à identifier dans un catalogue de données celles qui peuvent être valorisées, exploitées et dans un deuxième temps, les mettre à la disposition des utilisateurs susceptibles d’en tirer les meilleurs enseignements.

      Pour mettre en place une Data Curation efficace et pertinente, il faut commencer par s’adosser sur une cartographie précise de la donnée disponible. Cette cartographie initiale, constitue le socle d’une gouvernance des données pragmatique et opérationnelle. 

      Une fois les règles de gouvernance établies, c’est vers l’utilisateur des données qu’il faut concentrer toutes les attentions. La Data est un minerai qui ne vaut que s’il est convenablement valorisé. Or, cette valorisation doit être pensée comme une réponse à des besoins de l’utilisateur.

      C’est ce dernier qui est à l’origine du projet de curation des données. 

      Un processus itératif et continu au service de l’exploitation de la data, distinct de toutes les tâches essentielles à la gouvernance des données (de la gestion de la qualité en passant par leur protection et jusqu’à la gestion du cycle de vie des données).

       

      Data Curation : des prérequis indispensables, des bénéfices indéniables

      La Data Curation est une perspective de développement rapide et massif de la culture data au sein de votre organisation. La constitution d’un plan de gestion et de curation des données permet tout d’abord de recenser les données produites. Il est alors possible de sélectionner les plus pertinentes et de les enrichir des métadonnées nécessaires à leur compréhension et à leur réutilisation, y compris par des utilisateurs métier.

      Chacun dans l’entreprise peut alors, fonder ses choix, ses décisions, ses stratégies et méthodes sur la base d’un recours systématique à la donnée, sans avoir à disposer de compétences spécifiques.

      L’objectif : créer les conditions d’un recours systématique à la data pour fonder tout projet, toute démarche, et ne pas limiter son exploitation aux seules équipes Data Science ou expertes en matière de données.

      Pour déployer efficacement votre stratégie de curation des données, vous devrez donc, vous appuyer sur des éléments essentiels à la bonne gestion de vos actifs data. Le cœur du réacteur ne se cantonne pas aux data catalogs ! 

      S’ils sont indispensables et découlent directement de votre travail de cartographie de la data, la gouvernance des métadonnées joue de son côté, un rôle encore plus crucial. Grâce à ces métadonnées, les utilisateurs peuvent plus facilement interagir avec les portefeuilles de données et ce, en langage naturel. 

      Grâce à la curation des données, inscrivez pour de bon dans une dynamique data-driven !

      Les 7 mensonges de fournisseurs de Data Catalog – n°7 – Un Data Catalog est complexe mais pas compliqué !

      Les 7 mensonges de fournisseurs de Data Catalog – n°7 – Un Data Catalog est complexe mais pas compliqué !

      Le marché du Data Catalog a beaucoup évolué depuis ses débuts, et ce composant est désormais identifié comme une brique essentielle dans le déploiement d’une stratégie data-centric.

      Victime de son succès, ce marché a attiré un grand nombre d’acteurs opérant sur des marchés adjacents et qui ont revu leur positionnement marketing pour se présenter comme solution de Data Catalog.

      En réalité, faibles sur les promesses du Data Catalog, ils cherchent à convaincre, avec un succès proportionnel à leurs moyens marketing, qu’un Data Catalog n’est pas simplement un outil de recherche ultra-performant destiné aux équipes data, mais une solution intégrée susceptible d’adresser tout un tas d’autres sujets.

      C’est le discours de ces vendeurs de Data Catalog de la dernière heure que l’on souhaite déconstruire dans cette série d’articles.

      Un Data Catalog est complexe mais pas compliqué

      Cette dernière proposition découle assez logiquement des précédentes, et servira de conclusion à ce document.

      Nous voyons trop de projets de Data Catalog qui tournent au projet interminable de gouvernance des données, et cherchent à régler trop de problèmes d’un seul coup – au détriment de ceux qu’un Data Catalog peut régler très rapidement. Une fois débarrassé de tout ce qui l’alourdit,

      le déploiement d’un Data Catalog est l’affaire de quelques jours, et non de quelques mois, pour commencer à produire de la valeur.

      Le service rendu par un Data Catalog n’est pas compliqué. Dans sa version la plus épurée, un Data Catalog se présente comme une simple barre de recherche, dans laquelle n’importe quel utilisateur peut saisir quelques mots clé (voire une question en langage naturel), et obtenir une liste de résultats dont les 5 premiers éléments contiennent l’objet le plus pertinent correspondant
      à sa recherche, puis disposer de toute l’information dont il a besoin pour consommer les données (pensez à un moteur de recherche web, ou à un site de vente en ligne).

      Cette simplicité est fondamentale pour assurer l’adoption du catalogue par les équipes data.

       

      Facialement, le Data Catalog doit être une solution très simple, à l’ergonomie très épurée. Il n’en reste pas moins, qu’à l’instar de n’importe quel moteur de recherche ou de recommandation, la complexité sous-jacente est très forte.

      La bonne nouvelle, c’est que traiter cette complexité n’est pas à votre charge, mais précisément à celle du vendeur de la solution.

      Chez Zeenea, nous investissons beaucoup sur la structure de l’information (pour construire un graphe de connaissance sémantique), sur l’automatisation et sur le moteur de recherche et de recommandation. Cette complexité n’est pas visible, et constitue la vraie valeur d’un Data Catalog.

      L’obsession pour la simplicité est au cœur des valeurs de Zeenea. Chaque fonctionnalité que nous décidons d’ajouter au produit doit répondre affirmativement à l’une des deux questions suivantes :

      • La fonctionnalité permet-elle de déployer plus rapidement le catalogue dans l’organisation?
      • La fonctionnalité permet-elle aux équipes data de trouver plus rapidement l’information dont elles ont besoin pour mener à bien leurs projets?

      A défaut de satisfaire fortement à l’une ou l’autre de ces exigences, les fonctionnalités sont écartées.

      Le résultat est que vous pouvez bel et bien connecter Zeenea à vos systèmes opérationnels, configurer et alimenter un premier métamodèle, puis ouvrir le système aux utilisateurs finaux en quelques jours.

       

      Il faudra bien sûr ensuite itérer, étendre, compléter le métamodèle, intégrer d’autres systèmes, etc. Mais la création de valeur est immédiate.

      Take Away

       Corollaire de la recherche de simplicité, le Data Catalog n’a pas à être une solution hors de prix.

      C’est vrai pour le coût d’implémentation – déployer un catalogue connecté ne nécessite pas des milliers d’heures de travail. Nous vous proposons un programme de déploiement sur 3 à 6 semaines, couvrant la formation, l’intégration à vos systèmes et la mise au point d’un premier métamodèle pour 3000 euros.

      C’est vrai également pour les coûts logiciels – oubliez les factures à 6 chiffres, Zeenea démarre à 18000 euros annuels, pour 5 data stewards, 50 consommateurs de données et 3 types de connecteurs.

       

       

      Téléchargez notre eBook : Les 7 mensonges des fournisseurs de Data Catalog pour en savoir plus !

      Les 7 mensonges de fournisseurs de Data Catalog – n°6 – Un Data Catalog doit s’appuyer sur l’automatisation

      Les 7 mensonges de fournisseurs de Data Catalog – n°6 – Un Data Catalog doit s’appuyer sur l’automatisation

      Le marché du Data Catalog a beaucoup évolué depuis ses débuts, et ce composant est désormais identifié comme une brique essentielle dans le déploiement d’une stratégie data-centric.

      Victime de son succès, ce marché a attiré un grand nombre d’acteurs opérant sur des marchés adjacents et qui ont revu leur positionnement marketing pour se présenter comme solution de Data Catalog.

      En réalité, faibles sur les promesses du Data Catalog, ils cherchent à convaincre, avec un succès proportionnel à leurs moyens marketing, qu’un Data Catalog n’est pas simplement un outil de recherche ultra-performant destiné aux équipes data, mais une solution intégrée susceptible d’adresser tout un tas d’autres sujets.

      C’est le discours de ces vendeurs de Data Catalog de la dernière heure que l’on souhaite déconstruire dans cette série d’articles.

      Un Data Catalog doit s’appuyer sur l’automatisation

      Certains vendeurs de Data Catalogs, dont la culture vient plutôt du monde de la cartographie, développent une rhétorique selon laquelle l’automatisation est un sujet secondaire, qui peut être adressé dans un second temps.

      Ils vous expliqueront qu’il suffit de quelques imports de fichiers manuels, d’un peu d’huile coude et d’une communauté d’utilisateurs collaborant sur leur outil pour alimenter et utiliser le catalogue.

      Un peu d’arithmétique permet de bien comprendre pourquoi cette approche est vouée à l’échec dans une organisation data-centric.

      Un data lake actif, même de taille modeste, contient rapidement, sur ses différentes couches, plusieurs centaines voire milliers de jeux de données. A ces jeux de données viennent s’ajouter ceux des autres systèmes (bases de données applicatives, API diverses, CRMs, ERPs, no-SQL, etc.) que l’on souhaite généralement intégrer dans le catalogue.

      Les ordres de grandeur dépassent rapidement plusieurs milliers voire dizaines de milliers de jeux de données. Chaque jeu de données contient à son tour plusieurs dizaines de champs (ou colonnes, si vous préférez). Jeux de données et champs représentent donc à eux seuls plusieurs centaines de milliers d’objets (on pourrait également comptabiliser les autres actifs: modèles ML, tableaux de bord, rapports, etc.).

      Pour que le catalogue soit utile, il ne suffit pas d’inventorier tous ces objets.

       

      Il faut également leur associer toutes les propriétés (métadonnées) qui permettront aux utilisateurs finaux de trouver, comprendre et savoir exploiter ces actifs. Les métadonnées sont de plusieurs natures: informations techniques, classification métier, sémantique, sécurité, sensibilité, qualité, normes, usages, popularité, contacts, etc.

      On parle donc là aussi, pour chaque actif, de plusieurs dizaines de propriétés. Faites le calcul: au final, il s’agit de millions d’attributs à définir, puis maintenir.

      Une telle volumétrie à elle seule devrait disqualifier irrévocablement l’approche manuelle.

      Mais ce n’est pas tout. Le stock d’actifs informationnels n’est pas statique. Il grossit en permanence. Dans une organisation data-centric, chaque jour, des jeux de données sont créés, d’autres sont modifiés ou déplacés.

      Le catalogue doit refléter ces changements. A défaut, son contenu sera en permanence obsolète, et les utilisateurs finaux ne l’adopteront pas (qui ferait confiance à un catalogue dont le contenu est structurellement incomplet et faux?).

      Si vous pensez que votre organisation est en mesure d’absorber la charge nécessaire pour maintenir le catalogue à jour, très bien. Sinon, nous vous invitons vivement à vérifier très tôt le niveau d’automatisation proposé par les différentes solutions que vous évaluez.

       

      Que peut-on automatiser dans un Data Catalog?

      En matière d’automatisation, la capacité la plus fondamentale, c’est l’inventaire. Un Data Catalog doit pouvoir scanner en permanence toutes vos sources de données, et mettre à jour automatiquement l’inventaire des actifs (jeux de données, structures et métadonnées techniques à minima) pour refléter la réalité opérationnelle des systèmes qui les hébergent.

      Croyez-nous: un Data Catalog qui ne sait pas se connecter à vos sources de données deviendra vite inutile, car son contenu sera toujours douteux.

       

      Une fois l’inventaire traité, la question suivante est de savoir comment automatiser l’alimentation du métamodèle. Sur ce plan, et au-delà des métadonnées techniques, une automatisation intégrale est difficilement imaginable.

      Mais il reste possible de réduire de façon significative la charge de travail nécessaire à la maintenance du métamodèle.

      La valeur de certaines propriétés (ou attributs) peut ainsi être déterminée en appliquant simplement des règles au moment de l’intégration des objets dans le catalogue (on sait par exemple que les jeux de données provenant de tel système appartiennent à telle classification métier, sont destinés à tel type d’usage, ou sont sous la responsabilité de tel individu).

      Il est également possible de suggérer des valeurs de propriétés en utilisant des algorithmes plus ou moins sophistiqués (détection de types logiques, analyse sémantique, pattern matching sur le contenu du catalogue, etc.).

      Enfin, il est souvent possible d’alimenter une partie du catalogue en s’intégrant aux systèmes produisant ou contenant de la métadonnées. Ce peut être le cas par exemple pour les mesures de qualité (qui peuvent être intégrées dans le catalogue au moment où elles sont réalisées), pour les informations de lineage (connues par votre pipeline ou votre ETL), pour votre ontologie métier (qui peut être gérée dans un autre logiciel spécialisé), etc. Pour que cette approche soit possible, le Data Catalog doit être ouvert, et proposer un jeu d’APIs complet permettant de mettre à jour les métadonnées depuis d’autres systèmes.

      Take Away

      Un Data Catalog recense des millions d’informations sur un patrimoine en mutation permanente.

      Maintenir ces informations manuellement est virtuellement impossible, ou extrêmement coûteux. Sans automatisation au moins de l’inventaire, le contenu du catalogue sera en permanence douteux, et les équipes data ne l’adopteront pas.

       

       

      Téléchargez notre eBook : Les 7 mensonges des fournisseurs de Data Catalog pour en savoir plus !

      Les 7 mensonges de fournisseurs de Data Catalog – n°5 – Un Data Catalog n’est pas une solution de Modélisation Business

      Les 7 mensonges de fournisseurs de Data Catalog – n°5 – Un Data Catalog n’est pas une solution de Modélisation Business

      Le marché du Data Catalog a beaucoup évolué depuis ses débuts, et ce composant est désormais identifié comme une brique essentielle dans le déploiement d’une stratégie data-centric.

      Victime de son succès, ce marché a attiré un grand nombre d’acteurs opérant sur des marchés adjacents et qui ont revu leur positionnement marketing pour se présenter comme solution de Data Catalog.

      En réalité, faibles sur les promesses du Data Catalog, ils cherchent à convaincre, avec un succès proportionnel à leurs moyens marketing, qu’un Data Catalog n’est pas simplement un outil de recherche ultra-performant destiné aux équipes data, mais une solution intégrée susceptible d’adresser tout un tas d’autres sujets.

      C’est le discours de ces vendeurs de Data Catalog de la dernière heure que l’on souhaite déconstruire dans cette série d’articles.

      Un Data Catalog n’est pas une solution de Modélisation Business 

      Certaines organisations, souvent de grande taille, ont investi durant des années dans la modélisation de leurs processus métier et de leur architecture de l’information. Elles ont développé plusieurs couches de modèle (conceptuel, logique, physique) et mis en place une organisation permettant de maintenir et diffuser ces modèles à certaines populations (experts métier et IT principalement).

      Je ne doute absolument pas de la valeur de ces modèles.

      Ils jouent un rôle clé dans l’urbanisation, la définition de schémas directeurs, le pilotage du SI et la conformité réglementaire. Mais on doute radicalement de la capacité des outils de modélisation à fournir un Data Catalog décent.

      Il y a là aussi un phénomène de marché: certains acteurs historiques de la modélisation métier cherchent à élargir leur offre en se positionnant sur le marché du Data Catalog. Après tout, ils gèrent déjà un grand nombre d’informations sur l’architecture physique, les classifications métier, les taxonomies d’actifs, les glossaires et ontologies, le lignage des informations, les processus et rôles, etc.

      Mais je leur vois deux défauts à mon sens rédhibitoires.

      Le premier est organique. Par nature, les outils de modélisation définissent des modèles, qui sont conçus par le haut (approche top- down) pour décrire l’organisation de l’information dans un SI. Aussi précis soit-il, un modèle reste un modèle: une représentation simplifiée de la réalité.

      Ce sont des outils de communication très précieux dans beaucoup de domaines, mais il leur manque l’ancrage dans la réalité opérationnelle qui me semble indispensable pour tenir les promesses d’un Data Catalog (permettre aux équipes data de trouver, localiser, comprendre et savoir exploiter les jeux de données présents dans leur organisation).

      Le second défaut est ergonomique.

      Un outil de modélisation est un outil complexe, manipulant un nombre important de concepts abstraits, et qui demande une courbe d’apprentissage importante. C’est un outil d’expert.

      On peut bien sûr imaginer des simplifications ergonomiques permettant de l’ouvrir à un public plus large. Mais la complexité intrinsèque de l’information ne disparaîtra pas. Comprendre l’information fournie par ces outils demande une maîtrise préalable des principes du modèle (classes d’objets, niveaux logiques, nomenclatures, plan d’urbanisation, etc.). C’est un effort conséquent pour les équipes data – et un effort dont l’intérêt est difficile à justifier sur le plan opérationnel.

      La vérité, c’est que convertis en Data Catalog, les outils de modélisation souffrent d’un énorme problème d’adoption par les équipes opérationnelles (elles doivent faire des efforts conséquents pour apprendre à l’utiliser, pour finalement ne pas y trouver ce qu’elles cherchent).

      Un prospect nous a récemment présenté le métamodèle qu’il avait conçu, en nous demandant s’il était possible de l’implémenter dans Zeenea. Dérivé de ses modèles métier, le métamodèle comprenait plusieurs dizaines de classes d’objets, et des milliers d’attributs. A la question, la réponse formelle était plutôt oui (le métamodèle de Zeenea est très souple).

      Mais nous avons surtout passé du temps à le dissuader de se lancer sur cette voie: un métamodèle aussi sophistiqué risque selon moi de dérouter les utilisateurs finaux, et de faire échouer le projet de Data Catalog…


      Faut-il pour autant oublier les modèles métier pour la mise en place d’un Data Catalog? Absolument pas.

      Mais il faut se rappeler que les modèles métier existent pour répondre à certaines problématiques, et le Data Catalog à d’autres.

      Certaines informations contenues dans les modèles permettent de structurer le catalogue et d’enrichir son contenu de façon très précieuse (je pense en particulier aux responsabilités, aux classifications et bien sûr aux glossaires métier). La bonne approche est donc de concevoir le métamodèle du catalogue en se focalisant exclusivement sur la valeur ajoutée aux équipes data (en se posant systématiquement la question suivante: cette information permet-elle de trouver, localiser, comprendre et exploiter correctement les données?), puis d’intégrer l’outil de modélisation et le catalogue afin d’automatiser l’alimentation de certains éléments du métamodèle déjà présents dans les modèles métier.

      Take Away

       

       Aussi utiles et complets soient-ils, les modèles métier restent des modèles: ils reflètent imparfaitement la réalité opérationnelle des systèmes, et peinent à fournir un catalogue de données efficace.

      Les outils de modélisation, ainsi que les modèles métier, sont trop complexes et trop abstraits pour être adoptés par des équipes data. Définissez le métamodèle de votre catalogue pour répondre aux questions des équipes data, et alimentez certains aspects du métamodèle en vous intégrant à vos modèles métier.

       

      Téléchargez notre eBook : Les 7 mensonges des fournisseurs de Data Catalog pour en savoir plus !

      Les 7 mensonges de fournisseurs de Data Catalog – n°4 – Un Data Catalog n’est pas une solution de requêtage

      Les 7 mensonges de fournisseurs de Data Catalog – n°4 – Un Data Catalog n’est pas une solution de requêtage

      Le marché du Data Catalog a beaucoup évolué depuis ses débuts, et ce composant est désormais identifié comme une brique essentielle dans le déploiement d’une stratégie data-centric.

      Victime de son succès, ce marché a attiré un grand nombre d’acteurs opérant sur des marchés adjacents et qui ont revu leur positionnement marketing pour se présenter comme solution de Data Catalog.

      En réalité, faibles sur les promesses du Data Catalog, ils cherchent à convaincre, avec un succès proportionnel à leurs moyens marketing, qu’un Data Catalog n’est pas simplement un outil de recherche ultra-performant destiné aux équipes data, mais une solution intégrée susceptible d’adresser tout un tas d’autres sujets.

      C’est le discours de ces vendeurs de Data Catalog de la dernière heure que l’on souhaite déconstruire dans cette série d’articles.

      Un Data Catalog n’est pas une solution de Requêtage 

      C’est une autre bizarrerie du marché du Data Catalog.

      Plusieurs vendeurs, dont l’ambition initiale était de permettre leurs utilisateurs de requêter simultanément plusieurs sources de données, ont “pivoté” vers un positionnement de Data Catalog. S’ils ont pivoté, ce n’est pas pour rien.

      L’émergence des Data Lakes et du Big Data les a menés dans une impasse technologique qui a anémié leur marché d’origine.

      Un Data Lake est typiquement segment en plusieurs couches. La couche “raw” intègre les données sans transformation, dans des formats plus ou moins structurés, et des volumétries  normes (c’est le principe). Une seconde couche, que l’on va appeler “clean” va contenir plus ou moins les mêmes données, mais dans des formats normalisés, et après un peu de nettoyage.

      Ensuite, il peut y avoir une ou plusieurs couches “business” dédiées aux usages: un data warehouse et un outil de visualisation pour l’analytique, un cluster Spark pour la data science, un système de stockage pour la distribution commerciale, etc. Dans ces couches, les données sont transformées, agrégées et optimisées pour les usages, et les outils qui supportent ces usages (outils de dataviz, notebooks, massive processing, etc.).

      Dans ce paysage, un outil de requêtage universel en self-service n’est pas souhaitable. Il est bien sûr possible de monter une couche d’interprétation SQL au-dessus de la couche “clean” (style Hive), mais exécuter les requêtes reste une affaire de spécialistes. Les données sont très volumineuses et peu ou pas du tout indexées.

      Laisser des utilisateurs définir leurs propres requêtes est très risqué : sur des systèmes on-prem, ils risquent d’écrouler le cluster en lançant une requête très coûteuse. Et sur le Cloud, ils risquent de faire exploser la facture. Sans compter les problématiques de sécurité et de sensibilité des données…

       

      Quant aux couches “business”, elles sont généralement couplées des solutions spécialisées (par exemple, une combinaison Snowflake + Tableau pour l’analytique) qui proposent un outillage sécurisé très complet et très performant pour le requêtage self-service. Et qui sont déjà maîtrisés par les utilisateurs.

      Leur marché se réduisant comme peau de chagrin, certains vendeurs de requêteurs multi-sources ont donc pivoté vers le Data Catalog; ils cherchent maintenant à convaincre que la capacité à  exécuter des requêtes fait de leur solution la Rolls du Data Catalog (et justifie leurs tarifs à 6 chiffres). Je vous invite vraiment à y réfléchir à deux fois…

      Take Away

       Sur une architecture data moderne, la capacité à exécuter des requêtes depuis le Data Catalog est non seulement inutile, mais aussi très risquée (performance, coût, sécurité).

      Les équipes data disposent déjà de leurs propres outils pour exécuter des requêtes sur les données qui leur sont destinées – et si ce n’est pas le cas, il faut songer à les équiper. Intégrer les problématiques d’accès aux données dans le déploiement du catalogue est le meilleur moyen d’en faire un projet long, coûteux, et décevant.

       

      Téléchargez notre eBook : Les 7 mensonges des fournisseurs de Data Catalog pour en savoir plus !

      Qu’est-ce le Data Mesh ?

      Qu’est-ce le Data Mesh ?

      Derrière les usages liés à la donnée on trouve régulièrement de nouveaux termes : Data Management Platform, Data Quality, Data Lake, Data warehouse… Derrière chacun de ces mots on trouve des spécificités, des solutions techniques. Avec le Data Mesh, vous allez plus loin en réconciliant gestion technique et gestion fonctionnelle. Décryptage.

      Vous avez dit : « Data Mesh »? Ne rougissez pas si vous n’êtes pas familier avec ce concept.  Il n’a vu le jour qu’en 2019, comme une réponse au nombre croissant de sources de données et au besoin d’agilité des entreprises. 

      Ce modèle Data Mesh repose sur le principe d’une architecture décentralisée ou  distribuée exploitant un maillage de données. Quand le Data Lake peut être pensé comme un espace de stockage de données brutes, et que le Data Warehouse est conçu comme une plateforme de collecte et d’analyse des données hétérogènes exploitables par vos collaborateurs, le Data Mesh répond à une logique différente. 

      Sur le papier, Data Warehouse et Data Mesh présentent de nombreux points communs,  notamment sur leur vocation principale qui consiste à donner accès en permanence et en temps réel à l’information la plus actualisée possible. Mais le Data Mesh va plus loin. La fraîcheur des informations n’est qu’un élément du dispositif.

      Parce qu’il s’inscrit dans un modèle distribué, le Data Mesh est conçu pour adresser, à chaque métier dans votre entreprise, l’information clé qui le concerne. Pour relever le ce défi, le Data Mesh repose sur la création de domaines de données. 

      L’avantage ? Offrir davantage d’autonomie à vos équipes en permettant une gestion locale des données, s’inscrire dans une dimension décentralisée permettant d’agréger toujours plus de data et enfin, garder le contrôle sur l’organisation de vos actifs data.

       

      Data Mesh : entre logique et organisation

      Si le Data Lake est finalement un réservoir unique pour l’ensemble de vos données, le Data Mesh est tout l’inverse. Oubliez la dimension monolithique du Data Lake. La donnée est un actif vivant, évolutif, un outil au service de la compréhension de votre marché, de votre écosystème et, à ce titre, elle n’est qu’un instrument de connaissance et de compréhension. 

      Dès lors, pour s’approprier le concept du maillage de données, il faut penser la data autrement. Comment ? En posant les bases d’une organisation multi-domaines. A chaque type de données son usage, sa cible, son exploitation.

      Dès lors, tous les métiers de votre entreprise devront fonder leurs actions, leurs décisions sur les données qui leur sont vraiment utiles pour accomplir leurs missions. Les données utilisées par le marketing ne sont pas les mêmes que celles qu’utilisent les commerciaux, ou vos équipes de production. 

      L’implémentation d’un Data Catalog s’impose donc comme le pré-requis essentiel à la création d’un Data Mesh. Autant dire que sans une vision claire de la gouvernance de la donnée, il sera difficile d’engager la transformation de votre entreprise.

      La qualité des données est, elle aussi, un élément central de la réflexion. Mais le Data Mesh vous y aidera en décentralisant la responsabilité des données au niveau du domaine et en restituant des données transformées de haute qualité.

       

      Des challenges à relever

      Adopter le Data Mesh vous semble relever de l’impossible car le projet vous apparaît à la fois complexe et technique ? Pas de panique ! Le Data Mesh, au-delà de sa technicité, de son exigence, et de la rigueur qui s’y rattache, est surtout un paradigme nouveau. Il doit amener l’ensemble des parties prenantes de votre organisation à penser la donnée comme un produit adressé aux métiers. 

      En d’autres termes, en vous orientant vers le modèle Data Mesh, l’infrastructure technique de l’environnement data est centralisée, tandis que la gestion opérationnelle des données est décentralisée et confiée aux métiers.

      Grâce au Data Mesh, vous créez les conditions d’une acculturation data de l’ensemble de vos équipes afin que chaque collaborateur puisse au quotidien fonder son action sur la donnée.

       

      Entre esprit d’ouverture et gestion rigoureuse

      La logique du Data Mesh, c’est la donnée au service des métiers. Cela signifie que vos équipes doivent pouvoir y accéder simplement, à tout moment et pouvoir manipuler la data pour en faire le terreau de leur action au quotidien.

      Mais pour néanmoins préserver la qualité des données, ou garantir le respect des règles de gouvernance, la conduite du changement est capitale et la définition des prérogatives de chacun déterminante. Dans le cadre du déploiement d’un Data Mesh vous devrez poser les bases saines de l’organisation. 

      D’un côté, un accès libre à la donnée pour chaque collaborateur (ce que l’on appellera la gouvernance fonctionnelle). De l’autre, une gestion et une administration, en d’autres termes, une gouvernance technique entre les mains des équipes Data.

      Décloisonner les usages en cloisonnant les rôles, c’est le paradoxe du Data Mesh !

      Les 7 mensonges de fournisseurs de Data Catalog – n°3 – Un Data Catalog n’est pas une solution de Compliance

      Les 7 mensonges de fournisseurs de Data Catalog – n°3 – Un Data Catalog n’est pas une solution de Compliance

      Le marché du Data Catalog a beaucoup évolué depuis ses débuts, et ce composant est désormais identifié comme une brique essentielle dans le déploiement d’une stratégie data-centric.

      Victime de son succès, ce marché a attiré un grand nombre d’acteurs opérant sur des marchés adjacents et qui ont revu leur positionnement marketing pour se présenter comme solution de Data Catalog.

      En réalité, faibles sur les promesses du Data Catalog, ils cherchent à convaincre, avec un succès proportionnel à leurs moyens marketing, qu’un Data Catalog n’est pas simplement un outil de recherche ultra-performant destiné aux équipes data, mais une solution intégrée susceptible d’adresser tout un tas d’autres sujets.

      C’est le discours de ces vendeurs de Data Catalog de la dernière heure que l’on souhaite déconstruire dans cette série d’articles.

      Un Data Catalog n’est pas une solution de Compliance 

       

      Au même titre que la gouvernance, la conformité réglementaire est un sujet fondamental pour toute organisation data-centric.

       

      Il existe un nombre impressionnant de réglementations relatives au traitement des données, selon les secteurs d’activité et les géographies. Rien que sur les données personnelles, la RGPD s’impose à tous les États membres de l’Union Européenne mais chaque État bénéficie de marges importantes quant à sa mise en oeuvre, et la plupart disposent d’un arsenal législatif venant compléter, renforcer ou adapter la GDPR (l’Allemagne à elle seule compte plusieurs dizaines de réglementations sectorielles relatives aux données personnelles).

      Aux Etats-Unis, sur ce seul sujet des données personnelles, il existe des centaines de lois plus ou moins locales, plus ou moins sectorielles, plus ou moins sérieuses. Et nous ne parlons que des données personnelles… Il existe aussi des réglementations sur les données financières, les données de santé, les données biométriques, les données bancaires, les données de risques, les données assurantielles, etc. Bref, chaque organisation évolue dans un environnement réglementaire spécifique auquel elle doit se conformer.

       

      Que signifie être conforme?

      La très grande majorité des audits réglementaires reposent sur les même piliers:

      • être capable de fournir une documentation complète et à jour de l’organisation, des procédures et des contrôles mis en place pour satisfaire aux exigences de la norme,
      • être capable de produire la preuve que les procédures décrites dans la documentation sont bel et bien exécutées sur le terrain,
      • démontrer sa capacité à superviser l’ensemble des mesures déployées dans une optique d’amélioration continue

       

      Un Data Catalog n’est pas une bibliothèque de procédures, ni un système de consolidation de preuves, et encore moins une solution de supervision de processus.

       

      Il ne fait aucun doute que laisser le catalogue prendre en charge ces responsabilités ne peut se faire qu’au détriment de sa simplicité d’usage (les normes sont souvent absconses pour les non initiés), et en mettant en péril son adoption par ceux qui peuvent le plus en tir er bénéfice (les équipes data). 

      Faut-il pour autant oublier le Data Catalog dans l’effort de conformité?

       

      Non, bien sûr ! Une nouvelle fois, en matière de conformité, il est nettement plus judicieux de confier au Data Catalog une fonction d’acculturation des équipes data.

      Et de poser simplement les tags sur les données, permettant à ces équipes d’identifier rapidement les éventuelles normes et procédures auxquelles elles doivent se conformer pour pouvoir les utiliser. Le catalogue peut d’ailleurs aider à poser ces tags, en utilisant plusieurs approches.

      Il peut par exemple détecter automatiquement des données sensibles ou personnelles. Mais même boostée au ML, cette détection ne sera jamais parfaite (la notion de “Données Personnelles” définie par la GDPR est par exemple nettement plus large, et difficile à détecter, que la PII nord-américaine). La capacité du catalogue à bien gérer ces tags est donc fondamentale.

      Take Away

      La conformité réglementaire est avant tout affaire de documentation et de preuves, qui n’ont pas leur place dans un Data Catalog.

      Le Data Catalog permet par contre d’identifier (plus ou moins automatiquement) les données soumises à des contraintes réglementaires. La Data Catalog joue un rôle clé dans l’acculturation des équipes data au respect du cadre réglementaire.

      Téléchargez notre eBook : Les 7 mensonges des fournisseurs de Data Catalog pour en savoir plus !

      Les 7 mensonges des fournisseurs de Data Catalog – n°2- Un Data Catalog n’est pas une solution de DQM (Data Quality Management)

      Les 7 mensonges des fournisseurs de Data Catalog – n°2- Un Data Catalog n’est pas une solution de DQM (Data Quality Management)

      Le marché du Data Catalog a beaucoup évolué depuis ses débuts, et ce composant est désormais identifié comme une brique essentielle dans le déploiement d’une stratégie data-centric.

      Victime de son succès, ce marché a attiré un grand nombre d’acteurs opérant sur des marchés adjacents et qui ont revu leur positionnement marketing pour se présenter comme solution de Data Catalog.

      En réalité, faibles sur les promesses du Data Catalog, ils cherchent à convaincre, avec un succès proportionnel à leurs moyens marketing, qu’un Data Catalog n’est pas simplement un outil de recherche ultra-performant destiné aux équipes data, mais une solution intégrée susceptible d’adresser tout un tas d’autres sujets.

      C’est le discours de ces vendeurs de Data Catalog de la dernière heure que l’on souhaite déconstruire dans cette série d’articles.

      Un Data Catalog n’est pas une solution de DQM (Data Quality Management)

       

      Soyons une nouvelle fois clairs: chez Zeenea, nous ne sous-estimons pas l’importance de la qualité des données pour le succès des projets data, bien au contraire. Il est juste absurde de confier ce sujet à une solution qui, par nature, ne sera pas en mesure de réaliser les contrôles au bon moment.

      Il existe une règle élémentaire en matière de contrôle qualité, une règle que l’on peut appliquer virtuellement dans tous les domaines où la qualité est un enjeu, que ce soit une chaîne de production industrielle, une organisation de développement logiciel ou la cuisine d’un grand restaurant: plus un défaut est détecté tôt, moins il est coûteux à corriger.

      On imagine mal un constructeur automobile se contenter d’une batterie de tests une fois le véhicule achevé, quand tout le coût de production a été engagé, quand l’occurrence d’un défaut a le prix le plus élevé. Non. Chaque pièce fait l’objet de contrôles poussés, chaque étape de la production est testée, les pièces défectueuses sont écartées avant même d’être intégrées dans le circuit de production, et la chaîne complète peut être stoppée si des problèmes de qualité sont détectés à l’une quelconque de ses étapes. Quant aux problèmes de qualité à proprement parler, ils sont corrigés le plus en amont possible du processus de production – car c’est aussi en amont que les corrections sont les moins coûteuses et les plus durables.

       

      « Dans une organisation data moderne, la production de données repose sur les mêmes principes. Il s’agit d’une chaîne d’assemblage destinée à alimenter des usages à haute valeur ajoutée. Le contrôle de la qualité doit être fait à chacune des étapes, et les corrections réalisées le plus en amont possible. La nature et le niveau des contrôles sont au demeurant très dépendants des usages (ou, pour être précis, du coût de la non qualité, qui est lui dépendant des usages). »

       

      Si vous traitez de la donnée, vous disposez nécessairement de pipelines destinés à alimenter vos usages. Ces pipelines comprennent potentiellement des dizaines d’étapes – acquisition des données, nettoyage, transformations diverses, combinaison avec d’autres sources, etc. Pour développer ces pipelines, vous utilisez probablement une batterie de technologies, allant de scripts maisons à de coûteux ETL, en passant par d’autres middlewares plus 10 ou moins exotiques.

      C’est dans ces pipelines que vous devez insérer et piloter vos mesures qualité, le plus tôt possible, en les adaptant aux enjeux du produit fini. Mesurer uniquement le niveau de qualité des données finales est non seulement absurde, c’est également fondamentalement inefficace.

      Partant de ce constat, il est difficile de déterminer comment un Data Catalog (dont le rôle est d’inventorier et documenter tous les jeux de données potentiellement exploitables afin d’en faciliter la découverte et la consommation) pourrait se révéler un outil efficace de mesure et de pilotage de la qualité.

      Un Data Catalog travaille sur le stock (les jeux de données disponibles), vise l’exhaustivité (tous les systèmes contenant des données) et devrait être aussi peu intrusif que possible afin de se déployer rapidement dans toute l’organisation.

      Une solution de DQM travaille sur les flux (les pipelines), se focalise sur les données de production (celles effectivement utilisées dans des usages) et est par construction intrusive et longue à déployer. Et je ne vois pas d’architecture logicielle permettant de combiner efficacement les deux problématiques sans dégrader radicalement l’une ou l’autre de ses promesses.

      Les vendeurs de Data Catalogs qui promettent de résoudre au passage vos problèmes de qualité sont à notre sens dans une impasse – il est peu probable qu’ils aillent au-delà d’une démo alléchante. Quant aux vendeurs de DQM (qui vendent également souvent des ETLs), leurs solutions sont trop complexes et coûteuses à déployer pour se transformer en catalogues crédibles.

      La bonne nouvelle, c’est que l’orthogonalité entre les problématiques de catalogage et celles de contrôle qualité permet de faire cohabiter facilement des solutions spécialisées dans chaque domaine, sans chevauchement de responsabilités.

       

      En effet, si un Data Catalog n’a pas vocation à réaliser les contrôles qualité, il peut en revanche exploiter avec beaucoup de bénéfices les informations sur la qualité des jeux de données qu’il contient.

       

      Le Data Catalog exploite cette métadonnée en premier lieu pour diffuser l’information (et les éventuelles alertes qui l’accompagnent) auprès de consommateurs avérés ou potentiels de ces jeux de données; il peut également tirer bénéfice de ces informations pour ajuster son moteur de recherche et de recommandation et orienter les utilisateurs vers les jeux de données les plus qualitatifs.

      Et il suffit de quelques APIs pour intégrer à peu de frais les deux solutions…

       

      Take Away

      La qualité des données s’évalue le plus tôt possible dans les pipelines d’alimentation de vos usages.

      Le rôle d’un Data Catalog n’est pas de réaliser les contrôles qualité, juste de diffuser le plus largement possible le résultat de ces contrôles. Par nature, un Data Catalog est une mauvaise solution de DQM, et les solutions de DQM sont des Data Catalog médiocres ou trop complexes. L’intégration entre une solution de DQM (ou un système ad hoc) et un Data Catalog devrait être très simple, et constitue l’approche la plus pragmatique.

      Téléchargez notre eBook : Les 7 mensonges des fournisseurs de Data Catalog pour en savoir plus !

      Les 7 mensonges des fournisseurs de Data Catalog – n°1- Un Data Catalog n’est pas une solution de Data Gouvernance

      Les 7 mensonges des fournisseurs de Data Catalog – n°1- Un Data Catalog n’est pas une solution de Data Gouvernance

      Le marché du Data Catalog a beaucoup évolué depuis ses débuts, et ce composant est désormais identifié comme une brique essentielle dans le déploiement d’une stratégie data-centric.

      Victime de son succès, ce marché a attiré un grand nombre d’acteurs opérant sur des marchés adjacents et qui ont revu leur positionnement marketing pour se présenter comme solution de Data Catalog.

      En réalité, faibles sur les promesses du Data Catalog, ils cherchent à convaincre, avec un succès proportionnel à leurs moyens marketing, qu’un Data Catalog n’est pas simplement un outil de recherche ultra-performant destiné aux équipes data, mais une solution intégrée susceptible d’adresser tout un tas d’autres sujets.

      C’est le discours de ces vendeurs de Data Catalog de la dernière heure que l’on souhaite déconstruire dans cette série d’articles.

      Un Data Catalog n’est pas une solution de Data Gouvernance

       

      C’est sans doute l’aspect le plus controversé de nos propos, et l’origine de cette controverse tient probablement aux puissants messages marketing du leader mondial de la gestion de métadonnées, dont la solution est en réalité une plateforme de gouvernance, et qui cherche à se vendre comme catalogue de données.

      Soyons très clair: une bonne gouvernance des données est l’un des piliers d’une stratégie data performante. Mais la gouvernance n’a que peu à voir avec l’outillage, il s’agit avant tout de définir des rôles et des responsabilités, des politiques, des procédures, des contrôles, des comités… bref de déployer et de mettre en musique une organisation complète visant à assurer, puis améliorer continuellement, la maîtrise interne des données dans toutes ses dimensions.

      Admettons simplement que la gouvernance des données possède de nombreux aspects (architectures de traitement et de stockage, classification, rétention, qualité, risques, conformité, innovation, etc.) et qu’il n’existe pas un modèle universel clé en main adapté à toutes les organisations. Au même titre que d’autres domaines de gouvernance, chaque organisation doit concevoir et piloter son dispositif en s’appuyant sur un état de l’art, sur ses capacités et ambitions, et sur une analyse rigoureuse des risques qui lui sont propres.

      La mise en place effective d’une gouvernance des données n’est pas un projet, mais un programme de transformation.

      Aucune “solution” commerciale ne viendra se substituer à cet effort de transformation.

      Quid du catalogue de données dans tout cela?

      La recherche d’un Data Catalog naît généralement d’une expression de besoin très opérationnel: une fois mis en place un Da ta Lake et quelques outils de self-service, la question se pose rapidement de savoir ce que contient le Da ta Lake (sur le plan technique et sémantique), d’où proviennent les données, quelles transformations elles subissent, qui en a la charge, quelles sont les politiques internes qui s’appliquent à elles, qui les utilise déjà et pour quoi faire, etc.

       

      L’incapacité à fournir rapidement ces informations aux utilisateurs finaux est source de risques importants pour l’organisation, et un Data Catalog est la meilleure solution pour mitiger ces risques. Mais s’agissant d’une solution transverse, impliquant un grand nombre de personnes appartenant à des départements différents, le choix de la solution est très souvent confié aux équipes précisément chargées de la gouvernance, et qui semblent le plus à même de coordonner les attentes d’un grand nombre de parties prenantes.

       

      C’est alors que l’alchimie opère. Le Data Catalog, qui visait initialement à équiper rapidement les équipes data d’une solution pour découvrir, explorer, comprendre et savoir exploiter les données à leur disposition, devient un projet mammouth dans lequel devront être réglés tous les aspects de la gouvernance.

      Il devra :

      • Gérer la qualité des données,
      • Gérer les données personnelles et la conformité réglementaire (GDPR en premier lieu),
      • Gérer la confidentialité, la sécurité et l’accès aux données,
      • Autoriser le requêtage croisé sur les sources de données, en respectant les habilitations des utilisateurs sur ces sources, et tant qu’à faire, en anonymisant à la volée les résultats,
      • Proposer une gestion des données maître (MDM),
      • Assurer le lignage champ à champ automatique pour tous les jeux de données,
      • Supporter l’ensemble des rôles définis dans le système de gouvernance, et permettre la configuration des workflows correspondant,
      • Intégrer tous les modèles métier produits depuis 10 ans dans le cadre du programme d’urbanisation, que l’on a déterré pour l’occasion,
      • Etc.

       

      Certains vendeurs parviennent à convaincre leurs clients que leur solution peut être ce monstrueux guichet unique de la gouvernance des données. Si vous y croyez, vous pouvez les contacter, ils se feront un plaisir de vous satisfaire. Mais pour être honnête nous, Zeenea, ne croyons absolument pas qu’une telle plateforme soit possible, ni même souhaitable. Trop complexe, trop rigide, trop coûteuse, trop bureaucratique, elle ne sera jamais adaptée à une organisation data centric.

       

      Selon nous, le Data Catalog a un rôle clé à jouer dans un programme de gouvernance. Ce rôle ne consiste pas à suppor ter tous les aspects de la gouvernance, mais à faciliter la communication et l’acculturation de l’organisation aux règles de gouvernance, et à aider chacune des par ties prenantes à devenir un acteur de cette gouvernance.

       

      Nous pensons également que dans une organisation data-centric, s’appuyant sur un data lake et un pipeline de données moderne, le Data Catalog est l’une des briques possédant le plus fort retour sur investissement, pour peu qu’il ait un coût raisonnable et puisse êtr e déployé très rapidement.

       

      Take Away

       

      Un Data Catalog n’est pas une plateforme de gestion de la gouvernance des données.

      La gouvernance des données est essentiellement un programme de transformation aux multiples dimensions; aucune solution ne peut efficacement adresser toutes les problématiques. Dans un organisation data-centric, la combinaison de règles de gouvernance claires et d’un Data Catalog moderne pour les communiquer aux utilisateurs finaux est le meilleur moyen de démarrer, d’apprendre, d’éduquer et de rester agile.

      Téléchargez notre eBook : Les 7 mensonges des fournisseurs de Data Catalog pour en savoir plus !

      La cartographie des données, clé pour rester conforme aux réglementations

      La cartographie des données, clé pour rester conforme aux réglementations

      Quel que soit le secteur d’activité, la maîtrise des données est un axe stratégique clé pour les entreprises. Ces informations sont clés pour innover sur les produits et services de demain. De plus, avec l’essor de nouvelles technologies comme le Big Data, l’IoT ou encore l’intelligence artificielle, les organisations récoltent des volumes exponentiels de données, provenant de sources différentes avec des formats variés.

      De plus, avec les réglementations data de plus en plus strictes comme le RGPD, le traitement des données nécessite désormais la mise en place de mesures de sécurité adaptées afin de protéger les fuites d’informations et des traitements abusifs. 

      Tout l’enjeu se trouve ainsi dans la réappropriation de son patrimoine de données. Autrement dit, les entreprises cherchent des solutions pour maintenir une cartographie des données reflétant leur réalité opérationnelle

       

      Qu’est ce qu’une cartographie des données ?

      Retournons aux bases : une cartographie des données est un “mapping” qui permet d’évaluer et visualiser de manière graphique les points d’entrée des données ainsi que leurs traitements. Il y a plusieurs types d’informations à cartographier, tels que:

      • Les informations sur les données
      • Les traitements des données

      Sur les données

      L’idée d’une cartographie sur les données est de travailler sur la sémantique data (étude des sens et de leurs significations

      Ce travail ne se fait pas sur les données elles-mêmes, mais plutôt à travers les métadonnées. Elles permettent d’appréhender au mieux le sens de la donnée et son contexte. Ces métadonnées peuvent représenter le nom “métier” de la donnée, son nom technique, la localisation de la donnée, quand elle à été stockée, par qui, etc. 

      En mettant en place des règles sémantiques et un langage data commun à travers un business glossary, les entreprises peuvent identifier et localiser leurs données, et donc, faciliter l’accès aux données pour l’ensemble des collaborateurs.

       

      Sur les traitements data

      Concernant les traitements des données, il est important de recenser :

      • les flux de données: avec leurs sources et leurs destinations,
      • les transformations des données : toutes les transformations appliquées à la donnée au cours du traitement.

      Un outil puissant : Le Data Lineage

      Le Data Lineage se définit comme étant le cycle de vie d’une donnée et un suivi de toutes les transformations qui ont eu lieu entre son état initial et son état final. 

      Le data lineage est fortement lié à la cartographie d’un traitement des données ; on doit voir quelles données sont concernées par ce traitement et pouvoir analyser les impacts très rapidement. Par exemple, si une anomalie du traitement a provoqué une corruption des données, on peut savoir quelles données sont potentiellement concernées.

      Dans un autre cas de figure, la cartographie du point de vue d’une donnée doit pouvoir dire sur quels jeux de données la donnée est issue.  Ainsi, on peut analyser rapidement les impacts d’une modification de jeu de données source en retrouvant rapidement les données liées. 

       

      Les bénéfices de la mise en place de cartographie des données

      Avec une solution de cartographie, les entreprises peuvent donc répondre aux réglementations data, notamment le RGPD, en répondant à ces questions :

      Qui ? Qui est responsable d’une donnée ou d’un traitement ? À la protection des données ? Qui sont les éventuels sous-traitants ?

      Quoi ? Quelle est la nature des données collectées ? Est-ce des données sensibles ?

      Pourquoi ? Pouvons-nous justifier de la finalité de la collecte et du traitement des informations?

      Où ? Où sont hébergées les données ? Dans quelle base ? 

      Jusqu’à quand ? Quelle est la durée de conservation de chaque catégorie de données ?

      Comment ? Quel est le cadre et quelles sont les mesures de sécurité mises en place pour une collecte et un stockage sécurisé des données personnelles?

      En répondant à ces questions, les Responsable SI, Responsable Data Lab, Business Analyst ou encore Data Scientist se posent pour rendre un travail sur la donnée pertinent et efficace.

      Ces questions mises en exergue permettent aux entreprises à être conforme aux réglementation mais également de :

      • Améliorer la qualité des données et renseigner un maximum d’informations qui permet aux utilisateurs de savoir si les données sont aptes à être utilisées.
      • Rendre les collaborateurs plus efficaces et autonomes dans la compréhension des données grâce à une cartographie des données graphique et ergonomique.
      • Analyser de manière profonde les données, afin de pouvoir prendre de meilleures décisions basées sur les données et finalement, devenir une organisation data-driven.

       

      Conclusion

      C’est en ayant un patrimoine de données correctement cartographié qu’une entreprise va pouvoir tirer parti de ses données. Une analyse des données de qualité n’est possible qu’avec des data correctement documentées, tracées, et accessibles à tous. 

      Vous êtes en recherche d’outil de cartographie des données?

      Vous pouvez avoir plus d’informations sur notre solution de catalogue de données en visitant les liens ci-dessous :

      Zeenea Data Catalog

      Zeenea Studio – la solution pour les data managers

      Zeenea Explorer – faciliter le quotidien de vos équipes data

      ou prendre rendez-vous directement avec nous pour une démo de notre solution :

      L’IoT dans l’industrie : pourquoi votre entreprise a-t-elle besoin d’un catalogue de données

      L’IoT dans l’industrie : pourquoi votre entreprise a-t-elle besoin d’un catalogue de données

      La transformation digitale est devenue une priorité dans la stratégie globale des entreprises et les industries ne font pas exception à la règle ! Avec des attentes plus fortes des clients, des demandes de personnalisation accrues et la complexité de la chaîne d’approvisionnement mondiale, les industries doivent trouver de nouveaux produits et services plus innovants. En réponse à ces challenge, les entreprises manufacturières investissent de plus en plus dans l’IoT (Internet des objets). 

      En effet, le marché de l’IoT a connu une croissance exponentielle au cours des dernières années. Selon IDC, l’empreinte de l’IoT devrait atteindre 1,2 billion de dollars en 2022, et Statista, en revanche, estime que son impact économique pourrait se situer entre 3,9 et 11,1 billions de dollars d’ici 2025. 

      Dans cet article, nous définissons ce qu’est l’IoT et certains cas d’utilisation spécifiques à la fabrication, et nous expliquons pourquoi un catalogue de données Zeenea est un outil essentiel pour permettre aux fabricants de progresser dans la mise en œuvre de l’IoT.

      Qu’est-ce que l’IoT ?

      Une définition rapide 

      Selon Tech Target, l’Internet of Things (IoT), ou Internet des Objets en français, « est un système de dispositifs informatiques interconnectés, de machines mécaniques et numériques, d’objets ou de personnes qui sont dotés d’identificateurs uniques et de la capacité de transférer des données sur un réseau sans nécessiter d’interaction d’homme à homme ou d’homme à ordinateur ».

      Une « chose » dans l’IoT peut donc être une personne munie d’un implant de moniteur cardiaque, une automobile qui possède des capteurs intégrés pour alerter le conducteur lorsque la pression des pneus est basse ou tout autre objet auquel on peut attribuer un identifiant et qui est capable de transférer des données sur un réseau.

      Du point de vue de la fabrication, l’IoT est un moyen de numériser les processus industriels. L’IoT industriel utilise un réseau de capteurs pour collecter des données de production critiques et utilise divers logiciels pour transformer ces données en informations précieuses sur l’efficacité des opérations de fabrication.

      Cas d’utilisation de l’IoT dans les industries manufacturières

      Actuellement, de nombreux projets IoT portent sur la gestion des installations et des actifs, la sécurité et les opérations, la logistique, le service à la clientèle, etc. Voici une liste d’exemples de cas d’utilisation de l’IoT dans le secteur manufacturier :

      Maintenance prédictive

      Pour les industries, les temps d’arrêt et les pannes imprévus sont les plus grands problèmes. Les entreprises manufacturières réalisent donc l’importance d’identifier les pannes potentielles, leurs occurrences et leurs conséquences. Pour surmonter ces problèmes potentiels, les entreprises utilisent désormais le Machine Learning (ML) pour prendre des décisions plus rapides et plus intelligentes fondées sur des données.

      Grâce au ML, il devient facile d’identifier des modèles dans les données disponibles et de prévoir les résultats des machines. Ce type d’information permet aux fabricants d’estimer l’état actuel des machines, de déterminer les signes d’alerte, de transmettre des alertes et d’activer les processus de réparation correspondants.

      Grâce à la maintenance prédictive par l’utilisation de l’IoT, les fabricants peuvent réduire les coûts de maintenance, diminuer les temps d’arrêt et prolonger la durée de vie des équipements, améliorant ainsi la qualité de la production en s’occupant des problèmes avant que les équipements ne tombent en panne. 

      Par exemple, Medivators, l’un des principaux fabricants d’équipements médicaux, a intégré avec succès les solutions IdO dans l’ensemble de son service et a enregistré une augmentation impressionnante de 78 % des événements de service qui ont pu être facilement diagnostiqués et résolus sans ressources humaines supplémentaires.

      Suivi des actifs

      Le suivi des actifs de l’IoT est l’un des phénomènes qui se développe le plus rapidement dans les industries. D’ici 2027, on prévoit que 267 millions de systèmes de suivi des actifs seront utilisés dans le monde entier pour l’agriculture, la chaîne d’approvisionnement, la construction, l’exploitation minière et d’autres marchés. 

      Alors que par le passé, les fabricants passaient beaucoup de temps à suivre et à vérifier manuellement leurs produits, l’IoT utilise des capteurs et des logiciels de gestion des actifs pour suivre les choses de manière automatique. Ces capteurs diffusent en permanence ou périodiquement leurs informations de localisation sur internet et le logiciel affiche ensuite ces informations pour que vous puissiez les consulter. Cela permet donc aux entreprises manufacturières de réduire le temps qu’elles passent à localiser des matériaux, des outils et des équipements.

      L’industrie automobile en est un exemple frappant : l’IoT a contribué de manière significative au suivi des données relatives aux véhicules individuels. Par exemple, Volvo Trucks a introduit des services de flotte connectée qui comprennent une navigation intelligente avec des conditions routières en temps réel basées sur des informations provenant d’autres camions Volvo locaux. À l’avenir, un plus grand nombre de données en temps réel provenant des véhicules aidera les analyses météorologiques à travailler plus rapidement et avec plus de précision ; par exemple, l’utilisation des essuie-glaces et des phares pendant la journée indique les conditions météorologiques. Ces mises à jour peuvent aider à maximiser l’utilisation des actifs en réorientant les véhicules en fonction des conditions météorologiques.

      Un autre exemple de suivi est visible sur Amazon. L’entreprise utilise des robots WiFi pour scanner les codes QR de ses produits afin de suivre et de trier ses commandes. Imaginez que vous puissiez suivre votre inventaire, y compris les fournitures que vous avez en stock pour une future fabrication, en un seul clic. Vous ne raterez plus jamais une échéance ! Et encore une fois, toutes ces données peuvent être utilisées pour trouver des tendances afin de rendre les échéances de fabrication encore plus efficaces. 

      Un moteur pour l’innovation

      En collectant et en vérifiant les données industrielles, les entreprises peuvent mieux suivre les processus de production et collecter des quantités exponentielles de données. Ces connaissances permettent de développer des produits et des services innovants ainsi que de nouveaux modèles business. Par exemple, JCDecaux Asia a développé sa stratégie d’affichage grâce aux données et à l’IoT. Leur objectif était d’avoir une idée précise de l’intérêt des gens pour les campagnes qu’ils réalisaient, et d’attirer de plus en plus leur attention par des animations sur leurs écrans. « Sur certains écrans, nous avons installé de petites caméras, qui nous permettent de mesurer si les gens ralentissent devant la publicité ou non », explique Emmanuel Bastide, Directeur Général Asie de JCDecaux.

      A l’avenir, l’affichage des publicités sera-t-il adapté aux profils individuels ? JCDecaux affirme que dans les aéroports, par exemple, il est possible de mieux cibler la publicité en fonction de l’heure de la journée ou de l’atterrissage d’un avion en provenance d’un pays en particulier ! En étant connectées aux systèmes d’arrivée de l’aéroport, les données générées peuvent envoyer l’information aux terminaux d’affichage, qui peuvent alors afficher une publicité spécifique pour les passagers à l’arrivée.

      Catalogue de données : une source de vérité pour maîtriser vos données industrielles

      Pour permettre des analyses avancées, collecter des données à partir de capteurs, garantir la sécurité numérique et utiliser le machine learning et l’intelligence artificielle, les industries doivent « déverrouiller leurs données ». Cela signifie les centraliser dans des sortes de « pages jaunes » intelligentes et faciles à utiliser au sein du paysage des données de l’entreprise.

      Un data catalog est un dépôt central de métadonnées permettant à toute personne dans l’entreprise d’avoir accès, de comprendre et de faire confiance à toutes les données nécessaires pour atteindre un objectif particulier.

       

      Zeenea, le data catalog pour les industries 

      Zeenea aide les industries à construire une chaîne de valeur de l’information de bout en bout. Notre data catalog permet de gérer une base de connaissance à 360° en utilisant tout le potentiel des métadonnées de vos actifs d’entreprise.

      Renault Success Story : Comment Zeenea Data Catalog est devenu incontournable

      En 2017, Renault Digital est né avec l’objectif de transformer le groupe Renault en une entreprise data-driven. 

      Aujourd’hui, cette entité est composée d’une communauté d’experts en termes de pratiques digitales, capable d’innover de manière agile sur les projets informatiques de l’entreprise. Lors d’une conférence au Data Centric Exchange de Zeenea, Jean-Pierre Huchet, responsable du Data Lake de Renault, explique que leurs principaux challenges data étaient : 

      • Les données étaient trop silotées,
      • Accès aux données compliqué,
      • Pas de définition claire et partagée des termes relatifs aux données,
      • Manque de visibilité sur les données personnelles ou sensibles,
      • Faible acculturation à la donnée (ou data literacy).

      En choisissant Zeenea comme data catalog, ils ont pu relever ces défis. Zeenea est aujourd’hui devenu une brique essentielle dans les projets de données de Renault Digital. Son succès peut se traduire par :

      • Son intégration dans l’embarquement de Renault Digital : la maîtrise du data catalog fait partie de leur programme de formation.
      • Des processus et des règles de documentation résistants mis en œuvre via Zeenea.
      • Des centaines d’utilisateurs actifs. 

      Aujourd’hui, Zeenea est leur principal data catalog. Les objectifs de Renault Digital sont d’acquérir une vision claire des données en amont et en aval de leur data lake hybride, une vue à 360 degrés de l’utilisation de leurs données, ainsi que la création de plusieurs milliers de Data Explorers au sein de Zeenea Data Catalog

      Les fonctionnalités uniques de Zeenea adaptées à l’industrie

      Chez Zeenea, notre catalogue de données a les caractéristiques suivantes pour résoudre vos problématiques IoT :

      • Connectivité universelle à toutes les technologies utilisées par les fabricants
      • Des métamodèles flexibles et adaptés aux contextes des industries
      • Une mise en conformité facilitée grâce au data lineage automatique
      • Une transition sans heurts pour devenir data literate à travers des expériences utilisateurs captivantes 
      • Une plateforme au prix raisonnable et au retour sur investissement rapide 

       

      Vous souhaitez déverrouiller l’accès aux données pour votre entreprise ?

      Vous êtes dans l’industrie ? Obtenez les clés pour déverrouiller l’accès aux données de votre entreprise en téléchargeant notre nouveau livre blanc « Unlock data pour l’industrie ».

      Big Data Hebdo : Data catalog, data discovery, et gouvernance des données featuring Zeenea

      Big Data Hebdo : Data catalog, data discovery, et gouvernance des données featuring Zeenea

      big data hebdo feat. zeenea

      Enregistré le 20 novembre 2020, Sandrine Bernaud, Product Manager chez Zeenea, avait été invitée pour participer au podcast Big Data Hebdo pour parler data catalog, data discovery et gouvernance des données. 

      Présentation de Big Data Hebdo en quelques mots :

      Fondé en 2014 par Vincent Heuschling et Benjamin Guinebertière, le podcast Big Data Hebdo rassemble une équipe de quatre animateurs, tous passionnés par la data sous toutes ses formes ! Vous y retrouverez Alexander Dejanovski, consultant Apache Cassandra chez Datastax, Jérôme Mainaud, Architecte logiciel chez Zeenea, Nicolas Steinmetz, fondateur de CérénIT, et Vincent Heuschling, Fondateur d’Affini-Tech.

      Ce 113ème épisode s’est concentré sur qu’est-ce un data catalog, pourquoi est-ce un outil nécessaire pour les utilisateurs et managers data, et comment les data catalogs aident les entreprises à découvrir leurs données et initier une gouvernance des données au sein de leur organisation. 

      Sylvain L., un utilisateur de Zeenea Data Catalog et occupant le poste de Responsable de la gouvernance des données dans une grande banque française, confirme que “le gros point fort [d’un catalogue de données], c’est vraiment de pouvoir rassembler la connaissance de la donnée et de pouvoir permettre aux utilisateurs à la fois métier et IT d’avoir un langage commun, c’est vraiment ça la force dont on a besoin pour développer efficacement nos cas d’usage autour de la donnée.”

      Vous pouvez écouter le podcast en entier ici 👇

      https://bigdatahebdo.com/podcast/episode-113-data-catalog-et-data-discovery/