Machine Learning Data Catalog : c’est bien mais pas suffisant !

Machine Learning Data Catalog : c’est bien mais pas suffisant !

machine-learning-data-catalog

Comment tirer parti d’un Machine Learning Data Catalog ?

Vous pouvez utiliser les data catalogs d’apprentissage automatique (MLDC) pour interpréter les données, accélérer l’utilisation des données dans votre organisation, et relier les données aux résultats des entreprises.  Nous donnons des exemples concrets des fonctionnalités intelligentes d’un data catalog dans nos précédents articles : 

Force est de constater que cette spécificité des data catalogs est une pierre angulaire dans le choix d’un data catalog. Forrester le met d’ailleurs en évidence dans son dernier rapport : Now Tech: Machine Learning Data Catalogs, Q4 2020. En ne manquant pas de nous citer comme l’un des fournisseurs de Machine Learning Data Catalog clé sur le marché.

Toutefois, comprenez que en tant que professionnels de la data en recherche d’un data catalog, la brique intelligente est certes une évidence mais n’est pas suffisante pour mener à bien votre mission de démocratisation de la donnée.

De machine learning data catalog à Smart data catalogs : quelle est la différence ?

Le terme « ML data catalog » est devenu un mot à la mode ces derniers mois. Cependant, lorsqu’on parle d’une chose « intelligente », la plupart du temps nous pensons automatiquement, et à juste titre, à un data catalog ne comportant que des capacités d’apprentissage automatique.

Chez Zeenea, nous ne pensons pas qu’un ML data catalog ne doit pas seulement se résumer à des fonctionnalités de Machine Learning et d’Intelligence Artificielle !

Il existe différentes façons d’être « intelligent ». Nous aimons ainsi parler de Smart Data Catalog dans lequel l’aspect ML est brique parmi d’autres.

Les 5 piliers d’un smart data catalog se trouvent dans son :

  1. Design : la façon dont les utilisateurs explorent le catalogue et consomment l’information,
  2. Expérience utilisateur : comment il s’adapte à différents profils,
  3. Inventaire : fournit un moyen intelligent et automatique d’inventorier,
  4. Moteur de recherche : répond aux différentes attentes et donne des suggestions intelligentes,
  5. Gestion des métadonnées : un catalogue qui marque et relie les données entre elles grâce à des fonctionnalités ML.

Cette conviction est détaillée sur notre article : Le “smart” data catalog, essentiel pour les data leaders et à également donné lieu à une présentation par Guillaume Bodet, CEO de Zeenea, en septembre dernier. 

Qu’est-ce qu’un knowledge graph et comment renforce-t-il les capacités d’un data catalog ?

Qu’est-ce qu’un knowledge graph et comment renforce-t-il les capacités d’un data catalog ?

knowledge-graphs

Depuis quelques années, les knowledge graphs nous entourent… Que ce soient par des expériences d’achat personnalisées via des recommandations en ligne sur des sites web tels que Amazon, Zalando, ou par notre moteur de recherche préféré Google.

Cependant, ce concept reste encore bien souvent un challenge pour la plupart des responsables data et analytics qui tente d’agréger et lier leurs actifs d’entreprise afin d’en tirer profit à l’instar de ces géants du web.

Pour appuyer ce constat, Gartner a déclaré dans leur article “How to Build Knowledge Graphs That Enable AI-Driven Enterprise Applications” que les « Data and analytics leaders are encountering increased hype around knowledge graphs, but struggle to find meaningful use cases that can secure business buy-in ».

Dans cet article, nous définirons ce qu’est le concept de knowledge graph en l’illustrant avec l’exemple de Google puis, nous mettrons en lumière sa puissance intégrée à un data catalog.

Qu’est-ce qu’un knowledge graph exactement ?

Selon GitHub, un knowledge graph est un type d’ontologie qui décrit les connaissances en termes d’entités et de leurs relations de manière dynamique et automatisée. Contrairement aux ontologies statiques, qui sont très difficiles à maintenir.

Voici d’autres définitions d’un knowledge graph proposées par différents experts : 

  • Un « moyen de stocker et d’utiliser ses données, qui permet aux personnes et aux machines de mieux exploiter les connexions dans leurs jeux de données ». (Datanami)

     

  • Une « base de données qui stocke des informations dans un format graphique – et, surtout, peut être utilisée pour générer une représentation graphique des relations entre n’importe lequel de ses points de données ». (Forbes)
  • « Encyclopédies du monde sémantique ». (Forbes)

Grâce à des algorithmes de machine learning, un knowledge graph fournit une structure pour toutes vos données et permet la création de relations multilatérales dans l’ensemble de vos sources de données. 

La fluidité de cette structure s’accroît au fur et à mesure que de nouvelles données sont introduites, ce qui permet de créer plus de relations et d’ajouter plus de contexte, et aider vos équipes de données à prendre des décisions éclairées avec des connexions que vous n’auriez peut-être jamais trouvées.

L’idée d’un knowledge graph est de construire un réseau d’objets et, plus important encore, de créer des relations sémantiques ou fonctionnelles entre les différents actifs. 

Dans un data catalog, un knowledge graph est donc ce qui représente différents concepts et relie les objets entre eux par des liens sémantiques ou statiques.

 

Exemple de Google 

L’algorithme de Google utilise ce système pour recueillir et fournir aux utilisateurs finaux des informations pertinentes pour leurs requêtes. Le knowledge graph de Google contient plus de 500 millions d’objets, ainsi que plus de 3,5 milliards de faits sur ces différents objets et les relations entre eux. 

Le knowledge graph améliore la recherche Google de trois manières principales :

  • Trouver le bon résultat : une recherche non seulement basée sur des mots-clés mais aussi sur leur signification.
  • Obtenir le meilleur résumé : recueillir les informations les plus pertinentes à partir de diverses sources en fonction de l’intention de l’utilisateur.
  • Approfondir et élargir la recherche : découvrez plus que ce que vous attendiez grâce à des suggestions pertinentes.
    knowledge-graph

    Comment les knowledge graphs renforcent-ils l’usage des data catalogs ?

    Grâce à un data catalog, les knowledge graphs peuvent aider votre entreprise dans sa stratégie data en proposant :

    Des résultats de recherche riches et approfondis

    Aujourd’hui, de nombreux moteurs de recherche utilisent de multiples knowledge graphs afin d’aller au-delà de la recherche basée sur des mots-clés. Les knowledge graphs permettent à aux moteurs de recherche de comprendre les concepts, les entités et les relations entre eux. Les avantages sont les suivants :

    • La possibilité de fournir des résultats plus profonds et plus pertinents, y compris des faits et des relations, plutôt que de simples documents,

    • La possibilité de former des recherches sous forme de questions ou de phrases – plutôt que de liste de mots clés,

    • La capacité à comprendre des recherches complexes qui se réfèrent à des connaissances trouvées dans plusieurs éléments en utilisant les relations définies dans le graph.

    Optimisation du data discovery

    Les données d’entreprise se déplacent d’un endroit à l’autre à la vitesse de la lumière, et sont stockées dans diverses sources de données et applications de stockage. Les employés et les partenaires accèdent à ces données de partout et à tout moment. Identifier, localiser et classer vos données afin de les protéger et d’en tirer des informations devrait donc être la priorité !

    Les avantages des knowledge graphs pour le data discovery sont notamment les suivants :

    • Une meilleure compréhension des données de l’entreprise, où elles se trouvent, qui peut y accéder et où, et comment elles seront transmises,
    • Classification automatique des données en fonction du contexte,
    • Gestion des risques et respect de la réglementation,
    • Visibilité complète des données,
    • Identification, classification et suivi des données sensibles,
    • La capacité d’appliquer des contrôles de protection aux données en temps réel sur la base de politiques et de facteurs contextuels prédéfinis,
    • Évaluer correctement l’ensemble des données.

    D’une part, elle aide à mettre en œuvre les mesures de sécurité appropriées pour prévenir la perte de données sensibles et éviter des conséquences financières ou de réputation  pour l’entreprise. D’autre part, elle permet aux équipes d’approfondir le contexte des données afin d’identifier les éléments spécifiques qui révèlent les réponses et de trouver des moyens de répondre à vos questions.

     

    Des recommandations pertinentes

    Comme mentionné dans l’introduction, les services de recommandation sont désormais une composante familière de nombreux magasins en ligne, assistants personnels et plateformes digitales.

    Les recommandations doivent adopter une approche basée sur le contenu. Dans un data catalog, les capacités de machine learning combinées à un knowledge graph, pourront détecter certains types de données, appliquer des tags ou des règles statistiques sur les données pour exécuter des suggestions d’informations efficaces et intelligentes.

    Cette capacité est également connue sous le nom de “data pattern recognition” (reconnaissance de pattern). Elle consiste à pouvoir identifier des actifs similaires et à s’appuyer sur des algorithmes statistiques et des capacités de ML qui sont dérivés d’autres systèmes.

    Ce système de reconnaissance de pattern aide les responsables data à gérer leurs métadonnées :

    • Identifier les doublons et copier les métadonnées
    • Détecter les types de données logiques (e-mails, ville, adresses, etc.)
    • Suggérer des valeurs d’attribut (reconnaître des modèles de documentation à appliquer à un objet similaire ou à un nouvel objet)
    • Suggérer des liens – liens sémantiques ou de lineage
    • Détecter les erreurs potentielles afin d’améliorer la qualité et la pertinence du catalogue

    L’idée est d’utiliser certaines techniques dérivées de recommandations, basées sur le contenu que l’on trouve dans les catalogues d’usage standard. Lorsque l’utilisateur a trouvé quelque chose, le catalogue lui propose des alternatives basées à la fois sur son profil et sur la reconnaissance de patterns.

    Certains cas d’usage d’un data catalog à l’aide d’un knowledge graph

    • Rassembler les biens qui ont été utilisés ou liés aux causes d’échec des projets digitales.
    • Trouver des actifs ayant un intérêt commun pour la sortie de nouveaux produits pour le département marketing.
    • Générer une vue à 360° des personnes et entreprises pour le service commercial.
    • Faire correspondre les besoins de l’entreprise aux personnes et aux projets pour les ressources humaines.
    • Trouver des réglementations relatives à des contrats et des investissements spécifiques au sein du département financier.

    Conclusion

    Avec l’augmentation constante des données dans les entreprises, organiser ses informations sans stratégie signifie ne pas pouvoir rester compétitif et pertinent dans cette course pour la digitalisation. Pour éviter le redoutable effet de « boîte noire », il est essentiel de veiller à ce que votre data catalog ait un knowledge graph d’entreprise.

    Grâce à un knowledge graph combiné à l’IA et aux algorithmes de machine learning, vos données seront mieux contextualisées et vous permettront non seulement de découvrir des données plus profondes et subtiles, mais aussi de prendre des décisions plus intelligentes sur le long terme.

    Pour plus d’informations sur le knowledge graph, voici un article très intéressant par l’analyste Gartner, Timm Grosser : « Linked Data for Analytics?« 

    Démarrez avec Zeenea Data Catalog

    Zeenea est une solution 100% cloud, disponible partout dans le monde, en quelques clics. En choisissant Zeenea Data Catalog, maîtrisez les coûts liés à l’implémentation et à la maintenance d’un data catalog tout en simplifiant son accès par vos équipes.

    Les mécanismes d’alimentation automatique, ainsi que les algorithmes de suggestion et de correction, permettent de réduire le coût global du catalogue, et de garantir la qualité des informations qu’il contient pour vos équipes data en un temps record.

    Le « smart » data catalog, essentiel pour les data leaders

    Le « smart » data catalog, essentiel pour les data leaders

    smart data catalogs

    Le terme « smart data catalog » est devenu tendance ces derniers mois. Cependant, lorsqu’on parle de quelque chose de « smart », la plupart des gens pensent automatiquement, et à juste titre, à un catalogue de données ne comportant que des capacités de machine learning.

    Chez Zeenea, nous ne pensons pas qu’un smart data catalog se résume à des fonctionnalités de ML !

    En fait, il existe différentes façons d’être « smart ». 

    Cet article se concentre sur la conférence que Guillaume Bodet, co-fondateur et PDG de Zeenea, a donnée lors du Data Innovation Summit 2020 : « Smart data catalogs, a must-have for data leaders ».

    Une définition rapide de data catalog

    Nous définissons un catalogue de données comme étant :

    Un inventaire détaillé de tous les actifs de données d’une organisation et de leurs métadonnées, conçu pour aider les professionnels de la donnée à trouver rapidement les informations les plus appropriées pour tout objectif business et analytique.

    Un data catalog est destiné à servir différentes personnes ou différents utilisateurs finaux. Tous ces utilisateurs finaux ont des attentes, des besoins, des profils et des façons de comprendre les données qui diffèrent. Ces utilisateurs finaux sont des data analysts, des data stewards, des data scientists, des business analysts, et bien d’autres encore. Comme de plus en plus de personnes utilisent et travaillent avec les données, un catalogue de données doit être « smart » pour tous les utilisateurs finaux.

    Cliquez ici pour un article plus approfondi sur ce qu’est-ce qu’un data catalog.

    Qu’entend-on par « actif de données » ?

    Un actif, financièrement parlant, apparaît généralement dans le bilan avec une estimation de sa valeur. Lorsqu’on parle de d’actif de données ou « data assets », il est tout aussi important, voire plus important dans certains cas, que les autres actifs de l’entreprise. Le problème est que la valeur des actifs de données n’est pas toujours connue. 

    Cependant, il existe de nombreuses façons d’exploiter la valeur de vos données. Les entreprises ont la possibilité d’utiliser directement la valeur de leurs données, par exemple en les vendant ou en les échangeant. De nombreuses organisations le font ; elles nettoient les données, les structurent, puis les vendent.

    Les entreprises peuvent également valoriser indirectement leurs données. Les actifs de données permettent aux organisations :

     

    • D’innover pour de nouveaux produits/services
    • Améliorer la performance globale
    • Améliorer le positionnement des produits
    • Mieux comprendre les marchés/clients
    • Accroître l’efficacité opérationnelle

    Les entreprises performantes sont celles qui maîtrisent leur paysage de données et exploitent leurs données dans tous les aspects de leur activité

    Les choses difficiles à propos des data catalogs…

    Lorsque votre entreprise traite des milliers de données, cela signifie généralement que vous avez affaire à des :

    • Des centaines de systèmes qui stockent des données internes (entrepôts de données, applications, lacs de données, banques de données, API, etc.) ainsi que des données externes provenant de partenaires.
    • Des milliers de jeux de données, de modèles et de visualisations (actifs de données) qui sont composés de milliers de champs.
    • Et ces champs contiennent des millions d’attributs (ou métadonnées) !

    Sans parler des centaines d’utilisateurs qui les utilisent…

    Cela soulève deux questions différentes.  

    Comment puis-je construire, maintenir et renforcer la qualité de mes informations pour que mes utilisateurs finaux aient confiance en mon catalogue ?

    Comment puis-je trouver rapidement les données pour des cas d’utilisation spécifiques ?

    La réponse se trouve dans les data catalogs intelligents !

    Chez Zeenea, nous pensons qu’il y a cinq domaines essentiels « d’intelligence » pour un data catalog. Il doit être intelligent dans son :

     

    • Design : la façon dont les utilisateurs explorent le catalogue et consomment l’information,
    • Expérience utilisateur : comment il s’adapte à différents profils,
    • Inventaire : fournit un moyen intelligent et automatique d’inventorier,
    • Moteur de recherche : répond aux différentes attentes et donne des suggestions intelligentes,
    • Gestion des métadonnées : un catalogue qui marque et relie les données entre elles grâce à des fonctionnalités ML.

    Voyons en détail chacun de ces domaines.

    Un design intelligent

    Un Knowledge Graph

    Un data catalog avec une conception intelligente utilise des knowledge graphs plutôt que des ontologies statiques (une façon de classer l’information, la plupart du temps construite comme une hiérarchie).  Le problème avec les ontologies est qu’elles sont très difficiles à construire et à maintenir, et généralement seuls certains types de profils comprennent vraiment les différentes classifications.

     Un knowledge graph en revanche, est ce qui représente les différents concepts d’un data catalog et ce qui relie les objets entre eux par des liens sémantiques ou statiques. L’idée d’un knowledge graph est de construire un réseau d’objets et, plus important encore, de créer des relations sémantiques ou fonctionnelles entre les différents actifs de votre catalogue.

    Fondamentalement, un data catalog intelligent fournit aux utilisateurs un moyen de trouver et de comprendre les objets liés entre eux.

    Métamodèles adaptatifs

    Dans un data catalog, les utilisateurs trouveront des centaines de propriétés différentes, qui ne sont pas forcément toujours pertinentes pour eux. Généralement, deux types d’informations sont gérés :

    1. Entités : objets simples, entrées de glossaire, définitions, modèles, descriptions, etc.
    2. Propriétés : les attributs que vous mettez sur ces entités (toute information supplémentaire telle que la date de création, la date de dernière mise à jour, etc.)

    La conception du métamodèle doit être au service du consommateur de données. Il doit être adaptée aux nouvelles analyses de rentabilité et doit être suffisamment simple à gérer pour que les utilisateurs puissent le maintenir et le comprendre. Il doit également pouvoir fournir une manière simple pour créer de nouveaux types d’objets et ensembles d’attributs !

    Attributs sémantiques

    La plupart du temps, dans un data catalog, les attributs du métamodèle sont des propriétés techniques. Certains des attributs d’un objet comprennent des types génériques tels que texte, nombre, date, liste de valeurs, etc. Comme ces informations sont nécessaires, elles ne sont pas complètement suffisantes car elles n’ont pas d’informations sur la sémantique, ou la signification. La raison pour laquelle cela est important est qu’avec ces informations, le catalogue peut adapter la visualisation de l’attribut et améliorer les suggestions aux utilisateurs.

    En conclusion, il n’existe pas de design unique d’un data catalog, et celui-ci doit évoluer dans le temps pour prendre en charge de nouvelles évolutions data et de nouveaux cas d’utilisation.

    knowledge-graph

    Une expérience utilisateur intelligente

    Comme mentionné ci-dessus, un data catalog contient beaucoup d’informations et les utilisateurs finaux ont souvent du mal à trouver celles qui les intéressent. Les attentes diffèrent selon les profils ! Un data scientist s’attend à des informations statistiques, tandis qu’un responsable de la conformité s’attend à des informations sur diverses politiques réglementaires.

    Avec une expérience utilisateur intelligente et adaptative, un data catalog présentera les informations les plus pertinentes à des utilisateurs finaux spécifiques. La hiérarchie des informations et les résultats de recherche ajustés dans un data catalog intelligent sont basés sur :

     

    • Préférences statiques : des informations déjà connues dans le data catalog au paramétrage. Il sait si le profil est davantage axé sur la science des données, l’IT, etc.
    • Le profilage dynamique : technique pour connaître ce que l’utilisateur final recherche habituellement, ses intérêts et la façon dont il a utilisé le catalogue dans le passé.

    Un système d’inventaire intelligent

    L’adoption d’un catalogue de données repose sur la confiance – et la confiance ne peut venir que si son contenu est juste. Comme le paysage des données évolue rapidement, il doit être connecté à des systèmes opérationnels pour maintenir le premier niveau d’information sur les métadonnées de votre patrimoine de données.

    Le catalogue doit synchroniser son contenu avec le contenu actuel des systèmes opérationnels.

    L’architecture typique d’un data catalog est de disposer de scanners qui scannent vos systèmes opérationnels et qui apportent et synchronisent les informations provenant de diverses sources (Big Data, noSQL, Cloud, Data Warehouse, etc.). L’idée est de disposer d’une connectivité universelle afin que les entreprises puissent scanner automatiquement tout type de système et les placer dans le knowledge graph.

    Dans Zeenea, il y a une couche d’automatisation pour ramener les informations des systèmes au catalogue. Elle peut :

    • Mettre à jour les actifs pour refléter les changements physiques
    • Détecter les biens supprimés ou déplacés
    • Résoudre les liens entre les objets
    • Appliquer des règles pour sélectionner l’ensemble approprié d’attributs et définir les valeurs des attributs
    smart-inventorying-zeenea

    Un moteur de recherche intelligent

    Dans un data catalog, le moteur de recherche est l’une des caractéristiques les plus importantes. On distingue deux types de recherche :

    • La recherche à haute intention : l’utilisateur final sait déjà ce qu’il cherche et dispose d’informations précises sur sa requête. Soit il a déjà le nom de l’ensemble de données, soit il sait déjà où il se trouve. Les recherches à faible intention sont couramment utilisées par les personnes ayant déjà des connaissances sur les données d’entreprise.
    • Recherche à faible intention : l’utilisateur final n’est pas exactement sûr de ce qu’il cherche, mais veut découvrir ce qu’il pourrait utiliser dans son contexte. Les recherches sont effectuées par mots clés et les utilisateurs s’attendent à ce que les résultats les plus pertinents apparaissent. 

    Un catalogue de données intelligent doit prendre en charge ces deux types de recherche !

    Il doit également permettre un filtrage intelligent. C’est un complément nécessaire à l’expérience de recherche de l’utilisateur (en particulier la recherche à faible intention), lui permettant de restreindre ses résultats de recherche en excluant les attributs non pertinents. Tout comme de nombreuses grandes entreprises comme Google, Booking.com et Amazon, les options de filtrage doivent être adaptées au contenu de la recherche et au profil de l’utilisateur afin que les résultats les plus pertinents apparaissent. 

    Gestion des métadonnées intelligente

    La gestion des métadonnées intelligente (ou smart metadata management) est généralement ce que nous appelons le « data catalog augmenté », qui possède des capacités de machine learning permettant de détecter certains types de données, d’ajouter des tags ou des règles statistiques sur les données.

    Une façon de rendre la gestion des métadonnées intelligente est d’appliquer la reconnaissance des patterns data. Elle consiste à être capable d’identifier des actifs similaires et de s’appuyer sur des algorithmes statistiques et de capacités de ML qui sont dérivés d’autres patterns de reconnaissance.

    Ce système de reconnaissance des patterns data aide les data stewards à paramétrer leurs métadonnées :

    • Identifier les doublons et copier les métadonnées
    • Détecter les types de données logiques (e-mails, ville, adresses, etc.)
    • Suggérer des valeurs d’attribut (reconnaître des modèles de documentation à appliquer à un objet similaire ou à un nouvel objet)
    • Suggérer des liens – sémantiques ou lineage
    • Détecter les erreurs potentielles afin d’améliorer la qualité et la pertinence du catalogue

    Elle aide également les consommateurs de données à trouver leurs informations. L’idée est d’utiliser certaines techniques dérivées de recommandations, basées sur le contenu que l’on trouve dans les catalogues d’usage général. Lorsque l’utilisateur a trouvé quelque chose, le catalogue lui propose des alternatives basées à la fois sur son profil et sur la reconnaissance de patterns .

    Démarrez avec Zeenea Data Catalog

    Zeenea est une solution 100% cloud, disponible partout dans le monde, en quelques clics. En choisissant Zeenea Data Catalog, maîtrisez les coûts liés à l’implémentation et à la maintenance d’un data catalog tout en simplifiant son accès par vos équipes.

    Les mécanismes d’alimentation automatique, ainsi que les algorithmes de suggestion et de correction, permettent de réduire le coût global du catalogue, et de garantir la qualité des informations qu’il contient pour vos équipes data en un temps record.

    Data science : mieux exploiter son data lake avec les métadonnées

    Data science : mieux exploiter son data lake avec les métadonnées

    Les data lakes offrent un stockage illimité pour les données et présentent de nombreux avantages pour les data scientists dans l’exploration et la création de nouveaux modèles analytiques. Cependant, ces données structurées, non structurées et semi-structurées sont mélangées et la valeur business qu’elles contiennent est souvent négligée ou mal comprise par les utilisateurs data.

    L’explication est simple: les technologies utilisées pour mettre en œuvre des data lakes n’ont pas les capacités d’information nécessaires. Il est donc essentiel que les entreprises mettent en place une gestion des métadonnées efficace qui prend en compte la découverte des métadonnées, le catalogage des données et une gestion des métadonnées au niveau de l’entreprise en fonction du data lake.

    2020 est l’année où la plupart des cas d’usage de données et analytics nécessiteront une connexion à des sources de données distribuées, ce qui amènera les entreprises à doubler leurs investissements dans la gestion des métadonnées. – Gartner 2019.

    Comment exploiter votre data lake avec la gestion des métadonnées

    Afin de produire de la valeur avec leurs données, les entreprises se doivent de disposer à la fois d’utilisateurs qualifiés (tels que des data scientists ou des citizen data scientists) et d’une stratégie de metadata management. Pour commencer, une organisation pourrait se concentrer sur un jeu de données (et ses métadonnées) spécifique. Ensuite, il faudrait exploiter ces métadonnées au fur et à mesure que d’autres données sont ajoutées au data lake. La mise en place d’une gestion des métadonnées peut faciliter cette tâche pour les utilisateurs du data lake.

    Voici les principales actions à mener pour une gestion des métadonnées réussie:

    La création d’un référentiel de métadonnées

    La mise en place d’une sémantique est essentielle pour découvrir les métadonnées d’entreprise. La découverte de métadonnées ou “metadata discovery” est définie comme le processus de découverte d’informations sur un jeu de données. Ce processus aboutit généralement à un ensemble de mapping entre différents éléments data dans un référentiel de métadonnées centralisé. Cela permet aux data scientists de comprendre leurs données et d’avoir une visibilité sur leurs fiabilité, leurs dernière mise à jour, etc.

     

    L’automatisation de la découverte des métadonnées

    Étant donné le nombre et la diversité des données données ajoutées quotidiennement à un data lake, maintenir l’ingestion peut être une tâche chronophage ! En utilisant des solutions automatisées, il est plus facile pour les équipes du data lake de maintenir cette source compréhensible dans le temps et pour les data scientists ou les CDS de trouver et découvrir leurs les bonnes informations sous la forme de métadonnées.

     

    Cataloguer ses données

    Un data catalog est constitué de métadonnées dans lesquelles sont stockés divers objets, catégories, propriétés et champs. Le catalogage des données est utilisé à la fois pour les données internes et externes (provenant de partenaires ou de fournisseurs par exemple). Dans un data lake, il est utilisé pour capturer un ensemble d’attributs pour chaque élément du data lake et enrichit le catalogue de métadonnées en exploitant ces actifs d’information. Cela permet aux utilisateurs de la data science d’avoir une vue sur les données avec lesquelles ils s’apprêtent à travailler : provenance, qualité, leur dernière mise à jour.

     

    Avoir une gouvernance des données et analytics

    La gouvernance des données et l’analytique sont des cas d’usage importants lorsqu’il s’agit de la gestion des métadonnées. Appliquée aux data lakes, la question « pourrait-elle être exposée ? » doit devenir un élément essentiel du modèle de gouvernance de l’organisation. Les entreprises doivent donc étendre leurs modèles de gouvernance existants pour traiter des cas d’usage spécifiques à l’analyse business et de data science construits sur les data lakes. La gestion des métadonnées d’entreprise permet de mieux comprendre les règles de gouvernance actuelles liées à des actifs d’entreprise stratégiques.

    Contrairement aux approches traditionnelles, l’objectif principal de la gestion des métadonnées est de favoriser une approche consistante à la gestion des informations. Plus la sémantique des métadonnées est cohérente pour l’ensemble du patrimoine de données, plus la cohérence et la compréhension sont grandes, ce qui permet d’exploiter la connaissance autour des données à l’ensemble de l’entreprise.

     

    Démarrer une gestion des métadonnées avec Zeenea

    Comme mentionné ci-dessus, la mise en œuvre de la gestion des métadonnées dans votre stratégie de data management est non seulement bénéfique, mais aussi essentielle pour les entreprises qui cherchent à créer de la valeur business avec leurs données. Les équipes de data science travaillant avec des quantités de données variées dans un data lake ont besoin de solutions adaptées pour pouvoir comprendre et faire confiance à leurs informations. Pour soutenir cette discipline émergente, Zeenea vous donne tout ce dont vous avez besoin pour collecter, mettre à jour et exploiter vos métadonnées grâce à sa plateforme nouvelle génération !

    DataOps: Où en êtes-vous dans la compréhension de vos Big Data ?

    DataOps: Où en êtes-vous dans la compréhension de vos Big Data ?

    Les transformations digitales font émerger de nouveaux challenges autour de la data. Toutefois, le constat fait sur l’investissement des environnements Big Data ces dernières années n’a en rien simplifier la tâche des entreprises. Selon nous, les architectures Big Data devraient, entre autres :

    • Recueillir des informations sur un large éventail de données,
    • Utiliser des techniques d’analyse avancées telles que les algorithmes statistiques, l’apprentissage automatique et l’intelligence artificielle,
    • Permettre le développement d’applications orientées vers les données, comme par exemple, un système de recommandation sur un site web.

    Afin de mettre en place une architecture Big Data réussie, les données d’entreprise sont stockées dans un data lake centralisé, destiné à servir divers objectifs. Cependant, la quantité massive et continue de données provenant de diverses sources transforme un data lake en data swamp ! Alors que les fonctions métier travaillent de plus en plus avec des données, comment les entreprises peuvent les aider à s’y retrouver ?

    Pour que vos Big Data soient exploitées au maximum de leur potentiel, vos données doivent être correctement documentées.

    La documentation des données est la clé. Cependant, documenter des données telles que leur nom, leur description, leur propriétaire, leurs balises, ou encore leur niveau de confidentialité, peut être une tâche extrêmement longue, surtout avec le nombre colossal de données dans votre data lake !

    Avec une approche DataOps, un cadre agile axé sur l’amélioration de la communication, de l’intégration et de l’automatisation des flux de données entre les responsables et les consommateurs de données au sein d’une organisation, les entreprises sont en mesure de mener à bien leurs projets de manière progressive. Soutenues par une solution de data catalog, les entreprises sont en mesure de cartographier et d’exploiter plus facilement leur patrimoine de données, de manière agile, collaborative et intelligente.

     

    Comment un data catalog peut-il soutenir une approche DataOps dans votre projet Big Data ?

    Revenons à l’essentiel… qu’est-ce qu’un data catalog ?

    Un data catalog collecte et met à jour automatiquement les métadonnées techniques et opérationnelles les sources de données d’une entreprise et les stocke dans une unique source de vérité. Son but est de démocratiser la compréhension des données : permettre à vos collaborateurs de trouver les données dont ils ont besoin via une plateforme facile à utiliser. Les data catalogs ne nécessitent pas d’expertise technique pour découvrir, comprendre, et avoir confiance en vos données !

    Une documentation efficace pour vos données Big Data

    Dans votre quête pour faciliter votre voyage dans un data lake, il est important de créer un référentiel d’informations faisant foi et qui orientera vos consommateurs de Big Data dans leur projet. Les data catalogs doivent ainsi vous aider à créer une documentation efficace sur votre data lake par le biais de ce qui suit :

    • Mises en page de templates de documentation personnalisables,
    • Composantes interactives permettant les échanges,
    • Ensemble de modèles pré-créés.

    Pensez aux Legos. Les Legos peuvent être créés et intégrés à tout ce que vous souhaitez, mais à la base, ils ne sont encore qu’un ensemble de briques. Ces blocs peuvent être façonnés selon n’importe quel besoin, désir ou ressource !

    En proposant des modèles modulaires et ajustables, les Data Stewards peuvent configurer simplement et efficacement les modèles de documentation en fonction des requêtes de recherche de leurs utilisateurs professionnels dans le lac de données.

    Monitorer vos Big Data avec des capacités automatisées

    Certains data catalogs peuvent se connecter à vos environnements Big Data et de monitorer un data lake par exemple data lake. Les départements pertinents sont ainsi en mesure de cartographier les nouveaux ensembles de données entrants, d’être notifiés de tout ensemble de données supprimé ou modifié, ou même de signaler les erreurs aux contacts de référence, par exemple.

    En clair, les utilisateurs peuvent accéder à des informations actualisées en temps réel !

    Ces capacités automatisées permettent aux utilisateurs d’être informés de l’apparition de nouveaux ensembles de données, de leur suppression, de la présence d’erreurs, de la dernière mise à jour, etc.

     

    Soutenir la documentation Big Data avec des capacités augmentées

    Des data catalogs intelligents sont essentiels pour la documentation des données. Ils reposent sur l’intelligence artificielle et les techniques de machine learning, l’une d’entre elles étant la technologie de “fingerprinting”. Cette fonction offre aux utilisateurs data responsables d’un jeu de données particulier, certaines suggestions quant à sa documentation. Ces recommandations peuvent, par exemple, être associées à des tags, des contacts ou même des business termes d’autres jeux de données basés sur :

    • L’analyse des données elles-mêmes (analyse statistique),
    • Le schéma semblable à d’autres jeux de données,
    • Les liens sur les champs de l’autre jeu de données.

    Un data catalog intelligent peut aller jusqu’à détecter les données personnelles / privées dans un jeu de données dans un data lake et notifie les utilisateurs directement depuis son interface. Cette fonctionnalité aide les entreprises à répondre aux différentes demandes de GDPR mises en place depuis mai 2018, ainsi qu’à alerter les utilisateurs sur le niveau de sensibilité d’une donnée.

     

    Enrichissez votre documentation Big Data avec Zeenea Data Catalog

    Enrichissez la documentation de vos données avec Zeenea ! Notre plateforme de gestion des métadonnées a été conçue pour les responsables de données, et centralise toutes les connaissances sur les données depuis une interface unique et facile à utiliser.

    Importées, générées ou ajoutées automatiquement par l’administrateur, les gestionnaires de données sont en mesure de documenter efficacement leurs données directement dans notre catalogue et proposer un environnement Big Data enfin mieux compris.

    Donnez du sens à vos données grâce aux métadonnées !

    Comment le Data Catalog de Zeenea facilite le quotidien de vos équipes data ?

    Comment le Data Catalog de Zeenea facilite le quotidien de vos équipes data ?

    La Data est devenue l’un des principaux moteurs d’innovation dans de nombreux secteurs.

    Et comme les données continuent à se multiplier rapidement dans les SI des entreprises, elles se doivent d’évoluer et saisir les nouvelles technologies permettant de réussir leur stratégie de données et analytics. C’est à ce moment à qu’intervient Zeenea Data Catalog !

     

    Tout d’abord, quelles sont les problématiques data que rencontrent les entreprises ?

    En tant que leader de solution de data catalog pour les entreprises data-driven telles que LCL, Société Générale ou Renault, nous rencontrons toujours, entre autres, trois principaux problèmes :

    • Manque de visibilité : avec de nombreuses sources de données variées provenant de data warehouses, de data lakes, du cloud, etc., s’y retrouver dans cet afflux de données transforme vos Data en Data Chaos! Dans un article des Echos, Data : en France, l’absence de compétences fait perdre 9,8 milliards aux entreprises, 70% des utilisateurs de données ayant répondu à l’enquête déclarent se sentir dépassés ou malheureux lorsqu’ils travaillent avec de la data… Les équipes data se retrouvent démotivées et confuses quant à travailler avec leurs données, car elles finissent par passer la plupart de leur temps à se demander où elles se trouvent et si elles sont fiables.
    • Manque de connaissances : La data est encore un sujet chasse gardé par l’IT et compliqué à comprendre par d’autres profils. Ce manque de partage et de communication sur les données réduit drastiquement le potentiel de l’entreprise à produire plus de valeur en croisant ces informations. Nous avons l’habitude de parler de connaissance tribale autour du patrimoine de données en lien avec la loi de Conway : votre architecture reflète votre organisation !
    • Manque de culture : Les entreprise l’ont compris,, il est essentiel d’investir du temps dans la création d’une culture data au sein de l’organisation. . Pour la mettre en place, il est important d’impliquer les bonnes personnes, d’identifier les bon sujets et bien évidemment les bonnes solutions.

    Cependant, n’oubliez pas ! “With great data comes great responsibility” Cela fait référence à ce que nous appelons une culture ”Data Democracy”.

    Pour répondre à ces problèmes, Zeenea apporte une réponse sur le marché : un data catalog simple d’utilisation mais surtout intelligent !

    Le choix d’un data catalog d’entreprise

    Comme mentionné ci-dessus, de nombreuses sociétés ont fait confiance à Zeenea dans leur quête de mettre en œuvre une solution de data catalog.

    Choisir Zeenea, c’est choisir:

    • Une vue d’ensemble sur toutes les données contenues dans les diverses plateformes data de l’entreprise,
    • Un moteur de recherche Google-esque qui donne la possibilité de rechercher un jeu de données, terme métier, ou même un champ à partir d’un mot clé. Affinez la recherche avec divers filtres.
    • Une application collaborative qui permet une acculturation à la donnée dans l’entreprise grâce à un système de discussion,
    • Une technologie de Machine Learning qui notifie et donne des suggestions intelligentes concernant les informations des données cataloguées,
    • Une expérience utilisateur dédiée qui donne la possibilité aux data leaders de permettre à leurs équipes data de devenir autonomes dans leurs découverte des données.

    En savoir plus sur notre data catalog

    Contactez-nous pour plus d’informations sur notre data catalog pour les équipes

    Si vous souhaitez obtenir plus d’informations, une démo gratuite et personnalisée, ou si vous voulez juste nous dire bonjour, n’hésitez pas à nous contacter et notre équipe commerciale se chargera de vous répondre dès réception de votre demande 🙂

    Qu’est-ce que le metadata management ?

    Qu’est-ce que le metadata management ?

    « By 2021, organizations will spend twice as much effort in managing metadata compared with 2018 in order to assess the value and risks associated with the data and its use. »

    *Gartner, The State of Metadata Management

    La définition de metadata management

    Avant de définir ce qu’est un metadata management (ou gestion des métadonnées en français), prenons un moment pour revoir les fondamentaux : Quelle est la différence entre une donnée et une métadonnée ?

    Si malheureusement le temps vous manque, retenez simplement, qu’une métadonnée permet de contextualiser une donnée via les très appréciés 5 W : Who?, What?, When?, Where?, Why?

    Ces questions répondent ainsi à un objectif clair : comprendre la donnée en vue de l’utiliser en état de pleine conscience.

    Avec l’arrivée du Big Data et des différentes réglementations data, les leaders de la donnée doivent gagner en maturité sur leurs projets data au travers d’efforts centrés sur les métadonnées. Celles-ci sont partout : dès lors qu’une donnée est générée un ensemble d’informations la contextualisant apparaît.

    Prenons l’exemple, d’un fichier excel recensant une liste de contacts. Les données sont les prénoms, noms, emails et adresses postales et les métadonnées de ce jeux de données seraient sa date de création, le nom du fichier, les auteurs associés, la taille et le poids du fichier ou encore des commentaires laissés dans le document.

    Cette discipline autour de la gestion des métadonnées n’est pas quelque chose de révolutionnaire en tant que tel. Les entreprises ont compris son importance en réalisant, là encore, des fichiers excels. Le vrai virage aujourd’hui pour les entreprises data-driven est de s’outiller dans le metadata management avec des solutions qui sauront passer d’une métadonnée simplement passive à une information active et exploitable pour des cas d’utilisation tels que : se conformer aux réglementations, mettre en place une gouvernance des données et comprendre la valeur de ses données.

    Pourquoi faut-il implémenter une stratégie de metadata management?

    Le premier cas d’usage concernant la gestion des métadonnées est de faciliter la découverte et la compréhension du patrimoine de données de l’entreprise.

    Ceci requiert la mise en place d’un référentiel de métadonnées, son remplissage et sa mise à disposition d’informations.

    Voici quelques bénéfices, entre autres, du metadata management :

    • Une meilleure compréhension du sens des données du patrimoine de l’entreprise,
    • Une communication sur la sémantique des données via un data catalog,
    • Les leaders de la données sont plus productifs et efficaces, ce qui accélère la livraison des projets,
    • L’utilisation des dictionnaires de données et glossaires métier permet d’identifier des synergies et vérifier la cohérence des informations,
    • Renforcement de la documentation d’une donnée (suppression, archives, qualité, …),
    • La génération de pistes audits et d’informations (risque et sécurité pour la conformité).

    Gérez vos métadonnées avec Zeenea

    Avec Zeenea, transformez vos métadonnées en connaissances exploitables !

    Notre plateforme de metadata management organise et met à jour automatiquement vos informations à partir de vos systèmes de stockage. Elle devient une source unique d’informations pour tout utilisateur de la donnée dans l’entreprise.

    Comment évaluer votre futur Data Catalog ?

    Comment évaluer votre futur Data Catalog ?

    L’explosion des sources de données dans les entreprises, l’hétérogénéité des données ou encore les nouvelles demandes liées à la donnée confirment l’extrême nécessité de maintenir une documentation de votre patrimoine !

    Or, les organisations continuent à se battre avec des moyens encore trop traditionnels pour faire l’inventaire et comprendre ces nouveaux actifs d’entreprise.

    La raison pour laquelle les solutions de Data Catalogs sont apparus sur le marché.

    Et, vous l’avez certainement remarqué… le nombre d’éditeurs sur le marché du Data Catalog ne manque pas ! Cette profusion d’offres laisse les entreprises incertaines quant au Data Catalog qui saura répondre à leurs attentes.

    Bon, cela étant dit, sur quelles spécificités devez-vous évaluer votre futur Data Catalog ?
    Nous pensons que vous devez garder dans votre short list des solutions répondant à minima ces 5 principes fondateurs :

    1. Un Data Catalog pour tous et tous pour un Data Catalog

    Implémenter un data catalog mérite d’avoir une stratégie de gestion de métadonnées (ou metadata management en anglais) au niveau entreprise.

    En d’autres termes, faire l’acquisition d’un data catalog au niveau d’un système de stockage reviendrait à recréer les bien connus “silos data” mais version metadata. Les rendant par la suite difficiles et compliqués à gérer et à intégrer dans d’autres systèmes.

    Un Data Catalog doit ainsi devenir votre référentiel data au sein de votre entreprise. La solution doit ainsi se connecter à tous vos systèmes de stockages ou informations des plus avant gardistes aux plus traditionnels.

    2. L’automatisation

    Lors de vos évaluations, ayez en tête de choisir un Data Catalog connecté.

    Brique essentielle dans la mise en oeuvre d’un metadata management. Cette fonctionnalité simplifiera et automatisera l’inventaire et surtout la mise à jour de vos informations depuis vos différentes bases de données dans votre futur référentiel centralisé.

    Une façon simple de mettre à disposition des informations justes auprès de vos utilisateurs data.

    3. Simple !

    Simple ne veut pas dire complet ! Derrière ce terme, nous pensons aux futurs utilisateurs du Data Catalog.

    Pensez qu’une interface “bien faite” et pensée pour des utilisateurs non technique permettra une meilleure adoption et rétention de la solution dans votre organisation.

    4. Déployer progressivement avec le bon accompagnement

     

    Afin de convaincre les utilisateurs de l’apport d’un Data Catalog, évaluez sa capacité à délivrer de la valeur rapidement et l’accompagnement prévu par l’éditeur (ou son partenaire) sur la mise en place une stratégie de gestion de métadonnées.

    Par exemple, chez Zeenea, nous travaillons avec nos clients pas à pas, source de métadonnées après source de métadonnées afin de démontrer le champ des possibles de la solution (automatisation, moteur de recherche, collaboration, etc.) auprès d’une population pilote, grandissante au fil du temps.

    5. Valoriser vos métadonnées

    Votre futur Data Catalog ne doit pas être qu’un simple inventaire d’informations.

    Pensez dès aujourd’hui aux champs des possibles avec cette matières premières !

    En se dotant d’une solution proposant des apprentissages intelligents, autrement dit du Machine Learning, grâce à la recherche, au profiling des metadata et/ou data depuis l’outil, enrichissez au jour le jour la documentation, le sens et les usages faits sur votre patrimoine de données.

    Quelle est la différence entre un dictionnaire de données et un business glossary ?

    Quelle est la différence entre un dictionnaire de données et un business glossary ?

    Dans la gestion de métadonnées, on entend souvent parler de “dictionnaires de données” et de “business glossaries”. Bien qu’ils puissent sembler similaires, ils sont en fait assez différents ! Découvrons ensemble leurs différences et relations.

    Qu’est-ce qu’un dictionnaire de données ?

    Un dictionnaire de données est un ensemble de descriptions ou d’éléments correspondant à des objets ou modèles de données.

    Ces descriptions peuvent inclure des attributs, champs, ou même des propriétés pour déclarer les types, les transformations, ou encore les relations des données.

    Les dictionnaires de données aident les professionnels de la data à mieux comprendre leurs données et métadonnées. Habituellement sous forme de tableaux ou de feuilles de calcul, les dictionnaires de données sont indispensables pour les profils techniques tels que les développeurs, data analysts, data scientists, etc. dans leur travail de tous les jours. 

    Qu’est-ce qu’un business glossary ?

    Un business glossary apporte une signification et un contexte aux données dans les départements de l’entreprise.

    Un business glossary est donc un endroit où les termes métier et liés aux données sont définis.

    Cela peut sembler simple, mais il est rare que tous les employés d’une entreprise partagent une même compréhension, définition des termes – mêmes les plus fondamentaux – tels que «contact» et «client» au sein de l’entreprise.

    Un exemple d’un business glossary dans Zeenea :

    Les principales différences entre un dictionnaire de données et un business glossary

    Les dictionnaires de données traitent les informations des bases de données et des systèmes, principalement utilisées par les équipes informatiques. Les business glossaries définissent des termes utilisés au sein d’une même organisation. Il est un dictionnaire métier faisant foi dans l’entreprise.

    Les dictionnaires de données se présentent généralement sous forme de schémas, de tableaux, de colonnes, etc., tandis qu’un business glossary fournit une définition unique des termes métier sous forme textuelle.
    Un glossaire métier croise les termes et leurs relations, contrairement aux dictionnaires de données.

     

    Quelle est la relation entre un dictionnaire de données et un business glossary ?

    La réponse est simple : un business glossary donne du sens au dictionnaire de données.

    Par exemple, dans le business glossary, un numéro de sécurité sociale américain (SSN) sera défini comme « un numéro unique attribué par le gouvernement américain dans le but d’identifier des personnes dans le système de sécurité sociale américain ».

    Dans le dictionnaire de données, le terme SSN est défini comme « une chaîne de neuf caractères généralement affichée avec des traits d’union ».

    Si un data explorer a un doute sur la signification du terme «SSN» dans le contexte de son dictionnaire de données, il peut toujours rechercher le terme associé dans le business glossary.

     

    Intéressé par l’automatisation d’un dictionnaire de données et la création d’un business glossary pour votre entreprise ?

    Vous souhaitez créer un référentiel de métadonnées centralisé de toutes vos sources de données d’entreprise ?

    Notre outil fournit un moyen intuitif de créer et importer les glossaires de votre entreprise afin de relier ces définitions aux concepts de Zeenea ou jeux de données importés dans notre data catalog.

    Quelle est la différence entre les données et les métadonnées ?

    Quelle est la différence entre les données et les métadonnées ?

    “Data is content, and metadata is context. Metadata can be much more revealing than data, especially when collected in the aggregate.” 

    — Bruce Schneier, Data and Goliath.

    Les définitions : données et métadonnées

    Pour beaucoup, il est difficile d’appréhender les concepts de donnée et de métadonnée. Bien que les deux soient une forme de donnée, leurs usages et leurs spécifications diffèrent complètement.

    Premièrement, une donnée est une information.

    Elle peut être une observation, une mesure, un fait, ou alors une description de quelque chose. Les données permettent à ses utilisateurs de découvrir des modèles et tendances présents dans le patrimoine de données d’une entreprise.

    D’autre part, une métadonnée, fréquemment définie comme étant une “donnée sur la donnée”, fait référence aux détails spécifiques sur ces données.

    Elle fournit des informations granulaires sur une donnée spécifique, par exemple : le type de fichier, le format, l’origine, la date, etc.

     

    Les différences clés entre les données et les métadonnées

    La donnée est simplement l’essence, le contenu qui fournit une description, une mesure, voire un rapport sur tout élément relatif au patrimoine de données de l’entreprise. Les métadonnées elles, décrivent les informations pertinentes sur lesdites données, donnant plus de contexte pour ses utilisateurs.

    Les données peuvent être informatives, mais pas toujours. Prenons l’exemple des chiffres ou caractères non informatifs. Cependant, les métadonnées sont toujours informatives car il s’agit d’une référence à d’autres données.

    Enfin, les métadonnées sont toujours considérées comme des informations traitées, à la différence des données qui peuvent être considérées comme non-traitées ou traitées.

     

    L’importance des métadonnées dans une stratégie de gestion des données

    Quand on crée une donnée, les métadonnées sont automatiquement créées (origine de la donnée, format, type, etc.). Toutefois, ces informations ne sont pas suffisantes pour gérer correctement les données ; Les data managers doivent investir du temps pour s’assurer que cet actif d’entreprise est correctement documenté, stocké et archivé sous une taxonomie compatible avec tous les autres actifs de l’entreprise. C’est ce que nous appelons la « gestion des métadonnées ».

    Une meilleure gestion des métadonnées augmente la valeur des données. Elles permettent aux entreprises d’améliorer la qualité et la découverte des données, ce qui permet aux utilisateurs de mieux les comprendre. Sans métadonnées, les entreprises se retrouvent avec des jeux de données sans contexte, dont la valeur ne peut être exploitée.

    Il est donc essentiel que les entreprises qui traitent des données disposent d’une solution de gestion des métadonnées. En mettant en place une plateforme de metadata management, les data users sont en mesure de découvrir, de comprendre et de faire confiance au patrimoine de données de leur entreprise.

    Vous recherchez une solution de metadata management ?

    Qui sont les Chief Data Officers ?

    Qui sont les Chief Data Officers ?

    Selon une étude Gartner présentée lors de la conférence Data & Analytics à Londres 2019, 90% des grandes entreprises auront un CDO d’ici 2020 !

    Avec l’émergence du Big Data, de nombreuses entreprises se retrouvent avec une quantité colossale de données sans savoir comment les exploiter. Pour répondre à cette question, une nouvelle fonction voit le jour au sein des grandes entreprises : celui du Chief Data Officer.

    graph-cdo-gartner-fr

    Le rôle du Chief Data Officer (CDO)

    Considérés comme les gourous de la donnée, les Chief Data Officers (CDO) jouent un rôle clé dans la stratégie data de l’entreprise. Ils sont chargés d’améliorer l’efficacité et la capacité de création de valeur autour des données. Cette ambition s’accompagne de réflexions autour de la mise à disposition d’un patrimoine de données de qualité, managé et sécurisé. En d’autres termes, il s’agit de trouver le juste équilibre entre une gouvernance des données offensive et défensive correspondant aux besoins de l’entreprise.

     

    stratégie data cdo

    Selon l’étude Gartner, présentée lors de leur évènement annuel Data & Analytics à Londres en Mars 2019, le CDO a, entre autres, plusieurs responsabilités importantes au sein d’une entreprise :

     

    Définir une stratégie data et analytics

    Quelles sont les objectifs data à court, moyen et long terme ? Comment créer une culture de la donnée dans l’entreprise ? Quels moyens pour démocratiser l’accès aux données ? Comment mesurer la qualité du patrimoine de données ? Comment atteindre une conformité réglementaire interne et/ou légale ? Comment responsabiliser les utilisateurs de la donnée ?

    Tant de questions qu’un CDO doit se poser afin de mettre en place une stratégie data & analytics au sein de leur organisation.

    Une fois les problématiques cernées, vient le moment des initiatives opérationnelles. Le CDO joue le rôle de superviseur, afin que les efforts fournis dans la mise à disposition d’informations sur les données soient de confiance et valorisable.

    Son rôle s’opère dans la durée. Il doit devenir le nouveau chef de file d’une « Data Democracy » au sein des entreprises et maintenir l’investissement fourni sur l’infrastructure et l’organisation.

     

    Construire une gouvernance des données

    La mise en place d’une gouvernance des données doit conjuguer avec bonheur le respect d’obligations réglementaires toujours plus exigeantes et l’exploitation la plus large des données dans tous les métiers de l’entreprise. Pour atteindre cet objectif, le CDO doit être à même de répondre à ces quelques premières questions :

    • Quelles données sont présentes au sein de son organisation
    • Ces données sont-elles suffisamment documentées pour être comprises et maı̂trisées par les collaborateurs de son organisation ?
    • D’où viennent-elles ?
    • Sont-elles sécurisées ?
    • Quelles règles ou restrictions s’appliquent à mes données ?
    • Qui sont les responsables ?
    • Qui utilise ces données ? Comment ?
    • Comment les collaborateurs peuvent y accéder ?

    C’est en construisant de manière agile une gouvernance des données la plus offensive possible que les CDOs pourront faciliter l’accès aux données et assurer leur qualité en vue de les valoriser.

     

    Évangéliser une culture « Data Democracy »

    Data Democracy désigne l’idée selon laquelle si chaque employé peut accéder facilement et en toute connaissance à autant de données que possible, l’entreprise dans son ensemble en tirera le plus grand bénéfice. Ce droit d’accéder aux données s’accompagne d’un ensemble de devoirs et de responsabilités – parmi lesquels la contribution au maintien du plus haut niveau de qualité et de documentation sur les données. Dès lors, la gouvernance n’est plus la chasse gardée de quelques uns, mais devient l’affaire de tous.

    Pour atteindre cette mission, Zeenea se connecte et fédère les équipes autour des données grâce à un langage commun. Notre data catalog permet à quiconque – ayant les habilitations nécessaires – de découvrir et croire dans le patrimoine data d’une entreprise.

     

    Vous êtes CDO et vous avez besoin d’un outil de gouvernance des données ?

    Afin de réussir ses missions, le CDO a besoin de s’équiper avec les bons outils. Avec le data catalog de Zeenea, les Chief Data Officers peuvent identifier leur patrimoine de données, le rendre accessible et utilisable par ses collaborateurs afin d’être valorisé. Simple d’utilisation et intuitive, notre data catalog est l’outil indispensable du CDO pour la mise en œuvre d’une gouvernance des données agile. Contactez-nous pour en savoir plus.

    Comment l’intelligence artificielle renforce les data catalogs ?

    Comment l’intelligence artificielle renforce les data catalogs ?

    La machine peut-elle penser ? Nous parlons évidemment d’intelligence artificielle, le “grand mythe de notre temps” !

    Une définition simple de l’IA pourrait être : “un ensemble de théories et de techniques mises en œuvre en vue de réaliser des machines capables de simuler l’intelligence.” Parmi elles, nous retrouvons des techniques algorithmiques notamment de deep learning, une méthode d’apprentissage automatique tentant de modéliser des données.

    Qui dit “données”, dit être capable de les comprendre et d’y accéder. C’est à l’aide d’un data catalog intelligent que les utilisateurs de la donnée, tels que les data scientists, pourront rechercher facilement et choisir efficacement les bons jeux de données pour leurs algorithmes de machine learning.

    Voyons en détails comment.

     

    Moteur de recherche : simplifier la rechercher de jeux de données

    En se connectant à toutes les sources de données d’une entreprise, un data catalog peut efficacement remonter un maximum de documentation (autrement appelée métadonnées) depuis leurs systèmes de stockage.

    L’ensemble de ces informations, indexées et filtrables dans le moteur de recherche de Zeenea, permet aux utilisateurs d’atteindre rapidement le jeu de données répondant aux besoins de leur programme informatique.

     

    Système de recommandations

    Guider l’utilisateur dans ses choix

    Un data catalog intelligent est un outil qui repose sur un système de “fingerprinting”.
    Cette fonctionnalité intelligente permet de recommander à un utilisateur plusieurs jeux de données pertinents pour ses projets, en se basant, en autres, sur

     

    • L’usage de la donnée,
    • La qualité de la documentation et son scoring,
    • Ses précédentes recherches,
    • La navigation des autres utilisateurs.

    Inférer plus de sens à un jeu de données

    Cette fonctionnalité propose aux personnes en charge d’un jeu de donnée des suggestions quant à sa documentation. Cela peut prendre l’exemple de recommandations sur des tags, des contacts associés ou encore des business terms liés aux jeux de données en se basant sur :

    • L’analyse de la donnée en elle-même (analyse statistiques),
    • La ressemblance de son schéma avec d’autres jeux de données
    • Les liens sur les différents champs des jeux de données.

    Contextualiser de manière automatique les jeux de données dans un data catalog permet à l’ensemble des utilisateurs de la donnée de travailler sur une donnée comprise et appropriée pour leur cas d’usage.

     

    Relation entre jeux de données : connaître son cycle de vie

    Grâce au fingerprinting, cette même technologie citée plus haut, un data catalog peut reconnaître et relier des jeux de données. Nous parlons de data lineage ; une représentation graphique du cycle de vie de la donnée.

     

    Détection d’erreurs automatiques : être averti sur l’intégralité d’un jeu de données

    Afin de pallier à d’éventuels problèmes d’interprétation de la donnée, un data catalog intelligent doit être à même de détecter des erreurs ou incompréhensions sur la qualité et la documentation de la donnée.

    Cette fonctionnalité clé, basée sur une analyse de la donnée ou de sa documentation, doit avertir les utilisateurs de la donnée sur son intégrité.

     

    Détection GDPR : être informer sur la sensibilité d’un jeu de données

    Un data catalog intelligent doit être capable de détecter des données privées personnelles au sein d’un jeu de données et de le signaler depuis son interface graphique. Cette fonctionnalité permet de répondre à la demande du RGPD de mai 2018 dernier et également d’avertir les potentiels utilisateurs sur le niveau de sensibilité et les usages de la donnée.

    Qu’est-ce qu’un data catalog

    Qu’est-ce qu’un data catalog

    data-catalog

    En 2017, Gartner a déclaré que les data catalogs étaient « le nouveau noir dans la gestion et l’analyse des données ». Aujourd’hui, ils sont devenus une solution incontournable pour les responsables data ! Dans « Augmented Data Catalogs : Now an Enterprise Must-Have for Data and Analytics Leaders« , ils déclarent :

    « La demande de data catalog est en pleine expansion, car les organisations continuent à se battre pour trouver, inventorier et analyser des données très diverses et très distribuées. »

    Chez Zeenea, nous définissons un data catalog comme étant :

    Un inventaire détaillé de tous les actifs de données d’une organisation et de leurs métadonnées, conçu pour aider les professionnels de la donnée à trouver rapidement les informations les plus appropriées pour tout objectif business et analytique.

    Pourquoi un data catalog ?

    Les sujets data sont encore aujourd’hui la chasse gardée de profils trop techniques. Or, l’innovation par la donnée n’est possible que si celle-ci est partagée au plus grand nombre. Le métier doit avoir l’autonomie d’accéder aux données pour mesurer, démarrer ou encore optimiser un produit ou service. Innover demande une certaine flexibilité et agilité qui est, à ce jour, trop peu présente dans les organisations.

    Démocratiser l’accès aux données ! 

    C’est la raison même des data catalogs : permettre à l’ensemble de ses collaborateurs de trouver les données dont ils ont besoin via une plateforme simple d’utilisation au-dessus des systèmes data.

    Les data catalogs ne nécessitent pas de compétences techniques pour enfin découvrir ce qui est nouveau et saisir des opportunités. Business analysts, data scientists ou encore équipes marketing deviennent autonomes dans l’exploration des données.

    Quant aux data stewards, ils sont enfin outillés pour construire une gouvernance data et évangéliser une culture data-centric au sein des organisations.

    Les objectifs d’un data catalog ?

    Un data catalog permet d’acquérir une vision métier des données entreposées dans les systèmes data. Il centralise et unifie les informations collectées afin qu’elles puissent être partagées auprès des équipes IT et fonctions métier puis connectées aux outils de l’entreprise. Cette vue unifiée des données permet de :

    Construire une gouvernance des données de manière agile

    Un data catalog connecté vous permet de conserver les données directement extraites du SI de votre entreprise. De cette façon, votre organisation commence à créer un paysage de données compréhensible et fiable via une plate-forme centralisée. Nous croyons en une approche bottom-up où la connaissance globale de vos actifs devrait être le point de départ de votre gouvernance des données, au lieu de déployer des processus trop complexes et trop difficiles à maintenir sur des informations supposées. En plus de cette connaissance permise par un data catalog piloté, l’organisation s’ouvrirait pas à pas, avec une boucle rétroactive, la création de rôles, de processus et d’accès aux données…

    > Pourquoi commencer une gouvernance agile des données ? Livre blanc gratuit

    zeenea-livre-blanc-FR-V0-min

    Démarrer une gestion des métadonnées

    Un data catalog permet de créer un répertoire de métadonnées techniques et business. Il permet la synchronisation des métadonnées avec les sources de données et renforce la documentation par vos équipes data (par les data owners, les data managers, les utilisateurs data, etc.), ce qui permet de maintenir au fil du temps un patrimoine de données puissant et fiable au niveau de l’entreprise.

    > Lisez notre livre blanc sur la gestion des métadonnées 

    le guide du metadata management

    Maintenir une culture des données

    Un data catalog devient l’outil de référence pour tous les employés. Comme son interface ne nécessite pas d’expertise technique pour découvrir et comprendre les données, la connaissance du patrimoine de données n’est plus limitée à un groupe d’experts. Il permet également à votre organisation de mieux collaborer sur ces actifs et de les travailler de manière simple.  Chez Zeenea, nous considérons qu’un data catalog est une pierre angulaire pour construire une puissante démocratie des données

    > Lisez notre livre blanc sur la data democracy

     Accélérer toute data discovery

    Avec des milliers de données créées chaque jour, les entreprises se retrouvent avec des informations qu’elles n’arrivent ni à comprendre ni à gérer correctement.  De récentes enquêtes indiquent que les équipes de data science passent encore 80% de leur temps à préparer et nettoyer leurs données plutôt que de les analyser. En déployant un data catalog dans votre organisation, la vitesse à laquelle vos équipes data peuvent découvrir leurs données est multipliée par cinq.  Ainsi, elles peuvent se concentrer sur l’essentiel : livrer leurs projets de données dans les délais.

    > Lisez notre livre blanc sur le Data Discovery vu par les Géants du Web

    data-discovery-mockup-FR-no-shadow

    Les fonctionnalités clés d’un data catalog ?

    Registre de métadonnées

    Ce référentiel de métadonnées dynamique intervient à tous les niveaux : du jeu de données à la donnée en elle-même. Pour chaque élément, ce registre de métadonnées peut faire figurer une description business et technique, les propriétaires, des indicateurs de qualité ou encore créer une taxonomie (properties, tags, etc.).

    metadata-resgistry-data-catalog-1

    Moteur de recherche

    Toutes les métadonnées renseignées dans le registre sont requêtables depuis le moteur de recherche du data catalog. Les recherches peuvent être triées, filtrées à tous les niveaux.

    search-engine-data-catalog-2

    Data lineage et registre de traitements

    Grâce au data lineage, il est possible de visualiser dans son ensemble l’origine et les transformations d’une donnée spécifique au fil du temps. Cela vous permet de comprendre d’où proviennent les données, quand et où elles se séparent et fusionnent avec d’autres données.

    Ces transformations et traitements effectués sur la donnée sont ainsi répertoriés dans ce qu’on appelle un registre de traitements, indispensable pour répondre aux attentes de la réglementation européenne (GDPR).

    data-lineage-data-catalog-3

    Fonctionnalités collaboratives

    Dans une approche user centric, un data catalog est l’outil data de référence d’une entreprise. Il permet de visualiser la donnée comme un asset et de travailler de manière transparente sur celle-ci. Partager, assigner, commenter, qualifier à l’intérieur même de l’outil pour augmenter la productivité et la connaissance auprès de tous les collaborateurs.

    dashboard-data-catalog-4

    Détection des données sensibles

    Les algorithmes de machine learning et d’intelligence artificielle peuvent reconnaître les données sensibles au sein du data catalog et lors de nouveaux imports dans l’outil. Le data catalog est à même de surveiller l’activité de ces données et d’avertir les personnes référentes en cas de problèmes.

    Quels sont les cas d’utilisation d’un catalogue de données ? Et pour qui ?

    Pour le Chief Data Officer

    En savoir plus sur le Chief Data Officer >

    Le Chief Data Officer joue un rôle clé dans la stratégie data de l’entreprise ; il recherche, entre autres, à maîtriser son patrimoine de données et à faciliter son accès en vue de devenir data-driven. Un catalogue de données l’aide à :

    • Assurez la fiabilité et la valeur des données de l’entreprise
    • Créer une organisation “data literate” 
    • Valorisez la documentation de votre patrimoine de données
    • Instaurez une data democracy dans l’organisation 
    • Engager un processus de mise en conformité avec le règlement Européen (GDPR).

    Pour le Data Steward

    En savoir plus sur le Data Steward >

    Reconnu comme l’interlocuteur data de référence sur son périmètre, de par ses connaissances techniques et métier, le Data Steward s’est vu attribuer le surnom de “master of data” ! Un data catalog permet aux data stewards de :

    • Centraliser la connaissance des données sur une seule plateforme
    • Enrichir la documentation des données
    • Établir une communication avec leurs data users
    • Qualifier la valeur des données.
    • Démarrer une gestion des métadonnées

    > En savoir plus sur Zeenea Studio, l’application parfaite pour vos data managers

    Pour le Data Scientist 

    Considéré comme le chercheur d’or du 21ème siècle, vos Data Scientists s’aventurent dans le patrimoine (Big) Data d’une entreprise à la recherche de pépites à transformer.

    Ce nouveau métier possède des enjeux tant opérationnels que stratégiques. Ses missions sont, entre autre : élaborer des modèles prédictifs, rendre lisible et exploitable la donnée pour la direction, et construire des algorithmes de machine learning. Un data catalog les aide à :

    • Trouver très facilement vos données, peu importe où elles sont stockées.
    • Consulter l’historique des jeux de données : date de création et les actions effectuées dessus.
    • Comprendre le contexte métier des données.
    • Identifier les sachants par jeu de données.
    • Collaborer facilement avec ses pairs.
    • Créer une documentation automatisée de part mes actions au sein du data catalog.
    • Recommandation de données pertinentes par rapport aux autres jeux de données consultés.

    En savoir plus sur Zeenea Explorer, parfait pour vos équipes data

    Le parcours d’un data catalog

    C’est un fait que les data catalogs sont une brique essentielle dans la stratégie de données de toute organisation, et ce pour une raison. Un catalogue de données devient extrêmement pratique dans les différentes phases de vos projets :

    Un catalogue de données en phase de déploiement

    Se connecter à vos sources de données

    Un data catalog se connecte à toutes vos sources de données. Connectez vos solutions d’intégration de données, de data préparation, de data visualisation, de CRM, etc. afin d’intégrer pleinement toutes vos technologies en une seule source de vérité. 

    > Voir nos connecteurs

    Un catalogue de données en phase de documentation

    Créer un méta-modèle

    Un data catalogs saisit et met à jour les métadonnées techniques et opérationnelles des sources de données d’une entreprise.  Il permet d’ajouter et de configurer – de la main de l’administrateur – ou de superposer des informations (obligatoires ou non) sur les ensembles de données catalogués. Ces informations supplémentaires, sont appelés des propriétés ! Ces informations contextuelles se réfèrent principalement à la documentation commerciale et opérationnelle.

    > Construisez votre template de métamodèle

    Un catalogue de données en phase de découverte

    Comprendre vos données

    Avec un data catalog, vos utilisateurs – avec ou sans capacités techniques – sont en mesure de comprendre pleinement leurs données d’entreprise. Un data catalog permet aux utilisateurs d’avoir accès et de rechercher facilement toute information dans le catalogue. 

    Définissez vos données

    Un data catalog permet aux responsables des données, tels que les DPO ou les CDO, de définir correctement les données pertinentes à utiliser. Grâce aux métadonnées, les data managers peuvent facilement documenter leurs jeux de données, ce qui permet à leurs équipes d’accéder à des données contextualisées. 

    Explorez vos données

    Découvrez et collectez les données disponibles dans un data catalog. En cataloguant toutes les données d’entreprise dans un référentiel central, les utilisateurs data peuvent s’assurer que leurs données sont fiables et utilisables.

    Un catalogue de données dans la phase de collaboration

    Communiquer avec les données

    Un data catalog permet aux utilisateurs de maîtriser les données. Les départements informatique et business sont capables de comprendre et de communiquer autour de différents projets de données entre eux. Grâce à des fonctionnalités de collaboration telles que les discussions, les données deviennent un sujet que tout le monde peut partager dans l’entreprise.

    Les points clés d’un Data Catalog

    Maintenant que nous savons tout sur les data catalogs, revenons sur les trois principaux points à retenir sur les catalogue de données ainsi que les bénéfices pour votre entreprise :

    Maximiser la valeur des données

     En rassemblant l’ensemble des données d’une entreprise sur un outil data de référence, il devient possible de croiser ces assets et en tirer de la valeur plus facilement. La collaboration des équipes techniques et métier à l’intérieur même du data catalog permet des innovations répondant à des besoins marché avérés.

    Produire mieux et vite

    Vos équipes le confirmeront : plus de 70% du temps consacré à l’analyse des données est engagé dans des activités de “querelles de données”. Le catalogage simplifie la recherche des données, l’identification des sachants et donc, la prise de décisions intelligentes.

    Assurer le bon contrôle des données

    Mal interprétées ou erronées, les entreprises s’exposent à fonder leurs décisions sur de mauvaises informations. Les data catalogs connectés permettent d’accéder à des données toujours à jour. Les utilisateurs des données peuvent s’assurer que les données et leurs informations sont correctes et utilisables

    Comment le Big Data a contribué au succès de Zalando

    Comment le Big Data a contribué au succès de Zalando

    Pour la deuxième année consécutive, Zeenea a participé au Salon Big Data Paris en tant que sponsor pour présenter son data catalog

    Durant ces deux jours, nous avons pu assister à de nombreuses conférences animées par des professionnels de la donnée : des chief data officers, des business analysts, des responsables data science, etc.

    Parmi ces conférences, nous avons eu l’occasion de participer à celle de la marque Zalando présentée par Kshitij Kumar, VP Data Infrastructure.

     

    Zalando, la plus grosse plateforme d’e-commerce en Europe

    Avec plus de 2 000 marques référentes et 300 000 articles de disponibles, la plateforme de mode en ligne d’origine allemande a conquis 24 millions d’utilisateurs actifs dans 17 pays européens depuis sa création en 2008 [1].

    En 2018, Zalando a réalisé un chiffre d’affaires de 5,4€ milliards : une augmentation de 20% par rapport à l’année 2017 [2] !

    Avec ces résultats positifs, la marque a beaucoup d’espoir pour l’avenir. L’objectif de Zalando est de devenir la référence dans la mode :

    “Nous voulons devenir un élément essentiel de la vie de nos consommateurs. Il n’y a qu’une poignée d’applications qui ont réussi à pénétrer notre vie quotidienne, comme les plateformes Netflix pour la télévision ou Spotify pour la musique. Zalando doit devenir le lieu de la mode par excellence où les consommateurs peuvent satisfaire tous leurs besoins vestimentaires [3]”

    explique David Schneider, co-CEO de Zalando.

    Mais comment est-ce que Zalando a fait pour devenir aussi important en aussi peu de temps ? Selon Kshitij Kumar, tout est une question de data.

     

    Zalando et l’importance d’être une entreprise Data-Driven

    Everything is based on data.” déclare Kshitij Kumar lors de sa conférence au Big Data Paris le 11 mars dernier. Durant 20 minutes, il explique que tout tourne autour de la data : le business intelligence et le machine learning sont construits selon les données de la marque.

    Avec plus de 2000 employés techniques, Zalando revendique une infrastructure Big Data en plusieurs catégories :

     

    Une gouvernance des données :

    En réponse du RGPD, le VP Data Infrastructure nous explique l’importance de la mise en place d’une gouvernance de données à l’aide d’un data catalog : It is essential to an organization in order to have safe and secure data.

     

    Une plateforme de Machine Learning :

    C’est en explorant, travaillant, facilitant la curation et en observant les données d’une entreprise qu’une plateforme de Machine Learning sera efficace.

     

    De la Business Intelligence

    C’est avec des KPI visuels ainsi que des jeux de données de confiance que la BI d’une organisation peut être efficiente.

     

    L’évolution du Machine Learning chez Zalando

    Kshitij Kumar nous rappelle qu’avec le Machine Learning, il est possible de collecter ses données en temps réel. Dans la mode en ligne il y a plusieurs use-cases importants : la recommandation de la taille, l’expérience de la recherche d’un produit, les remises, le temps de livraison, etc.

    Des questions intéressantes nous ont été posées : Comment connaître les goûts exacts des consommateurs ? Comment savoir exactement ce qu’ils pourraient vouloir rechercher ?

    Le VP Data Infrastructure nous répond que c’est en testant répétitivement les données :

    Data needs to be first explored, then trained, deployed and monitored in order for it to be qualified. The most important step is the monitoring process. If it is not successful, then you must start the machine learning process again until it is.

    La politique de renvois en cent jours a également été bénéfique pour Zalando dans sa stratégie data. Les consommateurs ont cent jours pour renvoyer les articles qu’ils ont commandés. Grâce aux données de ses retours, ils peuvent cibler plus précisément les consommateurs.

     

    L’avenir de Zalando

    Kshitij Kumar nous explique qu’en 2020, il espère avoir une structure data évolutive.

    In 2020, I envision Zalando to have a software or program that allows any user to be able to search, identify and understand data. The first step in being able to centralize your data is by having a data catalog for example. With this, our data community can grow through internal and external (vendors) communication.

     

     

    Sources

    [1] “L’allemand Zalando veut habiller l’Europe – JDD.” 18 oct.. 2018, https://www.lejdd.fr/Economie/lallemand-zalando-veuthabiller-leurope-3779498.

    [2] “Zalando veut devenir la référence dans le domaine de la mode ….” 1 mars. 2019, http://www.gondola.be/fr/news/non-food/zalando-veut-devenir-la-reference-dans-le-domaine-de-la-mode.

    [3] “Zalando’s Bid to Be the Netflix of Fashion | News & Analysis | BoF.” 1 mars. 2019, https://www.businessoffashion.com/articles/news-analysis/zalandos-bid-to-be-the-netflix-of-fashion.

    Qui sont les Data Stewards ?

    Qui sont les Data Stewards ?

    Les transformations digitales font émerger de nouveaux challenges dans l’industrie de la data. On parle de plus en plus de data stewardship ; activité centrée sur la gestion et la documentation des données d’une organisation. Dans cet article, nous souhaitons vous présenter “l’intendant de la donnée”, communément appelé data steward dans les pays anglosaxons. Véritable gardien de la donnée d’entreprise, regardons de plus près son rôle, ses missions et ses outils.

    Cet article est un résumé des entretiens effectués avec plus de 25 data stewards dans de moyennes et grandes entreprises françaises. Le but était de comprendre leurs tâches et leurs souffrances dans le management de métadonnées pour apporter des solutions au sein notre data catalog.

    Le rôle du Data Steward dans l’entreprise

    Les entreprises se réorganisent autour de leurs données pour produire de la valeur et enfin innover depuis cette matière brute. Les data stewards sont là pour orchestrer les données des systèmes data de l’entreprise. Ils doivent assurer la bonne documentation des données et faciliter leur mise à disposition auprès de leurs utilisateurs, tels que les data scientists ou chefs de projets par exemple.

    Leurs compétences de communiquant leur permettent d’identifier les responsables et sachants des données, de récolter les informations associées pour les centraliser et pérenniser ces connaissances au sein de l’entreprise. Plus précisément, les data stewards renseignent des métadonnées ; un ensemble structuré d’informations décrivant un jeu de données.  Ils transforment ces données abstraites en assets concrets pour le métier.

    Ce métier a le vent en poupe !  Il porte sur des sujets hypes et son rôle social permet au data steward de travailler avec des personnes aussi bien techniques que métier. Le data steward est l’interlocuteur data de référence dans l’entreprise et est le point d’entrée pour accéder aux données. Il possède les connaissances techniques et métier des données, ce qui lui vaut d’être appelé “the master of data” au sein d’une organisation !

     

    Les missions du Data Stewards

    Son objectif est assez clair, le data steward doit accompagner la gouvernance data des entreprises. Trouver et connaître ses données, imposer une certaine discipline dans le management de la métadonnée et faciliter leur mise à disposition auprès des collaborateurs.

    Voilà, entre autres, un certain nombre de sujets que doivent traiter les data stewards. Pour y parvenir, le data steward doit s’assurer que la documentation des données qu’il gère soit bien maintenue. Il est libre de proposer la méthode et le format de documentation technique et métier des données de son choix. 

    Ses journées sont rythmées par la recherche des responsables et sachants des données pour enrichir les connaissances qu’il aura récupérées dans un outil exploitable par ses utilisateurs techniques et métier. Ainsi, il veut mettre en relation et faire collaborer les acteurs de projets data afin d’améliorer le partage d’informations et la productivité de tous.

     

    Outiller les Data Stewards

    Data steward est donc un nouveau métier où ses missions sont encore à clarifier, ses outils à identifier et sa nécessité au sein de l’entreprise à évangéliser. De ce fait, les entreprises ont encore du mal à leur attribuer un budget clair. Il leur est donc difficile de s’outiller correctement pour assurer la bonne maîtrise et gestion de ses données.

    Pourtant, bien s’outiller permettrait de :

    • gagner en autonomie sur le management des données,
    • centraliser les informations récoltées sur les données,
    • gérer l’obsolescence de la documentation,
    • faire remonter les erreurs et/ou modifications des données,
    • identifier les données pertinentes à transmettre à ses utilisateurs,
    • exposer les données à ses utilisateurs depuis un outil propice à la collaboration.

    Conclusion

    À ce jour, nous sommes convaincus que le rôle de data steward est indispensable pour construire et orchestrer une gouvernance data efficiente dans l’entreprise. C’est dans cette direction que s’inscrit en proposant une documentation dynamique et connectée des données de l’entreprise. Autrement appelés data catalogs, ils ont pour ambition de devenir l’outil de référence des data stewards.

    Gérer les données d’une manière user friendly. Centraliser l’ensemble des métadonnées recueillies. Ouvrir à ses utilisateurs les données, selon le niveau de sensibilité. Gérer la qualité des données. Le tout en un clic. Etc.

    Dans une logique vertueuse, le data catalog apportera de plus en plus de valeur aux utilisateurs de la donnée dès lors que le data steward aura industrialiser l’ajout de métadonnées et la contribution des collaborateurs dans l’outil.

    CATALOGUE DE DONNÉES : les 4 critères à valider pour choisir son data catalog

    CATALOGUE DE DONNÉES : les 4 critères à valider pour choisir son data catalog

    Un catalogue de données est un portail regroupant les métadonnées sur les jeux de données collectés par l’entreprise. Ces informations classées et organisées permettent aux data users de (re)trouver des jeux de données pertinents pour leur travail.

    Pourquoi les catalogues de données sont-ils en vogue ?

    Un catalogue de données (ou data catalog) est un inventaire détaillé de tous les actifs de données d’une organisation et de leurs métadonnées. Celui-ci est conçu pour aider les professionnels de la donnée à trouver rapidement les informations les plus appropriées pour tout objectif business et analytique.

    Un catalogue de données est destiné à servir différentes personnes ou différents utilisateurs finaux : des data analysts, des data stewards, des data scientists, des data owners ou des business analysts notamment.

    Tous ces utilisateurs ont des attentes, des besoins, des profils et des façons de comprendre les données qui diffèrent. Un data catalog se doit d’être smart, c’est à dire d’offrir une expérience permettant d’exploiter pleinement la valeur des données. Ce sans quoi l’usage des data catalogs se révélera complexe.

    Maîtriser la complexité des catalogues de données …

    Les entreprises qui traitent des volumes importants de données ont affaire à des centaines de systèmes qui stockent des données internes (entrepôts de données, applications, lacs de données, banques de données, API, etc.) ainsi que des données externes provenant de partenaires.
    Ces milliers de jeux de données, de modèles et de visualisations (actifs de données) sont composés de milliers de champs. Et ceux-ci contiennent des millions d’attributs ou métadonnées.

    Une configuration qui soulève deux questions différentes

    Comment peut-on construire, maintenir et renforcer la qualité de ses informations pour que les utilisateurs finaux aient confiance en leur catalogue ?

    Comment trouver rapidement les données pour des cas d’utilisation spécifiques ?

    Une nouvelle vague de catalogues de données apparaît sur le marché. On parle de self-service de la donnée ou de pure player. Zeenea a identifié les 4 caractéristiques que doit respecter un catalogue de données nouvelle génération.

     

    Un catalogue de donnée d’entreprise.

    Un catalogue de données doit se connecter à toutes les sources de données de l’entreprise pour venir collecter et regrouper toutes les métadonnées en un seul endroit centralisé et ainsi, éviter la multiplication d’outils.

    Un catalogue de données connecté.

    Nous croyons qu’un catalogue de données doit toujours être à jour et précis sur les informations qu’il renseigne pour être utile auprès de ses utilisateurs. En étant connecté aux sources de données, le catalogue de données peut importer la documentation depuis les systèmes de stockage et assurer une mise à jour automatique des métadonnées dans les deux structures (storages et catalogue de données).

    Un catalogue de données collaboratif.

    Dans une approche user centric, un catalogue de données doit être l’outil data de référence d’une entreprise. En impliquant les employés grâce à des fonctionnalités collaboratives, l’entreprise bénéficie de l’intelligence collective. Partager, assigner, commenter, qualifier à l’intérieur même du catalogue de données pour augmenter la productivité et la connaissance auprès de tous vos collaborateurs.

    Un catalogue de données intelligent.

    En choisissant un catalogue de données doté d’une intelligence artificielle pour l’auto-population de métadonnées, par exemple, c’est permettre à vos gestionnaires de données de gagner en efficacité.

    En savoir plus sur les modern data catalogs, suivez-nous sur LinkedIn.

    Google Goods : l’outil de gestion des données de Google

    Google Goods : l’outil de gestion des données de Google

    Quand on s’appelle Google, la question des données est plus que centrale. Un nombre colossal d’informations est en effet généré chaque jour à travers le monde, par toutes les équipes de cet empire américain. C’est pour recouper, hiérarchiser et unifier les données que Google Goods, un catalogue centralisé de données, a été mis en place.

    Cet article fait partie d’une série consacrée aux entreprises Data Driven. Nous mettons en lumière des exemples réussis de démocratisation et de maîtrise des données, au sein d’organisations inspirantes. Retrouvez l’exemple d’Airbnb sur ce lien. Ces entreprises précurseurs démontrent l’ambition que s’est donnée Zeenea et son data catalog : aider les organisations à mieux comprendre et utiliser son patrimoine de données.

     

    Google en quelques chiffres

    Le moteur de recherche le plus utilisé de la planète n’est plus vraiment à présenter. Mais que se cache-t-il derrière cette interface si familière ? Que représente Google en terme de part de marché, d’infrastructures, d’employés et de présence dans le monde ?

    En 2018 Google c’etait [1] :

    • 90,6 % de part de marché dans le monde

    • 30 millions de sites indexés

    • 500 millions de nouvelles requêtes chaque jour

    En terme d’infrastructure et d’emploi, Google représentait en 2017 [2] :

    • 70 053 employés

    • 21 bureaux dans 11 pays

    • 2 millions d’ordinateurs répartis dans 60 datacenter

    • 850 teraoctets pour stocker en cache toutes les pages indexées

    Devant une telle envergure, la somme de données générées est forcément gigantesque. Face au constat de la redondance des données et du besoin de précision pour l’emploi de ces dernières, Google a mis en place Google Goods, un catalogue de données travaillant en toile de fond pour organiser et faciliter la compréhension des données.

     

    Les réflexions qui ont menées à Google Goods

    Google possède plus de 26 milliards de données internes [3]. Et cela seulement pour la data accessible à tous les membres de l’entreprise.

    En prenant en compte les données sensibles recourant à des accès sécurisés, le nombre pourrait doubler. Cette somme de données engendre nécessairement des problèmes et interrogations que Google a répertorié pour concevoir son outil :

     

    Une échelle de données titanesque

    Considérant le chiffre annoncé précédemment, Google fait face à un problème non négligeable. La quantité de data et leur taille lui rend impossible un traitement de toutes les données. Il est donc primordial de pouvoir déterminer lesquelles sont utiles et lesquelles ignorer.

    Le système exclut déjà un certain nombre d’informations jugées inutiles et parvient à déterminer certaines redondances. Il est ainsi possible de créer des chemins d’accès uniques vers des données, sans qu’elles ne soient stockées à différents endroits au sein du catalogue.

     

    La variété des données

    Les jeux de données sont stockés dans de nombreux formats et sur des systèmes de stockage très différents. Cela ajoute à la difficulté de créer une unification de la data.

    Pour Goods, c’est un véritable challenge et un objectif crucial : proposer un moyen uniforme d’interroger et d’accéder à l’information sans que la complexité de l’infrastructure ne transparaisse.

     

    La pertinence des données

    Google estime supprimer chaque jour 1 million de données et en créer tout autant. Cela met l’accent sur la nécessité de prioriser les données et d’établir leur degré de pertinence.

    Certaines sont cruciales dans des chaînes de traitement mais n’ont de valeur que quelques jours, d’autres ont une fin de vie programmée dont l’échéance peut être de plusieurs semaines à quelques heures.

     

    Le caractère incertain des métadonnées

    Beaucoup de données cataloguées sont issues de protocoles différents, rendant la certification des métadonnées complexe. Goods procède donc par tâtonnement afin de créer des hypothèses. Cela est dû au fait qu’il fonctionne de façon post hoc.

    En effet, les collaborateurs ne sont pas amenés à changer leur façon de travailler. Il ne leur est pas demandé d’associer des jeux de données à des métadonnées lors de leur création. C’est à Goods de travailler en collectant et analysant les données pour les réunir et les clarifier, en vue d’un usage futur.

     

    Une échelle de priorité

    Après le travail de découverte et de catalogage, la question de la hiérarchisation se pose. L’enjeu est de pouvoir répondre à cette question : « qu’est-ce qui rend une donnée importante ? ». Et fournir une réponse est bien moins simple pour les données d’une entreprise que pour prioriser la recherche sur le web par exemple.

    Pour tenter de mettre en place un classement pertinent, Goods se base sur les interactions entre les données, les métadonnées ainsi que d’autres critères. L’outil estime par exemple qu’une donnée est plus importante si son auteur y a associé une description. Ou si plusieurs équipes la consultent, l’utilisent ou l’annotent.

     

    Analyser la sémantique de la donnée

    Procéder à cette analyse permet notamment de mieux classifier et décrire la donnée dans l’outil de recherche. Elle peut ainsi répondre aux bonnes requêtes dans le catalogue. L’exemple donné dans l’article de référence sur Google Goods [3] : supposons le schéma d’un ensemble de données soit connu et que certains champs du schéma prennent des valeurs entières.

    Grâce à une inférence sur le contenu de l’ensemble de données, l’utilisateur puisse identifier que ces valeurs entières sont des ID de points de repère géographiques connus pour ensuite, utiliser ce type de sémantique de contenu pour améliorer la recherche de données géographiques dans l’outil.

     

    Fonctionnalités de Google Goods

    Google Goods catalogue et analyse la data pour la présenter de manière unifiée. L’outil récolte les métadonnées de base et tente de les enrichir en analysant un certain nombre de paramètres. À force de visiter les données et les métadonnées, Goods s’enrichit et évolue.

    Les principales fonctionnalités offertes aux utilisateurs sont :

     

    Un moteur de recherche

    À l’instar du Google que nous connaissons, Goods offre un moteur de recherche fonctionnant par mot clé afin d’interroger un jeu de données.

    C’est le moment où l’enjeu de hiérarchisation des données se met en place. Le moteur de recherche propose de la data classée selon différents critères comme le nombre de chaînes de traitement impliquées, la présence ou non d’une description, etc.

     

    Page de présentation des données

    Chaque donnée dispose d’une page réunissant le maximum d’informations. Considérant que certaines données peuvent être reliées à des milliers d’autres, Google compresse en amont les data les plus pharaoniques pour les restituer de manière plus digeste sur la page de présentation. Si la version compressée reste trop imposante, les informations exposées ne retiennent que les entrées les plus récentes.

     

    Tableaux d’équipes

    Goods crée des tableaux permettant de diffuser toutes les données générées par une équipe. Cela permet d’obtenir différentes métriques et de faire le lien avec d’autres tableaux par exemple. Le tableau est actualisé à chaque fois que Goods met à jour les métadonnées. Le tableau peut être facilement intégré à différents documents pour que les équipes puissent le partager.

    Par ailleurs, il est également possible de mettre en place des actions de monitorage et des alertes sur certaines données. Goods est en charge des vérifications et peut avertir les équipes en cas d’alerte.

     

    Utilisation de Goods par les collaborateurs de Google

    Au fil du temps, les équipes de Google ont réalisé que l’utilisation de son outil ainsi que son champ d’application, n’étaient pas forcément ceux auxquels l’entreprise s’attendait.

    Le géant a ainsi pu déterminer que les usages principaux de Goods par les collaborateurs ainsi que leurs fonctionnalités favorites étaient :

     

    Audit protocol buffer

    Protocol buffer est un format de sérialisation doté d’un langage de description d’interface développé par Google. Il est largement utilisé chez Google pour le stockage et l’échange de toute sorte de structures d’informations.

    Certains processus contiennent des informations personnelles et appartiennent de fait à des politiques de confidentialité particulières. L’audit de ces protocoles permet d’alerter les propriétaires de ces données en cas d’entrave à la confidentialité.

     

    Récupération des données

    Les ingénieurs sont amenés à générer de nombreuses données dans le cadre de leurs tests et oublient souvent leur localisation lorsqu’ils ont besoin d’y accéder à nouveau. Grâce au moteur de recherche, ils peuvent facilement les retrouver.

     

    Meilleure compréhension du Code Legacy

    Il n’est pas simple de trouver des informations à jour concernant le code ou les jeux de données. Goods fournit des graphiques que les ingénieurs peuvent utiliser pour remonter le fil des précédentes exécutions de codes, ainsi que les jeux de données en entrée et en sortie et trouver la logique qui les lie.

     

    Utilisation du système d’annotation

    Le système de bookmark des pages de données est totalement adopté pour retrouver plus vite les informations importantes et les partager facilement.

     

    Utilisation des marques pages

    Il est possible d’annoter les données et de leur attribuer différents degrés de confidentialité. Cela permet aux autres membres de Google de mieux appréhender les données qu’ils ont en face d’eux.

    Avec Goods, Google parvient à hiérarchiser et unifier l’accès aux données pour toutes ses équipes. Le système se veut non intrusif et fonctionne donc en continu et de manière invisible pour les utilisateurs, afin de leur restituer des données organisées et explicitées.Grâce à cela, la société améliore les performances des équipes en évitant les redondances. Elle économise des ressources et accélère l’accès aux données essentielles à la croissance et au développement de l’entreprise.

     

     

    [1] Le blog du modérateur : https://www.blogdumoderateur.com/chiffres-google/
    [2] Web Rank Info : https://www.webrankinfo.com/dossiers/google/chiffres-cles
    [3] https://static.googleusercontent.com/media/research.google.com/fr//pubs/archive/45390.pdf

    Vous voulez en savoir plus sur les solutions de data discovery ?

    Téléchargez notre livre blanc : « Le Data Discovery vu par les Géants du Web »

    Dans ce livre blanc, nous faisons un focus sur le contexte et la mise en œuvre des solutions de data discovery développées par les grandes entreprises du web, dont certaines font partie du célèbre «Big Five» ou «GAFAM» (Google, Apple, Facebook, Amazon, Microsoft).

    data-discovery-mockup-FR-no-shadow

    Les 3 types de métadonnées à maîtriser pour être data centric

    Les 3 types de métadonnées à maîtriser pour être data centric

    Les 3 types de métadonnées à maîtriser pour être une entreprise data-centric !

    Les métadonnées sont de l’information structurée qui décrit, explique, localise ou facilite l’accès, l’utilisation ou la gestion d’une ressource d’information. La définition la plus citée est certainement « la donnée sur la donnée ». Dans une logique data-centric, quels types de métadonnées une entreprise doit-elle mettre à disposition pour rendre les consommateurs de la donnée plus autonomes et productifs ?

     

    NOTRE DÉFINITION DE MÉTADONNÉES

    Les métadonnées sont des données contextualisées. En d’autres termes, elles répondent aux interrogations « qui, quoi, où, pourquoi, quand et comment » d’un jeu de données. Elles doivent permettre tant à des équipes IT que business de comprendre et de travailler sur des données pertinentes et de qualité.

     

    QUELS SONT CES 3 TYPES DE MÉTADONNÉES ?

    Chez Zeenea, nous parlons de trois types de métadonnées au sein de notre data catalog. Voici, entre autres, quelques exemples :

     

    • Les métadonnées techniques : Elles décrivent la structure d’un jeu de données et les informations liées au stockage.

    • Les métadonnées business :  Elles appliquent un contexte métier aux jeux de données : des descriptions (contexte et usage), les propriétaires et référents, des tags et properties dans le but de créer une taxonomie au-dessus des jeux de données qui sera indexée par notre moteur de recherche.

    Les métadonnées business sont également présentes au niveau du schéma d’un jeu de données : des descriptions, tags ou encore niveau de confidentialité des données par colonne.

     

    • Les métadonnées opérationnelles : Elles permettent de comprendre quand et comment la donnée a été créée ou transformée : analyse statistique de la donnée, date de mise à jour, provenance (lineage), volume, cardinalité, identifiant des traitements ayant créé ou transformé la donnée, statuts des traitements sur la donnée, etc.

    CONCLUSION

    La gestion des métadonnées fait partie intégrante d’une stratégie de gouvernance des données agile d’une entreprise. Maintenir un répertoire de métadonnées à jour assure les data consumers d’exploiter des données fiables et pertinentes pour leurs cas d’usage.

    Feature note : Catalogue-moi mes métadonnées !

    Feature note : Catalogue-moi mes métadonnées !

    La raison même de Zeenea est d’être un catalogue de métadonnées d’entreprise ! En d’autres termes, Zeenea référence les métadonnées intrinsèques des différents jeux de données catalogués dans l’outil et permet de personnaliser certains champs. Quels sont-ils ?

     

    Métadonnées d’un jeu de données

    CONTACTS

    Les différents utilisateurs du catalogue (informations synchronisées avec un repository LDAP) peuvent être associés aux différents jeux de données avec un certain niveau de responsabilité (rôles configurables).

    PROPRIÉTÉS

    Un système de propriétés sous forme de clé/valeur (configurable) permet la création d’un véritable template de documentation de la donnée.

    TAGS

    Un système de tags permet de créer une véritable taxonomie au sein du catalogue.

    Métadonnées sur les catégories de jeux de données

    Les catégories de jeux de données permettent l’organisation du catalogue et le regroupement logique de jeux de données par affinité technique ou métier.

    De la même manière que pour un jeu de données, les catégories possèdent ses propres métadonnées. Qui est le contact référent de la catégorie ? Quels sont les properties associées ? Quels tags lui affecter ? Etc.

     

    Métadonnées sur le schéma d’un jeu de données

    La représentation du schéma des jeux de données catalogués dans Zeenea permet d’annoter les attributs d’un jeu de données (colonnes) à l’aide de métadonnées (nom métier, description, tags, niveau de sensibilité, etc.).

    Feature note : Catalogue-moi mes métadonnées !

    Feature note : Le moteur de recherche de la métadonnée

    La raison même de Zeenea est d’être un catalogue de métadonnées d’entreprise ! Indexées dans notre outil, les équipes deviennent autonomes dans la recherche des jeux de données pertinents pour la réalisation de projets innovants.

     

    Cherchez le bon jeu de données, vous le trouverez !

    Toutes les métadonnées du catalogue sont indexées dans un moteur de recherche permettant la découverte des jeux de données ou attributs (colonnes) du catalogue à l’aide d’une recherche par mots clés.

    Il est également possible de filtrer les résultats de cette recherche (triés par pertinence) à l’aide du système de tags et de propriétés des jeux de données de Zeenea.

    Sample

    Afin de vérifier la pertinence d’un jeu de données identifié grâce au moteur de recherche, il est possible d’explorer les données du catalogue, ainsi que d’obtenir un échantillon de ce jeu de données par téléchargement, depuis l’interface graphique de Zeenea.

    Cartographie des données : quels enjeux pour l’entreprise ?

    Cartographie des données : quels enjeux pour l’entreprise ?

    L’arrivée du Big Data n’a simplifié en rien le travail effectué sur les données par les entreprises. Le volume, la variété ou encore les différents systèmes de stockage de la donnée explosent.

    Pour preuve, Matt Turck publie ce qu’on appelle le Big Data Landscape. Mise à jour chaque année, cette infographie montre les différents acteurs clés dans divers sous-domaines du paysage Big Data.

    Ainsi, avec la révolution du Big Data, il est encore plus difficile de répondre à des questions “primaires” liées à la cartographie des données :

     

    • Quelles sont les jeux de données et les tables les plus pertinent.e.s pour mes use cases et mon entreprise ?

    • Est-ce que j’ai des données sensibles ? Comment sont-elles utilisées ?

    • D’où vient la donnée ? Quelles ont été ses transformations ?

    • Quelles vont être les impacts sur les jeux de données en cas de transformations ?

    >> Téléchargez notre toolkit : Template de métamodèle <<

    Tant de questions qu’un Responsable SI, Responsable Data Lab, Business Analyst ou encore Data Scientist se posent pour rendre un travail sur la donnée pertinent et efficace.

    Ces questions mises en exergue permettent, entre autres, de :

     

    • Améliorer la data quality : renseigner un maximum d’informations permet aux utilisateurs de savoir si les données sont aptes à être utilisées.

    • Être conforme à la réglementation européenne (GDPR) : marquer les données personnelles et les traitements effectués dessus.

    • Rendre les collaborateurs plus efficaces et autonomes dans la compréhension des données grâce à une cartographie des données graphique et ergonomique.

    Pour formaliser ces réponses, les entreprises doivent construire ce qu’on appelle un data lineage.

    Voir la vidéo de la conférence Data Lineage – cartographier les données de son SI

    Ce registre de traitement peut être vue comme une opportunité pour le Big Data ! En répondant aux questions ci-dessus, les entreprises pourront créer une traçabilité sur leurs données au sein des environnements Big Data et obtenir ce que l’on nomme un data lineage. Cet outil permettra de s’assurer que les entreprises respectent bien les principes de finalité et de minimisation de la GDPR.

    De plus,  être bien organisé et maintenir une traçabilité de ses données est une excellente chose pour la productivité en générale, notamment les data scientists. Ils pourront plus facilement accéder :

    Data lineage : comment cartographier les données de son SI ?

    Data lineage : comment cartographier les données de son SI ?

    Le data lineage est défini comme le cycle de vie des données : origine, transformations et impacts dans le temps. Il offre une plus grande visibilité et simplifie l’analyse des données en cas d’erreurs.

    Avec l’avènement du Big Data et la complexification du SI ; le sujet data lineage devient ainsi un chantier essentiel pour les entreprises centrées sur la donnée. Comment représenter le cycle de vie des données de manière lisible, maintenable avec une certaine granularité dans l’information renseignée ?
    Nous assistons à un changement de paradigme sur la représentation et formalisation de la cartographie des données.

     

    Accèdez à la vidéo de la conférence et les slides

    Ce talk présenté par Matthieu Blanc – VP Product de Zeenea – lors de la conférence DataXDay offre un aperçu et des pistes de reflexion. Pour voir sa conférence et télécharger les slides, ça se passe sur ce lien Conférence data lineage.

    Data lineage : comment cartographier les données de son SI ?

    Data lineage dans un environnement Big Data ?

    Le data lineage est défini comme le cycle de vie de la donnée. Il veut être une représentation détaillée de la donnée dans le temps : origine, provenance et transformations. Cette notion est loin d’être nouvelle, pourtant un nouveau paradigme s’opère…

    [À voir] Cartographie des données : quels enjeux pour les entreprises ?

    Dans le monde du Data Warehouse, par exemple, le data lineage était assez simple à obtenir. Ce système de stockage centralisé permettait “by design” d’obtenir assez simplement un data lineage des données stockées dans ce même endroit.

    Depuis l’arrivée du Big Data, l’écosystème data évolue vite, des technologies et systèmes de stockage variés apparaissent complexifiant le SI des entreprises.

    Il est devenu impossible de garder, ni d’imposer, un outil centralisé et unique dans l’entreprise. Les logiciels et méthodes utilisés par les urbanistes et architectes SI de “l’ancien monde” deviennent de moins en moins maintenables rendant leur travail vite obsolète et illisible.

     

    Alors comment visualiser un data lineage efficace et performant dans un environnement Big Data ? ?

    Afin d’avoir une vision globale des données du SI de l’entreprise, des nouveaux outils apparaissent. On parle de catalogue de données d’entreprise. Il permet de faire remonter depuis tous les systèmes de stockage et de traitement de la donnée un maximum de métadonnées dans une interface “user-friendly”. Centralisant l’ensemble de ces informations, il devient possible de créer un data lineage dans un environnement Big Data à différents niveaux :

     

    • Au niveau jeux de données. Il peut s’agir d’une table dans Oracle, un topic dans Kafka ou encore d’un répertoire dans le data lake. Il met en évidence les traitements et jeux de données qui ont permis de créer le jeu de donnés final.

    Toutefois, ce standard de data lineage ne permet pas, à lui seul, de répondre à l’ensemble des questions que les utilisateurs de la donnée se posent. Il reste, entre autres : la question sur des données sensibles ? Quelle colonne a été créée et par quels traitements ? etc.

     

    • Au niveau colonne. Une manière plus granulaire d’aborder ce sujet est de représenter les différentes étapes de transformations d’un jeu de données sous une timeline d’actions / évènements. En sélectionnant un champ spécifique, je vais pouvoir voir quelles sont les colonnes et actions qui ont permises de le créer.

    Accédez à la video de la conférence et les slides

    Ce talk présenté par Matthieu Blanc – VP Product de Zeenea – lors de la conférence DataXDay offre un aperçu et des pistes de reflexion. Pour voir sa conférence et télécharger les slides, ça se passe sur ce lien Conférence data lineage.