gestion des métadonnées Archives

[SÉRIE] Data Shopping Partie 2 – L’expérience de Data Shopping dans Zeenea

par Zeenea Software | Juin 24, 2024 | Data Catalog, Data Mesh

Tout comme l’achat de biens en ligne implique de sélectionner des objets, les ajouter à un panier et de choisir les options de livraison et de paiement, le processus d’acquisition de données au sein des organisations a évolué de manière similaire. À l’ère des data products et du data mesh, les data marketplaces internes permettent aux utilisateurs métiers de rechercher, de découvrir et d’accéder aux données pour leurs cas d’usage.

Dans cette série d’articles, vous trouverez un extrait de notre Guide Pratique du Data Mesh et découvrirez tout ce qu’il y a à savoir sur le data shopping ainsi que l’expérience de Zeenea en matière de shopping de données via son Enterprise Data Marketplace :

La consommation de Data Products
L’expérience de Data Shopping dans Zeenea

—

Dans notre précédent article, nous avons abordé le concept de data shopping au sein d’une data marketplace interne, en abordant des éléments tels que la livraison des data products et la gestion de l’accès. Dans cet article, nous allons explorer les raisons qui ont poussé Zeenea à étendre son expérience de data shopping au-delà des frontières internes, ainsi que la façon dont notre interface, Zeenea Studio, permet l’analyse de la performance globale de vos data products.

Le Data Product Shopping dans Zeenea

Dans notre article précédent, nous avons abordé les complexités de la gestion des droits d’accès aux data products en raison des risques inhérents à la consommation de données. Dans un data mesh décentralisé, le propriétaire du data product évalue les risques, accorde l’accès et applique des politiques basées sur la sensibilité des données, le rôle, la localisation et l’objectif du demandeur. Cela peut impliquer une transformation des données ou des formalités supplémentaires, avec une livraison allant de l’accès en lecture seule à des contrôles granulaires.

Dans une data marketplace, les consommateurs déclenchent un workflow en soumettant des demandes d’accès, que les propriétaires de données évaluent et pour lesquelles ils déterminent les règles d’accès, parfois avec l’avis d’experts. Pour la marketplace Zeenea nous avons choisi de ne pas intégrer ce workflow directement dans la solution, mais plutôt de s’interfacer avec des solutions externes.

L’idée est de proposer une expérience uniforme pour déclencher une demande d’accès, mais d’accepter que le traitement de cette demande puisse être très différent d’un environnement à l’autre, voire d’un domaine à l’autre dans la même organisation. Là aussi, le principe est hérité des marketplaces classiques. La plupart proposent une expérience unique pour réaliser une commande, mais débranchent sur d’autres systèmes pour la mise en œuvre opérationnelle de la livraison – dont les modalités peuvent être très différentes en fonction du produit et du vendeur.

Ce découplage entre l’expérience de shopping et la mise en œuvre opérationnelle de la livraison nous semble indispensable pour plusieurs raisons.

La principale est l’extrême variabilité des processus impliqués. Certaines organisations disposent déjà de workflows opérationnels, s’appuyant sur une solution plus large (la demande d’accès aux données est intégrée à un processus général de demande d’accès, supporté par exemple par un outil de ticketing tel que ServiceNow ou Jira). D’autres se sont équipées de solutions dédiées, supportant un fort niveau d’automatisation, mais dont le déploiement n’est pas encore généralisé. D’autres reposent sur les capacités de leur plateforme data, en d’autres encore sur rien du tout – l’accès se fait via des demandes directes adressées au propriétaire des données, qui les traite sans processus formel. Cette variabilité se manifeste d’une organisation à l’autre, mais aussi dans une même organisation – structurellement, quand différents domaines utilisent des technologies différentes, ou temporellement, quand l’organisation décide d’investir dans un dispositif plus efficace ou plus sécurisé et doit migrer progressivement la gestion des accès vers ce nouveau dispositif.

Découpler permet donc d’offrir une expérience homogène au consommateur, tout en s’adaptant à la variabilité des modes opératoires

Pour le client de la data marketplace, l’expérience de shopping est donc très simple. Une fois le ou les data products d’intérêt identifiés, il déclenche une demande d’accès en fournissant les informations suivantes :

Qui il est – cette information est en principe déjà disponible.
À quel data product il souhaite accéder – là aussi l’information est déjà présente, ainsi que les métadonnées nécessaires pour réaliser les arbitrages.
Quel usage il entend faire des données – ce point est fondamental, puisqu’il pilote la gestion de risque et les exigences de conformité.

Avec Zeenea, une fois la demande d’accès soumise, elle est traitée dans un autre système, et son statut peut être suivi depuis la marketplace – c’est le strict équivalent du suivi de commandes que l’on trouve sur les sites e-commerce.

Du point de vue du consommateur, la data marketplace fournit un catalogue de data products (et d’autres produits digitaux), et un système simple et universel pour obtenir l’accès à ces produits.

Pour le producteur, la data marketplace remplit un rôle fondamental dans le pilotage de son portefeuille de produits.

Améliorez la performance des data products avec Zeenea Studio

Comme évoqué précédemment, outre le système de e-commerce, qui est destiné aux consommateurs, une marketplace classique propose aussi des outils dédiés aux vendeurs, leur permettant de superviser leurs produits, de répondre aux sollicitations des acheteurs et de contrôler la performance économique de leur offre. Et d’autres outils encore, destinés aux gestionnaires de la marketplace, pour analyser la performance globale des produits et des vendeurs.

L’Enterprise Data Marketplace de Zeenea intègre ces capacités dans un outil de back-office dédié, Zeenea Studio. Il permet de gérer la production, la consolidation et l’organisation des métadonnées dans un catalogue privatif, et de décider quels objets seront placés dans la marketplace – qui est un espace de recherche accessible au plus grand nombre.

Ces activités relèvent avant tout du processus de production – les métadonnées sont produites et organisées conjointement avec les data products. Mais il permet également de superviser l’utilisation de chaque data product, notamment en fournissant la liste de tous ses consommateurs, et des usages qui leur sont associés.

Ce suivi des consommateurs permet d’asseoir les deux piliers de la gouvernance du data mesh :

La conformité et la gestion de risque – en mettant en place des revues régulières, des certifications, et des analyses d’impact lors des évolutions des data products.

Le pilotage de la performance – le nombre de consommateurs, ainsi que la nature des usages qui en sont fait, sont les principaux indicateurs de la valeur d’un data product. En effet, un data product qui n’est pas consommé n’a aucune valeur.

Outil de support pour les domaines permettant de contrôler la conformité de leurs produits et leurs performances, l’Enterprise Data Marketplace de Zeenea offre également des capacités d’analyse globale du mesh – lineage des data products, scoring et évaluation de leurs performances, contrôle de la conformité globale et des risques, éléments de reporting réglementaire, etc.

C’est la magie du graphe fédéré, qui permet d’exploiter l’information à toutes les échelles – et fournit une représentation exhaustive de tout le patrimoine data.

Le Guide Pratique du Data Mesh: Mettre en place et superviser un data mesh à l’échelle de l’entreprise

Rédigé par Guillaume Bodet, co-fondateur et CPTO chez Zeenea, ce guide vous apportera une approche pratique pour mettre en œuvre un data mesh dans votre organisation, en vous aidant à :

✅ Entamer votre démarche data mesh avec un projet pilote focalisé
✅ Découvrir des méthodes efficaces pour mettre votre mesh à l’échelle,
✅ Comprendre le rôle essentiel joué par une data marketplace interne pour faciliter la consommation des data products
✅ Découvrir pourquoi Zeenea est un système de supervision robuste du data mesh à l’échelle de l’entreprise

TÉLÉCHARGER L'EBOOK

[SÉRIE] La data marketplace pour le data mesh – Partie 3 : Alimenter la marketplace via des data catalogs par domaine

par Zeenea Software | Juin 10, 2024 | Data Catalog, Data Mesh

Au cours de la dernière décennie, les catalogues de données ont émergé en tant que piliers dans l’écosystème data. Cependant, de nombreux fournisseurs ne répondent pas aux attentes – avec en cause des délais prolongés, des projets complexes et coûteux, des modèles bureaucratiques de gouvernance des données, des taux d’adoption faibles et une création de valeur limitée. Cette problématique va au-delà des projets de gestion des métadonnées, reflétant un échec plus général au niveau de la gestion des données.

Face à ces lacunes, un nouveau concept a le vent en poupe, celui de place de
marché interne à l’organisation, que nous appelons Enterprise Data Marketplace (EDM) chez Zeenea.

Dans cette série d’articles, vous trouverez des extraits de notre Guide Pratique du Data Mesh dans lequel nous expliquons l’intérêt des data marketplaces internes pour la production et la consommation de data products, comment une EDM prend en charge l’exploitation du data mesh à l’échelle, et comment elles vont de pair avec une solution de catalogue de données :

Faciliter la consommation des data products avec les métadonnées
Déployer une marketplace à l’échelle de l’entreprise
Alimenter la marketplace via des data catalogs par domaine

—

La structuration du data management autour de domaines et de data products est une transformation organisationnelle qui ne change pas la réalité opérationnelle de la plupart des organisations : les données sont disponibles en grande quantité, en provenance de nombreuses sources, évoluent rapidement, et leur maîtrise est complexe.

Les Data Catalogs ont traditionnellement pour fonction d’inventorier l’ensemble des données disponibles, et de gérer un ensemble de métadonnées permettant d’en assurer la maîtrise et d’asseoir les pratiques de gouvernance.

Le data mesh ne supprime pas cette complexité : il permet de distinguer certaines données, gérées sous forme de data products, et qui sont destinées à être partagées et utilisées au-delà du domaine auquel elles appartiennent. Mais chaque domaine est également chargé de gérer ses données internes, celles qui lui serviront à développer des data products – ses données privatives en somme.

Gestion des métadonnées dans le contexte d’une marketplace interne alimentée par des catalogues par domaine

Dans le data mesh, le besoin d’un Data Catalog ne disparaît pas, bien au contraire : chaque domaine devrait disposer d’un catalogue lui permettant de gérer efficacement ses données privatives, de supporter la gouvernance du domaine, et d’accélérer le développement de data products robustes et à forte valeur ajoutée. La gestion des métadonnées se fait donc à deux niveaux :

Au niveau de chaque domaine – sous la forme d’un catalogue permettant de documenter et d’organiser l’univers de données du domaine. Le Data Catalog étant une brique privative, il n’est pas nécessaire que tous les domaines utilisent la même solution.

Au niveau du mesh – sous la forme d’une marketplace dans laquelle sont enregistrés les data products partagés par tous les domaines ; la marketplace est par nature commune à tous les domaines.

Avec un composant marketplace dédié, l’architecture générale de la gestion de métadonnées est la suivante :

Architecture Générale Pour La Gestion Des Métadonnées

Dans cette architecture, chaque domaine dispose de son propre catalogue – qui peut s’appuyer sur une solution unique ou non, mais devrait être instancié pour chaque domaine afin de lui permettre d’organiser ses données de la façon la plus efficace pour lui, et éviter les chausse-trappes d’une organisation universelle des métadonnées.

La marketplace est un composant dédié, offrant une ergonomie simplifiée, et dans laquelle chaque domaine déploie les métadonnées (voire les données) de ses data products. Cette approche demande d’intégrer étroitement les différents modules :

Les catalogues privatifs doivent être intégrés avec la marketplace – afin de ne pas dupliquer les efforts de production de certaines métadonnées – on pense au lignage en particulier, mais aussi au dictionnaire de données (schéma), ou encore aux définitions métier qui seront présents dans les deux systèmes.

Les catalogues privatifs doivent potentiellement être intégrés entre eux – afin de partager/synchroniser certaines informations, en premier lieu le glossaire métier mais aussi certains référentiels.

Les capacités du catalogue de données vs l’EDM

Quand on se penche sur les capacités respectives d’une Enterprise Data Marketplace et d’un Data Catalog, on se rend compte que ces capacités sont très similaires :

Data Catalog Vs Enterprise Data Marketplace

Au final, sur le strict plan fonctionnel, leurs capacités sont très proches. Ce qui va distinguer un Data Catalog moderne d’une EDM sont :

Leur périmètre – le Data Catalog a pour vocation de couvrir l’ensemble des données, quand la marketplace se limite aux objets partagés par les domaines (data products et autres produits data du domaine).

Leur expérience utilisateur – le Data Catalog est souvent un outil assez complexe, destiné à supporter globalement les processus de gouvernance – il est centré sur les workflows de data stewardship. La marketplace quant à elle offre typiquement une ergonomie très simple, fortement inspirée de celle d’une plateforme de e-commerce, et propose une expérience centrée sur la consommation – le data shopping.

Le Guide Pratique du Data Mesh: Mettre en place et superviser un data mesh à l’échelle de l’entreprise

Rédigé par Guillaume Bodet, co-fondateur et CPTO chez Zeenea, ce guide vous apportera une approche pratique pour mettre en œuvre un data mesh dans votre organisation, en vous aidant à :

TÉLÉCHARGER L'EBOOK

[SÉRIE] La data marketplace pour le data mesh – Partie 2 : Construire une marketplace à l’échelle de l’entreprise

par Zeenea Software | Juin 3, 2024 | Data Catalog, Data Mesh

Face à ces lacunes, un nouveau concept a le vent en poupe, celui de place de
marché interne à l’organisation, que nous appelons Enterprise Data Marketplace (EDM) chez Zeenea.

Faciliter la consommation des data products avec les métadonnées
Déployer une marketplace à l’échelle de l’entreprise
Alimenter la marketplace via des data catalogs par domaine

—

Comme mentionné dans notre précédent article, une Enterprise Data Marketplace est un système simple dans lequel les consommateurs peuvent rechercher parmi l’offre de data products celui ou ceux éligibles pour réaliser un cas d’usage spécifique, prendre connaissance des informations relatives à ces produits, puis les commander. La commande se matérialise par une ouverture d’accès, une livraison physique des données, ou encore une demande d’évolution des data products pour couvrir le nouveau cas d’utilisation.

Les trois grandes options pour mettre en place une data marketplace interne

Lors de la mise en place d’une data marketplace interne, les organisations envisagent généralement trois approches principales :

La développer

Cette approche consiste à créer une marketplace personnalisée, adaptée aux besoins uniques de l’organisation. Bien qu’elle offre la possibilité d’une expérience utilisateur optimisée, cette option implique souvent un investissement important en temps et en argent.

Intégrer une solution du marché

Les organisations peuvent également opter pour des solutions préexistantes disponibles sur le marché. Conçues à l’origine pour la commercialisation de données ou l’échange de données externes, ces solutions peuvent être reconverties pour un usage interne. Cependant, elles peuvent nécessiter une personnalisation pour s’aligner sur les flux de travail internes et les normes de sécurité.

Utiliser les systèmes existants

Certaines organisations choisissent de tirer parti de leur infrastructure actuelle en réutilisant des outils tels que les catalogues de données et les wikis d’entreprise. Bien que cette approche puisse offrir une certaine familiarité et une intégration avec les flux de travail existants, elle peut ne pas offrir les fonctionnalités spécialisées des solutions dédiées au marché des données.

Les inconvénients des marketplaces commerciales

Bien que proposant une expérience utilisateur souvent satisfaisante, et un support natif de la notion de data product, les marketplaces commerciales présentent quant à elles souvent des inconvénients importants : très focalisées sur les aspects transactionnels (distribution, licence, contractualisation, achat ou souscription, paiement, etc.), elles sont souvent mal intégrées aux plateformes data et aux outils de contrôle d’accès interne. Elles nécessitent généralement que les données soient également distribuées par la marketplace – ce qui signifie qu’elles constituent un nouveau composant d’infrastructure sur lequel les données devront être transférées pour être partagées (un tel système est parfois appelé Data Sharing Platform).

L’Enterprise Data Marketplace de Zeenea

Dans une approche pragmatique, nous ne croyons pas que, dans la plupart des cas, il soit souhaitable d’introduire une nouvelle brique d’infrastructure pour déployer un data mesh – comme déjà évoqué, il semble très préférable d’exploiter les capacités déjà existantes autant que possible.

C’est pourquoi, chez Zeenea, nous avons fait évoluer notre Data Discovery Platform et son data catalog pour offrir une solution unique, un miroir du data mesh au niveau des métadonnées pour s’adapter continuellement à l’évolution de l’architecture de la plateforme data de l’organisation. Cette Entreprise Data Marketplace (EDM) intègre une place de marché interdomaines avec des catalogues de données privatifs adaptés aux besoins de chaque domaine.

Une approche que nous détaillons dans le prochain article de notre série, rendue possible par ce qui a longtemps distingué Zeenea et le différencie de la plupart des autres catalogues ou métadonnées : un knowledge graph évolutif.

Dans notre dernier article de la série, découvrez comment une data marketplace interne associée à des catalogues spécifiques par domaine constitue un système de supervision du data mesh complet.

Le Guide Pratique du Data Mesh: Mettre en place et superviser un data mesh à l’échelle de l’entreprise

Rédigé par Guillaume Bodet, co-fondateur et CPTO chez Zeenea, ce guide vous apportera une approche pratique pour mettre en œuvre un data mesh dans votre organisation, en vous aidant à :

TÉLÉCHARGER L'EBOOK

[SÉRIE] La data marketplace pour le data mesh – Partie 1 : Faciliter la consommation des data products avec les métadonnées

par Zeenea Software | Mai 28, 2024 | Data Catalog, Data Mesh

Face à ces lacunes, un nouveau concept a le vent en poupe, celui de place de
marché interne à l’organisation, que nous appelons Enterprise Data Marketplace (EDM) chez Zeenea.

Faciliter la consommation des data products avec les métadonnées
Déployer une marketplace à l’échelle de l’entreprise
Alimenter la marketplace via des data catalogs par domaine

—

Avant d’aborder le concept de data marketplace interne, revenons un instant sur la notion de data product, qui selon nous constitue la pierre angulaire du data mesh, et la première étape de la transformation du data management.

Partage et exploitation des data products grâce aux métadonnées

Comme mentionné dans notre précédente série d’articles sur le data mesh, un data product est un jeu de données gouverné, réutilisable, évolutif, et offrant des garanties en matière de qualité de données et de conformité aux différentes réglementations et règles internes. Notons que cette définition est assez restrictive – elle exclut d’autres types de produits tels que les algorithmes ou modèles de machine learning (ML), ou encore les tableaux de bord.

Il est bien sûr souhaitable que ces artefacts soient également gérés comme des produits, mais ce ne sont pas des data products. Ce sont d’autres types de produits, que l’on pourrait qualifier de façon très générale d’Analytics Products, et dont les data products sont l’une des sous-catégories.

En pratique, un data product opérationnel est constitué de deux choses :

1. Les données - matérialisées sur une plateforme data centralisée ou non, et garantissant l’adressage, l’interopérabilité et la sécurisation de l’accès aux données.
2. Les métadonnées - qui fournissent l’ensemble des informations nécessaires pour partager et exploiter les données.

Les métadonnées permettent d’assurer que les consommateurs disposent de toutes les informations nécessaires pour utiliser le produit.

Elle couvrent typiquement les aspects suivants :

Le schéma – qui fournit la structure technique du data product, la classification des données, des échantillons, ainsi que leur origine (lignage).

La gouvernance – qui identifie le ou les responsables du produit, ses versions successives, son éventuelle dépréciation, etc.

La sémantique – qui fournit une définition claire des informations exposées, idéalement rattachée au glossaire métier de l’organisation, et une documentation exhaustive du data product.

Le contrat – qui définit les garanties en matière de qualité, les modalités de consommation (protocoles et sécurité), les éventuelles restrictions d’usage, les règles de redistribution, etc.

Dans la logique du data mesh, ces métadonnées sont gérées par l’équipe produit, et déployées selon le même cycle de vie que les données et les pipelines. Reste une question fondamentale : où déployer les métadonnées ?

Utilisation d’une data marketplace pour déployer les métadonnées

La plupart des organisations disposent déjà d’un système de gestion des métadonnées, généralement sous la forme d’un Data Catalog.

Mais les Data Catalogs, sous leur forme actuelle, présentent des inconvénients majeurs :

Ils ne supportent pas toujours la notion de data product – elle doit être plus ou moins émulée avec d’autres notions.

Ils sont complexes à utiliser – ils ont été conçus pour cataloguer un grand nombre d’assets avec une granularité parfois très fine, et souffrent très souvent d’un déficit d’adoption au-delà des équipes de data management centralisées.

Ils imposent le plus souvent une organisation rigide et unique des données, décidée et conçue en central – cela peine à refléter la variété des différents domaines ou les évolutions de l’organisation à mesure que le data mesh s’étend.

Leurs capacités de recherche sont souvent limitées, particulièrement pour les aspects exploratoires – il est souvent nécessaire de savoir ce que l’on cherche pour pouvoir le trouver.

L’expérience qu’ils proposent manque parfois de la simplicité à laquelle les utilisateurs aspirent – je recherche avec quelques mots-clés, j’identifie le data product adéquat, puis je déclenche le processus opérationnel de demande d’accès ou de livraison des données.

Une data marketplace interne, ou Enterprise Data Marketplace (EDM), est donc un nouveau concept qui gagne en popularité dans le domaine du data mesh. Au même titre qu’une place de marché généraliste, l’EDM a pour vocation à fournir une expérience de shopping aux consommateurs de données. Elle est une composante indispensable pour assurer l’exploitation du data mesh à grande échelle – elle permet aux consommateurs de données de disposer d’un système simple et efficace pour rechercher et accéder aux data products des différents domaines.

Dans notre prochain article, découvrez les différentes façons de mettre en place une data marketplace interne, et pourquoi elles sont essentielles pour l’exploitation du data mesh.

Le Guide Pratique du Data Mesh: Mettre en place et superviser un data mesh à l’échelle de l’entreprise

Rédigé par Guillaume Bodet, co-fondateur et CPTO chez Zeenea, ce guide vous apportera une approche pratique pour mettre en œuvre un data mesh dans votre organisation, en vous aidant à :

TÉLÉCHARGER L'EBOOK

Qu’est-ce qu’une API ?

par Zeenea Software | Fév 13, 2024 | Inspiration Data

Vous avez forcément entendu parler d’API… Elles sont omniprésentes mais pourtant méconnues. Envie de tout connaître sur les API, ou Application Programming Interface ? Levons le voile sur leur rôle, leurs atouts et leur fonctionnement !

API… Trois lettres sans lesquelles aujourd’hui, les entreprises ne pourraient pas déployer leurs stratégies data aussi aisément. Une Application Programming Interface (traduisez Interface de Programmation Applicative) est un ensemble de règles et de protocoles qui permettent à deux logiciels distincts de communiquer entre eux. Elle définit les méthodes et les formats de données autorisés pour l’échange d’informations, facilitant ainsi l’intégration de différentes applications ou services.

Le concept d’API remonte aux premières heures de l’informatique. Dans les années 2000, avec la croissance d’Internet et l’émergence des services web, les API ont gagné en importance. Les entreprises ont commencé à fournir des API pour permettre l’intégration de leurs services avec d’autres applications et systèmes. On estime qu’en 2020, près de 2 milliards d’euros ont été investis dans le monde pour développer des API !

Comment fonctionne une API ?

Dans le monde de la diplomatie, il y a les interprètes. Dans l’univers IT, il y a les API. Cette comparaison un peu triviale résume la fonction d’une API. Elle agit comme un intermédiaire, recevant des requêtes et retournant des réponses structurées. Une API fonctionne en définissant des points de terminaison (endpoints) accessibles via des requêtes HTTP. Ces points de terminaison représentent des fonctionnalités spécifiques de l’application, et les développeurs interagissent avec ces derniers en utilisant des méthodes HTTP standard telles que GET, POST, PUT, et DELETE. Les données sont alors échangées au format JSON ou XML. L’API spécifie les paramètres nécessaires, les types de données attendus, et les réponses possibles. Les requêtes HTTP contiennent des informations telles que les en-têtes et les corps de requête, permettant la transmission de données. Les réponses renvoient des codes de statut pour indiquer le succès ou l’échec, accompagnés de données structurées.

La documentation de l’API, généralement basée sur des spécifications comme OpenAPI, décrit de manière détaillée comment interagir avec chaque endpoint. Les tokens d’authentification peuvent être utilisés pour sécuriser l’accès à l’API. En somme, une API agit comme une interface externe, facilitant l’intégration et la communication entre différentes applications ou services.

Quels sont les bénéfices des API ?

Le recours aux API présente une multitude d’avantages dans l’univers du logiciel et de l’intégration de systèmes. Elles simplifient l’accès aux fonctionnalités d’une application, permettant aux développeurs d’exploiter des services externes sans avoir nécessairement à comprendre leur implémentation interne. Cela favorise la modularité et accélère le développement d’interconnexion entre solutions métiers indispensables à l’efficacité de vos collaborateurs.

De plus, Les API facilitent par ailleurs l’intégration entre différentes applications, créant des écosystèmes logiciels interconnectés. L’avantage clé ? Une efficacité opérationnelle sensiblement améliorée ! En effet, les mises à jour ou les améliorations peuvent être apportées à une API sans affecter les clients qui l’utilisent. La réutilisation de code est encouragée, car les développeurs peuvent exploiter des fonctionnalités existantes via des API plutôt que de recréer des solutions similaires, ce qui induit des économies sensibles sur les coûts de développement et des délais plus courts qui contribuent à l’agilité de votre entreprise.

Enfin, les API sont une perspective de collaboration améliorée entre équipes, car différents groupes peuvent travailler indépendamment en utilisant des API comme interfaces définies.

Les différents types d’API

Les API constituent une famille nombreuse ! Il en existe différents types qui répondent à des besoins spécifiques.

Open API

Également appelée API externe ou API publique, elle est conçue pour être accessible au public. Les Open APIs suivent des standards comme REST ou GraphQL. Elles favorisent la collaboration, permettant à des développeurs tiers ou à d’autres applications d’accéder aux fonctionnalités et aux données d’un service donné de manière contrôlée.

Partner API

Les Partner APIs ou API partenaires sont, comme leur nom l’indique, dévolues à des partenaires spécifiques ou à des développeurs externes de confiance. Ces API offrent un accès plus restreint et sécurisé. Elles sont souvent utilisées pour étendre les fonctionnalités d’une application à des partenaires stratégiques sans exposer toutes ses fonctionnalités au public.

Composite API

Derrière le terme de Composite API, on trouve la combinaison de plusieurs appels d’API différents en une seule requête. L’intérêt ? Simplifier l’accès à plusieurs fonctionnalités en un seul appel, réduisant d’autant la complexité des interactions et améliorant les performances.

Internal API ou API interne

Conçu pour être utilisé à l’intérieur d’une organisation, ce type d’API facilite la communication entre les différentes parties d’un système ou entre différents systèmes internes. Il contribue à la modularité et à la cohérence des applications au sein de l’entreprise.

Les différents protocoles d’API

Si l’on peut comparer les API à des interprètes, les protocoles qu’ils utilisent sont en quelque sorte, les langues qui leur permettent de communiquer. Ces protocoles sont au nombre de quatre !

SOAP (Simple Object Access Protocol)

Utilisant XML, SOAP est un protocole standardisé qui offre des fonctionnalités avancées telles que la sécurité et la gestion des transactions. Cependant, il peut être complexe et nécessiter des ressources importantes.

XML-RPC (XML Remote Procedure Call)

La principale qualité de ce protocole, c’est sa simplicité ! Basé sur XML, il permet l’appel de procédures distantes. Bien que moins complexe que SOAP, il offre des fonctionnalités limitées et est souvent remplacé par des alternatives plus modernes.

REST (Representational State Transfer)

Fondé sur les principes HTTP, REST utilise des méthodes standard comme GET, POST, PUT, et DELETE pour manipuler des ressources. Il exploite le format de données JSON dont il tire sa simplicité, sa scalabilité et sa flexibilité !

JSON-RPC (JavaScript Object Notation Remote Procedure Call)

Léger et basé sur JSON, JSON-RPC facilite l’appel de procédures distantes. Il offre une alternative simple à XML-RPC et est souvent utilisé dans des environnements web et mobiles.

Les dessous du Data Mesh : bonnes pratiques pour la gestion des métadonnées

par Zeenea Software | Jan 14, 2024 | Data Mesh, Metadata Management

Le paysage de la gestion des données étant en constante évolution, les organisations s’orientent vers de nouvelles approches innovantes pour faire face à la complexité de leur paysage de données. Le concept de Data Mesh (maillage de données) est l’une de ces tendances notables qui prend de plus en plus d’ampleur – une approche décentralisée de l’architecture des données, mettant l’accent sur des produits de données autonomes et orientés par domaine.

Dans cet article, découvrons le rôle vital des métadonnées et l’importance de leur gestion efficace dans le contexte du Data Mesh.

Le rôle des métadonnées dans le Data Mesh

Les métadonnées, souvent désignées comme « données sur les données », jouent un rôle fondamental dans la formation d’un écosystème de données fonctionnel. Elles vont au-delà de la simple description des jeux de données ; elles impliquent la compréhension des origines des données, de leur qualité, de leurs transformations, etc. Les différents types de métadonnées comprennent :

Métadonnées techniques : qui se concentrent sur les aspects techniques des données, tels que le format, le schéma, le lignage et les détails de stockage.
Métadonnées business : qui concernent les aspects métier des données tels que le responsable de la donnée, les règles de gestion, les définitions et tout autre détail permettant d’aligner les données sur les objectifs commerciaux de l’entreprise.
Métadonnées opérationnelles : qui fournissent des informations sur les opérations quotidiennes liées aux données, y compris les flux de traitement, les horaires de rafraîchissement et toutes les dépendances opérationnelles.
Métadonnées collaboratives : qui capturent des informations sur les interactions des utilisateurs, les annotations et les commentaires liés aux actifs de données.

Dans le cadre décentralisé de Data Mesh, les métadonnées servent de lien entre les différents domaines de données avec ces différents types de métadonnées. Au fur et à mesure que les données circulent entre différentes équipes, les métadonnées deviennent le guide, aidant chacun à naviguer dans le paysage diversifié des données.

Ainsi, les métadonnées agissent comme une aide précieuse en fournissant des informations sur la structure et le contenu de leurs actifs. Elles facilitent la découverte des données pour les utilisateurs, rendant plus facile la distinction et la localisation de données spécifiques qui correspondent à leurs besoins.

De plus, les métadonnées forment la base de la gouvernance des données, fournissant un cadre pour appliquer uniformément les normes de qualité, les protocoles de sécurité et les mesures de conformité à travers des domaines divers dans l’organisation. Elles jouent un rôle crucial dans le contrôle d’accès et veillent à ce que les utilisateurs soient non seulement informés, mais également à ce qu’ils respectent les politiques d’accès définies.

Les défis de la Gestion des Métadonnées dans le Data Mesh

Un défi significatif découle de la nature décentralisée d’un Data Mesh. Dans une architecture de données centralisée traditionnelle, la gestion des métadonnées est souvent assurée par une équipe ou un département dédié, garantissant ainsi la cohérence et la normalisation. Cependant, dans un Data Mesh, chaque équipe de domaine est responsable de la gestion de ses propres métadonnées. Cette approche décentralisée peut entraîner des variations dans les pratiques de métadonnées entre différents domaines, rendant difficile le maintien de normes uniformes et l’application cohérente des politiques de gouvernance des données de l’entreprise.

La diversité des sources de données et des domaines au sein d’un Data Mesh constitue un autre défi notable dans la gestion des métadonnées : différents domaines peuvent utiliser divers outils, schémas et structures pour organiser et décrire leurs données. La gestion des métadonnées à travers ces sources diverses nécessite l’établissement de normes communes de métadonnées pour garantir la compatibilité, ce qui peut être une tâche complexe et chronophage. L’hétérogénéité des sources de données ajoute une couche de complexité à la création d’un cadre de métadonnées cohérent et normalisé.

Garantir la cohérence et la qualité des métadonnées dans un environnement Data Mesh est un défi constant. Avec plusieurs équipes de domaine gérant indépendamment leurs métadonnées, maintenir l’uniformité devient crucial. Les incohérences dans les métadonnées peuvent conduire à des malentendus, des interprétations erronées et des erreurs dans l’analyse des données.

Bonnes pratiques pour la gestion des métadonnées dans un Data Mesh

Pour surmonter ces défis, voici quelques bonnes pratiques pour la gestion des métadonnées au sein de votre organisation.

Tout d’abord, vous devez établir des définitions de métadonnées claires et standardisées à travers les domaines divers pour assurer la cohérence, l’interopérabilité et une compréhension partagée des éléments de données. Des définitions claires fournissent un langage commun et un cadre qui assurent la cohérence dans la description et la compréhension des données à travers l’organisation.

De plus, les définitions standardisées de métadonnées jouent un rôle crucial dans la gouvernance des données. Elles fournissent une base pour appliquer uniformément les normes de qualité des données, les protocoles de sécurité et les mesures de conformité à travers des domaines divers. Cela garantit que les données sont non seulement décrites de manière cohérente, mais qu’elles respectent également les politiques organisationnelles et les exigences réglementaires, contribuant à un écosystème de données robuste et conforme.

Cependant, il est tout aussi important de donner aux équipes de domaine la responsabilité et l’autonomie pour leurs propres métadonnées. Cette approche décentralisée favorise un sentiment de responsabilité et d’expertise parmi ceux qui connaissent le mieux leurs données. En donnant aux équipes de domaine le contrôle de leurs métadonnées, les organisations exploitent leurs connaissances spécifiques pour garantir l’exactitude, la cohérence et la fiabilité à travers tous les domaines de données. Cette approche favorise l’adaptabilité au sein des domaines individuels, contribuant à une stratégie de gestion des données plus fiable et informée.

Cette double stratégie permet à la fois une gouvernance centralisée, assurant des normes à l’échelle de l’organisation, et une responsabilité décentralisée, favorisant l’agilité et la connaissance spécifique au domaine au sein du paysage d’un Data Mesh.

Le Guide pour comprendre la différence entre Business Glossary, Data Catalog et Data Dictionary

par Zeenea Software | Mai 21, 2023 | Data Catalog, Metadata Management

Vous avez mis la donnée au centre de toutes les stratégies de votre entreprise, mais le volume de données que vous êtes amené à manipuler explose. Vous devez par conséquent disposer non seulement d’une visibilité à 360° sur votre patrimoine de données, mais aussi d’une vision des usages qui peuvent en être fait.

Pour cela, vous pouvez combiner les actions et les avantages apportés par trois outils essentiels : le data catalog (catalogue de données), le data dictionary (dictionnaire de données) et le business glossary (glossaire métier). Suivez le guide !

Produire de la donnée, c’est très bien. En tirer de l’intelligence métier, c’est encore mieux ! Parce que le développement d’une vraie culture data constitue l’axe prioritaire de votre stratégie de développement, vous avez besoin de transformer l’information disponible dans la donnée en outil opérationnel de prise de décision ou d’orientation de terrain. En vous appuyant sur une approche de réconciliation entre data et business, vous donnerez à votre entreprise (et à vos équipes) un nouvel élan.

Mais, pour y parvenir, vous devrez vous appuyer sur trois outils essentiels : un catalogue de données, un dictionnaire de données et un glossaire métier. Trois solutions indispensables qui vous aideront à vous organiser et à améliorer votre stratégie de data management. Et bien qu’ils soient liés, ces outils sont en fait très différents !

Qu’est-ce qu’un data catalog et quels en sont les principaux avantages

Un catalogue de données (ou data catalog) est un inventaire détaillé qui répertorie les datas provenant de toutes les sources de données de votre entreprise. Une fois intégralement répertoriées, elles sont alors plus accessibles, compréhensibles et exploitables par vos équipes. Un data catalog peut collecter et répertorier plusieurs types d’informations tels que les jeux de données et ses champs associés, les data processes, les visualisations, les objets du glossaire (voir la section ci-dessous) ou encore des informations personnalisées propres à votre entreprise.

Le data catalog joue un rôle crucial dans votre stratégie data, car il permet de rationaliser vos données en en délivrant une vue d’ensemble : qualité, disponibilité, métadonnées associées telles que leurs descriptions, leurs propriétaires, leurs provenances, formats, etc. L’un des principaux atouts d’un data catalog est qu’il favorise le travail collaboratif autour de la donnée dans votre organisation, car il permet à vos équipes de travailler ensemble pour identifier, comprendre et utiliser les données de manière plus efficace.

Enfin, via la centralisation de l’information disponible qu’il offre, le catalogue de données permet de maintenir un niveau élevé de qualité des actifs informationnels en s’assurant que les données sont correctement identifiées, classées, documentées et maintenues.

Pourquoi déployer un business glossary et pour quel usage ?

Un business glossary est un outil qui aide à établir une compréhension commune des termes et des définitions relatifs aux métiers utilisés dans une entreprise. Son rôle : faciliter la communication et réduire les erreurs ou les malentendus liés à l’utilisation des termes de votre organisation. Il peut intégrer des définitions de termes techniques, financiers, commerciaux, des normes et des procédures, ou tout autre domaine pertinent pour votre entreprise.

En vous dotant d’un glossaire métier, vous parviendrez, presque mécaniquement, à améliorer la qualité des données en vous assurant qu’elles sont clairement définies et comprises. En ligne de mire : une réduction des erreurs de saisie, une normalisation des formats de données et une fiabilisation de l’exactitude des données.

De plus, le business glossary présente l’avantage de vous aider à mieux gérer la conformité réglementaire en normalisant les termes et les définitions utilisés dans les rapports et les documents de conformité.

Enfin, un glossaire métier contribue à des prises de décision plus rapides et plus fiables, puisqu’il offre une base de connaissances commune pour l’ensemble des intervenants dans la chaîne décisionnelle.

Quelles différences avec un Data Dictionary ?

Le dictionnaire de données est une troisième solution qui vous permettra de renforcer et dynamiser votre stratégie data. Cet outil de gestion des données fournit toutes les informations détaillées sur les données utilisées dans votre entreprise, en s’appuyant sur un ensemble de métadonnées. Ces métadonnées décrivent les données, leur structure, leur format, leur signification, leur propriétaire et leur utilisation.

Cette description aide vos collaborateurs, ceux qui utilisent la data au quotidien, à comprendre les données et à mieux les exploiter. Le data dictionary est également un outil clé pour la gestion de la qualité des données, car il permet d’identifier les erreurs et les incohérences.

Enfin, le dictionnaire de données facilite la réutilisation des données, en fournissant des informations sur les datas existantes et leur signification. Cela permet ainsi de les intégrer facilement dans de nouvelles applications ou de nouveaux projets.

Envie de donner un coup de boost à votre stratégie data ? L’association d’un business glossary, d’un data catalog et d’un data dictionary vous permettra de vous appuyer sur une vue complète et cohérente des données et des termes métier utilisés dans votre entreprise.

Metadata management vs. master data management : différences et similarités

par Zeenea Software | Avr 3, 2023 | Metadata Management

Afin de proposer une expérience client adaptée, renforcer l’innovation ou encore améliorer les processus internes ou les flux de production, les entreprises misent beaucoup sur la donnée. De nombreuses organisations cherchent à mieux exploiter ces ressources colossales et à assurer une gouvernance rigoureuse de la donnée. Dans cet article, découvrez les différences ainsi que les points communs entre deux concepts essentiels pour vous inscrire dans une logique data-driven : le metadata management et le master data management.

Selon une étude intitulée « Le rôle stratégique de la data gouvernance et son évolution », réalisée par l’institut Enterprise Strategy Group (ESG) à la fin 2022, les entreprises constatent un doublement biannuel de leur volume de données. En moyenne, les organisations interrogées déclarent gérer un volume de 3 pétaoctets de données, dont environ les deux tiers sont non structurées. Les conclusions de l’étude révèlent par ailleurs une augmentation annuelle moyenne de 40 %, soit un doublement tous les deux ans. Et 32 % des répondants déclarent même une augmentation annuelle supérieure à 50 % !

Dans ce contexte de croissance exponentielle des volumes de données, les entreprises doivent faire face à un enjeu majeur : assurer une gestion optimale des données et des métadonnées – au risque de s’exposer à une explosion de leurs coûts en cas d’erreur ou d’approximation. Ainsi, si l’on se réfère aux estimations récentes de l’institut Gartner, chaque année, la mauvaise qualité des données coûte près de 13 milliards de dollars aux entreprises, tous secteurs confondus. Pour faire face à ce challenge, la gestion des métadonnées et le master data management (MDM) fournissent aux organisations des processus essentiels pour acquérir cette connaissance dont elles ont besoin pour relever les défis de leurs marchés tout en limitant leur surface d’exposition au risque de surcoûts.

Définition des concepts du metadata management & du master data management

Soyons clairs sur les termes ! Le metadata management ou gestion des métadonnées, correspond à l’ensemble des pratiques et des outils qui permettent de gérer les métadonnées d’un système d’information de manière efficace et cohérente. À ce titre, le metadata management vise à garantir la qualité, la pertinence et l’accessibilité des métadonnées, ainsi que leur conformité aux normes et aux standards en vigueur.

Le master data management (MDM) quant à lui, rassemble toutes les techniques et tous les processus permettant de gérer les données de référence de manière centralisée, cohérente et fiable. Ces données de référence, que l’on appelle également « données maîtres », sont des informations critiques, absolument essentielles à l’activité de l’entreprise. Il peut s’agir des informations concernant les clients, les fournisseurs, les produits, les sites d’exploitation et de production ou encore les données concernant les collaborateurs. La vocation du master data management porte sur l’édification d’un référentiel unique pour ces données de référence, qui est ensuite utilisé par les différentes applications et les différents systèmes de l’entreprise. Ce référentiel constitue une garantie d’accès à des données fiables et cohérentes.

Quelles sont les différences entre la gestion des métadonnées et le master data management ?

Bien que les deux concepts soient liés à la gestion de données, la gestion des métadonnées (metadata management) et le master data management (MDM) répondent à des objectifs différents et adoptent des approches distinctes.

Alors que la gestion des métadonnées concerne principalement la gestion des informations qui décrivent les données, leur contexte et leur utilisation ; le MDM, quant à lui, se concentre sur la gestion des données de référence essentielles à l’entreprise. Ces deux périmètres différents font de la gestion des métadonnées et du master data management deux disciplines complémentaires pour votre stratégie Data. Quand la gestion des métadonnées est axée sur la description et l’utilisation des données, le MDM se focalise sur la gestion et l’harmonisation des données de référence essentielles à l’entreprise.

Quels sont les points communs entre le master data management et le Metadata management ?

Le premier point commun entre master data management et le metadata management, c’est qu’ils contribuent l’un et l’autre à l’efficacité et au succès de vos projets data-driven. En effet, tous deux visent à garantir la qualité, la pertinence et la cohérence des données – mais ils supposent chacun de recourir à des processus et des outils dédiés. Enfin, les deux disciplines s’intègrent et contribuent à une démarche plus large de gouvernance des données.

Combinées, elles vous permettent d’être plus agile, plus efficace et plus responsable à la fois !

5 fonctionnalités essentielles de Zeenea pour un programme de Data Stewardship cinq étoiles

par Zeenea Software | Jan 27, 2023 | Data Catalog, Gouvernance des données, Metadata Management, Réglementations Data

Vous traitez des données, énormément de données… Mais elles sont souvent désordonnées, incomplètes et surtout éparpillées dans plusieurs outils, plateformes, bases de données, feuilles de calcul, etc. De plus, certaines de vos informations sont inaccessibles ou pire encore, accessibles par des personnes qui ne devraient pas. En tant qu’experts data de l’entreprise, les Data Stewards doivent être en mesure d’identifier les qui, quoi, quand, où et pourquoi de leurs données afin de mettre en place un programme de data stewardship fiable.

Malheureusement, les Data Stewards sont souvent confrontés à un obstacle majeur : le manque d’outils pour les aider dans ce rôle. Lorsqu’il s’agit de grands volumes de données, le maintien de la documentation des données, la gestion des métadonnées d’entreprise et la résolution des problèmes de qualité et de gouvernance peuvent s’avérer très difficiles.

C’est pour cette raison que Zeenea intervient peut vous aider. Notre plateforme de découverte de données – et ses fonctionnalités intelligentes et automatisées de gestion des métadonnées – facilite la vie des Data Stewards. Découvrez dans cet article 5 de nos fonctionnalités pour un programme de Data Stewardship cinq étoiles.

Fonctionnalité 1 : Une connectivité universelle

Inventoriez automatiquement les métadonnées de vos sources de données

Comme mentionné ci-dessus, les données d’entreprise sont réparties dans de nombreuses sources d’information rendant difficile, voire impossible, la gestion et le contrôle global du patrimoine data par les Data Stewards. En ce sens, Zeenea fournit une solution de catalogage de données de nouvelle génération qui centralise toutes les métadonnées d’entreprise en une seule source de vérité. Le large éventail de connecteurs natifs de notre plateforme récupère, collecte et synchronise automatiquement les métadonnées par le biais de nos API et de nos scanners.

Fonctionnalité 2 : Un métamodèle flexible et adaptable

Automatisez la documentation des données

La documentation des informations peut être extrêmement chronophage, avec parfois des milliers de propriétés, de champs et d’autres métadonnées importantes qui doivent être mises en œuvre pour que les équipes métier comprennent parfaitement le contexte des données qu’elles consultent.

Zeenea fournit un moyen flexible et adaptable de construire des templates de métamodèles d’objets préconfigurés (jeux de données, champs, data processes, etc.) et un nombre illimité d’objets personnalisés (procédures, règles, KPIs, règlements, etc.).

Importez ou créez vos modèles de documentation simplement en glissant vos propriétés existantes ainsi que vos tags et autres métadonnées personnalisées dans vos templates. Vous avez fait une erreur dans un template ? Aucun problème ! Ajoutez, supprimez ou modifiez vos propriétés et sections comme bon vous semble – vos éléments sont automatiquement mis à jour une fois édités.

Après avoir créé vos templates, visualisez facilement tous les assets qui composent votre métamodèle, ainsi que leurs relations grâce à notre diagramme dynamique. Notre design intuitif montre les détails de chaque type d’Objet – leurs sections et leurs propriétés – et se met à jour automatiquement après chaque modification. Vous pouvez également effectuer un zoom avant ou arrière sur l’objet de votre choix et exporter une image de votre métamodèle.

Faites de même pour vos Objets du Glossaire ! Nous avons séparé les couches physique et logique du métamodèle Glossaire afin que les Data Stewards et autres contributeurs puissent facilement définir et trouver leurs termes métier. En utilisant le même processus que le métamodèle physique et logique, créez ou importez des objets sémantiques, organisez-les dans des hiérarchies et configurez la façon dont vos éléments de glossaire sont liés avec les éléments techniques.

Fonctionnalité 3 : Lignage des données automatique

Tracez vos transformations data

Pour que les Data Stewards puissent construire des rapports de conformité précis et fiables, les capacités de data lineage sont essentielles. De nombreux développeurs de logiciels proposent des fonctionnalités de lignage, mais rares sont ceux qui les comprennent vraiment. C’est pour cette raison que Zeenea propose un graphique interactif de data lineage, permettant à vos utilisateurs de naviguer dans le cycle de vie de leurs données via une interface visuelle et facile à interpréter. Cliquez sur n’importe quel Objet pour obtenir un aperçu de sa documentation, de ses relations avec d’autres Objets, ainsi que ses métadonnées pour obtenir une vue à 360° des éléments de votre catalogue.

Fonctionnalité 4 : Suggestions intelligentes

Identifiez rapidement les données personnelles

Avec le RGPD, le California Consumer Privacy Act et autres réglementations concernant la sécurité et la confidentialité des informations des individus, il peut être fastidieux de passer en revue chaque ensemble d’informations existant pour s’assurer que vous avez correctement marquées les données comme étant personnelles. Pour s’assurer que vos informations sont toujours correctement identifiées, Zeenea analyse les similitudes entre les données personnelles existantes en identifiant et en donnant des suggestions sur les champs à marquer comme “personnelles”. Les Data Stewards peuvent accepter, ignorer ou supprimer les suggestions directement depuis leur tableau de bord.

Fonctionnalité 5 : Un modèle de jeux de permissions efficace

Assurez-vous que les bonnes personnes accèdent aux bonnes données

Pour les organisations où divers types d’utilisateurs accèdent à leur patrimoine de données, il n’est pas judicieux de donner à chacun un accès complet pour modifier tout et n’importe quoi. Surtout lorsqu’il s’agit d’informations sensibles ou personnelles. C’est pour cette raison que Zeenea a conçu un modèle de jeux de permissions qui permet aux Data Stewards d’accroître l’efficacité de votre organisation et de réduire le risque d’erreurs. Attribuez des droits de lecture seule, d’édition et d’administration dans toutes ou différentes parties du catalogue pour non seulement garantir un catalogue sécurisé, mais également pour gagner du temps lorsque les consommateurs de données ont besoin de trouver le référent d’une information.

Prêts à lancer votre programme de Data Stewardship avec Zeenea ?

Si vous êtes intéressé par les fonctionnalités de Zeenea pour vos besoins de documentation et de stewardship, contactez-nous pour une démo personnalisée de 30 minutes avec l’un de nos experts data.

Demander une démo

Quelle est la différence entre une Data Fabric et le Data Mesh ?

par Zeenea Software | Nov 3, 2022 | Data Mesh, Inspiration Data

Pendant des années, les entreprises ont été confrontées au défi de collecter de la donnée. Désormais, le véritable enjeu consiste à mettre de l’intelligence dans une profusion de data difficile à maîtriser. De nombreuses technologies et solutions promettent une valorisation optimale de vos données. Parmi celles-ci, on trouve notamment la Data Fabric et le Data Mesh. Si ces concepts peuvent sembler similaires, il existe des différences fondamentales entre ces deux approches. Explications.

Une exigence de connaissance des clients pour se différencier dans un contexte d’hyper-concurrence, des parcours et des usages digitaux qui se développent, les volumes de données à disposition de votre entreprise explosent ! Mais l’abondance d’information n’est rien sans intelligence et sans exploitation fine. Cette réalité influence l’ensemble de l’écosystème de la data.

Si l’on se réfère aux prévisions de Gartner, d’ici 2024, plus de 25 % des fournisseurs de solutions de gestion de données fourniront un support complet de structure de données via une combinaison de leurs propres produits et de ceux de leurs partenaires, contre moins de 5 % aujourd’hui.

Dans ce contexte, plusieurs voies peuvent être explorées, mais deux pistes sortent du lot : la Data Fabric et le Data Mesh.

Qu’est-ce qu’une Data Fabric ?

Le concept de Data Fabric a été introduit par Gartner dès 2019. Le célèbre institut décrit la Data fabric comme l’utilisation combinée de plusieurs technologies existantes pour permettre une implémentation basée sur les métadonnées et une conception d’orchestration augmentée.

En d’autres termes, la Data Fabric constitue un environnement au sein duquel les données et les métadonnées sont analysées en permanence pour faire l’objet d’enrichissements continus et d’une valorisation optimale. Mais, attention ! Une data fabric n’est pas un produit ou une solution finie. C’est un environnement composable qui repose sur la combinaison de différentes solutions ou applications qui interagissent entre elles pour raffiner les données.

La fabrique de données s’appuie sur des API et sur une dimension No Code qui permet de créer des synergies entre des applications et des services variés qui permettent de transformer les données pour en extraire la quintessence de la connaissance tout au long de leur cycle de vie. Très schématiquement, la Data Fabric peut être comparée à une raffinerie avec ses assemblages de tuyaux hétéroclites.

Qu’est-ce que le Data Mesh ?

La paternité du concept de Data Mesh est attribuée à Zhamak Dehghani de Thoughtworks. Dès la fin 2018, la définition était posée. Le principe ? Une nouvelle approche de l’architecture des données, un nouveau mode d’organisation fondé sur le maillage des données. Le Data Mesh repose sur la création d’une structure des données multi-domaines. Les données sont cartographiées, identifiées et réorganisées en fonction de leur usage, de leur cible ou de leur exploitation éventuelle.

Le Data mesh s’appuie sur des principes fondamentaux : le propriétaire des données ou Data Owner, le self-service et l’interopérabilité. Ces trois principes permettent de créer une gestion décentralisée de la donnée. L’avantage ? Faire naître des interactions entre différents domaines de données disparates pour générer toujours plus d’intelligence.

Les principales différences entre Data Fabric et Data Mesh

Pour bien comprendre les différences qui opposent Data Fabric et Data Mesh, commençons par évoquer ce qui les rapprochent. Dans les deux cas, il n’existe pas de solution « clés en mains ».

Alors que la Data Fabric repose sur un écosystème composable de solutions logicielles d’exploitation de la données, le Data Mesh est un mode d’organisation et de gouvernance de la data. Dans le cas de Data Mesh, les données sont stockées de manière décentralisée dans leurs domaines respectifs au sein d’une entreprise. Chaque nœud dispose d’un stockage local et d’une puissance de calcul, et aucun point de contrôle unique n’est nécessaire pour le fonctionnement.

Dans le cas d’une Data Fabric en revanche, l’accès aux données est centralisé avec des clusters de serveurs à haut débit pour le réseau et le partage de ressources hautes performances. Sur le plan de l’architecture de données, il existe également des différences. Ainsi, Data Mesh introduit une perspective organisationnelle, indépendante des technologies spécifiques. Son architecture suit une conception axée sur le domaine et une réflexion sur les produits.

S’ils répondent à des logiques différentes, Data Mesh et Data Fabric servent un même objectif d’exploitation optimale de vos actifs data. En ce sens, malgré leurs différences, il ne faut surtout pas les opposer mais plutôt les considérer comme complémentaires.

Les pièges à éviter pour réussir votre projet de data catalog – Le pilotage du projet

par Zeenea Software | Sep 29, 2022 | Data Catalog, Metadata Management

La gestion des métadonnées est une composante importante dans un projet plus global de Data Management, et elle nécessite plus que la simple mise en place d’une solution logicielle de data catalog, aussi connecté soit-il.

Certes le catalogue va permettre d’alléger la charge induite, mais il ne pourra à lui seul garantir le succès.

Inspiré par nos retours d’expérience issus de contextes très variés, cette série d’articles
présente les principaux écueils et idées reçues que vous devez à tout prix éviter lors
de la mise en place d’un catalogue de données à l’échelle de votre entreprise.

Les pièges décrits dans cette série s’articulent autour de quatre thématiques centrales à
la réussite de la démarche :

La culture de la donnée dans l’organisation
Le sponsorship du projet en interne
Le pilotage du projet
L’intégration technique du data catalog

—

Comme tout projet, la mise en place d’une initiative de metadata management n’échappe pas à la règle et devra être pilotée pour garantir l’atteinte des objectifs dans les meilleurs délais et aux meilleurs coûts. Ce pilotage ne doit cependant pas tomber lui-même dans des travers que nous illustrons ci-après.

La quantité de métadonnées ne doit jamais primer sur la qualité

L’esprit, comme la nature, a horreur du vide. Le data catalog est amené à documenter les actifs liés aux données de l’entreprise. Lors du démarrage du projet, l’absence d’éléments conduit quasi systématiquement à un réflexe : celui de charger beaucoup d’éléments.

Cependant, un bon data catalog ne se caractérise pas par la quantité des objets présents, mais bien par la qualité de son contenu et la cohérence des informations. Ces deux caractéristiques vont donc nécessiter un pilotage de l’activité pour identifier les priorités, d’abord en termes de périmètres à couvrir, puis en termes d’informations à apporter.

Ce qui peut donc apparaître comme frustrant de prime abord – puisque bridant – va très vite s’avérer être pertinent, voire primordial pour le succès du projet. En effet, les utilisateurs vont considérer, à raison, le data catalog comme une source de vérité à l’instar d’un dictionnaire pour la langue parlée. Il est toujours préférable d’offrir, peut-être en premier lieu à une population ciblée, un contenu sélectionné et de qualité, offrant une bonne expérience invitant à revenir spontanément vers l’outil pour de futures recherches.

Un data catalog ne va pas se remplir spontanément, même une fois ouvert aux utilisateurs

Le data catalog est ouvert à de nombreux utilisateurs, dont certains disposent de connaissances sur des actifs présents. Pour autant, l’instauration spontanée de cercles vertueux conduisant à la mise à jour naturelle du contenu du data catalog est très rarement observée, voire jamais.

La réalité est toute autre : il est indispensable d’accompagner au démarrage, mais aussi au-delà.

La qualité des informations renseignées, mais aussi la quantité doivent être pilotées tout comme il est important de re-sensibiliser, présenter, éduquer les équipes contributrices. L’animation autour de la contribution peut aussi trouver un relais dans la mise en place de processus vertueux qui permettront le contrôle et l’incitation à la correction ou l’enrichissement du catalogue.

Il est impossible de fixer tous les objectifs du data catalog dès le démarrage du projet sans jamais les faire évoluer

Le data catalog doit répondre aux attentes de nombreux utilisateurs aux besoins diverses.

Il est donc utopique d’imaginer connaître la liste exhaustive des attentes au démarrage du projet, tout comme il est naïf de considérer cette liste comme définitivement figée dès le lancement du programme. Il est donc du ressort d’un Data Office de collecter et d’analyser continuellement les besoins, de savoir les comprendre et de les prioriser pour les traduire en contenu approprié.

Généralement, les besoins évoluent au rythme de différents paramètres qui sont loin d’être établis au démarrage. Nous pouvons citer comme exemples le niveau de maturité de l’entreprise et de ses collaborateurs sur le sujet de la gestion de la donnée qui va évoluer dans le temps, le développement des usages autour de la donnée, ou encore l’évolution du cadre réglementaire.

Tous ces paramètres ont potentiellement une forte incidence sur le contenu que le data catalog devra couvrir, tant sur l’étendu du périmètre que sur la nature même des informations apportées sur les actifs présents.

Les 10 pièges à éviter pour réussir son projet de Data Catalog

Si vous souhaitez en savoir plus sur les pièges à éviter pour réussir son projet de data catalog, téléchargez notre eBook gratuitement !

LIRE L'EBOOK

Le 10 Pieges A Eviter Pour Reussir Votre Projet De Data Catalog Mockup

Les pièges à éviter pour réussir votre projet de data catalog – Le sponsorship en interne

par Zeenea Software | Sep 29, 2022 | Data Catalog, Metadata Management

Certes le catalogue va permettre d’alléger la charge induite, mais il ne pourra à lui seul garantir le succès.

Les pièges décrits dans cette série s’articulent autour de quatre thématiques centrales à
la réussite de la démarche :

La culture de la donnée dans l’organisation
Le sponsorship du projet en interne
Le pilotage du projet
L’intégration technique du data catalog

—

Les projets de metadata management induisent des changements multiples, touchant pour certains à l’organisation ou aux responsabilités des collaborateurs. Des relais managériaux sont alors nécessaires et ne peuvent se concevoir sans une initiative portée au plus haut niveau.

Un projet de data catalog ne peut réussir sans être défendu en interne par le management

Dans une démarche de gestion des métadonnées, certains collaborateurs héritent de nouvelles responsabilités ou de nouvelles directives concernant leurs responsabilités existantes. L’initiative de metadata management est assez souvent pilotée par une équipe dédiée, transverse, orchestrant le projet et facilitant son exécution. Cependant, les collaborateurs à qui sera demandée une contribution ne sont en général pas managés par cette équipe, et appartiennent à des services différents.

Sans relais managérial au sein de ces équipes, accompagné d’un discours aligné avec l’équipe transverse, l’initiative reste beaucoup trop fragile. Au moindre obstacle, elle peut même être sacrifiée puisque non officialisée.

L’approche à adopter dépend très fortement de l’organisation de votre entreprise, mais il est conseillé d’inscrire des objectifs pour officialiser et orienter le travail des collaborateurs contributeurs dans cette initiative ainsi que piloter les résultats obtenus.

Un projet de data catalog nécessite avant tout un investissement initial

Bien souvent, un recensement des informations est réalisé en vue d’amorcer l’alimentation du catalogue au démarrage d’un projet de metadata management.

Ces informations proviennent souvent de documentations existantes, mais aussi de collaborateurs qui sont les uniques détenteurs de connaissances sur certains éléments. Les premières étapes consistent alors à centraliser, et par la même occasion, sécuriser ces métadonnées en les déversant dans le data catalog.

Ce dernier doit offrir un moyen simple pour concentrer cette information et la restituer au plus grand nombre.

Le data catalog de Zeenea propose différents mécanismes en ce sens, notamment via sa caractéristique forte qui est d’être un data catalog connecté. Celle-ci permet de remonter automatiquement des métadonnées depuis des systèmes maîtres, libérant des contributeurs d’une ressaisie de ces informations.

De plus, la connectivité sert aussi un autre objectif : faire en sorte que le catalogue reste à jour, aligné avec les systèmes maîtres. Ce qui vaut pour les métadonnées automatiquement synchronisées par ce mécanisme s’applique aussi aux autres métadonnées issues des contributions des collaborateurs : de par sa nature, un système d’information vit. Les données présentes évoluent et la documentation associée aussi par conséquent. Ceci induit donc la nécessité d’un travail d’entretien de la documentation, visant à garantir son un état de fraîcheur.

>> Découvrir Zeenea <<

Les 10 pièges à éviter pour réussir son projet de Data Catalog

Si vous souhaitez en savoir plus sur les pièges à éviter pour réussir son projet de data catalog, téléchargez notre eBook gratuitement !

LIRE L'EBOOK

Pourquoi le Data Catalog aide-t-il les entreprises à réussir leurs programmes de Data Stewardship ?

par Zeenea Software | Juil 6, 2022 | Data Catalog, Metadata Management

En déployant un programme de Data Stewardship dans votre entreprise, vous pourrez garantir non seulement la qualité de vos données mais également leur exploitation simple et efficace par l’ensemble de vos collaborateurs. En tant qu’acteur clé de la gouvernance et de la gestion des données, le Data Steward a besoin d’outils spécifiques, au premier rang desquels : le Data Catalog. Décryptage.

La place de la donnée dans les entreprises est toujours plus stratégique et pas seulement dans les plus grandes organisations ! En effet, pour définir les stratégies commerciales, piloter la distribution, ou encore organiser la production, l’exploitation de la data constitue un avantage concurrentiel majeur. Pour délivrer leur plein potentiel, les données doivent être fiables, de qualité et parfaitement organisées. Des caractéristiques qui se rattachent à une discipline : le Data Stewardship.

Le Data Steward, également appelé Maître de la donnée, agit comme le garant de l’exploitation optimale de la data. Comment ? En centralisant l’ensemble des données quelle que soit leur source, dans un environnement accessible à tous les métiers de manière simple, intuitive et opérationnelle. Un programme de Data Stewardship repose tout à la fois sur une méthodologie rigoureuse, une vision globale des données disponibles et une ambition de rationalisation pour développer une culture data forte dans les entreprises. Cependant, la vision, la compréhension et la méthode ne dispensent pas le Data Steward de s’appuyer sur les bons outils pour accomplir ses missions : le data catalog (ou catalogue de données) est l’un de ces outils essentiels pour réussir un projet de Data Stewardship.

Les objectifs du Data Catalog

Un data catalog exploite avant tout les métadonnées – les données sur les données – pour créer un référentiel de tous les actifs informationnels de l’entreprise. Ces métadonnées collectées via diverses sources (Big Data, services Cloud, feuilles Excel, etc.) sont automatiquement scannées pour permettre aux utilisateurs du catalogue de rechercher et d’obtenir des informations telles que la disponibilité, la fraîcheur ou encore la qualité d’un actif data. Un catalogue de données centralise et unifie les métadonnées collectées afin qu’elles puissent être partagées avec les équipes IT et les fonctions métier au sein de l’organisation. Cette vue unifiée des données apporte de nombreux avantages, et permet de :

Maintenir une culture des données
Accélérer la découverte des données
Construire une gouvernance des données agile
Maximiser la valeur des données
Produire mieux, plus vite
Assurer un bon niveau de contrôle des données.

Les bénéfices du Data catalog pour les Data Stewards

Depuis l’import de nouvelles sources de données en passant par le suivi des mises à jour des informations, la capacité du data catalog de suivre et piloter en temps réel et automatiquement des métadonnées permet aux Data Stewards de gagner en efficacité. En effet, un data catalog offre une visibilité à 360° sur vos données depuis leur origine jusqu’à l’ensemble de leurs transformations au fil du temps. Le recours au Data catalog dans le cadre d’un programme de Data Stewardship présente, entres autres, quatre bénéfices essentiels :

Bénéfice N°1 : Maintenir une documentation à jour

Vos données vivent en permanence. Elles sont collectées, valorisées, exploitées, enrichies… Pour disposer d’une parfaite compréhension de vos actifs data, vous devez disposer d’une documentation à jour qui vous renseigne sur les sources de données et sur la façon dont elles sont utilisées. Le data catalog est conçu pour vous aider à maintenir cette documentation à jour.

Avantage Zeenea : Notre catalogue recense et collecte automatiquement les métadonnées via nos APIs et nos scanners afin de toujours garantir que vos données sont à jour. Visualisez l’origine et les transformations de vos données au fil du temps grâce à nos fonctionnalités de lignage intelligent.

Bénéfice N°2 : Assurer la qualité des données

La vocation première du data catalog, c’est de garder une vue claire sur vos données grâce aux metadata. Définition, structure, source, utilisation, procédure à suivre… par nature la gestion des métadonnées par le data catalog contribue à garantir la qualité des données.

Avantage Zeenea : Zeenea permet à vos Data Stewards de construire des templates de métamodèles flexibles pour des types d’objets prédéfinis et personnalisés. Un outil de drag-and-drop permet de déplacer vos propriétés, tags et autres champs dans vos modèles de documentation pour tous les objets de votre catalogue.

Bénéfice N°3 : Respecter les réglementations data

La conformité à la réglementation data est un enjeu crucial dans le cadre d’un projet de Data Stewardship. Le data catalog, par sa capacité à organiser les données et à les centraliser dans un environnement clair, sain et lisible contribue à se soumettre à ces impératifs réglementaires.

Avantage Zeenea : Notre catalogue de données garantit la conformité réglementaire en identifiant, classifiant et en gérant automatiquement les actifs de données personnelles à l’échelle de l’entreprise. Grâce à des recommandations intelligentes, notre catalogue détecte les informations à caractère personnel et donne des suggestions sur les actifs à taguer.

Bénéfice N°4 : Monitorer le cycle de viedes données

Entre gouvernance, qualité et sécurité, votre projet de Data Stewardship implique de suivre, en temps réel le cycle de vie de vos données. Le data catalog répond à cet enjeu en vous offrant la possibilité de monitorer l’ensemble des activités affectant vos données.

Avantage Zeenea : Zeenea propose un tableau de bord aux Data Stewards qui leur permet de suivre et de surveiller l’activité liée aux métadonnées. Vérifiez les niveaux de complétude de votre documentation, les objets du catalogue les plus fréquemment consultés et recherchés, l’état de la connectivité de votre catalogue, et bien plus encore.

Organisation, connaissance, transparence, évolutivité, le data catalog est taillé pour accompagner votre projet de Data stewardship !

Démarrez votre programme de Data Stewardship avec Zeenea

Zeenea propose une solution de gestion des métadonnées qui permet aux Data Stewards de surmonter les défis associés à la gestion de volumes de données de plus en plus importants. Notre solution aide les organisations à maximiser la valeur de leurs données en réduisant le temps passé sur des tâches complexes et fastidieuses de documentation, ainsi qu’en brisant les silos de données pour améliorer la connaissance des datas de l’entreprise.

Contactez-nous dès à présent pour une démonstration gratuite et personnalisée avec un de nos experts :

contactez-nous

Qu’est-ce qui rend un data catalog « smart » (malin) ? n°3 – La gestion des métadonnées

par Zeenea Software | Fév 16, 2022 | Data Catalog, Metadata Management

Un data catalog consolide des millions d’informations de nature très diverses – et ce volume croît de façon exponentielle. Cette volumétrie d’informations va soulever deux challenges majeurs :

Comment alimenter et maintenir ce volume d’information sans exploser le coût de gestion des métadonnées ?
Comment trouver le jeu de données le plus pertinent pour un cas d’usage donné ?

Chez Zeenea, nous pensons qu’un data catalog doit être smart pour répondre à ces 2 questions, via des dispositifs technologiques et conceptuels que l’on qualifie de malins qui ne se cantonnent pas pas à l’intégration d’algorithmes d’intelligence artificielle.

En ce sens, nous avons identifié 5 domaines dans lesquels un data catalog peut être Smart – la plupart ne faisant pas appel au machine learning :

—

C’est dans le domaine de la gestion des métadonnées à proprement parler que la notion de Smart Data Catalog est le plus souvent associée à l’algorithmique, au machine learning et à l’intelligence artificielle.

Comment automatiser la gestion des métadonnées ?

La gestion de métadonnées est l’activité qui consiste à valoriser les attributs du métamodèle pour les actifs inventoriés. L’effort est typiquement proportionnel au nombre d’attributs du métamodèle, et au nombre d’actifs présents dans le catalogue.

Le rôle du Smart Data Catalog va donc consister à automatiser autant que possible cette activité, ou à défaut à assister des opérateurs humains (les Data Stewards) dans cette activité, pour la rendre à la fois plus productive et plus fiable.

Comme évoqué dans le précédent article, une couche de connectivité maline permet d’automatiser une partie des métadonnées, mais cette automatisation reste très largement cantonnée à un sous-ensemble restreint du métamodèle – principalement les métadonnées techniques. Un métamodèle complet, même modeste, comprend également plusieurs dizaines de métadonnées qui ne peuvent pas être extraites des registres des systèmes sources (pour la simple raison qu’elles n’y figurent pas).

Pour résoudre cette équation, plusieurs approches sont possibles :

L’identification des schémas (pattern recognition)

L’approche la plus directe consiste à chercher à identifier des schémas dans le catalogue (pattern recognition) afin de suggérer la valeur des métadonnées pour les nouveaux actifs.

Pour faire simple, un schéma (pattern) va être constitué de l’ensemble des métadonnées d’un actif, et de ses relations avec d’autres actifs ou d’autres entités du catalogue. La reconnaissance de schéma est typiquement réalisée à l’aide d’algorithmes de machine learning plus ou moins supervisés.

Une simple analyse structurelle n’est pas suffisante (deux jeux de données peuvent contenir des données strictement identiques, mais dans des structures différentes). S’appuyer sur l’identité des données n’est pas non plus efficace. Deux jeux de données peuvent contenir des informations identiques mais avec des valeurs différentes. Par exemple, la facturation client de 2020 dans l’un, celle de 2021 dans l’autre.

La difficulté pour mettre en œuvre cette approche est précisément de qualifier les actifs informationnels sous une forme numérique, afin d’alimenter les algorithmes et de sélectionner les schémas pertinents.

Pour résoudre cette difficulté, Zeenea s’appuie sur une technologie que nous appelons fingerprint. Le principe du fingerprint consiste à réduire un jeu de données (plus précisément un champ dans un jeu de données) à un vecteur numérique caractérisant cette donnée (on parle de « features »).

Nous remontons deux grandes familles de « features » depuis les données de nos clients pour construire le fingerprint :

Un ensemble de « features » adaptés aux données numériques (majoritairement des indicateurs statistiques) ;
Des données issues de modèles de « word embedding » (vectorisation de mots) pour les données textuelles.

Le fingerprint est au cœur de nos algorithmes intelligents.

Les autres approches embarquées dans le moteur de suggestions

La reconnaissance de schéma est certes une approche efficace pour suggérer les métadonnées d’un nouvel actif intégré dans le catalogue, mais elle repose sur un pré-requis important : il faut qu’il y ait des schémas à reconnaître. Autrement dit, elle ne fonctionne que si le catalogue est déjà constitué pour un grand nombre d’actifs, ce qui n’est bien sûr pas le cas lorsque l’on démarre le projet.

Hors c’est précisément dans ces phases initiales de construction du catalogue que la charge de gestion des métadonnées est la plus importante. Il est donc nécessaire d’intégrer d’autres approches susceptibles d’assister les Data Stewards dans ces phases de démarrage, quand le catalogue est plus ou moins vide…

Le moteur de suggestion de Zeenea, qui fournit les algorithmes intelligents d’assistance à la gestion de métadonnées, embarque donc d’autres approches (et nous l’enrichissons régulièrement). Voici certaines de ces approches :

La détection de similarités structurelles
La détection de similarités par fingerprint
L’approximation des noms

Ce moteur de suggestions, qui analyse le contenu du catalogue pour déterminer les valeurs probables des métadonnées des actifs intégrés, est un domaine d’expérimentation perpétuelle. Nous y ajoutons régulièrement de nouvelles approches, parfois très simples, d’autres beaucoup plus sophistiquées. Dans notre architecture, c’est un service dédié dont les performances s’améliorent à mesure que le catalogue grossit et que nous enrichissons nos algorithmes.

Chez Zeenea, nous avons choisi d’utiliser le temps de cycle comme métrique principale de mesure de la productivité des Data Stewards (qui est l’objectif ultime de la gestion de métadonnées smart). Le temps de cycle (ou lead time) est une notion issue du lean management, et qui mesure, dans le contexte du data catalog, le temps écoulé entre le moment où un actif est inventorié et celui où toutes ses métadonnées ont été valorisées.

Pour comprendre comment une gestion “smart” (maligne) des métadonnées renforce les capacités d’un data catalog, téléchargez notre eBook : “Qu’est-ce qu’un Smart Data Catalog ?” dès maintenant!

Télécharger l'ebook

Exploiter la valeur du Data Lineage dans l’organisation : une approche métier

par Zeenea Software | Nov 14, 2021 | Data Catalog, Metadata Management

Dans notre précédent article, nous avons décomposé le Data Lineage en présentant les différentes typologies de lineage (couche physique, couche métier et couche sémantique) et les différents niveaux de granularité (valeurs, champs, datasets, application).

Nous allons vous présenter ici notre approche matricielle pour concentrer vos efforts et vos ressources là où la valeur du Data Lineage est la plus forte pour vos différentes équipes (métiers).

Notre matrice centrée sur les métiers

Pour bien appréhender l’approche Zeenea du data lineage centrée sur les métiers au sein de l’entreprise, nous vous invitons au préalable à lire notre article sur la décomposition du data lineage.

Les différents profils métiers dans l’organisation

Nous avons classé les populations qui souhaitent exploiter la valeur du Data Lineage dans une organisation en 4 grandes catégories :

IT : ce sont les ingénieurs et architectes chargés de développer et de maintenir l’infrastructure, les flux et les applications data.

Analytique : ce sont les équipes chargées d’analyser les données, de construire des indicateurs, des tableaux de bord, des rapports, etc.

Métier : ce sont tous les acteurs chargés d’imaginer puis d’opérer les usages et applications fonctionnelles autour des données – chefs de projets, chefs de produits, analystes métier, etc.

Conformité : ce sont les équipes responsables de la conformité réglementaire, de la sécurité, du contrôle interne, etc.

Valeur ajoutée du Data Lineage en fonction du profil métier

La matrice suivante synthétise la valeur ajoutée apportée par le Data Lineage pour les différentes combinaisons typologie, granularité et profil métier.

À l’observation de cette matrice, et sachant que le lineage de niveau supérieur peut être déterminé à partir de celui du niveau inférieur, il est tentant de se fixer comme objectif de gérer le lineage au niveau champ : c’est à ce niveau que la valeur ajoutée est la plus élevée, et il permet de produire automatiquement le lineage sur les niveaux supérieurs.

Les choses, bien sûr, ne sont pas si simples !

Si le bénéfice du lineage champ à champ est indiscutable, il présente un inconvénient majeur : son coût. Quel que soit la couche de lineage considérée, le coût de production et de maintenance va en effet dépendre principalement de deux variables :a volumétrie (nombre d’objets pris en compte et nombre de liens entre eux), et la capacité à automatiser la récupération et la mise à jour de ces informations.

Sur ces deux aspects, le lineage champ à champ présente clairement le profil le plus défavorable..

Les limites du lineage champ à champs: Une volumétrie gigantesque

Concernant la volumétrie, on comprend facilement que le nombre de champs matérialisés dans un système d’information même de taille modeste atteint facilement plusieurs dizaines de milliers, quand ce n’est pas des centaines de milliers voire des millions. Maintenir l’information de lineage manuellement sur un tel volume d’objets n’est pas raisonnable. La seule voie praticable est donc celle de l’automatisation massive.

Des possibilités d’automatisation limitées

En théorie, le lineage technique champ à champ peut être automatisé en inspectant les différentes étapes du traitement, depuis la capture initiale de la donnée jusqu’à ses usages finaux. En pratique, cette automatisation se heurte à la très grande hétérogénéité des solutions d’intégration et de traitement des données. Certains fournisseurs proposent des solutions pour réaliser ces opérations.

Nous avouons de ne pas y croire, pour deux raisons : d’une part le reverse-engineering est une opération fragile, dont la fiabilité ne peut être garantie à 100% ; d’autre part la panoplie de solutions et de langages utilisés dans les pipelines de données est trop vaste, et l’innovation constante dans ce domaine rend difficile pour une solution commerciale de garantir une couverture intégrale de toutes les technologies mises en œuvre dans un environnement donné.

Une granularité au champ est séduisante, mais hors de portée en pratique.

Notre approche pour une optimisation du Data Lineage

Le pivot : la couche physique au niveau des datasets

Si l’on reprend la matrice présentée plus haut, il apparaît que la valeur du lineage au niveau dataset est très proche de celle du lineage champ à champ.

Pour les profils IT, métier et analytique, elle est dans la plupart des cas équivalente. Le principal écart concerne la conformité. Pour la plupart des normes, l’exigence de documentation du lineage concerne des champs. Mais la conformité ne concerne pas toutes les données de l’organisation, uniquement celles que l’on qualifie de critical data elements (CDE).

Les CDE sont de différentes natures – données personnelles, données sensibles, données de risque, etc. Mais elles possèdent l’intérêt de ne représenter qu’une infirme portion des données totales – souvent quelques dizaines ou quelques centaines de champs dont il faut fournir le lineage aval ou amont.

Partant de là, voici l’approche générale qui a notre préférence pour la couche physique :

Focaliser l’effort sur le lineage au niveau dataset, en visant l’automatisation la plus poussée possible.

Associer les datasets (et autres objets physiques de même niveau) aux applications auxquelles ils sont rattachés – cette opération est généralement facile à automatiser, elle est globalement stable dans le temps, et peut au pire être gérée manuellement dans le catalogue.

Compléter localement par du lineage champ à champ ciblé sur les CDEs – on pourra automatiser quand c’est possible, mais également s’appuyer sur les processus de revue périodique courant dans les dispositifs réglementaires.

Lineage des couches métier et sémantique

Pour ce qui est des autres couches (métier et sémantique), l’approche est sensiblement différente : l’automatisation n’est guère possible. Aucun miracle, donc : le lineage métier et le lineage sémantique devront probablement être gérés à la main.

Pour ce qui est de la couche métier, nous proposons plutôt une approche top-down. Cela signifie que le premier effort devrait être consacré à définir le lineage métier au niveau application. Les datasets et champs contenus dans les applications hériteront de ce lineage métier. On devrait également être en mesure de définir le lineage métier à un niveau plus fin, mais uniquement quand un cas d’utilisation le justifie.

Pour la couche sémantique, les choses sont encore un peu différentes. En effet, un effort spécifique est nécessaire pour construire le glossaire. Cet effort est de l’ordre de la modélisation, et sera plus ou moins considérable selon la taille du corpus de données, et l’existence préalable de modèles pouvant être importés ou intégrés au catalogue.

Le point d’ancrage naturel du modèle sémantique sur la couche physique du lineage se fait au niveau des champs. Or une nouvelle fois, l’automatisation est peu praticable – vous ne possédez probablement pas de système référençant de façon systématique le sens de chacun des champs de tous vos systèmes.

L’association entre les champs de la couche physique et les définitions de la couche sémantique devra donc être faite manuellement, ce qui représente une nouvelle fois une tâche titanesque si l’on cherche à le faire de façon exhaustive.

Conclusion

Le Data Lineage est un sujet complexe, qui peut être décomposé en couches (physique, métier et sémantique) et en plusieurs niveaux de granularité (valeur, champ, dataset, application).

La valeur du lineage peut alors être représentée sous la forme d’une matrice très dépendante des cas d’usage, et des populations qui l’exploitent. Le coût de production et de maintenance de l’information de lineage est alors fonction de la capacité d’automatisation, et de la volumétrie d’objets au niveau considéré.

Pour en savoir plus sur les bonnes pratiques du Data Lineage, téléchargez dès maintenant notre eBook : Tout ce que vous avez toujours voulu savoir sur le Data Lineage !

Télécharger

Data catalog : le maillon essentiel de la gestion des métadonnées ?

par Zeenea Software | Sep 6, 2021 | Data Catalog, Metadata Management

Votre entreprise produit ou exploite toujours plus de données ? Pour les classer, les ordonner, et les faire parler, au quotidien, il faut de l’ordre. En assurant une gestion rigoureuse des métadonnées, adossée à un catalogue de données performant, vous pourrez gagner en pertinence comme en efficacité.

Les entreprises produisent toujours plus de données. Au point que les capacités de traitement et d’exploitation peuvent être mises à mal, non pas faute de connaissances, mais plutôt d’organisation. Quand les volumes de données explosent, la gestion des données se complexifie.

Pour y mettre bon ordre, la gestion des métadonnées devient un enjeu central.

Qu’est ce que les métadonnées et comment les gérer ?

Les métadonnées sont utilisées pour décrire les informations contenues dans une donnée : source, type, heure, date, taille, … L’éventail de metadata susceptible d’être rattaché à une donnée est vaste. Sans les métadonnées, vos données sont décontextualisées, elles perdent de leur savoir et deviennent difficiles à classer, ordonnancer et valoriser. Mais parce qu’elles sont très nombreuses et très disparates, il faut être en mesure de maîtriser cette manne d’informations.

Actualisation, précision, accessibilité, le metadata management (gestion des métadonnées en français) s’impose donc comme une pratique incontournable. Pour relever le défi d’une gestion optimale des métadonnées, il est essentiel de vous appuyer sur un Data Catalog.

Data Catalog : À quoi ça sert ?

Un catalogue de données, c’est un peu comme l’index d’une gigantesque encyclopédie. Parce que par nature les données que vous collectez et administrez au quotidien sont diverses, il est nécessaire de les classer et de les identifier clairement. Dans le cas contraire, votre portefeuille de données deviendrait un capharnaüm insondable dont vous ne tireriez aucune valeur ajoutée.

Chez Zeenea, nous définissons un data catalog comme étant :

Un inventaire détaillé de tous les actifs de données d’une organisation et de leurs métadonnées, conçu pour aider les professionnels de la donnée à trouver rapidement les informations les plus appropriées pour tout objectif business et analytique.

Un Data Catalog est un pilier à la gestion des métadonnées grâce aux fonctionnalités suivantes :

Dictionnaire des données

Chaque donnée collectée ou utilisée est décrite de façon à pouvoir être mise en perspective avec les autres. Ce thésaurus des métadonnées est un pilier de l’exploitation efficace et pragmatique de votre catalogue de données. En référençant l’ensemble des données de votre entreprise au sein d’un Data Dictionary, le Data Catalog contribue à optimiser l’accessibilité à l’information même si l’utilisateur n’a pas accès au logiciel concerné.

Registre de métadonnées

Ce référentiel de métadonnées dynamique intervient à tous les niveaux : du jeu de données à la donnée en elle-même. Pour chaque élément, ce registre de métadonnées peut faire figurer une description business et technique, les propriétaires, des indicateurs de qualité ou encore créer une taxonomie (properties, tags, etc.).

Moteur de recherche de la data

Votre catalogue de données vous permettra d’accéder à vos data grâce à ses fonctionnalités de recherche intégrées. Toutes les métadonnées renseignées dans le registre sont requêtables depuis le moteur de recherche du data catalog. Les recherches peuvent être triées, filtrées à tous les niveaux.

Data Catalog et Métadonnées : les deux piliers de l’excellence data !

Inutile de chercher à opposer le catalogue de données et le concept de metadata management car ils vont tout simplement de pair.

Le Data Catalog est en quelque sorte un référentiel incontournable pour uniformiser toutes les métadonnées qui sont susceptibles d’être partagées dans votre entreprise. Ce référentiel contribue à une compréhension et une documentation fine de l’ensemble de vos actifs data.

Mais attention ! L’intégration d’un Data Catalog est un projet qui nécessite rigueur et méthode. Pour entamer ce chantier et libérer votre potentiel data, commencez par réaliser un audit complet de vos données et procédez de manière itérative.

Téléchargez votre template de métamodèle !

télécharger

Garant de la bonne utilisation de vos données, le catalogue de données est un levier majeur à actionner pour renforcer la gestion des métadonnées de votre entreprise !

Marquez : la solution de découverte de métadonnées chez WeWork

par Zeenea Software | Déc 10, 2020 | Inspiration Data, Metadata Management

Créée en 2010, WeWork est une société internationale de location de bureaux et d’espaces de travail. Son objectif est de fournir des espaces de collaboration à des équipes de toutes tailles, y compris les start-ups, les PME et les grandes entreprises. Pour y parvenir, l’entreprise propose trois catégories de services :

La location d’espace : Pour garantir aux entreprises un espace optimal, WeWork fournit l’infrastructure appropriée : de la réservation de salles de réunion à la location de bâtiments entiers pour les grandes entreprises. La firme doit également s’assurer de proposer les aménagements nécessaires tels qu’une cuisine pour les déjeuners et les pauses café, des WC, etc.

Le communautaire : Via son application interne, l’entreprise permet aux membres de WeWork de se connecter les uns aux autres, que ce soit au niveau local dans leur propre espace WeWork, ou au niveau mondial. Par exemple, WeWork peut mettre en relation un développeur ou un graphiste avec une entreprise en recherche depuis l’application à n’importe quel membre, indépendamment de sa localisation.

Les services : WeWork fournit également à ses membres des services divers en cas de problème tels que des services liés à la facturation, à l’informatique, à l’entretien, etc.

En 2020, WeWork représente :

Plus de 600 000 adhésions,
Implantée dans 127 villes de 33 pays différents,
850 bureaux dans le monde entier,
1,82 milliard de dollars de revenus.

Il est clair que WeWork travaille avec toutes sortes de données provenant de son personnel et de ses clients, qu’il s’agisse de particuliers ou d’entreprises. L’énorme firme avait donc besoin d’une plateforme où ses experts data pourraient consulter, collecter, agréger et visualiser les métadonnées de leur écosystème data. Ce problème a été résolu par la création de Marquez.

Cet article se concentrera sur la mise en œuvre de Marquez par WeWork, provenant principalement de documentations libres et accessibles depuis divers sites, afin d’illustrer l’importance de disposer d’une plateforme de métadonnées pour réellement devenir data-driven.

Pourquoi gérer et utiliser les métadonnées ?

Durant sa conférence « A Metadata Service for Data Abstraction, Data Lineage & Event-based Triggers« , présenté au Data Council en 2018, Willy Lulciuc, data engineer pour le projet Marquez chez WeWork, a expliqué que les métadonnées sont cruciales pour trois raisons :

Garantir la qualité des données : lorsque les données n’ont pas de contexte, il est difficile pour les utilisateurs data de faire confiance à leur patrimoine de données : y a-t-il des champs manquants ? La documentation est-elle à jour ? Qui est le propriétaire des données et en est-il toujours le propriétaire ? L’utilisation de métadonnées permet de répondre à ces questions.

Comprendre le data lineage : il est essentiel de connaître l’origine et les transformations de vos données pour être en mesure de savoir réellement par quelles étapes vos données sont passées au fil du temps.

Démocratisation des jeux de données : Selon Willy Lulciuc, la démocratisation des données dans l’entreprise est essentielle ! Disposer d’un portail central ou d’une interface utilisateur permettant aux utilisateurs de rechercher et d’explorer leurs jeux de données est l’un des moyens les plus importants pour créer une véritable culture de données en libre-service.

En résumé : créer un écosystème de données “healthy“!

Willy explique que le fait de pouvoir gérer et utiliser les métadonnées crée une culture des données durable où les individus n’ont plus besoin de demander de l’aide pour trouver et travailler avec leurs données. Lors de sa conférence, trois catégories sont présentées. Elles constituent cet “écosystème de données healthy” :

Un écosystème en libre service, où les utilisateurs de données ont la possibilité de découvrir les données et les métadonnées dont ils ont besoin, et d’explorer les ressources de données de l’entreprise lorsqu’ils ne savent pas exactement ce qu’ils recherchent. Ajouter du contexte à ses données, donne la possibilité à tous les utilisateurs et citoyens data de travailler efficacement sur leurs cas d’utilisation

Être autonome en donnant aux utilisateurs data la liberté d’expérimenter avec leurs jeux de données ainsi que de la flexibilité de travailler sur tous les aspects de leurs jeux de données, qu’ils soient entrant ou sortant par exemple.

Enfin, au lieu de dépendre de certains individus ou groupes, un écosystème de données sain permet à tous les employés d’être responsables de leurs propres données. Chaque utilisateur a la responsabilité de connaître ses données, leurs coûts (ces données produisent-elles suffisamment de valeur ?) ainsi que de suivre la documentation de ses données afin d’établir la confiance autour de ses jeux de données.

Les réservations de salles avant Marquez

Comme mentionné ci-dessus, l’utilisation des métadonnées est cruciale pour que les utilisateurs data puissent trouver les données dont ils ont besoin. Afin d’illustrer un cas d’usage concret, M. Willy expose un pipeline de données chez WeWork pour la réservation d’une salle.

Pour un « WeWorker », les étapes sont les suivantes :

Trouver un lieu (l’exemple était un complexe d’immeubles à San Francisco)
Choisir la taille de la salle appropriée (généralement divisée en fonction du nombre de participants – dans ce cas, ils ont choisi une salle pouvant accueillir de 1 à 4 personnes)
Choisir la date à laquelle la réservation aura lieu
Décider du créneau horaire pour lequel la salle est réservée ainsi que de la durée de la réunion
Confirmer la réservation

Réservation faite, Willy explique à présent comment une équipe de données standard ferait pour extraire des données depuis ce pipeline. Dans ce cas, l’exercice consiste à trouver le bâtiment qui contient le plus grand nombre de réservations de chambres, et à extraire ces données pour les envoyer à la direction. Les étapes indiquées sont les suivantes :

Lire les réservations de salles à partir d’une source de données (généralement inconnue),
Faites la somme de toutes les réservations de chambres et afficher les meilleurs emplacements,
Une fois le calcule effectué, le retranscrire dans une source de données de sortie,
Exécuter le job une fois par heure,
Traitez les données par le biais de fichiers .csv et stockez-les quelque part.

Cependant, et même si ces mesures semblent être suffisantes, Willy déclare qu’il y a des problèmes récurrents qui surviennent. Ils sont généralement de trois types :

Où puis-je trouver le jeu de données d’entrée du job ?
Le jeu de données a-t-il un propriétaire ? Qui ?
À quelle fréquence le jeu de données est-il mis à jour ?

La plupart de ces questions sont difficiles à répondre et les jobs finissent par échouer. Sans être sûr de faire confiance à ces informations, il peut être compliqué de présenter des chiffres à la direction ! Ce sont ce genre de problèmes et de questions qui ont fait que WeWork a développé Marquez.

Qu’est-ce que “Marquez” ?

Willy définit la plateforme comme une « solution open-source pour l’agrégation, la collecte et la visualisation des métadonnées de l’écosystème de données de WeWork ». En effet, Marquez est un système modulaire et a été conçu comme une solution de gestion des métadonnées hautement extensible et évolutive, indépendante de la plateforme. Il se compose des éléments suivants :

Répertoire de métadonnées : il stocke toutes les métadonnées des jobs et des jeux de données, y compris un historique complet et des statistiques au niveau des jobs (c’est-à-dire le nombre total de jobs, la durée moyenne d’exécution, les succès/échecs, etc.)

API de métadonnées : des API RESTful permettant à un ensemble de clients de collecter des métadonnées sur la production et la consommation des jeux de données.

Interface “user-friendly” des métadonnées : Utilisée pour la découverte de jeux de données, la connexion de plusieurs jeux de données et l’exploration.

Le design de Marquez

Marquez fournit des langages qui mettent en œuvre l’API de métadonnées. Cela permet à un ensemble diversifié d’applications de traitement des données de constituer une collection de métadonnées. Dans leur version initiale, ils ont fourni un support à la fois pour Java et Python.

L’API de métadonnées extrait des informations sur la production et la consommation des jeux de données. Il s’agit d’une couche apatride chargée de spécifier à la fois la persistance et l’agrégation des métadonnées. L’API permet aux clients de collecter et/ou d’obtenir des informations sur les jeux de données à destination/en provenance du répertoire de métadonnées.

Les métadonnées doivent être collectées, organisées et stockées de manière à permettre de riches recherches via l’interface utilisateur des métadonnées. Le répertoire de métadonnées sert à cataloguer les informations sur les jeux de données et proprement extraites les métadonnées par l’API.

Selon Willy, ce qui fait un écosystème de données solide est la possibilité de rechercher des informations et des jeux de données. Les jeux de données de Marquez sont indexés et classés à l’aide d’un moteur de recherche basé sur des mots ou des expressions clés ainsi que sur la documentation d’un jeu de données : plus un jeu de données est contextualisé, plus il a de chances d’apparaître en premier dans les résultats de recherche. La documentation d’un jeu de données comprend, par exemple, sa description, son propriétaire, son schéma, son tag, etc.

Vous pouvez voir plus de détails sur le modèle de données de Marquez dans sa présentation → https://www.youtube.com/watch?v=dRaRKob-lRQ&ab_channel=DataCouncil

L’avenir de la gestion des données chez WeWork

Deux ans après le projet, Marquez s’est avéré être d’une grande aide pour le géant du co-working. Leur roadmap à long terme consiste à se concentrer uniquement sur l’interface utilisateur de leur solution, en incluant davantage de visualisations et de représentations graphiques afin de fournir aux utilisateurs des moyens plus simples d’interagir avec leurs données.

Ils proposent également diverses communautés en ligne via leur page Github, ainsi que des groupes sur LinkedIn pour ceux qui sont intéressés par Marquez afin de poser des questions, obtenir des conseils ou même signaler des problèmes sur la version actuelle de Marquez.

Sources

A Metadata Service for Data Abstraction, Data Lineage & Event-based Triggers, WeWork. Youtube: https://www.youtube.com/watch?v=dRaRKob-lRQ&ab_channel=DataCouncil

29 Stunning WeWork Statistics – The New Era Of Coworking, TechJury.com:https://techjury.net/blog/wework-statistics/

Marquez: Collect, aggregate, and visualize a data ecosystem’s metadata, https://marquezproject.github.io/marquez/

Marquez: An Open Source Metadata Service for ML Platforms Willy Lulciuc

Qu’est-ce que la “data literacy” ? Des conseils pour maîtriser vos données.

par Zeenea Software | Oct 28, 2020 | Metadata Management

La data literacy est un sujet tendance depuis quelques années, et les entreprises comprennent de plus en plus qu’il s’agit d’une compétence essentielle pour se transformer en organisation data-driven.

La technologie peut être un point d’échec si elle n’est pas gérée correctement, mais elle n’est souvent pas l’obstacle le plus important. En effet, selon le sondage annuel “Chief Data Officer” de Gartner, les principaux obstacles sont liés à des facteurs culturels – l’humain, la data literacy et les compétences requises

Cependant, de nombreuses entreprises ont encore du mal à comprendre ce qu’est réellement la data literacy, ou à savoir comment repenser leur organisation culturelle pour en faire une culture orientée vers les données.

Selon leur enquête en 2020, New Vantage Partners a fait ce constat :

« Les entreprises continuent à se concentrer sur l’offre de données et de technologies, au lieu d’accroître la demande de ces dernières par les dirigeants et les employés. Il s’agit d’une poussée technologique plutôt que d’une demande de la part des humains qui veulent prendre davantage de décisions basées sur les données, développer des processus commerciaux plus intelligents ou intégrer des données et des analyses dans davantage de produits et de services ».

Dans cet article, nous aimerions vous éclairer sur ce qu’est la data literacy, pourquoi elle est importante pour votre entreprise, et donner des conseils sur la manière de devenir une organisation data literate.

La définition de data literacy

Tout comme literacy (alphabétisation en français) signifie avoir « la capacité de lire pour acquérir des connaissances, d’écrire de manière cohérente et de réfléchir de manière critique sur des documents imprimés », la data literacy est la capacité de consommer pour acquérir des connaissances, de produire de manière cohérente et de réfléchir de manière critique sur les données.

En 2019, Gartner a défini la data literacy comme étant « la capacité à lire, écrire et communiquer autour données dans leur contexte, y compris la compréhension des sources et des constructions de données, des méthodes et des techniques analytiques appliquées – et la capacité à décrire le cas d’utilisation, l’application et la valeur qui en résulte ».

Ainsi, se basant sur ces définitions, nous pouvons conclure que les personnes ayant une bonne data literacy peuvent, entre autres :

faire des analyses en utilisant des données,
utiliser les données pour communiquer des idées de nouveaux services, produits, flux ou même stratégies,
comprendre les tableaux de bord (visualisations par exemple),
prendre des décisions fondées sur les données plutôt que sur l’intuition

En résumé, la data literacy signifie que l’on dispose de compétences nécessaires pour pouvoir utiliser efficacement les données, individuellement et en collaboration.

Pourquoi la data literacy est-elle importante ?

Gartner s’attend à ce que, d’ici 2020, 80 % des organisations entreprennent un développement délibéré de compétences dans le domaine de la data literacy afin de surmonter les déficiences extrêmes. D’ici 2020, 50 % des organisations ne disposeront pas de compétences suffisantes en matière d’IA et de data literacy pour atteindre leurs objectifs business.

L’augmentation du volume et de la variété des données (ce dont les entreprises sont inondées quotidiennement !) exigent que les employés acquièrent des compétences de haut niveau telles que la pensée critique, la résolution de problèmes, la pensée analytique en utilisant la data. Comme les organisations deviennent de plus en plus data-driven, une mauvaise data literacy deviendra un frein à leur croissance. En effet, dans son enquête « The Human Impact of Data Literacy« , Accenture a constaté que :

75 % des employés sont mal à l’aise lorsqu’ils travaillent avec des données.
1/3 des employés ont pris un jour de congé de maladie en raison de maux de tête liés au travail avec des données.
Un manque de data literacy coûte aux employeurs 5 jours de productivité, ce qui se traduit par des milliards de dollars de perte de productivité par employé chaque année.

De plus, une enquête de Deloitte menée en 2019 a révélé que 67 % des cadres ne sont pas à l’aise pour accéder aux ressources de données ou pour les utiliser.

Les données renforcent la capacité des organisations à créer des opportunités business physiques et digitales, en améliorant la précision, en augmentant l’efficacité et en renforçant la capacité de la main-d’œuvre à fournir une plus grande valeur. Il est donc important et essentiel de pouvoir interpréter, analyser et communiquer les résultats des données pour pouvoir découvrir les secrets cachés que peuvent révéler les données pour qu’une entreprise puisse prospérer et avoir l’avantage concurrentiel.

Conseils pour devenir data literate

Afin de mettre en place un programme de data literacy efficace, voici quelques conseils pour aider votre organisation à maîtriser vos données :

Conseil n°1 – Développer une vision de la data literacy et des objectifs associés

Toute organisation investissant dans les données et les capacités de l’IA devrait déjà avoir entrepris la création d’une vision et d’une feuille de route spécifique aux données. Les responsables des données et de la DSI auront identifié et hiérarchisé les domaines d’activité dans lesquels les données peuvent produire de la valeur.

Ces étapes sont essentielles pour créer une organisation qui maîtrise les données et pour réduire les frictions autour de la compréhension et de l’utilisation des données.

La direction et les RH doivent faire savoir à l’ensemble de l’entreprise que les données sont un actif stratégique qui crée de la valeur. En utilisant la vision des données et la feuille de route comme contexte, ils doivent pouvoir expliquer à tous les employés pourquoi les données sont importantes, comment elles créent de la valeur et comment elles ont un impact sur l’entreprise.

L’absence d’une vision claire des données et d’un plan pour en créer de la valeur sera source de frustration et, par conséquent, les employés ne comprendront pas pourquoi on leur demande de faire des efforts et n’auront donc pas la motivation nécessaire pour les faire.

En outre, une vision de la data literacy devrait détailler les compétences et les capacités souhaitables, ainsi que le niveau de compréhension requis pour les différentes unités et rôles associés.

Les dirigeants, ainsi que les départements de l’IT et des Ressources Humaines doivent créer un cadre pour atteindre les objectifs de maîtrise, mesurer les progrès et créer un moyen de maintenir la data literacy. Il s’agit notamment de décider comment mesurer et suivre le développement des compétences, et dans quelle mesure les différentes parties de l’organisation doivent utiliser les données pour atteindre leurs objectifs stratégiques.

Conseil n°2 – Évaluer les compétences de vos employés

Idéalement, les compétences en matière de data literacy devraient être évaluées lors du processus de recrutement des nouveaux employés. De cette façon, les RH sauront déjà quel type d’apprentissage de data literacy devrait être proposé au nouvel employé au fil du temps.

Toutefois, pour les employés actuels, les RH peuvent cartographier les compétences de data literacy en fonction des rôles et responsabilités prévus dans les étapes ci-dessus, et déterminer les lacunes.

Conseil n°3 – Créer des modules de data literacy

Selon Qlik, seulement 34% des entreprises proposent une formation de data literacy.

Dans la plupart des cas, le département des ressources humaines est chargé d’aider les chefs d’entreprise à identifier et à suivre les domaines d’amélioration et les opportunités de développement pour les employés. Ils sont également chargés d’organiser les procédures d’apprentissage de compétences organisationnelles spécifiques ainsi que le temps nécessaire. Il en va de même lorsqu’il s’agit de la data literacy.

Une fois que les RH et les responsables ont une idée générale des forces et des faiblesses d’un employé ou d’une unité commerciale en matière de data litracy, les RH peuvent commencer à élaborer des programmes d’apprentissage personnalisés et efficaces qui permettent aux employés d’améliorer leur niveau de data literacy et leurs responsabilités analytiques.

Conseil n°4 – Suivre, mesurer et répéter

Il faut du temps pour mettre en place un programme de data literacy efficace. Les chefs d’entreprise doivent permettre à leurs employés d’investir le temps nécessaire à la data literacy et à l’amélioration de leurs compétences. Avec le temps, la réflexion sur les données fera partie de la culture d’entreprise.

Enfin, il est important de communiquer les progrès de la data literacy à l’échelle de l’entreprise et au niveau individuel. Le suivi et la communication des progrès sont essentiels pour poursuivre l’évaluation de la feuille de route, de la vision et de la data literacy de votre organisation.

Ce type de planification à long terme et d’investissement dans l’éducation de toute l’organisation sur la façon d’accéder, de comprendre et d’analyser les données sur le terrain accélérera les efforts et l’investissement que les équipes de data science, de machine learning et d’IA font.

Les résultats des efforts de data literacy permettront aux organisations d’être enfin en mesure d’adopter et d’exploiter les données dans toute l’entreprise et pour une valeur maximale !

Qu’est-ce que la data preparation ?

par Zeenea Software | Juil 20, 2020 | Metadata Management

Lorsqu’on parle de data management, on parle souvent de « data preparation ».

Selon SearchBusinessAnalytics, la data preparation est le processus de collecte, de combinaison, de structuration et d’organisation des données afin qu’elles puissent être analysées dans le cadre d’applications de visualisation, et d’analyse des données. En d’autres termes, il s’agit du processus de nettoyage et de transformation des données brutes avant leur analyse.

La data preparation est souvent un long processus pour les utilisateurs data, mais elle est néanmoins essentielle pour donner un contexte aux données et les transformer en précieuses informations business. En 2016, selon Forbes, 76 % des data scientists ont déclaré que la data preparation était la pire partie de leur travail ! Cependant, des décisions stratégiques précises ne peuvent être prises que par l’analyse de données propres.

Comment fonctionne la data preparation

La data preparation est une partie essentielle de nombreuses applications d’entreprise gérées par le département informatique, comme le data warehousing ou la business intelligence. Il s’agit également d’une pratique menée par l’entreprise pour les rapports et les analyses ad hoc, les utilisateurs business compétents en informatique et en technologie, tels que les data scientists, étant régulièrement accablés par des demandes de data preparation personnalisées.

De nos jours, il y a un intérêt croissant à doter les utilisateurs business d’outils en libre-service pour la data preparation – afin qu’ils puissent manipuler et accéder aux sources de données par eux-mêmes, sans compétences techniques.

Les étapes de la data preparation sont les suivantes :

Étape 1 : Accès aux données

La première étape de la data preparation consiste à pouvoir accéder aux données de n’importe quelle source, quel qu’en soit l’origine, le récit ou le format. La solution optimale pour donner accès aux données à l’échelle de l’entreprise est la mise en place d’un data catalog. Cet outil essentiel est la clé pour commencer votre chemin vers la data preparation.

>> Pour plus d’informations sur Zeenea Data Catalog <<

Étape 2 : Découvrir les données

Après l’accès aux données, l’étape suivante consiste à découvrir les données. Le data discovery permet aux entreprises d’évaluer correctement le patrimoine des données. Il aide tous les employés à comprendre leurs données et leur contexte grâce aux métadonnées. Le data discovery est également très utile pour les entreprises qui cherchent à mieux gérer la conformité. Il permet aux entreprises de savoir quelles données sont personnelles / sensibles et où elles peuvent être trouvées. En outre, le data discovery peut favoriser l’innovation, car il débloque des informations essentielles pour satisfaire les clients et obtenir un avantage concurrentiel.

Étape 3 : Nettoyer les données

Traditionnellement la partie la plus longue de la data preparation, le nettoyage des données est néanmoins l’une des tâches les plus importantes pour éliminer les mauvaises données. Les mauvaises données peuvent inclure des données obsolètes, des données en double, des données non fiables, etc. Le nettoyage des données comprend donc des tâches fastidieuses telles que le remplissage des informations manquantes, le fait de rendre les données privées ou sensibles, l’ajout de descriptions et la normalisation des modèles de données.

Étape 4 : Enrichir les données

Après avoir nettoyé toutes les données, il est temps de commencer à les transformer et à les enrichir. Cette étape comprend la connexion de vos données avec d’autres sources de données connexes afin d’obtenir des informations plus précises. Un data catalog est également une partie importante de cette étape de data preparation.

>> Plus d’informations sur les connecteurs de Zeenea <<

Étape 5 : Stockage des données

La dernière étape de la data preparation est le stockage des données. En stockant correctement les données de votre entreprise, cela permet aux équipes chargées des données de pouvoir utiliser des données fraîches et propres pour leur analyse.

L’avenir de la data preparation

Initialement axée sur l’analyse, la data preparation a évolué pour traiter un ensemble beaucoup plus large de cas d’utilisation et peut être utilisée par un plus grand nombre d’utilisateurs.

Bien qu’elle améliore la productivité personnelle de ceux qui l’utilisent, elle a évolué pour devenir un outil d’entreprise qui favorise la collaboration entre les professionnels de l’informatique, les experts en données et les utilisateurs professionnels.

Gartner: Les tendances Data & Analytics en 2020

par Zeenea Software | Juil 16, 2020 | Inspiration Data, Metadata Management

La récente pandémie mondiale a laissé de nombreuses organisations dans un état incertain et fragile. Il est donc fondamental que les entreprises suivent les nouvelles tendances data & analytics afin de rebondir et de gagner un avantage concurrentiel.

De la crise à l’opportunité, le rôle de la data & analytics s’étend et devient plus stratégique et critique. La société en général devient de plus en plus digitale, complexe, mondiale, avec une concurrence toujours plus grande et des clients émancipés. Les perturbations massives, la crise et le ralentissement économique obligent les entreprises à répondre à des demandes jusqu’alors inimaginables pour optimiser les ressources, réinventer les processus et repenser les produits, business modèles et même leur finalité.

Il est donc évident que les data & analytics sont essentielles pour les entreprises qui tentent de se sortir des effets dévastateurs de la crise.

Cependant, le manque de confiance et d’accès aux données n’a jamais été un défi aussi important ! Pour un résulat business réussi, il est essentiel de mettre en place une base de confiance, de sécurité, de gouvernance et de responsabilité autour des données.

Nous partageons dans cet article, les tendances actuelles en data analytics pour aider votre entreprise à prospérer:

#1 – L’utilisation de nouvelles techniques d’IA

D’ici la fin 2024, 75% des entreprises passeront du pilotage à l’opérationnalisation de l’IA, entraînant une multiplication par 5 des infrastructures de data analytics.

Dans le contexte actuel, les techniques d’IA telles que le machine learning, l’optimisation et le traitement du langage naturel fournissent des informations et des prévisions essentielles sur la propagation du virus et sur l’efficacité et l’impact des contre-mesures. Avec l’utilisation business de l’IA, les organisations découvrent de nouvelles techniques plus intelligentes, notamment l’apprentissage par renforcement et l’apprentissage distribué, les systèmes interprétables et les infrastructures efficaces qui gèrent les situations complexes.

#2 – Moins de tableaux de bord

D’ici 2025, les data stories seront le moyen le plus répandu de consommer des analyses, et 75 % des stories seront générées automatiquement à l’aide de techniques d’analyse augmentée.

Aujourd’hui, les employés des entreprises ont du mal à savoir sur quelles connaissances agir car les plateformes de Business Intelligence (BI) ne sont pas contextualisées, facilement interprétables ou exploitables par la majorité des utilisateurs. L’analyse et l’exploration visuelles seront remplacées par des expériences plus automatisées et personnalisées sous la forme de data storytelling dynamique. En conséquence du passage à des data stories plus dynamiques et contextuels, le temps passé sur des tableaux de bord prédéfinis diminuera !

#3 – Intelligence décisionnelle

D’ici 2023, plus de 33% des grandes organisations auront des analystes pratiquant l’intelligence décisionnelle, y compris la modélisation des décisions.

Une brève définition de l’intelligence décisionnelle est qu’il s’agit d’un domaine pratique qui encadre un large éventail de techniques de prise de décision et les intègre à toutes les parties critiques des personnes, des processus et des technologies. Elle fournit un cadre qui rassemble les disciplines traditionnelles et avancées pour concevoir, modéliser, exécuter et contrôler les modèles et les processus de décision dans le contexte des résultats commerciaux.

L’utilisation de la prise de décision intelligente rassemblera le decision management et des techniques telles que l’analyse descriptive, diagnostique, prédictive et prescriptive.

#4 – La gestion des données augmentée : Metadata is the new black

D’ici 2023, les organisations qui utilisent des métadonnées actives et le machine learning pour se connecter dynamiquement, optimiser et automatiser les processus de gestion des données, réduiront de 30 % le temps de livraison de leurs données.

La combinaison d’un volume de données colossal, de problèmes de confiance et la diversité croissante des formats de données, accélère la demande de data management automatisée. Les organisations se doivent donc de savoir quelles sont les données dont elles disposent, ce qu’elles signifient, comment elles apportent de la valeur et si elles sont fiables. Les métadonnées passeront d’un état passif à un état d’utilisation très actif. L’utilisation active s’appuie sur le catalogage, le data discovery automatique, la sémantique par l’interprétation des cas d’utilisation et implique une taxonomie et une ontologie qui sont cruciales pour le data management.

Grâce à un data catalog augmenté, les utilisateurs peuvent améliorer les efforts d’inventaire des données en augmentant considérablement les tâches de recherche, de marquage, d’annotation et de partage des métadonnées.

#5 – Vers le Cloud

D’ici 2022, les services de Cloud publics seront essentiels pour 90 % de l’innovation en data et analytics.

Comme le data management accélère son voyage vers le cloud, il en sera de même pour les disciplines de data analytics. Les environnements Cloud permettent de créer un écosystème plus agile, plus fluide et plus diversifié qui accélère l’innovation en réponse aux besoins changeants des entreprises qui ne sont pas facilement accessibles dans les solutions on-premise. Ils offrent également des opportunités concernant l’optimisation des coûts. On s’attend à ce que des offres telles que les capacités « Cloud first » deviennent éventuellement des capacités « Cloud only ».

Les clients Gartner peuvent en lire plus dans le rapport « Top 10 Trends in Data and Analytics, 2020« .

Qu’est-ce-que le data discovery ?

par Zeenea Software | Juil 3, 2020 | Metadata Management

En cette ère où les données sont omniprésentes, les organisations investissent de plus en plus dans des stratégies de data management afin de créer de la valeur et d’acquérir un avantage concurrentiel. Cependant, selon une étude menée par Gemalto en 2018, il a été constaté que 65% des organisations ne peuvent analyser ou catégoriser toutes les données consommateurs qu’elles stockent.

Il est donc crucial pour les entreprises de chercher des solutions qui leur permettent de valoriser leurs données à partir de métriques, d’aperçus et d’informations en facilitant leur parcours de data discovery.

Définition de data discovery

Les problèmes de data discovery sont partout dans l’entreprise, que ce soit dans le département informatique, business intelligence ou innovation. En intégrant des solutions de data discovery, les entreprises fournissent un accès aux données à tous les employés, ce qui permet aux équipes data et aux business analysts de comprendre et donc de collaborer autour des données.

Il est également très utile pour les entreprises qui cherchent à mieux gérer la conformité. Il permet aux organisations de savoir quelles données sont personnelles/sensibles et où elles peuvent être trouvées. Le data discovery peut également stimuler l’innovation, car il débloque des informations essentielles pour satisfaire les clients et obtenir un avantage concurrentiel.

Du data discovery manuel au data discovery intelligent

Depuis 20 ans, avant les techniques de machine learning avancées, les data stewards cartographiaient leurs données en utilisant la seule puissance du cerveau humain ! Ils réflechissaient de manière critique aux données dont ils disposaient, à leur emplacement de stockage et aux besoins pour satisfaire par le client final. Les Data Stewards s’occupaient généralement des règles de documentation des data assets qui guidaient le processus de data discovery. Dans ces approches manuelles, généralement réalisées à l’aide de feuilles Excel, les utilisateurs conceptualisaient et dessinaient des cartes pour comprendre l’organisation de leurs données.

De nos jours, avec l’avancement de la technologie, la définition du data discovery inclut les moyens automatisés de présentation des données. La découverte intelligente de données représente une nouvelle vague de technologies data qui utilisent l’analyse augmentée, le machine learning et l’intelligence artificielle.

Non seulement elle prépare, conceptualise et intègre les données, mais elle les présente également au moyen de tableaux de bord intelligents pour révéler des modèles et valeurs business cachés.

Les avantages du data discovery

Les données d’entreprise se déplacent d’un endroit à l’autre à la vitesse de la lumière, et sont stockées dans diverses sources de données. Les employés et les partenaires accèdent à ces données, de partout et à tout moment. L’identification, la localisation et la classification de vos données devraient donc être la priorité, afin de les protéger et d’en tirer des informations !

Les avantages du data discovery sont les suivants :

Meilleure compréhension des données d’entreprise, de leur emplacement, des personnes qui peuvent y accéder / du lieu où elles se trouvent, et de la manière dont elles seront transmises,
Classification automatique des données en fonction du contexte,
Gestion des risques et respect de la réglementation,
Visibilité complète des données,
Identification, classification et suivi des données sensibles,
Capacité d’appliquer des contrôles de protection aux données en temps réel sur la base de politiques et de facteurs contextuels prédéfinis

Le data discovery permet de correctement évaluer l’ensemble des données d’entreprise.

D’une part, il aide à mettre en œuvre les mesures de sécurité appropriées pour prévenir la perte de données sensibles et éviter des conséquences financières et de réputation dévastatrice pour l’entreprise.

D’autre part, elle permet aux équipes d’approfondir les données afin d’identifier les éléments spécifiques qui révèlent les réponses et de trouver des moyens de montrer les réponses. C’est une situation où tout le monde est gagnant !

Vous voulez en savoir plus sur le data discovery ?

Téléchargez notre livre blanc : « Le Data Discovery vu par les Géants du Web »

Dans ce livre blanc, nous faisons un focus sur le contexte et la mise en œuvre des solutions de data discovery développées par les grandes entreprises du web, dont certaines font partie du célèbre «Big Five» ou «GAFAM» (Google, Apple, Facebook, Amazon, Microsoft).

télécharger le livre blanc

Data science : mieux exploiter son data lake avec les métadonnées

par Zeenea Software | Juin 15, 2020 | Data Catalog, Metadata Management

Les data lakes offrent un stockage illimité pour les données et présentent de nombreux avantages pour les data scientists dans l’exploration et la création de nouveaux modèles analytiques. Cependant, ces données structurées, non structurées et semi-structurées sont mélangées et la valeur business qu’elles contiennent est souvent négligée ou mal comprise par les utilisateurs data.

L’explication est simple: les technologies utilisées pour mettre en œuvre des data lakes n’ont pas les capacités d’information nécessaires. Il est donc essentiel que les entreprises mettent en place une gestion des métadonnées efficace qui prend en compte la découverte des métadonnées, le catalogage des données et une gestion des métadonnées au niveau de l’entreprise en fonction du data lake.

2020 est l’année où la plupart des cas d’usage de données et analytics nécessiteront une connexion à des sources de données distribuées, ce qui amènera les entreprises à doubler leurs investissements dans la gestion des métadonnées. – Gartner 2019.

Comment exploiter votre data lake avec la gestion des métadonnées

Afin de produire de la valeur avec leurs données, les entreprises se doivent de disposer à la fois d’utilisateurs qualifiés (tels que des data scientists ou des citizen data scientists) et d’une stratégie de metadata management. Pour commencer, une organisation pourrait se concentrer sur un jeu de données (et ses métadonnées) spécifique. Ensuite, il faudrait exploiter ces métadonnées au fur et à mesure que d’autres données sont ajoutées au data lake. La mise en place d’une gestion des métadonnées peut faciliter cette tâche pour les utilisateurs du data lake.

Voici les principales actions à mener pour une gestion des métadonnées réussie:

La création d’un référentiel de métadonnées

La mise en place d’une sémantique est essentielle pour découvrir les métadonnées d’entreprise. La découverte de métadonnées ou “metadata discovery” est définie comme le processus de découverte d’informations sur un jeu de données. Ce processus aboutit généralement à un ensemble de mapping entre différents éléments data dans un référentiel de métadonnées centralisé. Cela permet aux data scientists de comprendre leurs données et d’avoir une visibilité sur leurs fiabilité, leurs dernière mise à jour, etc.

L’automatisation de la découverte des métadonnées

Étant donné le nombre et la diversité des données données ajoutées quotidiennement à un data lake, maintenir l’ingestion peut être une tâche chronophage ! En utilisant des solutions automatisées, il est plus facile pour les équipes du data lake de maintenir cette source compréhensible dans le temps et pour les data scientists ou les CDS de trouver et découvrir leurs les bonnes informations sous la forme de métadonnées.

Cataloguer ses données

Un data catalog est constitué de métadonnées dans lesquelles sont stockés divers objets, catégories, propriétés et champs. Le catalogage des données est utilisé à la fois pour les données internes et externes (provenant de partenaires ou de fournisseurs par exemple). Dans un data lake, il est utilisé pour capturer un ensemble d’attributs pour chaque élément du data lake et enrichit le catalogue de métadonnées en exploitant ces actifs d’information. Cela permet aux utilisateurs de la data science d’avoir une vue sur les données avec lesquelles ils s’apprêtent à travailler : provenance, qualité, leur dernière mise à jour.

Avoir une gouvernance des données et analytics

La gouvernance des données et l’analytique sont des cas d’usage importants lorsqu’il s’agit de la gestion des métadonnées. Appliquée aux data lakes, la question « pourrait-elle être exposée ? » doit devenir un élément essentiel du modèle de gouvernance de l’organisation. Les entreprises doivent donc étendre leurs modèles de gouvernance existants pour traiter des cas d’usage spécifiques à l’analyse business et de data science construits sur les data lakes. La gestion des métadonnées d’entreprise permet de mieux comprendre les règles de gouvernance actuelles liées à des actifs d’entreprise stratégiques.

Contrairement aux approches traditionnelles, l’objectif principal de la gestion des métadonnées est de favoriser une approche consistante à la gestion des informations. Plus la sémantique des métadonnées est cohérente pour l’ensemble du patrimoine de données, plus la cohérence et la compréhension sont grandes, ce qui permet d’exploiter la connaissance autour des données à l’ensemble de l’entreprise.

Démarrer une gestion des métadonnées avec Zeenea

Comme mentionné ci-dessus, la mise en œuvre de la gestion des métadonnées dans votre stratégie de data management est non seulement bénéfique, mais aussi essentielle pour les entreprises qui cherchent à créer de la valeur business avec leurs données. Les équipes de data science travaillant avec des quantités de données variées dans un data lake ont besoin de solutions adaptées pour pouvoir comprendre et faire confiance à leurs informations. Pour soutenir cette discipline émergente, Zeenea vous donne tout ce dont vous avez besoin pour collecter, mettre à jour et exploiter vos métadonnées grâce à sa plateforme nouvelle génération !

découvrir notre plateforme

Formez une équipe de citizen data scientists

par Zeenea Software | Juin 8, 2020 | Metadata Management

”There aren’t enough expert data scientists to meet data science and machine learning demands, hence the emergence of citizen data scientists. Data and analytics leaders must empower “citizens” to scale efforts, or risk failure to secure data science as a core competency”. – Gartner 2019

Les efforts et investissements dans la data science ont battu tous les records en 2019 ! La demande de data scientists est donc plus forte que jamais. Cependant, la demande est bien plus élevée que l’offre actuelle sur le marché. Les entreprises se retrouvent à se battre pour leur place, et dans certains cas, pour leur survie.

En réponse à ce challenge, un rôle analytique important a été créé pour faire le lien entre les data scientists et les fonctions métiers : le citizen data scientist.

Qu’est-ce qu’un citizen data scientist ?

Gartner définit le concept du citizen data scientist comme « un ensemble de capacités et de pratiques qui permet aux utilisateurs d’extraire des informations prédictives et normatives sur les données sans avoir besoin d’être aussi qualifiés et techniquement sophistiqués que les data scientist experts« . Attention, un « citizen data scientist » n’est pas un poste. Il s’agit d’un « power user » qui peut effectuer des tâches analytiques simples.

En règle générale, les citizen data scientists n’ont pas de compétences en codage. Néanmoins, ils peuvent construire des modèles en utilisant des outils de “drag and drop” et faire fonctionner des data pipelines ainsi que des modèles pré-construits à l’aide d’outils tels que Dataiku. Les citizen data scientists ne remplacent pas les data scientists experts ! Ils apportent leur propre expertise mais n’ont pas les compétences techniques pour la data science avancée.

Le citizen data scientist est un rôle qui a évolué comme une « extension » d’autres rôles au sein de l’organisation. Cela signifie que les organisations doivent créer la fiche persona du citizen data scientist. Le potentiel des citizen data scientists varie en fonction de leurs compétences et de leur intérêt pour la data science et du machine learning. Les rôles qui entrent dans la catégorie du citizen data scientist sont les :

Business analysts
BI Analysts / Developers
Data Analysts
Data Engineers
Application Developers
Business line manager

Conseils pour la construction de votre équipe de citizen data scientists

Comme les compétences d’experts en data science ont tendance à être assez coûteuses et difficiles à obtenir, le recours à un citizen data scientist peut être un moyen efficace de combler ce manque.

Voici comment vous pouvez renforcer les capacités de vos équipes de data science :

Briser les silos d’entreprises

Comme vous l’avez déjà entendu à maintes reprises, de nombreuses organisations ont tendance à fonctionner de manière indépendante. Comme mentionné ci-dessus, tous les rôles sont importants dans la stratégie de gestion des données d’une organisation, et ils ont tous exprimé leur intérêt pour monter en compétence en data science et machine learning. Cependant, la plupart de ces connaissances sont gardées par des départements ou rôles spécifiques. Par conséquent, les efforts de data science sont souvent invalidés et non-exploités. Le manque de collaboration entre les différents rôles rend difficile le travail des citizen data scientists !

En établissant une communauté de rôles business et informatiques qui fournit des lignes directrices et/ou des ressources détaillées, les entreprises peuvent donner aux citizen data scientists les moyens d’accéder et comprendre leurs données. Il est donc important pour les entreprise d’encourager le partage des efforts de data science dans toute l’organisation et ainsi, de briser les silos data !

Fournir une technologie de data analytics augmentée

La technologie alimente la montée en puissance du citizen data scientist. Les fournisseurs traditionnels de BI, tels que SAP, Microsoft et Tableau Software, ont des fonctionnalités qui permettent l’analyse statistique et prédictive avancée. Parallèlement, les plateformes de data science et de machine learning telles que SAS, H2O.ai et TIBCO Software, fournissent aux utilisateurs qui ne disposent pas de capacités d’analyse avancées, des « analyses augmentées ». L’analyse augmentée s’appuie sur du machine learning automatisé pour transformer la manière dont le contenu analytique est développé, consommé et partagé. Elle comprend :

La préparation de données augmentée : l’automatisation de machine learning pour augmenter le profilage, la qualité, la modélisation, l’enrichissement et le catalogage des données.

La découverte de données augmentée : permet aux utilisateurs business et techniques de trouver, visualiser et analyser de manière automatique les informations pertinentes à leurs usages telles que des corrélations, des groupes, des segments et des prédictions, sans avoir à construire des modèles ou à écrire des algorithmes.

La data science et le machine learning augmentés : l’automatisation des aspects clés de la modélisation analytique avancée, tels que la sélection des caractéristiques, la sélection des algorithmes et les processus d’étapes qui prennent du temps.

En intégrant les outils et les solutions nécessaires et en augmentant les ressources et les efforts, les entreprises peuvent désormais construire leur équipe de citizen data scientists !

Donner aux citizen data scientist les moyens de gérer leurs données grâce à une plateforme de gestion des métadonnées

La gestion des métadonnées est une discipline essentielle pour les entreprises qui souhaitent soutenir l’innovation ou les initiatives de conformité réglementaire sur leurs actifs de données. En mettant en œuvre une stratégie de gestion des métadonnées, dans laquelle les métadonnées sont bien gérées et correctement documentées, les citizen data scientists sont en mesure de trouver et d’extraire facilement des informations pertinentes à partir d’une plateforme intuitive.

Découvrez nos conseils pour démarrer un metadata management en seulement 6 semaines en téléchargeant notre nouveau livre blanc « Le guide du metadata management« .

Business glossary : une solution essentielle pour vos data scientists

par Zeenea Software | Mai 26, 2020 | Metadata Management

Dans le monde de la data, un business glossary est un texte sacré qui représente de longues heures de travail et de collaboration entre les fonctions informatiques et métiers. Dans la gestion des métadonnées, un business glossary est un élément crucial pour contextualiser et définir ses données. Selon Gartner, c’est l’une des solutions les plus importantes à mettre en place dans une entreprise pour soutenir les objectifs commerciaux.

Pour aider vos data scientists avec leurs algorithmes de machine learning et leurs initiatives data, un business glossary fournit des significations et contextes clairs pour toute donnée ou tout terme business de l’entreprise.

Retour aux fondamentaux : qu’est-ce qu’un business glossary ?

Un business glossary apporte une signification et un contexte aux données dans tous les départements de l’entreprise. C’est donc un endroit où les termes métier / data sont définis et liés. Cela peut sembler simple, mais il est rare que tous les employés d’une entreprise partagent une même compréhension sur des termes – mêmes les plus fondamentaux – tels que «contact» et «client» au sein de l’entreprise.

Ses principaux objectifs, entre autres, sont les suivants :

Aligner l’ensemble des collaborateurs sur une même définition en créant un langage commun dans l’organisation.
Favoriser une meilleure compréhension et collaboration entre des équipes business & IT.
Associer des termes business à d’autres actifs d’entreprise et offrir une vue sur leurs différentes relations.
Élaborer et partager un ensemble de règles sur le domaine de la gouvernance des données.

Les organisations peuvent donc devenir data fluent !

Comment un business glossary est-il utile pour vos data scientists ?

En centralisant les informations business, les entreprises sont capables de partager la connaissance – qui était gardée par un groupe de sachants et d’experts – autour de leurs données. En effet, cela permet aux data scientists de prendre de meilleures décisions lors de leurs recherche de jeux de données à utiliser pour leurs usages. Cela permet également :

De devenir “data literate”

De plus en plus d’organismes, comme Forbes ou Gartner, considèrent que les entreprises doivent plus investir dans des moyens favorisant la compréhension des données. Ces programmes sont communément appelés en anglais “data literacy”.

Dans le cadre de la description du poste du Chief Data Officer, il est essentiel que toutes les parties de l’organisation puissent comprendre les données et le jargon associé. Cela permet à toutes les parties de l’organisation de mieux comprendre la signification, le contexte et les usages des données. Ainsi, en mettant en place un business glossary, les data scientists sont en mesure de collaborer avec tous les départements de l’entreprise, qu’ils soient informatiques ou business. Il y a moins d’erreurs de communication et ils participent donc à la construction et à l’amélioration de la connaissance sur les données de l’entreprise.

D’accéder à un environnement data-driven

Liée à la data literacy, la culture des données fait référence à un environnement de travail où les décisions sont prises sur une base de données empiriques et de preuves solides. En d’autres termes, les décisions sont basées sur des preuves data, plutôt que sur l’instinct seulement.

Un business glossary favorise la sensibilisation à la qualité des données et leurs compréhension globale. En conséquence, l’environnement devient plus data-driven et peut aider les data scientists à mieux connaître leurs données.

Plus de confiance aux données

Un business glossary garantit que les bonnes définitions soient liées aux bonnes données. Il aide à résoudre les problèmes généraux lorsque des incompréhensions sur les données sont identifiés. Lorsque tous les jeux de données sont correctement documentés avec une terminologie correcte et comprise par tous, il augmente la confiance générale dans les données d’entreprise, permettant aux data scientists de travailler efficacement sur leurs projets data.

Mettre en place un business glossary avec Zeenea

Zeenea propose un business glossary dans son data catalog. Il se connecte automatiquement et importe vos glossaires et dictionnaires dans notre outil grâce à nos API. Vous pouvez également manuellement créer un glossaire depuis l’interface de Zeenea !

Découvrez les avantages de notre business glossary pour vos data scientists !

Contactez-nous

Culture des données : les 5 priorités

par Zeenea Software | Mai 19, 2020 | Metadata Management

La data est devenue un actif stratégique pour les entreprises souhaitant innover et avoir un avantage concurrentiel. Dans l’espoir de satisfaire leurs clients, les entreprises ont, depuis plusieurs années, investi dans de multiples technologies et talents analytiques. Pourtant, pour beaucoup, une culture data driven reste inaccessible, et les données sont rarement utilisées comme base de décision.

La raison est simple : les challenges pour les entreprises qui souhaitent devenir data driven ne sont pas techniques, mais plutôt culturels. Il est bien plus facile d’expliquer comment insérer les données d’entreprise dans les processus décisionnels que de changer la mentalité de toute une organisation ! Dans cet article, nous décrivons cinq façons d’aider les entreprises à créer et à maintenir une culture des données.

D’ici 2023, la culture des données deviendra nécessaire pour produire de la valeur business, comme le démontre son inclusion formelle dans plus de 80 % des stratégies de données et d’analyse, et des programmes de gestion du changement.

Qu’est-ce que la culture des données ?

La “culture des données » est un concept relativement nouveau mais qui est de plus en plus important à mettre en place, notamment pour les organisations qui développent leurs stratégies digitales et de data management. Tout comme la culture organisationnelle, la culture des données fait référence à un environnement de travail dans lequel les décisions sont prises avec des preuves data dites “solides”, et non pas uniquement sur l’instinct.

La culture des données confère plus de pouvoir aux organisations pour organiser, exploiter, prévoir et créer de la valeur avec leurs data.

>> Regarder en Replay notre webinar : Why does data culture matter [EN] <<

Voici nos cinq conseils pour créer et maintenir une culture des données :

Étape 1 : Être aligné avec les objectifs de l’entreprise

L’objectif fondamental de la collecte, de l’analyse et du déploiement des données est de prendre de meilleures décisions ». (McKinsley)

Avoir confiance en ses données est un des éléments les plus importants pour créer une culture des données, car la méfiance à leur égard entraîne une culture organisationnelle désastreuse. Pour faire confiance aux données, il faut que celles-ci soient alignées avec les objectifs de l’entreprise. Pour favoriser les changements stratégiques et culturels, il est important que toute l’entreprise se mette d’accord sur des objectifs commerciaux communs, ainsi que sur les métriques pertinents pour mesurer les succès ou échecs dans l’ensemble de l’organisation.

Posez-vous les bonnes questions : Comment pouvons-nous, non seulement devancer nos concurrents, mais également maintenir notre avance ? De quelles données aurions-nous besoin pour décider de notre prochaine offre de produits ? Comment notre produit se comporte-t-il sur le marché ? En introduisant des données dans votre processus décisionnel, votre entreprise aura déjà fait le premier pas vers la création d’une culture des données.

Étape 2 : Détruire les silos de données

Les “silos de données” font référence aux départements, groupes ou individus qui sont les gardiens des données, mais qui ne partagent pas (ou ne savent pas comment partager) la connaissance des données avec d’autres parties de l’entreprise. Lorsque des informations cruciales sont enfermées et accessibles seulement à quelques connaisseurs, cela empêche votre entreprise de développer une culture de données interdépartementale. C’est également problématique d’un point de vue technique : les pipelines de données multiples sont plus difficiles à surveiller et à maintenir, ce qui fait que les données sont obsolètes au moment où quelqu’un les utilise pour prendre des décisions.

Pour briser les silos de données, les entreprises doivent mettre en place une source unique de vérité. Il faut donner aux employés les moyens de prendre des décisions fondées sur les données en s’appuyant sur une solution centralisée. Un data catalog permet aux utilisateurs techniques et non techniques de comprendre les actifs de données de l’entreprise et d’avoir confiance en eux.

>> Découvrez notre article: Qu’est-ce qu’un data catalog ? <<

Étape 3 : Embaucher des personnes data-driven

Lors de la mise en place d’une culture des données, il est important d’embaucher des personnes data-driven. Les entreprises se réorganisent, ce qui oblige à créer de nouveaux rôles pour soutenir ces changements organisationnels:

Data Stewards

Les Data Stewards orchestrent les systèmes de données d’une entreprise. Souvent appelés « maîtres des données », ils en ont des connaissances technique et business. Leur mission principale est d’assurer la bonne documentation des données et de faciliter leur accès pour leurs utilisateurs, tels que les data scientists ou les chefs de projet par exemple.

Cette profession est en plein essor ! Leur rôle collaboratif permet aux responsables de données de travailler à la fois avec les départements techniques et métiers. Ils sont le premier point de référence data dans l’entreprise et servent de point d’entrée pour y accéder.

Chief Data Officers

Les Chief Data Officers, ou CDO, jouent un rôle clé dans la stratégie de l’entreprise. Ils sont chargés d’améliorer l’efficacité globale de l’organisation et de créer de la valeur autour de leurs données. Initialement, les CDO avaient pour mission de convaincre les organisations d’exploiter leurs données. Les premières années ont généralement été soutenues par la construction d’un univers de données adapté aux nouveaux usages, souvent sous la forme d’un Data Lake ou d’un Data Mart. Mais avec le développement exponentiel des données, le rôle du CDO a pris une nouvelle ampleur. Désormais, les CDO doivent reconsidérer l’organisation de manière transversale et globale. Ils doivent devenir les nouveaux leaders de la Data Democracy !

Afin d’obtenir le soutien de tous les employés dans leurs initiatives data, ils doivent non seulement les aider à comprendre les données (contexte, production, etc.) mais également à investir dans la stratégie de production et l’exploitation des données.

Étape 4 : ne pas négliger ses métadonnées

Lorsque les données sont créées, les métadonnées (leur origine, leur format, leur type, etc.) le sont également. Cependant, ce type d’information ne suffit pas pour gérer correctement les données ; les leaders de la donnée doivent investir du temps pour s’assurer que ces informations soient correctement nommées, étiquetées, stockées et archivées dans une taxonomie qui est cohérente avec tous les autres actifs de l’entreprise.

Ces métadonnées permettent aux entreprises d’assurer une meilleure qualité et découverte des données, permettant aux équipes de mieux les comprendre. Sans métadonnées, les entreprises se retrouvent avec des jeux de données sans contexte qui ont peu de valeur.

Étape 5 : Respecter les différentes réglementations sur les données

Avec la mise en place du GDPR en mai 2018 ainsi que toutes les autres réglementations diverses qui voient le jour aux États-Unis, au Royaume-Uni ou même au Japon, il est important que les entreprises respectent et suivent les lignes directrices pour se conformer à celles-ci.

Si vous n’êtes pas sûr d’être conforme, consultez nos articles sur le RGPD <<

La mise en œuvre de la gouvernance des données est un moyen de garantir la confidentialité et la sécurité de toutes les données personnelles et d’assurer la gestion des risques. Il s’agit d’un ensemble de pratiques, de politiques, de normes et de guides qui fournissent une base solide pour garantir que les données sont correctement gérées, créant ainsi de la valeur au sein d’une organisation.

Étape 6 BONUS : Choisir les bonnes solutions

La gestion des métadonnées est une discipline en plein essor, nécessaire pour les entreprises qui souhaitent soutenir l’innovation ou les initiatives de conformité réglementaire sur leurs actifs de données. Une solution de gestion des métadonnées offre aux entreprises une plateforme centralisée permettant à tous les utilisateurs de données de mettre en œuvre une culture de données.

Pour plus d’informations sur le metadata management, contactez-nous !

Contactez-nous

Développez une culture data dans votre organisation avec une solution de gestion des métadonnées

par Zeenea Software | Mai 5, 2020 | Metadata Management

Afin d’optimiser leurs stratégies d’entreprise et d’améliorer leur productivité, les organisations data-driven changent la manière dont elles gèrent leurs données : elles passent d’une stratégie de data management, à une stratégie de metadata management. Néanmoins, Gartner affirme que seulement 5 à 20 % des entreprises sont équipées de solutions de gestion des métadonnées ! Cette discipline, au niveau de l’entreprise, est donc une pratique essentielle qui continuera à se développer dans les prochaines années :

”D’ici 2023, 80 % des organisations auront besoin de solutions qui répondent aux besoins et aux cas d’usage de leur utilisateurs business ». – Gartner.

Les challenges des solutions de metadata management selon les entreprises

Nous remarquons que les solutions actuelles sur le marché ne répondent pas entièrement aux demandes des entreprises. Nous remarquons :

Une faible d’adoption aux nouvelles solutions de gestion des métadonnées,
Un manque de confiance dans les données analysées,
Une incapacité à trouver des données dans l’écosystème data de l’organisation,
Des solutions conçues pour un utilisateur technique et non pour un utilisateur métier.

Ces conclusions, faites par diverses entreprises, peuvent s’avérer être assez sanglantes ! En visant la mise en place d’une culture démocratique des données, les entreprises se retrouvent avec des outils très techniques destinés au utilisateurs techniques, souvent abandonnés ou mal compris par l’entreprise de manière générale. Cette approche technologique de la gestion des métadonnées conduit à un manque de data literacy !

Pourtant, si les entreprises cherchent à mettre en œuvre des solutions de metadata management, c’est qu’elles ont déjà réalisé la valeur de celles-ci. Le problème n’est donc pas la discipline en elle-même, mais plutôt l’insatisfaction face à l’outil choisi et ses caractéristiques.

Les six éléments à prendre en compte lors du choix d’une solution de gestion des métadonnées

Initialement, les solutions de gestion des métadonnées avaient pour objectif d’aider les utilisateurs techniques à mieux comprendre leurs données. Cependant, au fil du temps, d’autres fonctions de l’entreprise se sont mises à consommer ou travailler avec les données et les métadonnées. Parmi ces utilisateurs, nous retrouvons des data stewards, des data analysts, des business analysts, des data scientists, des data architects et des data engineers.

Voici six éléments essentiels quant à l’adoption d’une stratégie de gestion des métadonnées à long terme :

Une expérience utilisateur personnalisée

Comme mentionné ci-dessus, les solutions de metadata management doivent avoir des caractéristiques et des fonctionnalités qui soutiennent les objectifs d’une mise en place de culture des données. La mise en place d’un moteur de recherche Googlesque est très efficace ! Les utilisateurs data sont en mesure de trouver des informations pertinentes en tapant des mots ou phrases clés. Les menus d’aide, les “drag & drop” et les wizards sont également d’autres exemples pertinents.

Les solutions de gestion des métadonnées qui incluent l’intelligence artificielle et des fonctions de machine learning permettent des expériences utilisateurs plus personnalisées. Comme les informations demandées et consultées varient d’une personne à l’autre, il est important qu’une solution de metadata management offre des interfaces adaptatives et personnalisées en fonction de leurs cas d’usage. Ces informations doivent être affichées avec des représentations visuelles faciles et attrayantes afin d’éviter de passer trop de temps à essayer de les comprendre.

Rôle et soutien à l’accès

Aujourd’hui, les utilisateurs data changent souvent de rôle et les entreprises passent la plupart de leur temps à reconfigurer qui a accès à quoi. Adopter une solution de gestion des métadonnées signifie être capable de configurer et de définir facilement les rôles et les modes d’édition au sein de la plateforme.

Cela permet d’avoir une vue d’ensemble de tous les utilisateurs : qui sont les responsables de données ? Qui sont les utilisateurs de données sur le projet X ? Qui est le propriétaire de ce jeu de données afin que je puisse demander la permission d’accéder à ces informations ? Qui a mis à jour ce jeu de données et quand ? Une meilleure visibilité sur les rôles et des accès est essentielle pour réussir sa stratégie de gestion des métadonnées.

Rapports & analyses

L’un des facteurs déterminants pour les organisations qui recherchent des solutions de gestion des métadonnées est la nécessité d’obtenir des résultats fiables du flux de données et des analyses. Ces solutions doivent être dotées de tableaux de bord pertinents et compréhensibles pour les utilisateurs, associés à leurs cas d’utilisation.

Soutenues par un data catalog, ces fonctionnalités de reporting permettent de savoir si une solution est intéressante pour l’entreprise. Un data catalog indique le volume de données collectées, le nombre d’utilisateurs, la fréquence à laquelle les utilisateurs se connectent, le nombre de fois qu’un jeu de données a été consulté ou même les questions fréquemment posées. Il peut également fournir des informations concernant la documentation des données, par exemple le niveau de complétion, si elle contient des informations personnelles, etc.

Un business glossary

Comme mentionné ci-dessus, les solutions de gestion des métadonnées devraient permettre aux utilisateurs business d’accéder à du contenu en rapport avec leurs cas d’utilisation. Cela peut être créé / intégré par des champs et tags qu’ils peuvent créer eux-mêmes, plutôt que d’adhérer à une taxonomie et à une sémantique d’un outil.

Les fonctionnalités d’un business glossary doivent fournir des modèles personnalisés et modulaires lors de la création de business termes et de taxonomies. Les wikis et les articles dans l’outil ne sont pas suffisant ! Un business glossary permet aux responsables des données de créer et de gérer un vocabulaire business commun et de le rendre disponible à l’ensemble de l’organisation.

Respect des réglementations data

La gouvernance et la conformité en général, sont les principaux moteurs d’adoption de solutions de gestion des métadonnées. Lorsque vous choisissez une plateforme de metadata management, si votre principal cas d’utilisation est la gouvernance des données, il est important de rechercher des solutions qui offrent des capacités automatisées concernant les informations personnelles de votre entreprise. Les notifications automatisées et les technologies de fingerprinting sont essentielles pour une meilleure gouvernance des données.

Capacités de collaboration

Les fonctionnalités sociales sont un must pour les entreprises qui cherchent à gérer leurs métadonnées ! Les discussions, évaluations, notes, popularité, notifications et les capacités de messagerie sont des éléments importants à avoir. Par exemple, les fonctionnalités sociales permettent aux utilisateurs de communiquer facilement avec les responsables ou experts d’un jeu de données ou projet.

En outre, l’intelligence collective permet aux entreprises de démocratiser l’accès aux informations et aux connaissances pour toute l’organisation. Grâce aux fonctionnalités de collaboration, les entreprises sont en mesure “d’archiver » les connaissances passées en les stockant. Les entreprises créent ainsi des communautés data et une organisation plus data fluent !

Démarrez une gestion des métadonnées en seulement 6 semaines !

En ce qui concerne la gestion des métadonnées, nous sommes les experts ! Dans ce livre blanc, nous partageons nos conseils et notre expertise sur la mise en œuvre d’une gestion itérative des métadonnées optimisée pour votre contexte.

Télécharger le livre blanc

WhereHows : la solution de data discovery et lineage de LinkedIn

par Zeenea Software | Avr 20, 2020 | Inspiration Data, Metadata Management

Dans un monde où le paysage des données se développe rapidement et où les SI sont de plus en plus complexes, les organisations de tous les secteurs ont compris l’importance de faciliter la découverte, la compréhension et la confiance dans leurs données.

Leurs armes ? Les métadonnées.

Que votre entreprise soit dans le secteur du streaming comme Spotify ou Netflix, dans le secteur du VTC comme Uber ou Lyft, ou même dans celui de la location saisonnière comme Airbnb, il est essentiel que les équipes data soient équipées des bons outils et bonnes solutions leur permettant d’innover et de produire de la valeur avec leurs données.

Dans cet article, nous nous concentrerons sur WhereHows, un projet open source dirigé par l’équipe data de LinkedIn. Ce projet a mené à la création d’un répertoire central pour les personnes, processus et connaissances data de l’entreprise. Avec plus de 50 000 jeux de données, 14 000 commentaires et 35 millions de jobs et d’informations sur le lineage, il est clair que la solution de data discovery de LinkedIn est un succès !

Les chiffres clés de Linkedin

Fondée par Reid Hoffman, Allen Blue, Konstantin Guericke, Eric Ly et Jean-Luc Vaillant en 2003 en Californie, la firme démarre son aventure assez lentement. En 2007, elle est enfin devenue rentable et, en 2011, elle comptait plus de 100 millions de membres dans le monde entier.

En 2020, Linkedin a connu une croissance significative:

Plus de 660 millions de membres LinkedIn dans le monde, dont 206 millions d’utilisateurs actifs en Europe,
Plus de 80 millions d’utilisateurs sur Linkedin Slideshare,
Plus de 9 milliards d’impressions de contenu,
30 millions d’entreprises enregistrées dans le monde entier.

LinkedIn est devenu un réseau social professionnel incontournable pour les recruteurs, les spécialistes du marketing et les commerciaux. Alors, comment le Géant du web gère-t-il toutes ses informations ?

Le début de WhereHows

Comme la plupart des entreprises ayant un écosystème BI mature, Linkedin a commencé avec une équipe data warehouse, chargée d’intégrer les sources de données considérées comme les plus importantes. Cependant, le nombre de jeux de données et d’informations collectées data ne cessaient d’augmenter ! L’équipe de la firme a finit par se sentir très vite dépassée par la quantité colossale de données à gérer chaque jour.

Certaines questions revenaient inlassablement :

Qui est le propriétaire de ce flux de données ?
Comment ces données sont-elles arrivées ici ?
Où se trouvent les données ?
Quelles sont les données utilisées ?

Linkedin a donc décidé de développer une plateforme de métadonnées connectée à tous leurs systèmes d’information. La solution veut simplifier la collecte et l’affichage des métadonnées dans le but de faciliter la découverte de données. Bienvenue WhereHows !

La plateforme WhereHows en bref

WhereHows s’intègre à tous les environnements data et en extrait les métadonnées.

Ensuite, il fait apparaître ces informations via deux interfaces différentes :

Une application web qui permet la navigation, la recherche, la visualisation du lineage, les discussions et la collaboration,
Un API qui permet l’automatisation d’autres processus de données et d’applications.

Cette plateforme permet à Linkedin de résoudre les problèmes liés au data lineage, la connaissance des propriétaires d’un jeu de données, et à la découverte des schémas, entre autres. Elle détecte les schémas en se basant sur du machine learning et l’association entre le business glossary et leurs jeux de données.

Le Géant du Web a également créé une communauté basée sur la participation et la collaboration, ce qui leur permet de maintenir la documentation de leurs données en encourageant les discussions entre propriétaires de jeux de données.

Il y a trois composants principaux de WhereHows:

Un référentiel de données qui stocke toutes les métadonnées,
Un serveur web qui fait apparaître les données via l’API ou l’interface utilisateur,
Un serveur backend qui récupère les métadonnées d’autres sources d’information.

Quelles sont les métadonnées collectées par WhereHows ?

La puissance de WhereHows provient des métadonnées qu’il collecte dans l’écosystème de données de Linkedin.

Il collecte les métadonnées suivantes:

Métadonnées opérationnelles, telles que les jobs, les flux, etc.
Informations sur le lineage, qui permettent de relier les jeux de données entre elles sur les jobs,
Informations cataloguées telles que l’emplacement d’un jeu de données, sa structure, sa propriété, sa date de création, etc.

Comment LinkedIn utilise ses métadonnées

WhereHows utilise un modèle universel qui permet aux équipes data de mieux exploiter la valeur de leurs données ; par exemple, en effectuant une recherche à travers la plateforme WhereHow en fonction des métadonnées indexées.

De plus, le data lineage fournit les informations qui les relient entre elles et permettent aux équipes data de remonter ces informations en amont et en aval. Avec un écosystème data complètement intégré dans WhereHows, Linkedin arrive à suivre le flux d’une donnée du début à la fin !

Comment LinkedIn collecte ses métadonnées

La méthode utilisée pour collecter les métadonnées dépend de la source. Par exemple, les jeux de données Hadoop ont des “scraper jobs” qui permettent de scanner les fichiers HDFS, de lire les métadonnées, puis de les stocker à nouveau dans WhereHow.

Pour les “task planners” tels que Azkaban, ils connectent leur data warehouse backend pour obtenir les métadonnées, les agréger, les transformer au format dont ils ont besoin, et ensuite les charger dans WhereHows.
Pour les informations du data lineage, ils analysent le log du MapReduce et le log d’exécution d’un planificateur, puis combinent ces informations pour finalement obtenir le lineage.

Quelle est la prochaine étape pour WhereHows ?

Aujourd’hui, WhereHows est activement utilisé chez Linkedin, non seulement comme un warehouse de métadonnées, mais aussi pour l’automatisation d’autres projets data telle que l’automatisation de la suppression de données personnelles. En 2016, ils se sont intégrés aux systèmes ci-dessous:

À l’avenir, les équipes data de Linkedin espèrent élargir leur couverture de métadonnées en intégrant davantage de systèmes tels que Kafka ou Samza. Elles prévoient également de s’intégrer à des systèmes de gestion du cycle de vie des données et d’approvisionnement comme Nuage ou Goblin pour enrichir les métadonnées. WhereHows n’a pas dit son dernier mot !

Sources:

50 of the Most Important LinkedIn Stats for 2020: https://influencermarketinghub.com/linkedin-stats/
Open Sourcing WhereHows: A Data Discovery and Lineage Portal:
https://engineering.linkedin.com/blog/2016/03/open-sourcing-wherehows–a-data-discovery-and-lineage-portal

Vous voulez en savoir plus sur les solutions de data discovery ?

Téléchargez notre livre blanc : « Le Data Discovery vu par les Géants du Web »

télécharger le livre blanc

Data management : ne laissez pas vos métadonnées de côté

par Zeenea Software | Avr 15, 2020 | Metadata Management

Le data management peut être défini comme le processus d’ingestion, de stockage, d’organisation et de maintenance des données créées et collectées par une organisation en vue d’orienter les stratégies et les prises de décision de manière éclairée.

Nous ne vous apprendrons pas que les sujets data ne cessent d’évoluer et de se complexifier au sein des organisations ! Ainsi, toute entreprise qui envisage ces initiatives data et analytiques à grande échelle, se voit de plus en plus confrontée à des données au volume important, des types divers, des formats variés, et des environnements distribués.

Pour tenter d’en maximiser la valeur, les métadonnées sont une réponse permettant de fournir des connaissances sur l’endroit où se trouvent les données, les attributs qu’ils possèdent ou encore la manière dont ils sont liés (également appelé knowledge graph).

Pourtant, la plupart des entreprises n’ont pas encore d’approche formelle de la gestion des métadonnées.

Avec cet article, laissez vous convaincre par sa nécessité…

L’enjeu des métadonnées dans un data management d’avenir

À travers un contexte technologique de plus en plus éparse et complexe, les Responsables des données ou Chief data officers ont pour mission de simplifier et fournir un environnement data cohérent et activable par leurs équipes.

Chez nos clients ayant fait le pari d’initier une gestion des métadonnées, nous constatons un objectif commun : assurer la visibilité des différentes sources et initiatives en matière de données et faire participer de nouveaux acteurs n’ayant pas forcément de profils techniques.

En bref, la nécessité d’aligner une sémantique sur de multiples silos de données est à l’origine de la demande accrue de capacité à gouverner les métadonnées.

Voyez en cette nouvelle discipline de data management, un levier pour mieux décrire vos données, inclure des informations de localisation nécessaires pour leur utilisation ou/et leur protection dans des environnements et sources disparates.

Voici un extrait des interrogations auxquelles vos métadonnées pourront répondre :

Qui a créé ces données ?
Qui est responsable de ces données ?
Dans quelles applications sont-elles utilisées ?
Quel est le niveau de fiabilité (qualité, vitesse, etc.) de ces données ?
Quels sont les contextes d’utilisation autorisés (concernant la confidentialité par exemple) ?
Où se trouvent ces données ?
D’où proviennent ces données ? (un partenaire, des données ouvertes, en interne etc.)

Créez un template de metamodel !

Dans ce toolkit, nous mettons en avant un ensemble de questions auxquelles vous serez à même de répondre via les métadonnées collectées depuis vos systèmes et vos propres connaissances.

Télécharger

Nos recommandations aux partie prenantes du data management

Pour celles et ceux qui abordent aujourd’hui la gestion des métadonnées dans le cadre de stratégies de data management, nous conseillons de :

Déployer de manière progressive un catalogue de données (ou data catalog) d’entreprise en adoptant des pratiques de gestion des métadonnées. L’utilisation de data catalog servira, entre autre, à inventorier toutes formes de métadonnées techniques mais également de plus en plus business, opérationnelles et sociales – afin d’améliorer la visibilité des activités de data management.

Travailler avec des fournisseurs capables d’accepter cette diversité dans leur système et d’opérer dans des infrastructures de data management distribués, indépendants et allant de plus en plus vers le cloud.

Identifier des cas d’utilisation de metadata management facilement activables afin d’en prouver sa valeur rapidement. Les fournisseurs de solutions retenus devront être ceux favorisant l’automatisation de la découverte, le profilage et l’inventaire des métadonnées ou à minima des tâches les plus fastidieuses ou routinières.

Pour allez plus loin, téléchargez notre guide de metadata management!

Il vous guidera dans la mise en place d’une stratégie de metadata management en seulement 6 semaines.

Télécharger

Comment démarrer une gestion des métadonnées ?

par Zeenea Software | Avr 10, 2020 | Metadata Management

La gestion des métadonnées est une discipline naissante et nécessaire pour les entreprises souhaitant renforcer des démarches d’innovation ou de conformité réglementaire sur leur patrimoine de données.

Nombre d’entre elles essaient d’acquérir des convictions sur le sujet et de se doter de solutions permettant de relever ce nouveau pari. En conséquence, les métadonnées se voient de plus en plus administrées, en parallèle des données, de manière cloisonnée et silotée, ne permettant pas d’actionner tout le potentiel de cette discipline à l’échelle de l’entreprise.

Quelles sont les conditions de succès pour démarrer un metadata management ?
Comment gérer ses métadonnées ?
Comment démarrer une gestion des métadonnées ?

Pour valoriser cette “nouvelle” discipline dans votre organisation, vous devez démontrer sa capacité à produire de la valeur dès son démarrage ! Chez Zeenea, nous proposons un accompagnement fort supporté par un data catalog afin de produire de la valeur dans un temps très court, de l’ordre de quelques semaines dans la plupart des cas.

Dans cet article, nous vous livrons une démarche facilitée par une solution comme Zeenea : connectée, agile et agnostique quant aux technologies utilisées dans les entreprises.

Centraliser vos efforts

Contrôlez que les efforts effectués en termes de métadonnées ne soient pas isolés mais bien centralisés et unifiés.

De cette manière vous éviterez de reproduire des silos d’informations de la même manière que les données ont été silotées par le passé.

Définir un jalon

Pour chaque jalon, vous serez amenés à identifier plusieurs éléments :

Quels sont les problèmes : L’augmentation et le partage du savoir doit permettre de résoudre un problème. Il peut être de natures diverses : conformité pour un audit programmé, centralisation et l’uniformisation d’une information particulière pour satisfaire un groupe de collaborateurs en difficulté par exemple.

Quels sont mes données : Il est important de concentrer les efforts sur les données en lien direct avec le problème identifié. Vouloir traiter un ensemble trop large va accroître le délai de réalisation et in fine le moment où l’atteinte de l’objectif, et donc la production de valeur, pourra être mesurée.

Qui sont mes utilisateurs de la donnée : Sur la première itération, peut être plus longue que toute autre, les utilisateurs mobilisés seront structurants. Ils doivent pouvoir dégager suffisamment de temps pour s’investir dans la réalisation de l’objectif, mais ils doivent aussi avoir intégré la motivation à mettre en place une gestion des métadonnées. Ces utilisateurs seront vos premiers ambassadeurs par la suite.

Quel est la temporalité : Cette itération doit être réalisée dans un délai raisonnablement court. À l’échelle de l’entreprise, nous recommandons un délai compris entre 4 semaines à 3 mois maximum, en fonction de la bande passante des personnes en charge du sujet. Cette durée doit aussi aider à qualifier si un problème est adapté ou bien doit être subdivisé, ou tout simplement écarté.

Il arrive, avant même que le premier jalon soit identifié, qu’un exercice préalable d’introspection sur la maturité de l’entreprise en matière de gouvernance des données soit réalisé.

Nous proposons ceci au travers d’ateliers au cours desquels l’entreprise, aidée par notre matrice de maturité, pourra définir son positionnement. Ce type d’exercice présente un intérêt assez notable lorsqu’il est régulièrement (par exemple chaque année) réalisé. Il permet d’apprécier de façon globale les bénéfices du déploiement de votre programme de gouvernance.

Lancer le premier jalon

Assez classiquement, la proposition de séquencement concernant la phase d’onboarding soutenue par notre outil de metadata management suit cette chronologie :

Notre volonté est d’ancrer le démarrage dans un réflexe de production de valeur. Chaque itération doit apporter à l’entreprise des bénéfices tangibles à votre problématique. Cette première itération comporte des éléments qui n’apparaîtront plus, ou à minima beaucoup moins, dans les suivantes, en particulier les aspects techniques liés à la mise en place de la solution.

Nous proposons par défaut des itérations de 6 semaines. Cette durée, assez arbitraire, correspond relativement bien au temps généralement nécessaire pour produire une valeur significative tout en ne perturbant pas trop l’activité des personnes impliquées. Il faut en effet garder à l’esprit que rares sont les cas où les collaborateurs mobilisés disposent d’un temps complet pour traiter du sujet.

Démarrer votre gestion des métadonnées avec notre guide

Souhaitez vous avoir plus de détails sur comment démarrer votre projet de gestion des métadonnées ?

Téléchargez notre guide pour lancer une gestion efficace des métadonnées !

TÉLÉCHARGER

Comment gérer ses métadonnées ?

par Zeenea Software | Avr 10, 2020 | Metadata Management

La gestion des métadonnées est une discipline naissante et nécessaire pour les entreprises souhaitant renforcer des démarches d’innovation ou de conformité réglementaire sur leur patrimoine de données.

Quelles sont les conditions de succès pour démarrer un metadata management ?
Comment gérer ses métadonnées ?
Comment démarrer une gestion des métadonnées ?

Votre organisation souhaite développer des pratiques de gestion des métadonnées ? Le metadata management est essentiel afin de répondre aux exigences croissantes liées à la gouvernance des données, au risque et à la conformité des données, ou encore à l’analyse des données et à sa génération de valeur.

Pour soutenir cette discipline, vous serez amenés à choisir une plateforme de metadata management. Pour faire simple, ces solutions doivent permettre aux responsables des données de capturer, stocker et agréger les métadonnées du SI de l’entreprise dans une même plateforme.

Vous vous rendrez très vite compte que le marché est complexe : les solutions sont diverses et leur portée ou capacité plus ou moins limitées.

Prenez un temps pour valider les capacités fonctionnelles de votre solution de gestion de métadonnées pour vous aider à :

Centraliser vos efforts

Contrôlez que les efforts effectués en termes de métadonnées ne soient pas isolés mais bien centralisés et unifiés.

De cette manière vous éviterez de reproduire des silos d’informations de la même manière que les données ont été silotées par le passé.

Partir de l’existant

Nous croyons qu’une stratégie de metadata management durable dans le temps ne peut être descriptive. Recherchez une solution qui saura se connecter à vos bases de données et automatiser l’import et la mise à jour de métadonnées techniques et opérationnelles (la source d’un jeu de données, son schéma, sa dernière mise à jour, etc.) dans la plateforme.

En étant connecté à la réalité opérationnelle de votre SI, la plateforme s’assure ainsi de gérer et proposer des informations avérées et non obsolètes à vos consommateurs de données.

Correspondre à votre contexte

Nous sommes convaincus que ce n’est pas à l’entreprise de se plier au modèle de documentation de la solution mais bien l’inverse !

En adoptant une solution modulaire et personnalisable, vous pourrez ajuster, prioriser et ajouter les éléments manquants et nécessaires pour vos consommateurs de données. À partir de cette approche, avancez pas à pas vers une gouvernance de métadonnées incrémentale et itérative correspondant à votre contexte selon vos priorités.

Prenez donc un temps pour recueillir les besoins et les difficultés de vos utilisateurs et consommateurs de données. Puis, constituez un template de documentation pertinent pour vos consommateurs qui orientera vos efforts quant à la collecte de métadonnées.

Avancer vite (et bien !)

Nous considérons l’automatisation de l’ingestion et l’intelligence de la solution comme les facteurs clés de succès !

Ces capacités permettront d’automatiser les tâches les plus fastidieuses, proposer des synergies dans votre patrimoine de données afin de documenter et contextualiser toujours plus et mieux vos données.

Sous le prisme réglementaire, par exemple, une plateforme intelligente pourra identifier par sa documentation déjà existante quels jeux de données sont considérés comme “sensibles” et contenant des données personnelles.

Explorer ses métadonnées

L’agrégation de métadonnées du SI dans une plateforme n’a de sens que si elles sont partagées au sein de l’entreprise et facilement accessibles par vos consommateurs de données. Les data catalogs répondent à ce premier cas d’usage :

Permettre aux analystes, aux data scientists et à tous autres consommateurs de données de trouver et de comprendre le patrimoine de données d’une entreprise dans le but d’en extraire de la valeur

Démarrez une gestion des métadonnées en seulement 6 semaines

Dans de nombreuses organisations, le metadata management est encore une tâche manuelle, très chronophage, effectuée par des profils plutôt techniques pour des profils techniques.

Par conséquent, la gestion des métadonnées en tant que discipline est passée inaperçue pour les parties prenantes des données et de l’analyse. La capacité des équipes à en expliquer les bénéfices ou à démontrer sa valeur a été et peut encore être difficile.

Téléchargez notre guide pour démarrer votre gestion des métadonnées ! Au travers de ce livre blanc, nous partageons nos conseils et expertises sur la mise en place d’une gestion des métadonnées itérative et optimisée pour votre contexte.

TÉLÉCHARGER

Quelles sont les conditions de succès pour démarrer un metadata management ?

par Zeenea Software | Avr 10, 2020 | Metadata Management

La gestion des métadonnées est une discipline naissante et nécessaire pour les entreprises souhaitant renforcer des démarches d’innovation ou de conformité réglementaire sur leur patrimoine de données.

Quelles sont les conditions de succès pour démarrer un metadata management ?
Comment gérer ses métadonnées ?
Comment démarrer une gestion des métadonnées ?

Avant d’enclencher votre projet de metadata management, nous vous conseillons de prendre un certain temps pour rassembler et étudier l’ensemble des éléments suivants:

Accepter d’échouer

Ce titre est volontairement fort ! Mais la peur n’évitant pas le danger, avoir conscience d’un risque et savoir l’intégrer dans la démarche est un élément crucial pour survivre à un incident de parcours. Être conscient du risque et savoir l’intégrer dans la démarche est un élément crucial du lancement d’une plateforme de gestion des métadonnées.

Accepter d’échouer, c’est donc admettre que la route ne sera pas pavée d’étapes simples et évidentes.

Mettre en place une gouvernance des données autour d’une gestion pertinente des métadonnées est un sujet complexe à l’échelle d’une entreprise, exacerbé par de nombreux facteurs : taille et complexité de l’organisation, culture ou sensibilité concernant le sujet de la donnée, prise en conscience des enjeux stratégiques associés, etc. Forcément, un sujet complexe induit un risque lors de l’exécution opérationnelle…

Expérimenter avec votre environnement data

Un metadata management se construit progressivement! Aucune révélation ne vienne frapper l’équipe en charge du projet à son initialisation. Il paraît évident que certaines décisions qui seront prises ne seront pas optimales et devront être revues, voire contredites. Seule l’expérimentation permettra de valider les effets attendus

Pour contrôler le coût induit par l’expérimentation, l’approche la plus évidente est de progresser par étape, de réduire unitairement le risque et de le rendre satisfaisant en cas d’ajustement nécessaire. Accepter d’échouer, ce n’est pas se résigner! Au contraire, c’est se mettre dans une posture où les efforts ne sont pas mis exclusivement sur l’anticipation mais aussi sur la remédiation et l’adaptation. Des hypothèses vont être validées successivement, en faisant varier un nombre de paramètres le plus limité possible à chaque fois, et les conclusions, par la mesure, permettront de progresser.

Ce fonctionnement est totalement itératif et incrémental. On retrouve donc des fondamentaux promus de façon assez générale par l’agilité.

S’aligner avec les objectifs d’entreprise

Les objectifs d’une gouvernance de vos métadonnées peuvent être locaux ou globaux.

La démarche peut ne concerner qu’un périmètre limité dans l’entreprise, et traduire une initiative très locale, tout comme à l’inverse, elle peut être vouée à s’appliquer à l’entreprise dans son ensemble. À plus forte raison lorsqu’ils sont globaux à l’entreprise, et donc souvent exprimés de façon assez généraliste, il est important de veiller à ce que leur implémentation reste en phase avec l’idée originelle.

Un élément important dans cette équation est donc la dimension humaine ! D’une part parce que des responsabilités seront identifiées, mais aussi parce que certains processus devront soit évoluer, soit être définis, ou encore parce que la culture et les à priori autour de la donnée devront être modifiés, à grand renfort de communication.

Malgré tout, s’adapter et en général, c’est une pratique salutaire.

Prioriser

Parmi les bénéfices d’une telle démarche, on trouve, comme cité précédemment, une meilleure maîtrise du risque. Mais il existe un autre bénéfice assez évident : la possibilité d’avoir un retour sur investissement plus rapide. Les premiers effets doivent pouvoir être constatés dès la fin de la première itération.

L’objectif doit être déterminé pour produire de la valeur concrète pour l’entreprise.

Sélectionner les informations utiles

Vouloir gouverner ses métadonnées, ce n’est pas construire un inventaire excessivement complet et complexe d’informations sur les données. Il s’agit d’identifier les informations utiles, et même prioritairement nécessaires.

Nous recommandons d’être sélectif sur la nature des informations caractérisant les données. La tentation d’un métamodèle trop ambitieux pourrait en effet nuire à l’effort qualitatif demandé aux profils Data Stewards.

Nous préconisons donc une sélection très précise des métadonnées répondant aux objectifs donnés par itération. L’organisation des connaissances dans un catalogue de métadonnées s’en trouvera optimisée, aussi bien pour les contributeurs que sont les Stewards, que les utilisateurs en quête d’informations.

La qualité doit primer sur la quantité, l’approche itérative répondra aux attentes d’enrichissement de façon progressive au fur et à mesure du déploiement.

Capitaliser sur ses métadonnées!

Votre expérimentation va se traduire par des initiatives locales qui pourront
donner lieu à des réflexions sur la généralisation de tout ou partie des
réalisations.

Capitaliser c’est savoir identifier ce qui relève de l’intérêt commun.

Démarrez une gestion des métadonnées en seulement 6 semaines

Dans de nombreuses organisations, le metadata management est encore une tâche manuelle, très chronophage, effectuée par des profils plutôt techniques pour des profils techniques.

TÉLÉCHARGER

Comment Spotify a amélioré la découverte de données pour les Data Scientists

par Zeenea Software | Mar 19, 2020 | Inspiration Data, Metadata Management

En tant que leader mondial du marché du streaming de musique, il ne fait aucun doute que la firme est data-driven.

Spotify a accès aux plus grandes collections de musique du monde, ainsi qu’à des podcasts et autres contenus audio.

Qu’ils envisagent un changement de stratégie produit ou qu’ils décident quels morceaux ajouter dans leur librairie, Spotify affirme que « les données fournissent une base pour une meilleure prise de décision ».

Spotify en chiffre

Fondée en 2006 à Stockholm par Daniel Ek et Martin Lorentzon, Spotify avait pour but d’être une plateforme de streaming légale afin de lutter contre le piratage de musique au début des années 2000.

Quelques statistiques sur Spotify en 2020 :

248 millions d’utilisateurs actifs dans le monde,
20 000 chansons sont ajoutées par jour sur leur plateforme,
Spotify détient 40 % du marché mondial de la musique en streaming,
20 milliards d’heures de musique ont été écoutées en 2015

Ces chiffres représentent non seulement le succès de Spotify, mais également les quantités colossales de données qui sont générées chaque année, voire chaque jour ! Pour permettre à leurs employés, ou comme ils les appellent, les “Spotifiers”, de prendre des décisions plus rapides et plus intelligentes, Spotify a développé Lexikon.

Lexikon est une librairie contenant des données et informations qui aide les employés à trouver et comprendre leurs données et connaissances générées par leur communauté d’experts.

Quelles étaient les problématiques liées à la donnée chez Spotify ?

Dans leur article How We Improved Data Discovery for Data Scientists at Spotify, Spotify explique qu’ils ont démarré leur stratégie data en migrant leurs données vers le Google Cloud Platform, et ont vu une explosion de leurs jeux de données !

Ils étaient également en pleine recherche de nouveaux spécialistes data tels que des data scientists, data analysts, etc. Cependant, ils expliquent qu’il n’était pas clair qui étaient les propriétaires de leurs jeux de données et que ceux-ci n’étaient pas ou peu documentés, ce qui rendait difficile la recherche des données.

L’année suivante, ils ont sorti Lexikon, comme solution à ce problème.

Leur première version a permis aux Spotifiers de rechercher et de parcourir les tables BigQuery disponibles ainsi que de découvrir les recherches et analyses passées. Cependant, des mois après le lancement, les data scientists continuaient à considérer la découverte de données comme un problème majeur, passant la plupart de leur temps à essayer de trouver leurs ensembles de données, ce qui retardait la prise de décision informée.

Spotify a alors décidé de se concentrer sur cette problématique spécifique en itérant sur Lexikon, dans le but unique d’améliorer l’expérience de découverte de données pour les data scientists.

Comment fonctionne la découverte de données de Lexikon ?

Pour que Lexikon puisse marcher, Spotify a commencé par mener des recherches sur ses utilisateurs, leurs besoins ainsi que leurs “pain points”. Ce faisant, l’entreprise a pu mieux comprendre les intentions de ses utilisateurs et utiliser cette compréhension pour mieux développer le produit.

Découverte de données à faible intention

Imaginons, vous êtes de mauvaise humeur et vous aimeriez écouter de la musique pour vous remonter le moral. Alors, vous ouvrez Spotify, vous parcourez différentes playlist pour booster votre humeur et vous démarrez la playlist « Mood Booster ».

Tah-dah ! Il s’agit d’un exemple de découverte de données à faible intensité, ce qui signifie que votre objectif a été atteint sans exigences extrêmement strictes.

Pour mettre cela dans le contexte d’un data scientist de Spotify, en particulier les nouveaux, leur découverte de données de faible intention serait :

trouver des jeux de données populaires / largement utilisés dans l’entreprise,
trouver des jeux de données pertinents pour le travail de son équipe,
trouver des ensembles de données que je n’utilise peut-être pas, mais que je devrais connaître.

Pour répondre à ces besoins, Lexikon dispose donc d’une page d’accueil personnalisable avec des recommandations personnalisées aux utilisateurs. La page d’accueil fait des suggestions pertinentes, générées automatiquement, pour des jeux de données tels que :

les jeux de données les plus utilisés au sein de l’entreprise,
les jeux des données récemment utilisées par l’utilisateur,
des jeux de données les plus utilisés par l’équipe à laquelle appartient l’utilisateur.

Découverte de données de haute intention

Pour expliquer simplement, Spotify utilise l’exemple de quand on entend une chanson qu’on aime bien mais qu’on ne la connaît pas. On ouvre donc l’application et recherche cette chanson jusqu’à ce qu’on la trouve enfin, et l’écoute en boucle. Il s’agit d’une découverte de données de haute intention !

Un spécialiste des données à Spotify avec de hautes intentions a des objectifs spécifiques et est susceptible de savoir exactement ce qu’il recherche. Par exemple, il pourrait vouloir :

trouver un jeu de données par son nom,
trouver un jeu de données qui contient un champ de schéma spécifique,
trouver un jeu de données relatif à un sujet particulier,
trouver un jeu de données utilisé par un collègue dont il ne se souvient pas du nom,
trouver les principaux jeux de données qu’une équipe a utilisés à des fins de collaboration.

Pour répondre aux besoins des data scientists, Spotify s’est d’abord concentré sur leur expérience de recherche. Ils ont construit un algorithme de classement basé sur la popularité d’un jeu de données.

Ce faisant, les data scientists ont indiqué que les résultats de leurs recherches étaient plus pertinents et qu’ils avaient davantage confiance en les jeux de données qu’ils découvraient.

En plus d’améliorer la recherche, ils ont introduit de nouveaux types de propriétés (schémas, champs, contact, équipe, etc.) dans Lexikon.

Dans l’exemple ci-dessous, un utilisateur recherche « track_uri ». Il est capable de naviguer dans la page du champ du schéma « track_uri » et de voir les tableaux contenant cette information. Depuis l’ajout de cette nouvelle fonctionnalité, elle s’est avérée être un chemin critique pour la découverte de données, 44 % des utilisateurs de Lexikon visitant ce type de pages.

’

Les conclusions sur Lexikon

Depuis ces améliorations, l’utilisation de Lexikon par les spécialistes des données est passée de 75 % à 95 %, ce qui le place dans le top 5 des outils les plus utilisés !

La découverte de données n’est donc plus un problème majeur pour les Spotifiers.

Sources:

Spotify Usage and Revenue Statistics (2019): https://www.businessofapps.com/data/spotify-statistics/
How We Improved Data Discovery for Data Scientists at Spotify: https://labs.spotify.com/2020/02/27/how-we-improved-data-discovery-for-data-scientists-at-spotify/
75 amazing Spotify Statistics and Facts (2020): https://expandedramblings.com/index.php/spotify-statistics/

Vous voulez en savoir plus sur les solutions de data discovery ?

Téléchargez notre livre blanc : « Le Data Discovery vu par les Géants du Web »

télécharger le livre blanc

Les métadonnées vues par les géants du Web

par Zeenea Software | Mar 17, 2020 | Inspiration Data

L’analyse du cycle de vie des données fait partie des éléments les plus difficiles à mettre en oeuvre par les entreprises ces dernières années.

Les organisations à la pointe de l’innovation par la donnée telles que Uber, LinkedIn, Netflix, Airbnb ou encore Lyft ont également perçu la valeur des métadonnées dans l’ampleur de ce défi.

Elles ont ainsi développé une gestion des métadonnées à l’aide de plateformes dédiées. Fréquemment développées de manière custom, elles facilitent l’ingestion, l’indexation, la recherche, l’annotation et la découverte des données afin de maintenir des jeux de données de haute qualité.

Des exemples ci-dessous ressortent une constante partagée : la difficulté, accrue par la volumétrie et la variété, à transformer les données de l’entreprise en connaissance exploitable.

Voyons ensemble l’analyse et le contexte de ces grands du Web :

Uber

Chaque interaction sur la plate-forme Uber, qu’il s’agisse des VTC ou des livraisons de repas à domicile est basée sur les données. Grâce à leur analyse, les données permettent des expériences utilisateurs plus fiables et plus pertinentes.

Uber en chiffres, cela représente :

des milliers de milliards de messages Kafka par jour,
des centaines de pétaoctets de données dans HDFS dans des data centers,
des millions de requêtes analytiques hebdomadaires.

Cependant, la volumétrie de données générée ne suffit pas à elle seule à tirer parti des informations qu’elles représentent ; pour être utilisées de manière efficace et efficiente, les données nécessitent plus de contexte pour prendre des décisions commerciales optimale.

Pour fournir des informations supplémentaires, Uber a donc développé “Databook”, la plateforme interne d’Uber qui collecte et gère les métadonnées sur les jeux de données internes, afin de transformer les données en connaissances.

La plateforme Databook est conçue pour permettre aux employés d’Uber d’explorer, de découvrir et d’utiliser efficacement les données de chez Uber.

Databook garantit le contexte sur les données – ce qu’elles signifient, leur qualité, etc. – pour les milliers de collaborateurs qui essaient de les analyser. En bref, les métadonnées de Databook permettent aux parties prenantes des données de passer de l’affichage de données brutes à des connaissances exploitables.

Dans l’article « Databook: Turning Big Data into Knowledge with Metadata at Uber », l’article conclut que l’un des plus gros défis du Databook était de passer d’une mise à jour manuelle du répertoire de métadonnées à l’automatisation.

Airbnb

Lors d’une conférence menée en mai 2017, John Bodley, Data Engineer chez AirBnB, exposait les nouvelles problématiques issues de la forte croissance de la société : celles d’un paysage confus et non unifié qui ne permettait pas d’accéder à l’information toujours plus importante.

Que faire de toutes ces données collectées quotidiennement ? Comment les transformer en une force pour tous les employés d’Airbnb ?

Une équipe dédiée s’est mise en ordre de bataille pour développer un outil qui démocratiserait l’accès aux données au sein de l’entreprise. Leur travail s’est à la fois fondé sur la connaissance des analystes et leur capacité à comprendre les points critiques et sur celle des ingénieurs, à même de proposer une vision plus technique de l’ensemble. Au cœur du projet, des interviews des employés et de leurs problématiques ont été menées.

De cette enquête est ressortie : une difficulté à trouver les informations dont les collaborateurs avaient besoin pour travailler, et des démarches encore trop tribales dans le partage et la détention d’informations.

Pour répondre à ces enjeux, AirBnB a créé le Data Portal, plateforme de gestion de métadonnées. Le Data Portal centralise et partage ces informations via cette plateforme en self-service.

Lyft

La société Lyft est un service de VTC. Sur le marché américain, elle est le principal concurrent d’Uber.

Lyft est partie d’un constat d’inefficience dans l’accès aux données pour ses profils analytiques. Ses réflexions se sont axées sur la mise à disposition de la connaissance des données pour optimiser ses processus. En quelques mois seulement, l’initiative de proposer une interface de recherche de données a porté des fruits concrets sur ces 2 grands défis :

La productivité – Que ce soit pour créer un nouveau modèle, instrumenter une nouvelle métrique ou effectuer une analyse ad hoc, comment Lyft peut utiliser ces données de la manière la plus productive et la plus efficace possible ?

La conformité – Lors de la collecte de données sur les utilisateurs d’une entreprise, comment Lyft peut se conformer aux exigences réglementaires croissantes et préserver la confiance de ses utilisateurs ?

Dans leur article Amundsen — Lyft’s data discovery & metadata engine, Lyft affirme que la clé ne réside pas dans les données, mais dans les métadonnées !

Netflix

En tant que leader mondial du streaming vidéo, l’exploitation des données chez Netflix est, bien évidemment, un axe stratégique majeur.

Compte tenu de la diversité des sources de données, la plateforme vidéo souhaitait proposer un moyen de fédérer et d’interagir avec ces assets depuis un même outil. Cette recherche de solution a abouti à Metacat.

Cet outil agit comme une couche d’accès aux données et métadonnées depuis les sources de données de Netflix. L’outil permet ses utilisateurs un accès aux données et ce, quelque soit leurs systèmes de stockage grâce à trois fonctionnalités différentes :

L’ajout de métadonnées métier : à la main ou définies par les utilisateurs, des métadonnées métier peuvent être ajoutées via Metacat.
La data discovery : l’outil publie des métadonnées de schéma et métier définies par ses utilisateurs dans Elasticsearch, facilitant ainsi la recherche en texte intégral d’informations dans les sources de données.
La notification de modification de données et audits : Metacat enregistre et notifie toutes les changements apportés sur les métadonnées depuis les systèmes de stockage.

Dans l’article Metacat: Making Big Data Discoverable and Meaningful at Netflix, la firme confime qu’ils sont loin d’avoir fini ! Il y a quelques fonctionnalités supplémentaires sur lesquelles ils doivent encore travailler pour améliorer l’expérience data warehousing :

Schéma pour fournir l’historique d’un tableau,
Fournir des informations contextuelles sur les tableaux pour un meilleur data lineage,
Ajouter un support pour les datastores comme Elasticsearch et Kafka.

Vous voulez en savoir plus sur les solutions de data discovery ?

Téléchargez notre livre blanc : « Le Data Discovery vu par les Géants du Web »

télécharger le livre blanc

Amundsen: comment Lyft simplifie la découverte des données

par Zeenea Software | Fév 27, 2020 | Inspiration Data, Metadata Management

Dans notre précédent article, nous avons parlé de la solution Databook d’Uber , une plateforme interne conçue par leurs ingénieurs dans le but de contextualiser les données d’entreprise. Dans cet article, nous nous concentrerons sur la plateforme de découverte de données à l’aide des métadonnées de Lyft : Amundsen.

Après le succès d’Uber, le monde du VTC a vu arriver une vague importante de concurrents et parmi eux, Lyft.

Les chiffres clés de Lyft

Fondée en 2012 à San Francisco, Lyft opère dans plus de 300 villes aux États-Unis et au Canada. Avec plus de 29% du marché américain du VTC*, Lyft s’est assuré la deuxième position, au coude à coude avec Uber. Voici quelques statistiques clés sur Lyft:

23 millions d’utilisateurs Lyft en janvier 2018,
Plus d’un milliard de trajets Lyft,
1,4 million de conducteurs (décembre 2017).

Et bien sûr, ces chiffres se sont transformés en quantités colossales de données à gérer ! Dans une entreprise moderne et data-driven comme Lyft, il est évident que leur plateforme est alimentée par la donnée. Avec l’augmentation rapide du paysage data, il devient de plus en plus difficile de savoir quelles données existent, comment y accéder et quelles informations sont disponibles.

Ces questions ont conduit à la création d’Amundsen, la solution de découverte de données open source et plateforme de métadonnées de Lyft.

L’histoire d’Amundsen

Nommé d’après l’explorateur norvégien Roald Amundsen, Lyft améliore la productivité des utilisateurs de la donnée en fournissant une interface de recherche des données intuitive, qui ressemble à ceci:

Bien que les data scientists de Lyft souhaitaient consacrer la majorité de leur temps au développement et à la production de modèles, ils ont réalisé que leur quotidien était principalement dédié à la découverte de données. Ils se retrouvaient à poser des questions telles que :

Ces données existent-elles? Si c’est le cas, où puis-je les trouver? Puis-je y accéder?
Qui ou quelle équipe est propriétaire ?Qui sont les utilisateurs communs?
Puis-je faire confiance à ces données?

Pour répondre à ces questions, Lyft s’est inspiré de moteurs de recherche comme Google (quelle surprise 😉 ).

Comme indiqué ci-dessus, leur point d’entrée est une simple zone de recherche où les utilisateurs peuvent taper n’importe quel mot-clé tel que «clients» «employés» ou «prix». Enfin, si l’utilisateur de données ne sait pas ce qu’il recherche, la plateforme lui présente une liste des tableaux les plus populaires, afin qu’il puisse les parcourir librement.

Quelques fonctionnalités clés :

Les résultats de la recherche sont affichés sous forme de liste où la description du tableau et la date de dernière mise à jour du tableau apparaissent. Le classement utilisé est similaire au Page Rank de Google, où les tableaux les plus populaires et les plus pertinents apparaissent dans les premiers résultats.

Lorsqu’un utilisateur data chez Lyft trouve ce qu’il recherche et fait son choix, l’utilisateur est dirigé vers une page de détails qui affiche le nom de la table ainsi que sa description qui a été manuellement rédigée.

Les utilisateurs peuvent également insérer manuellement des balises, les propriétaires et d’autres descriptions. Cependant, une grande partie de leurs métadonnées est automatiquement organisée, comme la popularité de la table ou même ses utilisateurs fréquents.

Dans une table, les utilisateurs peuvent explorer les colonnes associées pour découvrir davantage les métadonnées de la table.

Par exemple, si vous sélectionnez la colonne «distance_travelled» comme indiqué ci-dessous, vous trouverez une petite définition du champ et ses statistiques associées telles que l’enregistrement de décompte, le décompte max, le décompte min, le décompte moyen, etc., pour les données scientifiques pour mieux comprendre la forme de leurs données.

Enfin, les utilisateurs peuvent accéder aux données parmi leur ensemble en appuyant sur le bouton d’aperçu de la page. Bien sûr, cela n’est possible que si l’utilisateur a accès aux données sous-jacentes en premier lieu.

Comment Amundsen démocratise la découverte de données

Affichage de données pertinentes

Amundsen permet désormais à tous les employés de Lyft, des nouveaux employés aux plus expérimentés, de devenir autonomes dans la découverte de leurs données pour leurs tâches quotidiennes.

Parlons technique. La data warehouse de Lyft est sur Hive et toutes les partitions physiques sont stockées dans S3. Leurs utilisateurs comptent sur Presto, un moteur de requête en direct, pour la découverte de leur table.

Pour que son moteur de recherche affiche les tableaux les plus importants ou pertinents, Lyft utilise le framework DataBuilder pour créer un extracteur d’utilisation des requêtes qui analyse les journaux de requêtes et ainsi obtenir les données d’utilisation des tables. Ensuite, ils conservent cette utilisation de table en tant que document de table via Elasticsearch. Et c’est ainsi qu’en très peu de temps ils peuvent récupérer les jeux de données les plus pertinents pour les utilisateurs de données.

Connecter les données aux personnes

Les processus de recherche de données consistent principalement en interactions avec les utilisateurs.

Et la notion de propriété des données est assez confuse ; cela prend beaucoup de temps, sauf si vous savez exactement à qui demander.

Amundsen résout ce problème en créant des relations entre leurs utilisateurs et leurs données. Ainsi, les connaissances tribales sont partagées en exposant ces relations.

Lyft a actuellement trois types de relations entre les utilisateurs et les données : suivies, détenues et utilisées. Ces informations aident les employés expérimentés à devenir des ressources utiles pour d’autres employés ayant un rôle similaire. Amundsen facilite également la recherche des connaissances tribales grâce à un lien vers chaque profil utilisateur dans l’annuaire interne des employés.

Ils ont également travaillé sur la mise en œuvre d’une fonctionnalité de notifications qui permettrait aux utilisateurs de demander plus d’informations aux propriétaires de données, comme par exemple une description manquante dans un tableau.

Pour plus d’informations sur Amundsen, rendez-vous sur leur site juste ici.

Quelle est la prochaine étape pour Lyft

Lyft espère continuer à travailler avec une communauté croissante pour améliorer leur expérience de découverte de données et augmenter la productivité des utilisateurs. Leur roadmap comprend actuellement un système de notifications par e-mail, une lignée de données, une refonte UI / UX, et plus encore !

La société de VTC américaine n’a pas encore eu son dernier mot !

Sources:

Lyft – Statistics & Facts: https://www.statista.com/topics/4919/lyft/
Lyft And Its Drive Through To Success: https://www.startupstories.in/stories/lyft-and-its-drive-through-to-success
Lyft Revenue and Usage Statistics (2019): https://www.businessofapps.com/data/lyft-statistics/
Presto Infrastructure at Lyft: https://eng.lyft.com/presto-infrastructure-at-lyft-b10adb9db01?gi=f100fa852946
Open Sourcing Amundsen: A Data Discovery And Metadata Platform: https://eng.lyft.com/open-sourcing-amundsen-a-data-discovery-and-metadata-platform-2282bb436234
Amundsen — Lyft’s data discovery & metadata engine: https://eng.lyft.com/amundsen-lyfts-data-discovery-metadata-engine-62d27254fbb9

Vous voulez en savoir plus sur les solutions de data discovery ?

Téléchargez notre livre blanc : « Le Data Discovery vu par les Géants du Web »

télécharger le livre blanc

Databook : Comment Uber transforme ses données en connaissances exploitables d’entreprise

par Zeenea Software | Fév 17, 2020 | Inspiration Data

Créée en 2009, Uber est devenue une des entreprises les plus fascinantes au monde ! La startup a complètement changé le monde avec son business model basé sur la mise en relation de personnes proposant des services. Le succès de la firme a même mené à la création du terme “uberisation”, c’est dire !

De service VTC à livraison de commandes de restaurants, il est évident que la stratégie de la plateforme d’Uber est guidée par leurs données. Elles sont effectivement au cœur du business d’Uber, créant de meilleures expériences utilisateur à travers leurs services pour leurs clients, tout en permettant à leurs employés d’être plus efficaces dans leur travail.

Cependant, le Big Data à lui seul n’est pas suffisant pour accomplir la mission de ce géant. Le volume de données généré chez Uber demande qu’elles soient contextualisées et fiables afin de prendre les bonnes décisions stratégiques. Donc, comme beaucoup de “unicorns”, telle que Airbnb avec le Data Portal, l’équipe d’ingénieurs de Uber a développé Databook. Cette plateforme interne a pour objectif de scanner, collecter et agréger les métadonnées afin de voir plus clair sur la localisation des données dans le SI de Uber et leurs référents. Bref, une plateforme qui veut transformer des données brutes en données contextualisées

L’évolution d’Uber (et de ses données)

Depuis 2016, Uber a ajouté plusieurs services à sa plateforme comme Uber Eats et Jump Bikes. Quelques statistiques :

15 millions de courses par jour
Plus de 75 millions d’utilisateurs actifs
18 000 employés depuis sa création en 2009

Plus l’entreprise grandit, plus elle génère de la donnée ! Pour s’assurer que leurs data et analytics poursuivent rythme d’une croissance exponentielle basée sur la data, Uber avait besoin d’un système beaucoup plus puissant pour gagner en efficacité dans la recherche et la découverte de données pertinentes.

Ceci a mené à la création de Databook, le curateur de métadonnées d’Uber.

L’arrivée de Databook

La plateforme Databook agrège et gère les métadonnées sur les jeux de données d’Uber. Elle permet aux employés d’explorer, découvrir et utiliser efficacement leurs données. En d’autres termes, Databook veut aider les analysts et tout autre consommateur de données dans l’entreprise à mieux comprendre et contextualiser la ressource qu’il s’apprête à utiliser à l’aide de métadonnées. Les métadonnées de Databook permettent à tous les ingénieurs, data scientists et équipes informatiques de passer de la simple visualisation de leurs données à leur transformation en connaissances exploitables.

Databook permet aux employés d’accéder à des métadonnées actualisées et à jour grâce à des imports automatisés. Elles sont collectées principalement depuis Hive, MySQL, Cassandra et quelques autres systèmes de stockage internes. Pour les rendre accessibles et recherchables, Databook propose à ses consommateurs une interface utilisateur avec un moteur de recherche à la Google ou son API RESTful.

L’architecture de Databook

L’architecture de Databook est divisée en trois parties: comment les métadonnées sont collectées et stockées, et comment leurs données sont remontées.

Sur le plan conceptuel, l’architecture de Databook a été conçue pour permettre quatre fonctionnalités clés:

Extensible : de nouvelles métadonnées, le stockage et les entités sont faciles à ajouter.
Accessibilité : les services peuvent accéder à toutes les métadonnées
Évolutivité : prendre en compte dans le temps les besoins des utilisateurs et des nouveautés technologique..
Puissance et rapidité

Pour aller plus loin sur l’architecture de la plateforme, cliquez ici https://eng.uber.com/databook/

L’avenir du Databook ?

Avec le Databook, Uber a réussi à transformer ses métadonnées en super connaissances !

La plateforme a su montrer sa puissance et sa nécessité dans une organisation data-driven. De nouvelles fonctionnalités ne devraient pas tarder à être apportées : les capacités de générer des informations sur les données avec des modèles d’apprentissage automatique et de créer des mécanismes avancés de détection, de prévention et d’atténuation des problèmes. L’avenir du Databook semble radieux !

Sources

Databook: Turning Big Data into Knowledge with Metadata at Uber: https://eng.uber.com/databook/
How LinkedIn, Uber, Lyft, Airbnb and Netflix are Solving Data Management and Discovery for Machine Learning Solutions: https://towardsdatascience.com/how-linkedin-uber-lyft-airbnb-and-netflix-are-solving-data-management-and-discovery-for-machine-9b79ee9184bb
The Story of Uber https://www.investopedia.com/articles/personal-finance/111015/story-uber.asp
The definition of uberization, Cambridge dictionary: https://dictionary.cambridge.org/dictionary/english/uberization

Vous voulez en savoir plus sur les solutions de data discovery ?

Téléchargez notre livre blanc : « Le Data Discovery vu par les Géants du Web »

télécharger le livre blanc

Qu’est-ce que le metadata management ?

par Zeenea Software | Jan 27, 2020 | Metadata Management

« By 2021, organizations will spend twice as much effort in managing metadata compared with 2018 in order to assess the value and risks associated with the data and its use. »

*Gartner, The State of Metadata Management

La définition de metadata management

Avant de définir ce qu’est un metadata management (ou gestion des métadonnées en français), prenons un moment pour revoir les fondamentaux : Quelle est la différence entre une donnée et une métadonnée ?

Si malheureusement le temps vous manque, retenez simplement, qu’une métadonnée permet de contextualiser une donnée via les très appréciés 5 W : Who?, What?, When?, Where?, Why?

Ces questions répondent ainsi à un objectif clair : comprendre la donnée en vue de l’utiliser en état de pleine conscience.

Avec l’arrivée du Big Data et des différentes réglementations data, les leaders de la donnée doivent gagner en maturité sur leurs projets data au travers d’efforts centrés sur les métadonnées. Celles-ci sont partout : dès lors qu’une donnée est générée un ensemble d’informations la contextualisant apparaît.

Prenons l’exemple, d’un fichier excel recensant une liste de contacts. Les données sont les prénoms, noms, emails et adresses postales et les métadonnées de ce jeux de données seraient sa date de création, le nom du fichier, les auteurs associés, la taille et le poids du fichier ou encore des commentaires laissés dans le document.

Cette discipline autour de la gestion des métadonnées n’est pas quelque chose de révolutionnaire en tant que tel. Les entreprises ont compris son importance en réalisant, là encore, des fichiers excels. Le vrai virage aujourd’hui pour les entreprises data-driven est de s’outiller dans le metadata management avec des solutions qui sauront passer d’une métadonnée simplement passive à une information active et exploitable pour des cas d’utilisation tels que : se conformer aux réglementations, mettre en place une gouvernance des données et comprendre la valeur de ses données.

Pourquoi faut-il implémenter une stratégie de metadata management?

Le premier cas d’usage concernant la gestion des métadonnées est de faciliter la découverte et la compréhension du patrimoine de données de l’entreprise.

Ceci requiert la mise en place d’un référentiel de métadonnées, son remplissage et sa mise à disposition d’informations.

Voici quelques bénéfices, entre autres, du metadata management :

Une meilleure compréhension du sens des données du patrimoine de l’entreprise,
Une communication sur la sémantique des données via un data catalog,
Les leaders de la données sont plus productifs et efficaces, ce qui accélère la livraison des projets,
L’utilisation des dictionnaires de données et glossaires métier permet d’identifier des synergies et vérifier la cohérence des informations,
Renforcement de la documentation d’une donnée (suppression, archives, qualité, …),
La génération de pistes audits et d’informations (risque et sécurité pour la conformité).

Gérez vos métadonnées avec Zeenea

Avec Zeenea, transformez vos métadonnées en connaissances exploitables !

Notre plateforme de metadata management organise et met à jour automatiquement vos informations à partir de vos systèmes de stockage. Elle devient une source unique d’informations pour tout utilisateur de la donnée dans l’entreprise.

Découvrir notre plateforme

Contactez-nous

Quelle est la différence entre les données et les métadonnées ?

par Zeenea Software | Sep 9, 2019 | Data Catalog, Metadata Management

“Data is content, and metadata is context. Metadata can be much more revealing than data, especially when collected in the aggregate.”

— Bruce Schneier, Data and Goliath.

Les définitions : données et métadonnées

Pour beaucoup, il est difficile d’appréhender les concepts de donnée et de métadonnée. Bien que les deux soient une forme de donnée, leurs usages et leurs spécifications diffèrent complètement.

Premièrement, une donnée est une information.

Elle peut être une observation, une mesure, un fait, ou alors une description de quelque chose. Les données permettent à ses utilisateurs de découvrir des modèles et tendances présents dans le patrimoine de données d’une entreprise.

D’autre part, une métadonnée, fréquemment définie comme étant une “donnée sur la donnée”, fait référence aux détails spécifiques sur ces données.

Elle fournit des informations granulaires sur une donnée spécifique, par exemple : le type de fichier, le format, l’origine, la date, etc.

Les différences clés entre les données et les métadonnées

La donnée est simplement l’essence, le contenu qui fournit une description, une mesure, voire un rapport sur tout élément relatif au patrimoine de données de l’entreprise. Les métadonnées elles, décrivent les informations pertinentes sur lesdites données, donnant plus de contexte pour ses utilisateurs.

Les données peuvent être informatives, mais pas toujours. Prenons l’exemple des chiffres ou caractères non informatifs. Cependant, les métadonnées sont toujours informatives car il s’agit d’une référence à d’autres données.

Enfin, les métadonnées sont toujours considérées comme des informations traitées, à la différence des données qui peuvent être considérées comme non-traitées ou traitées.

L’importance des métadonnées dans une stratégie de gestion des données

Quand on crée une donnée, les métadonnées sont automatiquement créées (origine de la donnée, format, type, etc.). Toutefois, ces informations ne sont pas suffisantes pour gérer correctement les données ; Les data managers doivent investir du temps pour s’assurer que cet actif d’entreprise est correctement documenté, stocké et archivé sous une taxonomie compatible avec tous les autres actifs de l’entreprise. C’est ce que nous appelons la « gestion des métadonnées ».

Une meilleure gestion des métadonnées augmente la valeur des données. Elles permettent aux entreprises d’améliorer la qualité et la découverte des données, ce qui permet aux utilisateurs de mieux les comprendre. Sans métadonnées, les entreprises se retrouvent avec des jeux de données sans contexte, dont la valeur ne peut être exploitée.

Il est donc essentiel que les entreprises qui traitent des données disposent d’une solution de gestion des métadonnées. En mettant en place une plateforme de metadata management, les data users sont en mesure de découvrir, de comprendre et de faire confiance au patrimoine de données de leur entreprise.

Vous recherchez une solution de metadata management ?

Contactez-nous

Le rôle des métadonnées

par Zeenea Software | Mai 29, 2019 | Metadata Management

Notre conviction exige qu’une entreprise fasse des compromis entre le contrôle et la flexibilité dans l’utilisation des données.

En clair, les entreprises doivent adopter une stratégie encourageant et facilitant l’utilisation des données, tout en minimisant les risques.

Nous sommes convaincus qu’une telle gouvernance sera atteinte si vos collaborateurs sont à même de répondre à ces quelques questions :

Quelles données sont présentes au sein de mon organisation ?
Ces données sont-elles suffisamment documentées pour être comprises et maîtrisées par les collaborateurs de mon organisation ?
D’où viennent-elles ?
Sont-elles sécurisées ?
Quelles règles ou restrictions s’appliquent à mes données ?
Qui sont les responsables ? Qui sont les “sachants” ?
Qui utilise ces données ? Comment ?
Comment vos collaborateurs peuvent y accéder ?

Ces métadonnées (informations sur les données) sont devenues des informations stratégiques au sein des entreprises. Elles décrivent diverses facettes, tant techniques qu’opérationnelles ou métier, des données que vous possédez.

En constituant un référentiel de métadonnées unifié, centralisé et accessible, vous garantissez des données précises, cohérentes et comprises dans toute l’entreprise.

Les bénéfices d’un référentiel de métadonnées

Nos expériences nous ont amené à valoriser une gouvernance fondée sur un management des métadonnées.

Nous sommes intimement convaincus qu’on ne peut gouverner ce qu’on ignore ! Ainsi, construire un référentiel de métadonnées constitue une base de travail solide pour démarrer une gouvernance sur vos données. Il vous permettra, entre autres, de :

Inventorier votre patrimoine ;
Attribuer des rôles et responsabilités sur vos données référencées ;
Être complété par vos employés de manière collaborative ;
Renforcer votre mise en conformité avec la régulation.

La concentration des efforts sur les métadonnées et la création d’un tel référentiel est une caractéristique clé d’une gouvernance des données à l’approche agile.

C’est jamais trop tard pour s’y mettre! Démarrez votre projet gouvernance des données

Découvrez les secrets pour mettre en œuvre une gouvernance des données agile en téléchargeant gratuitement notre livre blanc : « Pourquoi démarrer une gouvernance des données agile ». Dans ce guide, vous découvrirez :

Les définitions de la gouvernance des données
Les avantages de la mise en œuvre d’une stratégie de gouvernance des données
Ce que signifie une gouvernance des données « agile »
5 attributs clés pour que votre entreprise puisse commencer à déployer la gouvernance des données agile dans votre organisation !

pourquoi-demarrer-gouvernance-données-agile-mockup-FR

TÉLÉCHARGER

Metadata management : une discipline data en plein essor

par Zeenea Software | Mar 28, 2019 | Metadata Management

Nous nous sommes rendus les 4, 5 et 6 mars derniers au célèbre Data & Analytics Summit de Londres organisé par Gartner. Un évènement incontournable et inspirant pour les Chief Data Officers et leurs équipes dans la mise en œuvre de leur stratégie data.

Cet article reprend de nombreux concepts de la conférence donnée pour l’occasion : “Metadata Management Is A Must Have Discipline” par Alan Dayley, Gartner Analyst. Ce sujet a su attirer l’attention de plusieurs C-Levels, confirmant que le management de métadonnées est bien une priorité sur les années, voire les mois qui arrivent.

La notion de « métadonnée » appliqué à notre quotidien

Pour introduire la notion de métadonnées, le conférencier a fait un parallèle avec une situation que nous connaissons bien et prenant de plus en plus d’importance dans notre quotidien : identifier et sélectionner ce que nous mangeons. Prenons l’exemple des plats préparés aux nombreux aliments transformés aux caractéristiques nutritives largement modifiées. Ce sont grâce à différents labels, barèmes et descriptions sur le packaging du produit que les consommateurs identifient ce que contient leur assiette.

Ces informations sont, ce que nous appelons, des métadonnées !

Comment les métadonnées apportent-elles de la valeur à l’entreprise ?

Appliquer des métadonnées sur les données permet ainsi à l’entreprise de contextualiser son patrimoine de données. Regroupées en 4 catégories, les métadonnées abordent différents sujets : Data Trust, Regulations & Privacy, Data Security et Data Quality.

Les réflexions de mise en œuvre d’une stratégie de management de métadonnées se portent sur le juste équilibre entre les besoins métier identifiés dans l’entreprise et les réglementations associées aux risques sur les données.

En d’autres termes, où devez-vous investir du temps et de l’argent ? Démocratiser l’accès aux données pour vos équipes data (data scientists, data engineers, data analysts ou domain experts) en vue de gagner en productivité ou se concentrer sur les demandes des organismes de réglementations comme le RGPD, pour ne pas se voir attribuer une lourde amende ?

La réponse est propre à chaque entreprise. Toutefois, Alan Dayley met en avant les 4 cas d’usage identifiés comme prioritaires par les Chief Data Officers et où un management de métadonnées devrait être la clé :

1. Gouverner les données

Dans ce cas d’usage, le speaker confirme que la gouvernance des données ne peut plus être pensée de manière top down. La donnée recoupe différentes équipes et profils aux responsabilités et rôles distincts.

De ce constat, tous doivent travailler ensemble à renseigner et compléter les informations sur la donnée (ses usages, sa provenance, les process, etc.). Contextualiser la donnée est un élément fondamental dans la mise en place d’une gouvernance des données !

2. Gérer les risques et la mise en conformité

Les informations demandées ci-dessous ont été renforcées avec l’arrivée du RGPD. Les entreprises et leurs CDO se doivent de :

Définir les responsabilités liées aux jeux de données.
Cartographier les jeux de données.
Comprendre et identifier les traitements sur les données et les risques associés.
Avoir un registre de traitements et/ou data lineage.

3. Analyser la donnée

En abordant la gouvernance des données de manière plus collaborative et en favorisant les interactions entre utilisateurs de la donnée, l’entreprise bénéficiera de l’intelligence collective et l’amélioration continue sur la compréhension et l’analyse d’un jeu de données. En d’autres termes, c’est extraire des précédentes découvertes et expérimentations des informations pertinentes pour les prochains utilisateurs de la donnée.

4. Valoriser la donnée

Dans un objectif de monétisation de la donnée, celle-ci n’aura de valeur à proprement parlé que si l’information autour de la donnée est :

mesurée : sur sa qualité, ses caractéristiques économiques, etc.
managée : les responsables, documentation renseignée, ses mises à jour, etc.

Comment mettre en place un management des métadonnées ?

Quels que soient les objectifs énoncés ci-dessus, vous ne pourrez les atteindre sans un management de métadonnées. Et de fait, les réponses à ces questions sont bel et bien des métadonnées !

Les recommandations pour entreprendre cet exercice seraient :

Engager le bon sponsor valorisant l’approche metadata centric dans l’entreprise.
Identifier le cas d’usage principal que vous souhaitez traiter en premier (comme défini ci-dessus)
Contrôler que les efforts effectués en termes de métadonnées ne sont pas isolés mais bien centralisés et unifiés.
Sélectionner un acteur de metadata management solution sur le marché, comme un data catalog.
Définir par où, qui et comment vous allez démarrer.

Pour conclure cet article, ne pas avoir un management de métadonnées reviendrait à rouler sur une route sans panneau d’indications. Attention à ne pas vous perdre !

Metacat : Netflix rend ses Big Data accessibles et utiles

par Zeenea Software | Fév 19, 2019 | Inspiration Data, Metadata Management

Comme de nombreuses entreprises, Netflix dispose de nombreuses sources de données avec différents formats et de forts volumes de données. En tant que leader mondial du streaming vidéo, l’exploitation des données chez Netflix est, bien évidemment, un axe stratégique majeur. Compte tenu de cette diversité de sources de données, la plateforme vidéo souhaitait proposer un moyen de fédérer et d’interagir avec ces assets depuis un même outil. Cette recherche de solution a abouti à Metacat.

Cet article expose les motivations de la création de Metacat, un service de métadonnées ainsi destiné à faciliter la découverte, le traitement et la gestion des données de Netflix.

Retrouvez les précédents articles sur Google et AirBnB.

Les chiffres clés de Netflix

Netflix a parcouru un chemin considérable depuis la création de sa société de location de DVD, dans les années 1990. La consommation de vidéos sur la plateforme Netflix, représente 15 % de la bande passante mondiale. Mais Netflix, aujourd’hui, c’est aussi [1] [2] :

130 millions d’abonnés payants à travers le monde (400 % d’augmentation depuis 2011)
10 milliards de chiffres d’affaires, dont 403 millions de bénéfices
100 milliards de capitalisations boursières, soit la somme de l’ensemble des premiers groupes de télévisions en Europe
6 milliards d’investissements dans des créations originales (séries et cinéma).

Netflix, c’est également un entrepôt de données de 60 pétaoctets (60 millions de milliards d’octets), un véritable défi pour exploiter ces données et les fédérer.

Architecture de la plateforme Big Data de Netflix

L’architecture de base de la plateforme Big Data de Netflix comprend trois services clés. Il s’agit du service d’exécution (Genie), du service de métadonnées (Metacat) et du service d’événements (Microbot).

sources de données netflix metacat

Afin d’opérer entre les différents langages et sources de données, difficilement compatibles entre eux, est né Metacat. Cet outil agit comme une couche d’accès aux données et métadonnées depuis les data sources de Netflix.

Un service centralisé accessible par les utilisateurs de la donnée afin de faciliter leur découverte, leur traitement et gestion.

Metacat et ses fonctionnalités

Netflix dispose de requêteurs de données, tels que Hive, Pig ou Spark, non opérables ensemble. C’est en introduisant une couche d’abstraction commune que Netflix fournit à ses utilisateurs un accès aux données et ce, quelque soit leurs systèmes de stockage.

De plus, Metacat va jusqu’à simplifier le transfert de jeux de données d’un datastore à un autre.

Métadonnées métier

À la main et définies par les utilisateurs, des métadonnées d’ordre métier, en format libre – peuvent être ajoutées via Metacat. Les principales sont des informations de connexion, de configuration, des métriques ou encore les durées de vie de chaque jeux de données.

Data discovery

En créant Metacat, Netflix facilite la découverte des jeux de données de l’entreprise par ses consommateurs. L’outil publie des métadonnées de schéma et métier définies par ses utilisateurs dans Elasticsearch, facilitant ainsi la recherche en texte intégral d’informations dans les data sources.

Notification de modification de données et audit

En tant qu’outil transverse de l’ensemble des data stores, Metacat enregistre et notifie toutes les changements apportés sur les métadonnées et les données elles-même depuis les systèmes de stockage.

Metacat et l’avenir vu par Netflix

Selon Netflix, la version actuelle de Metacat n’est qu’une étape vers de nouvelles fonctionnalités sur lesquelles ils travaillent. Ils veulent encore améliorer la visualisation à un instant T des métadonnées. Ce système serait très utile pour la restauration.

Metacat, selon Netflix, devrait également pouvoir avoir une architecture enfichable. Ainsi, l’outil pourrait valider et garder l’intégrité des métadonnées. Ceci est lié au fait que les utilisateurs définissent des métadonnées sous forme libre. Netflix a donc besoin d’une validation en place qui peut être réalisée avant le stockage des métadonnées.

Avec la création de Metacat en outil de centralisation et d’exploration de données multi-sources et multi-formats pour les utilisateurs, Netflix a clairement effectué une avancée. Le développement de ce service en interne et adapté à l’ensemble des outils déjà utilisés par l’entreprise, a permis à Netflix de devenir Data Driven.

Sources

Vous voulez en savoir plus sur les solutions de data discovery ?

Téléchargez notre livre blanc : « Le Data Discovery vu par les Géants du Web »

télécharger le livre blanc

Data Portal, l’outil qui a permis à AirBnB de devenir Data Centric

par Zeenea Software | Jan 8, 2019 | Inspiration Data, Metadata Management

AirBnB est une entreprise florissante. Face à son expansion rapide, AirBnB avait besoin d’opérer une véritable réflexion autour de la data et de son exploitation. De cette dynamique est né le Data Portal, un outil totalement Data Centric à la disposition des employés.

Cet article est le premier d’une série consacrée aux entreprises Data Centric. Nous mettrons en lumière des exemples réussis de démocratisation et de maîtrise des données au sein d’organisations inspirantes. Ces entreprises précurseurs démontrent l’ambition du data catalog de Zeenea : aider chaque structure à mieux comprendre et utiliser son patrimoine de données.

Airbnb aujourd’hui

En quelques années, AirBnB s’est imposé comme un leader de l’économie collaborative à travers le monde. Son succès en fait aujourd’hui un des premiers hôteliers de la planète.

En chiffres [1], cela représente :

3 millions de logements recensés,
65 000 villes répertoriées,
190 pays disposant d’une offre AirBnB,
150 millions d’utilisateurs.

La France est le second marché de l’entreprise derrière les Etats-Unis. Elle compte à elle seule plus de 300 000 logements.

Les réflexions qui ont menées au Data Portal

Lors d’une conférence menée en mai 2017, John Bodley, data engineer chez AirBnB, expose les nouvelles problématiques issues de la forte croissance des collaborateurs (+ de 3500 employés) et de l’explosion du nombre de données, à la fois issues des utilisateurs mais aussi des employés (+ de 200k tables dans leur Data Warehouse). Celui d’un paysage confus et non unifié qui ne permettait pas d’accéder à l’information toujours plus importante.

Comment marier un succès à un problème de gestion bien réel ? Celui de la data. Que faire de toutes ces informations collectées quotidiennement et de ce savoir tant au niveau utilisateur que collaborateur ? Comment les transformer en une force pour tous les employés d’airbnb ? Voici les questions qui ont mené à la création du data portal.

Au-delà de ces enjeux, une problématique de vision d’ensemble s’est imposée à l’entreprise.

Depuis sa création en 2008, AirBnB a toujours porté une grande attention à ses données et leur exploitation. C’est pourquoi, une équipe dédiée s’est mise en ordre de bataille pour développer un outil qui démocratiserait l’accès aux données au sein de l’entreprise. Leur travail s’est à la fois fondé sur la connaissance des analystes et leur capacité à comprendre les points critiques et sur celle des ingénieurs, à même de proposer une vision plus graphique de l’ensemble. Au cœur du projet, un sondage en profondeur des employés et de leurs problématiques a été mené.

De cette enquête est ressortie une constante : une difficulté à trouver les informations dont les collaborateurs avaient besoin pour travailler. La présence d’un savoir tribal, détenu par un certain groupe de personnes, est à la fois contre productif et peu fiable. Résultat : nécessité d’interroger des collègues, manque de confiance en l’information (validité de la data, impossibilité de savoir si les données étaient à jour) et en conséquence, création de nouvelles données « doublon » venant accroître la quantité astronomique déjà existante.

Pour répondre à ces enjeux, AirBnB a créé le Data Portal et l’a présenté au public en 2017.

Data Portal, le data catalog de Airbnb

Pour imager, le Data Portal pourrait se définir comme le croisement entre un moteur de recherche et un réseau social.

Il a été pensé pour centraliser absolument toutes les données recueillies par l’entreprise. Qu’elles proviennent des employés ou des utilisateurs. Le but du Data Portal est de pouvoir restituer ces informations, sous forme de graphiques, à n’importe quel employé qui en aurait besoin.

Ce système en self-service permet aux collaborateurs d’accéder par eux-mêmes aux informations nécessaires au développement de leur projet. Au-delà de la donnée en elle-même le Data Portal permet d’obtenir des métadonnées contextualisées. L’information est fournie avec un background qui permet de mieux valoriser la data et de le comprendre dans son ensemble.

Le Data Portal a été pensé dans une logique collaborative. Dans cette optique, il permet de visualiser, au-delà des données, toutes les interactions entre les différents collaborateurs de l’entreprise. Ainsi il est possible de savoir qui est relié à quelle donnée.

Data Portal, en quelques fonctionnalités

Le Data Portal propose différentes fonctionnalités pour couvrir l’accès aux données de manière simple, ludique et en offrant une expérience utilisateur optimale. On trouve des pages dédiées à chaque jeux de données où un nombre important de métadonnées sont reliées à celles-ci.

Recherche : Chris Williams, ingénieur et membre de l’équipe en charge du développement de l’outil, parle d’un fonctionnement « Google-esque ». La page de la recherche permet d’accéder rapidement aux données, à des graphiques ou encore aux personnes à l’origine de la data et aux groupes / équipes concernées.

Lineage : Il est également possible d’explorer la hiérarchisation des données en visualisant les données parents et les données enfants.

Collaboration : Toujours dans une logique de partage et de mise en place d’un outil collaboratif, les données peuvent être ajoutées aux favoris d’un utilisateur, épinglées dans un tableau d’équipe ou partagées via un lien externe. À l’instar d’un réseau social, chaque employé possède également une page de profil. L’outil étant accessible à tous les collaborateurs et se voulant totalement transparent, cela inclus tous les membres de la hiérarchie. Les anciens employés continuent de posséder un profil avec toutes les données créées ou utilisées. Toujours dans une logique de décloisonnement de l’information et d’abolition de la connaissance tribale.

Groupes : les équipes passent beaucoup de temps à échanger autour des mêmes données. Pour permettre à chacune de partager les informations plus rapidement et plus simplement, la possibilité de créer des groupes de travail a été mise en place sur le Data Portal. Grâce à ces pages, les membres d’une équipe peuvent organiser leurs données, y accéder facilement et favoriser le partage.

Au delà du Data Portal

Démocratiser les données a plusieurs vertus. En premier lieu, cela permet de ne pas créer de dépendance à l’information. Un système en « parapluie » fragilise l’équilibre de l’entreprise. Si l’information et la compréhension des données n’est détenue que par un seul groupe de personnes, le rapport de dépendance devient alors trop fort.

Par ailleurs, il est important de simplifier la compréhension des données pour que les collaborateurs puissent les exploiter au mieux.

Plus globalement, l’enjeu pour AirBnB est aussi d’améliorer la confiance dans les données, pour tous ses collaborateurs. Que chacun puisse être assuré de travailler avec les bonnes informations, mises à jour, etc.

AirBnB n’est pas dupe et l’équipe à l’origine du Data Portal sait que la prise en main de cet outil et son utilisation à bon escient prendront du temps. Chris Williams le dit en ces termes : « Même si demander à un collègue une information est facile, c’est totalement contre productif à plus large échelle ».

Changer ses habitudes, prendre le réflexe de consulter le portail plutôt que d’échanger en direct va demander un peu d’efforts aux collaborateurs.

La vision du Data Portal dans les temps

Pour favoriser la confiance dans les données fournies, l’équipe souhaite créer un système de certification des données. Il permettrait de certifier tant la data que la personne à l’origine de la certification. Du contenu certifié serait mis en valeur dans les résultats de recherche.

Avec le temps, AirBnB souhaiterait faire évoluer cet outil à différents niveaux :

Analyse du réseau afin de déterminer les données obsolètes.
Créer des alertes et des recommandations. Toujours dans une logique d’exploration, l’outil pourrait devenir encore plus intuitif en suggérant des contenus nouveaux ou des mises à jours de données consultées par un utilisateur.
Rendre les données ludiques. Créer un environnement attractif pour les employés en présentant par exemple le tableau le plus vu du mois etc.

Avec le Data Portal, AirBnB pousse l’exploitation des données au plus haut niveau. La démocratisation à tous les employés permet à la fois de les rendre plus autonomes et efficaces dans leur travail mais aussi de reconstruire la hiérarchie de l’entreprise. Plus transparente, elle devient également moins dépendante.

Le collaboratif prend le pas sur la notion de services dédiés. Et l’exploitation des données renforce la stratégie de l’entreprise, pour son évolution future. Une logique dans laquelle s’inscrit et promeut chez ses clients.

Sources

Vous voulez en savoir plus sur les solutions de data discovery ?

Téléchargez notre livre blanc : « Le Data Discovery vu par les Géants du Web »

télécharger le livre blanc

Google Goods : l’outil de gestion des données de Google

par Zeenea Software | Oct 24, 2018 | Inspiration Data, Metadata Management

Quand on s’appelle Google, la question des données est plus que centrale. Un nombre colossal d’informations est en effet généré chaque jour à travers le monde, par toutes les équipes de cet empire américain. C’est pour recouper, hiérarchiser et unifier les données que Google Goods, un catalogue centralisé de données, a été mis en place.

Cet article fait partie d’une série consacrée aux entreprises Data Driven. Nous mettons en lumière des exemples réussis de démocratisation et de maîtrise des données, au sein d’organisations inspirantes. Retrouvez l’exemple d’Airbnb sur ce lien. Ces entreprises précurseurs démontrent l’ambition que s’est donnée Zeenea et son data catalog : aider les organisations à mieux comprendre et utiliser son patrimoine de données.

Google en quelques chiffres

Le moteur de recherche le plus utilisé de la planète n’est plus vraiment à présenter. Mais que se cache-t-il derrière cette interface si familière ? Que représente Google en terme de part de marché, d’infrastructures, d’employés et de présence dans le monde ?

En 2018 Google c’etait [1] :

90,6 % de part de marché dans le monde
30 millions de sites indexés
500 millions de nouvelles requêtes chaque jour

En terme d’infrastructure et d’emploi, Google représentait en 2017 [2] :

70 053 employés
21 bureaux dans 11 pays
2 millions d’ordinateurs répartis dans 60 datacenter
850 teraoctets pour stocker en cache toutes les pages indexées

Devant une telle envergure, la somme de données générées est forcément gigantesque. Face au constat de la redondance des données et du besoin de précision pour l’emploi de ces dernières, Google a mis en place Google Goods, un catalogue de données travaillant en toile de fond pour organiser et faciliter la compréhension des données.

Les réflexions qui ont menées à Google Goods

Google possède plus de 26 milliards de données internes [3]. Et cela seulement pour la data accessible à tous les membres de l’entreprise.

En prenant en compte les données sensibles recourant à des accès sécurisés, le nombre pourrait doubler. Cette somme de données engendre nécessairement des problèmes et interrogations que Google a répertorié pour concevoir son outil :

Une échelle de données titanesque

Considérant le chiffre annoncé précédemment, Google fait face à un problème non négligeable. La quantité de data et leur taille lui rend impossible un traitement de toutes les données. Il est donc primordial de pouvoir déterminer lesquelles sont utiles et lesquelles ignorer.

Le système exclut déjà un certain nombre d’informations jugées inutiles et parvient à déterminer certaines redondances. Il est ainsi possible de créer des chemins d’accès uniques vers des données, sans qu’elles ne soient stockées à différents endroits au sein du catalogue.

La variété des données

Les jeux de données sont stockés dans de nombreux formats et sur des systèmes de stockage très différents. Cela ajoute à la difficulté de créer une unification de la data.

Pour Goods, c’est un véritable challenge et un objectif crucial : proposer un moyen uniforme d’interroger et d’accéder à l’information sans que la complexité de l’infrastructure ne transparaisse.

La pertinence des données

Google estime supprimer chaque jour 1 million de données et en créer tout autant. Cela met l’accent sur la nécessité de prioriser les données et d’établir leur degré de pertinence.

Certaines sont cruciales dans des chaînes de traitement mais n’ont de valeur que quelques jours, d’autres ont une fin de vie programmée dont l’échéance peut être de plusieurs semaines à quelques heures.

Le caractère incertain des métadonnées

Beaucoup de données cataloguées sont issues de protocoles différents, rendant la certification des métadonnées complexe. Goods procède donc par tâtonnement afin de créer des hypothèses. Cela est dû au fait qu’il fonctionne de façon post hoc.

En effet, les collaborateurs ne sont pas amenés à changer leur façon de travailler. Il ne leur est pas demandé d’associer des jeux de données à des métadonnées lors de leur création. C’est à Goods de travailler en collectant et analysant les données pour les réunir et les clarifier, en vue d’un usage futur.

Une échelle de priorité

Après le travail de découverte et de catalogage, la question de la hiérarchisation se pose. L’enjeu est de pouvoir répondre à cette question : « qu’est-ce qui rend une donnée importante ? ». Et fournir une réponse est bien moins simple pour les données d’une entreprise que pour prioriser la recherche sur le web par exemple.

Pour tenter de mettre en place un classement pertinent, Goods se base sur les interactions entre les données, les métadonnées ainsi que d’autres critères. L’outil estime par exemple qu’une donnée est plus importante si son auteur y a associé une description. Ou si plusieurs équipes la consultent, l’utilisent ou l’annotent.

Analyser la sémantique de la donnée

Procéder à cette analyse permet notamment de mieux classifier et décrire la donnée dans l’outil de recherche. Elle peut ainsi répondre aux bonnes requêtes dans le catalogue. L’exemple donné dans l’article de référence sur Google Goods [3] : supposons le schéma d’un ensemble de données soit connu et que certains champs du schéma prennent des valeurs entières.

Grâce à une inférence sur le contenu de l’ensemble de données, l’utilisateur puisse identifier que ces valeurs entières sont des ID de points de repère géographiques connus pour ensuite, utiliser ce type de sémantique de contenu pour améliorer la recherche de données géographiques dans l’outil.

Fonctionnalités de Google Goods

Google Goods catalogue et analyse la data pour la présenter de manière unifiée. L’outil récolte les métadonnées de base et tente de les enrichir en analysant un certain nombre de paramètres. À force de visiter les données et les métadonnées, Goods s’enrichit et évolue.

Les principales fonctionnalités offertes aux utilisateurs sont :

Un moteur de recherche

À l’instar du Google que nous connaissons, Goods offre un moteur de recherche fonctionnant par mot clé afin d’interroger un jeu de données.

C’est le moment où l’enjeu de hiérarchisation des données se met en place. Le moteur de recherche propose de la data classée selon différents critères comme le nombre de chaînes de traitement impliquées, la présence ou non d’une description, etc.

Page de présentation des données

Chaque donnée dispose d’une page réunissant le maximum d’informations. Considérant que certaines données peuvent être reliées à des milliers d’autres, Google compresse en amont les data les plus pharaoniques pour les restituer de manière plus digeste sur la page de présentation. Si la version compressée reste trop imposante, les informations exposées ne retiennent que les entrées les plus récentes.

Tableaux d’équipes

Goods crée des tableaux permettant de diffuser toutes les données générées par une équipe. Cela permet d’obtenir différentes métriques et de faire le lien avec d’autres tableaux par exemple. Le tableau est actualisé à chaque fois que Goods met à jour les métadonnées. Le tableau peut être facilement intégré à différents documents pour que les équipes puissent le partager.

Par ailleurs, il est également possible de mettre en place des actions de monitorage et des alertes sur certaines données. Goods est en charge des vérifications et peut avertir les équipes en cas d’alerte.

Utilisation de Goods par les collaborateurs de Google

Au fil du temps, les équipes de Google ont réalisé que l’utilisation de son outil ainsi que son champ d’application, n’étaient pas forcément ceux auxquels l’entreprise s’attendait.

Le géant a ainsi pu déterminer que les usages principaux de Goods par les collaborateurs ainsi que leurs fonctionnalités favorites étaient :

Audit protocol buffer

Protocol buffer est un format de sérialisation doté d’un langage de description d’interface développé par Google. Il est largement utilisé chez Google pour le stockage et l’échange de toute sorte de structures d’informations.

Certains processus contiennent des informations personnelles et appartiennent de fait à des politiques de confidentialité particulières. L’audit de ces protocoles permet d’alerter les propriétaires de ces données en cas d’entrave à la confidentialité.

Récupération des données

Les ingénieurs sont amenés à générer de nombreuses données dans le cadre de leurs tests et oublient souvent leur localisation lorsqu’ils ont besoin d’y accéder à nouveau. Grâce au moteur de recherche, ils peuvent facilement les retrouver.

Meilleure compréhension du Code Legacy

Il n’est pas simple de trouver des informations à jour concernant le code ou les jeux de données. Goods fournit des graphiques que les ingénieurs peuvent utiliser pour remonter le fil des précédentes exécutions de codes, ainsi que les jeux de données en entrée et en sortie et trouver la logique qui les lie.

Utilisation du système d’annotation

Le système de bookmark des pages de données est totalement adopté pour retrouver plus vite les informations importantes et les partager facilement.

Utilisation des marques pages

Il est possible d’annoter les données et de leur attribuer différents degrés de confidentialité. Cela permet aux autres membres de Google de mieux appréhender les données qu’ils ont en face d’eux.

Avec Goods, Google parvient à hiérarchiser et unifier l’accès aux données pour toutes ses équipes. Le système se veut non intrusif et fonctionne donc en continu et de manière invisible pour les utilisateurs, afin de leur restituer des données organisées et explicitées.Grâce à cela, la société améliore les performances des équipes en évitant les redondances. Elle économise des ressources et accélère l’accès aux données essentielles à la croissance et au développement de l’entreprise.

[1] Le blog du modérateur : https://www.blogdumoderateur.com/chiffres-google/
[2] Web Rank Info : https://www.webrankinfo.com/dossiers/google/chiffres-cles
[3] https://static.googleusercontent.com/media/research.google.com/fr//pubs/archive/45390.pdf

Vous voulez en savoir plus sur les solutions de data discovery ?

Téléchargez notre livre blanc : « Le Data Discovery vu par les Géants du Web »

télécharger le livre blanc

Quels sont les différents types de métadonnées ?

par Zeenea Software | Oct 13, 2018 | Metadata Management

Disposer d’un important volume de données, c’est indispensable. Mais savoir de quel type de données il s’agit, d’où elles proviennent, comment elles peuvent être exploitées, l’est tout autant. C’est le rôle que jouent les métadonnées. Alors comment les optimiser et les valoriser ? Suivez le guide.

La donnée est indispensable pour disposer d’une connaissance approfondie de votre marché, de votre secteur d’activité, de vos clients ou encore de vos produits. Mais, pour exploiter le plein potentiel de ces données, il est nécessaire de s’intéresser à leurs métadonnées (également appelées metadata). Autrement dit : avoir de la donnée sur vos données.

En effet, en ayant une vision précise de ce qui a permis de générer la donnée, à quel moment, via quelle source, vous pouvez contextualiser l’information. Les métadonnées sont, en quelque sorte, de l’information structurée qui décrit, explique, localise ou facilite l’accès, l’utilisation ou la gestion d’une source d’information.

Mais, ne vous y trompez pas. Le rôle des métadonnées ne se limite pas à comprendre l’origine des datas.

Bien gérées, correctement structurées, les métadonnées vous permettront aussi de savoir comment valoriser au maximum les informations dont vous disposez en fonction des objectifs que vous vous fixez.

À quoi servent vraiment les métadonnées ?

Les métadonnées sont partout. Pas seulement dans les fichiers clients ou dans les archives de vos sites Web. Lorsque vous prenez des photos avec un smartphone, des métadonnées sont instantanément rattachées à vos clichés : date, heure, lieu de prise de vue, ouverture du diaphragme… Autant d’informations qui peuvent s’avérer précieuses lorsque vous souhaitez mettre de l’ordre dans un album de photo virtuel.

Dans le cadre du projet Data de votre entreprise, c’est exactement la même chose !

Si les métadonnées sont nécessaires pour comprendre véritablement l’origine de vos données et l’usage qui peut en être fait, ce n’est pas leur seule utilité. En effet, les metadatas, lorsqu’elles sont correctement gérées, sont un levier majeur de l’organisation et de la structuration de l’information que vous cherchez à valoriser au quotidien. Une gestion optimale des métadonnées constitue donc le socle d’un projet de transformation data-centric.

Typologies de métadonnées

Si l’on utilise le terme générique de métadonnées pour qualifier les informations relatives aux données dont vous disposez, il faut savoir qu’elles peuvent être classées selon différents types.

Ainsi, il convient de distinguer les métadonnées descriptives, qui ont vocation à présenter une ressource de manière générale afin de faciliter l’identification des données disponibles, des métadonnées structurelles. Ces dernières renseignent sur la composition ou encore l’organisation d’une ressource data. On trouve également pour décrire un portefeuille de données les métadonnées administratives, qui délivrent des informations sur la date de création ou d’acquisition de la donnée mais aussi sur les droits d’accès, leur durée de vie et leur exploitation envisageable.

Aux côtés de ces metadata que l’on qualifie de génériques, il est possible de greffer un large éventail de métadonnées. Elles peuvent renseigner sur les applications et usages métiers de l’information, sur des aspects techniques ou encore renforcer la dimension descriptive de l’information contenue.

Plus le volume de données dont vous disposez est important, plus les sources d’acquisition et de collecte de données sont variées, et plus vous tirerez avantage d’une gestion fine des métadonnées.

Quels outils pour gérer les métadonnées ?

Pour mettre de l’ordre dans vos métadonnées mais aussi pour en optimiser l’utilisation par vos collaborateurs, il est essentiel de recourir à un Data Catalog. Grâce à cet outil de metadata management, vous disposerez d’un index de vos données et métadonnées. Vous pourrez ainsi rapidement identifier les sources d’information qui sont à la disposition de vos équipes. Mais la mission du Data Catalog va plus loin car il vous permettra aussi de référencer l’ensemble de vos actifs data, d’en faciliter l’accès en cas de besoin et même d’effectuer des recherches thématiques.

N’oubliez jamais que la qualité de vos métadonnées conditionne la qualité de la description de vos données, avec un impact direct sur la visibilité et la facilité d’exploitation de vos datas.

Chez Zeenea, nous avons défini trois types de métadonnées au sein de notre data catalog, dont voici quelques exemples :

Les métadonnées techniques : elles décrivent la structure d’un jeu de données et les informations liées au stockage.

Les métadonnées business : elles appliquent un contexte métier aux jeux de données : des descriptions (contexte et usage), les propriétaires et référents, des tags et properties dans le but de créer une taxonomie au-dessus des jeux de données qui sera indexée par notre moteur de recherche. Les métadonnées business sont également présentes au niveau du schéma d’un jeu de données : des descriptions, tags ou encore niveau de confidentialité des données par colonne.

Les métadonnées opérationnelles : elles permettent de comprendre quand et comment la donnée a été créée ou transformée : analyse statistique de la donnée, date de mise à jour, provenance (lineage), volume, cardinalité, identifiant des traitements ayant créé ou transformé la donnée, statuts des traitements sur la donnée, etc.

TECHNOLOGIE

SOLUTIONS

CAPACITÉS

APPLICATIONS

SECTEURS

DATA LEADERS

KNOWLEDGE HUB

PRODUCT HUB

À PROPOS

PRENDRE CONTACT

SERVICES

CONVICTIONS

Le Data Product Shopping dans Zeenea

Améliorez la performance des data products avec Zeenea Studio

Le Guide Pratique du Data Mesh: Mettre en place et superviser un data mesh à l’échelle de l’entreprise

Gestion des métadonnées dans le contexte d’une marketplace interne alimentée par des catalogues par domaine

Les capacités du catalogue de données vs l’EDM

Le Guide Pratique du Data Mesh: Mettre en place et superviser un data mesh à l’échelle de l’entreprise

Les trois grandes options pour mettre en place une data marketplace interne

La développer

Intégrer une solution du marché

Utiliser les systèmes existants

Les inconvénients des marketplaces commerciales

L’Enterprise Data Marketplace de Zeenea

Le Guide Pratique du Data Mesh: Mettre en place et superviser un data mesh à l’échelle de l’entreprise

Partage et exploitation des data products grâce aux métadonnées

Utilisation d’une data marketplace pour déployer les métadonnées

Le Guide Pratique du Data Mesh: Mettre en place et superviser un data mesh à l’échelle de l’entreprise

Comment fonctionne une API ?

Quels sont les bénéfices des API ?

Les différents types d’API

Open API

Partner API

Composite API

Internal API ou API interne

Les différents protocoles d’API

SOAP (Simple Object Access Protocol)

XML-RPC (XML Remote Procedure Call)

REST (Representational State Transfer)

JSON-RPC (JavaScript Object Notation Remote Procedure Call)

Le rôle des métadonnées dans le Data Mesh

Les défis de la Gestion des Métadonnées dans le Data Mesh

Bonnes pratiques pour la gestion des métadonnées dans un Data Mesh

Qu’est-ce qu’un data catalog et quels en sont les principaux avantages

Pourquoi déployer un business glossary et pour quel usage ?

Quelles différences avec un Data Dictionary ?

Définition des concepts du metadata management & du master data management

Quelles sont les différences entre la gestion des métadonnées et le master data management ?

Quels sont les points communs entre le master data management et le Metadata management ?

Fonctionnalité 1 : Une connectivité universelle