[SÉRIE] Data Shopping Partie 2 – L’expérience de Data Shopping dans Zeenea

[SÉRIE] Data Shopping Partie 2 – L’expérience de Data Shopping dans Zeenea

Tout comme l’achat de biens en ligne implique de sélectionner des objets, les ajouter à un panier et de choisir les options de livraison et de paiement, le processus d’acquisition de données au sein des organisations a évolué de manière similaire. À l’ère des data products et du data mesh, les data marketplaces internes permettent aux utilisateurs métiers de rechercher, de découvrir et d’accéder aux données pour leurs cas d’usage.

Dans cette série d’articles, vous trouverez un extrait de notre Guide Pratique du Data Mesh et découvrirez tout ce qu’il y a à savoir sur le data shopping ainsi que l’expérience de Zeenea en matière de shopping de données via son Enterprise Data Marketplace :

  1. La consommation de Data Products
  2. L’expérience de Data Shopping dans Zeenea

 

Dans notre précédent article, nous avons abordé le concept de data shopping au sein d’une data marketplace interne, en abordant des éléments tels que la livraison des data products et la gestion de l’accès. Dans cet article, nous allons explorer les raisons qui ont poussé Zeenea à étendre son expérience de data shopping au-delà des frontières internes, ainsi que la façon dont notre interface, Zeenea Studio, permet l’analyse de la performance globale de vos data products.

Le Data Product Shopping dans Zeenea

 

Dans notre article précédent, nous avons abordé les complexités de la gestion des droits d’accès aux data products en raison des risques inhérents à la consommation de données. Dans un data mesh décentralisé, le propriétaire du data product évalue les risques, accorde l’accès et applique des politiques basées sur la sensibilité des données, le rôle, la localisation et l’objectif du demandeur. Cela peut impliquer une transformation des données ou des formalités supplémentaires, avec une livraison allant de l’accès en lecture seule à des contrôles granulaires.

Dans une data marketplace, les consommateurs déclenchent un workflow en soumettant des demandes d’accès, que les propriétaires de données évaluent et pour lesquelles ils déterminent les règles d’accès, parfois avec l’avis d’experts. Pour la marketplace Zeenea nous avons choisi de ne pas intégrer ce workflow directement dans la solution, mais plutôt de s’interfacer avec des solutions externes.

L’idée est de proposer une expérience uniforme pour déclencher une demande d’accès, mais d’accepter que le traitement de cette demande puisse être très différent d’un environnement à l’autre, voire d’un domaine à l’autre dans la même organisation. Là aussi, le principe est hérité des marketplaces classiques. La plupart proposent une expérience unique pour réaliser une commande, mais débranchent sur d’autres systèmes pour la mise en œuvre opérationnelle de la livraison – dont les modalités peuvent être très différentes en fonction du produit et du vendeur.

Ce découplage entre l’expérience de shopping et la mise en œuvre opérationnelle de la livraison nous semble indispensable pour plusieurs raisons.

La principale est l’extrême variabilité des processus impliqués. Certaines organisations disposent déjà de workflows opérationnels, s’appuyant sur une solution plus large (la demande d’accès aux données est intégrée à un processus général de demande d’accès, supporté par exemple par un outil de ticketing tel que ServiceNow ou Jira). D’autres se sont équipées de solutions dédiées, supportant un fort niveau d’automatisation, mais dont le déploiement n’est pas encore généralisé. D’autres reposent sur les capacités de leur plateforme data, en d’autres encore sur rien du tout – l’accès se fait via des demandes directes adressées au propriétaire des données, qui les traite sans processus formel. Cette variabilité se manifeste d’une organisation à l’autre, mais aussi dans une même organisation – structurellement, quand différents domaines utilisent des technologies différentes, ou temporellement, quand l’organisation décide d’investir dans un dispositif plus efficace ou plus sécurisé et doit migrer progressivement la gestion des accès vers ce nouveau dispositif.

Découpler permet donc d’offrir une expérience homogène au consommateur, tout en s’adaptant à la variabilité des modes opératoires

Pour le client de la data marketplace, l’expérience de shopping est donc très simple. Une fois le ou les data products d’intérêt identifiés, il déclenche une demande d’accès en fournissant les informations suivantes :

  1. Qui il est – cette information est en principe déjà disponible.
  2. À quel data product il souhaite accéder – là aussi l’information est déjà présente, ainsi que les métadonnées nécessaires pour réaliser les arbitrages.
  3. Quel usage il entend faire des données – ce point est fondamental, puisqu’il pilote la gestion de risque et les exigences de conformité.

Avec Zeenea, une fois la demande d’accès soumise, elle est traitée dans un autre système, et son statut peut être suivi depuis la marketplace – c’est le strict équivalent du suivi de commandes que l’on trouve sur les sites e-commerce.

Du point de vue du consommateur, la data marketplace fournit un catalogue de data products (et d’autres produits digitaux), et un système simple et universel pour obtenir l’accès à ces produits.

Pour le producteur, la data marketplace remplit un rôle fondamental dans le pilotage de son portefeuille de produits.

Améliorez la performance des data products avec Zeenea Studio

 

Comme évoqué précédemment, outre le système de e-commerce, qui est destiné aux consommateurs, une marketplace classique propose aussi des outils dédiés aux vendeurs, leur permettant de superviser leurs produits, de répondre aux sollicitations des acheteurs et de contrôler la performance économique de leur offre. Et d’autres outils encore, destinés aux gestionnaires de la marketplace, pour analyser la performance globale des produits et des vendeurs.

L’Enterprise Data Marketplace de Zeenea intègre ces capacités dans un outil de back-office dédié, Zeenea Studio. Il permet de gérer la production, la consolidation et l’organisation des métadonnées dans un catalogue privatif, et de décider quels objets seront placés dans la marketplace – qui est un espace de recherche accessible au plus grand nombre.

Ces activités relèvent avant tout du processus de production – les métadonnées sont produites et organisées conjointement avec les data products. Mais il permet également de superviser l’utilisation de chaque data product, notamment en fournissant la liste de tous ses consommateurs, et des usages qui leur sont associés.

Ce suivi des consommateurs permet d’asseoir les deux piliers de la gouvernance du data mesh :

  • La conformité et la gestion de risque – en mettant en place des revues régulières, des certifications, et des analyses d’impact lors des évolutions des data products.
  • Le pilotage de la performance – le nombre de consommateurs, ainsi que la nature des usages qui en sont fait, sont les principaux indicateurs de la valeur d’un data product. En effet, un data product qui n’est pas consommé n’a aucune valeur.

Outil de support pour les domaines permettant de contrôler la conformité de leurs produits et leurs performances, l’Enterprise Data Marketplace de Zeenea offre également des capacités d’analyse globale du mesh – lineage des data products, scoring et évaluation de leurs performances, contrôle de la conformité globale et des risques, éléments de reporting réglementaire, etc.

C’est la magie du graphe fédéré, qui permet d’exploiter l’information à toutes les échelles – et fournit une représentation exhaustive de tout le patrimoine data.

Le Guide Pratique du Data Mesh: Mettre en place et superviser un data mesh à l’échelle de l’entreprise

 

Rédigé par Guillaume Bodet, co-fondateur et CPTO chez Zeenea, ce guide vous apportera une approche pratique pour mettre en œuvre un data mesh dans votre organisation, en vous aidant à :

✅ Entamer votre démarche data mesh avec un projet pilote focalisé
✅ Découvrir des méthodes efficaces pour mettre votre mesh à l’échelle,
✅ Comprendre le rôle essentiel joué par une data marketplace interne pour faciliter la consommation des data products
✅ Découvrir pourquoi Zeenea est un système de supervision robuste du data mesh à l’échelle de l’entreprise

Signature Data Mesh Fr
Retour sur les évolutions de la plateforme Zeenea en 2023

Retour sur les évolutions de la plateforme Zeenea en 2023

2023 a été une belle année pour Zeenea. Avec plus de 50 releases et mises à jour de notre plateforme, ces 12 derniers mois ont été riches en nouveautés et améliorations pour libérer la valeur de vos données d’entreprise. En effet, nos équipes travaillent constamment sur des fonctionnalités qui simplifient et améliorent la vie quotidienne de vos équipes data et métier.

Dans cet article, nous sommes heureux de partager certaines de nos fonctionnalités préférées de 2023 qui ont permis à nos clients de :

  • Réduire le temps de recherche et de découverte des données
  • Augmenter la productivité et l’efficacité des Data Stewards
  • Fournir des informations fiables, sécurisées et conformes dans l’ensemble de l’organisation
  • Établir une connectivité de bout en bout avec toutes leurs sources de données

Réduire le temps de recherche et de découverte des données

 

L’une des valeurs fondamentales du produit Zeenea est la simplicité. Nous sommes convaincus que la découverte des données doit être simple et rapide afin d’accélérer les initiatives data dans l’ensemble de l’organisation.

De nombreuses équipes chargées des données ont encore du mal à trouver les informations dont elles ont besoin pour établir un rapport ou un cas d’usage spécifique. Soit parce qu’elles ne parviennent pas à localiser les données parce qu’elles sont dispersées dans diverses sources, fichiers ou feuilles de calcul, soit parce qu’elles sont confrontées à une quantité colossale d’informations et qu’elles ne savent même pas par où commencer leur recherche.

En 2023, nous avons continué de faire évoluer notre plateforme pour qu’elle soit la plus simple possible à utiliser. En offrant des moyens simples et rapides d’explorer les données, Zeenea a permis à nos clients de trouver, découvrir et comprendre leurs actifs en quelques secondes.

Un nouveau look pour Zeenea Explorer

 

L’une des premières façons dont nos équipes ont voulu améliorer l’expérience de découverte de nos clients a été de fournir une expérience plus conviviale sur notre application d’exploration de données, Zeenea Explorer. Cette refonte comprenait :

Une nouvelle page d’accueil

 

Notre page d’accueil avait besoin d’un lifting pour une expérience de découverte plus fluide. En effet, pour les utilisateurs qui ne savent pas ce qu’ils cherchent, nous avons ajouté de tout nouveaux chemins d’exploration directement accessibles via la page d’accueil de Zeenea Explorer.

 

  • Navigation par Type d’Objet : Si l’utilisateur est sûr du type de données qu’il recherche, comme un jeu de données, une visualisation, un processus ou une donnée personnalisée, il accède directement au catalogue pré-filtré avec le type de données recherché.
  • Navigation dans le Glossaire Métier : Les utilisateurs peuvent rapidement naviguer dans le glossaire métier de l’entreprise en accédant directement aux ressources du glossaire qui ont été définies ou importées par les Data Stewards dans Zeenea Studio.
  • Navigation par Thème : L’application permet aux utilisateurs de naviguer dans une liste d’Objets qui représentent un thème spécifique, un cas d’usage ou tout autre élément pertinent pour l’entreprise (plus d’informations ci-dessous).
New Zeenea Explorer Homepage 2023

De nouvelles pages de détail des Objets

 

Pour comprendre un Objet du Catalogue en un coup d’œil, l’un des premiers changements notables a été la position des onglets de l’Objet. À l’origine, les onglets étaient placés sur le côté gauche de la page, ce qui prenait beaucoup de place. Désormais, les onglets se trouvent en haut de la page, ce qui correspond mieux à la présentation de l’application Zeenea Studio. Cette nouvelle disposition permet aux consommateurs de données de trouver les informations les plus significatives sur un Objet, telles que :

  • Les propriétés mises en évidence, définies par le Data Stewards dans la conception du catalogue,
  • Les termes associés du glossaire, pour comprendre le contexte de l’Objet,
  • Les personnes clés, pour atteindre rapidement les contacts liés à l’Objet.

En outre, notre nouvelle mise en page permet aux utilisateurs de trouver instantanément tous les Champs, les métadonnées et tous les autres Objets liés. Divisés en trois onglets distincts dans l’ancienne version, les consommateurs de données trouvent désormais la description de l’Objet et tous les Objets liés dans un seul onglet nommé « Détails ». En effet, selon le Type d’Objet que vous parcourez, tous les Champs, entrées et sorties, Objets du Glossaire parents/enfants, implémentations et autres métadonnées se trouvent dans la même section, ce qui vous permet de gagner un temps précieux dans la recherche de données.

Enfin, les espaces pour nos composants graphiques ont été agrandis – les utilisateurs ont maintenant plus de place pour voir le lignage de leur Objet, le modèle de données, etc.

New Item Detail Page Zeenea Explorer

Un nouveau système de filtrage

 

Zeenea Explorer offre un système de filtrage intelligent pour contextualiser les résultats de recherche. Il y a des filtres préconfigurés de Zeenea, comme par exemple, un filtrage par Type d’Objet, Connexion, Contact, ou par les filtres personnalisés de l’organisation. Pour des recherches encore plus efficaces, nous avons repensé notre page de résultats de recherche et notre système de filtrage :

 

  • Les filtres disponibles sont toujours visibles, ce qui permet d’affiner plus facilement la recherche,
  • En cliquant sur un résultat de recherche, un panneau d’aperçu contenant plus d’informations est toujours disponible sans perdre le contexte de la recherche,
  • Les filtres les plus pertinents pour la recherche sont placés en haut de la page, ce qui permet d’obtenir rapidement les résultats nécessaires pour des cas d’usage spécifiques.
New Filtering System Explorer

Exploration du catalogue par Thème

 

L’une des principales nouveautés de 2023 est notre fonctionnalité nommée Thèmes. En effet, pour permettre aux utilisateurs métier de trouver (encore plus !) rapidement leurs actifs de données pour leurs cas d’usage, les Data Stewards peuvent facilement définir des Thèmes dans Zeenea Studio. Pour ce faire, ils sélectionnent simplement les filtres dans le Catalogue qui représentent un Thème spécifique, un cas d’usage, ou tout autre élément pertinent pour l’entreprise.

Les équipes data qui utilisent Zeenea Explorer peuvent donc facilement et rapidement effectuer des recherches dans le catalogue par Thème afin de réduire leur temps de recherche de l’information dont elles ont besoin. Les Thèmes sont directement accessibles sur la page d’accueil de Zeenea Explorer et la barre de recherche lors de la navigation dans le catalogue.

Browse By Topic Explorer New

Des noms alternatifs pour les Objets du Glossaire

 

Afin que les utilisateurs puissent trouver facilement les données et les termes métier dont ils ont besoin pour leurs cas d’usage, les Data Stewards peuvent ajouter des synonymes, des acronymes et des abréviations pour les éléments du glossaire !

Ex : Customer Relationship Management > CRM

Alternative Names Zeenea Studio

Amélioration des performances de recherche

 

Tout au long de l’année, nous avons mis en œuvre un grand nombre d’améliorations afin d’accroître l’efficacité du processus de recherche. L’ajout de “mots vides” (stop words), comprenant les pronoms, les articles et les prépositions, permet d’obtenir des résultats plus précis et plus pertinents pour les requêtes. En outre, nous avons ajouté un opérateur « INFIELD : », qui permet aux utilisateurs de rechercher les Jeux de Données contenant des Champs spécifiques.

Search In Fields Explorer

Intégration de Microsoft Teams

 

Zeenea a également renforcé ses capacités de communication et de collaboration. Plus précisément, lorsqu’un contact est lié à une adresse email Microsoft, Zeenea facilite désormais le lancement de conversations directes via Teams. Cette intégration permet aux utilisateurs de Teams d’engager rapidement le dialogue avec les personnes concernées pour obtenir des informations supplémentaires sur des Objets spécifiques. D’autres intégrations avec divers outils sont en cours de développement ⭐

Microsoft Teams Zeenea Explorer

Augmenter la productivité et l’efficacité des Data Stewards

 

L’objectif de Zeenea est de simplifier la vie des producteurs de data afin qu’ils puissent gérer, maintenir et enrichir la documentation de leurs données d’entreprise en quelques clics. Voici quelques fonctionnalités et améliorations qui aident à rester organisé, concentré et productif.

Imports automatiques des Jeux de Données

 

Lors de l’importation de nouveaux Jeux de Données dans le catalogue, les administrateurs peuvent activer la fonction d’import automatique qui importe automatiquement les nouveaux Objets après chaque inventaire programmé. Cette amélioration fait gagner du temps augmente l’efficacité opérationnelle, permettant aux Data Stewards de se concentrer sur des tâches plus stratégiques plutôt que sur le processus d’importation de routine.

Auto Import Zeenea Studio 2

Suppression des Champs orphelins

 

Nous avons également ajouté la possibilité de gérer plus efficacement les Champs orphelins. Cela inclut la possibilité d’effectuer des suppressions en masse de champs orphelins, ce qui accélère le processus de désencombrement et d’organisation du catalogue. Les Stewards peuvent également supprimer un seul Champ orphelin directement à partir de sa page de détails, apportant une approche plus granulaire et plus précise de la maintenance du catalogue.

Orphan Field Details

Construction de de rapports basés sur le contenu du catalogue

 

Nous avons ajouté une nouvelle section dans Zeenea Studio – le Tableau de Bord Analytique – pour générer facilement des rapports basés sur le contenu et l’usage du catalogue de l’organisation.

Directement sur la page du Tableau de Bord Analytique, les Data Stewards peuvent voir le niveau de complétude de leurs Types d’Objets, y compris les Objets personnalisés. Chaque composant est cliquable pour afficher rapidement la section du catalogue filtrée par le Type d’Objet sélectionné.

Pour obtenir des informations plus détaillées sur le niveau de complétude d’un Type d’Objet en particulier, les Stewards peuvent créer leurs propres analyses ! Ils sélectionnent le Type d’Objet et une Propriété, et ils peuvent consulter, pour chaque valeur de cette Propriété, le niveau de complétude de tous les l’élément du template du Type d’Objet, y compris sa description, et les Objets du Glossaire qui y sont liés.

New Analytics Dashboard Gif Without Adoption

Nouveau look pour le Tableau de Bord du Steward

 

Zeenea Explorer n’est pas la seule application à avoir fait peau neuve ! En effet, pour aider les gestionnaires de données à rester organisés, concentrés et productifs, nous avons repensé la présentation du Tableau de Bord pour qu’il soit plus intuitif et que le travail soit effectué plus rapidement. Cela inclut :

 

  • Nouveau design du Périmètre : Un tout nouveau niveau de personnalisation lors de la connexion au Tableau de Bord. Le périmètre s’étend désormais au-delà du niveau de complétude des Jeux de Données – il inclut tous les Objets pour lesquels on est Dépositaire, y compris les Champs, les traitement de données, les Objets du Glossaire et les Objets Personnalisés.
  • Widget des Watchlists : Tout comme les Data Stewards peuvent créer des Thèmes pour améliorer l’organisation des utilisateurs des Explorers, ils peuvent désormais créer des Watchlists pour faciliter l’accès aux Objets nécessitant des actions spécifiques. En filtrant le catalogue avec les critères de leur choix, ils enregistrent ces préférences en tant que nouvelle Watchlist via le bouton « Enregistrer les filtres sous », et y accèdent directement via le widget Watchlist lorsqu’ils se connectent à leur Tableau de Bord.
  • Le widget Dernières Recherches : Il s’adresse désormais spécifiquement au Data Steward, en se concentrant sur ses recherches récentes pour permettre de reprendre là où il/elle s’était arrêté.
  • Le widget Objets les plus populaires : Il présente les Objets les plus consultés et les plus utilisés dans le périmètre du Steward par les autres utilisateurs. Chaque Objet est cliquable, ce qui permet d’accéder instantanément à son contenu.

 

Lire la Feature Note

New Steward Dashboard Studio

Fournir des informations fiables, sécurisées et conformes dans l’ensemble de l’organisation

Échantillonnage de données sur les Jeux de Données

 

Pour certaines connexions, il est possible d’obtenir un échantillonnage de données pour les Jeux de Données. Nos capacités de data sampling permettent aux utilisateurs d’obtenir des sous-ensembles représentatifs d’ensembles de données existants, offrant une approche plus efficace pour travailler avec de grands volumes de données. Lorsque l’échantillonnage des données est activé, les administrateurs peuvent configurer les champs pour qu’ils soient offusqués, ce qui réduit le risque d’affichage d’informations personnelles sensibles.

Cette fonction revêt une grande importance pour nos clients, car elle permet aux utilisateurs de gagner un temps précieux et d’économiser des ressources en travaillant avec des portions plus petites, mais représentatives, de vastes Jeux de Données. Elle permet également d’identifier rapidement les problèmes liés aux données, améliorant ainsi la qualité globale des données et les analyses ultérieures. Plus particulièrement, la capacité d’offusquer les Champs répond à des préoccupations essentielles en matière de confidentialité et de sécurité, en permettant aux utilisateurs de travailler avec des sous-ensembles anonymisés ou pseudonymisés de données sensibles, en garantissant la conformité avec les réglementations en matière de confidentialité et en protégeant les données contre les accès non autorisés.

Data Sampling Zeenea Studio

Puissantes capacités de lignage

 

En 2022, nous avons apporté de nombreuses améliorations à notre graphe de lignage. Non seulement nous avons simplifié sa conception et sa mise en page, mais nous avons également permis aux utilisateurs d’afficher uniquement le premier niveau de lignage, de développer et de fermer le lignage à la demande, et d’obtenir une vue en surbrillance du lignage directe d’un Objet sélectionné.

Cette année, nous avons apporté d’autres modifications importantes à l’interface utilisateur, notamment la possibilité de développer ou de réduire tous les niveaux de lignage en un seul clic, de masquer les processus de données qui n’ont pas au moins une entrée et une sortie, et de visualiser facilement les connexions à l’aide d’une infobulle pour les connexions dont les noms sont longs.

Cependant, la nouveauté la plus notable est la possibilité d’avoir un data lineage au niveau du Champ ! En effet, il est désormais possible de récupérer les Champs d’entrée et de sortie des tables et des rapports, et pour plus de contexte, d’ajouter la description de l’opération. Ensuite, les utilisateurs peuvent directement visualiser leurs transformations au niveau du Champ au fil du temps dans le graphe de lignage des données dans Zeenea Explorer et Zeenea Studio.

Field Level Lineage Zeenea Studio 2

Informations sur la qualité des données

 

En s’appuyant sur les technologies GraphQL et le Knowledge Graph, Zeenea offre une approche flexible pour intégrer les meilleures solutions de gestion de la qualité de données. Via nos capacités d’API de catalogue, Zeenea synchronise les Jeux de Données par le biais de simples opérations de requête et de mutation à partir d’un outil de Data Quality Management (DQM) tiers. L’outil de DQM fournira en temps réel les résultats de l’analyse de la qualité des données du Jeu de Données correspondant dans la plateforme, ce qui permettra aux utilisateurs d’examiner facilement les informations relatives à la qualité des données directement dans le catalogue.

Cette nouvelle fonctionnalité comprend :

  • Un onglet Qualité des données dans les pages de détails de votre Jeu de Données, où les utilisateurs peuvent voir ses contrôles de qualité exécutés ainsi que leurs type, statut, description, dernière date d’exécution, etc.
  • La possibilité d’afficher plus d’informations sur la qualité de l’ensemble de données directement dans l’outil DQM via le lien « Ouvrir le Tableau de Bord dans [Nom de l’outil] ».
  • Un indicateur de la qualité des données d’un Jeu de Données directement affiché dans les résultats de la recherche et dans le lignage.

 

Lire la Feature Note

Zeenea Explorer Data Quality Graph

Établir une connectivité de bout en bout avec toutes leurs sources de données

 

Avec Zeenea, vous vous connectez à toutes vos sources de données en quelques secondes. Les scanners et API intégrés de notre plateforme permettent aux organisations de collecter, consolider et relier automatiquement les métadonnées dans leur écosystème. Cette année, nous avons apporté des améliorations significatives à notre connectivité pour permettre à nos clients de construire une plateforme qui représente réellement leur écosystème de données.

Une API de gestion du Catalogue

 

Reconnaissant l’importance de l’intégration des API, Zeenea a développé de puissantes capacités API qui permettent aux organisations de connecter et d’exploiter de manière transparente leur catalogue de données au sein de leur écosystème existant.
En 2023, Zeenea a développé l’API Catalogue, qui aide les gestionnaires de données dans leurs tâches de documentation. Elle comprennent :

Des opérations de requêtes pour récupérer des actifs spécifiques du catalogue : Les opérations de requête de notre API incluent la récupération d’un actif spécifique, en utilisant sa référence unique ou par son nom et son type, ou la récupération d’une liste d’actifs via une connexion ou un Type d’Objet donné. En effet, l’API Catalogue de Zeenea permet une certaine flexibilité lors des requêtes, permettant de restreindre les résultats afin de ne pas être submergé par une pléthore d’informations.

Opérations de mutation pour créer et mettre à jour les actifs du catalogue : Pour gagner encore plus de temps lors de la documentation et de la mise à jour des données de l’entreprise, l’API Catalogue de Zeenea permet aux producteurs de données de créer, modifier et supprimer facilement des ressources du Catalogue. Cela permet de créer, mettre à jour et supprimer des Objets Personnalisés et des processus de données ainsi que leurs métadonnées associées, et de mettre à jour les Jeux de Données et Visualisations. Cela est également possible pour les Contacts. Ceci est particulièrement important lorsque les utilisateurs quittent l’entreprise ou changent de rôle – les producteurs de données peuvent facilement transférer les informations qui étaient liées à une personne particulière à une autre.

Lire la Feature Note

Gestion des codes de Propriété et de Responsabilité

Une autre fonctionnalité qui a été mise en œuvre est la possibilité d’ajouter un code aux propriétés et aux responsabilités afin de les utiliser facilement dans les scripts API pour des requêtes et des récupérations plus fiables.

Pour toutes les Propriétés et Responsabilités qui ont été créées dans Zeenea (par exemple, les informations d’identification personnelle) ou récoltées à partir de connecteurs, il est possible de modifier leur nom et leur description afin de mieux les adapter au contexte de l’organisation.

Property Responsibility Codes Studio

Plus d’une douzaine de connecteurs supplémentaires

 

Chez Zeenea, nous développons des connecteurs avancés pour synchroniser automatiquement les métadonnées entre notre plateforme de découverte de données et toutes vos sources. Cette connectivité native vous évite la tâche fastidieuse et difficile de trouver manuellement les données dont vous avez besoin pour un cas d’usage spécifique qui nécessite souvent l’accès à des ressources techniques limitées.

Rien qu’en 2023, nous avons développé plus d’une douzaine de nouveaux connecteurs ! Cette réalisation souligne notre agilité et notre compétence dans l’intégration rapide des diverses sources de données utilisées par nos clients. En élargissant nos options de connectivité, nous visons à donner une plus grande flexibilité et une meilleure accessibilité.

 

Voir nos connecteurs

Qu’est-ce que la découverte des données sensibles ?

Qu’est-ce que la découverte des données sensibles ?

La protection des données sensibles s’est imposée comme une préoccupation majeure pour les entreprises data-driven. Mais, pour appliquer les stratégies de protection et d’exploitation adaptées, il faut encore inventorier avec précision les données sensibles. C’est la vocation de la découverte de données sensibles, ou sensitive data discovery en anglais. Pour tout comprendre, suivez le guide !

Si la confidentialité des données est une valeur cardinale, toutes les données ne se valent pas. Aussi faut-il distinguer les données sensibles qui doivent faire l’objet d’une attention, et d’une sécurisation particulières. Les données sensibles sont des informations personnelles ou confidentielles qui, si divulguées, pourraient causer des préjudices aux individus ou aux organisations.

Elles englobent une large gamme d’informations, notamment les données médicales, les numéros de sécurité sociale, les données financières, les données biométriques, les informations sur l’orientation sexuelle, les croyances religieuses, les opinions politiques, et bien d’autres.

Le traitement des données sensibles doit respecter des normes strictes en matière de sécurité et de protection de la vie privée. Au sein de votre entreprise, vous êtes donc tenu de mettre en place des mesures de sécurité robustes pour prévenir les fuites, les accès non autorisés et les violations de données. Cela inclut le chiffrement, l’authentification à deux facteurs, la gestion des accès, et d’autres pratiques de cybersécurité avancées.

Une fois ce principe admis, une question centrale persiste. Au sein de votre activité, collectez-vous et manipulez-vous des données sensibles ? Pour le savoir, vous devez vous engager sur le chemin de la découverte des données sensibles.

Comment définir et distinguer data discovery et sensitive data discovery ?

 

La découverte des données, également connue sous le nom de Data Discovery, est le processus par lequel vous pourrez identifier, collecter et analyser vos données pour en extraire des informations utiles. La découverte de données vise généralement à explorer et à comprendre les données dans leur ensemble, à identifier des tendances, à générer des rapports et à prendre des décisions éclairées. De fait, elle vous est absolument indispensable pour optimiser vos opérations commerciales, ou encore améliorer l’efficacité et optimiser la prise de décision basée sur des données.

Parallèlement, la découverte des données sensibles est une branche plus spécifique de la gestion de l’information. Elle se concentre sur l’identification, la protection et la gestion de données hautement confidentielles. La découverte des données sensibles consiste à localiser ces données au sein d’une organisation, à les classer, à définir des politiques de sécurité appropriées, et à garantir leur protection contre les violations de données et les accès non autorisés.

Que peut-on considérer comme données sensibles ?

 

Depuis l’entrée en vigueur du RGPD en 2018, la moindre donnée revêt un caractère de sensibilité. Cependant, les données sensibles répondent à une définition propre. Vous éprouvez quelques difficultés à y voir clair ? Voici quelques exemples.

Parmi ces données sensibles, on trouve d’abord les informations personnelles identifiables (également appelées PII). Il s’agit des noms, numéros de sécurité sociale, adresses ou encore numéros de téléphone, qui sont essentiels pour l’identification de vos clients ou de vos collaborateurs par exemple.

Les données bancaires, notamment les numéros de carte de crédit et les codes de sécurité sont, elles aussi, hautement sensibles car elles sont la cible de cyber délinquants. Les données clients, y compris les historiques d’achats, les préférences et les coordonnées, sont précieuses pour les entreprises, mais doivent être protégées pour protéger la vie privée de vos clients.
Les données de santé, telles que les dossiers médicaux, les diagnostics et les antécédents médicaux, sont particulièrement délicates en raison de leur nature personnelle et de leur importance pour les soins de santé.

La liste des données sensibles ne s’arrête pas là ! Ainsi, les documents légaux, tels que les contrats, les accords de non-divulgation et les correspondances juridiques, renfermant des informations juridiques cruciales, doivent rester confidentielles pour préserver les intérêts des parties impliquées. En fonction de votre activité, les données sensibles englobent un éventail de types d’informations critiques, exigeant des mesures de sécurité adéquates pour prévenir tout accès non autorisé ou violation.

Quelles sont les différentes méthodologies associées à la découverte de données sensibles ?

 

La découverte de données sensibles implique plusieurs méthodologies clés pour garantir non seulement leur bonne identification, mais aussi leur protection, leur gestion et leur conformité réglementaire.

Identification et classification

 

Cette méthodologie consiste à localiser les données sensibles au sein de l’organisation et à les classer en fonction de leur degré de confidentialité. Elle permet de cibler efficacement les données qui nécessitent une protection accrue.

Data Profiling

 

Le Data Profiling consiste à analyser les caractéristiques et les propriétés des données sensibles. Celui-ci permet de mieux comprendre ces données, d’identifier les incohérences éventuelles, les erreurs potentielles et les risques liés à leur exploitation.

Data Masking

 

Le Data Masking (également appelé anonymisation des données) est crucial pour protéger les données sensibles. Cette technique consiste à substituer ou à masquer des données de manière à ce qu’elles restent utilisables pour les besoins légitimes, tout en préservant leur confidentialité.

Conformité aux règlements

 

Le respect des lois et des réglementations liées à la protection des données sensibles est un axe stratégique. Des régimes tels que le RGPD en Europe ou HIPAA aux États-Unis imposent des normes strictes à suivre. Lorsqu’elles ne sont pas respectées, les conséquences peuvent être graves, tant sur le plan financier que sur celui de la réputation !

Conservation et suppression des données

 

La gestion fine de la conservation et de la suppression des données sensibles est essentielle pour éviter le stockage excessif de données. Veillez à garantir la destruction sécurisée des informations obsolètes, conformément aux réglementations.

Des usages spécifiques

 

En fonction des besoins particuliers de certaines activités, d’autres approches peuvent être mises en œuvre, telles que le chiffrement des données, l’audit des accès et des activités, la surveillance de la sécurité, ainsi que la sensibilisation des employés à la protection des données.

 

Les données sensibles sont une responsabilité majeure qui vous impose non seulement beaucoup de rigueur, mais aussi une remise en question continue de la gouvernance de données.

Principaux enseignements du Zeenea Exchange 2023 : oú comment exploiter la richesse du catalogue de données d’entreprise ?

Principaux enseignements du Zeenea Exchange 2023 : oú comment exploiter la richesse du catalogue de données d’entreprise ?

Chaque année, Zeenea organise des événements exclusifs qui rassemblent nos clients et partenaires de diverses organisations, favorisant ainsi un environnement propice aux discussions collaboratives et au partage d’expériences et de bonnes pratiques. La troisième édition du Zeenea Exchange France s’est déroulée au cœur du 8ème arrondissement de Paris avec nos clients et partenaires francophones, tandis que la première édition du Zeenea Exchange International s’est tenue en ligne.

Dans cet article, nous donnons un aperçu des discussions qui ont eu lieu lors de ces tables rondes organisées toutes les deux en juin 2023 sur le thème : « Quels sont vos usages et objectifs actuels & futurs pour vos initiatives de catalogues de données ? ».

Quelles sont les raisons qui ont motivé la mise en œuvre d’une solution de catalogue de données ?

Explosion des volumes d’information

 

Nos clients sont confrontés au défi de collecter et inventorier de grandes quantités d’informations provenant de différentes sources. Un grand nombre de nos participants se sont lancés en adoptant un Data Lake ou une autre plateforme pour stocker leurs informations. Cependant, ils se sont vite rendu compte qu’il était difficile de gérer ce vaste océan de données et se sont posé des questions telles que : « Quelles sont les données dont je dispose ? D’où viennent-elles ? Qui est responsable de ces données ? Ai-je le droit de consulter ces données ? Que signifient ces données ? ».

Par conséquent, la recherche d’une solution capable d’automatiser la centralisation des informations de l’entreprise et de fournir des informations précises sur leurs données est devenue un objectif crucial, ce qui a conduit à la recherche d’une solution de catalogue de données.

Accès limité aux données

 

L’accès aux données est un autre défi commun qui s’est présenté au sein de notre communauté de clients. Avant de centraliser leurs données dans un référentiel commun, de nombreuses entreprises participantes étaient confrontées à des systèmes d’information disparates, dédiés à différents secteurs d’activité ou départements au sein de l’organisation. Les données étaient donc conservées dans des silos, ce qui rendait difficile, voire impossible, l’établissement de rapports efficaces ou la communication autour de ces informations.

La nécessité de mettre les données à la disposition de tous est une autre raison clé pour laquelle nos clients ont cherché une solution qui pourrait démocratiser l’accès aux données.

Rôles et responsabilités mal définis

 

Une autre raison majeure de la recherche d’un catalogue de données était d’attribuer des rôles et des responsabilités clairs aux différents consommateurs et producteurs de données. En effet, l’objectif d’un data catalog est de centraliser et de maintenir à jour les informations de contact pour chaque donnée, en fournissant une visibilité claire sur la personne ou l’entité appropriée à contacter lorsque des questions se posent concernant un ensemble spécifique de données.

Quels sont les usages et les défis actuels concernant leurs initiatives de catalogue de données ?

L’absence d’un langage commun

 

La création d’un langage commun pour les définitions de données et les concepts métier est un défi important auquel sont confrontés beaucoup de nos clients. Ce problème est particulièrement répandu chez nos clients lorsque les différentes branches d’activité ou départements manquent d’alignement dans la définition de concepts ou d’indicateurs de performance spécifiques. Par exemple, certains KPIs peuvent manquer de définitions claires ou plusieurs versions du même KPI peuvent exister avec des définitions différentes. Compte tenu de la complexité du paysage de données de certains de nos clients, comprenant de nombreuses filiales et agences, l’alignement des parties prenantes sur la signification et la définition des concepts pose des défis importants et reste une tâche cruciale.

Plus d’autonomie pour les utilisateurs métier

 

La mise en œuvre d’un catalogue de données a permis d’accroître considérablement l’autonomie des utilisateurs métier chez la majorité de nos clients. En utilisant Zeenea, qui offre des capacités intuitives de recherche et de découverte des données à travers le patrimoine informationnel de l’organisation, les utilisateurs non techniques disposent désormais d’un moyen convivial et efficace de localiser et d’utiliser les données pour leurs rapports et leurs cas d’usage.

Un client a notamment témoigné que le catalogue de données a accéléré la recherche, la découverte et l’acquisition de données, a amélioré la compréhension des datas, et facilité l’accès aux données existantes et amélioré le processus global d’analyse de la qualité – inspirant ainsi aux utilisateurs une plus grande confiance dans les données.

L’adoption du catalogue reste un sujet sensible

 

Un autre défi important auquel sont confrontés certains de nos clients est la difficulté de promouvoir l’adoption du catalogue de données et d’encourager une culture axée sur les données. Cette résistance peut être attribuée au fait que de nombreux utilisateurs ne sont pas familiarisés avec les avantages que le data catalog peut offrir. L’instauration d’une culture data-driven nécessite des efforts soutenus pour expliquer les avantages de l’utilisation d’un catalogue. Pour ce faire, il convient de le promouvoir auprès des différents services par le biais de canaux de communication efficaces, d’organiser des sessions de formation et de mettre en évidence les petites réussites qui démontrent la valeur de l’outil dans l’ensemble de l’organisation.

Les avantages de l’automatisation

 

Le catalogue de données offre la possibilité d’automatiser les tâches fastidieuses liées à la collecte des données, ce qui s’avère être un atout important pour nombre de nos clients. En effet, les API de Zeenea permettent de récupérer des métadonnées externes à partir de différentes sources, facilitant ainsi l’inventaire des termes du glossaire, des informations sur les rôles de propriété, des indicateurs de qualité technique et métier provenant d’outils de qualité des données, etc.

En outre, le catalogue de données permet d’accélérer les programmes de transformation IT et l’intégration de nouveaux systèmes en fournissant une vue claire des sources essentielles, ce qui permet de mieux planifier les nouvelles intégrations.

Quelles sont les prochaines étapes de leur expérience avec le catalogue de données ?

Vers une approche Data Mesh

 

Certains de nos clients, en particulier ceux qui ont participé à l’édition internationale, ont manifesté leur intérêt pour l’adoption d’une approche Data Mesh. Selon un sondage réalisé pendant l’événement, 66 % des personnes interrogées envisagent ou déploient actuellement une approche Data Mesh au sein de leur organisation.

Une de nos clientes a partagé qu’elle dispose de data warehouse et de data lake, mais le manque de transparence concernant la propriété et l’utilisation des données dans les différents domaines a fait naître le besoin d’une plus grande autonomie, et d’un passage d’un data lake centralisé à une architecture spécifique à chaque domaine.

Zeenea en tant que référentiel central

 

Nombre de nos clients, quels que soient leurs secteurs d’activité ou leurs tailles, utilisent le catalogue de données comme référentiel centralisé pour leurs données d’entreprise. Cette approche les aide à consolider les informations provenant de plusieurs branches ou filiales au sein d’une plateforme unique, ce qui permet d’éviter les doublons et de garantir l’exactitude des données.

L’objectif du data catalog est de leur permettre de trouver des données dans tous les départements, en facilitant l’utilisation de solutions partagées et en améliorant les processus de découverte et de compréhension des données.

Utiliser le catalogue de données pour les initiatives de conformité

 

Les initiatives de conformité gagnent en effet en importance pour les organisations, en particulier dans des secteurs très réglementés tels que la banque et l’assurance. Un sondage réalisé lors de l’édition internationale a révélé que 50 % des personnes interrogées utilisent actuellement le catalogue de données à des fins de conformité, tandis que les 50 % restants pourraient envisager de l’utiliser à l’avenir. Un des participants qui a répondu favorablement, a témoigné que son entreprise envisage même de créer un moteur permettant d’interroger et d’extraire des informations sur les données qu’elle possède sur une personne si elle en fait la demande.

Si ces retours d’expérience et témoignages résonnent avec votre quotidien au sein de votre entreprise, n’hésitez pas à nous contacter. Nous serons ravis de vous accueillir dans la communauté des utilisateurs de Zeenea et de vous inviter à nos prochaines éditions du Zeenea Exchange.

Quelles sont les différences entre un Data Analyst et un Business Analyst ?

Quelles sont les différences entre un Data Analyst et un Business Analyst ?

Tellement proches, tellement différentes ! Les fonctions de Data Analyst et de Business Analyst sont très souvent confondues, alors que leurs missions se superposent rarement. Plus complémentaires que concurrents, retour sur deux profils très recherchés.

La Data est désormais au cœur de tous les processus décisionnels dans les entreprises. Si l’on s’en réfère à une étude réalisée par l’institut IDC pour le compte de Seagate, les volumes de données générés par les entreprises devraient atteindre les 175 Zétaoctets à l’horizon 2025… 

Dans ce contexte, collecter l’information ne suffit plus. Ce qui prime, c’est la capacité à tirer de ces données des enseignements permettant des prises de décisions éclairées. Mais en fonction des missions, des enjeux, du type de donnée, les méthodes d’interprétation et la façon même d’exploiter le précieux minerai peuvent être très différentes. 

Le caractère protéiforme de la data a permis l’émergence de différents domaines d’expertise, suscitant parfois un certain flou entre des fonctions dont les appellations peuvent être trompeuses. La frontière qui sépare ainsi les missions du Data Analyst et celles du Business Analyst peut sembler ténue. Et pourtant, leurs fonctions, rôles et responsabilités sont très différents… et complémentaires !

 

Business Analyst & Data Analyst : un terreau commun

Si les fonctions de Business Analyst (en français Analyste d’affaires) et celle de Data Analyst font parfois l’objet d’une confusion, c’est que leurs missions sont intrinsèquement liées à la notion de valorisation de l’information. 

Ce qui les distingue, c’est la nature de cette information. 

Alors que le Data Analyst travaille sur des données numériques, issues des systèmes d’information de l’entreprise, le Business Analyst quant à lui, peut exploiter les données numériques autant que non-numériques.

Lorsque le premier doit assurer le traitement des données disponibles au sein de l’entreprise pour en extraire les enseignements permettant d’adapter les stratégies, le second apporte des réponses à des enjeux métiers concrets et fondées sur un échantillon de données pouvant dépasser le portefeuille data généré par l’entreprise.

 

Un large éventail de compétences

De son côté, le Data Analyst doit pouvoir se prévaloir de compétences avancées en mathématiques et en statistiques. Véritable expert des bases de données et du langage informatique, cet artisan de la donnée est bien souvent titulaire d’un diplôme dans le secteur de l’ingénierie informatique ou d’études statistiques. 

Le Business Analyst quant à lui, présentera un profil moins marqué data (dans l’acception numérique du terme). S’il exploite l’information pour remplir ses missions, il restera toujours en prise directe avec le management et l’ensemble des directions métiers de l’entreprise.

Si le Business Analyst peut avoir des compétences en algorithmie, en base de données SQL ou maîtriser le langage XML, celles-ci ne constituent pas nécessairement un pré-requis indispensable. 

En revanche, le Business Analyst devra être en mesure de démontrer un réel savoir-faire pour communiquer, écouter, entendre et comprendre les enjeux terrain de l’entreprise. 

Pour le Data Analyst au contraire, les compétences techniques sont essentielles. Langage SQL, Python, Data modeling et Power BI, expertise IT et analytics lui permettront d’exploiter la donnée dans une dynamique opérationnelle pour l’entreprise.

 

Les différences de responsabilités et objectifs de chacun

Le quotidien du Data Analyst consiste avant tout à valoriser le patrimoine de l’entreprise. A cette fin, il sera par exemple garant de la qualité des données, de leur nettoyage et de leur optimisation.

L’objectif : tenir à disposition des équipes internes des bases données exploitables dans les meilleures conditions et identifier en permanences tous les leviers d’amélioration susceptibles d’impacter le projet data. 

Le Business Analyst tirera profit du travail du Data Analyst qu’il contribuera à valoriser au maximum en mettant en perspective les données natives de l’entreprise avec des données et informations périphériques. En réconciliant et valorisant différentes sources d’informations, l’analyste d’affaires contribuera à faire émerger de nouvelles opportunités marché, organisationnelles ou structurelles pour accélérer le développement de l’entreprise. 

 En résumé, le Data Analyst est l’artisan du quotidien du projet data de l’entreprise. Le Business Analyst est celui qui intervient, au long cours, sur la stratégie commerciale. Pour relever ce défi, il fonde son action sur la qualité du travail de l’analyste de la donnée. 

Deux missions complémentaires, deux profils convergents qui permettront de tirer le meilleur profit de culture data dont les organisations !

Big Data Hebdo : Data catalog, data discovery, et gouvernance des données featuring Zeenea

Big Data Hebdo : Data catalog, data discovery, et gouvernance des données featuring Zeenea

big data hebdo feat. zeenea

Enregistré le 20 novembre 2020, Sandrine Bernaud, Product Manager chez Zeenea, avait été invitée pour participer au podcast Big Data Hebdo pour parler data catalog, data discovery et gouvernance des données. 

Présentation de Big Data Hebdo en quelques mots :

Fondé en 2014 par Vincent Heuschling et Benjamin Guinebertière, le podcast Big Data Hebdo rassemble une équipe de quatre animateurs, tous passionnés par la data sous toutes ses formes ! Vous y retrouverez Alexander Dejanovski, consultant Apache Cassandra chez Datastax, Jérôme Mainaud, Architecte logiciel chez Zeenea, Nicolas Steinmetz, fondateur de CérénIT, et Vincent Heuschling, Fondateur d’Affini-Tech.

Ce 113ème épisode s’est concentré sur qu’est-ce un data catalog, pourquoi est-ce un outil nécessaire pour les utilisateurs et managers data, et comment les data catalogs aident les entreprises à découvrir leurs données et initier une gouvernance des données au sein de leur organisation. 

Sylvain L., un utilisateur de Zeenea Data Catalog et occupant le poste de Responsable de la gouvernance des données dans une grande banque française, confirme que “le gros point fort [d’un catalogue de données], c’est vraiment de pouvoir rassembler la connaissance de la donnée et de pouvoir permettre aux utilisateurs à la fois métier et IT d’avoir un langage commun, c’est vraiment ça la force dont on a besoin pour développer efficacement nos cas d’usage autour de la donnée.”

Vous pouvez écouter le podcast en entier ici 👇

https://bigdatahebdo.com/podcast/episode-113-data-catalog-et-data-discovery/

Nouveau livre blanc : « Le Data Discovery vu par les Géants du Web »

Nouveau livre blanc : « Le Data Discovery vu par les Géants du Web »

Découvrez les solutions de data discovery développées par différents géants du web qui ont permis à leurs équipes data de comprendre et de faire confiance à leurs actifs d’entreprise. 

Nous avons publié aujourd’hui un nouveau livre blanc hors série « Le Data Discovery vu par les Géants du Web » qui se concentre sur les différentes plateformes de data discovery développées par de grandes entreprises dans le monde de la tech telles que Airbnb, Uber, Spotify, pour n’en citer que quelques-unes. 

Des milliers de données créées chaque jour, et les entreprises se retrouvent avec des informations qu’elles n’arrivent ni à comprendre ni à gérer correctement. Généralement désordonnées, dispersées et non organisées, les équipes de data analytics passent la plupart de leur temps à tenter d’y voir plus clair dans ce chaos d’informations plutôt que de produire de la valeur à partir de celles-ci ! En effet, de nombreuses enquêtes récentes indiquent encore que les équipes de data science passent 80% de leur temps à préparer et nettoyer leurs données au lieu de les analyser.

Les données nombreuses et diverses ajoutées quotidiennement rendent extrêmement difficile, voire impossible, la gestion manuelle de l’ingestion de données ! Ces grandes entreprises ont donc rapidement compris qu’il était essentiel de mettre en place un référentiel de métadonnées qui automatise la découverte des données pour que leurs équipes data et analytics puissent rapidement trouver et comprendre leurs données d’entreprise.

Zeenea a basé sa recherche sur la documentation officielle fournie par ces Géants du Web, qui ont été partagée sur leurs réseaux sociaux et de blogs corporate. Ce livre blanc détaille la manière dont ces entreprises en sont venues à développer leurs solutions, les caractéristiques de leurs plateformes et les prochaines étapes pour chaque organisation.

Les expériences de ces géants du web ont largement inspiré Zeenea quant aux valeurs proposées par son data catalog pour faciliter la découverte d’information par les équipes data, de la manière la plus simple et la plus intelligente possible. 

Découvrez les différentes plateformes de data discovery en téléchargeant notre dernier livre blanc ! 

Les métadonnées vues par les géants du Web

Les métadonnées vues par les géants du Web

L’analyse du cycle de vie des données fait partie des éléments les plus difficiles à mettre en oeuvre par les entreprises ces dernières années.

Les organisations à la pointe de l’innovation par la donnée telles que Uber, LinkedIn, Netflix, Airbnb ou encore Lyft ont également perçu la valeur des métadonnées dans l’ampleur de ce défi.

Elles ont ainsi développé une gestion des métadonnées à l’aide de plateformes dédiées. Fréquemment développées de manière custom, elles facilitent l’ingestion, l’indexation, la recherche, l’annotation et la découverte des données afin de maintenir des jeux de données de haute qualité.

Des exemples ci-dessous ressortent une constante partagée : la difficulté, accrue par la volumétrie et la variété, à transformer les données de l’entreprise en connaissance exploitable.

Voyons ensemble l’analyse et le contexte de ces grands du Web :

Uber

Chaque interaction sur la plate-forme Uber, qu’il s’agisse des VTC ou des livraisons de repas à domicile est basée sur les données. Grâce à leur analyse, les données permettent des expériences utilisateurs plus fiables et plus pertinentes.

Uber en chiffres, cela représente :

  • des milliers de milliards de messages Kafka par jour,
  • des centaines de pétaoctets de données dans HDFS dans des data centers,
  • des millions de requêtes analytiques hebdomadaires.

Cependant, la volumétrie de données générée ne suffit pas à elle seule à tirer parti des informations qu’elles représentent ; pour être utilisées de manière efficace et efficiente, les données nécessitent plus de contexte pour prendre des décisions commerciales optimale.

Pour fournir des informations supplémentaires, Uber a donc développé “Databook”, la plateforme interne d’Uber qui collecte et gère les métadonnées sur les jeux de données internes, afin de transformer les données en connaissances.

La plateforme Databook est conçue pour permettre aux employés d’Uber d’explorer, de découvrir et d’utiliser efficacement les données de chez Uber.

Databook garantit le contexte sur les données – ce qu’elles signifient, leur qualité, etc. – pour les milliers de collaborateurs qui essaient de les analyser. En bref, les métadonnées de Databook permettent aux parties prenantes des données de passer de l’affichage de données brutes à des connaissances exploitables.

Dans l’article « Databook: Turning Big Data into Knowledge with Metadata at Uber », l’article conclut que l’un des plus gros défis du Databook était de passer d’une mise à jour manuelle du répertoire de métadonnées à l’automatisation.

Airbnb

Lors d’une conférence menée en mai 2017, John Bodley, Data Engineer chez AirBnB, exposait les nouvelles problématiques issues de la forte croissance de la société : celles d’un paysage confus et non unifié qui ne permettait pas d’accéder à l’information toujours plus importante.

Que faire de toutes ces données collectées quotidiennement ? Comment les transformer en une force pour tous les employés d’Airbnb ?

Une équipe dédiée s’est mise en ordre de bataille pour développer un outil qui démocratiserait l’accès aux données au sein de l’entreprise. Leur travail s’est à la fois fondé sur la connaissance des analystes et leur capacité à comprendre les points critiques et sur celle des ingénieurs, à même de proposer une vision plus technique de l’ensemble. Au cœur du projet, des interviews des employés et de leurs problématiques ont été menées.

De cette enquête est ressortie : une difficulté à trouver les informations dont les collaborateurs avaient besoin pour travailler, et des démarches encore trop tribales dans le partage et la détention d’informations.

Pour répondre à ces enjeux, AirBnB a créé le Data Portal, plateforme de gestion de métadonnées. Le Data Portal centralise et partage ces informations via cette plateforme en self-service.

Lyft

La société Lyft est un service de VTC. Sur le marché américain, elle est le principal concurrent d’Uber.

Lyft est partie d’un constat d’inefficience dans l’accès aux données pour ses profils analytiques. Ses réflexions se sont axées sur la mise à disposition de la connaissance des données pour optimiser ses processus. En quelques mois seulement, l’initiative de proposer une interface de recherche de données a porté des fruits concrets sur ces 2 grands défis :

La productivité – Que ce soit pour créer un nouveau modèle, instrumenter une nouvelle métrique ou effectuer une analyse ad hoc, comment Lyft peut utiliser ces données de la manière la plus productive et la plus efficace possible ?

La conformité – Lors de la collecte de données sur les utilisateurs d’une entreprise, comment Lyft peut se conformer aux exigences réglementaires croissantes et préserver la confiance de ses utilisateurs ?

Dans leur article Amundsen — Lyft’s data discovery & metadata engine, Lyft affirme que la clé ne réside pas dans les données, mais dans les métadonnées !

Netflix

En tant que leader mondial du streaming vidéo, l’exploitation des données chez Netflix est, bien évidemment, un axe stratégique majeur.

Compte tenu de la diversité des sources de données, la plateforme vidéo souhaitait proposer un moyen de fédérer et d’interagir avec ces assets depuis un même outil. Cette recherche de solution a abouti à Metacat.

Cet outil agit comme une couche d’accès aux données et métadonnées depuis les sources de données de Netflix. L’outil permet ses utilisateurs un accès aux données et ce, quelque soit leurs systèmes de stockage grâce à trois fonctionnalités différentes :

  1. L’ajout de métadonnées métier : à la main ou définies par les utilisateurs, des métadonnées métier peuvent être ajoutées via Metacat.
  2. La data discovery : l’outil publie des métadonnées de schéma et métier définies par ses utilisateurs dans Elasticsearch, facilitant ainsi la recherche en texte intégral d’informations dans les sources de données.
  3. La notification de modification de données et audits : Metacat enregistre et notifie toutes les changements apportés sur les métadonnées depuis les systèmes de stockage.

Dans l’article Metacat: Making Big Data Discoverable and Meaningful at Netflix, la firme confime qu’ils sont loin d’avoir fini ! Il y a quelques fonctionnalités supplémentaires sur lesquelles ils doivent encore travailler pour améliorer l’expérience data warehousing :

 

  • Schéma pour fournir l’historique d’un tableau,
  • Fournir des informations contextuelles sur les tableaux pour un meilleur data lineage,
  • Ajouter un support pour les datastores comme Elasticsearch et Kafka.

Vous voulez en savoir plus sur les solutions de data discovery ?

Téléchargez notre livre blanc : « Le Data Discovery vu par les Géants du Web »

Dans ce livre blanc, nous faisons un focus sur le contexte et la mise en œuvre des solutions de data discovery développées par les grandes entreprises du web, dont certaines font partie du célèbre «Big Five» ou «GAFAM» (Google, Apple, Facebook, Amazon, Microsoft).

data-discovery-mockup-FR-no-shadow

Databook : Comment Uber transforme ses données en connaissances exploitables d’entreprise

Databook : Comment Uber transforme ses données en connaissances exploitables d’entreprise

Créée en 2009, Uber est devenue une des entreprises les plus fascinantes au monde ! La startup a complètement changé le monde avec son business model basé sur la mise en relation de personnes proposant des services. Le succès de la firme a même mené à la création du terme “uberisation”, c’est dire !

De service VTC à livraison de commandes de restaurants, il est évident que la stratégie de la plateforme d’Uber est guidée par leurs données. Elles sont effectivement au cœur du business d’Uber, créant de meilleures expériences utilisateur à travers leurs services pour leurs clients, tout en permettant à leurs employés d’être plus efficaces dans leur travail.

Cependant, le Big Data à lui seul n’est pas suffisant pour accomplir la mission de ce géant. Le volume de données généré chez Uber demande qu’elles soient contextualisées et fiables afin de prendre les bonnes décisions stratégiques. Donc, comme beaucoup de “unicorns”, telle que Airbnb avec le Data Portal, l’équipe d’ingénieurs de Uber a développé Databook. Cette plateforme interne a pour objectif de scanner, collecter et agréger les métadonnées afin de voir plus clair sur la localisation des données dans le SI de Uber et leurs référents. Bref, une plateforme qui veut transformer des données brutes en données contextualisées

L’évolution d’Uber (et de ses données)

Depuis 2016, Uber a ajouté plusieurs services à sa plateforme comme Uber Eats et Jump Bikes. Quelques statistiques :

  • 15 millions de courses par jour
  • Plus de 75 millions d’utilisateurs actifs
  • 18 000 employés depuis sa création en 2009

Plus l’entreprise grandit, plus elle génère de la donnée ! Pour s’assurer que leurs data et analytics poursuivent rythme d’une croissance exponentielle basée sur la data, Uber avait besoin d’un système beaucoup plus puissant pour gagner en efficacité dans la recherche et la découverte de données pertinentes.

Ceci a mené à la création de Databook, le curateur de métadonnées d’Uber.

L’arrivée de Databook

La plateforme Databook agrège et gère les métadonnées sur les jeux de données d’Uber. Elle permet aux employés d’explorer, découvrir et utiliser efficacement leurs données. En d’autres termes, Databook veut aider les analysts et tout autre consommateur de données dans l’entreprise à mieux comprendre et contextualiser la ressource qu’il s’apprête à utiliser à l’aide de métadonnées. Les métadonnées de Databook permettent à tous les ingénieurs, data scientists et équipes informatiques de passer de la simple visualisation de leurs données à leur transformation en connaissances exploitables.

 

Databook permet aux employés d’accéder à des métadonnées actualisées et à jour grâce à des imports automatisés. Elles sont collectées principalement depuis Hive, MySQL, Cassandra et quelques autres systèmes de stockage internes. Pour les rendre accessibles et recherchables, Databook propose à ses consommateurs une interface utilisateur avec un moteur de recherche à la Google ou son API RESTful.

 

L’architecture de Databook

L’architecture de Databook est divisée en trois parties: comment les métadonnées sont collectées et stockées, et comment leurs données sont remontées.

Sur le plan conceptuel, l’architecture de Databook a été conçue pour permettre quatre fonctionnalités clés:

  • Extensible : de nouvelles métadonnées, le stockage et les entités sont faciles à ajouter.
  • Accessibilité : les services peuvent accéder à toutes les métadonnées
  • Évolutivité : prendre en compte dans le temps les besoins des utilisateurs et des nouveautés technologique..
  • Puissance et rapidité

Pour aller plus loin sur l’architecture de la plateforme, cliquez ici https://eng.uber.com/databook/

 

L’avenir du Databook ?

Avec le Databook, Uber a réussi à transformer ses métadonnées en super connaissances !

La plateforme a su montrer sa puissance et sa nécessité dans une organisation data-driven. De nouvelles fonctionnalités ne devraient pas tarder à être apportées : les capacités de générer des informations sur les données avec des modèles d’apprentissage automatique et de créer des mécanismes avancés de détection, de prévention et d’atténuation des problèmes. L’avenir du Databook semble radieux !

 

 

Sources

Vous voulez en savoir plus sur les solutions de data discovery ?

Téléchargez notre livre blanc : « Le Data Discovery vu par les Géants du Web »

Dans ce livre blanc, nous faisons un focus sur le contexte et la mise en œuvre des solutions de data discovery développées par les grandes entreprises du web, dont certaines font partie du célèbre «Big Five» ou «GAFAM» (Google, Apple, Facebook, Amazon, Microsoft).

data-discovery-mockup-FR-no-shadow

Qu’est-ce que le Data Fingerprinting et la détection de similarité ?

Qu’est-ce que le Data Fingerprinting et la détection de similarité ?

Avec l’arrivée du Big Data, les entreprises se sont retrouvées avec un nombre colossal de données. Afin de pouvoir les comprendre, analyser, et répondre aux exigences réglementaires, les organisations se voient obligées de renseigner et documenter leur patrimoine de données. Néanmoins, l’humain seul, de par son aspect très chronophage et une connaissance très tribale des données, reste très difficile, voire impossible, de décrire et contextualiser toutes ces données à la main.

Ou sinon… optez pour le Data Fingerprinting !

Qu’est-ce que le Data Fingerprinting

Dans le domaine de la data, un fingerprint, représente une “signature”, autrement dit une empreinte, d’une colonne d’un jeux de données. Sa finalité est de les contextualiser.

Via cette technologie, le Data Fingerprinting peut permettre de détecter automatiquement des jeux de données similaires dans vos bases de données et les documenter plus facilement, rendant la tâche des Data Stewards moins fastidieuse et donc, plus maintenable dans le temps.

Pour exemple, de manière supervisée par le data steward évidemment, le data fingerprinting permet de comprendre que les données d’une colonne reprenant les informations “France”, “États-Unis”, et “Australie” signifient des “Pays”.

Le Data Fingerprinting chez Zeenea

Dans le cas de Zeenea et de sa plateforme de gestion de métadonnées, son objectif est d’apporter et renseigner les jeux de données catalogués dans le Data Catalog de la manière la plus automatique possible. Grâce à ses technologies de Machine Learning, Zeenea identifie les colonnes des schémas des jeux de données, les analyse et leur assigne une “signature”. Ainsi, lors de l’analyse, si ces empreintes sont proches, le Data Catalog proposera au Data Steward d’assigner les mêmes informations relative à d’un jeu de données à un autre.

Cette technologie est également un moyen pour les DPO, entre autres, de souligner et pointer les données sensibles ou personnelles que possèdent l’entreprise dans ses bases de données.

Quelle est la différence entre un dictionnaire de données et un business glossary ?

Quelle est la différence entre un dictionnaire de données et un business glossary ?

Dans la gestion de métadonnées, on entend souvent parler de “dictionnaires de données” et de “business glossaries”. Bien qu’ils puissent sembler similaires, ils sont en fait assez différents ! Découvrons ensemble leurs différences et relations.

Qu’est-ce qu’un dictionnaire de données ?

Un dictionnaire de données est un ensemble de descriptions ou d’éléments correspondant à des objets ou modèles de données.

Ces descriptions peuvent inclure des attributs, champs, ou même des propriétés pour déclarer les types, les transformations, ou encore les relations des données.

Les dictionnaires de données aident les professionnels de la data à mieux comprendre leurs données et métadonnées. Habituellement sous forme de tableaux ou de feuilles de calcul, les dictionnaires de données sont indispensables pour les profils techniques tels que les développeurs, data analysts, data scientists, etc. dans leur travail de tous les jours. 

Qu’est-ce qu’un business glossary ?

Un business glossary apporte une signification et un contexte aux données dans les départements de l’entreprise.

Un business glossary est donc un endroit où les termes métier et liés aux données sont définis.

Cela peut sembler simple, mais il est rare que tous les employés d’une entreprise partagent une même compréhension, définition des termes – mêmes les plus fondamentaux – tels que «contact» et «client» au sein de l’entreprise.

Un exemple d’un business glossary dans Zeenea :

Les principales différences entre un dictionnaire de données et un business glossary

Les dictionnaires de données traitent les informations des bases de données et des systèmes, principalement utilisées par les équipes informatiques. Les business glossaries définissent des termes utilisés au sein d’une même organisation. Il est un dictionnaire métier faisant foi dans l’entreprise.

Les dictionnaires de données se présentent généralement sous forme de schémas, de tableaux, de colonnes, etc., tandis qu’un business glossary fournit une définition unique des termes métier sous forme textuelle.
Un glossaire métier croise les termes et leurs relations, contrairement aux dictionnaires de données.

 

Quelle est la relation entre un dictionnaire de données et un business glossary ?

La réponse est simple : un business glossary donne du sens au dictionnaire de données.

Par exemple, dans le business glossary, un numéro de sécurité sociale américain (SSN) sera défini comme « un numéro unique attribué par le gouvernement américain dans le but d’identifier des personnes dans le système de sécurité sociale américain ».

Dans le dictionnaire de données, le terme SSN est défini comme « une chaîne de neuf caractères généralement affichée avec des traits d’union ».

Si un data explorer a un doute sur la signification du terme «SSN» dans le contexte de son dictionnaire de données, il peut toujours rechercher le terme associé dans le business glossary.

 

Intéressé par l’automatisation d’un dictionnaire de données et la création d’un business glossary pour votre entreprise ?

Vous souhaitez créer un référentiel de métadonnées centralisé de toutes vos sources de données d’entreprise ?

Notre outil fournit un moyen intuitif de créer et importer les glossaires de votre entreprise afin de relier ces définitions aux concepts de Zeenea ou jeux de données importés dans notre data catalog.