L’analyse du cycle de vie des données fait partie des éléments les plus difficiles à mettre en oeuvre par les entreprises ces dernières années.
Les organisations à la pointe de l’innovation par la donnée telles que Uber, LinkedIn, Netflix, Airbnb ou encore Lyft ont également perçu la valeur des métadonnées dans l’ampleur de ce défi.
Elles ont ainsi développé une gestion des métadonnées à l’aide de plateformes dédiées. Fréquemment développées de manière custom, elles facilitent l’ingestion, l’indexation, la recherche, l’annotation et la découverte des données afin de maintenir des jeux de données de haute qualité.
Des exemples ci-dessous ressortent une constante partagée : la difficulté, accrue par la volumétrie et la variété, à transformer les données de l’entreprise en connaissance exploitable.
Voyons ensemble l’analyse et le contexte de ces grands du Web :
Uber
Chaque interaction sur la plate-forme Uber, qu’il s’agisse des VTC ou des livraisons de repas à domicile est basée sur les données. Grâce à leur analyse, les données permettent des expériences utilisateurs plus fiables et plus pertinentes.
Uber en chiffres, cela représente :
- des milliers de milliards de messages Kafka par jour,
- des centaines de pétaoctets de données dans HDFS dans des data centers,
- des millions de requêtes analytiques hebdomadaires.
Cependant, la volumétrie de données générée ne suffit pas à elle seule à tirer parti des informations qu’elles représentent ; pour être utilisées de manière efficace et efficiente, les données nécessitent plus de contexte pour prendre des décisions commerciales optimale.
Pour fournir des informations supplémentaires, Uber a donc développé “Databook”, la plateforme interne d’Uber qui collecte et gère les métadonnées sur les jeux de données internes, afin de transformer les données en connaissances.
La plateforme Databook est conçue pour permettre aux employés d’Uber d’explorer, de découvrir et d’utiliser efficacement les données de chez Uber.
Databook garantit le contexte sur les données – ce qu’elles signifient, leur qualité, etc. – pour les milliers de collaborateurs qui essaient de les analyser. En bref, les métadonnées de Databook permettent aux parties prenantes des données de passer de l’affichage de données brutes à des connaissances exploitables.
Dans l’article « Databook: Turning Big Data into Knowledge with Metadata at Uber », l’article conclut que l’un des plus gros défis du Databook était de passer d’une mise à jour manuelle du répertoire de métadonnées à l’automatisation.
Airbnb
Lors d’une conférence menée en mai 2017, John Bodley, Data Engineer chez AirBnB, exposait les nouvelles problématiques issues de la forte croissance de la société : celles d’un paysage confus et non unifié qui ne permettait pas d’accéder à l’information toujours plus importante.
Que faire de toutes ces données collectées quotidiennement ? Comment les transformer en une force pour tous les employés d’Airbnb ?
Une équipe dédiée s’est mise en ordre de bataille pour développer un outil qui démocratiserait l’accès aux données au sein de l’entreprise. Leur travail s’est à la fois fondé sur la connaissance des analystes et leur capacité à comprendre les points critiques et sur celle des ingénieurs, à même de proposer une vision plus technique de l’ensemble. Au cœur du projet, des interviews des employés et de leurs problématiques ont été menées.
De cette enquête est ressortie : une difficulté à trouver les informations dont les collaborateurs avaient besoin pour travailler, et des démarches encore trop tribales dans le partage et la détention d’informations.
Pour répondre à ces enjeux, AirBnB a créé le Data Portal, plateforme de gestion de métadonnées. Le Data Portal centralise et partage ces informations via cette plateforme en self-service.
Lyft
La société Lyft est un service de VTC. Sur le marché américain, elle est le principal concurrent d’Uber.
Lyft est partie d’un constat d’inefficience dans l’accès aux données pour ses profils analytiques. Ses réflexions se sont axées sur la mise à disposition de la connaissance des données pour optimiser ses processus. En quelques mois seulement, l’initiative de proposer une interface de recherche de données a porté des fruits concrets sur ces 2 grands défis :
La productivité – Que ce soit pour créer un nouveau modèle, instrumenter une nouvelle métrique ou effectuer une analyse ad hoc, comment Lyft peut utiliser ces données de la manière la plus productive et la plus efficace possible ?
La conformité – Lors de la collecte de données sur les utilisateurs d’une entreprise, comment Lyft peut se conformer aux exigences réglementaires croissantes et préserver la confiance de ses utilisateurs ?
Dans leur article Amundsen — Lyft’s data discovery & metadata engine, Lyft affirme que la clé ne réside pas dans les données, mais dans les métadonnées !
Netflix
En tant que leader mondial du streaming vidéo, l’exploitation des données chez Netflix est, bien évidemment, un axe stratégique majeur.
Compte tenu de la diversité des sources de données, la plateforme vidéo souhaitait proposer un moyen de fédérer et d’interagir avec ces assets depuis un même outil. Cette recherche de solution a abouti à Metacat.
Cet outil agit comme une couche d’accès aux données et métadonnées depuis les sources de données de Netflix. L’outil permet ses utilisateurs un accès aux données et ce, quelque soit leurs systèmes de stockage grâce à trois fonctionnalités différentes :
- L’ajout de métadonnées métier : à la main ou définies par les utilisateurs, des métadonnées métier peuvent être ajoutées via Metacat.
- La data discovery : l’outil publie des métadonnées de schéma et métier définies par ses utilisateurs dans Elasticsearch, facilitant ainsi la recherche en texte intégral d’informations dans les sources de données.
- La notification de modification de données et audits : Metacat enregistre et notifie toutes les changements apportés sur les métadonnées depuis les systèmes de stockage.
Dans l’article Metacat: Making Big Data Discoverable and Meaningful at Netflix, la firme confime qu’ils sont loin d’avoir fini ! Il y a quelques fonctionnalités supplémentaires sur lesquelles ils doivent encore travailler pour améliorer l’expérience data warehousing :
- Schéma pour fournir l’historique d’un tableau,
- Fournir des informations contextuelles sur les tableaux pour un meilleur data lineage,
- Ajouter un support pour les datastores comme Elasticsearch et Kafka.
Vous voulez en savoir plus sur les solutions de data discovery ?
Téléchargez notre livre blanc : « Le Data Discovery vu par les Géants du Web »
Dans ce livre blanc, nous faisons un focus sur le contexte et la mise en œuvre des solutions de data discovery développées par les grandes entreprises du web, dont certaines font partie du célèbre «Big Five» ou «GAFAM» (Google, Apple, Facebook, Amazon, Microsoft).