data-lineage

Data lineage dans un environnement Big Data ?

mars 1, 2018
mars 1, 2018
01 mars 2018

Le data lineage est défini comme le cycle de vie de la donnée. Il veut être une représentation détaillée de la donnée dans le temps : origine, provenance et transformations. Cette notion est loin d’être nouvelle, pourtant un nouveau paradigme s’opère…

[À voir] Cartographie des données : quels enjeux pour les entreprises ?

Dans le monde du Data Warehouse, par exemple, le data lineage était assez simple à obtenir. Ce système de stockage centralisé permettait “by design” d’obtenir assez simplement un data lineage des données stockées dans ce même endroit.

Depuis l’arrivée du Big Data, l’écosystème data évolue vite, des technologies et systèmes de stockage variés apparaissent complexifiant le SI des entreprises.

Il est devenu impossible de garder, ni d’imposer, un outil centralisé et unique dans l’entreprise. Les logiciels et méthodes utilisés par les urbanistes et architectes SI de “l’ancien monde” deviennent de moins en moins maintenables rendant leur travail vite obsolète et illisible.

 

Alors comment visualiser un data lineage efficace et performant dans un environnement Big Data ? 

Afin d’avoir une vision globale des données du SI de l’entreprise, des nouveaux outils apparaissent. On parle de catalogue de données d’entreprise. Il permet de faire remonter depuis tous les systèmes de stockage et de traitement de la donnée un maximum de métadonnées dans une interface “user-friendly”. Centralisant l’ensemble de ces informations, il devient possible de créer un data lineage dans un environnement Big Data à différents niveaux :

 

  • Au niveau jeux de données. Il peut s’agir d’une table dans Oracle, un topic dans Kafka ou encore d’un répertoire dans le data lake. Il met en évidence les traitements et jeux de données qui ont permis de créer le jeu de donnés final.

Toutefois, ce standard de data lineage ne permet pas, à lui seul, de répondre à l’ensemble des questions que les utilisateurs de la donnée se posent. Il reste, entre autres : la question sur des données sensibles ? Quelle colonne a été créée et par quels traitements ? etc.

 

  • Au niveau colonne. Une manière plus granulaire d’aborder ce sujet est de représenter les différentes étapes de transformations d’un jeu de données sous une timeline d’actions / évènements. En sélectionnant un champ spécifique, je vais pouvoir voir quelles sont les colonnes et actions qui ont permises de le créer.

Accédez à la video de la conférence et les slides

Ce talk présenté par Matthieu Blanc – VP Product de Zeenea – lors de la conférence DataXDay offre un aperçu et des pistes de reflexion. Pour voir sa conférence et télécharger les slides, ça se passe sur ce lien Conférence data lineage.

zeenea logo

At Zeenea, we work hard to create a data fluent world by providing our customers with the tools and services that allow enterprises to be data driven.

zeenea logo

Chez Zeenea, notre objectif est de créer un monde “data fluent” en proposant à nos clients une plateforme et des services permettant aux entreprises de devenir data-driven.

zeenea logo

Das Ziel von Zeenea ist es, unsere Kunden "data-fluent" zu machen, indem wir ihnen eine Plattform und Dienstleistungen bieten, die ihnen datengetriebenes Arbeiten ermöglichen.

Related posts

Articles similaires

Ähnliche Artikel

Be(come) data fluent

Read the latest trends on big data, data cataloging, data governance and more on Zeenea’s data blog.

Join our community by signing up to our newsletter!

Devenez Data Fluent

Découvrez les dernières tendances en matière de big data, data management, de gouvernance des données et plus encore sur le blog de Zeenea.

Rejoignez notre communauté en vous inscrivant à notre newsletter !

Werden Sie Data Fluent

Entdecken Sie die neuesten Trends rund um die Themen Big Data, Datenmanagement, Data Governance und vieles mehr im Zeenea-Blog.

Melden Sie sich zu unserem Newsletter an und werden Sie Teil unserer Community!

Let's get started
Make data meaningful & discoverable for your teams
Learn more >

Los geht’s!

Geben Sie Ihren Daten einen Sinn

Mehr erfahren >

Soc 2 Type 2
Iso 27001
© 2024 Zeenea - All Rights Reserved
Soc 2 Type 2
Iso 27001
© 2024 Zeenea - All Rights Reserved
Démarrez maintenant
Donnez du sens à votre patrimoine de données
En savoir plus
Soc 2 Type 2
Iso 27001
© 2024 Zeenea - Tous droits réservés.