L’arrivée du Big Data n’a simplifié en rien le travail effectué sur les données par les entreprises. Le volume, la variété ou encore les différents systèmes de stockage de la donnée explosent.

Pour preuve, Matt Turck publie ce qu’on appelle le Big Data Landscape. Mise à jour chaque année, cette infographie montre les différents acteurs clés dans divers sous-domaines du paysage Big Data.

 Matt-Turck-FirstMark-Big-Data-Landscape-2018-reduced-fr

Ainsi, avec la révolution du Big Data, il est encore plus difficile de répondre à des questions “primaires” liées à la cartographie des données :

 

  • Quelles sont les jeux de données et les tables les plus pertinent.e.s pour mes use cases et mon entreprise ?

  • Est-ce que j’ai des données sensibles ? Comment sont-elles utilisées ?

  • D’où vient la donnée ? Quelles ont été ses transformations ?

  • Quelles vont être les impacts sur les jeux de données en cas de transformations ?

Tant de questions qu’un Responsable SI, Responsable Data Lab, Business Analyst ou encore Data Scientist se posent pour rendre un travail sur la donnée pertinent et efficace.

Ces questions mises en exergue permettent, entre autres, de :

  • Améliorer la data quality : renseigner un maximum d’informations permet aux utilisateurs de savoir si les données sont aptes à être utilisées.

  • Être conforme à la réglementation européenne (GDPR) : marquer les données personnelles et les traitements effectués dessus.

  • Rendre les collaborateurs plus efficaces et autonomes dans la compréhension des données grâce à une cartographie des données graphique et ergonomique.

Pour formaliser ces réponses, les entreprises doivent construire ce qu’on appelle un data lineage.

VOIR LA VIDÉO DE LA CONFÉRENCE DATA LINEAGE – CARTOGRAPHIER LES DONNÉES DE SON SI

Ce registre de traitement peut être vue comme une opportunité pour le Big Data ! En répondant aux questions ci-dessus, les entreprises pourront créer une traçabilité sur leurs données au sein des environnements Big Data et obtenir ce que l’on nomme un data lineage. Cet outil permettra de s’assurer que les entreprises respectent bien les principes de finalité et de minimisation de la GDPR.

De plus,  être bien organisé et maintenir une traçabilité de ses données est une excellente chose pour la productivité en générale, notamment les data scientists. Ils pourront plus facilement accéder :

  •  
  •  
  •  
  •