Zeenea - Data Innovation Summit 2022

Qu’est-ce qui rend un data catalog « smart » (malin) ? n°2 – L’inventaire des données

février 16, 2022
février 16, 2022
16 février 2022

Un data catalog consolide des millions d’informations de nature très diverses – et ce volume croît de façon exponentielle. Cette volumétrie d’informations va soulever deux challenges majeurs : 

  • Comment alimenter et maintenir ce volume d’information sans exploser le coût de gestion des métadonnées ? 
  • Comment trouver le jeu de données le plus pertinent pour un cas d’usage donné ?

Chez Zeenea, nous pensons qu’un data catalog doit être smart pour répondre à ces 2 questions, via des dispositifs technologiques et conceptuels que l’on qualifie de malins qui ne se cantonnent pas pas à l’intégration d’algorithmes d’intelligence artificielle. 

En ce sens, nous avons identifié 5 domaines dans lesquels un data catalog peut être Smart – la plupart ne faisant pas appel au machine learning : 

  1. La modélisation du métamodèle 
  2. L’inventaire des données 
  3. La gestion de métadonnées 
  4. Le moteur de recherche
  5. L’expérience utilisateur

Le second domaine sur lequel un data catalog peut être smart, c’est l’inventaire. Rappelons-le : un data catalog est fondamentalement un inventaire aussi exhaustif que possible des actifs informationnels, complété d’un ensemble de métadonnées permettant d’exploiter de façon optimale les actifs en question. Tout effort de mise en place d’un catalogue de données repose donc en premier lieu sur un inventaire des actifs présents dans les différents systèmes.

Le défi de l’automatisation de l’inventaire

Aussi bien pensée soit-elle, l’approche déclarative pour la construction de l’inventaire ne nous semble pas spécialement smart. Elle requiert une charge de travail conséquente pour initialiser le catalogue, et oblige à un travail constant et passablement rébarbatif pour le maintenir à jour – dans un univers digital en perpétuelle évolution, l’inventaire initial est rapidement frappé d’obsolescence.

Le premier moyen pour réaliser un inventaire de façon maline, c’est bien sûr de l’automatiser. À de rares exceptions près, les jeux de données d’une entreprise sont gérés par des systèmes spécialisés, qui vont du système de fichiers distribué aux ERPs en passant par des bases de données relationnelles ou non, des progiciels, des dataware houses, etc. Tous ces systèmes maintiennent, d’une façon ou d’une autre, un registre des données qu’ils gèrent, et un ensemble de métadonnées nécessaires à leur bon fonctionnement.

Inutile donc de recréer manuellement ces informations : il suffit de se connecter aux différents registres, et de synchroniser le contenu du catalogue avec celui des systèmes source. Le principe est simple, la réalisation nettement plus délicate. En effet, il n’existe aucun standard auquel se conformeraient les différentes technologies pour offrir une méthode universelle d’accès à leur métadonnées.

Le rôle essentiel de la connectivité aux systèmes sources

Une couche de connectivité maline est donc constitutive du Smart Data Catalog. Pour une description plus poussée de la technologie de Zeenea en matière de connectivité, je vous renvoie de nouveau à notre précédent livre blanc, les 5 ruptures technologiques d’un data catalog de nouvelle génération. Rappelons simplement ici ses principales caractéristiques, elle est :

  • Propriétaire – nous ne nous reposons pas sur une solution tierce, pour conserver son ultra-spécialisation sur la récupération de métadonnées.
  • Distribuée – pour ne pas limiter la portée du catalogue.
  • Ouverte – quiconque voulant l’enrichir peut développer simplement ses propres connecteurs.
  • Universelle – elle permet de synchroniser n’importe quelle source de métadonnées

Cette production de métadonnées nécessite non plus simplement l’accès aux registres des systèmes sources, mais aux données elles-mêmes, qui vont être analysées par nos scanners pour enrichir automatiquement le catalogue.

À ce jour, nous produisons deux types de métadonnées :

  • De l’analyse statistique qui permet de construire le profil des données – distribution des valeurs, taux de valeurs nulles, top valeurs, etc. (la nature de ces métadonnées dépend bien sûr du type natif des données analysées) ;

  • De l’analyse structurelle pour déterminer le type fonctionnel de certaines données textuelles (email, adresse postale, numéro de sécurité sociale, code client, etc. – le système est extensible et personnalisable).

Le mécanisme d’inventaire doit lui aussi être malin

Outre la connectivité, qui permet d’alimenter automatiquement le catalogue avec les actifs contenus dans les différents systèmes, notre mécanisme d’inventaire est lui-même smart en plusieurs points :

  • La détection des jeux de données s’appuie sur une grande connaissance des structures de stockage, notamment dans des contextes Big Data. Par exemple, un jeu de données IoT constitué de milliers de fichiers de mesures time series sera bel et bien identifié comme un jeu de données unique ;
  • L’inventaire n’est pas par défaut directement intégré dans le catalogue, pour éviter d’importer des jeux de données techniques ou temporaires, dont la présence dans le catalogue est généralement inutile (soit parce-que les données ne sont pas exploitables, soit parce qu’elles sont redondantes) ;

  • La sélection des actifs à importer dans le catalogue est elle- même assistée – nous nous efforçons d’identifier les objets les plus susceptibles d’intégrer le catalogue, en utilisant plusieurs approches complémentaires pour réaliser cette sélection.
post-wp-smart-data-catalog-fr

Pour comprendre comment un inventaire de données “smart” (malin) renforce les capacités d’un data catalog, téléchargez notre eBook :

“Qu’est-ce qu’un Smart Data Catalog ?” dès maintenant!

zeenea logo

At Zeenea, we work hard to create a data fluent world by providing our customers with the tools and services that allow enterprises to be data driven.

zeenea logo

Chez Zeenea, notre objectif est de créer un monde “data fluent” en proposant à nos clients une plateforme et des services permettant aux entreprises de devenir data-driven.

zeenea logo

Das Ziel von Zeenea ist es, unsere Kunden "data-fluent" zu machen, indem wir ihnen eine Plattform und Dienstleistungen bieten, die ihnen datengetriebenes Arbeiten ermöglichen.

Related posts

Articles similaires

Ähnliche Artikel

Be(come) data fluent

Read the latest trends on big data, data cataloging, data governance and more on Zeenea’s data blog.

Join our community by signing up to our newsletter!

Devenez Data Fluent

Découvrez les dernières tendances en matière de big data, data management, de gouvernance des données et plus encore sur le blog de Zeenea.

Rejoignez notre communauté en vous inscrivant à notre newsletter !

Werden Sie Data Fluent

Entdecken Sie die neuesten Trends rund um die Themen Big Data, Datenmanagement, Data Governance und vieles mehr im Zeenea-Blog.

Melden Sie sich zu unserem Newsletter an und werden Sie Teil unserer Community!

Let's get started
Make data meaningful & discoverable for your teams
Learn more >

Los Geht’s!

Geben Sie Ihren Daten einen Sinn

Mehr erfahren >

Démarrez maintenant
Donnez du sens à votre patrimoine de données
En savoir plus >