smart data catalogs

Le terme “smart data catalog” est devenu tendance ces derniers mois. Cependant, lorsqu’on parle de quelque chose de “smart”, la plupart des gens pensent automatiquement, et à juste titre, à un catalogue de données ne comportant que des capacités de machine learning.

Chez Zeenea, nous ne pensons pas qu’un smart data catalog se résume à des fonctionnalités de ML !

En fait, il existe différentes façons d’être “smart”. 

Cet article se concentre sur la conférence que Guillaume Bodet, co-fondateur et PDG de Zeenea, a donnée lors du Data Innovation Summit 2020 : “Smart data catalogs, a must-have for data leaders”.

Une définition rapide de data catalog

Nous définissons un catalogue de données comme étant :

Un inventaire détaillé de tous les actifs de données d’une organisation et de leurs métadonnées, conçu pour aider les professionnels de la donnée à trouver rapidement les informations les plus appropriées pour tout objectif business et analytique.

Un data catalog est destiné à servir différentes personnes ou différents utilisateurs finaux. Tous ces utilisateurs finaux ont des attentes, des besoins, des profils et des façons de comprendre les données qui diffèrent. Ces utilisateurs finaux sont des data analysts, des data stewards, des data scientists, des business analysts, et bien d’autres encore. Comme de plus en plus de personnes utilisent et travaillent avec les données, un catalogue de données doit être “smart” pour tous les utilisateurs finaux.

Cliquez ici pour un article plus approfondi sur ce qu’est-ce qu’un data catalog.

Qu’entend-on par “actif de données” ?

Un actif, financièrement parlant, apparaît généralement dans le bilan avec une estimation de sa valeur. Lorsqu’on parle de d’actif de données ou “data assets”, il est tout aussi important, voire plus important dans certains cas, que les autres actifs de l’entreprise. Le problème est que la valeur des actifs de données n’est pas toujours connue. 

Cependant, il existe de nombreuses façons d’exploiter la valeur de vos données. Les entreprises ont la possibilité d’utiliser directement la valeur de leurs données, par exemple en les vendant ou en les échangeant. De nombreuses organisations le font ; elles nettoient les données, les structurent, puis les vendent.

Les entreprises peuvent également valoriser indirectement leurs données. Les actifs de données permettent aux organisations :

 

  • D’innover pour de nouveaux produits/services
  • Améliorer la performance globale
  • Améliorer le positionnement des produits
  • Mieux comprendre les marchés/clients
  • Accroître l’efficacité opérationnelle

Les entreprises performantes sont celles qui maîtrisent leur paysage de données et exploitent leurs données dans tous les aspects de leur activité

Les choses difficiles à propos des data catalogs…

Lorsque votre entreprise traite des milliers de données, cela signifie généralement que vous avez affaire à des :

  • Des centaines de systèmes qui stockent des données internes (entrepôts de données, applications, lacs de données, banques de données, API, etc.) ainsi que des données externes provenant de partenaires.
  • Des milliers de jeux de données, de modèles et de visualisations (actifs de données) qui sont composés de milliers de champs.
  • Et ces champs contiennent des millions d’attributs (ou métadonnées) !

Sans parler des centaines d’utilisateurs qui les utilisent…

Cela soulève deux questions différentes.  

Comment puis-je construire, maintenir et renforcer la qualité de mes informations pour que mes utilisateurs finaux aient confiance en mon catalogue ?

Comment puis-je trouver rapidement les données pour des cas d’utilisation spécifiques ?

La réponse se trouve dans les data catalogs intelligents !

Chez Zeenea, nous pensons qu’il y a cinq domaines essentiels “d’intelligence” pour un data catalog. Il doit être intelligent dans son :

 

  • Design : la façon dont les utilisateurs explorent le catalogue et consomment l’information,
  • Expérience utilisateur : comment il s’adapte à différents profils,
  • Inventaire : fournit un moyen intelligent et automatique d’inventorier,
  • Moteur de recherche : répond aux différentes attentes et donne des suggestions intelligentes,
  • Gestion des métadonnées : un catalogue qui marque et relie les données entre elles grâce à des fonctionnalités ML.

Voyons en détail chacun de ces domaines.

Un design intelligent

Un Knowledge Graph

Un data catalog avec une conception intelligente utilise des knowledge graphs plutôt que des ontologies statiques (une façon de classer l’information, la plupart du temps construite comme une hiérarchie).  Le problème avec les ontologies est qu’elles sont très difficiles à construire et à maintenir, et généralement seuls certains types de profils comprennent vraiment les différentes classifications.

 Un knowledge graph en revanche, est ce qui représente les différents concepts d’un data catalog et ce qui relie les objets entre eux par des liens sémantiques ou statiques. L’idée d’un knowledge graph est de construire un réseau d’objets et, plus important encore, de créer des relations sémantiques ou fonctionnelles entre les différents actifs de votre catalogue.

Fondamentalement, un data catalog intelligent fournit aux utilisateurs un moyen de trouver et de comprendre les objets liés entre eux.

Métamodèles adaptatifs

Dans un data catalog, les utilisateurs trouveront des centaines de propriétés différentes, qui ne sont pas forcément toujours pertinentes pour eux. Généralement, deux types d’informations sont gérés :

  1. Entités : objets simples, entrées de glossaire, définitions, modèles, descriptions, etc.
  2. Propriétés : les attributs que vous mettez sur ces entités (toute information supplémentaire telle que la date de création, la date de dernière mise à jour, etc.)

La conception du métamodèle doit être au service du consommateur de données. Il doit être adaptée aux nouvelles analyses de rentabilité et doit être suffisamment simple à gérer pour que les utilisateurs puissent le maintenir et le comprendre. Il doit également pouvoir fournir une manière simple pour créer de nouveaux types d’objets et ensembles d’attributs !

Attributs sémantiques

La plupart du temps, dans un data catalog, les attributs du métamodèle sont des propriétés techniques. Certains des attributs d’un objet comprennent des types génériques tels que texte, nombre, date, liste de valeurs, etc. Comme ces informations sont nécessaires, elles ne sont pas complètement suffisantes car elles n’ont pas d’informations sur la sémantique, ou la signification. La raison pour laquelle cela est important est qu’avec ces informations, le catalogue peut adapter la visualisation de l’attribut et améliorer les suggestions aux utilisateurs.

En conclusion, il n’existe pas de design unique d’un data catalog, et celui-ci doit évoluer dans le temps pour prendre en charge de nouvelles évolutions data et de nouveaux cas d’utilisation.

knowledge-graph

Une expérience utilisateur intelligente

Comme mentionné ci-dessus, un data catalog contient beaucoup d’informations et les utilisateurs finaux ont souvent du mal à trouver celles qui les intéressent. Les attentes diffèrent selon les profils ! Un data scientist s’attend à des informations statistiques, tandis qu’un responsable de la conformité s’attend à des informations sur diverses politiques réglementaires.

Avec une expérience utilisateur intelligente et adaptative, un data catalog présentera les informations les plus pertinentes à des utilisateurs finaux spécifiques. La hiérarchie des informations et les résultats de recherche ajustés dans un data catalog intelligent sont basés sur :

 

  • Préférences statiques : des informations déjà connues dans le data catalog au paramétrage. Il sait si le profil est davantage axé sur la science des données, l’IT, etc.
  • Le profilage dynamique : technique pour connaître ce que l’utilisateur final recherche habituellement, ses intérêts et la façon dont il a utilisé le catalogue dans le passé.

Un système d’inventaire intelligent

L’adoption d’un catalogue de données repose sur la confiance – et la confiance ne peut venir que si son contenu est juste. Comme le paysage des données évolue rapidement, il doit être connecté à des systèmes opérationnels pour maintenir le premier niveau d’information sur les métadonnées de votre patrimoine de données.

Le catalogue doit synchroniser son contenu avec le contenu actuel des systèmes opérationnels.

L’architecture typique d’un data catalog est de disposer de scanners qui scannent vos systèmes opérationnels et qui apportent et synchronisent les informations provenant de diverses sources (Big Data, noSQL, Cloud, Data Warehouse, etc.). L’idée est de disposer d’une connectivité universelle afin que les entreprises puissent scanner automatiquement tout type de système et les placer dans le knowledge graph.

Dans Zeenea, il y a une couche d’automatisation pour ramener les informations des systèmes au catalogue. Elle peut :

  • Mettre à jour les actifs pour refléter les changements physiques
  • Détecter les biens supprimés ou déplacés
  • Résoudre les liens entre les objets
  • Appliquer des règles pour sélectionner l’ensemble approprié d’attributs et définir les valeurs des attributs
smart-inventorying-zeenea

Un moteur de recherche intelligent

Dans un data catalog, le moteur de recherche est l’une des caractéristiques les plus importantes. On distingue deux types de recherche :

  • La recherche à haute intention : l’utilisateur final sait déjà ce qu’il cherche et dispose d’informations précises sur sa requête. Soit il a déjà le nom de l’ensemble de données, soit il sait déjà où il se trouve. Les recherches à faible intention sont couramment utilisées par les personnes ayant déjà des connaissances sur les données d’entreprise.
  • Recherche à faible intention : l’utilisateur final n’est pas exactement sûr de ce qu’il cherche, mais veut découvrir ce qu’il pourrait utiliser dans son contexte. Les recherches sont effectuées par mots clés et les utilisateurs s’attendent à ce que les résultats les plus pertinents apparaissent. 

Un catalogue de données intelligent doit prendre en charge ces deux types de recherche !

Il doit également permettre un filtrage intelligent. C’est un complément nécessaire à l’expérience de recherche de l’utilisateur (en particulier la recherche à faible intention), lui permettant de restreindre ses résultats de recherche en excluant les attributs non pertinents. Tout comme de nombreuses grandes entreprises comme Google, Booking.com et Amazon, les options de filtrage doivent être adaptées au contenu de la recherche et au profil de l’utilisateur afin que les résultats les plus pertinents apparaissent. 

Gestion des métadonnées intelligente

La gestion des métadonnées intelligente (ou smart metadata management) est généralement ce que nous appelons le “data catalog augmenté”, qui possède des capacités de machine learning permettant de détecter certains types de données, d’ajouter des tags ou des règles statistiques sur les données.

Une façon de rendre la gestion des métadonnées intelligente est d’appliquer la reconnaissance des patterns data. Elle consiste à être capable d’identifier des actifs similaires et de s’appuyer sur des algorithmes statistiques et de capacités de ML qui sont dérivés d’autres patterns de reconnaissance.

Ce système de reconnaissance des patterns data aide les data stewards à paramétrer leurs métadonnées :

  • Identifier les doublons et copier les métadonnées
  • Détecter les types de données logiques (e-mails, ville, adresses, etc.)
  • Suggérer des valeurs d’attribut (reconnaître des modèles de documentation à appliquer à un objet similaire ou à un nouvel objet)
  • Suggérer des liens – sémantiques ou lineage
  • Détecter les erreurs potentielles afin d’améliorer la qualité et la pertinence du catalogue

Elle aide également les consommateurs de données à trouver leurs informations. L’idée est d’utiliser certaines techniques dérivées de recommandations, basées sur le contenu que l’on trouve dans les catalogues d’usage général. Lorsque l’utilisateur a trouvé quelque chose, le catalogue lui propose des alternatives basées à la fois sur son profil et sur la reconnaissance de patterns .

Démarrez avec Zeenea Data Catalog

Zeenea est une solution 100% cloud, disponible partout dans le monde, en quelques clics. En choisissant Zeenea Data Catalog, maîtrisez les coûts liés à l’implémentation et à la maintenance d’un data catalog tout en simplifiant son accès par vos équipes.

Les mécanismes d’alimentation automatique, ainsi que les algorithmes de suggestion et de correction, permettent de réduire le coût global du catalogue, et de garantir la qualité des informations qu’il contient pour vos équipes data en un temps record.

  •  
  •  
  •  
  •