Un catalogue de données est un portail regroupant les métadonnées sur les jeux de données collectés par l’entreprise. Ces informations classées et organisées permettent aux data users de (re)trouver des jeux de données pertinents pour leur travail.
Pourquoi les catalogues de données sont-ils en vogue ?
Un catalogue de données (ou data catalog) est un inventaire détaillé de tous les actifs de données d’une organisation et de leurs métadonnées. Celui-ci est conçu pour aider les professionnels de la donnée à trouver rapidement les informations les plus appropriées pour tout objectif business et analytique.
Un catalogue de données est destiné à servir différentes personnes ou différents utilisateurs finaux : des data analysts, des data stewards, des data scientists, des data owners ou des business analysts notamment.
Tous ces utilisateurs ont des attentes, des besoins, des profils et des façons de comprendre les données qui diffèrent. Un data catalog se doit d’être smart, c’est à dire d’offrir une expérience permettant d’exploiter pleinement la valeur des données. Ce sans quoi l’usage des data catalogs se révélera complexe.
Maîtriser la complexité des catalogues de données …
Les entreprises qui traitent des volumes importants de données ont affaire à des centaines de systèmes qui stockent des données internes (entrepôts de données, applications, lacs de données, banques de données, API, etc.) ainsi que des données externes provenant de partenaires.
Ces milliers de jeux de données, de modèles et de visualisations (actifs de données) sont composés de milliers de champs. Et ceux-ci contiennent des millions d’attributs ou métadonnées.
Une configuration qui soulève deux questions différentes
Comment peut-on construire, maintenir et renforcer la qualité de ses informations pour que les utilisateurs finaux aient confiance en leur catalogue ?
Comment trouver rapidement les données pour des cas d’utilisation spécifiques ?
Une nouvelle vague de catalogues de données apparaît sur le marché. On parle de self-service de la donnée ou de pure player. Zeenea a identifié les 4 caractéristiques que doit respecter un catalogue de données nouvelle génération.
Un catalogue de donnée d’entreprise.
Un catalogue de données doit se connecter à toutes les sources de données de l’entreprise pour venir collecter et regrouper toutes les métadonnées en un seul endroit centralisé et ainsi, éviter la multiplication d’outils.
Un catalogue de données connecté.
Nous croyons qu’un catalogue de données doit toujours être à jour et précis sur les informations qu’il renseigne pour être utile auprès de ses utilisateurs. En étant connecté aux sources de données, le catalogue de données peut importer la documentation depuis les systèmes de stockage et assurer une mise à jour automatique des métadonnées dans les deux structures (storages et catalogue de données).
Un catalogue de données collaboratif.
Dans une approche user centric, un catalogue de données doit être l’outil data de référence d’une entreprise. En impliquant les employés grâce à des fonctionnalités collaboratives, l’entreprise bénéficie de l’intelligence collective. Partager, assigner, commenter, qualifier à l’intérieur même du catalogue de données pour augmenter la productivité et la connaissance auprès de tous vos collaborateurs.
Un catalogue de données intelligent.
En choisissant un catalogue de données doté d’une intelligence artificielle pour l’auto-population de métadonnées, par exemple, c’est permettre à vos gestionnaires de données de gagner en efficacité.
En savoir plus sur les modern data catalogs, suivez-nous sur LinkedIn.