Les data lakes offrent un stockage illimité pour les données et présentent de nombreux avantages pour les data scientists dans l’exploration et la création de nouveaux modèles analytiques. Cependant, ces données structurées, non structurées et semi-structurées sont mélangées et la valeur business qu’elles contiennent est souvent négligée ou mal comprise par les utilisateurs data.
L’explication est simple: les technologies utilisées pour mettre en œuvre des data lakes n’ont pas les capacités d’information nécessaires. Il est donc essentiel que les entreprises mettent en place une gestion des métadonnées efficace qui prend en compte la découverte des métadonnées, le catalogage des données et une gestion des métadonnées au niveau de l’entreprise en fonction du data lake.
2020 est l’année où la plupart des cas d’usage de données et analytics nécessiteront une connexion à des sources de données distribuées, ce qui amènera les entreprises à doubler leurs investissements dans la gestion des métadonnées. – Gartner 2019.
Comment exploiter votre data lake avec la gestion des métadonnées
Afin de produire de la valeur avec leurs données, les entreprises se doivent de disposer à la fois d’utilisateurs qualifiés (tels que des data scientists ou des citizen data scientists) et d’une stratégie de metadata management. Pour commencer, une organisation pourrait se concentrer sur un jeu de données (et ses métadonnées) spécifique. Ensuite, il faudrait exploiter ces métadonnées au fur et à mesure que d’autres données sont ajoutées au data lake. La mise en place d’une gestion des métadonnées peut faciliter cette tâche pour les utilisateurs du data lake.
Voici les principales actions à mener pour une gestion des métadonnées réussie:
La création d’un référentiel de métadonnées
La mise en place d’une sémantique est essentielle pour découvrir les métadonnées d’entreprise. La découverte de métadonnées ou “metadata discovery” est définie comme le processus de découverte d’informations sur un jeu de données. Ce processus aboutit généralement à un ensemble de mapping entre différents éléments data dans un référentiel de métadonnées centralisé. Cela permet aux data scientists de comprendre leurs données et d’avoir une visibilité sur leurs fiabilité, leurs dernière mise à jour, etc.
L’automatisation de la découverte des métadonnées
Étant donné le nombre et la diversité des données données ajoutées quotidiennement à un data lake, maintenir l’ingestion peut être une tâche chronophage ! En utilisant des solutions automatisées, il est plus facile pour les équipes du data lake de maintenir cette source compréhensible dans le temps et pour les data scientists ou les CDS de trouver et découvrir leurs les bonnes informations sous la forme de métadonnées.
Cataloguer ses données
Un data catalog est constitué de métadonnées dans lesquelles sont stockés divers objets, catégories, propriétés et champs. Le catalogage des données est utilisé à la fois pour les données internes et externes (provenant de partenaires ou de fournisseurs par exemple). Dans un data lake, il est utilisé pour capturer un ensemble d’attributs pour chaque élément du data lake et enrichit le catalogue de métadonnées en exploitant ces actifs d’information. Cela permet aux utilisateurs de la data science d’avoir une vue sur les données avec lesquelles ils s’apprêtent à travailler : provenance, qualité, leur dernière mise à jour.
Avoir une gouvernance des données et analytics
La gouvernance des données et l’analytique sont des cas d’usage importants lorsqu’il s’agit de la gestion des métadonnées. Appliquée aux data lakes, la question « pourrait-elle être exposée ? » doit devenir un élément essentiel du modèle de gouvernance de l’organisation. Les entreprises doivent donc étendre leurs modèles de gouvernance existants pour traiter des cas d’usage spécifiques à l’analyse business et de data science construits sur les data lakes. La gestion des métadonnées d’entreprise permet de mieux comprendre les règles de gouvernance actuelles liées à des actifs d’entreprise stratégiques.
Contrairement aux approches traditionnelles, l’objectif principal de la gestion des métadonnées est de favoriser une approche consistante à la gestion des informations. Plus la sémantique des métadonnées est cohérente pour l’ensemble du patrimoine de données, plus la cohérence et la compréhension sont grandes, ce qui permet d’exploiter la connaissance autour des données à l’ensemble de l’entreprise.
Démarrer une gestion des métadonnées avec Zeenea
Comme mentionné ci-dessus, la mise en œuvre de la gestion des métadonnées dans votre stratégie de data management est non seulement bénéfique, mais aussi essentielle pour les entreprises qui cherchent à créer de la valeur business avec leurs données. Les équipes de data science travaillant avec des quantités de données variées dans un data lake ont besoin de solutions adaptées pour pouvoir comprendre et faire confiance à leurs informations. Pour soutenir cette discipline émergente, Zeenea vous donne tout ce dont vous avez besoin pour collecter, mettre à jour et exploiter vos métadonnées grâce à sa plateforme nouvelle génération !