Posséder d’importants volumes de données, c’est bien. Les exploiter au quotidien avec pragmatisme, intelligence et finesse, c’est mieux ! Pour y parvenir, il faut distiller une véritable culture data au sein de votre entreprise. Le socle de cette culture, c’est la data curation.
90% des données mondiales ont été créées au cours des deux dernières années. Avec la croissance exponentielle des appareils connectés, les entreprises seront confrontées à une funeste réalité : notre capacité à créer des données surpassera de très loin notre capacité à les gérer et à les exploiter.
Et cela ne risque pas de s’arranger ! Selon les estimations publiées dans le Digital Economy Compass 2020 de Statista, le volume annuel de données numériques créées à l’échelle mondiale a été multiplié par plus de vingt au cours de la dernière décennie et dépassera le seuil des 50 zettaoctets en 2021 !
Dans ce contexte, rien d’étonnant à ce que la plupart des entreprises ne soient actuellement en mesure d’analyser que 12 % des données dont elles disposent ! Car, derrière la collecte, le stockage et la sécurisation de la donnée, il y a surtout la valeur business que l’on est susceptible d’en tirer.
C’est tout l’enjeu auquel répond le concept de Data Curation (curation des données en français) : l’étape essentielle pour exploiter le potentiel d’un patrimoine de données abondant d’une organisation.
Data Curation : une tentative de définition
Si l’on s’en réfère à la définition qu’en donne l’INIST (Institut de l’Information Scientifique et Technique) qui est rattaché au CNRS,
« On désigne par curation l’ensemble des activités et opérations nécessaires à une gestion active des données de recherche numérique, tout au long de leur cycle de vie. L’objectif est de les rendre accessibles, partageables et réutilisables de façon pérenne. Trois intervenants peuvent être identifiés dans le cycle de vie de données : les créateurs, le plus souvent les chercheurs, les « curateurs » et les utilisateurs ».
En d’autres termes, la curation de données est une tâche qui consiste à identifier dans un catalogue de données celles qui peuvent être valorisées, exploitées et dans un deuxième temps, les mettre à la disposition des utilisateurs susceptibles d’en tirer les meilleurs enseignements.
Pour mettre en place une Data Curation efficace et pertinente, il faut commencer par s’adosser sur une cartographie précise de la donnée disponible. Cette cartographie initiale, constitue le socle d’une gouvernance des données pragmatique et opérationnelle.
Une fois les règles de gouvernance établies, c’est vers l’utilisateur des données qu’il faut concentrer toutes les attentions. La Data est un minerai qui ne vaut que s’il est convenablement valorisé. Or, cette valorisation doit être pensée comme une réponse à des besoins de l’utilisateur.
C’est ce dernier qui est à l’origine du projet de curation des données.
Un processus itératif et continu au service de l’exploitation de la data, distinct de toutes les tâches essentielles à la gouvernance des données (de la gestion de la qualité en passant par leur protection et jusqu’à la gestion du cycle de vie des données).
Data Curation : des prérequis indispensables, des bénéfices indéniables
La Data Curation est une perspective de développement rapide et massif de la culture data au sein de votre organisation. La constitution d’un plan de gestion et de curation des données permet tout d’abord de recenser les données produites. Il est alors possible de sélectionner les plus pertinentes et de les enrichir des métadonnées nécessaires à leur compréhension et à leur réutilisation, y compris par des utilisateurs métier.
Chacun dans l’entreprise peut alors, fonder ses choix, ses décisions, ses stratégies et méthodes sur la base d’un recours systématique à la donnée, sans avoir à disposer de compétences spécifiques.
L’objectif : créer les conditions d’un recours systématique à la data pour fonder tout projet, toute démarche, et ne pas limiter son exploitation aux seules équipes Data Science ou expertes en matière de données.
Pour déployer efficacement votre stratégie de curation des données, vous devrez donc, vous appuyer sur des éléments essentiels à la bonne gestion de vos actifs data. Le cœur du réacteur ne se cantonne pas aux data catalogs !
S’ils sont indispensables et découlent directement de votre travail de cartographie de la data, la gouvernance des métadonnées joue de son côté, un rôle encore plus crucial. Grâce à ces métadonnées, les utilisateurs peuvent plus facilement interagir avec les portefeuilles de données et ce, en langage naturel.
Grâce à la curation des données, inscrivez pour de bon dans une dynamique data-driven !