À propos du client
GEMA est une association allemande qui représente les intérêts de plus de 95 000 membres, comprenant des compositeurs, paroliers et éditeurs. Avec pour mission de garantir que les créateurs de musique gagnent ce qu’ils méritent, GEMA distribue les revenus des licences provenant de l’utilisation publique de la musique – concerts ainsi que toute forme d’utilisation en ligne, comme les streams, les téléchargements, les diffusions radio ou l’utilisation de musique dans des productions audiovisuelles – de manière équitable parmi ses membres. Alors que le secteur de la musique devient de plus en plus axé sur les données, GEMA doit relever le défi de gérer et traiter d’énormes volumes de data pour garantir une répartition équitable des revenus.
Données et chiffres clés
Création : 1947
Membres : +95 000 (2024)
Paiements aux détenteurs de droits : 1,082 milliard d’euros (2024)
Challenge
Un challenge majeur pour GEMA est de faire correspondre l’utilisation publique signalée de la musique à leur base de données des œuvres musicales. Dans ce processus, l’entreprise est confrontée à de grandes quantités de données. Chaque utilisation de musique signalée doit être traitée et préparée à des fins de répartition équitable.
En 2021, GEMA a entrepris des changements dans son data management pour relever des défis importants auxquels elle était confrontée tels que l’existence de silos de données, des volumes de données en augmentation et dont la complexité était croissante. Martin Zürn, Responsable de l’ingénierie des données chez GEMA, se souvient : « Nous avions des données en silos, il était difficile de les combiner et nous ne pouvions pas scaler une équipe centrale de données pour tout gérer. » GEMA avait besoin d’une solution qui pourrait décentraliser la gestion des données et les données accessibles dans toute l’organisation.
Un parcours vers la décentralisation des données
Pour relever ces défis, GEMA a entrepris un processus de décentralisation des données basé sur trois piliers :
1 – La construction du Data Lake
La première étape pour GEMA a été de construire une plateforme de données basée sur un data lake, intégrant les vingt systèmes les plus pertinents avec plus de cent utilisateurs dès la première année. Cette initiative a permis aux équipes métier de travailler de manière indépendante avec les données, marquant un changement significatif par rapport à la dépendance à une équipe centrale.
2 – La mise en œuvre d’un modèle de gouvernance décentralisé
Pour faire évoluer davantage la plateforme et permettre l’utilisation des données dans les rapports ainsi que leur consommation par d’autres systèmes informatiques, GEMA a introduit un modèle de gouvernance “lean”. Ce modèle intègre les idées modernes provenant des data products, du data mesh, de la data fabric, de l’architecture lakehouse et des data marts. Markus Zachai, Responsable de la gouvernance des données chez GEMA, souligne : « Nous avions besoin d’un modèle de gouvernance pour garantir la validité et l’exactitude des données. Une équipe centrale ne pourrait jamais scaler, alors nous avons adopté une approche décentralisée. » GEMA dispose désormais de rôles décentralisés dans toute l’organisation, où des acteurs gèrent les pipelines de données, d’autres les data products et leur contenu, et d’autres encore sont responsables des données dans un domaine spécifique.
3 – L’introduction du data catalog via la plateforme Zeenea
Une composante essentielle de la stratégie data de GEMA a été l’intégration du catalogue de métadonnées Zeenea. Le catalogue a facilité la création indépendante de data contracts et a permis une découverte efficace de toutes les données de la plateforme data de l’organisation. Martin souligne : « Zeenea s’est démarqué pour nous avec son interface simple, facile à utiliser. Cela a permis aux utilisateurs de comprendre facilement quels data products nous avons, leurs sources et qui contacter pour plus d’informations. »
Alors que GEMA voulait décentraliser la responsabilité des données dans l’organisation, Zeenea n’est pas seulement l’outil qui les a aidés, il s’agit d’un des fondements qui l’ont rendu possible.
La productisation des données de GEMA
Définition des data products
L’écosystème de données de GEMA s’appuie sur des data products, qui sont généralement développés autour de business objects et qui se composent d’une ou plusieurs tables. Les data products sont catégorisés en couches représentant différentes étapes du traitement des données :
Bronze : Une matière première, par exemple une copie brute d’une source de données.
Silver : Un bien intermédiaire, par exemple un ensemble de données dénormalisé et nettoyé.
Gold : Un bien de consommation à valeur commerciale tangible.
Rôles associés aux data products
Chaque data product est géré par :
Un Data Owner qui est responsable des données.
Un Data Steward qui possède la connaissance du domaine du data product spécifique.
Un Data Custodian qui est l’ingénieur mettant en œuvre le pipeline de données.
Étapes clés des data products
Dans l’année suivant le lancement de la plateforme, GEMA comptait plus de 35 sources de données et plus de 100 data products en production – soit en moyenne un nouveau data products tous les deux jours ouvrables. « Certains d’entre eux sont de faible complexité, mais nous voyons aussi beaucoup de data products de haute complexité, avec plus de mille lignes de code, » explique Markus.
L’aspect primordial pour GEMA est la réutilisabilité de chaque data product, permettant aux équipes métier de tirer parti des produits complexes pour divers cas d’usage. Le catalogue de données Zeenea sert d’interface pour les producteurs de data products chez GEMA, améliorant considérablement la gestion et l’utilisation des données dans toute l’organisation.
Quelques cas d’usage concrets
Un succès notable est la création de relevés de compte pour les membres de GEMA sur leur site web, une tâche qui était impossible à réaliser depuis des années avant la nouvelle plateforme de données. L’efficacité de la plateforme a permis à GEMA de développer ce cas d’usage en six mois. De plus, de nombreux produits intermédiaires développés au cours de ce processus ont été utilisés pour d’autres cas d’usage.
Au printemps 2024, plus de dix services commerciaux différents consommaient des data products de la plateforme, améliorant les services de reporting et permettant des usages avancés de machine learning. « Cela a été rendu possible grâce à la transparence apportée par notre data catalog, » conclut Markus.
Recommandations de GEMA pour la mise en œuvre d’un data mesh
Pour les organisations envisageant une approche data mesh, GEMA suggère les recommandations suivantes :
Un changement de mentalité : Considérez les données comme un actif business vital.
Une intégration transparente : Assurez-vous que toutes les composantes de la plateforme de données s’intègrent harmonieusement.
Des data products compréhensibles : Rendez les data products découvrables et bien marketés pour vos utilisateurs finaux.
Une “Single Source of Truth” : Déployez un data catalog (Zeenea) pour vos métadonnées afin d’avoir une vue d’ensemble complète des actifs de données.