Über unseren Kunden
Die GEMA ist ein deutscher Verein, der die Interessen von über 95.000 Mitgliedern vertritt, darunter Komponisten, Textdichter und Verleger. Die GEMA hat es sich zur Aufgabe gemacht, dafür zu sorgen, dass Musikschaffende das verdienen, was ihnen zusteht. Sie verteilt die Lizenzeinnahmen aus der öffentlichen Musiknutzung – Konzerte sowie jede Form der Online-Nutzung, einschließlich Streams, Downloads, Radiosendungen oder die Verwendung von Musik in audiovisuellen Produktionen – gerecht unter ihren Mitgliedern. Da das Musikgeschäft zunehmend zu einem Datengeschäft wird, steht die GEMA vor der Herausforderung, riesige Datenmengen zu verwalten und zu verarbeiten, um eine gerechte Verteilung der Einnahmen zu gewährleisten.
Zahlen & Fakten
Gründungsjahr: 1947
Mitgliederzahl: 95,000+ (2024)
Auszahlungen an Rechteinhaber weltweit: 1.082 Milliarden euros (2024)
Challenge
Eine zentrale Herausforderung für die GEMA ist der Abgleich der gemeldeten öffentlichen Musiknutzung mit ihrer Musik Werkdatenbank. Dabei wird sie mit großen Datenmengen konfrontiert. Jede gemeldete Musiknutzung muss verarbeitet und für die gerechte Verteilung aufbereitet werden.
Im Jahr 2021 hat sich die GEMA auf eine Datenreise begeben, um große Herausforderungen wie Datensilos, wachsende Datenmengen und zunehmende Komplexität zu bewältigen. Martin Zürn, Head of Data Engineering bei der GEMA, erinnert sich: „Wir hatten Daten in Silos, es war schwierig, sie zu kombinieren, und wir konnten kein zentrales Datenteam aufstellen, um alle Daten zu verarbeiten.“ Die GEMA benötigt also eine Lösung, die das Datenmanagement dezentralisiert und die Daten unternehmensweit zugänglich macht.
Eine mühsame Reise zur Dezentralisierung der Daten
Um diese Herausforderungen zu bewältigen, hat die GEMA einen Weg zur Dezentralisierung der Daten eingeschlagen, der auf drei Säulen beruht:
1 – Aufbau eines Data Lake
In einem ersten Schritt baute die GEMA eine Datenplattform auf, die auf einem Data Lake basiert und innerhalb des ersten Jahres die zwanzig wichtigsten Systeme mit über hundert Nutzern integrierte. Durch diese Initiative wurden die Geschäftsbereiche in die Lage versetzt, eigenständig mit Daten zu arbeiten, was eine deutliche Abkehr von der Abhängigkeit von einem zentralen Datenteam bedeutete.
2 – Implementierung eines schlanken Governance-Modells
Um die Plattform weiter auszubauen und die Nutzung der Daten im Berichtswesen sowie durch andere IT-Systeme zu ermöglichen, führte die GEMA ein schlankes Governance-Modell ein. Dieses Modell vereint die Ideen der Datenprodukte, Data Mesh, Data Fabric, Lakehouse-Architektur und Data Marts. Markus Zachai, Head of Data Governance bei der GEMA, betont: „Wir brauchten ein Governance-Modell, um die Gültigkeit und Korrektheit der Daten sicherzustellen. Ein zentrales Team würde nicht skalieren, also haben wir einen dezentralen Ansatz gewählt.“ Die GEMA hat nun dezentralisierte Rollen im gesamten Unternehmen, wobei die verschiedenen Beteiligten entweder Datenpipelines, Datenprodukte und deren Inhalte oder bestimmte Daten Domänen verwalten.
3 – Einführung des Metadatenkatalogs über die Zeenea Data Discovery Platform
Ein wesentlicher Bestandteil der Datenstrategie der GEMA war die Integration des Metadatenkatalogs von Zeenea. Der Katalog erleichterte die unabhängige Erstellung von Datenverträgen und ermöglichte eine effiziente Suche nach allen Daten innerhalb der Datenplattform des Unternehmens. Martin hebt hervor: „Zeenea zeichnete sich für uns durch seine übersichtliche, benutzerfreundliche Oberfläche aus. Sie macht es den Nutzern leicht zu verstehen, welche Datenprodukte wir haben, woher sie stammen und an wen sie sich für weitere Informationen wenden können.“
Als die GEMA die Datenverantwortung dezentralisieren wollte, war Zeenea nicht nur ein Werkzeug, das dabei half, sondern auch eine der Grundlagen, die dies ermöglichte.
Die Datenproduktion der GEMA
Datenprodukt – Definition
Das Daten Ökosystem der GEMA dreht sich um Datenprodukte, die typischerweise um Geschäftsobjekte herum entwickelt werden und aus einer oder mehreren Tabellen bestehen. Datenprodukte werden in Schichten eingeteilt, die verschiedene Stufen der Datenverarbeitung darstellen:
Bronze: Rohdaten, z. B. eine Rohkopie einer Datenquelle.
Silver: Ein Zwischenprodukt, z. B. ein de-normalisierter und bereinigter Datensatz.
Gold: Ein konsumierbares Produkt, z. B. ein Aggregat auf Unternehmensebene.
Datenprodukt – verschiedene Rollen
Jedes Datenprodukt wird verwaltet von:
Einem Data Owner: Verantwortlich für die Daten.
Einem Data Steward: Verfügt über Fachwissen über das spezifische Datenprodukt.
Einem Data Custodian: Ein Ingenieur, der die eigentliche Datenpipeline implementiert.
Datenprodukt – Meilensteine
Innerhalb eines Jahres nach Einführung der Plattform hatte die GEMA über 35 Datenquellen und mehr als 100 Datenprodukte in Produktion – im Durchschnitt wurde jeden zweiten Arbeitstag ein neues Datenprodukt eingeführt. „Einige von ihnen sind von geringer Komplexität, aber wir sehen auch viele Datenprodukte mit hoher Komplexität, mit mehr als tausend Zeilen Code“, erklärt Markus.
Wichtig für die GEMA ist die Wiederverwendbarkeit jedes Datenprodukts, damit die Geschäftsbereiche komplexe Datenprodukte für verschiedene Anwendungsfälle nutzen können. Der Datenkatalog von Zeenea dient als benutzerfreundliche Schnittstelle für die Datenproduzenten der GEMA und verbessert das Datenmanagement und die Datennutzung innerhalb der GEMA erheblich.
Anwendungsfälle aus der Praxis
Ein bemerkenswerter Erfolg ist die Erstellung von Kontoauszügen für die Mitglieder der GEMA auf ihrer Website, eine Aufgabe, die vor der neuen Datenplattform jahrelang eine Herausforderung war. Die Effizienz der Plattform ermöglichte es der GEMA, diesen Anwendungsfall innerhalb von sechs Monaten zu entwickeln. Darüber hinaus wurden in diesem Prozess auch viele Zwischenprodukte entwickelt, die für andere Anwendungsfälle genutzt wurden.
Bis zum Frühjahr 2024 nutzten mehr als zehn verschiedene Geschäftsdienste die Datenprodukte der Plattform, verbesserten das Berichtswesen und ermöglichten fortgeschrittene Anwendungsfälle für maschinelles Lernen. „Dies war dank der Transparenz, die unser Datenkatalog bietet, möglich“, schließt Markus.
Empfehlungen der GEMA für die Umsetzung eines Data Mesh
Für Unternehmen, die eine DataMesh in Betracht ziehen, gibt die GEMA die folgenden Empfehlungen:
Änderung der Denkweise: Behandeln Sie Daten als ein wesentliches Unternehmensgut.
Nahtlose Integration: Sorgen Sie für eine reibungslose Integration aller Komponenten der Datenplattform.
Verständliche Datenprodukte: Machen Sie Datenprodukte für Ihre Endnutzer auffindbar und leicht verwendbar.
Single Source of Truth: Implementieren Sie einen Metadatenkatalog (Zeenea) für einen umfassenden Überblick über Ihre Datenbestände.