In den letzten Jahren hat das Datenmanagement mit dem Aufkommen des Data Mesh einen Paradigmenwechsel erfahren. Das Data Mesh wurde von Zhamak Dehghani im Jahr 2019 erfunden und ist eine Architektur, die einen dezentralen und domänenorientierten Ansatz für die Datenverwaltung nutzt. Ein bemerkenswertes Prinzip der Data-Mesh-Architektur besteht darin, Daten als Produkte zu betrachten und somit das Konzept der Datenprodukte einzuführen. Der Begriff Data Product wird jedoch häufig verwendet, ohne dass klar ist was er eigentlich bedeutet. In diesem Artikel erfahren Sie alles, was Sie über Data Products und Product Thinking wissen müssen.
Übergang zu einem produktbezogenen Ansatz
Damit Unternehmen Daten als Produkte betrachten und ihre Datensätze in Data Products umwandeln können, ist es wichtig, dass die Teams zunächst eine produktorientierte Mentalität annehmen. Laut J. Majchrzak et al. in Data Mesh in Action,
dient der produktzentrierte Ansatz als Methodik zur Problemlösung, wobei dem vollständigen Verständnis der Bedürfnisse der Nutzer und des zentralen Problems Priorität eingeräumt wird, bevor man sich in den Prozess der Produktentwicklung vertieft. Das wichtigste Ziel besteht darin, die Lücke zwischen den Anforderungen der Nutzer und der vorgeschlagenen Lösung zu schließen.
In ihrem Buch betonen die Autoren zwei grundlegende Prinzipien:
- Arbeiten Sie am Problem, nicht an der Lösung: Bevor Sie in die Designphase eines Produkts einsteigen, ist es unerlässlich, die Nutzer und das spezifische Problem, das adressiert werden soll, zu verstehen.
- Denken Sie an das Produkt, nicht an die Funktionalität: Obwohl die natürliche Neigung besteht, sich auf das Hinzufügen neuer Funktionen und die Personalisierung zu konzentrieren, ist es entscheidend, die Daten als Produkt zu betrachten, das die Bedürfnisse der Nutzer direkt erfüllt.
Bevor Sie also einen Datensatz veröffentlichen, sollten Sie sich im Rahmen eines Product-Thinking-Ansatzes die folgenden Fragen stellen:
- Welches Problem möchten Sie lösen?
- Wer wird Ihr Produkt nutzen?
- Warum tun Sie das? Was ist die Vision dahinter?
- Was ist Ihre Strategie? Wie wollen Sie vorgehen?
Hier sind einige mögliche Antworten auf diese Fragen aus einem Auszug aus Data Mesh in Action:
Welches Problem möchten Sie lösen? Derzeit werden die deklarativen Daten über die Produktionskosten für die direkte Rechnungsstellung zwischen dem Produktionsteam und dem Finanzteam verwendet. Der Datensatz enthält auch Kosten, die nach Kategorien aufgeschlüsselt sind. Diese Informationen könnten für komplexere Analysen und Kostenvergleiche zwischen den Kategorien verschiedener Produktionen verwendet werden. Folglich ist es sinnvoll, diese Daten für komplexe Analysen in größerem Umfang verfügbar zu machen.
Wer wird Ihr Produkt nutzen? Data Analysts werden es zur manuellen Analyse und Zusammenstellung von Produktionskosten und zur Budgetplanung für neue Produktionen nutzen. Data Engineers werden es nutzen, um Daten in die analytische Lösung zu importieren.
Warum tun Sie das? Was ist die Vision dahinter? Wir werden eine dedizierte und maßgeschneiderte Lösung zur Analyse von Produktionskostendaten und Planungsaktivitäten erstellen. Data Engineers können die Originaldateien verwenden, um historische Daten zu importieren.
Lesen Sie den vollständigen Auszug: https://livebook.manning.com/book/data-mesh-in-action/chapter-5/37
Definition des Begriffs Data Product
Die Philosophie des Product Thinking bringt uns dazu, ein Data Product über eine langfristige, kontinuierliche Entwicklung, eine Anpassung aufgrund von Nutzerfeedback und eine Verpflichtung zur kontinuierlichen Verbesserung und Qualität hinweg zu betrachten. Ein Produkt kann ein Objekt, ein System oder eine Dienstleistung sein, die für die Nutzung durch den Konsumenten auf dessen Wunsch hin bereitgestellt wird. Was macht also ein Produkt zu einem Data Product?
Bei Zeenea definieren wir ein Data Product als eine Reihe von wertvollen Datenbeständen, die speziell für die schnelle und sichere Nutzung konzipiert und verwaltet werden und gleichzeitig ein Höchstmaß an Qualität, Verfügbarkeit und die Einhaltung gesetzlicher Vorschriften und interner Richtlinien gewährleisten.
Laut Data Mesh in Action ist die bewusste Verwendung des Begriffs Produkt im Zusammenhang mit dem Data Mesh beabsichtigt und steht im Gegensatz zu dem Begriff Projekt, der üblicherweise bei organisatorischen Initiativen verwendet wird. Es ist wichtig zu betonen, dass die Erstellung eines Data Products nicht gleichbedeutend mit einem Projekt ist. Wie in Products Over Projects von Sriram Narayan beschrieben, sind Projekte zeitlich begrenzte Anstrengungen, um bestimmte Ziele zu erreichen, mit einem definierten Ende, das nicht unbedingt zu einer Kontinuität führt.
Grundlegende Merkmale eines Datenprodukts
In How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh beschreibt Zhamak Dehghani, dass ein Data Product die folgenden Merkmale aufweisen muss:
Auffindbar
Es ist zwingend erforderlich, die einfache Auffindbarkeit eines Datenprodukts sicherzustellen. Ein weit verbreiteter Ansatz ist die Einführung eines Registers oder eines Datenkatalogs, der umfassende Metainformationen wie Eigentümer, Ursprung, Lineage und Auszüge aus Datensätzen für alle verfügbaren Data Products enthält. Diese zentralisierte Auffindbarkeit versetzt Datenkonsumenten, Data Engineers und Data Scientists innerhalb einer Organisation in die Lage, interessante Datensätze leicht zu finden.
Adressierbar
Ein einmal gefundenes Data Product muss eine eindeutige Adresse haben, die einer globalen Konvention folgt. Organisationen, die von der Speicherung und dem Format ihrer Daten beeinflusst werden, können unterschiedliche Namenskonventionen anwenden. Einheitliche Konventionen sind in einer dezentralen Architektur unerlässlich, um die Auffindbarkeit und den Zugriff zu erleichtern.
Zuverlässig und vertrauenswürdig
Die Eigentümer von Datenprodukten müssen sich zu Service Level Objectives (SLOs) verpflichten, um die Richtigkeit der Daten zu gewährleisten, was den Verzicht auf herkömmliche, fehleranfällige Extraktionen erfordert. Die Verwendung von Techniken wie Datenbereinigung und automatisierte Integritätstests sind entscheidend, um ein akzeptables Qualitätsniveau bei der Erstellung des Data Products zu gewährleisten.
Eine selbsterklärende Semantik und Syntax
Hochwertige Datenprodukte erfordern eine eigenständige Benutzererfahrung – sie müssen unabhängig auffindbar, verständlich und nutzbar sein. Um Datensätze als Produkte mit minimalen Reibungsverlusten für Data Engineers und Data Scientists zu erstellen, ist es wichtig, die Semantik und die Syntax der Daten verbindlich zu formulieren.
Interoperabel und durch globale Standards gelenkt
Die Korrelation von Daten über Unternehmensbereiche hinweg und in einer verteilten Architektur ist von der Einhaltung globaler Standards und Harmonisierungsregeln abhängig. Die Steuerung der Standards, einschließlich der Formatierung von Feldern, der Identifizierung von Polysemen, der Adresskonventionen, der Metadatenfelder und der Ereignisformate gewährleistet Interoperabilität und eine signifikante Korrelation.
Sicher und durch eine globale Zugangskontrolle gesteuert
Es ist zwingend erforderlich, den Zugang zu Produktdatensätzen zu sichern, unabhängig davon, ob die Architektur zentralisiert ist oder nicht. In der Welt der dezentralisierten, domänenorientierten Data Products arbeitet die Zugriffskontrolle auf einer differenzierteren Ebene – spezifisch auf jedes Data Product in einer Domäne zugeschnitten. So wie die operativen Bereiche die Richtlinien für die Zugriffskontrolle zentral definieren, werden diese Richtlinien dynamisch beim Zugriff auf einzelne Datensätze angewendet. Die Nutzung eines Enterprise Identity Management Systems, das oft durch Single-Sign-On (SSO) und die Verwendung einer rollenbasierten Zugriffskontrolle (RBAC) unterstützt wird, bietet einen praktischen und effektiven Ansatz zur Umsetzung der Zugriffskontrolle für die Datensätze der Data Products.
Beispiele für Data Products
Ein potenzielles Datenprodukt kann verschiedene Formen annehmen, mit verschiedenen Darstellungen von Daten, die den Nutzern einen Mehrwert bieten. Im Folgenden finden Sie einige Beispiele für Technologien, die Data Products enthalten:
- Suchmaschinen für Empfehlungen: Plattformen wie Netflix, Amazon und Spotify nutzen Suchmaschinen für Empfehlungen als Data Products, um Inhalte oder Produkte auf der Grundlage des Verhaltens und der Vorlieben der Nutzer vorzuschlagen.
- Prädiktive Analysemodelle: Modelle, die den Verlust von Kunden, Verkaufsprognosen oder Ausfälle von Anlagen vorhersagen, sind Beispiele für Datenprodukte, die wertvolle Informationen für die Entscheidungsprozesse liefern.
- Betrugserkennungssysteme: Finanzinstitute setzen Datenprodukte ein, um betrügerische Aktivitäten zu erkennen und zu verhindern, indem sie Transaktionsmuster analysieren und Anomalien identifizieren.
- Personalisierte Marketingkampagnen: Gezielte Werbung und personalisierte Marketingkampagnen nutzen Data Products, um Inhalte auf der Basis demografischer Daten, des Nutzerverhaltens und der früheren Interaktionen der Nutzer anzupassen.
- Medizinische Diagnose-Tools: Diagnose-Tools, die medizinische Daten wie Patientenakten und Testergebnisse analysieren, um die medizinischen Fachkräfte bei der Erstellung präziser Diagnosen zu unterstützen.