[SERIE] Data Shopping Teil 2 – Das Data-Shopping-Erlebnis in Zeenea 

[SERIE] Data Shopping Teil 2 – Das Data-Shopping-Erlebnis in Zeenea 

Der Prozess der Datennutzung in Unternehmen hat sich auf ähnliche Weise entwickelt wie der Kauf von Waren im Internet, wo der Konsument Gegenstände aussucht, sie in den Warenkorb legt und Liefer- und Zahlungsoptionen auswählt. Im Zeitalter von Data Products und Data Mesh ermöglichen interne Data Marketplaces den Fachanwendern, Daten für ihre Anwendungsfälle zu suchen, zu finden und auf sie zuzugreifen.

In dieser Artikelreihe finden Sie einen Auszug aus unserem Praxisleitfaden Data Mesh und erfahren alles Wissenswerte über das Data Shopping, das Data-Shopping-Erlebnis mit Zeenea und über unseren Enterprise Data Marketplace:

  1. Der Konsum von Data Products
  2. Das Data-Shopping-Erlebnis mit Zeenea

 

 

In unserem vorherigen Artikel haben wir uns mit dem Konzept des Data Shoppings auf einem internen Data Marketplace befasst und dabei Elemente wie die Lieferung von Datenprodukten und die Zugriffsverwaltung behandelt. In diesem Artikel werden wir die Gründe näher betrachten, die Zeenea dazu veranlasst haben, sein Data-Shopping-Erlebnis über die internen Grenzen hinaus auszuweiten. Außerdem erfahren Sie, wie unsere Schnittstelle, Zeenea Studio, die Analyse der Gesamtleistung Ihrer Data Products ermöglicht.

Datenprodukt-Shopping mit Zeenea

 

In unserem letzten Artikel haben wir die Komplexität der Verwaltung von Zugriffsrechten auf Datenprodukte aufgrund der mit dem Datenverbrauch verbundenen Risiken behandelt. In einem dezentralen Data Mesh bewertet der Eigentümer des Data Products die Risiken, gewährt den Zugriff und wendet Richtlinien an, welche die Sensibilität der Daten, die Rolle, den Standort und das Ziel des Antragstellers berücksichtigen. Dies kann eine Transformation der Daten oder zusätzliche Formalitäten nach sich ziehen, wobei die Lieferung von schreibgeschütztem Zugriff bis hin zu granularen Kontrollen reichen kann.

Auf einem Data Marketplace lösen Konsumenten einen Workflow aus, indem sie Zugriffsanfragen stellen, die von den Dateneigentümern bewertet werden und für die sie die Zugriffsregeln festlegen, manchmal mithilfe einer Expertenmeinung. Für den Zeenea-Marketplace haben wir uns dafür entschieden, diesen Workflow nicht direkt in die Lösung zu integrieren, sondern stattdessen Schnittstellen zu externen Lösungen zu nutzen.

Die Idee dahinter ist, ein einheitliches Erlebnis zum Auslösen einer Zugriffsanfrage zu bieten, aber gleichzeitig anzuerkennen, dass die Bearbeitung dieser Anfrage in verschiedenen Umgebungen oder sogar in verschiedenen Domänen innerhalb derselben Organisation sehr unterschiedlich sein kann. Auch hier haben wir das Prinzip von klassischen Marktplätzen übernommen. Die meisten bieten ein einheitliches Erlebnis, um eine Bestellung abzuschließen, greifen aber für die operative Umsetzung der Lieferung – die je nach Produkt und Verkäufer sehr unterschiedlich gestaltet sein kann – auf andere Lösungen zurück.

Diese Entkoppelung von Einkaufserlebnis und operativer Umsetzung der Lieferung erscheint uns aus mehreren Gründen unerlässlich.

Vor allem aufgrund der extremen Variabilität der beteiligten Prozesse. Einige Unternehmen verfügen bereits über operative Workflows, die auf einer breiteren Lösung aufbauen (die Datenzugriffsanfrage ist in einen allgemeinen Prozess zur Beantragung von Zugriffsrechten eingebettet, der z. B. durch ein Ticketing-Tool wie ServiceNow oder Jira unterstützt wird). Andere sind mit speziellen Lösungen ausgestattet, die einen hohen Automatisierungsgrad unterstützen, aber noch nicht flächendeckend eingesetzt werden. Andere verlassen sich auf die Fähigkeiten ihrer Datenplattform, wieder andere auf gar nichts – der Zugang erfolgt über direkte Anfragen an den Dateneigentümer, der die Daten ohne formellen Prozess verarbeitet. Diese Variabilität zeigt sich zwischen Unternehmen, aber auch innerhalb einer Organisation – strukturell, wenn verschiedene Domänen unterschiedliche Technologien verwenden, oder zeitlich, wenn die Organisation beschließt, in ein Produkt zu investieren, das mehr Effizienz oder Sicherheit bietet, und die Zugriffsverwaltung schrittweise auf dieses neue Produkt migriert werden muss.

Dank dieser Entkoppelung ist es also ermöglich, dem Konsumenten ein einheitliches Erlebnis zu bieten und gleichzeitig die Variabilität der Arbeitsweisen anzuerkennen.

Für den Kunden ist das Einkaufserlebnis auf dem Data Marketplace also sehr einfach. Sobald er das oder die passenden Datenprodukte identifiziert hat, löst er eine Zugriffsanfrage aus und stellt die folgenden Informationen bereit:

  1. Wer er ist – diese Information ist im Prinzip bereits verfügbar.
  2. Auf welches Data Product er zugreifen möchte – auch hier sind die Informationen bereits vorhanden, ebenso wie die Metadaten, die für die Durchführung von Abwägungen benötigt werden.
  3. Wie er die Daten nutzen will – dieser Punkt ist von grundlegender Bedeutung, da er das Risikomanagement und die Anforderungen an die Compliance betrifft.

Bei Zeenea wird die eingegangene Zugriffsanfrage in einem anderen System verarbeitet, und ihr Status kann vom Marketplace aus verfolgt werden – das ist das exakte Pendant zur Auftragsverfolgung, wie man sie von E-Commerce-Websites kennt.

Aus der Sicht des Konsumenten bietet der Data Marketplace einen Katalog von Datenprodukten (und anderen digitalen Produkten) sowie ein einfaches und einheitliches System, um Zugang zu diesen Produkten zu erhalten.

Für den Produzenten erfüllt der Data Marketplace eine wichtige Rolle bei der Steuerung seines Produktportfolios.

Verbessern Sie die Leistung von Data Products mit Zeenea Studio

 

Wie bereits erwähnt, bietet ein klassischer Marktplatz neben dem E-Commerce-System, das sich an die Verbraucher richtet, auch spezielle Tools für Verkäufer, mit denen sie ihre Produkte überwachen, auf Anfragen von Käufern reagieren und die wirtschaftliche Leistung ihres Angebots kontrollieren können. Außerdem enthalten sie weitere Tools für Marktplatz-Manager, um die Gesamtleistung von Produkten und Verkäufern zu analysieren.

Der Enterprise Data Marketplace von Zeenea integriert diese Fähigkeiten in ein spezielles Backoffice-Tool, Zeenea Studio. Mit seiner Hilfe können Sie die Erstellung, Konsolidierung und Organisation von Metadaten in einem privaten Katalog verwalten und entscheiden, welche Objekte auf dem Marketplace – einem für die breite Öffentlichkeit zugänglichen Bereich – angeboten werden.

Diese Aktivitäten gehören in erster Linie zum Produktionsprozess – Metadaten werden gemeinsam mit den Datenprodukten produziert und organisiert. Das Tool ermöglicht aber auch die Überwachung der Nutzung jedes einzelnen Datenprodukts, insbesondere durch die Bereitstellung einer Liste aller Konsumenten und der ihnen zugeordneten Nutzungsarten.

Mit dieser Überwachung der Konsumenten ist es möglich, die beiden Säulen der Data-Mesh-Governance fest im System zu verankern:

  • Compliance und Risikomanagement – durch die Einführung regelmäßiger Überprüfungen, Zertifizierungen und Folgenabschätzungen bei der Weiterentwicklung von Datenprodukten.
  • Performance-Steuerung – die Anzahl der Konsumenten sowie die Nutzungsarten sind die wichtigsten Indikatoren für den Wert eines Data Products. Denn ein Datenprodukt, das nicht genutzt wird, hat keinen Wert.

Der Enterprise Data Marketplace von Zeenea unterstützt die Unternehmensbereiche bei der Überwachung der Compliance und Performance ihrer Produkte und bietet auch die Möglichkeit einer umfassenden Mesh-Analyse – Lineage, Scoring und Leistungsbewertung von Data Products, Überwachung der globalen Compliance und der Risiken, Elemente für die Berichterstattung an Behörden usw.

Das ist die Magie des Federated Graphs, der es ermöglicht, Informationen auf allen Ebenen zu nutzen – und eine umfassende Darstellung des gesamten Datenbestands liefert.

Praxisleitfaden Data Mesh: Ein unternehmensweites Data Mesh einrichten und überwachen

 

Dieser Leitfaden von Guillaume Bodet, Mitbegründer und CPTO von Zeenea, vermittelt Ihnen einen praktischen Ansatz zur Implementierung eines Data Mesh in Ihrer Organisation und hilft Ihnen:

✅ Ihren Data-Mesh-Ansatz mit einem fokussierten Pilotprojekt zu starten,

✅ effektive Methoden kennenzulernen, um Ihr Data Mesh zu skalieren,

✅ die entscheidende Rolle eines internen Data Marketplaces zu verstehen, um die Nutzung von Datenprodukten zu erleichtern

✅ zu verstehen, was Zeenea als robustes, unternehmensweites Data-Mesh-Monitoring-System auszeichnet.

[SERIE] Der Data Marketplace für das Data Mesh – Teil 3: Den Marketplace über domänenspezifische Datenkataloge mit Inhalten versorgen 

[SERIE] Der Data Marketplace für das Data Mesh – Teil 3: Den Marketplace über domänenspezifische Datenkataloge mit Inhalten versorgen 

Im letzten Jahrzehnt haben sich Datenkataloge als tragende Säulen im Datenökosystem herauskristallisiert. Viele Anbieter erfüllen jedoch nicht die Erwartungen, was zu langen Verzögerungen, komplexen und teuren Projekten, bürokratischen Data-Governance-Modellen, niedrigen Akzeptanzquoten und begrenzter Wertschöpfung führt. Diese Problematik geht über Projekte zur Verwaltung von Metadaten hinaus und spiegelt ein allgemeineres Versagen auf der Ebene der Datenverwaltung wider.

Angesichts dieser Lücken ist ein neues Konzept auf dem Vormarsch, nämlich das des organisationsinternen Marktplatzes, den wir bei Zeenea als Enterprise Data Marketplace (EDM) bezeichnen.

In dieser Artikelreihe finden Sie Auszüge aus unserem Praxisleitfaden Data Mesh, in dem wir den Nutzen interner Data Marketplaces für die Produktion und die Nutzung von Data Products erläutern und erklären, wie ein EDM die Nutzung eines Data Mesh in großem Maßstab unterstützt und wie diese mit einer Datenkataloglösung Hand in Hand gehen:

  1. Die Nutzung von Datenprodukten mit Metadaten erleichtern
  2. Einen unternehmensweiten Marketplace einrichten
  3. Den Marketplace über domänenspezifische Datenkataloge mit Inhalten versorgen

 

Die Strukturierung des Datenmanagements nach Domänen und Datenprodukten ist eine organisatorische Transformation, die die betriebliche Realität der meisten Unternehmen nicht verändert: Daten sind in großen Mengen und aus vielen Quellen verfügbar, verändern sich schnell und ihre Kontrolle ist komplex.

Data Catalogs haben traditionell die Aufgabe, alle verfügbaren Daten zu inventarisieren und eine Reihe von Metadaten zu verwalten, um die Kontrolle über die Daten zu behalten und Governance-Praktiken zu etablieren.

Das Data Mesh beseitigt diese Komplexität nicht: Es ermöglicht jedoch die Unterscheidung bestimmter Daten, die als Data Products verwaltet werden und die über die Domäne hinaus, zu der sie gehören, geteilt und verwendet werden sollen. Aber jede Domäne ist auch für die Verwaltung ihrer internen Daten zuständig, die sie für die Entwicklung von Datenprodukten verwendet – ihrer privaten Daten sozusagen.

Metadaten-Management im Kontext eines internen Marktplatzes, der von domänenspezifischen Datenkatalogen mit Inhalten versorgt wird

 

Im Data Mesh wird ein Data Catalog nicht überflüssig, ganz im Gegenteil: Jede Domäne sollte über einen Katalog verfügen, der es ihr ermöglicht, ihre privaten Daten effizient zu verwalten, die Governance innerhalb der Domäne zu unterstützen und die Entwicklung robuster Datenprodukte zu beschleunigen, die einen Mehrwert bieten. Die Verwaltung von Metadaten erfolgt also auf zwei Ebenen:

  • Auf Domänenebene – in Form eines Katalogs, mit dem das Datenuniversum der Domäne dokumentiert und organisiert werden kann. Da der Data Catalog ein privater Baustein ist, müssen nicht alle Domänen die gleiche Lösung verwenden.
  • Auf Mesh-Ebene – in Form eines Marktplatzes, auf dem die von allen Domänen gemeinsam genutzten Data Products erfasst werden. Dieser Marktplatz wird naturgemäß von allen Domänen gemeinsam genutzt.

Mit einer dediziert Marketplace-Komponente sieht die allgemeine Architektur der Metadatenverwaltung wie folgt aus:

Architecture Générale Pour La Gestion Des Métadonnées

In dieser Architektur hat jede Domäne ihren eigenen Katalog – dieser kann auf einer individuellen Lösung beruhen oder auch nicht, sollte aber für jede Domäne eine eigene Instanz zur Verfügung stellen, damit sie ihre Daten auf die für sie effektivste Weise organisieren kann und die Fallstricke einer universellen Metadatenorganisation vermieden werden.

Der Marketplace ist eine dedizierte Komponente, die eine hohe Benutzerfreundlichkeit bietet und auf der jede Domäne die Metadaten (oder sogar die Daten) ihrer Data Products bereitstellt. Dieser Ansatz erfordert eine enge Integration der verschiedenen Module:

  • Die privaten Kataloge müssen mit dem Marketplace integriert werden – um den Aufwand für die Erstellung bestimmter Metadaten nicht zu verdoppeln – dies betrifft insbesondere die Lineage, aber auch das Data Dictionary (Schema) oder die fachspezifischen Definitionen, die in beiden Systemen vorhanden sein müssen.
  • Private Kataloge müssen grundsätzlich miteinander integriert werden – um bestimmte Informationen gemeinsam zu nutzen/synchronisieren, in erster Linie das Business Glossary, aber auch bestimmte Repositorys.

Vergleich der Fähigkeiten von Data Catalog und EDM

 

Wenn man sich die Funktionen eines Enterprise Data Marketplaces und eines Data Catalogs ansieht, stellt man fest, dass diese Fähigkeiten sehr ähnlich sind:

Data Catalog Vs Enterprise Data Marketplace

Im Endeffekt gibt es auf rein funktionaler Ebene keine großen Unterschiede zwischen ihren Fähigkeiten. Folgende Aspekte unterscheiden einen modernen Data Catalog jedoch von einem EDM:

 

  • Der Umfang – der Data Catalog soll alle Daten abdecken, während der Marketplace sich auf Objekte beschränkt, die von Domänen gemeinsam genutzt werden (Data Products und andere Datenprodukte der Domäne).

 

  • Das Benutzererlebnis – der Data Catalog ist oft ein relativ komplexes Tool, das die Governance-Prozesse global unterstützen soll – er konzentriert sich besonders auf Data-Stewardship-Workflows. Der Marketplace hingegen bietet typischerweise eine sehr einfache Benutzeroberfläche, die sich stark an E-Commerce-Plattformen orientiert, und bietet ein nutzungszentriertes Erlebnis – das Data Shopping.

Praxisleitfaden Data Mesh: Ein unternehmensweites Data Mesh einrichten und überwachen

 

Dieser Leitfaden von Guillaume Bodet, Mitbegründer und CPTO von Zeenea, vermittelt Ihnen einen praktischen Ansatz zur Implementierung eines Data Mesh in Ihrer Organisation und hilft Ihnen:

✅ Ihren Data-Mesh-Ansatz mit einem fokussierten Pilotprojekt zu starten,

✅ effektive Methoden kennenzulernen, um Ihr Data Mesh zu skalieren,

✅ die entscheidende Rolle eines internen Data Marketplaces zu verstehen, um die Nutzung von Datenprodukten zu erleichtern

✅ zu verstehen, was Zeenea als robustes, unternehmensweites Data-Mesh-Monitoring-System auszeichnet.

[SERIE] Der Data Marketplace für das Data Mesh – Teil 2: Einen unternehmensweiten Marketplace aufbauen 

[SERIE] Der Data Marketplace für das Data Mesh – Teil 2: Einen unternehmensweiten Marketplace aufbauen 

Im letzten Jahrzehnt haben sich Datenkataloge als tragende Säulen im Datenökosystem herauskristallisiert. Viele Anbieter erfüllen jedoch nicht die Erwartungen, was zu langen Verzögerungen, komplexen und teuren Projekten, bürokratischen Data-Governance-Modellen, niedrigen Akzeptanzquoten und begrenzter Wertschöpfung führt. Diese Problematik geht über Projekte zur Verwaltung von Metadaten hinaus und spiegelt ein allgemeineres Versagen auf der Ebene der Datenverwaltung wider.

Angesichts dieser Lücken ist ein neues Konzept auf dem Vormarsch, nämlich das des organisationsinternen Marktplatzes, den wir bei Zeenea als Enterprise Data Marketplace (EDM) bezeichnen.

In dieser Artikelreihe finden Sie Auszüge aus unserem Praxisleitfaden Data Mesh, in dem wir den Nutzen interner Data Marketplaces für die Produktion und die Nutzung von Data Products erläutern und erklären, wie ein EDM die Nutzung eines Data Mesh in großem Maßstab unterstützt und wie diese mit einer Datenkataloglösung Hand in Hand gehen:

  1. Die Nutzung von Datenprodukten mit Metadaten erleichtern
  2. Einen unternehmensweiten Marketplace einrichten
  3. Den Marketplace über domänenspezifische Datenkataloge mit Inhalten versorgen

 

 

Wie bereits in unserem vorherigen Artikel erwähnt, ist ein Enterprise Data Marketplace ein einfaches System, in dem Konsumenten aus einem Angebot an Data Products das oder die Produkte heraussuchen können, die für einen bestimmten Anwendungsfall in Frage kommen, die Informationen zu diesen Produkten abrufen und sie dann bestellen können. Die Bestellung materialisiert sich im Erhalt eines Zugangs, einer physischen Lieferung der Daten oder einem Antrag auf Weiterentwicklung der Data Products, um den neuen Anwendungsfall abzudecken.

Die drei großen Optionen für die Einrichtung eines internen Data Marketplaces

 

Bei der Einrichtung eines internen Data Marketplaces ziehen Organisationen in der Regel drei Hauptansätze in Betracht:

Die Entwicklung

 

Bei diesem Ansatz wird ein personalisierter Marketplace erstellt, der auf die einzigartigen Bedürfnisse des Unternehmens zugeschnitten ist. Obwohl diese Option die Möglichkeit eines optimierten Benutzererlebnisses bietet, ist sie oft mit einem hohen Zeit- und Kostenaufwand verbunden.

Integration einer marktüblichen Lösung

 

Organisationen können sich auch für bereits vorhandene Lösungen entscheiden, die auf dem Markt erhältlich sind. Diese Lösungen, die ursprünglich für die Vermarktung von Daten oder den externen Datenaustausch konzipiert wurden, können für den internen Gebrauch umgewandelt werden. Sie müssen jedoch möglicherweise angepasst werden, um mit den internen Arbeitsabläufen und Sicherheitsstandards Schritt zu halten.

Nutzung bestehender Systeme

 

Einige Organisationen entscheiden sich dafür, die Vorteile ihrer aktuellen Infrastruktur zu nutzen, indem sie Tools wie Data Catalogs und Unternehmens-Wikis wiederverwenden. Obwohl dieser Ansatz eine gewisse Vertrautheit und Integration mit bestehenden Arbeitsabläufen bieten kann, fehlen ihm möglicherweise die spezialisierten Funktionen von Lösungen, die auf den Data Marketplace zugeschnitten sind.

Die Nachteile von kommerziell erhältlichen Marketplaces

 

Obwohl sie oft ein zufriedenstellendes Benutzererlebnis und eine native Unterstützung des Konzepts des Data Products bieten, weisen kommerziell erhältliche Marktplätze oft erhebliche Nachteile auf: Sie sind sehr stark auf Transaktionsaspekte (Vertrieb, Lizenzierung, Vertragsabschluss, Kauf oder Abonnement, Zahlung usw.) ausgerichtet und oft schlecht in Datenplattformen und interne Tools zur Zugriffskontrolle integriert. Sie erfordern in der Regel, dass die Daten auch über den Marketplace verteilt werden – das heißt, sie stellen eine neue Infrastrukturkomponente dar, auf die die Daten zur gemeinsamen Nutzung übertragen werden müssen (ein solches System wird manchmal auch als Data Sharing Platform bezeichnet).

Der Enterprise Data Marketplace von Zeenea

 

Unser pragmatischer Ansatz folgt der Überzeugung, dass es in den meisten Fällen nicht wünschenswert ist, einen neuen Infrastrukturbaustein einzuführen, um ein Data Mesh zu implementieren – wie bereits erwähnt, scheint es sehr viel besser zu sein, die bereits vorhandenen Kapazitäten maximal auszunutzen.

Deshalb haben wir bei Zeenea unsere Data Discovery Platform und ihren Data Catalog weiterentwickelt, um eine einzigartige Lösung anzubieten, eine Spiegelung des Data Mesh auf der Metadatenebene, die sich kontinuierlich an die Entwicklung der Architektur der Datenplattform der Organisation anpasst. Dieser Enterprise Data Marketplace (EDM) integriert einen domänenübergreifenden Marktplatz mit privaten Datenkatalogen, die auf die Bedürfnisse der einzelnen Domänen zugeschnitten sind.

Diesen Ansatz wollen wir im nächsten Artikel unserer Reihe näher erläutern. Es wird durch den Aspekt ermöglicht, der Zeenea schon lange auszeichnet und von den meisten anderen Katalogen oder Metadaten unterscheidet: ein skalierbarer Knowledge Graph.

Im letzten Artikel dieser Reihe erfahren Sie, wie ein interner Data Marketplace in Verbindung mit domänenspezifischen Datenkatalogen ein umfassendes Data-Mesh-Überwachungssystem bildet.

Praxisleitfaden Data Mesh: Ein unternehmensweites Data Mesh einrichten und überwachen

 

Dieser Leitfaden von Guillaume Bodet, Mitbegründer und CPTO von Zeenea, vermittelt Ihnen einen praktischen Ansatz zur Implementierung eines Data Mesh in Ihrer Organisation und hilft Ihnen:

✅ Ihren Data-Mesh-Ansatz mit einem fokussierten Pilotprojekt zu starten,

✅ effektive Methoden kennenzulernen, um Ihr Data Mesh zu skalieren,

✅ die entscheidende Rolle eines internen Data Marketplaces zu verstehen, um die Nutzung von Datenprodukten zu erleichtern

✅ zu verstehen, was Zeenea als robustes, unternehmensweites Data-Mesh-Monitoring-System auszeichnet.

[SERIE] Der Data Marketplace für das Data Mesh – Teil 1: Die Nutzung von Datenprodukten mit Metadaten erleichtern

[SERIE] Der Data Marketplace für das Data Mesh – Teil 1: Die Nutzung von Datenprodukten mit Metadaten erleichtern

Im letzten Jahrzehnt haben sich Datenkataloge als tragende Säulen im Datenökosystem herauskristallisiert. Viele Anbieter erfüllen jedoch nicht die Erwartungen, was zu langen Verzögerungen, komplexen und teuren Projekten, bürokratischen Data-Governance-Modellen, niedrigen Akzeptanzquoten und begrenzter Wertschöpfung führt. Diese Problematik geht über Projekte zur Verwaltung von Metadaten hinaus und spiegelt ein allgemeineres Versagen auf der Ebene der Datenverwaltung wider.

Angesichts dieser Lücken ist ein neues Konzept auf dem Vormarsch, nämlich das des organisationsinternen Marktplatzes, den wir bei Zeenea als Enterprise Data Marketplace (EDM) bezeichnen.

In dieser Artikelreihe finden Sie Auszüge aus unserem Praxisleitfaden Data Mesh, in dem wir den Nutzen interner Data Marketplaces für die Produktion und die Nutzung von Data Products erläutern und erklären, wie ein EDM die Nutzung eines Data Mesh in großem Maßstab unterstützt und wie diese mit einer Datenkataloglösung Hand in Hand gehen:

  1. Die Nutzung von Datenprodukten mit Metadaten erleichtern
  2. Einen unternehmensweiten Marketplace einrichten
  3. Den Marketplace über domänenspezifische Datenkataloge mit Inhalten versorgen

 

Bevor wir uns dem Konzept des internen Data Marketplaces zuwenden, lassen Sie uns einen Moment auf das Konzept des Data Products zurückkommen, das unserer Meinung nach den Eckpfeiler des Data Mesh und den ersten Schritt zur Transformation des Datenmanagements darstellt.

Austausch und Nutzung von Datenprodukten mithilfe von Metadaten

 

Wie bereits in unserer letzten Artikelreihe zum Data Mesh erwähnt, ist ein Data Product ein verwalteter, wiederverwendbarer und skalierbarer Datensatz, der Garantien für die Datenqualität und die Einhaltung gesetzlicher Vorschriften und interner Regeln bietet. Beachten Sie, dass diese Definition recht restriktiv ist – sie schließt andere Produkttypen wie Algorithmen, Machine-Learning-Modelle (ML-Modelle) oder Dashboards aus.

Natürlich ist es wünschenswert, dass diese Dinge auch als Produkte verwaltet werden, sie sind aber keine Data Products. Sie stellen andere Arten von Produkten dar, die man ganz allgemein als Analytics Products bezeichnen könnte, wobei Data Products eine der Unterkategorien sind.

In der Praxis besteht ein operatives Datenprodukt aus zwei Dingen:

  • Data (1)1. Daten – die physisch auf einer zentralisierten oder nicht zentralisierten Datenplattform gespeichert sind, die die Adressierung, Interoperabilität und den sicheren Zugriff auf die Daten gewährleistet.
  • Metadata (1)2. Metadaten – die alle Informationen liefern, die für die Weitergabe und Nutzung der Daten erforderlich sind.

Metadaten stellen sicher, dass die Konsumenten über alle Informationen verfügen, die sie für die Verwendung des Produkts benötigen.

Sie decken typischerweise die folgenden Aspekte ab:

Schema
Das Schema – das die technische Struktur des Datenprodukts, die Klassifizierung der Daten, der Proben sowie deren Herkunft (Lineage) liefert.
Governance
Die Governance – die den oder die Verantwortlichen für das Produkt, seine Versionen, seinen möglichen Wertverlust usw. identifiziert.
Semantics
Die Semantik – die eine klare Definition der ausgestellten Informationen liefert, idealerweise mit dem Business Glossary der Organisation verknüpft ist, und eine umfassende Dokumentation des Datenprodukts bereitstellt.
Contract
Der Vertrag – in dem die Qualitätsgarantien, die Konsummodalitäten (Protokolle und Sicherheit), mögliche Nutzungseinschränkungen, Regeln für die Weitergabe usw. festgelegt werden.

In der Logik des Data Mesh werden diese Metadaten vom Produktteam verwaltet und im gleichen Lebenszyklus wie die Daten und Pipelines eingesetzt. Hier bleibt eine grundlegende Frage: Wo sollen die Metadaten bereitgestellt werden?

Einen Data Marketplace zur Bereitstellung von Metadaten nutzen

 

Die meisten Unternehmen verfügen bereits über ein System zur Verwaltung von Metadaten, meist in Form eines Datenkatalogs.

Doch Data Catalogs in ihrer heutigen Form haben entscheidende Nachteile:

Dont Support Data Product

Nicht alle von ihnen unterstützen den Begriff des Datenprodukts – er muss mehr oder weniger mit anderen Begriffen emuliert werden.

Complex To Use

Ihre Anwendung ist komplex – sie wurden entwickelt, um eine große Anzahl von Assets mit teilweise sehr feiner Granularität zu katalogisieren, und leiden sehr oft an einer mangelnden Akzeptanz jenseits der zentralisierten Datenmanagement-Teams.

Rigid Organization

Sie verlangen meist eine starre und einheitliche Datenorganisation, die zentral entschieden und entworfen wird – das spiegelt selten die Vielfalt der verschiedenen Domänen oder die organisatorischen Entwicklungen wider, die mit der Ausbreitung des Data Mesh einhergehen.

Limited Search Capacities

Ihre Suchfähigkeiten sind oft begrenzt, insbesondere in Bezug auf die Data Discovery – oft muss man erst wissen, was man sucht, um es finden zu können.

Lacks Simplicity

Das Erlebnis, die sie bieten, lässt manchmal die Einfachheit vermissen, nach der sich die Nutzer sehnen – ich suche mit ein paar Schlüsselwörtern, identifiziere das richtige Datenprodukt und löse dann den operativen Prozess aus, um Zugriff zu beantragen oder die Daten zu erhalten.

Ein interner Data Marketplace oder Enterprise Data Marketplace (EDM) ist daher ein neues Konzept, das im Bereich Data Mesh immer beliebter wird. Ebenso wie ein allgemeiner Marktplatz sollte ein EDM den Datenkonsumenten ein angenehmes Einkaufserlebnis bieten. Der Marketplace ist ein unverzichtbarer Bestandteil, um die Nutzung des Data Mesh in großem Maßstab zu gewährleisten – er bietet den Datenkonsumenten ein einfaches und effizientes System, mit dem sie nach Datenprodukten aus verschiedenen Domänen suchen und auf diese zugreifen können.

In unserem nächsten Artikel erfahren Sie mehr über die verschiedenen Möglichkeiten, einen internen Data Marketplace einzurichten, und warum das für die Nutzung des Data Mesh von entscheidender Bedeutung ist.

Praxisleitfaden Data Mesh: Ein unternehmensweites Data Mesh einrichten und überwachen

 

Dieser Leitfaden von Guillaume Bodet, Mitbegründer und CPTO von Zeenea, vermittelt Ihnen einen praktischen Ansatz zur Implementierung eines Data Mesh in Ihrer Organisation und hilft Ihnen:

✅ Ihren Data-Mesh-Ansatz mit einem fokussierten Pilotprojekt zu starten,

✅ effektive Methoden kennenzulernen, um Ihr Data Mesh zu skalieren,

✅ die entscheidende Rolle eines internen Data Marketplaces zu verstehen, um die Nutzung von Datenprodukten zu erleichtern

✅ zu verstehen, was Zeenea als robustes, unternehmensweites Data-Mesh-Monitoring-System auszeichnet.

Wie initiiert man ein Data Mesh? – Teil 3 – Ihre ersten Datenprodukte herstellen 

Wie initiiert man ein Data Mesh? – Teil 3 – Ihre ersten Datenprodukte herstellen 

Die Literatur zum Data Mesh ist zwar umfangreich, beschreibt aber oft einen Endzustand und selten, wie man diesen in der Praxis erreicht. Es stellt sich also die Frage:

Welche Vorgehensweise sollten Sie wählen, um das Datenmanagement zu transformieren und ein Data Mesh einzurichten?

In dieser Artikelreihe finden Sie Auszüge aus unserem Praxisleitfaden Data Mesh, in dem wir ein iteratives Vorgehen für die Einführung eines Data Mesh in Ihrer Organisation vorschlagen. Dieser Ansatz basiert auf seinen vier Schlüsselprinzipien (Domain-oriented Decentralized Data Ownership and Architecture, Data as a Product, Self-serve Data Infrastructure as a Platform und Federated Computational Governance) und stützt sich auf die vorhandenen personellen und technologischen Ressourcen.

Im Laufe dieser Artikelreihe und zur Veranschaulichung dieses iterativen Vorgehens bei der Einrichtung eines Data Mesh werden wir ein Fallbeispiel verwenden: das fiktive Unternehmen Premium Offices – eine Gesellschaft für Gewerbeimmobilien, die Immobilien erwirbt und an Unternehmen vermietet.

In den ersten Artikeln der Reihe haben wir die Domänen identifiziert, einen ersten Use Case definiert und das Team zusammengestellt, das für die Entwicklung verantwortlich sein wird. Mit der Entwicklung der ersten Datenprodukte ist es an der Zeit, zum zweiten Prinzip des Data Mesh, Data as a Product, überzugehen.

Der produktorientierte Ansatz des Data Mesh

 

Im Laufe des letzten Jahrzehnts haben die Domänen sehr häufig bereits eine produktorientierte Kultur rund um ihre operativen Fähigkeiten entwickelt. Sie bieten sie dem Rest der Organisation in Form von APIs an, die konsumiert und zusammengestellt werden können, um neue Dienste und Anwendungen zu entwickeln. In manchen Organisationen sind die Teams darauf bedacht, den Entwicklern, die APIs in ihrem Bereich nutzen, die bestmögliche Erfahrung zu bieten: Suche in einem globalen Katalog, umfassende Dokumentation, Codebeispiele, Sandbox, garantierte und überwachte Service Levels und vieles mehr.

Diese APIs werden dann wie Produkte verwaltet, die entstehen, sich weiterentwickeln (ohne Kompatibilitätsbruch), erweitert werden und dann abgeschrieben werden, wobei sie in der Regel durch eine neue, modernere, leistungsfähigere und umfangreichere Version ersetzt werden.

Das Data Mesh schlägt vor, denselben produktbasierten Ansatz (Product-Thinking) auf Daten anzuwenden, die von den Domänen geteilt werden.

Die Eigenschaften eines Datenprodukts

 

In einigen Organisationen ist diese Produktkultur bereits fest verankert. In anderen muss sie weiterentwickelt oder sogar erst eingeführt werden. Aber lassen wir uns nicht täuschen:

Ein Datenprodukt ist kein neues digitales Gebilde, das neue technische Fähigkeiten erfordert (ähnlich wie ein API-Produkt). Es ist lediglich das Ergebnis einer bestimmten Art des Managements von Daten, die von einer Domäne für den Rest der Organisation zur Verfügung gestellt werden.

APIs wie ein Produkt zu verwalten, erforderte keinen technologischen Bruch: Die vorhandene Middleware erfüllte den Zweck sehr gut. Ebenso können Data Products problemlos auf bereits vorhandenen Dateninfrastrukturen jeglicher Art eingeführt werden.

Technisch gesehen kann ein Datenprodukt eine einfache Datei in einem Data Lake mit einer SQL-Schnittstelle sein; ein kleines Sternschema, das um einige Ansichten ergänzt ist, welche die Abfrage erleichtern, und in einer relationalen Datenbank instanziiert ist; oder eine API, eine Kafka-Streams-Bibliothek, eine Excel-Datei usw.

Ein Data Product wird also nicht dadurch definiert, wie es sich darstellt, sondern durch die Art und Weise, wie es konzipiert, verwaltet und gesteuert wird; und durch eine Reihe von Merkmalen, die seine breite Nutzung in der Organisation ermöglichen.

Diese Merkmale werden oft in dem Akronym DATSIS (Discoverable, Addressable, Trustworthy, Self-describing, Interoperable, Secure) zusammengefasst.

Um ein DATSIS-Datenprodukt zu erreichen, sind ebenfalls keine großen Investitionen erforderlich. Es geht darum, eine Reihe globaler Konventionen festzulegen, an die sich die Domänen halten müssen (Benennung, unterstützte Protokolle, Zugriffs- und Berechtigungsverwaltung, Qualitätskontrollen, Metadaten usw.). Die operative Umsetzung dieser Konventionen erfordert in den allermeisten Fällen keine neuen technologischen Fähigkeiten – die vorhandenen Lösungen reichen in der Regel aus, um loszulegen.

Eine Ausnahme ist jedoch der Katalog. Er spielt eine zentrale Rolle bei der Einführung des Data Mesh, da er es den Domänen ermöglicht, Informationen über ihre Data Products zu veröffentlichen, und den Konsumenten, diese Datenprodukte zu finden, zu durchsuchen, zu verstehen und zu nutzen.

Best Practices für die Gestaltung eines Datenprodukts

 

Die Gestaltung eines Datenprodukts ist natürlich keine exakte Wissenschaft – man kann ein einziges Produkt herstellen, aber auch drei oder vier. Als Leitfaden bei dieser Entscheidung ist es wiederum hilfreich, einige Best Practices aus verteilten Architekturen zu nutzen – ein Datenprodukt muss:

  • Single Responsibilityeine einzige, klar definierte Verantwortlichkeit haben,
  • Stable Interfacesüber stabile Schnittstellen verfügen und deren Abwärtskompatibilität gewährleisten,
  • Support Polyglotismin vielen verschiedenen Kontexten, also polyglott, verwendet werden können.

Erfahrung bei der Entwicklung von Datenprodukten

 

Die Entwicklererfahrung ist ebenfalls ein grundlegender Aspekt des Data Mesh, mit dem Ziel, die Entwicklung von Datenprodukten und die Entwicklung von Dienstleistungen oder Softwarekomponenten zusammenzuführen. Es geht nicht nur darum, freundlich zu den Engineers zu sein, sondern auch darum, eine gewisse wirtschaftliche Rationalität zu erfüllen:

Die Dezentralisierung des Datenmanagements bedeutet, dass die Domänen über eigene Ressourcen zur Entwicklung von Datenprodukten verfügen. In vielen Organisationen ist das zentrale Datenteam nicht groß genug, um verteilte Teams zu versorgen. Für den Erfolg des Data Mesh ist es daher unerlässlich, auf den oftmals größeren Pool an Softwareingenieuren zurückgreifen zu können.

Der Stand der Technik in der Softwareentwicklung beruht auf einem sehr hohen Automatisierungsgrad: deklarative Zuweisung von Infrastrukturressourcen, automatisierte Unit- und Integrationstests, orchestrierter Aufbau und Einsatz über CI/CD-Tools, Git-Workflows zur Verwaltung von Quellen und Versionen, automatische Veröffentlichung der Dokumentation usw.

Die Entwicklung von Datenprodukten muss auf diesen Stand der Technik zusteuern – und je nach Reifegrad der Organisation, der Reife ihrer Teams und ihres Technologie-Stacks wird diese Konvergenz mehr oder weniger lange dauern. Der richtige Ansatz besteht darin, so viel wie möglich zu automatisieren und dafür bereits vorhandene und bekannte Tools zu nutzen, und dann zu ermitteln, welche Vorgänge noch nicht automatisiert sind, um nach und nach zusätzliche Tools zu integrieren.

In der Praxis besteht ein Datenprodukt aus folgenden Elementen:

Code First

1. Zunächst einmal dem Code – für die Pipelines, die das Datenprodukt mit Daten aus verschiedenen Quellen oder anderen Datenprodukten versorgen; für mögliche APIs zur Nutzung des Datenprodukts; zum Testen der Pipelines und zur Überwachung der Datenqualität usw.

Data

2. Aus Daten, natürlich – aber meistens sind die Daten in den Systemen vorhanden und werden nur von den Pipelines extrahiert und umgewandelt. Sie sind daher nicht im Quellcode vorhanden (außer in Ausnahmefällen).

Metadata

3. Aus Metadaten – von denen einige dazu dienen, das Datenprodukt zu dokumentieren: Schema, Semantik, Syntax, Qualität, Lineage usw. Andere sollen die Governance des Produkts auf Mesh-Ebene sicherstellen – Verträge, Verantwortlichkeiten, Zugriffsrichtlinien, Nutzungsbeschränkungen usw.

Infrastructure
4. Aus Infrastruktur – oder genauer gesagt aus der Deklaration der physischen Ressourcen, die für die Instanziierung des Datenprodukts erforderlich sind: Bereitstellung und Ausführung von Code, Bereitstellung von Metadaten, Zuweisung von Ressourcen für die Speicherung usw.

  FALLBEISPIEL PREMIUM OFFICES

Um einen vorläufigen Rahmen für die Governance seines Data Mesh festzulegen, hat Premium Offices die folgenden Regeln aufgestellt:

✅ Ein Datenprodukt wird in BigQuery durch ein dediziertes Projekt dargestellt – dadurch ist es möglich, Zugriffsregeln auf Projektebene oder bei Bedarf auch feiner festzulegen. Diese Projekte werden in einem Repository namens „Data Products“ und einem Unterverzeichnis mit dem Namen der Domäne, zu der sie gehören (in unserem Beispiel „Brokerage“), abgelegt.

✅ Datenprodukte müssen Ansichten für den Zugriff auf die Daten anbieten – diese Ansichten ermöglichen es, eine stabile Schnittstelle für die Nutzung anzubieten und das interne Modell des Produkts potenziell weiterzuentwickeln, ohne seine Konsumenten zu beeinträchtigen.

✅ Alle Datenprodukte müssen die Daten mithilfe gemeinsamer Referenzen für gemeinsame Daten (Kunden, Produkte, Lieferanten, Mitarbeiter usw.) identifizieren – dies soll die Verknüpfung von Daten aus verschiedenen Datenprodukten (LEI, Produktcode, UPC, EAN, E-Mail-Adresse usw.) vereinfachen.

✅ Der Zugriff auf Datenprodukte erfordert eine starke Authentifizierung, die auf den IAM-Fähigkeiten von GCP beruht – die Verwendung eines Service-Kontos ist möglich, aber jeder Nutzer eines Datenprodukts muss dann über ein eigenes Service-Konto verfügen. Wenn die Zugriffsrichtlinien vom jeweiligen Benutzer abhängen, muss die Identität des Endbenutzers über eine OAuth2-Authentifizierung bestätigt werden.

✅ Standardmäßig wird nur der Zugriff auf die Ansichten gewährt – und nicht auf das interne Modell.

✅ Zugriffsanfragen werden vom Data Product Owner mithilfe von Workflows bearbeitet, die in Service Now eingerichtet wurden.

✅ DBT ist das bevorzugte ETL zur Implementierung von Pipelines – jedes Data Product hat ein dediziertes Repository für seine Pipeline.

✅ Ein Datenprodukt muss seinen Vertrag festlegen – Häufigkeit der Datenaktualisierung, Qualitätsstufen, Klassifizierung der Informationen, Zugriffsrichtlinien, Nutzungseinschränkungen.

✅ Ein Datenprodukt kann entweder über das JDBC-Protokoll oder über die BigQuery-APIs (schreibgeschützt) konsumiert werden.

✅ Das Datenprodukt muss seine Metadaten und seine Dokumentation auf einem Marktplatz veröffentlichen – mangels eines bestehenden Systems beschließt Premium Offices, seine ersten Data Products in einem speziellen Bereich seines Unternehmenswikis zu dokumentieren.

Dieser erste Satz von Regeln wird natürlich weiterentwickelt werden müssen, aber er definiert einen ersten pragmatischen Rahmen, um die DATSIS-Merkmale von Datenprodukten zu gewährleisten und nutzt dazu ausschließlich bereits vorhandene Technologien und Kompetenzen. Für sein Pilotprojekt entschied sich Premium Offices dafür, die Architektur auf zwei Datenprodukte aufzuteilen:

  • Tenancy analytics dieses erste Datenprodukt bietet Analysefunktionen für Mietverträge – Einheit, Muttergesellschaft, Standort der Immobilie, Beginn des Mietvertrags, Ende des Mietvertrags, Art des Mietvertrags, Höhe der Miete usw. Es wird in Form eines kleinen Sterndiagramms modelliert, das die Analyse nach zwei Dimensionen ermöglicht: Zeit und Mieter – das sind die Analysedimensionen, die für den Aufbau der ersten Version des Dashboards benötigt werden. Es umfasst auch eine oder zwei Ansichten, die das Sternschema nutzen, um voraggregierte Daten bereitzustellen – diese Ansichten bilden die öffentliche Schnittstelle des Data Products. Schließlich enthält es noch eine Ansicht, mit der die aktuelle Liste der Mieter abgerufen werden kann.

 

  • Entity ratings – dieses zweite Datenprodukt liefert temporale Bewertungen der Einheiten in Form eines einfachen Datensatzes und einer gespiegelten Ansicht, die als Schnittstelle dient und den gemeinsamen Regeln entspricht. Das Rating wird von einem spezialisierten Anbieter bezogen, der es über APIs zur Verfügung stellt. Um diese API aufzurufen, muss eine Liste von Einheiten bereitgestellt werden, die über die entsprechende Schnittstelle des Datenprodukts Tenancy Analytics erzeugt wird.
Zusammenfassend lässt sich sagen, dass ein produktorientierter Ansatz und die Verarbeitung von Daten als Produkt für Unternehmen, die ihr Datenmanagement dezentralisieren möchten, von entscheidender Bedeutung sind. Dieser Ansatz fördert eine Kultur der Verantwortlichkeit, Standardisierung und Effektivität bei der Datenverarbeitung zwischen den verschiedenen Domänen. Wenn Organisationen Daten als wertvolles Gut betrachten und strukturierte Management-Frameworks einsetzen, können sie sicherstellen, dass die Daten konsistent, zuverlässig und nahtlos in alle ihre Aktivitäten integriert sind.

In unserem letzten Artikel dieser Reihe werden wir uns mit dem vierten und letzten Prinzip des Data Mesh beschäftigen: Federated Computational Governance.

Praxisleitfaden Data Mesh: Ein unternehmensweites Data Mesh einrichten und überwachen

 

Dieser Leitfaden von Guillaume Bodet, Mitbegründer und CPTO von Zeenea, vermittelt Ihnen einen praktischen Ansatz zur Implementierung eines Data Mesh in Ihrer Organisation und hilft Ihnen:

✅ Ihren Data-Mesh-Ansatz mit einem fokussierten Pilotprojekt zu starten,

✅ effektive Methoden kennenzulernen, um Ihr Data Mesh zu skalieren,

✅ die entscheidende Rolle eines internen Data Marketplaces zu verstehen, um die Nutzung von Datenprodukten zu erleichtern

✅ zu verstehen, was Zeenea als robustes, unternehmensweites Data-Mesh-Monitoring-System auszeichnet.

Was ist eine API?

Was ist eine API?

Sie haben sicher schon von APIs gehört … Sie sind allgegenwärtig, aber dennoch unbekannt. Möchten Sie alles über APIs – Application Programming Interfaces – erfahren? Lassen Sie uns einen Blick auf ihre Rolle, ihre Stärken und ihre Funktionsweise werfen!

API … Drei Buchstaben, ohne die Unternehmen heute ihre Datenstrategien nicht so einfach umsetzen könnten. Ein Application Programming Interface (API) ist ein Satz von Regeln und Protokollen, die es zwei verschiedenen Softwareprodukten ermöglichen, miteinander zu kommunizieren. Eine solche Schnittstelle definiert die Methoden und Datenformate, die für den Austausch von Informationen zulässig sind, und erleichtert so die Integration verschiedener Anwendungen oder Dienste.

Das Konzept der API stammt aus den frühen Tagen der Informatik. In den 2000er Jahren, mit dem Wachstum des Internets und der Entstehung von Webdiensten, gewannen APIs zunehmend an Bedeutung. Die Unternehmen haben damit begonnen, APIs bereitzustellen, um die Integration ihrer Dienste mit anderen Anwendungen und Systemen zu ermöglichen. Schätzungen zufolge wurden im Jahr 2020 weltweit knapp 2 Milliarden Euro in die Entwicklung von APIs investiert!

 

Wie funktioniert eine API?

 

In der Welt der Diplomatie gibt es Dolmetscher. In der IT-Welt gibt es APIs. Dieser etwas triviale Vergleich fasst die Funktion einer API zusammen. Sie fungiert als Vermittler, der Anfragen empfängt und strukturierte Antworten zurücksendet. Eine API funktioniert durch die Definition von Endpunkten (Endpoints), auf die über HTTP-Anfragen zugegriffen werden kann. Diese Endpunkte repräsentieren spezifische Funktionen der Anwendung und die Entwickler interagieren mit ihnen über standardmäßige HTTP-Methoden wie GET, POST, PUT und DELETE. Die Daten werden dann im JSON- oder XML-Format ausgetauscht. Die API spezifiziert die erforderlichen Parameter, die erwarteten Datentypen und die möglichen Antworten. Die HTTP-Anfragen enthalten Informationen wie Header und Body, welche die Übertragung von Daten ermöglichen. Die Antworten geben Statuscodes zurück, um Erfolg oder Misserfolg anzuzeigen, zusammen mit strukturierten Daten.

Die API-Dokumentation, die in der Regel auf Spezifikationen wie OpenAPI basiert, beschreibt detailliert, wie mit jedem Endpunkt interagiert werden kann. Authentifizierungs-Tokens können verwendet werden, um die Sicherheit beim Zugriff auf die API zu gewährleisten. Zusammenfassend kann man sagen, dass eine API als externe Schnittstelle fungiert, die die Integration und Kommunikation zwischen verschiedenen Anwendungen oder Diensten erleichtert.

Welche Vorteile bieten APIs?

 

Die Verwendung von APIs bietet zahlreiche Vorteile in der Welt der Software und der Systemintegration. Sie erleichtern den Zugang zu den Funktionen einer Anwendung und ermöglichen es Entwicklern, externe Dienste zu nutzen, ohne deren interne Implementierung verstehen zu müssen. Das fördert die Modularität und beschleunigt die Entwicklung von Verbindungen zwischen Geschäftslösungen, die für die Effizienz Ihrer Mitarbeiter unerlässlich sind.

Darüber hinaus erleichtern APIs die Integration zwischen verschiedenen Anwendungen und schaffen so miteinander verbundene Software-Ökosysteme. Was sind die wichtigsten Vorteile? Eine erheblich verbesserte betriebliche Effizienz! Updates oder Verbesserungen können an einer API vorgenommen werden, ohne die Kunden, die sie nutzen, zu beeinträchtigen. Die Wiederverwendung von Code wird gefördert, da Entwickler vorhandene Funktionen über APIs nutzen können, anstatt ähnliche Lösungen neu zu erstellen. Das führt zu erheblichen Einsparungen bei den Entwicklungskosten und kürzeren Vorlaufzeiten, was zur Agilität Ihres Unternehmens beiträgt.

Und zu guter Letzt bieten APIs eine Perspektive für eine verbesserte Zusammenarbeit zwischen Teams, da verschiedene Gruppen unabhängig voneinander arbeiten können, indem sie APIs als definierte Schnittstellen nutzen.

Die verschiedenen Arten von APIs

 

APIs sind eine große Familie! Es gibt verschiedene Arten, die jeweils spezifische Anforderungen erfüllen.

Open API

 

Wird auch als externe API oder öffentliche API bezeichnet und ist so konzipiert, dass sie der Öffentlichkeit zur Verfügung steht. Open APIs arbeiten mit Standards wie REST oder GraphQL. Sie fördern die Zusammenarbeit, indem sie externen Entwicklern oder anderen Anwendungen einen kontrollierten Zugriff auf die Funktionen und Daten eines bestimmten Dienstes ermöglichen.

Partner API

 

Partner APIs sind, wie der Name schon sagt, für bestimmte Partner oder vertrauenswürdige externe Entwickler bestimmt. Diese APIs bieten einen stärker eingeschränkten und sicheren Zugang. Sie werden häufig genutzt, um die Funktionalität einer Anwendung auf strategische Partner auszuweiten, ohne die gesamte Funktionalität der Öffentlichkeit zugänglich zu machen.

Composite API

 

Hinter dem Begriff Composite API verbirgt sich die Kombination mehrerer unterschiedlicher API-Aufrufe in einer einzigen Anfrage. Der Vorteil? Das erleichtert den Zugriff auf mehrere Funktionen mit einer einzigen Anfrage, wodurch die Komplexität der Interaktionen verringert und die Leistung verbessert wird.

Internal API

 

Dieser API-Typ ist für den Einsatz innerhalb eines Unternehmens konzipiert und erleichtert die Kommunikation zwischen den verschiedenen Teilen eines Systems oder zwischen verschiedenen internen Systemen. Er trägt zur Modularität und Konsistenz der Anwendungen innerhalb des Unternehmens bei.

Die verschiedenen API-Protokolle

 

Wenn man APIs mit Dolmetschern vergleichen kann, sind die Protokolle, die sie verwenden, gewissermaßen die Sprachen, mit denen sie kommunizieren. Es gibt vier Protokolle!

SOAP (Simple Object Access Protocol)

 

SOAP ist ein standardisiertes Protokoll, das XML verwendet und fortschrittliche Funktionen für Sicherheit und Transaktionsmanagement bietet. Es kann jedoch komplex sein und erhebliche Ressourcen binden.

XML-RPC (XML Remote Procedure Call)

 

Die entscheidende Qualität dieses Protokolls ist seine Einfachheit! Es ist XML-basiert und ermöglicht den Aufruf von Remote-Prozessen. Es ist zwar weniger komplex als SOAP, bietet aber auch nur eine begrenzte Funktionalität und wird oft durch modernere Alternativen ersetzt.

REST (Representational State Transfer)

 

REST basiert auf den Prinzipien von HTTP und verwendet Standardmethoden wie GET, POST, PUT und DELETE, um Ressourcen zu verarbeiten. Es nutzt das JSON-Dateiformat, welches ihm seine Einfachheit, Skalierbarkeit und Flexibilität verleiht!

JSON-RPC (JavaScript Object Notation Remote Procedure Call)

 

JSON-RPC ist schlank, JSON-basiert und erleichtert den Aufruf von Remote-Prozessen. Es bietet eine einfache Alternative zu XML-RPC und wird häufig in Web- und mobilen Umgebungen verwendet.

Die Hintergründe des Data Mesh: Best Practices für die Verwaltung von Metadaten

Die Hintergründe des Data Mesh: Best Practices für die Verwaltung von Metadaten

Da sich die Landschaft der Datenverwaltung ständig verändert, suchen die Unternehmen nach neuen, innovativen Ansätzen, um die Komplexität ihrer Datenlandschaft verwalten zu können. Das Konzept des Data Mesh ist einer dieser bemerkenswerten Trends, der zunehmend an Bedeutung gewinnt – ein dezentraler Ansatz für die Datenarchitektur mit Schwerpunkt auf eigenständigen, domänenorientierten Datenprodukten.

In diesem Artikel erfahren Sie mehr über die entscheidende Rolle von Metadaten und die Bedeutung ihrer effektiven Verwaltung im Kontext des Data Mesh.

Die Rolle von Metadaten im Data Mesh

 

Metadaten, die oft auch als „Daten über Daten“ bezeichnet werden, spielen eine zentrale Rolle bei der Bildung eines funktionierenden Datenökosystems. Sie gehen über die einfache Beschreibung von Datensätzen hinaus und beinhalten das Wissen um den Ursprung der Daten, ihre Qualität, ihre Transformationen usw. Zu den verschiedenen Arten von Metadaten zählen:

  • Technische Metadaten: Konzentrieren sich auf die technischen Aspekte der Daten, wie Format, Schema, Lineage und Speicherdetails.
  • Business-Metadaten: Beziehen sich auf die geschäftlichen Aspekte der Daten, wie z. B. den Datenverantwortlichen, Verwaltungsregeln, Definitionen und andere Details, die die Daten mit den Geschäftszielen des Unternehmens in Einklang bringen.
  • Operative Metadaten: Liefern Informationen über die täglichen datenbezogenen Operationen, einschließlich der Verarbeitungsabläufe, der Aktualisierungszeiten und aller operativen Abhängigkeiten.
  • Kollaborative Metadaten: Erfassen Informationen über Benutzerinteraktionen, Anmerkungen und Kommentare, die mit Datenbeständen verbunden sind.

Im dezentralen Rahmen eines Data Mesh dienen die Metadaten als Bindeglied zwischen den verschiedenen Datendomänen mit ihren Metadaten. Je stärker die Daten zwischen verschiedenen Teams zirkulieren, desto mehr werden die Metadaten zum Leitfaden, der dabei hilft, sich in der vielfältigen Datenlandschaft zurechtzufinden.

Metadaten sind daher eine wertvolle Hilfe bei der Bereitstellung von Informationen über die Struktur und den Inhalt ihrer Datenbestände. Sie erleichtern den Nutzern die Data Discovery, da sie es erleichtern, spezifische Daten, die ihren Anforderungen entsprechen, zu unterscheiden und zu finden.

Darüber hinaus bilden Metadaten die Grundlage für die Data Governance, indem sie einen Rahmen für die einheitliche Anwendung von Qualitätsstandards, Sicherheitsprotokollen und Compliance-Maßnahmen über verschiedene Unternehmensbereiche hinweg bieten. Sie spielen eine entscheidende Rolle bei der Zugriffskontrolle und stellen sicher, dass die Nutzer nicht nur informiert sind, sondern auch die festgelegten Zugriffsrichtlinien einhalten.

Die Herausforderungen des Metadaten-Managements im Data Mesh

 

Eine große Herausforderung stellt die dezentrale Natur eines Data Mesh dar. In einer traditionellen zentralisierten Datenarchitektur wird die Verwaltung der Metadaten oft von einem dedizierten Team oder einer Abteilung übernommen, wodurch Konsistenz und Standardisierung gewährleistet sind. In einem Data Mesh ist jedoch jedes Domänenteam für die Verwaltung seiner eigenen Metadaten verantwortlich. Dieser dezentrale Ansatz kann zu unterschiedlichen Praktiken in Bezug auf Metadaten in verschiedenen Domänen führen, was die Aufrechterhaltung einheitlicher Standards und die konsequente Anwendung der Datenverwaltungsrichtlinien des Unternehmens erschwert.

Die Vielfalt der Datenquellen und Domänen innerhalb eines Data Mesh stellt eine weitere zentrale Herausforderung bei der Verwaltung von Metadaten dar: Verschiedene Bereiche können verschiedene Werkzeuge, Schemata und Strukturen verwenden, um ihre Daten zu organisieren und zu beschreiben. Das Management von Metadaten über diese verschiedenen Quellen hinweg erfordert die Festlegung gemeinsamer Metadatenstandards, um die Kompatibilität zu gewährleisten, was eine komplexe und zeitintensive Aufgabe sein kann. Die Heterogenität der Datenquellen fügt der Erstellung eines kohärenten und standardisierten Metadatenrahmens eine weitere Komplexitätsebene hinzu.

Die Gewährleistung von Konsistenz und Qualität der Metadaten in einer Data-Mesh-Umgebung ist eine ständige Herausforderung. Da mehrere Domänenteams ihre Metadaten unabhängig voneinander verwalten, ist es von entscheidender Bedeutung, die Einheitlichkeit zu wahren. Inkonsistenzen in den Metadaten können zu Missverständnissen, Fehlinterpretationen und Fehlern bei der Datenanalyse führen.

Best Practices für das Metadaten-Management in einem Data Mesh

 

Um diese Herausforderungen zu bewältigen, finden Sie hier einige Best Practices für die Verwaltung von Metadaten in Ihrer Organisation.

Zunächst müssen Sie klare und standardisierte Metadaten-Definitionen über alle Domänen hinweg festlegen, um Konsistenz, Interoperabilität und ein gemeinsames Verständnis der Datenelemente zu gewährleisten. Klare Definitionen schaffen eine gemeinsame Sprache und einen Rahmen für eine einheitliche Beschreibung und ein einheitliches Verständnis der Daten in der gesamten Organisation.

Darüber hinaus spielen standardisierte Definitionen von Metadaten eine entscheidende Rolle bei der Datenverwaltung. Sie bieten eine Grundlage für die einheitliche Anwendung von Datenqualitätsstandards, Sicherheitsprotokollen und Compliance-Maßnahmen über verschiedene Domänen hinweg. Das stellt sicher, dass die Daten nicht nur konsistent beschrieben werden, sondern auch den Unternehmensrichtlinien und gesetzlichen Anforderungen entsprechen, was zu einem robusten und konformen Daten-Ökosystem beiträgt.

Ebenso wichtig ist es jedoch, den Domänenteams die Verantwortung und Autonomie für ihre eigenen Metadaten zu geben. Dieser dezentrale Ansatz fördert ein Gefühl der Verantwortung und des Fachwissens bei denjenigen, die ihre Daten am besten kennen. Wenn Unternehmen den Domänenteams die Kontrolle über ihre Metadaten übertragen, nutzen sie deren Kompetenzen, um Genauigkeit, Konsistenz und Zuverlässigkeit über alle Datendomänen hinweg zu gewährleisten. Dieser Ansatz fördert die Anpassungsfähigkeit innerhalb der einzelnen Domänen und trägt zu einer zuverlässigen und fundierten Datenverwaltungsstrategie bei.

Diese Doppelstrategie ermöglicht sowohl eine zentralisierte Governance, die unternehmensweite Standards sicherstellt, als auch dezentralisierte Verantwortlichkeiten, die Agilität und domänenspezifisches Wissen innerhalb der Landschaft eines Data Mesh fördern.

Der Leitfaden zur Erklärung des Unterschieds zwischen Business Glossary, Data Catalog und Data Dictionary

Der Leitfaden zur Erklärung des Unterschieds zwischen Business Glossary, Data Catalog und Data Dictionary

Sie haben die Daten in den Mittelpunkt aller Strategien Ihres Unternehmens gestellt, aber die Datenmenge, die Sie verarbeiten müssen, explodiert. Sie benötigen daher nicht nur einen vollständigen Überblick über Ihre Datenbestände, sondern auch eine Vorstellung davon, wie diese genutzt werden können.

Dazu können Sie die Maßnahmen und Vorteile von drei wesentlichen Tools kombinieren: Data Catalog, Data Dictionary und Business Glossary. Lesen Sie unseren Leitfaden!

Daten zu produzieren ist sehr gut. Business-Intelligence daraus zu ziehen, ist noch besser! Da die Entwicklung einer echten Datenkultur den Schwerpunkt Ihrer Entwicklungsstrategie bildet, müssen Sie die in den Daten verfügbaren Informationen in ein operatives Werkzeug zur Entscheidungsfindung oder zur Orientierung vor Ort umwandeln. Mit einem Ansatz, der Daten und Geschäft miteinander verbindet, verleihen Sie Ihrem Unternehmen (und Ihren Teams) neuen Schwung.

Dafür müssen Sie sich jedoch auf drei wesentliche Tools stützen: einen Data Catalog, ein Data Dictionary und ein Business Glossary. Drei unverzichtbare Lösungen, die Ihnen helfen, Ihre Organisation und Ihre Datenmanagementstrategie zu verbessern. Und obwohl sie miteinander verbunden sind, sind diese Tools tatsächlich sehr unterschiedlich!

Was ist ein Datenkatalog und was sind seine wichtigsten Vorteile

 

Ein Datenkatalog ist ein detailliertes Inventar, in dem die Daten aus allen Datenquellen Ihres Unternehmens aufgelistet sind. Wenn sie vollständig katalogisiert wurden, sind die Daten für Ihre Teams leichter zugänglich, verständlicher und besser nutzbar. Ein Datenkatalog kann verschiedene Arten von Informationen sammeln und auflisten, z. B. Datensätze und ihre zugehörigen Felder, Datenprozesse, Visualisierungen, Glossarobjekte (siehe Abschnitt unten) oder auch personalisierte Informationen, die für Ihr Unternehmen typisch sind.

Der Data Catalog spielt eine entscheidende Rolle in Ihrer Datenstrategie, da er Ihre Daten rationalisiert, indem er einen Überblick über die Datenqualität, die Verfügbarkeit und die zugehörigen Metadaten wie Beschreibungen, Eigentümer, Herkunft, Formate usw. liefert. Einer der größten Vorteile eines Datenkatalogs besteht darin, dass er die Zusammenarbeit rund um die Daten in Ihrer Organisation fördert, da er es Ihren Teams ermöglicht, zusammenzuarbeiten, um Daten effektiver zu identifizieren, zu verstehen und zu nutzen.

Schließlich ermöglicht der Datenkatalog durch die Zentralisierung der verfügbaren Informationen die Aufrechterhaltung eines hohen Qualitätsniveaus der Datenbestände, indem er sicherstellt, dass die Daten korrekt identifiziert, klassifiziert, dokumentiert und gepflegt werden.

Warum sollte man ein Business Glossary einführen und wozu?

 

Ein Business Glossary ist ein Instrument, das dabei hilft, ein gemeinsames Verständnis von Begriffen und Definitionen im Zusammenhang mit den in einem Unternehmen verwendeten Begriffen zu schaffen. Es hat die Aufgabe, die Kommunikation zu erleichtern und Fehler oder Missverständnisse bei der Verwendung von Begriffen in Ihrem Unternehmen zu reduzieren. Es kann Definitionen von technischen, finanziellen und geschäftlichen Begriffen, Normen und Verfahren oder andere für Ihr Unternehmen relevante Bereiche umfassen.

Wenn Sie ein Business Glossary erstellen, führt dies fast automatisch auch zu einer Verbesserung der Datenqualität, da Sie sicherstellen, dass die Daten eindeutig definiert und verstanden werden. Im Fokus: eine Verringerung der Fehler bei der Eingabe, eine Standardisierung der Datenformate und eine höhere Datenzuverlässigkeit.

Darüber hinaus hat ein Business Glossary den Vorteil, dass es Sie bei der besseren Verwaltung der Compliance unterstützt, indem es Begriffe und Definitionen standardisiert, die in Berichten und Compliance-Dokumenten verwendet werden.

Schließlich trägt ein Business Glossary zu schnelleren und zuverlässigeren Entscheidungen bei, da es eine gemeinsame Wissensbasis für alle Beteiligten in der Entscheidungskette bietet.

Wie unterscheidet es sich von einem Data Dictionary?

 

Das Data Dictionary (Datenwörterbuch) ist eine dritte Lösung, mit der Sie Ihre Datenstrategie stärken und dynamischer gestalten können. Dieses Datenmanagement-Tool liefert detaillierte Informationen über die in Ihrem Unternehmen verwendeten Daten und stützt sich dabei auf eine Reihe von Metadaten. Diese Metadaten beschreiben die Daten, ihre Struktur, ihr Format, ihre Bedeutung, ihren Eigentümer und ihre Verwendung.

Diese Beschreibung hilft Ihren Mitarbeitern, die täglich mit den Daten arbeiten, die Daten zu verstehen und sie besser zu nutzen. Das Data Dictionary ist auch ein wichtiges Instrument für das Datenqualitätsmanagement, da es hilft, Fehler und Inkonsistenzen zu identifizieren.

Letztendlich erleichtert das Data Dictionary die Wiederverwendung von Daten, da es Informationen über vorhandene Daten und ihre Bedeutung bereitstellt. So können sie leicht in neue Anwendungen oder Projekte integriert werden.

Haben Sie Lust, Ihrer Datenstrategie neuen Schwung zu verleihen? Durch die Kombination von Business Glossary, Data Catalog und Data Dictionary können Sie sich auf eine vollständige und konsistente Sicht der in Ihrem Unternehmen verwendeten Daten und Geschäftsbegriffe stützen.

Metadaten-Management und Masterdaten-Management: Unterschiede und Gemeinsamkeiten

Metadaten-Management und Masterdaten-Management: Unterschiede und Gemeinsamkeiten

Um ein geeignetes Kundenerlebnis sicherzustellen, die Innovation voranzutreiben und die internen Prozesse oder Produktionsprozesse zu verbessern, setzen die Unternehmen vermehrt auf Daten. Zahlreiche Unternehmen versuchen, diese gigantischen Ressourcen besser zu nutzen und eine strenge Data Governance sicherzustellen. Erfahren Sie in diesem Artikel mehr über die Unterschiede und Gemeinsamkeiten zwischen zwei zentralen Konzepten, um zu einem datengesteuerten Unternehmen zu werden: dem Metadaten-Management und dem Masterdaten-Management.

Laut einer Ende 2022 durchgeführten Studie mit dem Titel „The Strategic and Evolving Role of Data Governance“ der Enterprise Strategy Group (ESG) stellen die Unternehmen alle zwei Jahre eine Verdoppelung ihres Datenvolumens fest. Im Durchschnitt gaben die befragten Organisationen an, ein Datenvolumen von 3 Petabyte zu verwalten, wovon etwa zwei Drittel unstrukturiert sind. Die Ergebnisse der Studie zeigen außerdem einen durchschnittlichen jährlichen Anstieg von 40 %, d. h. eine Verdoppelung alle zwei Jahre. Und 32 % der Befragten gaben sogar einen jährlichen Anstieg von mehr als 50 % an!

Angesichts des exponentiell wachsenden Datenvolumens stehen Unternehmen vor der großen Herausforderung, eine optimale Verwaltung der Daten und Metadaten zu gewährleisten – auch auf die Gefahr hin, dass ihre Kosten explodieren, wenn sie Fehler und falsche Annäherungen machen. Laut jüngsten Schätzungen des Gartner-Instituts kostet eine schlechte Datenqualität Unternehmen aller Branchen jedes Jahr fast 13 Milliarden Dollar. Um dieser Herausforderung zu begegnen, geben Metadaten-Management und Masterdaten-Management (MDM) den Unternehmen wichtige Prozesse an die Hand, um das Wissen zu erlangen, das sie benötigen, um die Herausforderungen ihrer Märkte zu meistern und gleichzeitig die Bereiche, in denen sie dem Risiko von Mehrkosten ausgesetzt sind, zu begrenzen.

Definition der Konzepte Metadaten-Management & Masterdaten-Management

 

Lassen Sie uns zunächst die Begriffe klären: Das Metadaten-Management ist die Gesamtheit der Verfahren und Tools, mit denen die Metadaten eines Informationssystems effizient und einheitlich verwaltet werden können. In dieser Hinsicht zielt das Metadaten-Management darauf ab, die Qualität, Relevanz und Zugänglichkeit von Metadaten sowie ihre Übereinstimmung mit den geltenden Normen und Standards zu gewährleisten.

Das Masterdaten-Management (MDM) umfasst alle Techniken und Prozesse für die zentrale, einheitliche und zuverlässige Verwaltung von Stammdaten. Diese Stammdaten, die auch als „Masterdaten“ bezeichnet werden, sind kritische Informationen, die für die Geschäftstätigkeit eines Unternehmens absolut unerlässlich sind. Dazu gehören Informationen über Kunden, Lieferanten, Produkte, Betriebs- und Produktionsstätten oder auch Daten über Mitarbeiter. Die Aufgabe des Masterdaten-Managements besteht darin, ein zentrales Repository für diese Referenzdaten aufzubauen, das dann von den verschiedenen Anwendungen und Systemen des Unternehmens genutzt wird. Dieses Repository stellt eine Garantie für den Zugang zu zuverlässigen und konsistenten Daten dar.

Was sind die Unterschiede zwischen Metadaten-Management und Masterdaten-Management?

 

Obwohl beide Konzepte mit der Datenverwaltung zu tun haben, verfolgen Metadaten-Management und Masterdaten-Management (MDM) unterschiedliche Ziele und Ansätze.

Während es beim Metadaten-Management vor allem um die Verwaltung von Informationen geht, welche die Daten, ihren Kontext und ihre Verwendung beschreiben, konzentriert sich das MDM auf die Verwaltung der für das Unternehmen entscheidenden Stammdaten. Diese beiden unterschiedlichen Umfänge machen das Metadaten-Management und das Masterdaten-Management zu zwei komplementären Disziplinen für Ihre Datenstrategie. Während sich das Metadaten-Management auf die Beschreibung und Nutzung von Daten konzentriert, liegt der Schwerpunkt des MDM auf der Verwaltung und Harmonisierung der unternehmenskritischen Stammdaten.

Was haben Masterdaten-Management und Metadaten-Management gemeinsam?

 

Die erste Gemeinsamkeit zwischen Masterdaten-Management und Metadaten-Management ist, dass beide zur Effizienz und zum Erfolg Ihrer datengetriebenen Projekte beitragen. Denn beide zielen darauf ab, die Qualität, Relevanz und Konsistenz der Daten zu gewährleisten – aber sie setzen jeweils den Einsatz spezieller Prozesse und Werkzeuge voraus. Schließlich werden die beiden Disziplinen integriert und tragen zu einem umfassenderen Ansatz der Datenverwaltung bei.

In Kombination versetzen sie Ihr Unternehmen in die Lage, agiler, effizienter und verantwortungsbewusster zugleich zu sein!

5 zentrale Funktionen von Zeenea für ein Fünf-Sterne-Data-Stewardship-Programm

5 zentrale Funktionen von Zeenea für ein Fünf-Sterne-Data-Stewardship-Programm

Sie verarbeiten Daten, riesige Mengen an Daten … Aber diese Daten sind oft über verschiedene Tools, Plattformen, Datenbanken, Tabellen usw. verteilt. Darüber hinaus sind einige Ihrer Daten unzugänglich oder – noch schlimmer – für unberechtigte Personen zugänglich. Als Experten für Unternehmensdaten müssen Data Stewards in der Lage sein, das Wer, Was, Wann, Wo und Warum ihrer Daten zu identifizieren, um ein zuverlässiges Data-Stewardship-Programm zu entwickeln.

Leider stehen Data Stewards oft vor einem großen Hindernis: dem Mangel an Tools, die sie in dieser Rolle unterstützen. Wenn es um große Datenmengen geht, können die Pflege der Datendokumentation, die Verwaltung der Metadaten Ihres Unternehmens und die Lösung von Qualitäts- und Governance-Problemen sehr schwierig sein.

Und genau hier kann Zeenea intervenieren und Ihnen helfen. Unsere Data-Discovery-Plattform – und ihre intelligenten und automatisierten Funktionen für das Metadaten-Management – machen Data Stewards das Leben leichter. In diesem Artikel erfahren Sie mehr über 5 zentrale Funktionen unserer Software für ein Fünf-Sterne-Data-Stewardship-Programm.

Funktion 1: Universelle Konnektivität

Automatische Inventarisierung der Metadaten Ihrer Datenquellen

Wie bereits erwähnt, sind Unternehmensdaten über zahlreiche Datenquellen verteilt, was die Verwaltung und umfassende Kontrolle des Datenbestands durch Data Stewards erschwert oder sogar unmöglich macht. Zu diesem Zweck bietet Zeenea eine Lösung zur Katalogisierung von Daten der neuesten Generation, die alle Metadaten des Unternehmens in einer einzigen Quelle der Wahrheit zentralisiert. Die große Auswahl an nativen Konnektoren unserer Plattform ruft über unsere APIs und Scanner automatisch Metadaten ab, sammelt und synchronisiert sie.

Funktion 2: Ein flexibles und individuell anpassbares Metamodell

Automatisierung der Datendokumentation

Die Dokumentation von Daten kann extrem zeitaufwändig sein, manchmal müssen Tausende von Properties, Feldern und anderen wichtigen Metadaten implementiert werden, damit die Fachteams den Kontext der Daten, auf die sie zugreifen, vollumfänglich verstehen.

Zeenea bietet einen flexiblen und individuell anpassbaren Weg, um vorkonfigurierte Metamodell-Templates für Objekte (Datensätze, Felder, Datenprozesse usw.) und eine unbegrenzte Anzahl von benutzerdefinierten Objekten (Verfahren, Regeln, KPIs, Vorschriften usw.) zu erstellen.

Importieren oder erstellen Sie Ihre Dokumentationsvorlagen einfach, indem Sie Ihre vorhandenen Properties sowie Ihre Tags und andere benutzerdefinierte Metadaten in Ihre Templates ziehen. Haben Sie in einem Template einen Fehler gemacht? Kein Problem! Fügen Sie Eigenschaften und Abschnitte nach Belieben hinzu, löschen oder bearbeiten Sie diese – Ihre Elemente werden automatisch aktualisiert, sobald sie bearbeitet wurden.

Nachdem Sie Ihre Templates erstellt haben, können Sie alle Assets, aus denen Ihr Metamodell besteht, und ihre Beziehungen zueinander, mithilfe unseres dynamischen Diagramms leicht visualisieren. Das intuitive Design zeigt die Details jedes Objekttyps – ihre Abschnitte und Eigenschaften – und aktualisiert sich automatisch nach jeder Änderung. Sie können auch in ein beliebiges Objekt hinein- oder herauszoomen und ein Bild Ihres Metamodells exportieren.

Das Gleiche gilt für Ihre Glossary-Objekte! Wir haben die physische und die logische Ebene des Glossary-Metamodells getrennt, damit Data Stewards und andere Mitwirkende ihre Fachbegriffe leicht definieren und finden können. Mithilfe desselben Verfahrens wie beim physischen und logischen Metamodell erstellen oder importieren Sie semantische Objekte, ordnen diese in Hierarchien an und konfigurieren, wie die Elemente Ihres Glossars mit technischen Elementen verknüpft sind.

Funktion 3: Automatische Data-Lineage

Verfolgung Ihrer Datentransformationen

Data-Lineage-Funktionen spielen eine zentrale Rolle, damit Data Stewards genaue und zuverlässige Compliance-Berichte erstellen können. Viele Softwareentwickler bieten Lineage-Funktionen an, aber nur wenige verstehen sie wirklich. Aus diesem Grund bietet Zeenea ein interaktives Data-Lineage-Diagramm an, mit dem Ihre Benutzer über eine visuelle und leicht verständliche Schnittstelle durch den Lebenszyklus ihrer Daten navigieren können. Klicken Sie auf ein beliebiges Objekt, um eine Übersicht über seine Dokumentation, seine Beziehungen zu anderen Objekten sowie seine Metadaten zu erhalten. So erhalten Sie eine 360°-Ansicht der Elemente in Ihrem Data Catalog.

Funktion 4: Intelligente Vorschläge

Schnelle Identifizierung personenbezogener Daten

Aufgrund der DSGVO, des California Consumer Privacy Acts und anderer Vorschriften über die Sicherheit und Vertraulichkeit persönlicher Daten kann es mühsam sein, jeden vorhandenen Datensatz durchzugehen, um sicherzustellen, dass die Daten korrekt als personenbezogen gekennzeichnet wurden. Um sicherzustellen, dass Ihre Daten immer korrekt identifiziert werden, analysiert Zeenea Ähnlichkeiten zwischen vorhandenen persönlichen Daten, indem es Felder identifiziert und Vorschläge macht, was als „personenbezogen“ markiert werden sollte. Ihre Data Stewards können diese Vorschläge direkt von ihrem Dashboard aus annehmen, ignorieren oder löschen.

Funktion 5: Ein effektives Berechtigungsmodell

Gewährleisten, dass die richtigen Personen auf die richtigen Daten zugreifen

Für Organisationen, in denen verschiedene Arten von Benutzern auf den Datenbestand zugreifen, ist es nicht sinnvoll, jeder Person einen Vollzugriff zu gewähren, um alles ändern zu können. Vor allem, wenn es sich um sensible oder persönliche Informationen handelt. Aus diesem Grund hat Zeenea ein Modell für Berechtigungssätze entwickelt, mit dem Data Stewards die Effizienz Ihres Unternehmens steigern und das Risiko von Fehlern verringern können. Vergeben Sie Lese-, Bearbeitungs- und Administrationsrechte in allen oder verschiedenen Teilen des Data Catalogs, um nicht nur die Sicherheit Ihres Katalogs zu gewährleisten, sondern auch um Zeit zu sparen, wenn Datenkonsumenten den Bezug einer Information finden müssen.

Sind Sie bereit, Ihr Data Stewardship-Programm mit Zeenea zu starten?

Wenn Sie an den Funktionen von Zeenea für Ihre Dokumentations- und Stewardship-Anforderungen interessiert sind, kontaktieren Sie uns für eine 30-minütige persönliche Demo mit einem unserer Datenexperten.

Was ist der Unterschied zwischen einer Data Fabric und einem Data Mesh?

Was ist der Unterschied zwischen einer Data Fabric und einem Data Mesh?

Jahrelang standen Unternehmen vor der Herausforderung, Daten zu sammeln. Nun besteht die eigentliche Herausforderung darin, eine schwer zu kontrollierende Datenfülle mithilfe von Insights zu durchdringen. Zahlreiche Technologien und Lösungen versprechen eine optimale Verarbeitung und Verwertung Ihrer Daten. Dazu gehören unter anderem die Data Fabric und das Data Mesh. Auch wenn diese Konzepte ähnlich erscheinen mögen, gibt es grundlegende Unterschiede zwischen den beiden Ansätzen. Einige Erklärungen.

Kundenkenntnis ist eine Voraussetzung, um sich in einem besonders wettbewerbsintensiven Umfeld zu differenzieren, digitale Wege und Nutzungsszenarien entwickeln sich, und die Datenmengen, die Ihrem Unternehmen zur Verfügung stehen, explodieren förmlich! Doch die Fülle an Informationen ist ohne Insights und differenzierte Auswertung nichts wert. Diese Tatsache beeinflusst das gesamte Datenökosystem.

Wenn man die Prognosen von Gartner zugrunde legt, werden bis 2024 mehr als 25 % der Anbieter von Datenmanagement-Lösungen eine umfassende Unterstützung der Datenstruktur bieten, und zwar durch eine Kombination ihrer eigenen Produkte und der Produkte von Partnern. Im Vergleich: Heute tun dies weniger als 5 %.

In diesem Zusammenhang können mehrere Wege beschritten werden, aber zwei Wege stechen aus der Masse hervor: Data Fabric und Data Mesh.

Was ist eine Data Fabric?

Das Konzept der Data Fabric wurde von Gartner im Jahr 2019 eingeführt. Das renommierte Institut beschreibt eine Data Fabric als die kombinierte Nutzung mehrerer bestehender Technologien, um eine metadatenbasierte Implementierung und ein erweitertes Design von Orchestrierungen zu ermöglichen.

Anders ausgedrückt: Die Data Fabric stellt eine Umgebung dar, in der Daten und Metadaten kontinuierlich analysiert werden, um sie fortlaufend anzureichern und optimal zu nutzen. Es ist aber Vorsicht geboten! Eine Data Fabric ist kein fertiges Produkt oder gar eine fertige Lösung. Sie ist eine Umgebung, die zusammengesetzt werden kann, und die auf der Kombination verschiedener Lösungen oder Anwendungen basiert, die miteinander interagieren, um die Daten aufzuarbeiten.

Die Data Fabric stützt sich auf APIs und eine No-Code-Plattform, die Synergien zwischen verschiedenen Anwendungen und Diensten schafft, mit deren Hilfe Daten umgewandelt werden können, um über ihren gesamten Lebenszyklus hinweg die wirklich zentralen Informationen aus ihnen zu extrahieren. Schematisch betrachtet kann die Data Fabric mit einer Raffinerie und ihren vielen verschiedenen Rohrverbindungen verglichen werden.

Was ist ein Data Mesh?

Zhamak Dehghani von Thoughtworks gilt als Urheber des Konzepts des Data Mesh. Bereits Ende 2018 wurde die Definition festgelegt. Das Prinzip? Ein neuer Ansatz für die Datenarchitektur und eine neue Art der Organisation, die auf der Vernetzung von Daten beruht. Das Data Mesh basiert auf der Erstellung einer Datenstruktur mit mehreren Bereichen. Die Daten werden katalogisiert, identifiziert und nach ihrer Verwendung, ihrem Ziel oder ihrer möglichen Nutzung neu organisiert.

Das Data Mesh stützt sich auf einige grundlegende Prinzipien: den Data Owner, den Data Self-Service und die Interoperabilität. Diese drei Prinzipien ermöglichen eine dezentralisierte Datenverwaltung. Welche Vorteile bietet das? Interaktionen zwischen verschiedenen Bereichen mit unterschiedlichen Daten entstehen lassen, um immer mehr Insights zu erzeugen.

Die wichtigsten Unterschiede zwischen einer Data Fabric und einem Data Mesh

Um die Unterschiede zwischen Data Fabric und Data Mesh zu verstehen, wollen wir zunächst ihre Gemeinsamkeiten betrachten. In beiden Fällen gibt es keine „schlüsselfertige“ Lösung.

Während die Data Fabric auf einem flexiblen Ökosystem von Softwarelösungen zur Datennutzung beruht, ist das Data Mesh eine spezielle Art der Datenorganisation. Bei einem Data Mesh werden die Daten dezentral in ihrem jeweiligen Bereich innerhalb eines Unternehmens gespeichert. Jeder Knoten verfügt über einen lokalen Speicher und eigene Rechenleistung, und für den Betrieb ist kein zentraler Kontrollpunkt erforderlich.

Bei einer Data Fabric hingegen wird der Datenzugriff zentralisiert, mit Clustern von Hochgeschwindigkeitsservern für das Netzwerk und die gemeinsame Nutzung leistungsstarker Ressourcen. Auf der Ebene der Datenarchitektur gibt es ebenfalls Unterschiede. So führt das Data Mesh eine organisatorische Perspektive ein, die unabhängig von spezifischen Technologien ist. Seine Architektur folgt einem domänenorientierten Design und einem produktbezogenem Denken.

Data Mesh und Data Fabric folgen zwar unterschiedlichen Logiken, dienen aber dem gleichen Ziel: der optimalen Nutzung Ihrer Datenbestände. Daher sollte man sie trotz ihrer Unterschiede keinesfalls gegeneinander aufwiegen, sondern sie vielmehr als komplementär betrachten.

Die Fallstricke bei der Implementierung eines Datenkatalogs – Projektsteuerung

Die Fallstricke bei der Implementierung eines Datenkatalogs – Projektsteuerung

Metadaten-Management ist ein wichtiger Bestandteil eines jeden umfassenderen Datenmanagement-Projekts und erfordert mehr als die bloße Implementierung einer Datenkatalog-Software, egal wie vernetzt diese auch sein mag.

Zwar wird ein solches Tool das Metadaten-Management immer unterstützen, es kann jedoch nicht allein dessen Erfolg garantieren.

Diese Artikelserie ist inspiriert von Erfahrungen aus den unterschiedlichsten Branchen, Unternehmensgrößen und -kulturen und zeigt die wichtigsten Fallstricke und Missverständnisse auf, die Sie bei der Einführung eines unternehmensweiten Datenkatalogs unbedingt vermeiden sollten.

Die beschriebenen Fallstricke drehen sich um vier Themen, die für den Erfolg des Vorhabens von zentraler Bedeutung sind:

  1. Datenkultur
  2. Sponsorship
  3. Projektsteuerung
  4. Datenkatalog-Integration

Wie jedes Projekt muss auch die Einführung einer Metadaten-Management-Initiative gesteuert werden, um sicherzustellen, dass die Ziele in möglichst kurzer Zeit und zu geringen Kosten erreicht werden. Die Steuerung darf jedoch nicht selbst in die Irre führen, was wir im Folgenden illustrieren.

Die Quantität der Metadaten darf nie über der Qualität stehen

Der Geist verabscheut, wie die Natur, die Leere. Der Datenkatalog hat die Aufgabe, die mit den Unternehmensdaten verbundenen Vermögenswerte zu dokumentieren. Beim Start des Projekts führt das Fehlen von Elementen fast systematisch zu dem Reflex, den Katalog mit möglichst vielen Objekten zu füllen.

Ein guter Datenkatalog zeichnet sich jedoch nicht durch die Menge der vorhandenen Objekte aus, sondern durch die Qualität seines Inhalts und die Kohärenz der Informationen. Diese beiden Merkmale werden also eine Steuerung erfordern, um die Prioritäten zu ermitteln, zunächst in Bezug auf den Umfang und dann in Bezug auf die bereitzustellenden Informationen.

Was also auf den ersten Blick als frustrierend – weil einschränkend – erscheinen mag, wird sich sehr schnell als relevant, ja sogar als entscheidend für den Erfolg des Projekts erweisen. Die Nutzer werden den Datenkatalog zu Recht als eine “Source of Truth” betrachten, ähnlich wie ein Wörterbuch. Es ist immer besser, ausgewählten und qualitativ hochwertigen Inhalt anzubieten – vielleicht zuerst für eine bestimmte Zielgruppe -, der eine gute Erfahrung bietet, die dazu einlädt, für zukünftige Recherchen spontan auf das Tool zurückzugreifen.

Ein Datenkatalog füllt sich nicht von selbst, auch nicht, wenn er für die Nutzer geöffnet ist

Der Datenkatalog steht vielen Nutzern offen, von denen einige über Wissen über vorhandene Datenbestände verfügen. Es ist jedoch selten bis nie der Fall, dass sich spontan positive Kreise bilden, die zu einer natürlichen Aktualisierung des Inhalts des Datenkatalogs führen.

Die Realität sieht anders aus: Eine Begleitung zum Start, aber auch darüber hinaus, ist unerlässlich.

Die Qualität der Informationen, aber auch die Quantität müssen überwacht werden. Ebenso ist es wichtig, die involvierten Teams fortlaufend zu sensibilisieren und weiterzubilden. Dies kann auch durch die Einführung von formalen Prozessen unterstützt werden, die eine Kontrolle ermöglichen und zur Korrektur oder Erweiterung des Katalogs anregen.

Es ist unmöglich, alle Ziele des Datenkatalogs gleich zu Beginn des Projekts festzulegen, ohne sie jemals anzupassen

Der Datenkatalog muss die Erwartungen einer Vielzahl von Nutzern mit unterschiedlichen Bedürfnissen erfüllen.

Es ist daher utopisch zu glauben, dass man zu Beginn des Projekts eine vollständige Liste der Erwartungen kennt, bzw. diese Liste nach Start des Programms als endgültig fixiert anzusehen. Es ist daher die Aufgabe eines Data Offices, kontinuierlich Bedürfnisse zu sammeln und zu analysieren, sie zu verstehen und zu priorisieren, um sie in geeignete Inhalte umzusetzen.

In der Regel entwickeln sich die Bedürfnisse entlang verschiedener Parameter, die zu Beginn noch lange nicht feststehen. Beispiele hierfür sind der Reifegrad des Unternehmens und seiner Mitarbeiter in Bezug auf das Datenmanagement, der sich im Laufe der Zeit ändern wird, die Entwicklung der datenbezogenen Nutzungsmöglichkeiten oder auch die Entwicklung der rechtlichen Rahmenbedingungen.

All diese Parameter haben Einfluss auf den Inhalt, den der Datenkatalog abdecken muss, sowohl auf den Umfang als auch auf die Art der Informationen, die über die Daten bereitgestellt werden.

Die 10 Fallstricke bei der Implementierung eines Datenkatalogs

Wenn Sie mehr über die für ein erfolgreiches Datenkatalog-Projekt zu vermeidende Fallstricke erfahren möchten, laden Sie sich unser kostenloses eBook herunter!

Die 10 Fallstricke Bei Der Implementierung Eines Datenkatalogs Mockup
Die Fallstricke bei der Implementierung eines Datenkatalogs – Sponsorship

Die Fallstricke bei der Implementierung eines Datenkatalogs – Sponsorship

Metadaten-Management ist ein wichtiger Bestandteil eines jeden umfassenderen Datenmanagement-Projekts und erfordert mehr als die bloße Implementierung einer Datenkatalog-Software, egal wie vernetzt diese auch sein mag.

Zwar wird ein solches Tool das Metadaten-Management immer unterstützen, es kann jedoch nicht allein dessen Erfolg garantieren.

Diese Artikelserie ist inspiriert von Erfahrungen aus den unterschiedlichsten Branchen, Unternehmensgrößen und -kulturen und zeigt die wichtigsten Fallstricke und Missverständnisse auf, die Sie bei der Einführung eines unternehmensweiten Datenkatalogs unbedingt vermeiden sollten.

Die beschriebenen Fallstricke drehen sich um vier Themen, die für den Erfolg des Vorhabens von zentraler Bedeutung sind:

  1. Datenkultur
  2. Sponsorship
  3. Projektsteuerung
  4. Datenkatalog-Integration

Metadaten-Management-Projekte führen zu vielfältigen Veränderungen, die die Organisation und die Verantwortlichkeiten der Mitarbeiter betreffen. Sie müssen auf höchster Ebene initiiert werden.

Ein Datenkatalogprojekt kann ohne interne Management-Unterstützung nicht erfolgreich sein

Bei einer Metadaten-Management-Initiative werden einige Mitarbeiter mit neuen Verantwortlichkeiten, oder aber neuen Richtlinien in Bezug auf ihre bestehenden Verantwortlichkeiten ausgestattet. Das Projekt wird recht häufig von einem dedizierten, bereichsübergreifenden Team geleitet, um die Durchführung zu erleichtern. Die Mitarbeiter, von denen ein zusätzlicher Beitrag verlangt wird, werden jedoch in der Regel nicht von diesem Team gemanagt, sondern gehören anderen Abteilungen an.

Ohne die Vermittlung von Führungskräften innerhalb dieser Teams und eine mit dem funktionsübergreifenden Team abgestimmte Ansprache – und in einigen Fällen auch die Festlegung von Zielen, die mit diesen Verantwortlichkeiten zusammenhängen – bleibt die Initiative oft fragil. Sie kann dann selbst bei der kleinsten Hürde scheitern, da sie nicht offiziell kommuniziert ist.

Die Vorgehensweise hängt sehr stark von der Organisation Ihres Unternehmens ab. Nichtsdestotrotz ist es ratsam, Ziele festzulegen, um den Beitrag der involvierten Mitarbeiter im Projekt zu formalisieren und zu lenken sowie die Ergebnisse zu steuern.

Ein Datenkatalogprojekt erfordert eine Anfangsinvestition

Häufig wird zu Beginn eines Metadaten-Management-Projekts eine anfängliche Sammlung von Informationen durchgeführt, um den Katalog zu füllen.

Diese Informationen stammen oft aus bestehenden Dokumentationen, aber auch von Mitarbeitern, die das alleinige Wissen über bestimmte Elemente besitzen. Die ersten Schritte bestehen darin, diese Metadaten zu zentralisieren und gleichzeitig zu sichern, indem man sie in den Datenkatalog einspeist.

Der Datenkatalog sollte eine einfache Möglichkeit bieten, diese Informationen zu konzentrieren und sie einer möglichst großen Zahl von Menschen zugänglich zu machen.

Der Zeenea Data Catalog bietet verschiedene Mechanismen, um dies zu erreichen, insbesondere durch dessen starke Vernetzung. Dies ermöglicht die automatische Übernahme von Metadaten aus Quellsystemen.

Darüber hinaus dient die Konnektivität auch einem anderen Zweck: Sie sorgt dafür, dass der Katalog auf dem neuesten Stand bleibt und mit den Quellsystemen abgestimmt ist. Was für die Metadaten gilt, die durch diesen Mechanismus automatisch synchronisiert werden, gilt auch für andere Metadaten, die aus den Beiträgen der Mitarbeiter stammen: Ein Informationssystem lebt von Natur aus. Die vorhandenen Daten entwickeln sich weiter und die zugehörige Dokumentation folglich auch. Das bedeutet, dass die Dokumentation gepflegt werden muss, um sie frisch zu halten.

>> Zeenea entdecken <<

Die 10 Fallstricke bei der Implementierung eines Datenkatalogs

Wenn Sie mehr über die für ein erfolgreiches Datenkatalog-Projekt zu vermeidende Fallstricke erfahren möchten, laden Sie sich unser kostenloses eBook herunter!

Die 10 Fallstricke Bei Der Implementierung Eines Datenkatalogs Mockup
Warum hilft der Data Catalog Unternehmen, ihre Data Stewardship-Programme erfolgreich umzusetzen?

Warum hilft der Data Catalog Unternehmen, ihre Data Stewardship-Programme erfolgreich umzusetzen?

Wenn Sie in Ihrem Unternehmen ein Data-Stewardship-Programm einführen, können Sie nicht nur die Qualität Ihrer Daten sicherstellen, sondern auch, dass sie von allen Ihren Mitarbeitern einfach und effizient genutzt werden können. Als Schlüsselfigur bei der Data Governance und dem Datenmanagement benötigt der Data Steward spezielle Werkzeuge, insbesondere den Datenkatalog. Begriffsklärung:

Daten sind in Unternehmen von zunehmend strategischer Bedeutung, und das nicht nur in den großen Konzernen! Denn bei der Festlegung von Geschäftsstrategien, der Steuerung des Vertriebs oder der Organisation der Produktion stellt die Nutzung von Daten einen entscheidenden Wettbewerbsvorteil dar. Um ihr volles Potenzial zu entfalten, müssen Daten verlässlich, qualitativ hochwertig und gut organisiert sein. Diese Merkmale lassen sich ganz klar einer Disziplin zuordnen: dem Data Stewardship.

Der Data Steward, der auch als Meister der Daten bezeichnet wird, fungiert als Garant für die optimale Nutzung Ihrer Daten. Wie genau? Indem Sie alle Daten unabhängig von ihrer Quelle in einer Umgebung zentralisieren, auf die alle Fachbereiche einfach, intuitiv und im laufenden Betrieb zugreifen können. Ein Data-Stewardship-Programm beruht gleichzeitig auf einer strengen Methodik, einem umfassenden Überblick über die verfügbaren Daten und dem Streben nach Rationalisierung, um eine starke Datenkultur in den Unternehmen zu entwickeln. Trotz seines Überblicks, Verständnisses und seiner Methodik muss sich der Data Steward dennoch auf die richtigen Werkzeuge stützen, um seine Aufgaben erfüllen zu können: Der Datenkatalog (oder Data Catalog) ist eines der wichtigsten Werkzeuge für ein erfolgreiches Data-Stewardship-Projekt.

Die Ziele des Data Catalogs

Ein Data Catalog nutzt vor allem Metadaten – Daten über Daten – um ein Repository für alle Datenbestände eines Unternehmens zu erstellen. Diese über verschiedene Quellen (Big Data, Cloud-Dienste, Excel-Tabellen usw.) gesammelten Metadaten werden automatisch gescannt, sodass die Benutzer des Katalogs nach Informationen wie Verfügbarkeit, Aktualität oder Qualität eines Datenbestands suchen und diese abrufen können. In einem Datenkatalog werden die gesammelten Metadaten zentralisiert und vereinheitlicht, sodass sie von IT-Teams und Business-Funktionen innerhalb der Organisation gemeinsam genutzt werden können. Diese einheitliche Sicht auf die Daten bringt viele Vorteile mit sich und Sie können:

  • Eine Datenkultur aufrechterhalten
  • Die Data Discoverage beschleunigen
  • Eine agile Data Governance aufbauen
  • Den Wert der Daten maximieren
  • Besser und schneller produzieren
  • Ein gutes Maß an Datenkontrolle gewährleisten

Welche Vorteile bietet der Datenkatalog den Data Stewards?

Vom Import neuer Datenquellen über die Verfolgung von Datenaktualisierungen – durch die Fähigkeit des Datenkatalogs, Metadaten in Echtzeit und automatisch zu verfolgen und zu steuern, können Data Stewards ihre Effizienz steigern. Denn ein Datenkatalog bietet einen vollständigen Überblick über Ihre Daten, von ihrem Ursprung bis hin zu allen Transformationen, die sie im Laufe der Zeit durchlaufen. Der Einsatz von Datenkatalogen im Rahmen eines Data-Stewardship-Programms bietet unter anderem vier wesentliche Vorteile:

Vorteil Nr. 1: Eine aktuelle Dokumentation aufrechterhalten

Ihre Daten sind lebendig. Sie werden gesammelt, nutzbar gemacht, verarbeitet, erweitert … Um ein vollständiges Verständnis Ihrer Datenbestände zu erhalten, benötigen Sie eine aktuelle Dokumentation, die Ihnen Auskunft darüber gibt, aus welchen Quellen die Daten stammen und wie sie genutzt werden. Der Datenkatalog soll Ihnen helfen, diese Dokumentation auf dem neuesten Stand zu halten.

Der Vorteil von Zeenea: Unser Katalog erfasst und sammelt automatisch Metadaten über unsere APIs und Scanner, um stets sicherzustellen, dass Ihre Daten auf dem neuesten Stand sind. Visualisieren Sie den Ursprung und die Transformationen Ihrer Daten mithilfe unserer intelligenten Lineage-Funktionen.

Vorteil Nr. 2: Die Datenqualität sicherstellen

Die wichtigste Aufgabe eines Datenkatalogs ist es, mithilfe von Metadaten einen klaren Überblick über Ihre Daten zu behalten. Definition, Struktur, Quelle, Verwendung, zu befolgende Verfahren … naturgemäß trägt die Verwaltung der Metadaten durch den Datenkatalog dazu bei, die Datenqualität zu gewährleisten.

Der Vorteil von Zeenea: Mit Zeenea können Data Stewards flexible Metamodell-Templates für vordefinierte und benutzerdefinierte Objekttypen erstellen. Mit einer Drag-and-Drop-Funktion können Sie Eigenschaften, Tags und andere Felder in alle Dokumentationsvorlagen des Katalogs schieben.

Vorteil Nr. 3: Die Datenvorschriften einhalten

Die Einhaltung der Datenvorschriften ist ein entscheidendes Thema bei einem Data-Stewardship-Projekt. Der Datenkatalog leistet durch seine Fähigkeit, Daten zu organisieren und sie in einer eindeutigen, sicheren und lesbaren Umgebung zu zentralisieren, einen Beitrag, diese regulatorischen Anforderungen zu erfüllen.

Der Vorteil von Zeenea: Unser Data Catalog gewährleistet die Einhaltung aller gesetzlichen Vorschriften, indem er personenbezogene Datenbestände automatisch identifiziert, klassifiziert und unternehmensweit verwaltet. Mithilfe intelligenter Empfehlungen erkennt unser Katalog personenbezogene Daten und macht Vorschläge, welche Assets getaggt werden müssen.

Vorteil Nr. 4: Den Lebenszyklus der Daten überwachen

Ihr Data-Stewardship-Projekt, das zwischen Governance, Qualität und Sicherheit angesiedelt ist, setzt voraus, dass Sie den Lebenszyklus Ihrer Daten in Echtzeit verfolgen. Der Datenkatalog ist die Antwort auf diese Herausforderung, indem er Ihnen die Möglichkeit bietet, alle Aktivitäten, die sich auf Ihre Daten auswirken, zu überwachen.

Der Vorteil von Zeenea: Zeenea bietet ein Dashboard für Data Stewards, mit dem sie die mit Metadaten verbundenen Aktivitäten verfolgen und überwachen können. Überprüfen Sie die Vollständigkeit Ihrer Dokumentation, die am häufigsten aufgerufenen und gesuchten Objekte in Ihrem Katalog, den Konnektivitätsstatus Ihres Katalogs und vieles mehr.

Organisation, Wissen, Transparenz, Skalierbarkeit – der Datenkatalog ist das ideale Tool, um Ihr Data Stewardship-Projekt zu begleiten!

Starten Sie Ihr Data Stewardship-Programm mit Zeenea

Zeenea bietet eine Metadaten-Management-Lösung, mit der Data Stewards die Herausforderung immer größerer Datenmengen bewältigen können. Unsere Lösung hilft Organisationen, den Wert ihrer Daten zu maximieren, indem sie den Zeitaufwand für komplexe und zeitraubende Dokumentationsaufgaben reduziert und Datensilos aufbricht, um das Wissen über die Unternehmensdaten zu zentralisieren.

Kontaktieren Sie uns noch heute für eine kostenlose und persönliche Demo mit einem unserer Experten :

Das Business Glossary: eine wichtige Lösung für Ihre Data Scientists

Das Business Glossary: eine wichtige Lösung für Ihre Data Scientists

In der Welt der Daten ist ein Business Glossary ein heiliger Text, in dem unzählige Stunden Arbeit und Zusammenarbeit zwischen IT- und Geschäftsfunktionen stecken. Ein Business Glossary ist ein entscheidendes Element für das Metadaten-Management, um die Daten zu kontextualisieren und zu definieren. Laut Gartner ist es eine der wichtigsten Lösungen, die in einem Unternehmen zur Unterstützung der Geschäftsziele eingesetzt werden können.

Zur Unterstützung Ihrer Data Scientists bei ihren Machine-Learning-Algorithmen und Dateninitiativen, bietet ein Business Glossary eindeutige Bedeutungen und Zusammenhänge für alle Daten oder Geschäftsbegriffe des Unternehmens.

Beginnen wir mit den Grundlagen: Was ist ein Business Glossary?

Ein Business Glossary verleiht den Daten in den Abteilungen eines Unternehmens eine Bedeutung und setzt sie in einen Kontext. Es ist also ein Ort, an dem die geschäftlichen Begriffe und Daten definiert und miteinander verknüpft werden. Das mag einfach klingen, aber es ist selten, dass alle Mitarbeiter eines Unternehmens das gleiche Verständnis von Begriffen – sogar bei grundlegenden Termini – wie „Kontakt“ und „Kunde“ teilen.

Das Business Glossary verfolgt insbesondere die folgenden Ziele:

  • Ausrichtung aller Mitarbeiter auf eine gemeinsame Definition durch den Aufbau einer gemeinsamen Sprache in der Organisation.
  • <förderung eines=““ besseren=““ verständnisses=““ und=““ einer=““ zusammenarbeit=““ zwischen=““ geschäfts-=““ it-teams.<=““ li=““> </förderung>
  • Verknüpfung von geschäftlichen Begriffen mit anderen Unternehmens-Assets und Darstellung ihrer unterschiedlichen Beziehungen.
  • Erarbeitung und Austausch eines Regelwerks für den Bereich der Data Governance.

So können Unternehmen also data fluent werden!

Wie nützlich ist ein Business Glossary für Ihre Data Scientists?

Durch die Zentralisierung geschäftlicher Informationen sind Unternehmen in der Lage, das Wissen rund um ihre Daten, das zuvor von einer Gruppe von Experten gehütet wurde, zu teilen. Dadurch können Data Scientists bessere Entscheidungen treffen, wenn sie nach Datensätzen suchen, die sie für ihre Zwecke verwenden können. So können die Unternehmen auch:

„data literate“ werden.

Immer mehr Organisationen wie Forbes oder Gartner sind der Ansicht, dass Unternehmen mehr in Maßnahmen investieren sollten, die das Verständnis für Daten fördern. Diese Programme werden gemeinhin unter dem englischen Begriff „Data Literacy“ zusammengefasst.

Bei der Stellenbeschreibung für den Chief Data Officer ist es von entscheidender Bedeutung, dass alle Teile der Organisation die Daten und den damit verbundenen Jargon verstehen können. Denn nur so können alle Teile der Organisation die Bedeutung, den Kontext und die Verwendung von Daten besser verstehen. Wenn sie also ein Business Glossary aufbauen, sind Ihre Data Scientists in der Lage, mit allen Abteilungen des Unternehmens zusammenzuarbeiten, sei es die IT- oder die Fachabteilung. Es gibt weniger Kommunikationsfehler und alle beteiligen sich am Aufbau und an der Verbesserung der Kenntnisse über die Unternehmensdaten.

Zugang zu einer datengesteuerten Umgebung erhalten.

Die Datenkultur ist eng mit der Data Literacy verbunden und bezieht sich auf ein Arbeitsumfeld, in dem Entscheidungen auf der Grundlage empirischer Daten und solider Beweise getroffen werden. Anders ausgedrückt: Entscheidungen werden auf der Grundlage von Datenbeweisen getroffen und nicht einfach aus dem Bauch heraus.

Ein Business Glossary fördert das Bewusstsein für die Qualität von Daten und das allgemeine Verständnis für sie. Folglich wird die Umgebung datengetriebener und kann den Data Scientists helfen, ihre Daten besser zu verstehen.

Ihren Daten stärker vertrauen.

Ein Business Glossary stellt sicher, dass die richtigen Definitionen mit den richtigen Daten verknüpft werden. Es hilft bei der Lösung allgemeiner Probleme, wenn Missverständnisse über Daten festgestellt werden. Wenn alle Datensätze präzise mit einer korrekten und allgemein verständlichen Terminologie dokumentiert sind, erhöht dies das allgemeine Vertrauen in die Unternehmensdaten, sodass Ihre Data Scientists effektiv an ihren Datenprojekten arbeiten können.

Ein Business Glossary mit Zeenea einrichten

Zeenea bietet in seinem Data Catalog auch ein Business Glossary an. Es verbindet sich automatisch und importiert Ihre Glossare und Wörterbücher über unsere APIs in unser Tool. Sie können auch ein Glossar manuell in der Benutzeroberfläche von Zeenea erstellen!

Entdecken Sie, welche Vorteile unser Business Glossary für Ihre Data Scientists bietet!

Die fünf Prioritäten einer Datenkultur

Die fünf Prioritäten einer Datenkultur

Daten sind zu einem strategischen Asset für Unternehmen geworden, die innovativ sein und sich einen Wettbewerbsvorteil verschaffen wollen. In der Hoffnung, ihre Kunden zufriedenzustellen, haben Unternehmen in den letzten Jahren in eine Vielzahl von Technologien und Talenten im Bereich Analyse investiert. Dennoch bleibt eine echte Datenkultur für viele unerreichbar, und Daten werden selten als Entscheidungsgrundlage genutzt.

Dafür gibt es einen einfachen Grund: Die Herausforderungen für Unternehmen, die datengetrieben arbeiten wollen, sind nicht technischer, sondern vielmehr kultureller Natur. Es ist viel einfacher zu erklären, wie man Unternehmensdaten in Entscheidungsprozesse einfließen lässt, als die Mentalität eines ganzen Unternehmens zu ändern! In diesem Artikel beschreiben wir fünf Möglichkeiten, wie Unternehmen bei Aufbau und Pflege einer Datenkultur unterstützt werden können.

Bis 2023 wird eine Datenkultur notwendig werden, um einen geschäftlichen Mehrwert zu erzeugen, was sich daran zeigt, dass sie formal in mehr als 80 % der Daten- und Analysestrategien sowie der Programme für das Veränderungsmanagement (Change Management) einbezogen wird.

Was ist eine Datenkultur?

Der Begriff „Datenkultur“ ist ein relativ neues Konzept, dessen Umsetzung jedoch immer wichtiger wird, insbesondere für Organisationen, die ihre Digital- und Datenmanagement-Strategien weiterentwickeln wollen. Ähnlich wie die Organisationskultur bezieht sich die Datenkultur auf ein Arbeitsumfeld, in dem Entscheidungen auf der Grundlage einer sogenannten „soliden“ Datenbasis getroffen werden und nicht einfach nur aus dem Bauch heraus.

Mit einer Datenkultur können Unternehmen ihre Daten besser organisieren, nutzen, vorhersagen und mit ihnen Werte schaffen.

Im Folgenden lesen Sie unsere fünf Tipps für den Aufbau und die Pflege einer Datenkultur:

Schritt 1: Ausrichtung auf die Unternehmensziele

„Das grundlegende Ziel der Sammlung, Analyse und Nutzung von Daten lautet, bessere Entscheidungen zu treffen.“ (McKinsey)

Vertrauen in die eigenen Daten zu haben, ist eines der wichtigsten Elemente bei der Schaffung einer Datenkultur, da Misstrauen gegenüber Daten zu einer katastrophalen Organisationskultur führt. Um den Daten vertrauen zu können, müssen sie auf die Unternehmensziele ausgerichtet sein. Um strategische und kulturelle Veränderungen zu fördern, ist es wichtig, dass sich das gesamte Unternehmen auf gemeinsame Geschäftsziele sowie auf relevante Kennzahlen zur Messung von Erfolgen oder Misserfolgen in der gesamten Organisation einigt.

Stellen Sie sich die richtigen Fragen: Wie können wir unseren Mitbewerbern nicht nur zuvorkommen, sondern auch unseren Vorsprung halten? Welche Daten würden wir benötigen, um zu entscheiden, wie unser nächstes Produktangebot aussehen soll? Wie verhält sich unser Produkt auf dem Markt? Wenn Sie Daten in Ihren Entscheidungsprozess einfließen lassen, hat Ihr Unternehmen bereits den ersten Schritt zum Aufbau einer Datenkultur getan.

Schritt 2: Zerstörung von Datensilos

„Datensilos“ beziehen sich auf Abteilungen, Gruppen oder Einzelpersonen, die die Hüter der Daten sind, aber das Wissen über die Daten nicht mit anderen Bereichen des Unternehmens teilen (oder nicht wissen, wie sie es teilen sollen). Wenn entscheidende Informationen eingeschlossen und nur für einige wenige Personen zugänglich sind, hindert dies Ihr Unternehmen daran, eine abteilungsübergreifende Datenkultur zu entwickeln. Dies ist auch aus technischer Sicht problematisch: Mehrere Datenpipelines sind schwieriger zu überwachen und zu pflegen, was dazu führt, dass die Daten bereits in dem Moment wieder veraltet sind, in dem sie jemand nutzt, um eine Entscheidung zu treffen.

Um Datensilos aufzubrechen, müssen Unternehmen eine einzige Quelle der Wahrheiteinführen. Die Mitarbeiter müssen die Möglichkeit bekommen, datengestützte Entscheidungen auf der Grundlage einer zentralen Lösung zu treffen. Ein Datenkatalog ermöglicht es technischen und nicht-technischen Benutzern, die Datenbestände eines Unternehmens zu verstehen und ihnen zu vertrauen.

>> Lesen Sie unseren Artikel:Was ist ein Data Catalog? <<

Schritt 3: Einstellung datengetriebener Mitarbeitender

Bei der Einführung einer Datenkultur ist es wichtig, datengetrieben denkende Personen einzustellen. Die Unternehmen müssen sich neu organisieren, wodurch neue Rollen geschaffen werden, die diese organisatorischen Veränderungen zu unterstützen:

Data Stewards

Data Stewards steuern und stimmen die Datensysteme eines Unternehmens aufeinander ab. Sie werden oft als die „Meister der Daten“ bezeichnet und verfügen sowohl über technisches als auch über geschäftliches Wissen zu Daten. Ihre Hauptaufgabe besteht darin, die ordnungsgemäße Dokumentation der Daten sicherzustellen und dafür zu sorgen, dass die Nutzer, wie z. B. Data Scientists oder Projektmanager jederzeit einfach auf die Daten zugreifen können

Dieser Beruf boomt! Ihre teamorientierte Rolle ermöglicht es den Datenverantwortlichen, sowohl mit technischen als auch mit fachlichen Abteilungen zusammenzuarbeiten. Sie sind der erste Datenbezugspunkt im Unternehmen und dienen als Zugangspunkt zu den Daten.

Chief Data Officers

Der Chief Data Officer (CDO) spielt eine zentrale Rolle für die Datenstrategie eines Unternehmens. Er ist dafür verantwortlich, die Gesamteffizienz der Organisation zu verbessern und einen Mehrwert rund um Ihre Daten zu schaffen. Ursprünglich hatten CDOs die Aufgabe, Unternehmen davon zu überzeugen, ihre Daten zu nutzen. In den ersten Jahre ging es dabei in der Regel um den Aufbau eines Datenuniversums, das auf die neuen Nutzungsmöglichkeiten zugeschnitten war, häufig in Form eines Data Lakes oder Data Marts. Doch mit der exponentiellen Zunahme von Daten hat die Rolle des CDO eine neue Dimension bekommen. Von nun an müssen CDOs die Organisation bereichsübergreifend und global neu denken.

Um die Unterstützung aller Mitarbeitenden für ihre Dateninitiativen zu erhalten, müssen sie ihnen nicht nur helfen, die Daten zu verstehen (Kontext, Produktion usw.), sondern auch einen Beitrag zur Datenproduktion und -nutzung zu leisten.

Schritt 4: Vernachlässigung der Metadaten vermeiden

Wenn die Daten erstellt werden, werden auch die Metadaten (Herkunft, Format, Typ usw.) erstellt. Diese Art von Informationen reicht jedoch nicht aus, um Daten richtig zu verwalten. Data Leader müssen Zeit investieren, um sicherzustellen, dass diese Informationen richtig benannt, beschriftet, gespeichert und in einer Taxonomie archiviert werden, die mit allen anderen Assets des Unternehmens übereinstimmt.

Mithilfe dieser Metadaten können Unternehmen eine bessere Datenqualität und Data Discovery sicherstellen, sodass die Teams die Daten besser verstehen können. Ohne Metadaten sehen sich Unternehmen einer großen Menge kontextloser Datensätze gegenüber, die einen geringen Mehrwert bieten.

Schritt 5: Beachtung der verschiedenen Datenschutzgesetze

Mit der Einführung der DSGVO im Mai 2018 sowie den zahlreichen weiteren Vorschriften, die in den USA, Großbritannien oder in Japan eingeführt werden, ist es für Unternehmen wichtig, die Richtlinien zur Einhaltung dieser Vorschriften zu beachten und zu befolgen.

Die Umsetzung einer Data Governance ist ein Mittel, um die Vertraulichkeit und Sicherheit aller personenbezogenen Daten zu gewährleisten und ein Risikomanagement sicherzustellen. Dabei handelt es sich um eine Reihe von Praktiken, Richtlinien, Standards und Leitfäden, die eine solide Grundlage dafür bieten, dass Daten ordnungsgemäß verwaltet werden, wodurch innerhalb einer Organisation ein Mehrwert geschaffen wird.

Schritt 6 – BONUS: Auswahl der richtigen Lösungen

Die Verwaltung von Metadaten ist eine schnell wachsende Disziplin, die insbesondere für Unternehmen wichtig ist, die Innovationen oder Compliance-Initiativen bei ihren Datenbeständen durchführen wollen. Eine Lösung für das Metadaten-Management bietet Unternehmen eine zentrale Plattform, die es allen Datennutzern ermöglicht, eine Datenkultur zu implementieren.

Wenn Sie weitere Informationen zum Metadaten-Management erhalten möchten, kontaktieren Sie uns!

Welche Arten von Metadaten gibt es?

Welche Arten von Metadaten gibt es?

Es ist unerlässlich, über eine große Menge an Daten zu verfügen. Es ist aber ebenso wichtig zu wissen, um welche Art von Daten es sich handelt, woher sie kommen und wie sie genutzt werden können. Und hier kommen Metadaten ins Spiel. Wie können diese also optimiert und sinnvoll genutzt werden? Lesen Sie unseren Leitfaden.

Daten sind unerlässlich, um umfassende Kenntnisse über Ihren Markt, Ihre Branche, Ihre Kunden oder auch Ihre Produkte zu erlangen. Um das volle Potenzial dieser Daten auszuschöpfen, muss man sich jedoch mit ihren Metadaten beschäftigen. Anders ausgedrückt: Sie benötigen Daten über Ihre Daten.

Denn wenn Sie einen genauen Überblick darüber haben, wodurch, wann und über welche Quelle die Daten generiert wurden, können Sie die Informationen kontextualisieren. Metadaten sind sozusagen strukturierte Informationen, die eine Informationsquelle beschreiben, erklären, lokalisieren oder den Zugang, die Nutzung oder die Verwaltung einer Informationsquelle erleichtern.

Aber lassen Sie sich davon nicht täuschen. Die Rolle der Metadaten beschränkt sich nicht darauf, den Ursprung der Daten zu verstehen.

Gut verwaltet und richtig strukturiert können Sie mithilfe von Metadaten auch herausfinden, wie Sie die Ihnen zur Verfügung stehenden Informationen am besten nutzen können, um die Ziele zu erreichen, die Sie sich gesetzt haben.

Wozu dienen Metadaten also wirklich?

Metadaten sind überall. Nicht nur in Kundendateien oder in den Archiven Ihrer Websites. Wenn Sie mit einem Smartphone ein Foto machen, werden Ihren Bildern sofort Metadaten hinzugefügt: Datum, Uhrzeit, Aufnahmeort, Blende usw. All diese Informationen können sich als wertvoll erweisen, wenn Sie Ordnung in Ihr virtuelles Fotoalbum bringen möchten.

Im Rahmen des Datenprojekts Ihres Unternehmens ist es genau das Gleiche!

Metadaten sind zwar notwendig, um wirklich zu verstehen, woher Ihre Daten kommen und wie sie verwendet werden können, aber das ist nicht ihr einziger Nutzen. Denn Metadaten sind, wenn sie richtig verwaltet werden, ein wichtiger Hebel für die Organisation und Strukturierung der Informationen, die Sie im Geschäftsalltag nutzen wollen. Eine optimale Verwaltung der Metadaten bildet daher die Grundlage für ein datenzentriertes Transformationsprojekt.

Typologien von Metadaten

Wenn man den allgemeinen Begriff Metadaten verwendet, um die Informationen über die Daten, die Ihnen zur Verfügung stehen, zu beschreiben, muss man auch wissen, dass sie in verschiedene Typen eingeteilt werden können.

So muss zwischen beschreibenden Metadaten, die eine Ressource allgemein darstellen, um die Identifizierung der verfügbaren Daten zu erleichtern, und strukturellen Metadaten unterschieden werden. Letztere geben Auskunft über die Zusammensetzung oder auch die Organisation einer Datenressource. Zur Beschreibung eines Datenportfolios gibt es auch administrative Metadaten, die Informationen über das Datum der Erstellung oder des Erwerbs der Daten liefern, aber auch über die Zugriffsrechte, die Laufzeit und die mögliche Nutzung.

Neben diesen sogenannten generischen Metadaten kann ein breites Spektrum an Metadaten hinzugefügt werden. Sie können Auskunft über die fachspezifischen Anwendungen und Nutzungen der Informationen geben, über technische Aspekte oder auch die beschreibende Dimension der enthaltenen Informationen unterstützen.

Je größer die Datenmenge, über die Sie verfügen, und je vielfältiger die Quellen, aus denen die Daten stammen, desto stärker profitieren Sie von einer feingliedrigen Verwaltung der Metadaten.

Welche Tools eignen sich für das Metadaten-Management?

Um Ordnung in Ihre Metadaten zu bringen, aber auch um die Nutzung durch Ihre Mitarbeiter zu optimieren, ist ein Data Catalog von zentraler Bedeutung. Mit diesem Tool für die Verwaltung von Metadaten verfügen Sie über einen Index Ihrer Daten und Metadaten. So können Sie schnell erkennen, welche Informationsquellen Ihren Teams zur Verfügung stehen. Die Aufgabe des Data Catalogs geht jedoch noch weiter. Mit seiner Hilfe können Sie alle Ihre Datenbestände referenzieren, bei Bedarf den Zugriff darauf erleichtern und sogar thematische bzw. semantische Suchen durchführen.

Denken Sie immer daran, dass die Qualität Ihrer Metadaten die Qualität der Beschreibung Ihrer Daten beeinflusst, was sich direkt auf die Sichtbarkeit und Nutzbarkeit Ihrer Daten auswirkt.

Bei Zeenea haben wir innerhalb unseres Data Catalogs drei Arten von Metadaten definiert, für die wir im Folgenden einige Beispiele nennen:

 

  • Technische Metadaten: Sie beschreiben die Struktur eines Datensatzes und die mit der Speicherung verbundenen Informationen.
  • Geschäftliche Metadaten: Sie setzen die Datensätze in ihren geschäftlichen Kontext: Beschreibungen (Kontext und Verwendung), Eigentümer und Ansprechpartner, Tags und Properties, mit dem Ziel, eine den Datensätzen übergeordnete Taxonomie zu erstellen, die von unserer Suchmaschine indiziert wird. Business-Metadaten sind auch auf der schematischen Ebene eines Datensatzes zu finden: Beschreibungen, Tags oder auch der Grad der Vertraulichkeit der Daten pro Spalte..

  • Operative Metadaten: Sie geben Aufschluss darüber, wann und wie die Daten erstellt oder verändert wurden: statistische Analyse der Daten, Datum der Aktualisierung, Herkunft (Lineage), Menge, Kardinalität, ID der Verarbeitung, mit der die Daten erstellt oder verändert wurden, Status der Datenverarbeitung usw.

Was macht einen Datenkatalog “smart”? #3 – Metadaten-Management

Was macht einen Datenkatalog “smart”? #3 – Metadaten-Management

Ein Datenkatalog konsolidiert Millionen von Informationen unterschiedlichster Art – und sein Volumen wächst exponentiell. Diese Menge an Informationen bringt zwei große Herausforderungen mit sich:

  • Wie kann dieses Informationsvolumen gepflegt werden, ohne dass die Kosten fürs Metadaten-Management explodieren?
  • Wie findet man das passende Dataset für einen bestimmten Use Case?

Wir bei Zeenea glauben, dass ein Datenkatalog “smart” sein muss, um diese beiden Fragen zu beantworten, und zwar durch kluge technologische und konzeptionelle Vorkehrungen, die sich nicht auf die Integration von KI-Algorithmen beschränken. 

Wir haben fünf Bereiche identifiziert, in denen ein Datenkatalog smart sein kann – die meisten davon ohne Einsatz von Machine Learning:

  1. Modellierung des Metamodells
  2. Inventarisierung von Daten
  3. Metadaten-Management
  4. Suchmaschine
  5. User Experience

Im Bereich des eigentlichen Metadaten-Managements wird der Begriff “Smart Data Catalog” am häufigsten mit Algorithmik, Machine Learning und künstlicher Intelligenz in Verbindung gebracht.

Wie lässt sich Metadaten-Management automatisieren?

Das Metadaten-Management regelt und verwaltet die Attribute des Metamodells für die inventarisierten Daten. Der mit ihm verbundene Aufwand ist proportional zur Anzahl der Attribute und zur Anzahl der im Katalog vorhandenen Objekte.

Die Rolle des Smart Data Catalogs besteht darin, diese Aufgabe so weit wie möglich zu automatisieren. Falls dies nicht möglich ist, sollen Menschen (Data Stewards) bei dieser Tätigkeit unterstützt werden, um deren Arbeit sowohl produktiver als auch zuverlässiger zu machen.

Wie im letzten Artikel erwähnt, kann durch unsere Konnektivität ein Teil der Metadaten automatisiert werden, was jedoch hauptsächlich auf technische Metadaten beschränkt bleibt. Ein vollständiges Metamodell, selbst bescheidener Größe, umfasst auch Dutzende von Metadaten, die nicht aus den Quellsystemen extrahiert werden können (aus dem einfachen Grund, dass sie dort nicht enthalten sind).

Es gibt mehrere Ansätze zur Lösung der Problematik. 

Die Erkennung von Mustern (pattern recognition)

Der direkteste Ansatz besteht darin, nach Mustern im Katalog zu suchen (pattern recognition), um die Werte der Metadaten für neue Objekte vorzuschlagen.

Einfach ausgedrückt: Ein Muster (Pattern) besteht aus allen Metadaten eines Objekts und seinen Beziehungen zu anderen Elementen im Katalog. Die Mustererkennung wird typischerweise mithilfe von Machine-Learning-Algorithmen durchgeführt.

Eine einfache Strukturanalyse reicht nicht aus (zwei Datasets können identische Daten enthalten, aber in unterschiedlichen Strukturen). Sich auf die Übereinstimmung der Daten zu verlassen, ist ebenfalls nicht effizient. Zwei Datasets können identische Informationen enthalten, aber mit unterschiedlichen Werten. Beispielsweise eine Kundenrechnung für 2020 in einem, die für 2021 im anderen Dataset.

Zur Lösung der Problematik stützt sich Zeenea auf eine Technologie, die wir als Fingerprint bezeichnen. Das Prinzip des Fingerprints besteht darin, ein Dataset (genauer gesagt ein Field in einem Dataset) auf einen numerischen Vektor zu reduzieren, der diese Daten charakterisiert (man spricht von „Features“).

Zur Erstellung des Fingerprints ziehen wir zwei große Familien von „Features“ aus den Daten unserer Kunden herauf:

  • Eine Reihe von „Features“, die an numerische Daten angepasst sind (überwiegend statistische Indikatoren);
  • Daten aus „Word Embedding“-Modellen (Vektorisierung von Wörtern) für Textdaten.

Der Fingerprint ist das Herzstück unserer intelligenten Algorithmen.

Weitere in die Suggestion Engine eingebettete Ansätze

Die Mustererkennung ist zwar ein effektiver Ansatz, um die Metadaten eines neu in den Katalog aufgenommenen Objekts vorzuschlagen, hat jedoch eine wichtige Voraussetzung: Es müssen Muster vorhanden sein, die erkannt werden können. Mit anderen Worten: Sie funktioniert nur, wenn der Katalog bereits eine große Anzahl von Objekten enthält, was natürlich nicht der Fall ist, wenn das Projekt erst startet.

Gerade in der Anfangsphase ist die Belastung durch das Metadaten-Management jedoch am größten. Es müssen also andere Ansätze integriert werden, die die Data Stewards unterstützen können, wenn der Katalog noch leer ist. 

Die Suggestion Engine bei Zeenea, die die intelligenten Algorithmen zur Unterstützung beim Metadaten-Management bereitstellt, verfolgt daher eine andere Herangehensweise, die wir hier in wenigen Punkten vorstellen möchten (sie wird regelmäßig erweitert): 

  • Erkennung struktureller Ähnlichkeiten
  • Die Ähnlichkeitserkennung durch Fingerprints
  • Annäherung von Namen

Die Suggestion Engine, die den Inhalt des Katalogs analysiert, um wahrscheinliche Werte für die Metadaten der importierten Objekte zu ermitteln, ist ein Ziel ständiger Innovation. Wir testen regelmäßig neue Ansätze, die teils sehr einfach, teils aber auch sehr anspruchsvoll sind. Diese Komponente unseres Produkts verbessert sich stetig, je größer der Katalog wird und je stärker die Algorithmen angereichert werden.

Bei Zeenea haben wir uns dafür entschieden, die Durchlaufzeit als zentralen KPI zur Messung der Produktivität der Data Stewards (die das ultimative Ziel des smarten Metadaten-Managements ist) zu verwenden. Die Durchlaufzeit (oder Lead Time) ist ein Begriff aus dem Lean Management und misst im Zusammenhang mit dem Datenkatalog die Zeit, die zwischen der Inventarisierung eines Objekts und der Dokumentierung aller seiner Metadaten vergeht.

    post-wp-smart-data-catalog-de

    Um zu verstehen, wie ein „smartes“ Metamodell die Fähigkeiten des Datenkatalogs stärkt,

    laden Sie jetzt unser eBook „Was ist ein Smart Data Catalog?“ herunter!

    Was ist Metadaten-Management?

    Was ist Metadaten-Management?

    By 2021, organizations will spend twice as much effort in managing metadata compared to 2018 in order to assess the value and risks associated with the data and its use.“

    *Gartner, The State of Metadata Management

     

    Die Definition von Metadaten-Management

    Bevor wir den Begriff Metadaten-Management (oder auch Verwaltung von Metadaten) definieren, sollten wir uns einen Moment Zeit nehmen, um die Grundlagen zu wiederholen: Was ist der Unterschied zwischen Daten und Metadaten? Wenn Sie nicht viel Zeit haben, merken Sie sich einfach nur, dass Metadaten es ermöglichen, Daten mithilfe der bekannten 5 W-Fragen zu kontextualisieren: Wer?, Was?, Wann?, Wo?, Warum?

    Diese Fragen erfüllen somit ein klares Ziel: die Daten zu verstehen, um sie bewusst zu nutzen.

    Mit dem zunehmenden Einsatz von Big Data und neue Datenschutzgesetzen müssen Data Leader bei ihren Datenprojekten durch Bemühungen, die sich auf Metadaten konzentrieren, an Reife gewinnen. Metadaten sind überall zu finden: Sobald ein Datensatz generiert wird, wird eine Reihe von Informationen erzeugt, die ihn kontextualisieren.

    Nehmen wir als Beispiel eine Excel-Tabelle mit einer Liste von Kontakten. Die Daten sind Vor- und Nachnamen, E-Mail-Adressen und Postanschriften und die Metadaten dieses Datensatzes wären das Erstellungsdatum, der Dateiname, die Autoren, die Dateigröße oder auch Kommentare, die im Dokument hinterlassen wurden.

    Diese Disziplin rund um das Metadaten-Management ist an sich nichts Revolutionäres. Die Unternehmen haben seine Bedeutung erkannt, und haben auch hier Excel-Tabellen erstellt. Die wahre Wende für datengetriebene Unternehmen besteht heute darin, sich im Metadaten-Management mit Lösungen zu wappnen, die den Übergang von lediglich passiven Metadaten zu aktiven und verwertbaren Informationen für Anwendungsfälle vollziehen: Compliance erreichen, eine Data Governance einführen und den Wert der eigenen Daten verstehen.

    Was spricht für die Implementierung einer Metadaten-Management-Strategie?

    Ein erster Anwendungsfall in Bezug auf die Verwaltung von Metadaten erleichtert das Auffinden und das Verstehen des Datenbestands eines Unternehmens.

    Dazu muss ein Metadaten-Repository eingerichtet, befüllt und zur Verfügung gestellt werden.

    Im Folgenden zeigen wir einige Vorteile, die das Metadaten-Management mit sich bringt :

    • Ein besseres Verständnis der Bedeutung von Daten aus dem Bestand des Unternehmens
    • Eine Kommunikation über die Semantik von Daten über einen Data Catalog
    • Eine höhere Produktivität und Effektivität der Data Leader, wodurch Projekte schneller umgesetzt werden können
    • Die Identifizierung von Synergien und Überprüfung der Konsistenz von Informationen durch die Verwendung von Data Dictionaries und Business Glossaries
    • Die Stärkung der Dokumentation eines Datensatzes (Löschung, Archiv, Qualität, …).
    • Die Generierung von Audit Trails und Audit-Informationen (Risiko und Sicherheit für die Einhaltung von Vorschriften)

    Verwalten Sie Ihre Metadaten mit Zeenea

    Mit Zeenea verwandeln Sie Ihre Metadaten in verwertbares Wissen!

    Unsere Metadaten-Management-Plattform organisiert und aktualisiert automatisch die Informationen aus Ihren Speichersystemen. Sie wird zur zentralen und einzigen Datenquelle für jeden Datenbenutzer im Unternehmen.

    Der Data Catalog: das wichtigste Bindeglied im Metadaten-Management

    Der Data Catalog: das wichtigste Bindeglied im Metadaten-Management

    Produziert oder nutzt Ihr Unternehmen eine immer größere Menge an Daten? Um sie zu klassifizieren, zu ordnen und sie im Alltag zum Sprechen zu bringen, ist Ordnung entscheidend. Durch ein strenges und konsequentes Metadaten-Management, gestützt auf einen leistungsfähigen Datenkatalog, können Sie sowohl an Relevanz als auch an Effizienz gewinnen.

    Die Unternehmen produzieren immer mehr Daten. Das geht so weit, dass die Verarbeitungs- und Auswertungskapazitäten beeinträchtigt werden können, und zwar nicht aus einem Mangel an Wissen, sondern aus einem Mangel an Organisation. Wenn die Datenmengen explodieren, wird auch das Datenmanagement komplexer.

    Um hier Ordnung zu schaffen und zu halten, wird das Metadaten-Management zu einer zentralen Herausforderung.

    Was sind Metadaten und wie werden sie verwaltet?

    Metadaten werden verwendet, um die in einem Datensatz enthaltenen Informationen zu beschreiben: Quelle, Typ, Uhrzeit, Datum, Größe … Die Bandbreite der Metadaten, die an einen Datensatz angehängt werden können, ist groß. Ohne Metadaten verlieren Ihre Daten ihren Kontext, sie verlieren ihre Aussagekraft und sind schwer zu klassifizieren, zu ordnen und zu nutzen. Da sie aber sehr zahlreich und sehr unterschiedlich sind, müssen Sie in der Lage sein, diese Informationsflut zu bewältigen.

    Aktualität, Genauigkeit, Zugänglichkeit – das Metadaten-Management setzt sich also als unumgängliche Praxis durch. Um die Herausforderung eines optimalen Metadaten-Managements zu meistern, müssen Sie sich unbedingt auf einen Data Catalog stützen.

     

    Welche Vorteile bringt ein Datenkatalog?

    Ein Datenkatalog ist vergleichbar mit dem Index einer riesigen Enzyklopädie. Da die Daten, die Sie tagtäglich sammeln und verwalten, naturgemäß vielfältig sind, müssen Sie diese klassifizieren und eindeutig identifizieren. Andernfalls würde Ihr Datenbestand zu einem riesigen Durcheinander werden, aus dem Sie keinen Mehrwert ziehen können.

    Bei Zeenea definieren wir einen Data Catalog als:

    Ein detailliertes Inventar aller Datenbestände einer Organisation und ihrer Metadaten, das Datenprofis dabei helfen soll, schnell die Informationen zu finden, die für den jeweiligen Geschäfts- und Analysezweck am besten geeignet sind.

    Ein Datenkatalog ist durch die folgenden Funktionen eine wichtige Säule für das Metadaten-Management:

    Data Dictionary

    Jede gesammelte oder verwendete Angabe wird so beschrieben, dass sie in Bezug zu anderen Daten gesetzt werden kann. Dieser Metadaten-Thesaurus ist ein Grundpfeiler für die effiziente und pragmatische Nutzung Ihres Datenkatalogs. Der Data Catalog referenziert alle Daten Ihres Unternehmens in einem Data Dictionary und trägt so dazu bei, den Zugang zu Informationen zu optimieren, selbst wenn der Benutzer keinen Zugriff auf die betreffende Software hat.

    Metadaten-Register

    Dieses dynamische Metadaten-Repository greift auf allen Ebenen ein: vom Datensatz bis zu den Daten selbst. Für jedes Element kann dieses Metadatenregister eine geschäftliche und technische Beschreibung, die Eigentümer, Qualitätsindikatoren oder auch eine Taxonomie (Properties, Tags usw.) enthalten.

    Daten-Suchmaschine

    Durch die integrierten Suchfunktionen Ihres Datenkatalogs können Sie auf Ihre Daten zugreifen. Alle im Register ausgefüllten Metadaten können über die Suchmaschine des Datenkatalogs abgefragt werden. Die Suche kann auf allen Ebenen sortiert und gefiltert werden.

    Data Catalog und Metadaten: die zwei Säulen der Datenexzellenz!

    Es ist sinnlos zu versuchen, den Datenkatalog und das Konzept des Metadaten-Managements gegeneinander auszuspielen, da sie einfach zusammengehören.

    Der Data Catalog ist sozusagen ein unverzichtbares Repository zur Vereinheitlichung aller Metadaten, die in Ihrem Unternehmen ausgetauscht werden können. Dieses Repository trägt zu einem genauen Verständnis und einer präzisen Dokumentation Ihrer Datenbestände bei.

    Aber Vorsicht! Die Integration eines Data Catalogs ist ein Projekt, das ein gründliches und methodisches Vorgehen erfordert. Um diese Arbeit in Angriff zu nehmen und Ihr Datenpotenzial freizusetzen, sollten Sie zunächst einen umfassenden Audit Ihrer Daten durchführen und iterativ vorgehen.

    Als Garant für die richtige Verwendung Ihrer Daten ist der Datenkatalog ein wichtiger Hebel, den Sie betätigen müssen, um das Metadaten-Management Ihres Unternehmens zu stärken!

    Das Business Glossary: eine wichtige Lösung für Ihre Data Scientists

    Was ist der Unterschied zwischen einem Data Dictionary und einem Business Glossary?

    Im Zusammenhang mit dem Metadaten-Management trifft man oft auf die Begriffe „Data Dictionary“ und „Business Glossary“. Obwohl sie auf den ersten Blick ähnlich erscheinen mögen, sind sie in Wahrheit ziemlich unterschiedlich! Lassen Sie uns im Folgenden die Unterschiede und ihre Beziehung zueinander herausarbeiten.

    Was ist ein Data Dictionary?

    Ein Data Dictionary (Datenwörterbuch) ist eine Sammlung von Beschreibungen oder Elementen, die Datenobjekten oder -modellen entsprechen.

    Diese Beschreibungen können Attribute, Felder oder sogar Properties enthalten, um die Typen, Veränderungen oder Beziehungen der Daten zu beschreiben.

    Datenwörterbücher helfen Datenprofis, ihre Daten und Metadaten besser zu verstehen. Datenwörterbücher werden üblicherweise in Form von Tabellen oder Arbeitsblättern gepflegt und sind für technische Profile wie Entwickler, Datenanalysten, Datenwissenschaftler usw. bei ihrer täglichen Arbeit unverzichtbar.

    Was ist ein Business Glossary?

    Ein Business Glossary verleiht den Daten in den Abteilungen eines Unternehmens eine Bedeutung und setzt sie in einen Kontext.

    Ein Business Glossary ist also ein Ort, an dem geschäftliche Fachbegriffe und datenbezogene Begriffe definiert werden.

    Das mag einfach klingen, aber es ist selten, dass alle Mitarbeiter eines Unternehmens das gleiche Verständnis, die gleiche Definition von Begriffen – sogar bei grundlegenden Termini – wie „Kontakt“ und „Kunde“ teilen.

    Ein Beispiel für ein Business Glossary in Zeenea:

    Die wichtigsten Unterschiede zwischen einem Data Dictionary und einem Business Glossary

    Data Dictionaries verarbeiten Informationen aus Datenbanken und Systemen und werden hauptsächlich von IT-Teams verwendet. Business Glossaries definieren Begriffe, die innerhalb einer Organisation verwendet werden. Es ist ein Fachwörterbuch, das im Unternehmen als verbindlich gilt.

    Data Dictionaries liegen in der Regel in Form von Diagrammen, Tabellen, Spalten usw. vor, während ein Business Glossary eine einheitliche Definition von geschäftlichen Fachbegriffen in Textform liefert.

    Ein Business Glossary verknüpft Begriffe und ihre Beziehungen, anders als ein Data Dictionary.

    In welcher Beziehung stehen ein Data Dictionary und ein Business Glossary zueinander?

    Die Antwort ist einfach: Ein Business Glossary verleiht dem Data Dictionary einen Sinn.

    Im Business Glossary wird beispielsweise eine US-Sozialversicherungsnummer (SSN) definiert als „eine eindeutige Nummer, die von der US-Regierung zum Zweck der Identifizierung von Personen im US-Sozialversicherungssystem zugewiesen wird“.

    Im Datenwörterbuch wird der Begriff SSN definiert als „eine neunstellige Zeichenfolge, die in der Regel mit Bindestrichen dargestellt wird“.

    Wenn ein Data Explorer nicht sicher ist, was der Begriff „SSN“ im Kontext seines Data Dictionaries bedeutet, kann er jederzeit im Business Glossary nach dem zugehörigen Begriff suchen.

    Interessieren Sie sich für die Automatisierung eines Data Dictionaries und die Erstellung eines Business Glossaries für Ihr Unternehmen?

    Möchten Sie ein zentrales Metadaten-Repository für alle Datenquellen Ihres Unternehmens erstellen?

    Unser Tool bietet eine intuitive Möglichkeit, Glossare Ihres Unternehmens zu erstellen und zu importieren, um diese Definitionen mit Konzepten von Zeenea oder Datensätzen zu verknüpfen, die in unseren Data Catalog importiert wurden.

    Bauen Sie ein Team von Citizen Data Scientists auf

    Bauen Sie ein Team von Citizen Data Scientists auf

    „There aren’t enough expert data scientists to meet data science and machine learning demands, hence the emergence of citizen data scientists. Data and analytics leaders must empower „citizens“ to scale efforts, or risk failure to secure data science as a core competency.“ – Gartner 2019

    Die Bemühungen und Investitionen im Bereich Data Science haben 2019 alle Rekorde gebrochen! Die Nachfrage nach Data Scientists ist daher größer als je zuvor. Die Nachfrage ist jedoch viel höher als das derzeitige Angebot auf dem Arbeitsmarkt. Die Unternehmen müssen erneut um ihren Platz und in einigen Fällen sogar ums Überleben zu kämpfen.

    Als Antwort auf diese Herausforderung wurde eine wichtige neue analytische Rolle geschaffen, die als Bindeglied zwischen Data Scientists und Fachbereichen fungiert: der Citizen Data Scientist.

     

    Was ist ein Citizen Data Scientist?

    Gartner definiert das Konzept des Citizen Data Scientists als „eine Reihe von Kompetenzen und Praktiken, die es Benutzern ermöglichen, prädiktive und normative Informationen aus Daten zu extrahieren, ohne dass sie so hoch qualifiziert und technisch versiert sein müssen wie professionelle Data Scientists“. Bitte beachten Sie, dass ein „Citizen Data Scientist“ keine eigene Position ist. Es handelt sich vielmehr um einen „Power User“, der einfache analytische Aufgaben durchführen kann.

    Citizen Data Scientists haben in der Regel keine Programmierkenntnisse. Dennoch können sie mithilfe von „Drag and Drop“-Tools Modelle aufbauen und Datenpipelines sowie vorgefertigte Modelle mithilfe von Tools wie Dataiku zum Laufen bringen. Citizen Data Scientists sind kein Ersatz für professionelle, ausgebildete Data Scientists! Sie bringen ihr eigenes Fachwissen ein, verfügen aber nicht über die technischen Fähigkeiten für höhere Data Science.

    Der Citizen Data Scientist ist eine Rolle, die sich als „Erweiterung“ anderer Rollen innerhalb des Unternehmens entwickelt hat. Das bedeutet, dass Organisationen die Persona des Citizen Data Scientists zunächst erstellen müssen. Das Potenzial von Citizen Data Scientists variiert abhängig von ihren Fähigkeiten und ihrem Interesse an Data Science und Machine Learning. Folgende Rollen fallen die in die Kategorie des Citizen Data Scientists:

    • Business Analyst
    • BI Analyst / Developer
    • Data Analyst
    • Data Engineer
    • Anwendungsentwickler
    • Business Line Manager

     

    Tipps für den Aufbau Ihres Teams von Citizen Data Scientists

    Da die Kompetenzen von professionellen Data Scientists tendenziell relativ teuer und schwer zu bekommen sind, kann die Beschäftigung eines Citizen Data Scientists eine effektive Möglichkeit sein, diese Lücke zu schließen.

    Im Folgenden erfahren Sie, wie Sie die Kapazitäten Ihrer Data-Science-Teams erhöhen können:

    Aufbrechen von Unternehmenssilos

    Wie Sie bereits mehrfach gehört haben, neigen viele Organisationen dazu, unabhängig zu arbeiten. Wie ebenfalls bereits erwähnt, sind alle Rollen für die Datenmanagement-Strategie einer Organisation wichtig, und alle haben ihr Interesse daran bekundet, ihre Kompetenzen in den Bereichen Data Science und Machine Learning zu erweitern. Der Großteil dieses Wissens wird jedoch von bestimmten Abteilungen oder Rollen gehütet. Infolgedessen werden die Bemühungen im Bereich Data Science häufig zunichtegemacht und nicht genutzt. Die mangelnde Zusammenarbeit zwischen den verschiedenen Rollen erschwert die Arbeit der Citizen Data Scientists!

    Durch die Einrichtung einer Gemeinschaft aus Geschäfts- und IT-Rollen, die Richtlinien und/oder detaillierte Ressourcen bereitstellt, können Unternehmen Citizen Data Scientists in die Lage versetzen, auf ihre Daten zuzugreifen und sie zu verstehen. Daher ist es für Unternehmen wichtig, die gemeinsame Nutzung von Bemühungen im Bereich Data Science in der gesamten Organisation zu fördern und so Datensilos aufzubrechen!

    Bereitstellen einer Technologie für Augmented Data Analytics

    Die Technologie befeuert den Aufstieg des Citizen Data Scientists. Traditionelle BI-Anbieter wie SAP, Microsoft oder Tableau Software bieten Funktionen, die eine erweiterte statistische und prädiktive Analyse ermöglichen. Gleichzeitig bieten Plattformen für Data Science und Machine Learning wie SAS, H2O.ai und TIBCO Software jenen Nutzern, die nicht über fortgeschrittene Analysefähigkeiten verfügen, sogenannte „Augmented Analytics“. Der Bereich Augmented Analytics, auch als erweiterte Analysen bezeichnet, stützt sich auf automatisiertes Machine Learning, um die Art und Weise, wie analytische Inhalte entwickelt, konsumiert und geteilt werden, zu verändern. Dies umfasst:

    Augmented Data Preparation: Automatisierung mithilfe von Machine Learning zur Steigerung von Profiling, Qualität, Modellierung, Anreicherung und Katalogisierung von Daten.

    Augmented Data Discovery: Ermöglicht es geschäftlichen und technischen Anwendern, für ihre Zwecke relevante Informationen wie Korrelationen, Gruppen, Segmente und Vorhersagen automatisch zu finden, zu visualisieren und zu analysieren, ohne Modelle erstellen oder Algorithmen schreiben zu müssen.

    Augmented Data Science und Augmented Machine Learning: Automatisierung der zentralen Aspekte der fortgeschrittenen analytischen Modellierung, wie z. B. die Auswahl von Merkmalen, die Auswahl von Algorithmen und zeitaufwändigen Prozessschritten.

    Durch die Integration der erforderlichen Tools und Lösungen sowie die Erhöhung der Ressourcen und Bemühungen können Unternehmen nun ein Team von Citizen Data Scientists aufbauen!

    Citizen Data Scientists mithilfe einer Metadaten-Management-Plattform zur Verwaltung ihrer Daten befähigen

    Das Metadaten-Management ist eine schnell wachsende Disziplin, die insbesondere für Unternehmen wichtig ist, die Innovationen oder Compliance-Initiativen bei ihren Datenbeständen durchführen wollen. Durch die Umsetzung einer Metadaten-Management-Strategie, bei der Metadaten gut verwaltet und angemessen dokumentiert werden, können Citizen Data Scientists relevante Informationen leicht finden und aus einer intuitiven Plattform extrahieren.

    Lesen Sie unsere Tipps für den Aufbau eines Metadaten-Managements in nur 6 Wochen und laden Sie unser neues Whitepaper „Der Leitfaden zum Start Ihres Metadaten-Managements“ herunter.

    Was ist der Unterschied zwischen Daten und Metadaten?

    Was ist der Unterschied zwischen Daten und Metadaten?

    „Data is content, and metadata is context. Metadata can be much more revealing than data, especially when collected in the aggregate.“ 

    – Bruce Schneier, Data and Goliath.

    Die Definitionen von Daten und Metadaten

    Viele finden es schwierig, die Konzepte Daten und Metadaten zu verstehen. Zwar handelt es sich bei beiden Begriffen um eine Art von Daten, doch unterscheiden sich ihre Einsatzzwecke und Spezifikationen sehr stark.

    Erstens: Daten sind Informationen.

    Dabei kann es sich um eine Beobachtung, eine Messung, eine Tatsache oder auch eine Beschreibung von etwas handeln. Daten ermöglichen Nutzern, Modelle und Trends zu erkennen, die im Datenbestand eines Unternehmens vorhanden sind.

    Metadaten hingegen werden häufig als „Daten über Daten“ definiert und verweisen auf bestimmte Details dieser Daten.

    Sie liefern granulare Informationen über spezifische Daten, wie z. B. Dateityp, Format, Herkunft, Datum, usw.

    Die Hauptunterschiede zwischen Daten und Metadaten

    Daten sind der Kraftstoff, die Inhalte, die eine Beschreibung, eine Messung oder auch eine Beziehung zu allen Elementen im Datenbestand des Unternehmens bieten. Metadaten hingegen beschreiben die Informationen, die zu diesen Daten gehören, und vermitteln den Nutzern damit mehr Kontext.

    Daten können informativ sein, müssen es aber nicht immer sein. Ziehen wir als Beispiel nicht informative Ziffern oder Zeichen heran. Metadaten hingegen sind immer informativ, da sie auf andere Daten verweisen.

    Außerdem werden Metadaten immer als verarbeitete Informationen betrachtet, während Daten als nicht verarbeitet oder verarbeitet betrachtet werden können.

    Die Bedeutung von Metadaten in einer Datenmanagement-Strategie

    Wenn Daten erzeugt werden, werden automatisch auch Metadaten erstellt (Herkunft der Daten, Format, Typ, usw.). Jedoch reichen diese Informationen nicht aus, um Daten korrekt zu verwalten. Datenmanager müssen Zeit aufwenden, um zu gewährleisten, dass dieses Unternehmens-Asset korrekt dokumentiert, gespeichert und archiviert wird – und zwar anhand einer mit allen anderen Unternehmens-Assets kompatiblen Taxonomie. Das bezeichnen wir als „Metadaten-Management“.

    Werden Metadaten besser verwaltet, erhöht sich auch der Wert der Daten. Damit kann die Qualität und Auffindbarkeit der Daten im Unternehmen verbessert werden, wodurch die Nutzer wiederum die Daten besser verstehen werden. Ohne Metadaten steht das Unternehmen vor einem Berg von Daten ohne Kontext und kann ihren Wert nicht nutzen.

    Daher ist es wichtig, dass Unternehmen, die Daten verarbeiten, über eine Lösung zum Management von Metadaten verfügen. Mit der Implementierung einer Plattform für Metadaten-Management können Datennutzer Daten ihres Unternehmens auffinden, verstehen und sich auf sie verlassen.

    Sind Sie auf der Suche nach einer Lösung für das Metadaten-Management?