Die Rolle von Datenkatalogen bei der Beschleunigung von KI-Initiativen 

Die Rolle von Datenkatalogen bei der Beschleunigung von KI-Initiativen 

Die Unternehmen verlassen sich zunehmend auf KI, um Trends zu erkennen, Innovationen voranzutreiben und ihren Wettbewerbsvorteil zu wahren. Tatsächlich verändern KI-Technologien, einschließlich Machine Learning, Natural Language Processing und Predictive Analytics die Abläufe in Unternehmen und ermöglichen es ihnen, intelligentere Entscheidungen zu treffen, Prozesse zu automatisieren und neue Chancen zu erkennen. Der Erfolg von KI-Initiativen hängt jedoch maßgeblich von der Qualität, der Zugänglichkeit und dem effektiven Management von Daten ab.

Hier spielt die Einrichtung eines Datenkatalogs eine entscheidende Rolle.

Durch die Erleichterung von Data Governance, Data Discovery und Data Accessibility versetzen Datenkataloge Unternehmen in die Lage, das Potenzial ihrer KI-Projekte optimal auszuschöpfen und stellen sicher, dass KI-Modelle auf einer soliden Grundlage präziser und gut organisierter Daten aufgebaut werden.

Zunächst einmal: Was ist ein Datenkatalog?

 

Ein Data Catalog ist ein zentrales Repository, in dem Metadaten – Daten über Daten – gespeichert werden, mit deren Hilfe Organisationen ihre Datenbestände effizienter verwalten können. Diese aus verschiedenen Datenquellen gesammelten Metadaten werden automatisch gescannt, damit die Katalogbenutzer nach ihren Daten suchen können und Informationen wie Verfügbarkeit, Aktualität und Qualität erhalten.

Infolge dessen ist der Datenkatalog zu einem wichtigen Werkzeug für eine effektive Metadatenverwaltung und Data Discovery geworden. Bei Zeenea definieren wir einen Data Catalog wie folgt:

Ein Data Catalog ist ein detailliertes Verzeichnis aller in einer Organisation verfügbaren Daten-Assets sowie der Metadaten, mit deren Hilfe diese Assets genutzt werden können.

Wie beschleunigt ein Datenkatalog die KI-Initiativen in Unternehmen?

 

Nachdem wir kurz definiert haben, was ein Datenkatalog ist, wollen wir nun herausfinden, wie er die KI-Initiativen in Unternehmen erheblich vorantreiben kann:

Verbesserte Data Discovery

 

Der Erfolg von KI-Modellen wird durch die Fähigkeit bestimmt, auf große und vielfältige Datensätze, die den Umfang eines Problems genau abbilden, zuzugreifen und diese zu nutzen. Ein Datenkatalog ermöglicht diesen Erfolg, indem er robuste Such- und Filterfunktionen bietet, die es den Benutzern ermöglichen, relevante Datensätze anhand von Kriterien wie Schlagwörtern, Tags, Datenquellen und anderen bereitgestellten semantischen Informationen schnell zu finden. Diese Google-ähnlichen Suchfunktionen ermöglichen es Datennutzern, den Datenbestand der Organisation effizient zu durchsuchen und die Assets zu finden, die sie für ihre spezifischen Anwendungsfälle benötigen.

Beispielsweise kann ein Data Scientist, der an einem Modell für die vorausschauende Wartung von Fertigungsanlagen arbeitet, einen Data Catalog verwenden, um Wartungsverlauf, Sensordaten und Betriebsprotokolle zu lokalisieren. Diese verbesserte Data Discovery ist für KI-Projekte von entscheidender Bedeutung, da Data Scientists mit ihrer Hilfe die Möglichkeit haben, die am besten geeigneten Datensätze für das Training und die Validierung ihrer Modelle zu identifizieren und abzurufen.

 

💡Was Zeenea unterscheidet: Erhalten Sie mit Zeenea personalisierte Data-Discovery-Erlebnisse! Unsere Plattform ermöglicht Datenkonsumenten ein einzigartiges Nutzererlebnis über personalisierte Discovery-Pfade. Sie stellt sicher, dass jedes Nutzerprofil in der Rangfolge der Suchergebnisse berücksichtigt wird. Unsere Algorithmen liefern außerdem Tag für Tag intelligente Empfehlungen und Vorschläge zu Ihren Datenbeständen.

 

Entdecken Sie unsere Data-Discovery-Funktionen.

Verbesserung der Qualität und Zuverlässigkeit von Daten

 

Die zugrunde liegenden Daten müssen von hoher Qualität sein, damit KI-Modelle genaue und zuverlässige Ergebnisse liefern. Qualitativ hochwertige Daten sind entscheidend, da sie sich direkt auf die Fähigkeit des Modells auswirken, zu lernen und Vorhersagen zu treffen, die reale Szenarien widerspiegeln. Daten von schlechter Qualität können zu falschen Schlussfolgerungen und unzuverlässigen Ergebnissen führen, die sich negativ auf geschäftliche Entscheidungen auswirken.

Ein Datenkatalog umfasst in der Regel Funktionen für das Data Profiling und die Qualitätsbewertung. Diese Funktionen helfen bei der Identifizierung von Datenqualitätsproblemen wie fehlenden Werten, Inkonsistenzen und Ausreißern, welche die Ergebnisse von KI-Modellen verfälschen können. Wenn Organisationen sicherstellen, dass nur saubere und vertrauenswürdige Daten in KI-Initiativen verwendet werden, können sie die Zuverlässigkeit und Leistungsfähigkeit ihrer Modelle verbessern.

 

💡Was Zeenea unterscheidet: Zeenea verwendet die GraphQL-Technologie und seinen Knowledge Graph, um einen flexiblen Ansatz für die Integration der marktführenden Lösungen für das Datenqualitätsmanagement direkt im Katalog zu bieten. Einfache Synchronisation der Datenqualitätsindikatoren Ihrer Drittanbieter-Tools über einfache API-Abfragen. Die Fähigkeiten unserer Katalog-API ermöglichen die automatische Aktualisierung aller Änderungen, die in Ihrem DQM-Tool vorgenommen werden, direkt auf unserer Plattform.

 

Entdecken Sie unsere Datenqualitätsfunktionen.

Verbesserung der Data Governance und der Compliance

 

Die Data Governance ist entscheidend für die Aufrechterhaltung der Integrität, der Sicherheit und der Einhaltung der gesetzlichen Vorschriften. Sie beinhaltet Prozesse, Richtlinien und Standards, die sicherstellen, dass Daten während ihres gesamten Lebenszyklus korrekt verwaltet und verwendet werden. Vorschriften wie die DSGVO in Europa und CCPA in Kalifornien, USA, sind Beispiele für strenge Gesetze, die von den Unternehmen eingehalten werden müssen.

Darüber hinaus fördert die Data Governance die Transparenz, Rechenschaftspflicht und Rückverfolgbarkeit von Daten und erleichtert es den Beteiligten, Fehler zu erkennen und die mit fehlerhaften oder falsch dargestellten KI-Insights verbundenen Risiken zu verringern, bevor sie sich negativ auf den Betrieb auswirken oder den Ruf der Organisation schädigen können. Datenkataloge unterstützen diese Governance-Initiativen, indem sie detaillierte Metadaten bereitstellen, einschließlich der Data Lineage, dem Ownership und der Nutzungsrichtlinien.

Für KI-Initiativen bedeutet eine robuste Data Governance, dass die Daten auf verantwortungsvolle und ethische Weise genutzt werden können, wodurch das Risiko von Missbrauch und Non-Compliance minimiert wird. Das schützt das Unternehmen rechtlich und ethisch, stärkt das Vertrauen von Kunden und Stakeholdern und stellt sicher, dass KI-Initiativen nachhaltig und glaubwürdig sind.

 

💡Was Zeenea unterscheidet: Zeenea gewährleistet die Einhaltung aller gesetzlichen Vorschriften durch die automatische Identifizierung, Klassifizierung und unternehmensweite Verwaltung personenbezogener Datenbestände. Mithilfe intelligenter Empfehlungen erkennt die Plattform persönliche Daten und macht Vorschläge, welche Objekte getaggt werden sollten. Dabei stellt sie sicher, dass die Informationen über Datenschutzrichtlinien und -vorschriften allen Datenkonsumenten innerhalb des Unternehmens bei ihrer täglichen Arbeit bekannt gemacht werden.

 

Entdecken Sie unsere Data-Governance-Funktionen.

Zusammenarbeit und Wissensaustausch

 

An KI-Projekten sind häufig funktionsübergreifende Teams mit Data Scientists, Engineers, Analysten und Geschäftsfunktionen beteiligt. Datenkataloge spielen eine Schlüsselrolle bei der Förderung der Zusammenarbeit, da sie als gemeinsame Plattform dienen, auf der die Teammitglieder Datenbestände dokumentieren, teilen und diskutieren können. Funktionen wie Annotationen, Kommentare und Datenbewertungen ermöglichen es den Benutzern, ihre Erkenntnisse und ihr Wissen direkt in den Datenkatalog einzubringen. Diese Funktion fördert eine kollaborative Umgebung, in der die Beteiligten Ideen austauschen und bei datenbezogenen Aufgaben iterativ vorgehen können.

Beispielsweise können Data Scientists Datensätze mit Qualitätsinformationen oder spezifischen Merkmalen annotieren, die für Machine-Learning-Modelle nützlich sind. Engineers können Kommentare zu Anforderungen an die Datenintegration oder zu technischen Überlegungen hinterlassen. Analysten können die Relevanz oder Nützlichkeit verschiedener Datensätze entsprechend ihren analytischen Anforderungen bewerten.

 

💡Was Zeenea unterscheidet: Zeenea bietet Chat-Tabs für jedes Objekt im Katalog und erleichtert so die effektive Kommunikation zwischen Data Stewards und Datenkonsumenten über ihre Assets. Bald werden die Datenkonsumenten auch Vorschläge zum Inhalt ihrer Objekte machen können, was eine kontinuierliche Verbesserung und die Aufrechterhaltung der höchsten Qualität der Datendokumentation innerhalb des Katalogs gewährleistet.

Ein unternehmensweites einheitliches Verständnis von KI-Begriffen

 

Datenkataloge beinhalten oft ein Business Glossary, ein zentrales Repository zur Definition und Standardisierung von geschäftlichen Fachbegriffen und Definitionen von Daten und KI in einer Organisation. Ein Business Glossary verbessert die Abstimmung zwischen den Business-Stakeholdern und den Datenmanagern, indem es klare Definitionen festlegt und die Konsistenz der Terminologie gewährleistet.

Diese Klarheit ist entscheidend für KI-Initiativen, bei denen ein genaues Verständnis und eine genaue Interpretation der Daten für die Entwicklung präziser Modelle von entscheidender Bedeutung ist. Mithilfe eines gut definierten Business Glossarys können Data Scientists die richtigen Datensätze schnell identifizieren und zum Trainieren von KI-Modellen verwenden, wodurch die Zeit für die Datenvorbereitung reduziert und die Produktivität gesteigert wird. Da ein Business Glossary ein gemeinsames und abteilungsübergreifenden Verständnis für Daten fördert, beschleunigt es die Entwicklungszyklen von KI-Projekten und ermöglicht es Unternehmen, aus ihrem Datenbestand aussagekräftige Erkenntnisse zu gewinnen.

 

💡Was Zeenea unterscheidet: Zeenea bietet Datenmanagement-Teams eine einzigartige Unterstützung, um ihre Kategorien semantischer Konzepte zu erstellen, sie in Hierarchien zu organisieren und zu konfigurieren, wie Glossarobjekte mit technischen Assets verknüpft werden.

 

Entdecken Sie unsere Business-Glossary-Funktionen.

Schlussfolgerung

 

Angesichts der sich ständig verändernden Datenlandschaft und der Zunahme KI-gestützter Entscheidungsprozesse sind Datenkataloge zu unverzichtbaren Werkzeugen für Unternehmen geworden, die ihre Datenbestände effektiv nutzen wollen. Datenkataloge stellen sicher, dass KI-Initiativen auf qualitativ hochwertigen, gut verwalteten und gut dokumentierten Daten aufbauen. Eine wichtige Grundlage, um genaue Trends zu erhalten und einen nachhaltigen Mehrwert für das Unternehmen zu schaffen.

Da die Unternehmen weiterhin massiv in KI-bezogene Fähigkeiten investieren, wird die Einführung eines robusten Datenkatalogs eine Schlüsselrolle spielen, um den Wert der Datenbestände zu maximieren, Innovationen voranzutreiben und einen Wettbewerbsvorteil zu erhalten.

[SERIE] Data Shopping Teil 2 – Das Data-Shopping-Erlebnis in Zeenea 

[SERIE] Data Shopping Teil 2 – Das Data-Shopping-Erlebnis in Zeenea 

Der Prozess der Datennutzung in Unternehmen hat sich auf ähnliche Weise entwickelt wie der Kauf von Waren im Internet, wo der Konsument Gegenstände aussucht, sie in den Warenkorb legt und Liefer- und Zahlungsoptionen auswählt. Im Zeitalter von Data Products und Data Mesh ermöglichen interne Data Marketplaces den Fachanwendern, Daten für ihre Anwendungsfälle zu suchen, zu finden und auf sie zuzugreifen.

In dieser Artikelreihe finden Sie einen Auszug aus unserem Praxisleitfaden Data Mesh und erfahren alles Wissenswerte über das Data Shopping, das Data-Shopping-Erlebnis mit Zeenea und über unseren Enterprise Data Marketplace:

  1. Der Konsum von Data Products
  2. Das Data-Shopping-Erlebnis mit Zeenea

 

 

In unserem vorherigen Artikel haben wir uns mit dem Konzept des Data Shoppings auf einem internen Data Marketplace befasst und dabei Elemente wie die Lieferung von Datenprodukten und die Zugriffsverwaltung behandelt. In diesem Artikel werden wir die Gründe näher betrachten, die Zeenea dazu veranlasst haben, sein Data-Shopping-Erlebnis über die internen Grenzen hinaus auszuweiten. Außerdem erfahren Sie, wie unsere Schnittstelle, Zeenea Studio, die Analyse der Gesamtleistung Ihrer Data Products ermöglicht.

Datenprodukt-Shopping mit Zeenea

 

In unserem letzten Artikel haben wir die Komplexität der Verwaltung von Zugriffsrechten auf Datenprodukte aufgrund der mit dem Datenverbrauch verbundenen Risiken behandelt. In einem dezentralen Data Mesh bewertet der Eigentümer des Data Products die Risiken, gewährt den Zugriff und wendet Richtlinien an, welche die Sensibilität der Daten, die Rolle, den Standort und das Ziel des Antragstellers berücksichtigen. Dies kann eine Transformation der Daten oder zusätzliche Formalitäten nach sich ziehen, wobei die Lieferung von schreibgeschütztem Zugriff bis hin zu granularen Kontrollen reichen kann.

Auf einem Data Marketplace lösen Konsumenten einen Workflow aus, indem sie Zugriffsanfragen stellen, die von den Dateneigentümern bewertet werden und für die sie die Zugriffsregeln festlegen, manchmal mithilfe einer Expertenmeinung. Für den Zeenea-Marketplace haben wir uns dafür entschieden, diesen Workflow nicht direkt in die Lösung zu integrieren, sondern stattdessen Schnittstellen zu externen Lösungen zu nutzen.

Die Idee dahinter ist, ein einheitliches Erlebnis zum Auslösen einer Zugriffsanfrage zu bieten, aber gleichzeitig anzuerkennen, dass die Bearbeitung dieser Anfrage in verschiedenen Umgebungen oder sogar in verschiedenen Domänen innerhalb derselben Organisation sehr unterschiedlich sein kann. Auch hier haben wir das Prinzip von klassischen Marktplätzen übernommen. Die meisten bieten ein einheitliches Erlebnis, um eine Bestellung abzuschließen, greifen aber für die operative Umsetzung der Lieferung – die je nach Produkt und Verkäufer sehr unterschiedlich gestaltet sein kann – auf andere Lösungen zurück.

Diese Entkoppelung von Einkaufserlebnis und operativer Umsetzung der Lieferung erscheint uns aus mehreren Gründen unerlässlich.

Vor allem aufgrund der extremen Variabilität der beteiligten Prozesse. Einige Unternehmen verfügen bereits über operative Workflows, die auf einer breiteren Lösung aufbauen (die Datenzugriffsanfrage ist in einen allgemeinen Prozess zur Beantragung von Zugriffsrechten eingebettet, der z. B. durch ein Ticketing-Tool wie ServiceNow oder Jira unterstützt wird). Andere sind mit speziellen Lösungen ausgestattet, die einen hohen Automatisierungsgrad unterstützen, aber noch nicht flächendeckend eingesetzt werden. Andere verlassen sich auf die Fähigkeiten ihrer Datenplattform, wieder andere auf gar nichts – der Zugang erfolgt über direkte Anfragen an den Dateneigentümer, der die Daten ohne formellen Prozess verarbeitet. Diese Variabilität zeigt sich zwischen Unternehmen, aber auch innerhalb einer Organisation – strukturell, wenn verschiedene Domänen unterschiedliche Technologien verwenden, oder zeitlich, wenn die Organisation beschließt, in ein Produkt zu investieren, das mehr Effizienz oder Sicherheit bietet, und die Zugriffsverwaltung schrittweise auf dieses neue Produkt migriert werden muss.

Dank dieser Entkoppelung ist es also ermöglich, dem Konsumenten ein einheitliches Erlebnis zu bieten und gleichzeitig die Variabilität der Arbeitsweisen anzuerkennen.

Für den Kunden ist das Einkaufserlebnis auf dem Data Marketplace also sehr einfach. Sobald er das oder die passenden Datenprodukte identifiziert hat, löst er eine Zugriffsanfrage aus und stellt die folgenden Informationen bereit:

  1. Wer er ist – diese Information ist im Prinzip bereits verfügbar.
  2. Auf welches Data Product er zugreifen möchte – auch hier sind die Informationen bereits vorhanden, ebenso wie die Metadaten, die für die Durchführung von Abwägungen benötigt werden.
  3. Wie er die Daten nutzen will – dieser Punkt ist von grundlegender Bedeutung, da er das Risikomanagement und die Anforderungen an die Compliance betrifft.

Bei Zeenea wird die eingegangene Zugriffsanfrage in einem anderen System verarbeitet, und ihr Status kann vom Marketplace aus verfolgt werden – das ist das exakte Pendant zur Auftragsverfolgung, wie man sie von E-Commerce-Websites kennt.

Aus der Sicht des Konsumenten bietet der Data Marketplace einen Katalog von Datenprodukten (und anderen digitalen Produkten) sowie ein einfaches und einheitliches System, um Zugang zu diesen Produkten zu erhalten.

Für den Produzenten erfüllt der Data Marketplace eine wichtige Rolle bei der Steuerung seines Produktportfolios.

Verbessern Sie die Leistung von Data Products mit Zeenea Studio

 

Wie bereits erwähnt, bietet ein klassischer Marktplatz neben dem E-Commerce-System, das sich an die Verbraucher richtet, auch spezielle Tools für Verkäufer, mit denen sie ihre Produkte überwachen, auf Anfragen von Käufern reagieren und die wirtschaftliche Leistung ihres Angebots kontrollieren können. Außerdem enthalten sie weitere Tools für Marktplatz-Manager, um die Gesamtleistung von Produkten und Verkäufern zu analysieren.

Der Enterprise Data Marketplace von Zeenea integriert diese Fähigkeiten in ein spezielles Backoffice-Tool, Zeenea Studio. Mit seiner Hilfe können Sie die Erstellung, Konsolidierung und Organisation von Metadaten in einem privaten Katalog verwalten und entscheiden, welche Objekte auf dem Marketplace – einem für die breite Öffentlichkeit zugänglichen Bereich – angeboten werden.

Diese Aktivitäten gehören in erster Linie zum Produktionsprozess – Metadaten werden gemeinsam mit den Datenprodukten produziert und organisiert. Das Tool ermöglicht aber auch die Überwachung der Nutzung jedes einzelnen Datenprodukts, insbesondere durch die Bereitstellung einer Liste aller Konsumenten und der ihnen zugeordneten Nutzungsarten.

Mit dieser Überwachung der Konsumenten ist es möglich, die beiden Säulen der Data-Mesh-Governance fest im System zu verankern:

  • Compliance und Risikomanagement – durch die Einführung regelmäßiger Überprüfungen, Zertifizierungen und Folgenabschätzungen bei der Weiterentwicklung von Datenprodukten.
  • Performance-Steuerung – die Anzahl der Konsumenten sowie die Nutzungsarten sind die wichtigsten Indikatoren für den Wert eines Data Products. Denn ein Datenprodukt, das nicht genutzt wird, hat keinen Wert.

Der Enterprise Data Marketplace von Zeenea unterstützt die Unternehmensbereiche bei der Überwachung der Compliance und Performance ihrer Produkte und bietet auch die Möglichkeit einer umfassenden Mesh-Analyse – Lineage, Scoring und Leistungsbewertung von Data Products, Überwachung der globalen Compliance und der Risiken, Elemente für die Berichterstattung an Behörden usw.

Das ist die Magie des Federated Graphs, der es ermöglicht, Informationen auf allen Ebenen zu nutzen – und eine umfassende Darstellung des gesamten Datenbestands liefert.

Praxisleitfaden Data Mesh: Ein unternehmensweites Data Mesh einrichten und überwachen

 

Dieser Leitfaden von Guillaume Bodet, Mitbegründer und CPTO von Zeenea, vermittelt Ihnen einen praktischen Ansatz zur Implementierung eines Data Mesh in Ihrer Organisation und hilft Ihnen:

✅ Ihren Data-Mesh-Ansatz mit einem fokussierten Pilotprojekt zu starten,

✅ effektive Methoden kennenzulernen, um Ihr Data Mesh zu skalieren,

✅ die entscheidende Rolle eines internen Data Marketplaces zu verstehen, um die Nutzung von Datenprodukten zu erleichtern

✅ zu verstehen, was Zeenea als robustes, unternehmensweites Data-Mesh-Monitoring-System auszeichnet.

Data Shopping Teil 1 – Der Konsum von Data Products

Data Shopping Teil 1 – Der Konsum von Data Products

Der Prozess der Datennutzung in Unternehmen hat sich auf ähnliche Weise entwickelt wie der Kauf von Waren im Internet, wo der Konsument Gegenstände aussucht, sie in den Warenkorb legt und Liefer- und Zahlungsoptionen auswählt. Im Zeitalter von Data Products und Data Mesh ermöglichen interne Data Marketplaces den Fachanwendern, Daten für ihre Anwendungsfälle zu suchen, zu finden und auf sie zuzugreifen.

In dieser Artikelreihe finden Sie einen Auszug aus unserem Praxisleitfaden Data Mesh und erfahren alles Wissenswerte über das Data Shopping, das Data-Shopping-Erlebnis mit Zeenea und über unseren Enterprise Data Marketplace:

  1. Der Konsum von Data Products
  2. Das Data-Shopping-Erlebnis mit Zeenea

 

 

Wie bereits erwähnt, bieten alle klassischen Marktplätze ein sehr ähnliches und für viele Menschen vertrautes „Checkout“-Erlebnis. Die ausgewählten Produkte werden in einen Warenkorb gelegt, und wenn man als Käufer seinen Warenkorb bestätigt, stehen verschiedene Liefer- und Zahlungsoptionen zur Auswahl. Die eigentliche Lieferung wird in der Regel außerhalb des Marktplatzes abgewickelt, der lediglich Tracking-Funktionen anbietet.

Die Lieferung kann sofort (bei digitalen Produkten) oder zu einem späteren Zeitpunkt (bei physischen Produkten) erfolgen. Einige Marktplätze verfügen über eigene Logistikeinrichtungen, aber meistens ist die Lieferung Sache des Verkäufers. Die Lieferzeit ist ein wichtiger Faktor für die Kundenzufriedenheit – je kürzer sie ausfällt, desto zufriedener sind die Nutzer.

Wie lässt sich dieses Einkaufserlebnis auf einem Enterprise Data Marketplace umsetzen? Um diese Frage zu beantworten, müssen wir uns genauer ansehen, was die Lieferung von Daten im Unternehmenskontext bedeutet. Dazu müssen wir uns mit dem Datenkonsumenten auseinandersetzen.

Lieferung von Datenprodukten

 

Ein Data Product bietet ein oder mehrere Nutzungsprotokolle an – das sind seine Outbound-Ports. Diese Protokolle können sich, je nach Art der Daten, von einem Datenprodukt zum anderen unterscheiden – Echtzeitdaten können beispielsweise ein Streaming-Protokoll zur Verfügung stellen, während statische Daten lediglich eine SQL-Schnittstelle bieten (und Anweisungen, wie diese Schnittstelle von verschiedenen Programmiersprachen oder von den unternehmenseigenen Visualisierungstools genutzt werden kann).

Für interaktive Konsumbedürfnisse, z. B. in einer Anwendung, kann das Data Product auch APIs für die Nutzung anbieten, die sich wiederum häufig an einen Standard halten (REST, GraphQL, OData usw.). Oder die Daten werden einfach in einem Dateiformat heruntergeladen.

Manche Konsumenten können das Datenprodukt in ihre eigenen Pipelines integrieren, um andere Datenprodukte oder höherwertige Nutzungen aufzubauen. Andere werden sich damit begnügen, die Daten einmal zu konsumieren, z. B. um ein ML-Modell zu trainieren. Jeder Nutzer muss entscheiden, welches Protokoll für seinen Anwendungsfall am besten geeignet ist.

Welche Protokolle auch immer gewählt werden, sie haben alle ein entscheidendes Merkmal: ihre Sicherheit. Dies ist eine der universellen Regeln der Data Governance – der Zugriff auf Daten muss kontrolliert und die Zugriffsrechte müssen überwacht werden.

Von wenigen Ausnahmen abgesehen, besteht der Kaufvorgang also lediglich darin, über eines der Nutzungsprotokolle Zugriff auf die Daten zu erhalten.

Verwaltung des Zugriffs auf Data Products

 

In der Welt der Daten ist die Zugriffsverwaltung alles andere als ein einfaches Thema, und zwar aus einem entscheidenden Grund: Daten zu konsumieren ist eine riskante Handlung.

Einige Datenprodukte können weniger sensibel gestaltet werden – indem persönliche oder sensible Daten, die das größte Risiko bergen, auf die eine oder andere Weise entfernt werden. Diese Desensibilisierung kann jedoch nicht für das gesamte Produktportfolio vorgenommen werden: Andernfalls verzichtet die Organisation auf die Nutzung von Daten, die einen hohen Wert haben (sensible Finanz- oder HR-Daten, Geschäftsdaten, Marktdaten, personenbezogene Daten von Kunden usw.). In jedem Fall ist die Zugriffskontrolle daher eine kritische Aktivität für die Entwicklung und Einführung eines Data Mesh.

Im Sinne der Dezentralisierung des Data Mesh sollten die Risikobewertung und die Vergabe von Zugriffstoken vom Eigentümer des Data Products vorgenommen werden, der auch für die Governance und die Compliance verantwortlich ist. Dabei geht es sowohl um die Genehmigung von Zugriffsanfragen als auch um die Festlegung möglicher Transformationen, die an den Daten vorgenommen werden müssen, um sie für einen bestimmten Zweck nutzbar zu machen. Diese Aktivität bezeichnet man als Policy Enforcement.

Eine Zugriffsanfrage zu bewerten bedeutet, drei Dimensionen zu analysieren:

  • Die Daten selbst (einige sind stärker mit Risiken behaftet als andere) – das Was.
  • Den Antragsteller, seine Funktion und seinen Standort (der geografische Aspekt kann starke Auswirkungen haben, insbesondere auf regulatorischer Ebene) – das Wer.
  • Die Nutzung – das Warum.

Ausgehend von dieser Analyse können die Daten entweder unverändert konsumiert werden oder sie müssen vor der Auslieferung verändert werden (Filterung von Daten, insbesondere von Daten, die nicht unter die Einwilligung fallen, Anonymisierung bestimmter Informationen, die Verschleierung anderer usw.). Manchmal müssen weitere Formalitäten erfüllt werden – z. B. die Einhaltung einer Weitergabevereinbarung für Daten, die von einem Dritten erworben wurden, oder die Einhaltung der Richtlinien zur Datenspeicherung und zum Recht auf Vergessenwerden usw.

Auf technischer Ebene kann auch hier die Lieferung von Daten verschiedene Formen annehmen, je nachdem, welche Technologien und Protokolle zur Offenlegung der Daten verwendet werden.

Bei weniger sensiblen Daten kann eine einfache Gewährung des Lesezugriffs ausreichen – dann muss nur ein zusätzlicher Benutzer angemeldet werden. Bei sensiblen Daten ist es notwendig, eine präzise Kontrolle der Berechtigungen auf Spalten- und Zeilenebene durchzuführen. Moderne Datenplattformen verfügen meist über native Mechanismen, um komplexe Zugriffsregeln mithilfe einfacher Konfigurationen durchzusetzen – meist mithilfe von Tags auf den Daten und einer Policy Enforcement Engine. Die Gewährung von Zugriffsrechten erfolgt dann durch die Erstellung der passenden Policy oder die Aufnahme eines neuen Datenkonsumenten in eine bestehende Policy. Bei älteren Technologien, die keine ausreichend granulare Zugriffskontrolle unterstützen, kann es notwendig sein, eine spezielle Pipeline zu erstellen, die die Daten umwandelt, um ihre Compliance zu gewährleisten, sie in einem dedizierten Bereich speichert und dem Konsumenten Zugang zu diesem Bereich gewährt.

Dies ist natürlich ein langwieriger und potenziell kostspieliger Ansatz, der durch die Migration auf eine Datenplattform, die ein granulares Sicherheitsmodell unterstützt, oder durch die Investition in eine Policy-Enforcement-Lösung eines Drittanbieters, die die bereits vorhandene Plattform unterstützt, optimiert werden kann.

Das Daten-Shopping auf einem internen Data Marketplace

 

Auf einem Data Marketplace wird die Datenlieferung, die im Mittelpunkt des Konsumentenerlebnisses steht, in einen mehr oder weniger komplexen Workflow übersetzt, der folgende Hauptschritte umfasst:

  • Der Konsument stellt eine Zugriffsanfrage – und beschreibt dabei genau, wie er die Daten nutzten wird.
  • Der Dateneigentümer bewertet diese Anfrage – in einigen Fällen kann er sich auf Risiko- oder Regulierungsexperten stützen oder bestimmte zusätzliche Validierungen anfordern – und legt die erforderlichen Zugriffsregeln fest.
  • Ein Engineer aus der jeweiligen Domäne oder aus dem Team „Infrastruktur & Tools“ kümmert sich um die Einrichtung des Zugangs – dieser Vorgang kann je nach verwendeter Technologie mehr oder weniger komplex sein.

Der Shopping-Vorgang besteht für den Konsumenten also darin, diesen Workflow vom Marktplatz aus zu starten.

Für den Zeenea-Marketplace haben wir uns dafür entschieden, diesen Workflow nicht direkt in die Lösung zu integrieren, sondern stattdessen Schnittstellen zu externen Lösungen zu nutzen.

In unserem nächsten Artikel erfahren Sie mehr über das Data-Shopping-Erlebnis mit Zeenea und unsere technologischen Entscheidungen, die uns von anderen Anbietern auf dem Markt unterscheiden.

Praxisleitfaden Data Mesh: Ein unternehmensweites Data Mesh einrichten und überwachen

 

Dieser Leitfaden von Guillaume Bodet, Mitbegründer und CPTO von Zeenea, vermittelt Ihnen einen praktischen Ansatz zur Implementierung eines Data Mesh in Ihrer Organisation und hilft Ihnen:

✅ Ihren Data-Mesh-Ansatz mit einem fokussierten Pilotprojekt zu starten,

✅ effektive Methoden kennenzulernen, um Ihr Data Mesh zu skalieren,

✅ die entscheidende Rolle eines internen Data Marketplaces zu verstehen, um die Nutzung von Datenprodukten zu erleichtern

✅ zu verstehen, was Zeenea als robustes, unternehmensweites Data-Mesh-Monitoring-System auszeichnet.

[SERIE] Der Data Marketplace für das Data Mesh – Teil 3: Den Marketplace über domänenspezifische Datenkataloge mit Inhalten versorgen 

[SERIE] Der Data Marketplace für das Data Mesh – Teil 3: Den Marketplace über domänenspezifische Datenkataloge mit Inhalten versorgen 

Im letzten Jahrzehnt haben sich Datenkataloge als tragende Säulen im Datenökosystem herauskristallisiert. Viele Anbieter erfüllen jedoch nicht die Erwartungen, was zu langen Verzögerungen, komplexen und teuren Projekten, bürokratischen Data-Governance-Modellen, niedrigen Akzeptanzquoten und begrenzter Wertschöpfung führt. Diese Problematik geht über Projekte zur Verwaltung von Metadaten hinaus und spiegelt ein allgemeineres Versagen auf der Ebene der Datenverwaltung wider.

Angesichts dieser Lücken ist ein neues Konzept auf dem Vormarsch, nämlich das des organisationsinternen Marktplatzes, den wir bei Zeenea als Enterprise Data Marketplace (EDM) bezeichnen.

In dieser Artikelreihe finden Sie Auszüge aus unserem Praxisleitfaden Data Mesh, in dem wir den Nutzen interner Data Marketplaces für die Produktion und die Nutzung von Data Products erläutern und erklären, wie ein EDM die Nutzung eines Data Mesh in großem Maßstab unterstützt und wie diese mit einer Datenkataloglösung Hand in Hand gehen:

  1. Die Nutzung von Datenprodukten mit Metadaten erleichtern
  2. Einen unternehmensweiten Marketplace einrichten
  3. Den Marketplace über domänenspezifische Datenkataloge mit Inhalten versorgen

 

Die Strukturierung des Datenmanagements nach Domänen und Datenprodukten ist eine organisatorische Transformation, die die betriebliche Realität der meisten Unternehmen nicht verändert: Daten sind in großen Mengen und aus vielen Quellen verfügbar, verändern sich schnell und ihre Kontrolle ist komplex.

Data Catalogs haben traditionell die Aufgabe, alle verfügbaren Daten zu inventarisieren und eine Reihe von Metadaten zu verwalten, um die Kontrolle über die Daten zu behalten und Governance-Praktiken zu etablieren.

Das Data Mesh beseitigt diese Komplexität nicht: Es ermöglicht jedoch die Unterscheidung bestimmter Daten, die als Data Products verwaltet werden und die über die Domäne hinaus, zu der sie gehören, geteilt und verwendet werden sollen. Aber jede Domäne ist auch für die Verwaltung ihrer internen Daten zuständig, die sie für die Entwicklung von Datenprodukten verwendet – ihrer privaten Daten sozusagen.

Metadaten-Management im Kontext eines internen Marktplatzes, der von domänenspezifischen Datenkatalogen mit Inhalten versorgt wird

 

Im Data Mesh wird ein Data Catalog nicht überflüssig, ganz im Gegenteil: Jede Domäne sollte über einen Katalog verfügen, der es ihr ermöglicht, ihre privaten Daten effizient zu verwalten, die Governance innerhalb der Domäne zu unterstützen und die Entwicklung robuster Datenprodukte zu beschleunigen, die einen Mehrwert bieten. Die Verwaltung von Metadaten erfolgt also auf zwei Ebenen:

  • Auf Domänenebene – in Form eines Katalogs, mit dem das Datenuniversum der Domäne dokumentiert und organisiert werden kann. Da der Data Catalog ein privater Baustein ist, müssen nicht alle Domänen die gleiche Lösung verwenden.
  • Auf Mesh-Ebene – in Form eines Marktplatzes, auf dem die von allen Domänen gemeinsam genutzten Data Products erfasst werden. Dieser Marktplatz wird naturgemäß von allen Domänen gemeinsam genutzt.

Mit einer dediziert Marketplace-Komponente sieht die allgemeine Architektur der Metadatenverwaltung wie folgt aus:

Architecture Générale Pour La Gestion Des Métadonnées

In dieser Architektur hat jede Domäne ihren eigenen Katalog – dieser kann auf einer individuellen Lösung beruhen oder auch nicht, sollte aber für jede Domäne eine eigene Instanz zur Verfügung stellen, damit sie ihre Daten auf die für sie effektivste Weise organisieren kann und die Fallstricke einer universellen Metadatenorganisation vermieden werden.

Der Marketplace ist eine dedizierte Komponente, die eine hohe Benutzerfreundlichkeit bietet und auf der jede Domäne die Metadaten (oder sogar die Daten) ihrer Data Products bereitstellt. Dieser Ansatz erfordert eine enge Integration der verschiedenen Module:

  • Die privaten Kataloge müssen mit dem Marketplace integriert werden – um den Aufwand für die Erstellung bestimmter Metadaten nicht zu verdoppeln – dies betrifft insbesondere die Lineage, aber auch das Data Dictionary (Schema) oder die fachspezifischen Definitionen, die in beiden Systemen vorhanden sein müssen.
  • Private Kataloge müssen grundsätzlich miteinander integriert werden – um bestimmte Informationen gemeinsam zu nutzen/synchronisieren, in erster Linie das Business Glossary, aber auch bestimmte Repositorys.

Vergleich der Fähigkeiten von Data Catalog und EDM

 

Wenn man sich die Funktionen eines Enterprise Data Marketplaces und eines Data Catalogs ansieht, stellt man fest, dass diese Fähigkeiten sehr ähnlich sind:

Data Catalog Vs Enterprise Data Marketplace

Im Endeffekt gibt es auf rein funktionaler Ebene keine großen Unterschiede zwischen ihren Fähigkeiten. Folgende Aspekte unterscheiden einen modernen Data Catalog jedoch von einem EDM:

 

  • Der Umfang – der Data Catalog soll alle Daten abdecken, während der Marketplace sich auf Objekte beschränkt, die von Domänen gemeinsam genutzt werden (Data Products und andere Datenprodukte der Domäne).

 

  • Das Benutzererlebnis – der Data Catalog ist oft ein relativ komplexes Tool, das die Governance-Prozesse global unterstützen soll – er konzentriert sich besonders auf Data-Stewardship-Workflows. Der Marketplace hingegen bietet typischerweise eine sehr einfache Benutzeroberfläche, die sich stark an E-Commerce-Plattformen orientiert, und bietet ein nutzungszentriertes Erlebnis – das Data Shopping.

Praxisleitfaden Data Mesh: Ein unternehmensweites Data Mesh einrichten und überwachen

 

Dieser Leitfaden von Guillaume Bodet, Mitbegründer und CPTO von Zeenea, vermittelt Ihnen einen praktischen Ansatz zur Implementierung eines Data Mesh in Ihrer Organisation und hilft Ihnen:

✅ Ihren Data-Mesh-Ansatz mit einem fokussierten Pilotprojekt zu starten,

✅ effektive Methoden kennenzulernen, um Ihr Data Mesh zu skalieren,

✅ die entscheidende Rolle eines internen Data Marketplaces zu verstehen, um die Nutzung von Datenprodukten zu erleichtern

✅ zu verstehen, was Zeenea als robustes, unternehmensweites Data-Mesh-Monitoring-System auszeichnet.

[SERIE] Der Data Marketplace für das Data Mesh – Teil 2: Einen unternehmensweiten Marketplace aufbauen 

[SERIE] Der Data Marketplace für das Data Mesh – Teil 2: Einen unternehmensweiten Marketplace aufbauen 

Im letzten Jahrzehnt haben sich Datenkataloge als tragende Säulen im Datenökosystem herauskristallisiert. Viele Anbieter erfüllen jedoch nicht die Erwartungen, was zu langen Verzögerungen, komplexen und teuren Projekten, bürokratischen Data-Governance-Modellen, niedrigen Akzeptanzquoten und begrenzter Wertschöpfung führt. Diese Problematik geht über Projekte zur Verwaltung von Metadaten hinaus und spiegelt ein allgemeineres Versagen auf der Ebene der Datenverwaltung wider.

Angesichts dieser Lücken ist ein neues Konzept auf dem Vormarsch, nämlich das des organisationsinternen Marktplatzes, den wir bei Zeenea als Enterprise Data Marketplace (EDM) bezeichnen.

In dieser Artikelreihe finden Sie Auszüge aus unserem Praxisleitfaden Data Mesh, in dem wir den Nutzen interner Data Marketplaces für die Produktion und die Nutzung von Data Products erläutern und erklären, wie ein EDM die Nutzung eines Data Mesh in großem Maßstab unterstützt und wie diese mit einer Datenkataloglösung Hand in Hand gehen:

  1. Die Nutzung von Datenprodukten mit Metadaten erleichtern
  2. Einen unternehmensweiten Marketplace einrichten
  3. Den Marketplace über domänenspezifische Datenkataloge mit Inhalten versorgen

 

 

Wie bereits in unserem vorherigen Artikel erwähnt, ist ein Enterprise Data Marketplace ein einfaches System, in dem Konsumenten aus einem Angebot an Data Products das oder die Produkte heraussuchen können, die für einen bestimmten Anwendungsfall in Frage kommen, die Informationen zu diesen Produkten abrufen und sie dann bestellen können. Die Bestellung materialisiert sich im Erhalt eines Zugangs, einer physischen Lieferung der Daten oder einem Antrag auf Weiterentwicklung der Data Products, um den neuen Anwendungsfall abzudecken.

Die drei großen Optionen für die Einrichtung eines internen Data Marketplaces

 

Bei der Einrichtung eines internen Data Marketplaces ziehen Organisationen in der Regel drei Hauptansätze in Betracht:

Die Entwicklung

 

Bei diesem Ansatz wird ein personalisierter Marketplace erstellt, der auf die einzigartigen Bedürfnisse des Unternehmens zugeschnitten ist. Obwohl diese Option die Möglichkeit eines optimierten Benutzererlebnisses bietet, ist sie oft mit einem hohen Zeit- und Kostenaufwand verbunden.

Integration einer marktüblichen Lösung

 

Organisationen können sich auch für bereits vorhandene Lösungen entscheiden, die auf dem Markt erhältlich sind. Diese Lösungen, die ursprünglich für die Vermarktung von Daten oder den externen Datenaustausch konzipiert wurden, können für den internen Gebrauch umgewandelt werden. Sie müssen jedoch möglicherweise angepasst werden, um mit den internen Arbeitsabläufen und Sicherheitsstandards Schritt zu halten.

Nutzung bestehender Systeme

 

Einige Organisationen entscheiden sich dafür, die Vorteile ihrer aktuellen Infrastruktur zu nutzen, indem sie Tools wie Data Catalogs und Unternehmens-Wikis wiederverwenden. Obwohl dieser Ansatz eine gewisse Vertrautheit und Integration mit bestehenden Arbeitsabläufen bieten kann, fehlen ihm möglicherweise die spezialisierten Funktionen von Lösungen, die auf den Data Marketplace zugeschnitten sind.

Die Nachteile von kommerziell erhältlichen Marketplaces

 

Obwohl sie oft ein zufriedenstellendes Benutzererlebnis und eine native Unterstützung des Konzepts des Data Products bieten, weisen kommerziell erhältliche Marktplätze oft erhebliche Nachteile auf: Sie sind sehr stark auf Transaktionsaspekte (Vertrieb, Lizenzierung, Vertragsabschluss, Kauf oder Abonnement, Zahlung usw.) ausgerichtet und oft schlecht in Datenplattformen und interne Tools zur Zugriffskontrolle integriert. Sie erfordern in der Regel, dass die Daten auch über den Marketplace verteilt werden – das heißt, sie stellen eine neue Infrastrukturkomponente dar, auf die die Daten zur gemeinsamen Nutzung übertragen werden müssen (ein solches System wird manchmal auch als Data Sharing Platform bezeichnet).

Der Enterprise Data Marketplace von Zeenea

 

Unser pragmatischer Ansatz folgt der Überzeugung, dass es in den meisten Fällen nicht wünschenswert ist, einen neuen Infrastrukturbaustein einzuführen, um ein Data Mesh zu implementieren – wie bereits erwähnt, scheint es sehr viel besser zu sein, die bereits vorhandenen Kapazitäten maximal auszunutzen.

Deshalb haben wir bei Zeenea unsere Data Discovery Platform und ihren Data Catalog weiterentwickelt, um eine einzigartige Lösung anzubieten, eine Spiegelung des Data Mesh auf der Metadatenebene, die sich kontinuierlich an die Entwicklung der Architektur der Datenplattform der Organisation anpasst. Dieser Enterprise Data Marketplace (EDM) integriert einen domänenübergreifenden Marktplatz mit privaten Datenkatalogen, die auf die Bedürfnisse der einzelnen Domänen zugeschnitten sind.

Diesen Ansatz wollen wir im nächsten Artikel unserer Reihe näher erläutern. Es wird durch den Aspekt ermöglicht, der Zeenea schon lange auszeichnet und von den meisten anderen Katalogen oder Metadaten unterscheidet: ein skalierbarer Knowledge Graph.

Im letzten Artikel dieser Reihe erfahren Sie, wie ein interner Data Marketplace in Verbindung mit domänenspezifischen Datenkatalogen ein umfassendes Data-Mesh-Überwachungssystem bildet.

Praxisleitfaden Data Mesh: Ein unternehmensweites Data Mesh einrichten und überwachen

 

Dieser Leitfaden von Guillaume Bodet, Mitbegründer und CPTO von Zeenea, vermittelt Ihnen einen praktischen Ansatz zur Implementierung eines Data Mesh in Ihrer Organisation und hilft Ihnen:

✅ Ihren Data-Mesh-Ansatz mit einem fokussierten Pilotprojekt zu starten,

✅ effektive Methoden kennenzulernen, um Ihr Data Mesh zu skalieren,

✅ die entscheidende Rolle eines internen Data Marketplaces zu verstehen, um die Nutzung von Datenprodukten zu erleichtern

✅ zu verstehen, was Zeenea als robustes, unternehmensweites Data-Mesh-Monitoring-System auszeichnet.

[SERIE] Der Data Marketplace für das Data Mesh – Teil 1: Die Nutzung von Datenprodukten mit Metadaten erleichtern

[SERIE] Der Data Marketplace für das Data Mesh – Teil 1: Die Nutzung von Datenprodukten mit Metadaten erleichtern

Im letzten Jahrzehnt haben sich Datenkataloge als tragende Säulen im Datenökosystem herauskristallisiert. Viele Anbieter erfüllen jedoch nicht die Erwartungen, was zu langen Verzögerungen, komplexen und teuren Projekten, bürokratischen Data-Governance-Modellen, niedrigen Akzeptanzquoten und begrenzter Wertschöpfung führt. Diese Problematik geht über Projekte zur Verwaltung von Metadaten hinaus und spiegelt ein allgemeineres Versagen auf der Ebene der Datenverwaltung wider.

Angesichts dieser Lücken ist ein neues Konzept auf dem Vormarsch, nämlich das des organisationsinternen Marktplatzes, den wir bei Zeenea als Enterprise Data Marketplace (EDM) bezeichnen.

In dieser Artikelreihe finden Sie Auszüge aus unserem Praxisleitfaden Data Mesh, in dem wir den Nutzen interner Data Marketplaces für die Produktion und die Nutzung von Data Products erläutern und erklären, wie ein EDM die Nutzung eines Data Mesh in großem Maßstab unterstützt und wie diese mit einer Datenkataloglösung Hand in Hand gehen:

  1. Die Nutzung von Datenprodukten mit Metadaten erleichtern
  2. Einen unternehmensweiten Marketplace einrichten
  3. Den Marketplace über domänenspezifische Datenkataloge mit Inhalten versorgen

 

Bevor wir uns dem Konzept des internen Data Marketplaces zuwenden, lassen Sie uns einen Moment auf das Konzept des Data Products zurückkommen, das unserer Meinung nach den Eckpfeiler des Data Mesh und den ersten Schritt zur Transformation des Datenmanagements darstellt.

Austausch und Nutzung von Datenprodukten mithilfe von Metadaten

 

Wie bereits in unserer letzten Artikelreihe zum Data Mesh erwähnt, ist ein Data Product ein verwalteter, wiederverwendbarer und skalierbarer Datensatz, der Garantien für die Datenqualität und die Einhaltung gesetzlicher Vorschriften und interner Regeln bietet. Beachten Sie, dass diese Definition recht restriktiv ist – sie schließt andere Produkttypen wie Algorithmen, Machine-Learning-Modelle (ML-Modelle) oder Dashboards aus.

Natürlich ist es wünschenswert, dass diese Dinge auch als Produkte verwaltet werden, sie sind aber keine Data Products. Sie stellen andere Arten von Produkten dar, die man ganz allgemein als Analytics Products bezeichnen könnte, wobei Data Products eine der Unterkategorien sind.

In der Praxis besteht ein operatives Datenprodukt aus zwei Dingen:

  • Data (1)1. Daten – die physisch auf einer zentralisierten oder nicht zentralisierten Datenplattform gespeichert sind, die die Adressierung, Interoperabilität und den sicheren Zugriff auf die Daten gewährleistet.
  • Metadata (1)2. Metadaten – die alle Informationen liefern, die für die Weitergabe und Nutzung der Daten erforderlich sind.

Metadaten stellen sicher, dass die Konsumenten über alle Informationen verfügen, die sie für die Verwendung des Produkts benötigen.

Sie decken typischerweise die folgenden Aspekte ab:

Schema
Das Schema – das die technische Struktur des Datenprodukts, die Klassifizierung der Daten, der Proben sowie deren Herkunft (Lineage) liefert.
Governance
Die Governance – die den oder die Verantwortlichen für das Produkt, seine Versionen, seinen möglichen Wertverlust usw. identifiziert.
Semantics
Die Semantik – die eine klare Definition der ausgestellten Informationen liefert, idealerweise mit dem Business Glossary der Organisation verknüpft ist, und eine umfassende Dokumentation des Datenprodukts bereitstellt.
Contract
Der Vertrag – in dem die Qualitätsgarantien, die Konsummodalitäten (Protokolle und Sicherheit), mögliche Nutzungseinschränkungen, Regeln für die Weitergabe usw. festgelegt werden.

In der Logik des Data Mesh werden diese Metadaten vom Produktteam verwaltet und im gleichen Lebenszyklus wie die Daten und Pipelines eingesetzt. Hier bleibt eine grundlegende Frage: Wo sollen die Metadaten bereitgestellt werden?

Einen Data Marketplace zur Bereitstellung von Metadaten nutzen

 

Die meisten Unternehmen verfügen bereits über ein System zur Verwaltung von Metadaten, meist in Form eines Datenkatalogs.

Doch Data Catalogs in ihrer heutigen Form haben entscheidende Nachteile:

Dont Support Data Product

Nicht alle von ihnen unterstützen den Begriff des Datenprodukts – er muss mehr oder weniger mit anderen Begriffen emuliert werden.

Complex To Use

Ihre Anwendung ist komplex – sie wurden entwickelt, um eine große Anzahl von Assets mit teilweise sehr feiner Granularität zu katalogisieren, und leiden sehr oft an einer mangelnden Akzeptanz jenseits der zentralisierten Datenmanagement-Teams.

Rigid Organization

Sie verlangen meist eine starre und einheitliche Datenorganisation, die zentral entschieden und entworfen wird – das spiegelt selten die Vielfalt der verschiedenen Domänen oder die organisatorischen Entwicklungen wider, die mit der Ausbreitung des Data Mesh einhergehen.

Limited Search Capacities

Ihre Suchfähigkeiten sind oft begrenzt, insbesondere in Bezug auf die Data Discovery – oft muss man erst wissen, was man sucht, um es finden zu können.

Lacks Simplicity

Das Erlebnis, die sie bieten, lässt manchmal die Einfachheit vermissen, nach der sich die Nutzer sehnen – ich suche mit ein paar Schlüsselwörtern, identifiziere das richtige Datenprodukt und löse dann den operativen Prozess aus, um Zugriff zu beantragen oder die Daten zu erhalten.

Ein interner Data Marketplace oder Enterprise Data Marketplace (EDM) ist daher ein neues Konzept, das im Bereich Data Mesh immer beliebter wird. Ebenso wie ein allgemeiner Marktplatz sollte ein EDM den Datenkonsumenten ein angenehmes Einkaufserlebnis bieten. Der Marketplace ist ein unverzichtbarer Bestandteil, um die Nutzung des Data Mesh in großem Maßstab zu gewährleisten – er bietet den Datenkonsumenten ein einfaches und effizientes System, mit dem sie nach Datenprodukten aus verschiedenen Domänen suchen und auf diese zugreifen können.

In unserem nächsten Artikel erfahren Sie mehr über die verschiedenen Möglichkeiten, einen internen Data Marketplace einzurichten, und warum das für die Nutzung des Data Mesh von entscheidender Bedeutung ist.

Praxisleitfaden Data Mesh: Ein unternehmensweites Data Mesh einrichten und überwachen

 

Dieser Leitfaden von Guillaume Bodet, Mitbegründer und CPTO von Zeenea, vermittelt Ihnen einen praktischen Ansatz zur Implementierung eines Data Mesh in Ihrer Organisation und hilft Ihnen:

✅ Ihren Data-Mesh-Ansatz mit einem fokussierten Pilotprojekt zu starten,

✅ effektive Methoden kennenzulernen, um Ihr Data Mesh zu skalieren,

✅ die entscheidende Rolle eines internen Data Marketplaces zu verstehen, um die Nutzung von Datenprodukten zu erleichtern

✅ zu verstehen, was Zeenea als robustes, unternehmensweites Data-Mesh-Monitoring-System auszeichnet.

Wie initiiert man ein Data Mesh? – Teil 4 – Zu einem Federated-Governance-Modell übergehen

Wie initiiert man ein Data Mesh? – Teil 4 – Zu einem Federated-Governance-Modell übergehen

Die Literatur zum Data Mesh ist zwar umfangreich, beschreibt aber oft einen Endzustand und selten, wie man diesen in der Praxis erreicht. Es stellt sich also die Frage:

Welche Vorgehensweise sollten Sie wählen, um das Datenmanagement zu transformieren und ein Data Mesh einzurichten?

In dieser Artikelreihe finden Sie Auszüge aus unserem Praxisleitfaden Data Mesh, in dem wir ein iteratives Vorgehen für die Einführung eines Data Mesh in Ihrer Organisation vorschlagen. Dieser Ansatz basiert auf seinen vier Schlüsselprinzipien (Domain-oriented Decentralized Data Ownership and Architecture, Data as a Product, Self-serve Data Infrastructure as a Platform und Federated Computational Governance) und stützt sich auf die vorhandenen personellen und technologischen Ressourcen.

Im Laufe dieser Artikelreihe und zur Veranschaulichung dieses iterativen Vorgehens bei der Einrichtung eines Data Mesh werden wir ein Fallbeispiel verwenden: das fiktive Unternehmen Premium Offices – eine Gesellschaft für Gewerbeimmobilien, die Immobilien erwirbt und an Unternehmen vermietet.

In den ersten Artikeln der Reihe haben wir die Domänen identifiziert, einen ersten Use Case definiert, das Team zusammengestellt, das für die Entwicklung verantwortlich sein wird und unsere ersten Data Products erstellt. Jetzt ist es an der Zeit, zum letzten Prinzip des Data Mesh, der Federated Computational Governance, überzugehen.

Was ist Federated Computational Governance?

 

Federated Computational Governance verweist auf ein Governance-System, bei dem die Entscheidungsprozesse auf mehrere Einheiten oder Organisationen verteilt sind, wobei computergestützte Algorithmen und verteilte Technologien eingesetzt werden. In diesem System ist die Entscheidungsgewalt dezentralisiert, wobei jede teilnehmende Einheit ein gewisses Maß an Autonomie behält, während alle innerhalb eines größeren Rahmens zusammenarbeiten. Federated Governance beruht auf den folgenden Merkmalen:

  • Dezentralisierung: Die Entscheidungsbefugnis wird auf mehrere Einheiten verteilt, anstatt sie in einer zentralen Stelle zu konzentrieren.
  • Algorithmen: Algorithmen spielen eine bedeutende Rolle in Governance-Prozessen und helfen dabei, die Entscheidungsprozesse zu automatisieren, Regeln durchzusetzen und für Transparenz und Fairness zu sorgen.
  • Ein kollaborativer Rahmen: Die Einheiten arbeiten innerhalb eines größeren Rahmens zusammen und teilen Ressourcen, Daten und Verantwortlichkeiten, um gemeinsame Ziele zu erreichen.
  • Transparenz und Verantwortlichkeit: Die Verwendung von Algorithmen und verteilten Registrys kann die Transparenz erhöhen, indem sie eine klare Aufzeichnung der Prozesse bietet und die Verantwortlichkeit der teilnehmenden Einheiten sicherstellt.
  • Anpassungsfähigkeit und Resilienz: Föderierte computergestützte Governance-Systeme sind so konzipiert, dass sie anpassungsfähig und belastbar sind, sich weiterentwickeln und auf Veränderungen in der Umgebung oder auf die Bedürfnisse der Teilnehmer reagieren können.

Die Herausforderungen einer Federated Governance im Data Mesh

 

Dieses letzte Prinzip des Data Mesh, die Federated Computational Governance, bedeutet, dass ein zentrales Organ die Regeln und Richtlinien festlegt, an die sich die Domänen halten müssen. Lokale Verantwortliche sind dafür zuständig, diese Regeln in ihrem Bereich umzusetzen und dem Zentralorgan die Compliance nachzuweisen – meist in Form von Berichten.

Obwohl das Modell im Prinzip einfach ist, scheitert seine Umsetzung oft an der internen Kultur. Dies ist insbesondere in stark regulierten Branchen der Fall, in denen zentralisierte Governance-Teams nur ungern alle oder einen Teil der Kontrollen delegieren, für die sie bisher verantwortlich waren.

Federated Governance trifft auch selten auf eine günstige Realität in der Praxis: Die Data Governance ist stark mit dem Risikomanagement und der Compliance verknüpft, zwei Bereichen, die bei den operativen Teams selten Begeisterung hervorrufen.

Daher ist es schwierig, die lokalen Verantwortlichen zu identifizieren oder bestimmte Aspekte der Governance auf die Data Product Owner zu übertragen – von denen die meisten bereits ein neues Aufgabenfeld erlernen müssen. Es ist daher wahrscheinlich, dass in den meisten großen Unternehmen die föderale Struktur vom Zentralorgan emuliert und dann allmählich und mit fortschreitender Reife in den Domänen eingeführt wird.

Um eine Kostenexplosion bei der Governance oder deren Fragmentierung zu vermeiden, prognostiziert Dehghani, dass die Datenplattform mit der Zeit ganze Bereiche der Governance automatisch übernehmen kann.

Automatisierbare Aspekte einer föderierten Governance

 

Wir bei Zeenea sind der festen Überzeugung, dass Automatisierung diese Herausforderung in mehrfacher Hinsicht bewältigen kann:

  • Quality ControlsQualitätskontrollen – es gibt bereits viele Lösungen.
  • TraceabilityRückverfolgbarkeit – Entwicklungsteams können bereits automatisch die vollständigen Lineage-Informationen aus ihren Data Products extrahieren und die Transformationen dokumentieren.
  • Access Policy ManagementDetaillierte Steuerung der Zugriffsrichtlinien – es gibt zunehmend Lösungen, die auf dem Tagging von Informationen beruhen.
Mit etwas Fantasie könnte man sich sogar vorstellen, dass eine generative KI die SQL-Abfragen der Transformation analysiert und sie in natürliche Sprache übersetzt (Lösungen gibt es bereits).

Der Weg ist natürlich lang, aber die Dezentralisierung erlaubt sehr iterative Fortschritte, Domäne für Domäne, Produkt für Produkt. Und rufen wir uns auch in Erinnerung, dass jeder Fortschritt bei der Automatisierung der Governance, egal in welcher Hinsicht, auf der Erzeugung und Verarbeitung von Metadaten beruht.

  FALLBEISPIEL PREMIUM OFFICES

Bei Premium Offices hat das Data Office eine sehr defensive Governance-Kultur – da das Unternehmen auf dem Kapitalmarkt tätig ist, unterliegt es einer Reihe von strengen gesetzlichen Vorschriften.

Im Rahmen des Pilotprojekts wurde beschlossen, das Governance-Framework unangetastet zu lassen. Qualität und Nachvollziehbarkeit bleiben in der Zuständigkeit des Data Office und werden im Nachhinein mit dessen Werkzeugen und Methoden bearbeitet. Auch die Zugriffskontrolle wird in dessen Verantwortung fallen – ein Prozess ist bereits in Form eines ServiceNow-Workflows eingerichtet (das Einrichten von Berechtigungen in BigQuery erfordert mehrere manuelle Arbeitsschritte sowie Überprüfungen). Als einziges Zugeständnis wird der Workflow so geändert, dass die Zugriffsanfragen vom Data Product Owner überprüft werden, bevor sie vom Data Office freigegeben und bearbeitet werden. Ein erster kleiner Schritt in Richtung Federated Governance.

Auf der Metadatenseite müssen die neuen Tabellen und Ansichten in BigQuery auf konzeptueller und physischer Ebene im zentralen Datenkatalog dokumentiert werden (der den Begriff Data Product nicht kennt). Es handelt sich um einen deklarativen Prozess, den das Pilotteam bereits kennt. Das Tagging der Spalten wird gegebenenfalls nach der Auswertung durch das Data Office durchgeführt.

Ansonsten wird die Benutzerdokumentation für die Datenprodukte in einem eigenen Bereich des internen Wikis veröffentlicht, das nach Domänen gegliedert ist, in dem man eine sehr umfangreiche und strukturierte Dokumentation schreiben kann und das über eine angemessene Suchmaschine verfügt.

Praxisleitfaden Data Mesh: Ein unternehmensweites Data Mesh einrichten und überwachen

 

Dieser Leitfaden von Guillaume Bodet, Mitbegründer und CPTO von Zeenea, vermittelt Ihnen einen praktischen Ansatz zur Implementierung eines Data Mesh in Ihrer Organisation und hilft Ihnen:

✅ Ihren Data-Mesh-Ansatz mit einem fokussierten Pilotprojekt zu starten,

✅ effektive Methoden kennenzulernen, um Ihr Data Mesh zu skalieren,

✅ die entscheidende Rolle eines internen Data Marketplaces zu verstehen, um die Nutzung von Datenprodukten zu erleichtern

✅ zu verstehen, was Zeenea als robustes, unternehmensweites Data-Mesh-Monitoring-System auszeichnet.

Wie initiiert man ein Data Mesh? – Teil 3 – Ihre ersten Datenprodukte herstellen 

Wie initiiert man ein Data Mesh? – Teil 3 – Ihre ersten Datenprodukte herstellen 

Die Literatur zum Data Mesh ist zwar umfangreich, beschreibt aber oft einen Endzustand und selten, wie man diesen in der Praxis erreicht. Es stellt sich also die Frage:

Welche Vorgehensweise sollten Sie wählen, um das Datenmanagement zu transformieren und ein Data Mesh einzurichten?

In dieser Artikelreihe finden Sie Auszüge aus unserem Praxisleitfaden Data Mesh, in dem wir ein iteratives Vorgehen für die Einführung eines Data Mesh in Ihrer Organisation vorschlagen. Dieser Ansatz basiert auf seinen vier Schlüsselprinzipien (Domain-oriented Decentralized Data Ownership and Architecture, Data as a Product, Self-serve Data Infrastructure as a Platform und Federated Computational Governance) und stützt sich auf die vorhandenen personellen und technologischen Ressourcen.

Im Laufe dieser Artikelreihe und zur Veranschaulichung dieses iterativen Vorgehens bei der Einrichtung eines Data Mesh werden wir ein Fallbeispiel verwenden: das fiktive Unternehmen Premium Offices – eine Gesellschaft für Gewerbeimmobilien, die Immobilien erwirbt und an Unternehmen vermietet.

In den ersten Artikeln der Reihe haben wir die Domänen identifiziert, einen ersten Use Case definiert und das Team zusammengestellt, das für die Entwicklung verantwortlich sein wird. Mit der Entwicklung der ersten Datenprodukte ist es an der Zeit, zum zweiten Prinzip des Data Mesh, Data as a Product, überzugehen.

Der produktorientierte Ansatz des Data Mesh

 

Im Laufe des letzten Jahrzehnts haben die Domänen sehr häufig bereits eine produktorientierte Kultur rund um ihre operativen Fähigkeiten entwickelt. Sie bieten sie dem Rest der Organisation in Form von APIs an, die konsumiert und zusammengestellt werden können, um neue Dienste und Anwendungen zu entwickeln. In manchen Organisationen sind die Teams darauf bedacht, den Entwicklern, die APIs in ihrem Bereich nutzen, die bestmögliche Erfahrung zu bieten: Suche in einem globalen Katalog, umfassende Dokumentation, Codebeispiele, Sandbox, garantierte und überwachte Service Levels und vieles mehr.

Diese APIs werden dann wie Produkte verwaltet, die entstehen, sich weiterentwickeln (ohne Kompatibilitätsbruch), erweitert werden und dann abgeschrieben werden, wobei sie in der Regel durch eine neue, modernere, leistungsfähigere und umfangreichere Version ersetzt werden.

Das Data Mesh schlägt vor, denselben produktbasierten Ansatz (Product-Thinking) auf Daten anzuwenden, die von den Domänen geteilt werden.

Die Eigenschaften eines Datenprodukts

 

In einigen Organisationen ist diese Produktkultur bereits fest verankert. In anderen muss sie weiterentwickelt oder sogar erst eingeführt werden. Aber lassen wir uns nicht täuschen:

Ein Datenprodukt ist kein neues digitales Gebilde, das neue technische Fähigkeiten erfordert (ähnlich wie ein API-Produkt). Es ist lediglich das Ergebnis einer bestimmten Art des Managements von Daten, die von einer Domäne für den Rest der Organisation zur Verfügung gestellt werden.

APIs wie ein Produkt zu verwalten, erforderte keinen technologischen Bruch: Die vorhandene Middleware erfüllte den Zweck sehr gut. Ebenso können Data Products problemlos auf bereits vorhandenen Dateninfrastrukturen jeglicher Art eingeführt werden.

Technisch gesehen kann ein Datenprodukt eine einfache Datei in einem Data Lake mit einer SQL-Schnittstelle sein; ein kleines Sternschema, das um einige Ansichten ergänzt ist, welche die Abfrage erleichtern, und in einer relationalen Datenbank instanziiert ist; oder eine API, eine Kafka-Streams-Bibliothek, eine Excel-Datei usw.

Ein Data Product wird also nicht dadurch definiert, wie es sich darstellt, sondern durch die Art und Weise, wie es konzipiert, verwaltet und gesteuert wird; und durch eine Reihe von Merkmalen, die seine breite Nutzung in der Organisation ermöglichen.

Diese Merkmale werden oft in dem Akronym DATSIS (Discoverable, Addressable, Trustworthy, Self-describing, Interoperable, Secure) zusammengefasst.

Um ein DATSIS-Datenprodukt zu erreichen, sind ebenfalls keine großen Investitionen erforderlich. Es geht darum, eine Reihe globaler Konventionen festzulegen, an die sich die Domänen halten müssen (Benennung, unterstützte Protokolle, Zugriffs- und Berechtigungsverwaltung, Qualitätskontrollen, Metadaten usw.). Die operative Umsetzung dieser Konventionen erfordert in den allermeisten Fällen keine neuen technologischen Fähigkeiten – die vorhandenen Lösungen reichen in der Regel aus, um loszulegen.

Eine Ausnahme ist jedoch der Katalog. Er spielt eine zentrale Rolle bei der Einführung des Data Mesh, da er es den Domänen ermöglicht, Informationen über ihre Data Products zu veröffentlichen, und den Konsumenten, diese Datenprodukte zu finden, zu durchsuchen, zu verstehen und zu nutzen.

Best Practices für die Gestaltung eines Datenprodukts

 

Die Gestaltung eines Datenprodukts ist natürlich keine exakte Wissenschaft – man kann ein einziges Produkt herstellen, aber auch drei oder vier. Als Leitfaden bei dieser Entscheidung ist es wiederum hilfreich, einige Best Practices aus verteilten Architekturen zu nutzen – ein Datenprodukt muss:

  • Single Responsibilityeine einzige, klar definierte Verantwortlichkeit haben,
  • Stable Interfacesüber stabile Schnittstellen verfügen und deren Abwärtskompatibilität gewährleisten,
  • Support Polyglotismin vielen verschiedenen Kontexten, also polyglott, verwendet werden können.

Erfahrung bei der Entwicklung von Datenprodukten

 

Die Entwicklererfahrung ist ebenfalls ein grundlegender Aspekt des Data Mesh, mit dem Ziel, die Entwicklung von Datenprodukten und die Entwicklung von Dienstleistungen oder Softwarekomponenten zusammenzuführen. Es geht nicht nur darum, freundlich zu den Engineers zu sein, sondern auch darum, eine gewisse wirtschaftliche Rationalität zu erfüllen:

Die Dezentralisierung des Datenmanagements bedeutet, dass die Domänen über eigene Ressourcen zur Entwicklung von Datenprodukten verfügen. In vielen Organisationen ist das zentrale Datenteam nicht groß genug, um verteilte Teams zu versorgen. Für den Erfolg des Data Mesh ist es daher unerlässlich, auf den oftmals größeren Pool an Softwareingenieuren zurückgreifen zu können.

Der Stand der Technik in der Softwareentwicklung beruht auf einem sehr hohen Automatisierungsgrad: deklarative Zuweisung von Infrastrukturressourcen, automatisierte Unit- und Integrationstests, orchestrierter Aufbau und Einsatz über CI/CD-Tools, Git-Workflows zur Verwaltung von Quellen und Versionen, automatische Veröffentlichung der Dokumentation usw.

Die Entwicklung von Datenprodukten muss auf diesen Stand der Technik zusteuern – und je nach Reifegrad der Organisation, der Reife ihrer Teams und ihres Technologie-Stacks wird diese Konvergenz mehr oder weniger lange dauern. Der richtige Ansatz besteht darin, so viel wie möglich zu automatisieren und dafür bereits vorhandene und bekannte Tools zu nutzen, und dann zu ermitteln, welche Vorgänge noch nicht automatisiert sind, um nach und nach zusätzliche Tools zu integrieren.

In der Praxis besteht ein Datenprodukt aus folgenden Elementen:

Code First

1. Zunächst einmal dem Code – für die Pipelines, die das Datenprodukt mit Daten aus verschiedenen Quellen oder anderen Datenprodukten versorgen; für mögliche APIs zur Nutzung des Datenprodukts; zum Testen der Pipelines und zur Überwachung der Datenqualität usw.

Data

2. Aus Daten, natürlich – aber meistens sind die Daten in den Systemen vorhanden und werden nur von den Pipelines extrahiert und umgewandelt. Sie sind daher nicht im Quellcode vorhanden (außer in Ausnahmefällen).

Metadata

3. Aus Metadaten – von denen einige dazu dienen, das Datenprodukt zu dokumentieren: Schema, Semantik, Syntax, Qualität, Lineage usw. Andere sollen die Governance des Produkts auf Mesh-Ebene sicherstellen – Verträge, Verantwortlichkeiten, Zugriffsrichtlinien, Nutzungsbeschränkungen usw.

Infrastructure
4. Aus Infrastruktur – oder genauer gesagt aus der Deklaration der physischen Ressourcen, die für die Instanziierung des Datenprodukts erforderlich sind: Bereitstellung und Ausführung von Code, Bereitstellung von Metadaten, Zuweisung von Ressourcen für die Speicherung usw.

  FALLBEISPIEL PREMIUM OFFICES

Um einen vorläufigen Rahmen für die Governance seines Data Mesh festzulegen, hat Premium Offices die folgenden Regeln aufgestellt:

✅ Ein Datenprodukt wird in BigQuery durch ein dediziertes Projekt dargestellt – dadurch ist es möglich, Zugriffsregeln auf Projektebene oder bei Bedarf auch feiner festzulegen. Diese Projekte werden in einem Repository namens „Data Products“ und einem Unterverzeichnis mit dem Namen der Domäne, zu der sie gehören (in unserem Beispiel „Brokerage“), abgelegt.

✅ Datenprodukte müssen Ansichten für den Zugriff auf die Daten anbieten – diese Ansichten ermöglichen es, eine stabile Schnittstelle für die Nutzung anzubieten und das interne Modell des Produkts potenziell weiterzuentwickeln, ohne seine Konsumenten zu beeinträchtigen.

✅ Alle Datenprodukte müssen die Daten mithilfe gemeinsamer Referenzen für gemeinsame Daten (Kunden, Produkte, Lieferanten, Mitarbeiter usw.) identifizieren – dies soll die Verknüpfung von Daten aus verschiedenen Datenprodukten (LEI, Produktcode, UPC, EAN, E-Mail-Adresse usw.) vereinfachen.

✅ Der Zugriff auf Datenprodukte erfordert eine starke Authentifizierung, die auf den IAM-Fähigkeiten von GCP beruht – die Verwendung eines Service-Kontos ist möglich, aber jeder Nutzer eines Datenprodukts muss dann über ein eigenes Service-Konto verfügen. Wenn die Zugriffsrichtlinien vom jeweiligen Benutzer abhängen, muss die Identität des Endbenutzers über eine OAuth2-Authentifizierung bestätigt werden.

✅ Standardmäßig wird nur der Zugriff auf die Ansichten gewährt – und nicht auf das interne Modell.

✅ Zugriffsanfragen werden vom Data Product Owner mithilfe von Workflows bearbeitet, die in Service Now eingerichtet wurden.

✅ DBT ist das bevorzugte ETL zur Implementierung von Pipelines – jedes Data Product hat ein dediziertes Repository für seine Pipeline.

✅ Ein Datenprodukt muss seinen Vertrag festlegen – Häufigkeit der Datenaktualisierung, Qualitätsstufen, Klassifizierung der Informationen, Zugriffsrichtlinien, Nutzungseinschränkungen.

✅ Ein Datenprodukt kann entweder über das JDBC-Protokoll oder über die BigQuery-APIs (schreibgeschützt) konsumiert werden.

✅ Das Datenprodukt muss seine Metadaten und seine Dokumentation auf einem Marktplatz veröffentlichen – mangels eines bestehenden Systems beschließt Premium Offices, seine ersten Data Products in einem speziellen Bereich seines Unternehmenswikis zu dokumentieren.

Dieser erste Satz von Regeln wird natürlich weiterentwickelt werden müssen, aber er definiert einen ersten pragmatischen Rahmen, um die DATSIS-Merkmale von Datenprodukten zu gewährleisten und nutzt dazu ausschließlich bereits vorhandene Technologien und Kompetenzen. Für sein Pilotprojekt entschied sich Premium Offices dafür, die Architektur auf zwei Datenprodukte aufzuteilen:

  • Tenancy analytics dieses erste Datenprodukt bietet Analysefunktionen für Mietverträge – Einheit, Muttergesellschaft, Standort der Immobilie, Beginn des Mietvertrags, Ende des Mietvertrags, Art des Mietvertrags, Höhe der Miete usw. Es wird in Form eines kleinen Sterndiagramms modelliert, das die Analyse nach zwei Dimensionen ermöglicht: Zeit und Mieter – das sind die Analysedimensionen, die für den Aufbau der ersten Version des Dashboards benötigt werden. Es umfasst auch eine oder zwei Ansichten, die das Sternschema nutzen, um voraggregierte Daten bereitzustellen – diese Ansichten bilden die öffentliche Schnittstelle des Data Products. Schließlich enthält es noch eine Ansicht, mit der die aktuelle Liste der Mieter abgerufen werden kann.

 

  • Entity ratings – dieses zweite Datenprodukt liefert temporale Bewertungen der Einheiten in Form eines einfachen Datensatzes und einer gespiegelten Ansicht, die als Schnittstelle dient und den gemeinsamen Regeln entspricht. Das Rating wird von einem spezialisierten Anbieter bezogen, der es über APIs zur Verfügung stellt. Um diese API aufzurufen, muss eine Liste von Einheiten bereitgestellt werden, die über die entsprechende Schnittstelle des Datenprodukts Tenancy Analytics erzeugt wird.
Zusammenfassend lässt sich sagen, dass ein produktorientierter Ansatz und die Verarbeitung von Daten als Produkt für Unternehmen, die ihr Datenmanagement dezentralisieren möchten, von entscheidender Bedeutung sind. Dieser Ansatz fördert eine Kultur der Verantwortlichkeit, Standardisierung und Effektivität bei der Datenverarbeitung zwischen den verschiedenen Domänen. Wenn Organisationen Daten als wertvolles Gut betrachten und strukturierte Management-Frameworks einsetzen, können sie sicherstellen, dass die Daten konsistent, zuverlässig und nahtlos in alle ihre Aktivitäten integriert sind.

In unserem letzten Artikel dieser Reihe werden wir uns mit dem vierten und letzten Prinzip des Data Mesh beschäftigen: Federated Computational Governance.

Praxisleitfaden Data Mesh: Ein unternehmensweites Data Mesh einrichten und überwachen

 

Dieser Leitfaden von Guillaume Bodet, Mitbegründer und CPTO von Zeenea, vermittelt Ihnen einen praktischen Ansatz zur Implementierung eines Data Mesh in Ihrer Organisation und hilft Ihnen:

✅ Ihren Data-Mesh-Ansatz mit einem fokussierten Pilotprojekt zu starten,

✅ effektive Methoden kennenzulernen, um Ihr Data Mesh zu skalieren,

✅ die entscheidende Rolle eines internen Data Marketplaces zu verstehen, um die Nutzung von Datenprodukten zu erleichtern

✅ zu verstehen, was Zeenea als robustes, unternehmensweites Data-Mesh-Monitoring-System auszeichnet.

Was ist Data Sharing? Vorteile, Herausforderungen und Best Practices

Was ist Data Sharing? Vorteile, Herausforderungen und Best Practices

In der heutigen digitalen Datenlandschaft ist die gemeinsame Nutzung von Daten, auch Data Sharing genannt, für die Wertschöpfung unerlässlich geworden. In der Tat nutzen Organisationen und Einzelpersonen in allen Sektoren und Bereichen die Macht des Datenaustauschs, um die Zusammenarbeit zu fördern und das Wachstum zu stimulieren. Durch den Austausch von Data Products von Unternehmen können die Beteiligten wertvolle Einblicke gewinnen, verborgene Trends aufdecken und Entscheidungen treffen, die spürbare Auswirkungen haben.

Das Data Sharing ist jedoch mit einer hohen Komplexität und zahlreichen Herausforderungen verbunden – von der Gewährleistung der Sicherheit und Vertraulichkeit der Daten bis hin zur Einhaltung gesetzlicher Vorschriften müssen die Beteiligten viele Aspekte berücksichtigen, um eine verantwortungsvolle Kultur bei der gemeinsamen Nutzung von Daten sicherzustellen.

In diesem Artikel erfahren Sie alles, was Sie über die gemeinsame Nutzung von Daten wissen müssen und wie ein interner Marktplatz, oder Data Marketplace, Ihre Data-Sharing-Initiativen erleichtern kann.

Definition des Begriffs Data Sharing

 

Das Data Sharing bezeichnet, wie der Name schon sagt, das Teilen und die Weitergabe von Daten zwischen verschiedenen Interessengruppen. Über die gemeinsame Nutzung hinaus bedeutet das Data Sharing jedoch auch, dass die Integrität und Zuverlässigkeit der gemeinsam genutzten Daten während ihres gesamten Lebenszyklus gewahrt werden muss. Das bedeutet also nicht nur, die Daten für alle Beteiligten zugänglich zu machen, sondern auch sicherzustellen, dass ihre Qualität, Kohärenz und Nützlichkeit für die Verarbeitung und Analyse durch die Datenkonsumenten aufrechterhalten wird. Ein entscheidender Teil dieses Prozesses beinhaltet, dass Datenproduzenten Datensätze sorgfältig dokumentieren, indem sie detaillierte Beschreibungen und eindeutige Definitionen bereitstellen, so dass andere die gemeinsam genutzten Daten leicht finden, betrachten und verstehen können.

Darüber hinaus bedeutet Data Sharing, dass Daten für relevante Einzelpersonen, Bereiche oder Organisationen durch die Verwendung von Zugriffskontrollen und Berechtigungen zugänglich gemacht werden. So wird sichergestellt, dass nur autorisierte Personen auf bestimmte Datensätze zugreifen können, wodurch die Compliance-Anforderungen erfüllt und die Risiken von Datenpannen und Datenmissbrauch verringert werden.

Internes vs. externes Data Sharing

 

Wir müssen zwischen gemeinsamer interner und externer Datennutzung unterscheiden, da sie unterschiedliche Ansätzen zur Verbreitung von Informationen innerhalb von Organisationen nutzen.

Das interne Data Sharing bezieht sich auf den Austausch von Informationen innerhalb der Grenzen eines Unternehmens. Das Ziel ist es, Silos aufzubrechen und sicherzustellen, dass alle Teile der Organisation in einer sicheren Umgebung auf die Daten zugreifen können, die sie benötigen, wenn sie sie benötigen. Der interne Austausch kann durch einen Unternehmens-Marktplatz erleichtert werden, doch dazu später mehr.

Der externe Datenaustausch hingegen geht über die Grenzen des Unternehmens hinaus und schließt Partner, Kunden, Lieferanten und Regulierungsbehörden ein. Aufgrund seiner Natur unterliegt das externe Data Sharing strengeren Maßnahmen zur Einhaltung gesetzlicher Vorschriften und Sicherheitsmaßnahmen und erfordert robuste Protokolle, um sensible Informationen zu schützen und das Vertrauen zwischen dem Unternehmen und den externen Beteiligten aufrechtzuerhalten.

Die Vorteile des Data Sharings

 

Data Sharing bietet viele Vorteile für Unternehmen. Hier sind die wichtigsten:

Erleichterung der Zusammenarbeit

 

Durch die Erleichterung der gemeinsamen Nutzung von Daten innerhalb Ihres Unternehmens fördern Sie eine bessere Zusammenarbeit zwischen internen Teams, Partnern und den verschiedenen Bereichen Ihrer Organisation. Wenn Unternehmen relevante Informationen verfügbar machen, erhalten alle Beteiligten ein besseres Verständnis für kritische Aspekte wie Markttrends, Kundenpräferenzen, erfolgreiche Strategien und aufschlussreiche Analysen. Diese gemeinsam genutzten Daten ermöglichen es den Teams, bei gemeinsamen Projekten oder Forschungs- und Entwicklungsinitiativen effizienter zusammenzuarbeiten.

Darüber hinaus können Unternehmen durch den Austausch von internen und externen Daten gemeinsam innovative Ideen und alternative Ansätze untersuchen sowie Lehren und Erkenntnisse aus verschiedenen Quellen ziehen. Eine solche kollaborative Umgebung fördert eine Kultur des Experimentierens und der Kreativität, was schließlich zur Entwicklung von Lösungen in einem breiten Spektrum von Industrien und Bereichen führt.

Ein konkretes Beispiel für die Vorteile des Datenaustauschs mit externen Parteien kann zum Beispiel im Gesundheitssektor mit Initiativen wie den Austausch von Gesundheitsinformationen (HIE) beobachtet werden. HIE-Systeme sind Netzwerke, die den Austausch von elektronischen Patientenakten zwischen Gesundheitsdienstleistern, Krankenhäusern, Kliniken und anderen medizinischen Einrichtungen erleichtern. Durch den sicheren und effizienten Austausch von Patienteninformationen ermöglichen HIE-Systeme Gesundheitsdienstleistern den Zugang zur vollständigen Krankengeschichte, diagnostischen Testergebnissen, Medikamentenlisten und anderen wichtigen Informationen über Patienten, unabhängig davon, wo diese behandelt wurden.

Steigerung der Produktivität Ihrer Teams

 

Die gemeinsame Nutzung von Daten verbessert die Produktivität erheblich, da sie den Zugang zu kritischen Informationen erleichtert. Wenn Unternehmen Daten intern zwischen Teams oder extern mit Partnern und Beteiligten austauschen, werden Silos abgebaut und die Mitarbeiter können schnell und effizient auf relevante Informationen zugreifen. Dadurch entfällt die mühsame Suche in unterschiedlichen Systemen oder das Warten auf die Wiederherstellung von Daten durch andere.

Darüber hinaus wirkt die gemeinsame Nutzung doppelten und redundanten Daten entgegen und fördert das Bewusstsein für vorhandene Datenbestände, Dashboards und andere Datenprodukte durch gemeinsames Wissen. Durch die Minimierung redundanter Aufgaben reduziert die gemeinsame Nutzung von Daten nicht nur Fehler, sondern optimiert auch die Zuweisung von Ressourcen, so dass sich die Teams auf wertschöpfende Initiativen konzentrieren können.

Vertrauensvoll mit hochwertigen Daten arbeiten

 

Die gemeinsame Nutzung von Daten spielt auf mehrere Arten eine entscheidende Rolle bei der Verbesserung des Vertrauens und der Datenqualität. Wenn Daten zwischen verschiedenen Interessengruppen geteilt werden, werden sie gründlichen Validierungs- und Überprüfungsprozessen unterzogen. Diese Bewertung durch mehrere Parteien ermöglicht es, Unstimmigkeiten, Fehler oder Ungenauigkeiten zu identifizieren, was letztendlich zu einer Verbesserung der Genauigkeit und der Zuverlässigkeit der Daten führt.

Darüber hinaus ermutigen gemeinsam genutzte Daten zu Peer Reviews und Kommentaren, was kollaborative Bemühungen zur Verfeinerung und Verbesserung der Datenqualität erleichtert. Dieser kontinuierliche iterative Prozess schafft Vertrauen in die Genauigkeit und Zuverlässigkeit der gemeinsam genutzten Daten.

Die gemeinsame Nutzung von Daten erfordert oft die Einhaltung von standardisierten Protokollen und Qualitätsstandards. Durch die Standardisierung von Formaten, Definitionen und Metadaten stellen Unternehmen die Kohärenz und Kompatibilität zwischen Datensätzen sicher, wodurch die Datenqualität gewährleistet und die Interoperabilität ermöglicht wird.

Im Rahmen der Data Governance schließlich legen die Initiativen zur gemeinsamen Nutzung von Daten klare Richtlinien, Verfahren und Best Practices für einen verantwortungsvollen Umgang mit Daten fest. Robuste Mechanismen zur Prüfung und Rückverfolgung werden eingesetzt, um den Zugriff auf und die Nutzung von Daten zu verfolgen, so dass die Unternehmen Zugriffskontrollen anwenden und die Datenintegrität zuverlässig aufrechterhalten können.

Die Herausforderungen des Data Sharings

Riesige Datenmengen

 

Die gemeinsame Nutzung großer Datensätze über mehrere Netzwerke hinweg kann aufgrund der zeitintensiven Natur des Prozesses und der benötigten Bandbreite eine große Herausforderung darstellen. Dies führt häufig zu langsamen Übertragungsgeschwindigkeiten und potenziellen Überlastungen des Netzwerks. Darüber hinaus erfordert die Speicherung großer Mengen gemeinsam genutzter Daten eine große Speicherkapazität und Infrastrukturressourcen. Die Unternehmen müssen ausreichend Speicherplatz für große Datenmengen bereitstellen, was höhere Speicher- und Infrastrukturkosten zur Folge haben kann.

Darüber hinaus kann die Verarbeitung und Analyse großer Mengen gemeinsam genutzter Daten die Ressourcen und Verarbeitungskapazitäten überlasten. Um die Komplexität und den Umfang großer Datensätze effektiv zu verwalten, müssen die Unternehmen robuste Datenverarbeitungsrahmen und skalierbare IT-Ressourcen einsetzen. Diese Maßnahmen sind entscheidend, um eine effektive Analyse und Interpretation der Daten zu gewährleisten, während sie gleichzeitig Komplexität großer Datensätze meistern.

Robuste Sicherheitsmaßnahmen

 

Die Gewährleistung der Datensicherheit stellt eine große Herausforderung im Bereich der gemeinsamen Nutzung von Daten dar und erfordert höchste Aufmerksamkeit und robuste Sicherheitsmaßnahmen, um sensible Informationen wirksam zu schützen. Während des Datenaustauschs sind Informationen, die Netzwerke und Plattformen durchqueren, anfällig für verschiedene Sicherheitsrisiken, insbesondere unbefugte Zugriffsversuche, Datenpannen und böswillige Cyberangriffe. Um die Vertraulichkeit, Integrität und Verfügbarkeit der geteilten Daten zu gewährleisten, müssen strenge Sicherheitsprotokolle, Verschlüsselungsmechanismen und Zugangskontrollen in allen Aspekten der Initiativen zur gemeinsamen Nutzung von Daten implementiert werden.

Compliance-Anforderungen

 

Eine weitere nennenswerte Herausforderung bei der gemeinsamen Nutzung von Daten ist die Wahrung der Vertraulichkeit der Daten und die Einhaltung der gesetzlichen Vorschriften. Wenn Unternehmen Daten mit externen Partnern, Interessengruppen oder Drittanbietern teilen, müssen sie komplexe Gesetze und Vorschriften einhalten, die das Sammeln, Speichern und Teilen von persönlichen oder sensiblen Informationen regeln. Die Einhaltung von Vorschriften wie der DSGVO in der Europäischen Union, dem HIPAA (Health Insurance Portability and Accountability Act) im Gesundheitswesen und dem CCPA (California Consumer Privacy Act) in Kalifornien ist entscheidend, um gesetzliche Haftungsrisiken und Strafen zu vermeiden.

Best Practices beim Data Sharing

 

Um diese Herausforderungen zu meistern, finden Sie im Folgenden einige Best Practices:

Festlegung klarer Governance-Richtlinien

 

Die Festlegung klarer Richtlinien für die Data Governance ist entscheidend, um einen effektiven Datenaustausch zu ermöglichen. Diese Richtlinien beinhalten die Definition von Rollen, Verantwortlichkeiten und Verfahren für die Verwaltung, den Zugang und die gemeinsame Nutzung von Daten. Durch die Ernennung von Datenverantwortlichen, Administratoren und Nutzern mit spezifischen Aufgaben stellen Unternehmen die Rechenschaftspflicht und Überwachung während des gesamten Lebenszyklus der Daten sicher.

Darüber hinaus spielen standardisierte Verfahren für die Sammlung, Speicherung, Verarbeitung und Archivierung von Daten eine entscheidende Rolle bei der Förderung der Konsistenz und Effektivität von Data-Governance-Praktiken. Durch die Standardisierung dieser Verfahren können Unternehmen sicherstellen, dass die Daten in allen Abteilungen und Teams einheitlich und systematisch verarbeitet werden.

Definition von Protokollen für den Datenaustausch

 

Die Festlegung eindeutiger Protokolle und Richtlinien für den Datenaustausch innerhalb und außerhalb der Organisation ist entscheidend für die Förderung von Transparenz, Rechenschaftspflicht und Compliance.

Die Organisationen müssen klare Kriterien und Bedingungen für die gemeinsame Nutzung von Daten festlegen, einschließlich der Definition der Ziele, des Umfangs und der vorgesehenen Empfänger der gemeinsam genutzten Daten. Alle Beschränkungen oder Auflagen bezüglich der Nutzung, Weitergabe oder Änderung der Daten müssen klar definiert werden, um die Ausrichtung auf die organisatorischen Ziele und gesetzlichen Mandate zu gewährleisten. Die Anwendung von Verschlüsselungstechniken, Zugriffskontrollen und Datenanonymisierung gewährleistet die sichere Übertragung und Speicherung der gemeinsam genutzten Daten und verbessert so die gesamten Datensicherheitsmaßnahmen.

Darüber hinaus ist die Entwicklung formeller Vereinbarungen und Protokolle zur gemeinsamen Nutzung von Daten von entscheidender Bedeutung, um den Datenaustausch mit externen Partnern oder Interessengruppen zu regeln. Diese Vereinbarungen legen die Rechte, Verantwortlichkeiten und Verpflichtungen jeder Partei fest, die am Prozess der gemeinsamen Nutzung von Daten beteiligt ist, und decken Aspekte wie Dateneigentum, Vertraulichkeit, Urheberrechten und Haftung ab.

Einrichtung eines Data Marketplace

 

Ein Datenmarktplatz, oder Data Marketplace, dient als zentrales System, in dem Unternehmen auf einfache Weise Datenressourcen austauschen und darauf zugreifen können. Durch die Konsolidierung verschiedener Datensätze aus unterschiedlichen Quellen vereinfacht er den Prozess des Findens und Beschaffens relevanter Daten.

Darüber hinaus fördert ein Datenmarktplatz die Zusammenarbeit und Innovation, indem er Datenanbieter und Datenkonsumenten in verschiedenen Sektoren verbindet. Unternehmen können ihre Datenbestände leicht auf dem Marktplatz austauschen, während Datenkonsumenten Zugang zu einer breiten Palette von Daten haben, die sie für ihre Insights und Strategien nutzen können.

Darüber hinaus räumt ein Data Marketplace der Datenverwaltung und Compliance Vorrang ein, indem er die Normen und Vorschriften in Bezug auf Vertraulichkeit, Sicherheit und Nutzung der Daten einhält. Er bietet Werkzeuge und Funktionen zur Verwaltung des Datenzugriffs, der Berechtigungen und der Zustimmung an und stellt sicher, dass die Aktivitäten zur gemeinsamen Nutzung von Daten den gesetzlichen und regulatorischen Anforderungen entsprechen.

Gemeinsame Nutzung von Daten innerhalb Ihres Unternehmens mit Zeenea

 

Zeenea bietet über den Enterprise Data Marketplace (EDM) die Möglichkeit des internen Data Sharings, wobei jede Domäne innerhalb des Unternehmens ihren eigenen föderierten Datenkatalog verwaltet und die Flexibilität hat, Schlüsselobjekte wie Datenprodukte, KI-Modelle, Dashboards, Glossare und vieles mehr innerhalb der Organisation zu teilen. Unsere Plattform bietet Datenproduzenten die Möglichkeit, ihren Katalog, ihre Nutzer und ihre Berechtigungen zu verwalten und die Objekte zu identifizieren, die sie mit anderen Datendomänen teilen möchten.

Welche Rolle spielt ein Datenkatalog für die Verwaltung von Datenprodukten?

Welche Rolle spielt ein Datenkatalog für die Verwaltung von Datenprodukten?

Das Data Mesh ist eines der Trendthemen im Datenuniversum. Tatsächlich planen 54 % der Unternehmen laut einer kürzlich von BARC durchgeführten Umfrage, einen Data-Mesh-Ansatz einzuführen oder sind bereits dabei, dieses Vorhaben in die Tat umzusetzen. Die Einführung einer Data-Mesh-Architektur bedeutet, einen domänenzentrierten Ansatz zu verfolgen und Daten wie ein Produkt zu behandeln. Die Verwaltung von Data Products ist somit entscheidend für die Transformation hin zu einem Data Mesh. Die Umfrage der Eckerson Gruppe im Jahr 2024 ergab, dass 70 % der Unternehmen bereits mit Data Products arbeiten oder diese aktuell einführen.

Viele Unternehmen haben jedoch Schwierigkeiten, ihre Datenprodukte zu verwalten, zu pflegen und den Wert ihrer Datenprodukte zu nutzen. Die erfolgreiche Verwaltung von Data Products erfordert die Abstimmung der richtigen Personen, Verfahren und Technologien. In diesem Zusammenhang ist der Datenkatalog eine der wichtigsten Technologien.

In diesem Artikel erfahren Sie, wie ein Datenkatalog das Management von Datenprodukten in datengesteuerten Unternehmen stärkt.

Kurze Definition des Begriffs Data Product

 

In einem früheren Artikel über Data Products haben wir die Merkmale dieser Datenprodukte definiert und im Detail erläutert. Bei Zeenea definieren wir ein Data Product als:
„Eine Reihe von wertvollen Datenbeständen, die speziell für die schnelle und sichere Nutzung konzipiert und verwaltet werden und gleichzeitig ein Höchstmaß an Qualität und Verfügbarkeit sowie die Einhaltung gesetzlicher Vorschriften und interner Richtlinien gewährleisten.“
Lassen Sie uns kurz die Eigenschaften eines Data Products wiederholen. Laut Zhamak Dehghani, dem Guru des Data Mesh, müssen Data Products die folgenden grundlegenden Eigenschaften aufweisen, um Datenkonsumenten die beste Benutzererfahrung zu bieten:

  • Auffindbar
  • Adressierbar
  • Zuverlässig und vertrauenswürdig
  • Selbsterklärende Semantik und Syntax
  • Interoperabel und durch globale Standards gelenkt
  • Sicher und durch eine globale Zugangskontrolle gesteuert

Wie können Sie sicherstellen, dass Ihre Datenbestände die Kriterien erfüllen, um ein funktionales und wertvolles Datenprodukt zu werden? Hier kommt der Datenkatalog ins Spiel.

Was ist ein Datenkatalog?

 

Für den Begriff Datenkatalog gibt es zahlreiche Definitionen. Zeenea definiert den Data Catalog als „detailliertes Verzeichnis aller in einem Unternehmen verfügbaren Daten-Assets sowie der Metadaten, mit deren Hilfe diese Assets genutzt werden können.“

Grundsätzlich besteht das Ziel eines Datenkatalogs darin, eine vollständige Bibliothek aller Datenbestände des Unternehmens zu erstellen, einschließlich ihrer Ursprünge, Definitionen und Beziehungen zu anderen Daten. Und wie ein Katalog für die Bücher in einer Bibliothek erleichtern Datenkataloge das Suchen, Finden und Durchsuchen von Daten.

Daher ist es in einem Ökosystem, in dem sich die Datenmengen mit phänomenaler Geschwindigkeit vervielfachen und verändern, von entscheidender Bedeutung, eine Lösung zur Katalogisierung von Daten einzuführen – ein Datenkatalog beantwortet die Fragen nach dem Wer, Was, Wann, Wo und Warum Ihrer Daten.

Aber welchen Bezug hat das zu den Data Products? Wie bereits im vorherigen Abschnitt erwähnt, haben Data Products einige grundlegende Eigenschaften, die sie erfüllen müssen, um als Datenprodukte betrachtet zu werden. Am wichtigsten ist, dass sie verständlich und zugänglich sind und dem Endnutzer zur Verfügung stehen. Ein Datenkatalog ist daher die ideale Lösung für die Erstellung und Pflege von Datenprodukten.

Mehr über die Möglichkeiten unserer Datenkatalog-Lösung

Ein Datenkatalog macht Data Products auffindbar

 

Ein Datenkatalog sammelt, indiziert und aktualisiert Daten und Metadaten aus allen Datenquellen in einem einzigen Repository. Mit einer intuitiven Suchmaschine vereinfachen die Datenkataloge die Suche nach Datenprodukten durch die Eingabe einfacher Keywords.

Mit dem Zeenea Data Catalog können Datennutzer nicht nur ihre Datenprodukte finden, sondern auch ihren gesamten Kontext durchsuchen, einschließlich ihres Ursprungs und ihrer Transformationen im Laufe der Zeit, ihrer Eigentümer und vor allem, mit welchen anderen Ressourcen sie verbunden sind, um eine 360°-Data-Discovery zu ermöglichen. Zeenea wurde so konzipiert, dass die Nutzer jederzeit ihre Data Products finden können, auch wenn sie nicht wissen, wonach sie suchen. Unsere Plattform bietet einzigartige und personalisierte Suchpfade, so dass die Nutzer die Informationen, die sie benötigen, mit nur wenigen Klicks suchen und finden können.

Mehr über unsere Funktionen im Bereich der Data Discovery

Ein Datenkatalog macht Datenprodukte adressierbar

 

Sobald ein Datenkonsument das gewünschte Data Product gefunden hat, muss er auf einfache und effiziente Weise darauf zugreifen oder den Zugriff anfordern können. Obwohl ein Datenkatalog keine direkte Rolle bei der Adressierbarkeit spielt, kann er dennoch einen Teil der Arbeit erleichtern und automatisieren. Eine automatisierte Katalogisierungslösung kann mit Lösungen zur Durchsetzung von Richtlinien verbunden werden und beschleunigt den Zugriff auf die Daten (wenn der Nutzer die entsprechenden Berechtigungen hat).

Ein Datenkatalog stellt sicher, dass die Datenprodukte vertrauenswürdig sind.

 

Bei Zeenea sind wir der festen Überzeugung, dass ein Datenkatalog kein Werkzeug für die Datenqualität ist. Unser Data Catalog ruft jedoch automatisch Qualitätsindikatoren aus Datenqualitätsmanagementsystemen von Drittanbietern ab und aktualisiert diese. Mit Zeenea können die Nutzer ihre Qualitätsindikatoren über ein benutzerfreundliches Diagramm anzeigen und sofort erkennen, welche Qualitätskontrollen durchgeführt wurden und wie häufig, ob sie erfolgreich waren, fehlgeschlagen sind oder Warnungen ausgegeben wurden. Darüber hinaus liefern unsere Lineage-Funktionen statistische Informationen über die Daten und rekonstruieren den Verlauf des Data Products, was das Verständnis für den Ursprung und die verschiedenen Transformationen im Laufe der Zeit erleichtert. Diese kombinierten Funktionen stärken das Vertrauen in die Daten und stellen sicher, dass die Nutzer immer mit qualitativ hochwertigen Datenprodukten arbeiten.

Mehr über unsere Funktionen im Bereich der Daten-Compliance

Ein Datenkatalog macht Datenprodukte verständlich

 

Eine der wichtigsten Aufgaben eines Datenkatalogs ist es, den Kontext zu liefern, der zum Verständnis der Daten erforderlich ist. Durch eine effektive Dokumentation der Daten, sowohl in technischer als auch in geschäftlicher Hinsicht, können die Datenkonsumenten die Beschaffenheit ihrer Daten leicht verstehen und Schlussfolgerungen ziehen. Bei Zeenea können Datenverantwortliche auf einfache Weise Dokumentationsvorlagen für ihre Datenprodukte erstellen, die alle Aspekte dokumentieren, einschließlich detaillierter Beschreibungen, verwandter Glossarobjekte, Beziehungen zu anderen Datenprodukten und vielem mehr. Durch die Bereitstellung einer strukturierten und transparenten Ansicht Ihrer Daten fördert der Zeenea Datenkatalog die eigenständige Nutzung von Data Products durch die Datenkonsumenten im Unternehmen.

Mehr über unsere Funktionen im Bereich Data Stewardship

Ein Datenkatalog ermöglicht die Interoperabilität von Datenprodukten

 

Mit einer umfassenden Dokumentation erleichtert ein Datenkatalog die Integration von Datenprodukten über verschiedene Systeme und Plattformen hinweg. Er bietet einen Überblick über die Abhängigkeiten zwischen den Datenprodukten und die Beziehungen zwischen verschiedenen Technologien, wodurch sichergestellt wird, dass die Standards in der gesamten Organisation eingehalten werden. Darüber hinaus pflegt ein Datenkatalog ein einheitliches Metadaten-Repository, das standardisierte Definitionen, Formate und eine Semantik für verschiedene Datenbestände enthält. Die Zeenea-Plattform baut auf einer leistungsstarken Knowledge-Graph-Technologie auf, die automatisch Datenprodukte anhand von Kontextfaktoren identifiziert, klassifiziert und verfolgt und dabei die Datenbestände katalogisiert, damit sie den auf Unternehmensebene definierten Standards entsprechen.

Mehr über den Knowledge Graph

Ein Datenkatalog garantiert die Sicherheit von Datenprodukten

 

Ein Datenkatalog umfasst in der Regel robuste Mechanismen zur Zugriffskontrolle, mit deren Hilfe Unternehmen die Berechtigungen der Nutzer definieren und verwalten können. So kann sichergestellt werden, dass nur autorisiertes Personal Zugang zu sensiblen Metadaten hat, wodurch das Risiko eines nicht autorisierten Zugriffs oder eines Datenverlusts verringert wird. Bei Zeenea können Sie einen sicheren Datenkatalog erstellen, in dem nur die richtigen Personen an der Dokumentation eines Datenprodukts arbeiten können.

Mehr über unser Modell der Zugriffsberechtigungen

Verwalten Sie Ihre Data Products in Zeenea

 

Möchten Sie mehr darüber erfahren, wie das Data Product Management in Zeenea funktioniert? Buchen Sie jetzt eine 30-minütige persönliche Demo mit einem unserer Experten!
In der Zwischenzeit können Sie gerne unsere Feature Note über die Verwaltung von Datenprodukten lesen.

5 Gründe, Ihren Data Catalog um einen Enterprise Data Marketplace (EDM) zu erweitern

5 Gründe, Ihren Data Catalog um einen Enterprise Data Marketplace (EDM) zu erweitern

In den letzten zehn Jahren haben sich Datenkataloge zu einer wichtigen Säule des Datenökosystems entwickelt. Viele Anbieter erfüllen jedoch nicht die Erwartungen, was zu langen Verzögerungen, komplexen und teuren Projekten, bürokratischen Data-Governance-Modellen, niedrigen Akzeptanzquoten und begrenzter Wertschöpfung führt. Dieses Problem erstreckt sich über die Projekte zur Verwaltung von Metadaten hinaus und steht für ein allgemeineres Versagen bei der Datenverwaltung.

Die aktuelle Situation zeigt eine Trennung zwischen technischer Kompetenz und geschäftlichem Fachwissen, einen Mangel an Zusammenarbeit zwischen Datenproduzenten und Datenkonsumenten, anhaltende Probleme mit der Latenz und der Datenqualität sowie eine unbefriedigende Skalierbarkeit von Datenquellen und Anwendungsfällen. Trotz großer Investitionen in Personal und Technologie sehen sich die Unternehmen einer brutalen Realität gegenüber: der Unfähigkeit, die geschäftlichen Anforderungen zu erfüllen.

Die gute Nachricht ist jedoch, dass diese Situation durch die Einführung eines Enterprise Data Marketplace (EDM) und die Nutzung bereits getätigter Investitionen geändert werden kann.

Überblick über den Enterprise Data Marketplace

 

Ein EDM ist keine universelle Lösung, kann aber zahlreiche Veränderungen bewirken. Er zwingt das Unternehmen, seine Herangehensweise an das Datenmanagement zu überdenken und eine neue Einheit – die Datenprodukte – einzuführen. Ein robustes Data Mesh, wie von Zhamak Dehghani in seinem Artikel empfohlen, wird zwingend erforderlich, wobei der EDM als erfahrungsorientierte Ebene innerhalb des Data Mesh dient.

Das Angebot hat sich jedoch mit einer neuen Generation von EDMs – Plattformen für den Datenaustausch, die in einen föderierten Data Catalog integriert sind – weiterentwickelt:

EDM = Plattform für den Datenaustausch + leistungsstarker Data Catalog

 

Genau das will Zeenea mit seiner Definition des Begriffs EDM erzielen und weiter verbessern:

Ein Enterprise Data Marketplace ist eine Lösung, die eine dem E-Commerce ähnliche Erfahrung bietet. Die Datenproduzenten veröffentlichen ihre Datenprodukte und die Datenkonsumenten durchsuchen, verstehen und erwerben diese veröffentlichten Datenprodukte.

Ein Enterprise Data Marketplace arbeitet auf Basis des Datenkatalogs und erleichtert die gemeinsame Nutzung von Daten aus den wichtigsten Domänen als Datenprodukte.

Warum sollten Sie Ihren Datenkatalog um einen Enterprise Data Marketplace ergänzen?

 

Wir haben fünf Gründe zusammengestellt, warum Sie Ihren Datenkatalog um einen Enterprise Data Marketplace erweitern sollten.

Grund Nr. 1: Rationalisierung des Wertschöpfungsprozesses

 

Indem Sie den Geschäftsbereichen die Verantwortung für die Erstellung von Datenprodukten übertragen, setzen Sie den Wert des Wissens frei, über das die Geschäftsbereiche verfügen und fördern eine reibungslosere Zusammenarbeit mit Data Engineers, Data Scientists und IT-Teams. Design, Erstellung und Wartung gebrauchsfertiger Datenprodukte sind auf gemeinsame Geschäftsziele ausgerichtet und basieren auf einer Mentalität des Product Design Thinking.

Innerhalb dieses Rahmens organisieren sich die Teams selbst, rationalisieren die Aktivitäten für eine schrittweise Lieferung von Datenprodukten und gestalten den Erstellungsprozess reibungsloser. Da Data Products neue Metadaten enthalten, um die Datenkonsumenten bei ihrer Nutzung anzuleiten, spielt ein EDM eine entscheidende Rolle bei der Definition und Erforschung der Metadaten, die mit Data Products verbunden sind – und dient im Wesentlichen als Experience Plane innerhalb des Data-Mesh-Ansatzes.

Wenn die speziellen Feinheiten der jeweiligen Domäne beachtet werden, führt dies zu einer deutlichen Reduzierung sowohl der Menge als auch der Art der Metadaten und zu einem effizienteren Kuratierungsprozess. In solchen Fällen wird ein robuster EDM, der auf einem leistungsstarken Datenkatalog wie Zeenea basiert, zum zentralen Motor des Data Mesh. Der EDM erleichtert nicht nur das Design von domänenspezifischen Ontologien, sondern bietet auch die Möglichkeit der automatischen Sammlung von Daten aus Onprem- und Cloud-Datenquellen. Darüber hinaus ermöglicht er den Zusammenschluss von Datenkatalogen, um verschiedene Data-Mesh-Topologien zu implementieren, und bietet Endbenutzern ein Data-Shopping-Erlebnis, das so intuitiv wie eine E-Commerce-Website ist.

Grund Nr. 2: Rationalisierung bereits getätigter Investitionen

 

Durch den Einsatz eines EDM (zusammen mit einem leistungsstarken Data Catalog) können bereits getätigte Investitionen in moderne Datenplattformen und Personalressourcen erheblich optimiert werden. Die Eliminierung komplexer Datenpipelines, sodass die Daten oft nicht verschoben werden müssen, führt zu erheblichen Einsparungen. Ebenso führt die Reduzierung von komplexen, zahlreichen und unnötigen Synchronisationsbesprechungen mit multidisziplinären Teams zu erheblichen Zeiteinsparungen.

Auf diese Weise wird ein zielgerichteter Ansatz über das föderierte Governance-Organ beibehalten, der sich nur auf die Aktivitäten im Zusammenhang mit dem Data Mesh konzentriert. Diese gezielte Strategie optimiert die Ressourcenzuweisung und beschleunigt die Erstellung delegierter und inkrementeller Datenprodukte, wodurch der Zeitaufwand für die Wertschöpfung verringert wird.

Um messbare Ergebnisse zu gewährleisten, ist die Messung der Leistung von Datenprodukten mit präzisen KPIs von entscheidender Bedeutung – diese proaktive Maßnahme erleichtert das Treffen von Entscheidungen und trägt zu greifbaren Ergebnissen bei.

Grund Nr. 3: Steigerung der Akzeptanz im Vergleich zu einem einfachen Data Catalog

 

In Kombination mit einem leistungsstarken Datenkatalog spielt ein EDM eine entscheidende Rolle bei der Nutzerakzeptanz im Unternehmen. Auf Domänenebene hilft der Marketplace beim Entwurf und der Sammlung von bereichsspezifischen Metadaten, die für die Fachanwender des Geschäftsbereichs leicht verständlich sind. Das verbirgt die Notwendigkeit einer „gemeinsamen Schicht“, einer typischen Hürde bei der Einführung von Datenkatalogen. Auf der Mesh-Ebene bietet diese Schicht die Möglichkeiten, Datenprodukte effizient zu konsumieren, indem sie Informationen über Standort, Version, Qualität, Status, Herkunft, Plattform, Schema usw. liefert. Ein dynamisches, domänenspezifisches Metamodell, kombiniert mit leistungsstarken Such- und Discovery-Funktionen, machen den EDM zu einem entscheidenden Element.

Der Mehrwert eines EDM liegt in der Vergabe von Bereitstellungs- und Zugriffsrechten, der Integration von Ticketing-Systemen, Plattformen zur Durchsetzung von Datenrichtlinien und den Funktionen moderner Datenplattformen – ein Konzept, das als IT Data Governance bezeichnet wird.

Grund Nr. 4: Klärung der Verantwortlichkeiten und Messung des geschaffenen Mehrwerts

 

Die Anwendung der Prinzipien des Produktmanagements auf Datenprodukte und die Zuweisung von Eigentumsrechten für einzelne Domänen schaffen Klarheit in Bezug auf die Verantwortlichkeiten. Jede Domäne ist für das Design, die Produktion und die Verwaltung des Lebenszyklus ihrer Datenprodukte verantwortlich. Dieser zielgerichtete Ansatz stellt sicher, dass die Rollen und Erwartungen klar definiert sind.

Der EDM öffnet dann die Data Products für die gesamte Organisation und legt Standards fest, an die sich die Domänen halten müssen. Diese Öffnung trägt zur Aufrechterhaltung der Konsistenz bei und stellt sicher, dass die Data Products mit den organisatorischen Zielen und Qualitätsstandards in Einklang gebracht werden.

Im Rahmen des EDM legen die Unternehmen konkrete KPIs fest, um die wirtschaftliche Leistung der Datenprodukte zu überwachen. Mit einem solchen proaktiven Ansatz gelingt es Organisationen, die Effektivität ihrer Datenstrategien zu bewerten. Darüber hinaus gibt sie den Datenkonsumenten die Möglichkeit, durch partizipative Bewertungen zum Bewertungsprozess beizutragen, was eine kooperative und integrative Umgebung für Feedback und Verbesserungen fördert.

Grund Nr. 5: Anwendung der Prinzipien des Lean Software Development auf die Datenstrategie

 

Die Erstellung von Data Products folgt einem Paradigma, das den Prinzipien der Lean-Softwareentwicklung ähnelt, welche die digitale Transformation revolutioniert haben. Die Übernahme von Prinzipien, wie die Vermeidung von Verschwendung, die Verstärkung des Lernens, späte Entscheidungen, die schnelle Lieferung und der Aufbau von Qualität ist für den Data-Mesh-Ansatz von entscheidender Bedeutung.

In diesem Zusammenhang fungiert der EDM als Plattform für die Zusammenarbeit der Teams, die an der Erstellung von Datenprodukten beteiligt sind. Er erleichtert:

 

  • Die Funktionen der Data Discovery: Durch eine automatische technische Kuratierung von Datentypen, Lineage-Informationen und Schemata, die eine schnelle Erstellung von Ad-hoc-Produkten ermöglicht.
  • Die Sammlung von Metadaten, die für das Data Mesh spezifisch sind: Der EDM umfasst Funktionen zur automatischen Kuratierung von Metadaten, die speziell für das Data Mesh entwickelt wurden, vorausgesetzt, dass der Data Catalog über Funktionen zur Föderation verfügt.
  • 360°-Abdeckung von Informationen über Data Products: Gewährleistung einer vollständigen Abdeckung der Informationen über Datenprodukte, einschließlich ihres Designs und Aspekten ihrer Lieferung.

Zusammenfassend lässt sich sagen, dass die Zusammenarbeit zwischen einem Enterprise Data Marketplace und einem Data Catalog nicht nur das gesamte Datenökosystem verbessert, sondern auch greifbare Vorteile bringt, da Investitionen optimiert, unnötige Komplexität reduziert und die Effizienz des Datenwertschöpfungsprozesses verbessert wird.

Alles über Data Products

Alles über Data Products

In den letzten Jahren hat das Datenmanagement mit dem Aufkommen des Data Mesh einen Paradigmenwechsel erfahren. Das Data Mesh wurde von Zhamak Dehghani im Jahr 2019 erfunden und ist eine Architektur, die einen dezentralen und domänenorientierten Ansatz für die Datenverwaltung nutzt. Ein bemerkenswertes Prinzip der Data-Mesh-Architektur besteht darin, Daten als Produkte zu betrachten und somit das Konzept der Datenprodukte einzuführen. Der Begriff Data Product wird jedoch häufig verwendet, ohne dass klar ist was er eigentlich bedeutet. In diesem Artikel erfahren Sie alles, was Sie über Data Products und Product Thinking wissen müssen.

Übergang zu einem produktbezogenen Ansatz

 

Damit Unternehmen Daten als Produkte betrachten und ihre Datensätze in Data Products umwandeln können, ist es wichtig, dass die Teams zunächst eine produktorientierte Mentalität annehmen. Laut J. Majchrzak et al. in Data Mesh in Action,

dient der produktzentrierte Ansatz als Methodik zur Problemlösung, wobei dem vollständigen Verständnis der Bedürfnisse der Nutzer und des zentralen Problems Priorität eingeräumt wird, bevor man sich in den Prozess der Produktentwicklung vertieft. Das wichtigste Ziel besteht darin, die Lücke zwischen den Anforderungen der Nutzer und der vorgeschlagenen Lösung zu schließen.

In ihrem Buch betonen die Autoren zwei grundlegende Prinzipien:

  • Arbeiten Sie am Problem, nicht an der Lösung: Bevor Sie in die Designphase eines Produkts einsteigen, ist es unerlässlich, die Nutzer und das spezifische Problem, das adressiert werden soll, zu verstehen.
  • Denken Sie an das Produkt, nicht an die Funktionalität: Obwohl die natürliche Neigung besteht, sich auf das Hinzufügen neuer Funktionen und die Personalisierung zu konzentrieren, ist es entscheidend, die Daten als Produkt zu betrachten, das die Bedürfnisse der Nutzer direkt erfüllt.

Bevor Sie also einen Datensatz veröffentlichen, sollten Sie sich im Rahmen eines Product-Thinking-Ansatzes die folgenden Fragen stellen:

  • Welches Problem möchten Sie lösen?
  • Wer wird Ihr Produkt nutzen?
  • Warum tun Sie das? Was ist die Vision dahinter?
  • Was ist Ihre Strategie? Wie wollen Sie vorgehen?

 

Hier sind einige mögliche Antworten auf diese Fragen aus einem Auszug aus Data Mesh in Action:

Welches Problem möchten Sie lösen? Derzeit werden die deklarativen Daten über die Produktionskosten für die direkte Rechnungsstellung zwischen dem Produktionsteam und dem Finanzteam verwendet. Der Datensatz enthält auch Kosten, die nach Kategorien aufgeschlüsselt sind. Diese Informationen könnten für komplexere Analysen und Kostenvergleiche zwischen den Kategorien verschiedener Produktionen verwendet werden. Folglich ist es sinnvoll, diese Daten für komplexe Analysen in größerem Umfang verfügbar zu machen.

Wer wird Ihr Produkt nutzen? Data Analysts werden es zur manuellen Analyse und Zusammenstellung von Produktionskosten und zur Budgetplanung für neue Produktionen nutzen. Data Engineers werden es nutzen, um Daten in die analytische Lösung zu importieren.

Warum tun Sie das? Was ist die Vision dahinter? Wir werden eine dedizierte und maßgeschneiderte Lösung zur Analyse von Produktionskostendaten und Planungsaktivitäten erstellen. Data Engineers können die Originaldateien verwenden, um historische Daten zu importieren.

Lesen Sie den vollständigen Auszug: https://livebook.manning.com/book/data-mesh-in-action/chapter-5/37

Definition des Begriffs Data Product

 

Die Philosophie des Product Thinking bringt uns dazu, ein Data Product über eine langfristige, kontinuierliche Entwicklung, eine Anpassung aufgrund von Nutzerfeedback und eine Verpflichtung zur kontinuierlichen Verbesserung und Qualität hinweg zu betrachten. Ein Produkt kann ein Objekt, ein System oder eine Dienstleistung sein, die für die Nutzung durch den Konsumenten auf dessen Wunsch hin bereitgestellt wird. Was macht also ein Produkt zu einem Data Product?

Bei Zeenea definieren wir ein Data Product als eine Reihe von wertvollen Datenbeständen, die speziell für die schnelle und sichere Nutzung konzipiert und verwaltet werden und gleichzeitig ein Höchstmaß an Qualität, Verfügbarkeit und die Einhaltung gesetzlicher Vorschriften und interner Richtlinien gewährleisten.

Laut Data Mesh in Action ist die bewusste Verwendung des Begriffs Produkt im Zusammenhang mit dem Data Mesh beabsichtigt und steht im Gegensatz zu dem Begriff Projekt, der üblicherweise bei organisatorischen Initiativen verwendet wird. Es ist wichtig zu betonen, dass die Erstellung eines Data Products nicht gleichbedeutend mit einem Projekt ist. Wie in Products Over Projects von Sriram Narayan beschrieben, sind Projekte zeitlich begrenzte Anstrengungen, um bestimmte Ziele zu erreichen, mit einem definierten Ende, das nicht unbedingt zu einer Kontinuität führt.

Grundlegende Merkmale eines Datenprodukts

 

In How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh beschreibt Zhamak Dehghani, dass ein Data Product die folgenden Merkmale aufweisen muss:

Auffindbar

 

Es ist zwingend erforderlich, die einfache Auffindbarkeit eines Datenprodukts sicherzustellen. Ein weit verbreiteter Ansatz ist die Einführung eines Registers oder eines Datenkatalogs, der umfassende Metainformationen wie Eigentümer, Ursprung, Lineage und Auszüge aus Datensätzen für alle verfügbaren Data Products enthält. Diese zentralisierte Auffindbarkeit versetzt Datenkonsumenten, Data Engineers und Data Scientists innerhalb einer Organisation in die Lage, interessante Datensätze leicht zu finden.

Adressierbar

 

Ein einmal gefundenes Data Product muss eine eindeutige Adresse haben, die einer globalen Konvention folgt. Organisationen, die von der Speicherung und dem Format ihrer Daten beeinflusst werden, können unterschiedliche Namenskonventionen anwenden. Einheitliche Konventionen sind in einer dezentralen Architektur unerlässlich, um die Auffindbarkeit und den Zugriff zu erleichtern.

Zuverlässig und vertrauenswürdig

 

Die Eigentümer von Datenprodukten müssen sich zu Service Level Objectives (SLOs) verpflichten, um die Richtigkeit der Daten zu gewährleisten, was den Verzicht auf herkömmliche, fehleranfällige Extraktionen erfordert. Die Verwendung von Techniken wie Datenbereinigung und automatisierte Integritätstests sind entscheidend, um ein akzeptables Qualitätsniveau bei der Erstellung des Data Products zu gewährleisten.

Eine selbsterklärende Semantik und Syntax

 

Hochwertige Datenprodukte erfordern eine eigenständige Benutzererfahrung – sie müssen unabhängig auffindbar, verständlich und nutzbar sein. Um Datensätze als Produkte mit minimalen Reibungsverlusten für Data Engineers und Data Scientists zu erstellen, ist es wichtig, die Semantik und die Syntax der Daten verbindlich zu formulieren.

Interoperabel und durch globale Standards gelenkt

 

Die Korrelation von Daten über Unternehmensbereiche hinweg und in einer verteilten Architektur ist von der Einhaltung globaler Standards und Harmonisierungsregeln abhängig. Die Steuerung der Standards, einschließlich der Formatierung von Feldern, der Identifizierung von Polysemen, der Adresskonventionen, der Metadatenfelder und der Ereignisformate gewährleistet Interoperabilität und eine signifikante Korrelation.

Sicher und durch eine globale Zugangskontrolle gesteuert

 

Es ist zwingend erforderlich, den Zugang zu Produktdatensätzen zu sichern, unabhängig davon, ob die Architektur zentralisiert ist oder nicht. In der Welt der dezentralisierten, domänenorientierten Data Products arbeitet die Zugriffskontrolle auf einer differenzierteren Ebene – spezifisch auf jedes Data Product in einer Domäne zugeschnitten. So wie die operativen Bereiche die Richtlinien für die Zugriffskontrolle zentral definieren, werden diese Richtlinien dynamisch beim Zugriff auf einzelne Datensätze angewendet. Die Nutzung eines Enterprise Identity Management Systems, das oft durch Single-Sign-On (SSO) und die Verwendung einer rollenbasierten Zugriffskontrolle (RBAC) unterstützt wird, bietet einen praktischen und effektiven Ansatz zur Umsetzung der Zugriffskontrolle für die Datensätze der Data Products.

Beispiele für Data Products

 

Ein potenzielles Datenprodukt kann verschiedene Formen annehmen, mit verschiedenen Darstellungen von Daten, die den Nutzern einen Mehrwert bieten. Im Folgenden finden Sie einige Beispiele für Technologien, die Data Products enthalten:

 

  • Suchmaschinen für Empfehlungen: Plattformen wie Netflix, Amazon und Spotify nutzen Suchmaschinen für Empfehlungen als Data Products, um Inhalte oder Produkte auf der Grundlage des Verhaltens und der Vorlieben der Nutzer vorzuschlagen.
  • Prädiktive Analysemodelle: Modelle, die den Verlust von Kunden, Verkaufsprognosen oder Ausfälle von Anlagen vorhersagen, sind Beispiele für Datenprodukte, die wertvolle Informationen für die Entscheidungsprozesse liefern.
  • Betrugserkennungssysteme: Finanzinstitute setzen Datenprodukte ein, um betrügerische Aktivitäten zu erkennen und zu verhindern, indem sie Transaktionsmuster analysieren und Anomalien identifizieren.
  • Personalisierte Marketingkampagnen: Gezielte Werbung und personalisierte Marketingkampagnen nutzen Data Products, um Inhalte auf der Basis demografischer Daten, des Nutzerverhaltens und der früheren Interaktionen der Nutzer anzupassen.
  • Medizinische Diagnose-Tools: Diagnose-Tools, die medizinische Daten wie Patientenakten und Testergebnisse analysieren, um die medizinischen Fachkräfte bei der Erstellung präziser Diagnosen zu unterstützen.
Rückblick auf die Entwicklungen der Zeenea-Plattform im Jahr 2023

Rückblick auf die Entwicklungen der Zeenea-Plattform im Jahr 2023

2023 war ein gutes Jahr für Zeenea. Mit über 50 Releases und Updates unserer Plattform waren die letzten 12 Monate reich an Neuerungen und Verbesserungen, die den Wert Ihrer Unternehmensdaten freisetzen. Unsere Teams arbeiten ständig an neuen Funktionen, die den Alltag Ihrer Daten- und Fachbereichsteams vereinfachen und verbessern.

In diesem Artikel teilen wir gerne einige unserer Lieblingsfunktionen aus dem Jahr 2023, mit deren Hilfe unsere Kunden:

  • die Zeit für das Suchen und Finden von Daten verkürzen,
  • die Produktivität und Effektivität der Data Stewards steigern,
  • zuverlässige, sichere und datenschutzkonforme Informationen in der gesamten Organisation bereitstellen und
  • eine durchgehende Konnektivität mit all ihren Datenquellen herstellen konnten.

Die Zeit für das Suchen und Finden von Daten verkürzen

 

Einer der Grundwerte des Produkts von Zeenea ist Einfachheit. Wir sind davon überzeugt, dass die Data Discovery einfach und schnell sein muss, um Dateninitiativen in der gesamten Organisation zu beschleunigen.

Viele Datenteams haben immer noch Schwierigkeiten, die Informationen zu finden, die sie für die Erstellung eines bestimmten Berichts oder Anwendungsfalls benötigen. Entweder können sie die Daten nicht lokalisieren, weil sie über verschiedene Quellen, Dateien oder Arbeitsblätter verstreut sind, oder sie sind mit einer riesigen Menge an Informationen konfrontiert und wissen nicht einmal, wo sie ihre Suche starten sollen.

Im Jahr 2023 haben wir unsere Plattform weiterentwickelt, um sie so benutzerfreundlich wie möglich zu gestalten. Durch die Bereitstellung einfacher und schneller Möglichkeiten zur Untersuchung von Daten hat Zeenea es seinen Kunden ermöglicht, ihre Assets innerhalb von Sekunden zu finden, zu erkunden und zu verstehen.

Ein neuer Look für den Zeenea Explorer

 

Eine der ersten Veränderungen, mit denen unsere Teams die Discovery-Erfahrung unserer Kunden verbessern wollten, war die Bereitstellung einer benutzerfreundlicheren Oberfläche in unserer Data-Mining-Anwendung, dem Zeenea Explorer. Diese Überarbeitung umfasste:

Eine neue Startseite

 

Unsere Startseite brauchte ein Facelift für ein flüssigeres Benutzererlebnis. Für Nutzer, die nicht wissen, wonach sie suchen, haben wir ganz neue Discovery-Pfade hinzugefügt, die direkt von der Startseite des Zeenea Explorers aus zugänglich sind.

Navigation nach Objekttyp: Wenn der Nutzer sicher ist, welche Art von Daten er sucht, z. B. einen Datensatz, eine Visualisierung, einen Prozess oder benutzerdefinierte Daten, kann er direkt auf den Katalog zugreifen, der bereits mit der gesuchten Art von Daten vorgefiltert ist.

Navigation im Business Glossary: Die Benutzer können schnell durch das Business Glossary des Unternehmens navigieren, indem sie direkt auf die Glossar-Ressourcen zugreifen, die von den Data Stewards in Zeenea Studio definiert oder importiert wurden.

Navigation nach Thema: Die Anwendung ermöglicht es den Nutzern, durch eine Liste von Objekten zu navigieren, die ein bestimmtes Thema, einen Anwendungsfall oder ein anderes für das Unternehmen relevantes Element darstellen (mehr dazu weiter unten).

New Zeenea Explorer Homepage 2023

Neue Detailseiten für Objekte

 

Um ein Katalogobjekt auf Anhieb zu verstehen, war eine der ersten wesentlichen Änderungen die Position der Registerkarten des Objekts. Ursprünglich wurden die Registerkarten auf der linken Seite der Seite platziert, was viel Platz beanspruchte. Jetzt befinden sich die Registerkarten am oberen Rand der Seite, was besser zum Layout der Zeenea Studio-Anwendung passt. Diese neue Anordnung ermöglicht es Datenkonsumenten, die aussagekräftigsten Informationen über ein Objekt zu finden, wie z. B.:

  • hervorgehobene Eigenschaften, die von den Data Stewards bei der Gestaltung des Katalogs festgelegt wurden,
  • verwandte Begriffe aus dem Glossar, um den Kontext des Objekts zu verstehen,
  • wichtige Personen, um die mit dem Objekt verbundenen Kontakte schnell zu erreichen.

Darüber hinaus ermöglicht unser neues Layout den Nutzern, alle Felder, Metadaten und alle anderen verknüpften Objekte sofort zu finden. Während die Informationen in der alten Version noch auf drei verschiedene Registerkarten verteilt waren, finden Datenkonsumenten nun die Beschreibung des Objekts und alle verknüpften Objekte auf einer einzigen Registerkarte mit dem Namen „Details“. Je nachdem, welchen Objekttyp Sie durchsuchen, befinden sich alle Felder, Ein- und Ausgaben, Glossar-Objekte (Parent/Child), Implementierungen und andere Metadaten im selben Abschnitt, wodurch Sie bei der Suche nach Daten wertvolle Zeit sparen.

Außerdem wurden die Flächen für unsere grafischen Komponenten vergrößert – die Nutzer haben nun mehr Platz, um die Lineage ihres Objekts, das Datenmodell usw. zu sehen.

New Item Detail Page Zeenea Explorer

Ein neues Filtersystem

 

Zeenea Explorer bietet ein intelligentes Filtersystem zur Kontextualisierung der Suchergebnisse. Es gibt vorkonfigurierte Filter von Zeenea, z. B. eine Filteroption nach Objekttyp, Verbindung, Kontakt oder nach den benutzerdefinierten Filtern der Organisation. Für eine noch effizientere Suche haben wir unsere Suchergebnis-Seite und unser Filtersystem neu gestaltet:

 

  • Die verfügbaren Filter sind immer sichtbar, so dass Sie die Suche leichter verfeinern können.
  • Wenn Sie auf ein Suchergebnis klicken, steht Ihnen immer ein Vorschaupanel mit weiteren Informationen zur Verfügung, ohne dass der Kontext der Suche verloren geht.
  • Die für die Suche relevantesten Filter sind oben auf der Seite platziert, so dass Sie schnell die Ergebnisse erhalten, die Sie für bestimmte Anwendungsfälle benötigen.
New Filtering System Explorer

Katalog nach Thema durchsuchen

 

Eine der wichtigsten Neuerungen im Jahr 2023 war die Funktion mit dem Namen „Themen“. Mit ihrer Hilfe können Fachanwender (noch!) schneller ihre Datenbestände für ihre Anwendungsfälle finden, und Data Stewards können in Zeenea Studio ganz einfach Themen definieren. Dazu wählen sie einfach die Filter im Katalog aus, die ein bestimmtes Thema, einen Anwendungsfall oder ein anderes Element, das für das Unternehmen relevant ist, darstellen.

Datenteams, die den Zeenea Explorer verwenden, können den Katalog auf diese Weise einfach und schnell nach Themen durchsuchen, um die Zeit zu verkürzen, die sie für die Suche nach den benötigten Informationen benötigen. Die Themen sind direkt auf der Startseite des Zeenea Explorers und in der Suchleiste bei der Navigation durch den Katalog zugänglich.

Browse By Topic Explorer New

Alternative Namen für Glossarobjekte

 

Damit die Benutzer die Daten und Fachbegriffe, die sie für ihre Anwendungsfälle benötigen, leicht finden können, können Data Stewards Synonyme, Akronyme und Abkürzungen für die Glossarelemente hinzufügen!

Zum Beispiel: Customer Relationship Management > CRM

Alternative Names Zeenea Studio

Verbesserung der Suchleistung

 

Im Laufe des Jahres haben wir eine Vielzahl von Verbesserungen umgesetzt, um die Effizienz des Suchprozesses zu erhöhen. Das Hinzufügen von „Stoppwörtern“ (Stop-Words), zu denen Pronomen, Artikel und Präpositionen gehören, führt zu genaueren und relevanteren Ergebnissen bei Suchanfragen. Außerdem haben wir einen „INFIELD:“-Operator hinzugefügt, der es den Nutzern ermöglicht, direkt in bestimmten Feldern zu suchen, um eine höhere Genauigkeit zu erzielen.

Search In Fields Explorer

Integration von Microsoft Teams

 

Zeenea hat auch die Möglichkeiten für die Kommunikation und Zusammenarbeit ausgebaut. Genauer gesagt: Wenn ein Kontakt mit einer Microsoft-E-Mail-Adresse verknüpft ist, erleichtert Zeenea nun den Start einer direkten Unterhaltung über Teams. Diese Integration ermöglicht es Teams-Nutzern, schnell mit den richtigen Personen ins Gespräch zu kommen, um zusätzliche Informationen zu bestimmten Objekten zu erhalten. Weitere Integrationen mit zahlreichen Tools befinden sich in der Entwicklung ⭐

Microsoft Teams Zeenea Explorer

Die Produktivität und Effizienz der Data Stewards steigern

 

Das Ziel von Zeenea ist es, das Leben von Datenproduzenten zu vereinfachen, damit sie die Dokumentation ihrer Unternehmensdaten mit wenigen Klicks verwalten, pflegen und erweitern können. Hier finden Sie einige Funktionen und Verbesserungen, die Ihnen dabei helfen, organisiert, konzentriert und produktiv zu bleiben.

Automatischer Import von Datensätzen

 

Beim Importieren neuer Datensätze in den Katalog können Administratoren die automatische Importfunktion aktivieren, die neue Objekte nach jeder geplanten Inventur automatisch importiert. Diese Verbesserung spart Zeit und erhöht die betriebliche Effizienz, sodass sich die Data Stewards auf strategische Aufgaben konzentrieren können, anstatt sich mit dem routinemäßigen Importprozess zu beschäftigen.

Auto Import Zeenea Studio 2

Entfernen verwaister Felder

 

Außerdem haben wir die Möglichkeit hinzugefügt, verwaiste Felder effektiver zu verwalten. Dazu gehört auch die Möglichkeit, Massenlöschungen von verwaisten Feldern vorzunehmen, was den Prozess der Bereinigung und Organisation des Katalogs beschleunigt. Data Stewards können auch ein einzelnes verwaistes Feld direkt von seiner Detailseite aus löschen, was einen niederschwelligen und präziseren Ansatz der Katalogpflege mit sich bringt.

Orphan Field Details

Erstellung von Berichten auf der Grundlage von Kataloginhalten

 

Wir haben einen neuen Abschnitt in Zeenea Studio hinzugefügt – das Analytics Dashboard – um auf einfache Weise Berichte zu erstellen, die auf dem Inhalt und der Nutzung des Katalogs einer Organisation basieren.

Direkt auf der Seite des Analytics Dashboards können Data Stewards den Grad der Vollständigkeit ihrer Objekttypen, einschließlich der benutzerdefinierten Objekte, einsehen. Jede Komponente ist anklickbar, um schnell den nach dem ausgewählten Objekttyp gefilterten Abschnitt des Katalogs anzuzeigen.

Um detailliertere Informationen über den Grad der Vollständigkeit eines bestimmten Objekttyps zu erhalten, können Stewards ihre eigenen Analysen erstellen! Sie wählen den Objekttyp und eine Eigenschaft aus und können für jeden Wert dieser Property den Vollständigkeitsgrad aller Vorlagenelemente des Objekttyps, einschließlich der Beschreibung und der damit verbundenen Glossarobjekte, einsehen.

New Analytics Dashboard Gif Without Adoption

Neuer Look für das Steward Board

 

Der Zeenea Explorer ist nicht die einzige Anwendung, die einen neuen Look bekommen hat! Um die Datenmanager dabei zu unterstützen, organisiert, konzentriert und produktiv zu bleiben, haben wir das Layout des Dashboards neu gestaltet, damit es intuitiver zu bedienen ist und die Arbeit schneller erledigt werden kann. Das umfasst:

 

  • Neues Design: Eine völlig neue Ebene der Personalisierung bei der Anmeldung im Dashboard. Der Umfang geht nun über den Vollständigkeitsgrad der Datensätze hinaus – er umfasst alle Objekte, für die man Verwahrer ist, einschließlich Felder, Datenverarbeitung, Glossarobjekte und benutzerdefinierte Objekte.
  • Watchlist-Widget: So wie Data Stewards Themen erstellen können, um die Organisation der Explorer-Benutzer zu verbessern, können sie nun auch Watchlists erstellen, um den Zugriff auf Objekte zu erleichtern, die bestimmte Aktionen erfordern. Sie filtern den Katalog mit den Kriterien ihrer Wahl, speichern diese Präferenzen über die Schaltfläche „Filter speichern unter“ als neue Watchlist und greifen über das Watchlist-Widget direkt darauf zu, wenn sie sich in ihr Dashboard einloggen.
  • Widget „Letzte Suchanfragen“: Dieses Widget richtet sich speziell an den Data Steward und konzentriert sich auf die jüngsten Suchanfragen, damit er dort anknüpfen kann, wo er aufgehört hat.
  • Das Widget „Beliebte Objekte“: Dieses Widget zeigt die Objekte, die im Zuständigkeitsbereich des Stewards von anderen Nutzern am häufigsten aufgerufen und verwendet werden. Jedes Objekt ist anklickbar, sodass Sie sofort auf seinen Inhalt zugreifen können.
New Steward Dashboard Studio

Zuverlässige, sichere und konforme Informationen in der gesamten Organisation bereitstellen

Sampling von Datensätzen

 

Bei einigen Verbindungen ist es möglich, eine Datenprobe für die Datensätze zu erhalten. Unsere Data-Sampling-Funktionen ermöglichen es den Benutzern, repräsentative Untermengen von bestehenden Datensätzen zu erhalten, und bieten so einen effizienteren Ansatz für die Arbeit mit großen Datenmengen. Wenn das Datensampling aktiviert ist, können Administratoren die Felder so konfigurieren, dass sie gesperrt sind, wodurch das Risiko, dass sensible personenbezogene Informationen angezeigt werden, verringert wird.

Diese Funktion ist für unsere Kunden sehr wichtig, da sie den Benutzern die Möglichkeit gibt, wertvolle Zeit und Ressourcen zu sparen, indem sie mit kleineren, aber repräsentativen Teilen von großen Datensätzen arbeiten. Sie ermöglicht außerdem die schnelle Identifizierung von Datenproblemen und verbessert so die Gesamtqualität der Daten und die anschließende Analyse. Insbesondere geht die Funktion, Felder auszuschließen, auf zentrale Datenschutz- und Sicherheitsbedenken ein, da die Nutzer so mit anonymisierten oder pseudonymisierten Teilmengen sensibler Daten arbeiten können, was die Einhaltung von Datenschutzbestimmungen gewährleistet und Daten vor unbefugtem Zugriff schützt.

Data Sampling Zeenea Studio

Leistungsstarke Lineage-Funktionen

 

Im Jahr 2022 haben wir zahlreiche Verbesserungen an unserem Lineage-Graph vorgenommen. Wir haben nicht nur sein Design und Layout vereinfacht, sondern es den Nutzern auch ermöglicht, nur die erste Ebene der Lineage anzuzeigen, die Lineage nach Bedarf zu erweitern und zu schließen und eine hervorgehobene Ansicht der direkten Herkunft eines ausgewählten Objekts zu erhalten.

In diesem Jahr haben wir weitere wichtige Änderungen an der Benutzeroberfläche vorgenommen, unter anderem die Möglichkeit, alle Lineage-Ebenen mit einem Klick zu erweitern oder zu reduzieren, Datenprozesse auszublenden, die nicht mindestens eine Eingabe und eine Ausgabe haben, und Verbindungen mithilfe eines Tooltips für Verbindungen mit langen Namen einfach zu visualisieren.

Die wichtigste Neuerung ist jedoch die Möglichkeit, eine Data Lineage auf Feldebene anzuzeigen! Tatsächlich ist es nun möglich, die Eingabe- und Ausgabefelder von Tabellen und Berichten abzurufen und für mehr Kontext die Beschreibung des Vorgangs hinzuzufügen. Anschließend können die Benutzer ihre Transformationen auf Feldebene im Laufe der Zeit direkt im Data Lineage Graph im Zeenea Explorer und in Zeenea Studio betrachten.

Field Level Lineage Zeenea Studio 2

Informationen zur Datenqualität

 

Durch die Nutzung der GraphQL-Technologie und des Knowledge Graph bietet Zeenea einen flexiblen Ansatz zur Integration der besten Lösungen für das Datenqualitätsmanagement. Über unsere Katalog-API-Funktionen synchronisiert Zeenea Datensätze durch einfache Abfrage- und Mutationsoperationen von einem Drittanbieter-Tool für das Data Quality Management (DQM). Das DQM-Tool wird die Ergebnisse der Datenqualitätsanalyse des entsprechenden Datensatzes in Echtzeit in der Plattform bereitstellen, so dass die Nutzer die Informationen zur Datenqualität direkt im Katalog leicht überprüfen können.

Diese neue Funktionalität umfasst:

 

  • Eine Registerkarte Datenqualität auf den Detailseiten Ihres Datensatzes, auf der Nutzer die ausgeführten Qualitätskontrollen sowie deren Typ, Status, Beschreibung, das letzte Ausführungsdatum usw. sehen können.
  • Die Möglichkeit, weitere Informationen zur Qualität des Datensatzes direkt im DQM-Tool über den Link „Dashboard in [Name des Tools] öffnen“ anzuzeigen.
  • Einen Indikator für die Qualität der Daten eines Datensatzes, der direkt in den Suchergebnissen und im Lineage angezeigt wird.
Zeenea Explorer Data Quality Graph

Eine durchgehende Konnektivität mit all ihren Datenquellen herstellen

 

Mit Zeenea verbinden Sie sich in Sekundenschnelle mit all Ihren Datenquellen. Die integrierten Scanner und APIs unserer Plattform versetzen Organisationen in die Lage, Metadaten innerhalb ihres Ökosystems automatisch zu sammeln, zu konsolidieren und zu verknüpfen. In diesem Jahr haben wir unsere Konnektivität erheblich verbessert, damit unsere Kunden eine Plattform aufbauen können, die ihr Datenökosystem wirklich repräsentiert.

Eine API zur Verwaltung des Katalogs

 

Da Zeenea die Bedeutung der API-Integration erkannt hat, hat das Unternehmen leistungsstarke API-Funktionen entwickelt, die es Organisationen ermöglichen, ihren Datenkatalog innerhalb ihres bestehenden Ökosystems nahtlos zu verbinden und zu nutzen.
Im Jahr 2023 entwickelte Zeenea die Katalog-API, die Datenmanager bei ihren Dokumentationsaufgaben unterstützt. Sie umfasst:

Abfrageoperationen, um bestimmte Assets aus dem Katalog abzurufen: Die Abfrageoperationen unserer API umfassen das Abrufen eines bestimmten Assets, entweder über seine eindeutige Referenz oder über seinen Namen und seinen Typ, oder das Abrufen einer Liste von Assets über eine bestimmte Verbindung oder einen bestimmten Objekttyp. Die Katalog-API von Zeenea ermöglicht eine gewisse Flexibilität bei der Abfrage, so dass die Ergebnisse eingeschränkt werden können, um nicht von einer Unmenge von Informationen überflutet zu werden.

Mutationsoperationen zum Erstellen und Aktualisieren von Katalog-Assets: Um bei der Dokumentation und Aktualisierung von Unternehmensdaten noch mehr Zeit zu sparen, ermöglicht die Zeenea Katalog-API den Datenproduzenten das einfache Erstellen, Bearbeiten und Löschen von Katalogressourcen. So können sie benutzerdefinierte Objekte und Datenprozesse und deren zugehörige Metadaten erstellen, aktualisieren und löschen sowie Datensätze und Visualisierungen aktualisieren. Dies ist auch bei Kontakten möglich. Das ist besonders wichtig, wenn Benutzer das Unternehmen verlassen oder ihre Rolle wechseln – die Datenproduzenten können Informationen, die mit einer bestimmten Person verbunden waren, leicht auf eine andere übertragen.

Verwaltung von Eigenschafts- und Zuständigkeitscodes

 

Eine weitere Funktion, die implementiert wurde, ist die Möglichkeit, Eigenschaften und Zuständigkeiten mit einem Code zu versehen, um sie einfach in API-Skripts für zuverlässigere Abfragen und Wiederherstellungen zu verwenden.

Für alle Eigenschaften und Verantwortlichkeiten, die in Zeenea erstellt (z. B. Informationen zur persönlichen Identifikation) oder von Konnektoren gesammelt wurden, ist es möglich, den Namen und die Beschreibung zu ändern, um sie besser an den Kontext der Organisation anzupassen.

Property Responsibility Codes Studio

Mehr als ein Dutzend zusätzlicher Konnektoren

 

Bei Zeenea entwickeln wir fortschrittliche Konnektoren, um Metadaten zwischen unserer Data-Discovery-Plattform und all Ihren Quellen automatisch zu synchronisieren. Diese native Konnektivität erspart Ihnen die mühsame und schwierige Aufgabe, manuell nach den Daten zu suchen, die Sie für einen bestimmten Anwendungsfall benötigen, der oft den Zugang zu begrenzten technischen Ressourcen erfordert.

Allein im Jahr 2023 haben wir mehr als ein Dutzend neue Konnektoren entwickelt! Diese Leistung unterstreicht unsere Agilität und Kompetenz bei der schnellen Integration der verschiedenen Datenquellen, die unsere Kunden nutzen. Durch die Erweiterung unserer Konnektivitätsoptionen wollen wir eine größere Flexibilität und Zugänglichkeit ermöglichen.

Unsere Konnektoren anzeigen

Die wichtigsten Erkenntnisse aus dem Zeenea Exchange 2023, oder: Wie kann man den unternehmenseigenen Data Catalog optimal nutzen?

Die wichtigsten Erkenntnisse aus dem Zeenea Exchange 2023, oder: Wie kann man den unternehmenseigenen Data Catalog optimal nutzen?

Jedes Jahr organisiert Zeenea exklusive Events, die unsere Kunden und Partner aus unterschiedlichen Unternehmen und Organisationen zusammenbringen und so ein Umfeld für gemeinsame Gespräche und den Austausch von Erfahrungen und Best Practices fördern. Die dritte Ausgabe des „Zeenea Exchange France“ fand im Herzen des 8. Arrondissements in Paris mit unseren französischsprachigen Kunden und Partnern statt, während die erste Ausgabe des „Zeenea Exchange International“ online durchgeführt wurde.

In diesem Artikel geben wir Ihnen einen Überblick über die Ergebnisse der Gesprächsrunden und Podiumsdiskussionen, die beide im Juni 2023 stattfanden und folgendes Thema behandelten: „Wie lauten die aktuellen & zukünftigen Anwendungsbereiche und Ziele Ihrer Data-Catalog-Initiativen?“.

Was sind die Gründe für die Einführung einer Data-Catalog-Lösung?

Explosion der Informationsmengen

 

Unsere Kunden stehen vor der Herausforderung, große Mengen an Daten aus verschiedenen Quellen zu sammeln und zu inventarisieren. Viele unserer Teilnehmer haben diesen Weg bereits eingeschlagen und einen Data Lake oder eine andere Plattform zur Speicherung ihrer Daten eingeführt. Sie mussten jedoch bald feststellen, dass es schwierig war, diesen riesigen Ozean an Daten zu verwalten, und stellten sich Fragen wie: „Welche Daten stehen mir zur Verfügung?“ „Woher stammen sie?“ „Wer ist für diese Daten verantwortlich?“ „Habe ich das Recht, diese Daten zu nutzen?“ „Was bedeuten diese Daten?“

Folglich rückte die Suche nach einer Lösung in den Vordergrund, welche die Zentralisierung von Unternehmensdaten automatisieren und genaue Informationen über ihre Daten liefern kann. Dieses Ziel führte zur Suche nach einer Datenkatalog-Lösung.

Beschränkter Zugriff auf Daten

 

Der Zugriff auf Daten ist eine weitere gemeinsame Herausforderung, die alle unsere Kunden meistern mussten. Bevor sie ihre Daten in einem gemeinsamen Repository zentralisierten, waren viele der teilnehmenden Unternehmen mit unterschiedlichen Informationssystemen konfrontiert, die nur für bestimmte Geschäftsbereiche oder Abteilungen innerhalb des Unternehmens zur Verfügung standen. Die Daten wurden also in Silos aufbewahrt, was eine effektive Erstellung von Berichten oder die Kommunikation über diese Daten erschwerte oder sogar unmöglich machte.

Die Notwendigkeit, Daten für alle zugänglich zu machen, ist ein weiterer wichtiger Grund, warum unsere Kunden nach einer Lösung suchten, die den Zugang zu Daten demokratisieren könnte.

Uneindeutig definierte Rollen und Zuständigkeiten

 

Ein weiterer wichtiger Grund für die Suche nach einem Datenkatalog war, den verschiedenen Datenkonsumenten und -produzenten eindeutige Rollen und Verantwortlichkeiten zuzuweisen. Der Zweck eines Datenkatalogs besteht nämlich darin, die Kontaktinformationen für jeden einzelnen Datensatz zu zentralisieren und auf dem neuesten Stand zu halten, indem er einen klaren Überblick darüber gibt, welche Person oder Stelle zu kontaktieren ist, wenn Fragen zu einem bestimmten Datensatz auftauchen.

Was sind die aktuellen Anwendungen und Herausforderungen in Bezug auf ihre Data-Catalog-Initiativen?

Das Fehlen einer gemeinsamen Sprache

 

Die Einführung einer gemeinsamen Sprache für Datendefinitionen und Geschäftskonzepte ist eine große Herausforderung, vor der viele unserer Kunden stehen. Dieses Problem ist bei unseren Kunden besonders verbreitet, wenn verschiedene Geschäftszweige oder Abteilungen bei der Definition spezifischer Konzepte oder Leistungskennzahlen mangelhaft ausgerichtet sind. So kann es z. B. vorkommen, dass einige KPIs nicht eindeutig definiert sind oder dass mehrere Versionen desselben KPIs existieren, jedoch mit unterschiedlichen Definitionen. Angesichts der hohen Komplexität der Datenlandschaft einiger unserer Kunden, die zahlreiche Tochtergesellschaften und Agenturen umfasst, stellt die Ausrichtung der Beteiligten auf die Bedeutung und Definition von Konzepten eine große Herausforderung dar und bleibt eine entscheidende Aufgabe.

Mehr Autonomie für Business-Anwender

 

Durch die Implementierung eines Datenkatalogs konnte die Autonomie der Business-Anwender bei der Mehrheit unserer Kunden erheblich gesteigert werden. Durch die Verwendung von Zeenea und seiner intuitiven Suche und Data Discovery im gesamten Informationsbestand der Organisation, verfügen nichttechnische Benutzer nun über eine benutzerfreundliche und effiziente Möglichkeit, Daten zu lokalisieren und für ihre Berichte und spezifischen Anwendungen zu nutzen.

Ein Kunde berichtete insbesondere, dass der Datenkatalog die Suche, Discovery und Beschaffung von Daten beschleunigt, das Verständnis für die Daten verbessert, den Zugriff auf vorhandene Daten erleichtert und den gesamten Prozess der Qualitätsanalyse optimiert hat – und so bei den Benutzern mehr Vertrauen in die Daten schafft.

Die Einführung eines Datenkatalogs bleibt ein heikles Thema

 

Eine weitere zentrale Herausforderung, mit der einige unserer Kunden konfrontiert sind, ist die Schwierigkeit, die Einführung des Data Catalogs und die Förderung einer datenorientierten Kultur voranzutreiben. Dieser Widerstand kann darauf zurückgeführt werden, dass viele Anwender nicht mit den Vorteilen vertraut sind, die der Datenkatalog bieten kann. Die Einführung einer datengetriebenen Kultur erfordert anhaltende Anstrengungen, um die Vorteile der Verwendung eines Datenkatalogs zu vermitteln. Dazu muss der Datenkatalog über effektive Kommunikationskanäle in den verschiedenen Abteilungen bekannt gemacht werden, es müssen Schulungen durchgeführt und kleine Erfolge gefeiert werden, die den Wert des Tools im gesamten Unternehmen zeigen.

Die Vorteile der Automatisierung

 

Der Datenkatalog bietet die Möglichkeit, die zeitaufwändigen Aufgaben der Datenerhebung zu automatisieren, was sich für viele unserer Kunden als großer Vorteil erweist. Tatsächlich können über die APIs von Zeenea externe Metadaten aus verschiedenen Quellen abgerufen werden, was die Inventarisierung von Glossarbegriffen, Informationen über Rollen und Eigentümer, Indikatoren zur technischen und geschäftlichen Qualität aus Datenqualitätstools usw. erleichtert.

Darüber hinaus beschleunigt der Datenkatalog Programme zur IT-Transformation und die Integration neuer Systeme, indem er einen klaren Überblick über die wichtigsten Quellen bietet, sodass neue Integrationen besser geplant werden können.

Wie lauten die nächsten Schritte in ihrer Data-Catalog-Experience?

Auf dem Weg zu einem Data Mesh

 

Einige unserer Kunden, insbesondere diejenigen, die am internationalen Event teilgenommen haben, haben ihr Interesse an der Einführung eines Data-Mesh-Ansatzes bekundet. Laut einer Umfrage, die während der Veranstaltung durchgeführt wurde, erwägen 66 % der Befragten einen Data-Mesh-Ansatz in ihrem Unternehmen oder führen ihn derzeit bereits ein.

Eine unserer Kundinnen berichtete, dass sie bereits über ein Data Warehouse und einen Data Lake verfügt, die mangelnde Transparenz hinsichtlich der Eigentümerschaft und der Nutzung der Daten in den verschiedenen Bereichen jedoch den Bedarf nach mehr Autonomie erkennen und den Wechsel von einem zentralisierten Data Lake zu einer domänenspezifischen Architektur entstehen ließ.

Zeenea als zentrales Repository

 

Viele unserer Kunden, unabhängig von Branche oder Größe, nutzen den Datenkatalog als zentrales Repository für ihre Unternehmensdaten. Dieser Ansatz hilft ihnen, die Daten aus mehreren Zweigen oder Tochtergesellschaften in einer einzigen Plattform zu konsolidieren, wodurch Redundanzen vermieden und die Richtigkeit der Daten gewährleistet werden kann.

Der Datenkatalog soll es ihnen ermöglichen, Daten in allen Abteilungen zu finden, indem er die Nutzung gemeinsamer Lösungen erleichtert und die Prozesse für die Data Discovery und das Verständnis der Daten verbessert.

Den Datenkatalog für Compliance-Initiativen nutzen

 

Compliance-Initiativen gewinnen für Unternehmen zunehmend an Bedeutung, insbesondere in stark regulierten Branchen wie dem Banken- und Versicherungswesen. Eine Umfrage auf unserem internationalen Event ergab, dass 50 % der Befragten den Datenkatalog derzeit für Compliance-Zwecke nutzen, während die anderen 50 % sich vorstellen könnten, ihn in Zukunft dafür einzusetzen. Einer der Teilnehmer, der eine positive Antwort gegeben hatte, berichtete, dass sein Unternehmen sogar überlegt, eine Suchmaschine zu entwickeln, um die Daten, die das Unternehmen über eine bestimmte Person besitzt, abfragen und abrufen zu können, wenn diese es wünscht.

Wenn diese Rückmeldungen und Erfahrungsberichte sich mit dem Alltag in Ihrem Unternehmen decken, zögern Sie nicht, uns zu kontaktieren. Wir würden uns freuen, Sie in der Gemeinschaft der Zeenea-Nutzer begrüßen zu dürfen und Sie zu unseren nächsten Ausgaben von „Zeenea Exchange“ einzuladen.

Zeenea revolutioniert die Datenrecherche mit NLP-Suche – OpenAI Integration

Zeenea revolutioniert die Datenrecherche mit NLP-Suche – OpenAI Integration

Zeenea freut sich, die Integration von Natural Language Processing (NLP) Suchfunktionen in unsere Data Discovery Plattform bekannt zu geben! Diese bahnbrechende Funktion ermöglicht es Nutzern, mit der Suchmaschine von Zeenea zu interagieren, indem sie ihre natürliche Alltagssprache verwenden, was die Datenexploration wesentlich intuitiver und effizienter macht.

Lassen Sie uns herausfinden, wie diese Innovation den Nutzern hilft, genaue und relevante Ergebnisse aus ihren Daten-Suchen zu erhalten.

Wie haben wir die NLP-Suche in Zeenea umgesetzt?

 

Um diese Funktionalität zu erreichen, nutzt Zeenea das Potenzial der APIs von OpenAI und die fortschrittlichen Sprachverarbeitungsfunktionen von GPT-3.5. Die Ingenieure von Zeenea haben eine Eingabeaufforderung entwickelt, die Fragen in natürlicher Sprache versteht und effektiv in Suchanfragen und Filter umwandelt.
Und voilà! Das Ergebnis ist eine reibungslose und mühelose Benutzererfahrung, da die Suchmaschine die Fragen versteht und in der Art und Weise eines menschlichen Experten beantwortet.

Einige Beispiele für NLP-Suchanfragen in Zeenea

 

Die NLP-Suchfunktionalität von Zeenea eröffnet den Nutzern eine Vielzahl von Möglichkeiten, mit ihrem Datenkatalog noch einfacher zu interagieren. Hier sind einige Beispiele für die Fragen, die Sie jetzt in Zeeneas Suchmaschine stellen können:

→ „Bitte finden Sie alle Datensätze mit Kundendaten im zentralen Data Lake.“
→ „Bitte listen Sie alle doppelten Datensätze im Katalog auf.“
→ „Wo kann ich eine Analyse unserer historischen Kundenbindungsmaßnahmen finden?“

Diese Abfragen zeigen die Flexibilität und Einfachheit der Kommunikation mit Zeenea durch die Nutzung der natürlichen Sprache. Egal, ob Sie einen lockeren Umgangston oder eine professionelle Herangehensweise bevorzugen, die Suchmaschine von Zeenea versteht Ihre Absicht und liefert präzise Ergebnisse.

Nlp Zeenea Explorer

Eine noch in der Entwicklung befindliche Funktion

 

Obwohl sich die NLP-Suchfunktion derzeit noch in einer experimentellen Phase befindet, arbeitet Zeenea bereits aktiv mit ausgewählten Kunden zusammen, um die Genauigkeit und Relevanz kontextübergreifend sicherzustellen. Die dynamische Knowledge Graph Struktur von Zeenea erfordert umfangreiche Praxistests zur Feinabstimmung des Systems, stellt dann aber sicher, dass unseren Nutzern die bestmögliche Benutzerfreundlichkeit geboten wird.

Auf dem Weg zur KI-gesteuerten Data Discovery

 

Die kommenden Zeenea Innovationen gehen weit über die NLP-Suche hinaus. Wir erforschen aktuell weitere KI-gestützte Funktionen, die das Potential haben, die Data Discovery zu revolutionieren. Einige der spannenden Entwicklungen sind:

 

  • Ein interaktiver Chatbot: Die Entwicklung eines interaktiven Chatbots, der eine alternative, konversationelle Sucherfahrung bietet, so dass Benutzer mit vollkommen natürlicher Konversation relevante Informationen und Erkenntnisse finden können.
  • Automatische Erstellung und Korrektur von Unternehmensbegriffen: Zeenea zielt darauf ab, die Katalogbeschaffung zu beschleunigen und die Qualität des Glossars zu verbessern, indem es automatisch domänenspezifische Geschäfts Definitionen generiert und korrigiert.
  • Automatische Zusammenfassung von Beschreibungen: Eine automatische Zusammenfassung, die es den Nutzern ermöglicht, die wesentlichen Informationen schnell zu erfassen, indem sie lange Beschreibungen zu prägnanten Zusammenfassungen verdichtet und so Zeit spart und das Verständnis über die Daten verbessert.
  • Verbesserte Auto-Klassifizierung und Vorschläge für Daten-Tagging: Verbesserung von Zeenea KI-Algorithmen, um zukünftig genauere Vorschläge für die automatische Klassifizierung und Verschlagwortung von Daten zu liefern.

 

…und noch Vieles mehr!

 

Bleiben Sie dran für weitere aufregende Entwicklungen von Zeenea, die die Data Discovery Landschaft revolutionieren.

Der Leitfaden zur Erklärung des Unterschieds zwischen Business Glossary, Data Catalog und Data Dictionary

Der Leitfaden zur Erklärung des Unterschieds zwischen Business Glossary, Data Catalog und Data Dictionary

Sie haben die Daten in den Mittelpunkt aller Strategien Ihres Unternehmens gestellt, aber die Datenmenge, die Sie verarbeiten müssen, explodiert. Sie benötigen daher nicht nur einen vollständigen Überblick über Ihre Datenbestände, sondern auch eine Vorstellung davon, wie diese genutzt werden können.

Dazu können Sie die Maßnahmen und Vorteile von drei wesentlichen Tools kombinieren: Data Catalog, Data Dictionary und Business Glossary. Lesen Sie unseren Leitfaden!

Daten zu produzieren ist sehr gut. Business-Intelligence daraus zu ziehen, ist noch besser! Da die Entwicklung einer echten Datenkultur den Schwerpunkt Ihrer Entwicklungsstrategie bildet, müssen Sie die in den Daten verfügbaren Informationen in ein operatives Werkzeug zur Entscheidungsfindung oder zur Orientierung vor Ort umwandeln. Mit einem Ansatz, der Daten und Geschäft miteinander verbindet, verleihen Sie Ihrem Unternehmen (und Ihren Teams) neuen Schwung.

Dafür müssen Sie sich jedoch auf drei wesentliche Tools stützen: einen Data Catalog, ein Data Dictionary und ein Business Glossary. Drei unverzichtbare Lösungen, die Ihnen helfen, Ihre Organisation und Ihre Datenmanagementstrategie zu verbessern. Und obwohl sie miteinander verbunden sind, sind diese Tools tatsächlich sehr unterschiedlich!

Was ist ein Datenkatalog und was sind seine wichtigsten Vorteile

 

Ein Datenkatalog ist ein detailliertes Inventar, in dem die Daten aus allen Datenquellen Ihres Unternehmens aufgelistet sind. Wenn sie vollständig katalogisiert wurden, sind die Daten für Ihre Teams leichter zugänglich, verständlicher und besser nutzbar. Ein Datenkatalog kann verschiedene Arten von Informationen sammeln und auflisten, z. B. Datensätze und ihre zugehörigen Felder, Datenprozesse, Visualisierungen, Glossarobjekte (siehe Abschnitt unten) oder auch personalisierte Informationen, die für Ihr Unternehmen typisch sind.

Der Data Catalog spielt eine entscheidende Rolle in Ihrer Datenstrategie, da er Ihre Daten rationalisiert, indem er einen Überblick über die Datenqualität, die Verfügbarkeit und die zugehörigen Metadaten wie Beschreibungen, Eigentümer, Herkunft, Formate usw. liefert. Einer der größten Vorteile eines Datenkatalogs besteht darin, dass er die Zusammenarbeit rund um die Daten in Ihrer Organisation fördert, da er es Ihren Teams ermöglicht, zusammenzuarbeiten, um Daten effektiver zu identifizieren, zu verstehen und zu nutzen.

Schließlich ermöglicht der Datenkatalog durch die Zentralisierung der verfügbaren Informationen die Aufrechterhaltung eines hohen Qualitätsniveaus der Datenbestände, indem er sicherstellt, dass die Daten korrekt identifiziert, klassifiziert, dokumentiert und gepflegt werden.

Warum sollte man ein Business Glossary einführen und wozu?

 

Ein Business Glossary ist ein Instrument, das dabei hilft, ein gemeinsames Verständnis von Begriffen und Definitionen im Zusammenhang mit den in einem Unternehmen verwendeten Begriffen zu schaffen. Es hat die Aufgabe, die Kommunikation zu erleichtern und Fehler oder Missverständnisse bei der Verwendung von Begriffen in Ihrem Unternehmen zu reduzieren. Es kann Definitionen von technischen, finanziellen und geschäftlichen Begriffen, Normen und Verfahren oder andere für Ihr Unternehmen relevante Bereiche umfassen.

Wenn Sie ein Business Glossary erstellen, führt dies fast automatisch auch zu einer Verbesserung der Datenqualität, da Sie sicherstellen, dass die Daten eindeutig definiert und verstanden werden. Im Fokus: eine Verringerung der Fehler bei der Eingabe, eine Standardisierung der Datenformate und eine höhere Datenzuverlässigkeit.

Darüber hinaus hat ein Business Glossary den Vorteil, dass es Sie bei der besseren Verwaltung der Compliance unterstützt, indem es Begriffe und Definitionen standardisiert, die in Berichten und Compliance-Dokumenten verwendet werden.

Schließlich trägt ein Business Glossary zu schnelleren und zuverlässigeren Entscheidungen bei, da es eine gemeinsame Wissensbasis für alle Beteiligten in der Entscheidungskette bietet.

Wie unterscheidet es sich von einem Data Dictionary?

 

Das Data Dictionary (Datenwörterbuch) ist eine dritte Lösung, mit der Sie Ihre Datenstrategie stärken und dynamischer gestalten können. Dieses Datenmanagement-Tool liefert detaillierte Informationen über die in Ihrem Unternehmen verwendeten Daten und stützt sich dabei auf eine Reihe von Metadaten. Diese Metadaten beschreiben die Daten, ihre Struktur, ihr Format, ihre Bedeutung, ihren Eigentümer und ihre Verwendung.

Diese Beschreibung hilft Ihren Mitarbeitern, die täglich mit den Daten arbeiten, die Daten zu verstehen und sie besser zu nutzen. Das Data Dictionary ist auch ein wichtiges Instrument für das Datenqualitätsmanagement, da es hilft, Fehler und Inkonsistenzen zu identifizieren.

Letztendlich erleichtert das Data Dictionary die Wiederverwendung von Daten, da es Informationen über vorhandene Daten und ihre Bedeutung bereitstellt. So können sie leicht in neue Anwendungen oder Projekte integriert werden.

Haben Sie Lust, Ihrer Datenstrategie neuen Schwung zu verleihen? Durch die Kombination von Business Glossary, Data Catalog und Data Dictionary können Sie sich auf eine vollständige und konsistente Sicht der in Ihrem Unternehmen verwendeten Daten und Geschäftsbegriffe stützen.

5 Vorteile, die Data Lineage für Ihr Unternehmen bietet

5 Vorteile, die Data Lineage für Ihr Unternehmen bietet

Sie haben den Ehrgeiz, Ihre Organisation zu einem datengetriebenen Unternehmen zu machen? Dann werden Sie nicht darum herumkommen, alle Ihre Datenbestände genau zu katalogisieren, ihre Qualität zu überwachen und ihre Zuverlässigkeit zu gewährleisten. Bei dieser Aufgabe kann Data Lineage Sie unterstützen. Einige Erklärungen.

Um zu wissen, welche Daten Sie verwenden, was sie bedeuten, woher sie stammen und wie zuverlässig sie während ihres gesamten Lebenszyklus sind, benötigen Sie einen ganzheitlichen Überblick über alles, was diese Daten verändern, modifizieren und beeinträchtigen kann. Genau diese Aufgabe erfüllt Data Lineage, eine Technik zur Datenanalyse, die es ermöglicht, den Weg der Daten von ihrer Quelle bis zu ihrer endgültigen Verwendung zu verfolgen. Eine Technik mit vielen Vorteilen!

Vorteil Nr. 1: Eine bessere Data Governance

 

Data Governance ist ein wichtiges Thema für Ihr Unternehmen und um das volle Potenzial Ihrer Datenstrategie zu entfalten. Durch die Verfolgung des Weges der Daten – von der Erfassung bis zur Nutzung – können Sie mithilfe von Data Lineage verstehen, woher die Daten kommen und welche Veränderungen sie im Laufe der Zeit durchgemacht haben, um ein umfangreiches und kontextbezogenes Datenökosystem zu schaffen. So erleichtert Data Lineage die Suche nach der Ursache von Datenproblemen, da die Rückverfolgung bis zu ihrem Ursprung ermöglicht wird. Diese Nachvollziehbarkeit ist Ihr größter Trumpf in Sachen Transparenz im Dienste der Data Governance.

Vorteil Nr. 2: Zuverlässigere, genauere und qualitativ hochwertigere Daten

 

Wie bereits erwähnt, liegt eine unverzichtbare Stärke der Data Lineage insbesondere in ihrer Fähigkeit, die Herkunft der Daten nachzuvollziehen, aber auch Fehler zu identifizieren, die bei ihrer Umwandlung und Handhabung auftreten. So sind Sie in der Lage, diese Fehler nicht nur zu korrigieren, sondern auch dafür zu sorgen, dass sie nicht mehr vorkommen, um eine bessere Datenqualität zu erreichen. Eine Logik der kontinuierlichen Verbesserung, die im Rahmen einer Datenstrategie besonders wirksam ist. Außerdem kann mithilfe von Data Lineage nachverfolgt werden, wer die Daten wann geändert hat. Das erhöht die Transparenz und versetzt die Nutzer in die Lage, nachzuvollziehen, wie die Daten gewonnen und verarbeitet wurden.

Vorteil Nr. 3: Eine schnelle Folgenabschätzung

 

Sorgen Sie dafür, dass Sie einen Fehler nie zu lange wiederholen. Dies ist ein Versprechen, das die Data Lineage hält. Wie genau? Indem die Datenströme genau identifiziert werden. Diese erste Phase beruht auf einer genauen Kenntnis Ihrer Geschäftsprozesse und der verfügbaren Datenquellen. Wenn kritische Datenflüsse identifiziert und abgebildet werden, können die potenziellen Auswirkungen einer Änderung auf die Daten und Geschäftsprozesse schnell analysiert werden. Da die Auswirkungen jeder Datentransformation in Echtzeit bewertet werden, verfügen Sie über alle notwendigen Elemente, um die Mittel und Wege zu identifizieren, mit denen die Folgen eingegrenzt werden können. Sichtbarkeit, Nachvollziehbarkeit, Reaktivität – Data Lineage wird Ihnen helfen, wertvolle Zeit zu sparen!

Vorteil Nr. 4: Mehr Kontext für Daten

 

Sie wissen es bereits: Data Lineage überwacht kontinuierlich den Weg Ihrer Data Assets. Sie haben also nicht nur die Quelle, aus der die Daten stammen, sondern auch einen vollständigen Einblick in die Transformationen, die entlang ihres Weges auf die Daten angewendet wurden. Diese Rückverfolgbarkeit erstreckt sich auch auf die Nutzung der Daten in den verschiedenen Verarbeitungsprozessen oder durch die in Ihrem Unternehmen eingesetzten Anwendungen. Diese äußerst präzise Verfolgung des Verlaufs der Interaktionen mit den Daten macht es möglich, den Daten mehr Kontext zu geben, um ihre Qualität zu verbessern, Analysen und Audits zu erleichtern und auf der Grundlage genauer und vollständiger Informationen fundiertere Entscheidungen zu treffen.

Vorteil Nr. 5: (Besonders!) zuverlässige Compliance-Berichte

 

Die wichtigsten Erwartungen der Regulierungsbehörden an die Compliance sind Transparenz und Nachvollziehbarkeit. Genau das ist der Kern des Wertversprechens der Data Lineage. Durch die Nutzung von Data Lineage haben Sie alle Karten in der Hand, um das Risiko von Compliance-Verstößen zu verringern, die Datenqualität zu verbessern, Audits und Überprüfungen zu erleichtern und das Vertrauen aller Stakeholder in die erstellten Compliance-Berichte zu stärken.

Die 5 Ansätze eines Datenkatalogs zur Förderung der Data Literacy in Unternehmen

Die 5 Ansätze eines Datenkatalogs zur Förderung der Data Literacy in Unternehmen

In der modernen Welt sammeln Unternehmen aller Branchen riesige Datenmengen aus verschiedenen Quellen, z. B. aus vernetzten Objekten (IoT), Anwendungen oder sozialen Netzwerken. Diese Datenexplosion hat neue Möglichkeiten für die Unternehmen geschaffen, um wertvolle Informationen über ihre Geschäftstätigkeit, Kunden und Märkte zu erhalten. Diese Chancen können jedoch nur dann genutzt werden, wenn die Unternehmen die Daten beherrschen, um sie zu verstehen und effektiv zu nutzen.

Tatsächlich bezieht sich Data Literacy oder Datenkompetenz auf die Fähigkeit, Daten zu lesen, zu verstehen, zu analysieren und zu interpretieren. Sie ist eine Schlüsselkompetenz, damit Einzelpersonen und Organisationen wettbewerbsfähig bleiben und Entscheidungen auf der Grundlage konkreter Informationen treffen können. Laut einer aktuellen Studie von Accenture haben Unternehmen, welche die Data Literacy fördern, bessere Chancen, ihre Initiativen zur digitalen Transformation erfolgreich umzusetzen.

Um eine Organisation mit hoher Datenkompetenz zu fördern, müssen Unternehmen ihren Mitarbeitern einen einfachen Zugang zu qualitativ hochwertigen, gut organisierten, gut dokumentierten und leicht zu verwendenden Daten bieten. Hier kommt ein Datenkatalog ins Spiel.

In diesem Artikel erfahren Sie mehr über die fünf Ansätze, mit denen ein Data Catalog die Data Literacy in Organisationen fördert.

Definition des Begriffs Datenkatalog

 

Bei Zeenea definieren wir den Data Catalog als ein detailliertes Inventar aller in einer Organisation verfügbaren Daten und Informationen. Ein Datenkatalog bietet eine einfach zu bedienende Schnittstelle, um Unternehmensdaten zu finden, zu verstehen und ihnen zu vertrauen.

Der Datenkatalog wurde zur Vereinheitlichung aller Daten eines Unternehmens geschaffen. Mit seiner Hilfe können Datenmanager und Datennutzer ihre Produktivität und Effizienz steigern. Bereits 2017 erklärte Gartner Datenkataloge zum „neuen schwarzen Gold des Datenmanagements und der Datenanalyse“. In „Augmented Data Catalogs: Now an Enterprise Must-Have for Data and Analytics Leaders“, führt das Institut weiter aus, dass „die Nachfrage nach Datenkatalogen rasant wächst, da viele Unternehmen nach wie vor Schwierigkeiten haben, sehr unterschiedliche und weit verteilte Daten zu finden, zu katalogisieren und zu analysieren“.

Ein Datenkatalog ist daher ein entscheidendes Instrument zur Förderung der Data Literacy in einer Organisation.

1. Ein Datenkatalog zentralisiert alle Daten in einer einzigen Quelle der Wahrheit

 

Ein Datenkatalog sammelt und aktualisiert automatisch alle Unternehmensdaten aus verschiedenen Quellen in einem zentralen Repository – mit dem Ziel, einen Überblick über die gesamte Datenlandschaft des Unternehmens zu schaffen. Durch die Verschlagwortung der Metadaten des Unternehmens erhöhen Datenkataloge die Sichtbarkeit der Daten und ermöglichen es den Benutzern, ihre Informationen von verschiedenen Systemen aus leicht zu finden.

Datenkataloge helfen dabei, Silos zwischen verschiedenen Abteilungen und Teams aufzubrechen, indem sie ein einziges, durchsuchbares Repository aller verfügbaren Datenbestände bereitstellen. Somit ist kein technisches Fachwissen mehr erforderlich, um auf das Datenökosystem eines Unternehmens zuzugreifen und es zu verstehen – Organisationen können dann problemlos zusammenarbeiten und ihre Informationsbestände auf einer einzigen Plattform austauschen.

2. Ein Data Catalog erhöht durch erweiterte Dokumentationsmöglichkeiten das Wissen über die Daten

 

Mithilfe von Datenkatalogen können Sie durch die Automatisierung der Dokumentationsfähigkeiten das Wissen über die Daten unternehmensweit verbessern. Wenn Sie den Datenproduzenten diese Dokumentationsfunktionen zur Verfügung stellen, erhalten die Benutzer beschreibende Informationen zu ihren Datenbeständen, wie z. B. deren Bedeutung, Verwendung und Relevanz für die Geschäftsprozesse. Diese automatisierten Dokumentationsfunktionen des Datenkatalogs bieten den Benutzern die Möglichkeit, die Daten leichter zu verstehen und zu nutzen, und fördern so das Datenwissen im gesamten Unternehmen.

Durch die Sicherstellung einer genauen, einheitlichen und aktuellen Dokumentation können Organisationen mit einem Datenkatalog außerdem das Risiko von Fehlern und Inkonsistenzen im Datenbestand verringern. Die Daten gewinnen folglich an Zuverlässigkeit, was für fundierte Entscheidungen und bessere Unternehmensergebnisse von entscheidender Bedeutung ist.

3. Ein Datenkatalog ermöglicht eine bessere Data Discovery

 

Data Discovery ist der Prozess der Erkundung und Analyse von Daten, um Informationen zu gewinnen und verborgene Muster oder Beziehungen zu entdecken. Diese unverzichtbare Funktion des Datenkatalogs fördert die Datenkompetenz. Die Nutzer entwickeln ein besseres Verständnis für die Daten, mit denen sie arbeiten, und werden dazu ermutigt, die richtigen Fragen zu stellen und die Daten eingehender zu erkunden.

Mithilfe von Data-Discovery-Funktionen hilft ein Data Catalog seinen Benutzern, Muster und Trends in den Daten zu erkennen. Indem sie die Daten aus verschiedenen Blickwinkeln betrachten, können die Nutzer Korrelationen, Beobachtungen und andere Muster erkennen, die in den Rohdaten nicht sofort ersichtlich wären. Auf diese Weise können die Nutzer neues Wissen erwerben und ein tieferes Verständnis für die Daten entwickeln, mit denen sie arbeiten.

4. Ein Datenkatalog stellt über ein Business Glossary ein gemeinsames Datenvokabular zur Verfügung

 

Ein Business Glossary ist ein zentrales Element des Datenkatalogs, da es eine gemeinsame Sprache und ein gemeinsames Verständnis für Geschäftsbegriffe und Definitionen für die gesamte Organisation vermittelt. Ein Business Glossary definiert die Bedeutung der wichtigsten geschäftlichen Begriffe und Konzepte, sodass die Datenkonsumenten den Kontext und die Relevanz der Datenbestände verstehen können.

So helfen Datenkataloge den für die Daten zuständigen Teams, Missverständnisse zu vermeiden und das Vertrauen in den Datenbestand des Unternehmens zu maximieren. Auf diese Weise wird das Datenverständnis und die Data Literacy in der gesamten Organisation vorangetrieben.

5. Ein Datenkatalog bietet leistungsstarke Lineage-Funktionen

 

Die Data Lineage ermöglicht ein klares Verständnis für den Ursprung und die Transformation von Daten. Das ist besonders wichtig, um erfassen zu können, wie Daten verwendet werden und wie sie mit anderen Unternehmenswerten verknüpft sind. Diese Informationen unterstützen Initiativen zur Datenverwaltung, da sie die Genauigkeit, Zuverlässigkeit und Konformität der Daten gewährleisten.

Durch die Nachverfolgung von Daten von ihrer Quelle bis zu ihrem Ziel stärkt die Data Lineage das Wissen über die Daten, indem sie den Nutzern Informationen über ihren Zweck, die Geschäftsprozesse, die auf sie zugreifen, und die Abhängigkeiten zwischen den verschiedenen Assets liefert. Diese Informationen können den Nutzern helfen, die Relevanz und Bedeutung der Daten, mit denen sie arbeiten, zu verstehen und sie in den größeren Unternehmenskontext einzuordnen.

Der Datenverlauf kann auch dabei helfen, Anomalien, Inkonsistenzen oder Qualitätsprobleme zu erkennen, welche die Genauigkeit oder Zuverlässigkeit der Daten beeinträchtigen könnten.

Schlussfolgerung

 

Ein Data Catalog ist ein mächtiges Instrument zur Förderung von Data Literacy im Unternehmen. Durch die Zentralisierung von Daten und Metadaten, den Zugriff auf Informationen über den Weg der Daten und die Bereitstellung von Data-Discovery-Funktionen können Datenkataloge ihre Benutzer in die Lage versetzen, die Daten, mit denen sie arbeiten, leichter zu finden und zu verstehen. Ein Data Catalog ist in der Summe unerlässlich für jede Organisation, die ihre Datenkompetenz erhöhen möchte!

Lassen Sie sich von diesen 4 Daten-Albträumen nicht den Schlaf rauben – Zeenea ist da, um Ihnen zu helfen

Lassen Sie sich von diesen 4 Daten-Albträumen nicht den Schlaf rauben – Zeenea ist da, um Ihnen zu helfen

Sie wachen auf und Ihr Herz rast. Ihre Beine zittern – noch vor wenigen Augenblicken wurden Sie von Tausenden von unvollständigen, ungenauen und fehlerhaften Daten verfolgt. Als Datenexperten haben wir das alle schon einmal erlebt. Und Daten-Albträume können manchmal Wirklichkeit werden.

Keine Sorge – Zeenea ist da, um Ihnen zu helfen! In diesem Artikel erfahren Sie mehr über die häufigsten Daten-Albträume und wieso unsere Data Discovery Plattform wie ein Traumfänger wirkt.

Albtraum Nr. 1 – In Silos gefangene Daten

 

Sie müssen Berichte erstellen, und doch sind die Informationen, nach denen Sie suchen, weggeschlossen, unzugänglich oder werden sogar von furchteinflößenden Leibwächtern bewacht. Noch dazu sind die Personen, die Ihnen den Zugang ermöglichen können, unbekannt oder – noch schlimmer – aus dem Unternehmen verschwunden. Das macht es unmöglich, die Daten zu erhalten, die Sie für Ihre geschäftlichen Anwendungsfälle benötigen!

Zeenea als Traumfänger: Unsere Plattform bietet eine einzige Quelle der Wahrheit für alle Informationen in Ihrem Unternehmen – sie zentralisiert und synchronisiert Ihre Metadaten aus all Ihren verschiedenen Quellen und macht sie für alle Mitglieder der Organisation zugänglich. Mit Zeenea ist das Wissen über Daten nicht mehr auf eine Gruppe von Experten beschränkt, was die Zusammenarbeit fördert, die Produktivität steigert und den Wert der Daten maximiert.

Entdecken Sie unseren Datenkatalog

Albtraum Nr. 2 – Unzuverlässige Daten

 

Sie durchsuchen Ihren Datenbestand und Ihnen gefällt nicht, was Sie sehen. Die Daten sind doppelt vorhanden (wenn nicht noch öfter), sie sind unvollständig – oder leer – und veraltet, und Sie wissen nicht einmal, woher sie stammen oder womit sie verknüpft sind … Die unzähligen Stunden der Datendokumentation, die vor Ihnen liegen, sind Ihr schlimmster Albtraum.

Zeenea als Traumfänger: Damit Datenmanager ihren Teams stets vollständige, zuverlässige und qualitativ hochwertige Daten zur Verfügung stellen können, bietet Zeenea flexible und anpassungsfähige Metamodell-Templates für vordefinierte und benutzerdefinierte Objekte. Importieren oder erstellen Sie automatisch Dokumentations-Templates für Ihre Assets, indem Sie Eigenschaften, Tags und andere Felder, die für Ihre Anwendungsfälle dokumentiert werden müssen, in das Modell ziehen.

⭐️ Bonus: Die Dokumentations-Templates können jederzeit geändert werden – Zeenea aktualisiert bestehende Modell automatisch und berücksichtigt dabei Ihre Änderungen, was Ihnen bei Ihren Dokumentationsinitiativen Zeit spart.

Entdecken Sie unsere Anwendung zur Datendokumentation

Albtraum Nr. 3 – Missverständliche Daten

 

Sie haben die Aufgabe, nach Trends zu suchen, mit deren Hilfe Sie Ihren Kunden eine individuellere User-Experience bieten können. Bei der Suche nach Informationen stoßen Sie jedoch auf eine Vielzahl von Begriffen … Welcher ist der richtige? Die Vertriebsmitarbeiter verwenden den Begriff „Kunde“, die Kundenservice-Teams arbeiten mit dem Begriff „Nutzer“, aber die IT-Teams sprechen von „Verbraucher“. Ohne ein eindeutiges Business Glossary tappen Sie im Dunkeln!

Zeenea als Traumfänger: Unser Business Glossary ermöglicht die Erstellung und den Austausch einer einheitlichen Datensprache für alle Personen innerhalb des Unternehmens. Importieren oder erstellen Sie ganz einfach Ihre Unternehmensbegriffe, fügen Sie eine Beschreibung, Tags, zugehörige Kontakte und andere relevante Eigenschaften für Ihre Anwendungsfälle hinzu. Mithilfe unserer einzigartigen Funktionen können Data Stewards ihre Kategorien mit semantischen Konzepten erstellen, sie in Hierarchien organisieren und konfigurieren, wie Glossarelemente mit physischen Assets in Bezug gesetzt werden.

Entdecken Sie unser Business Glossary

Albtraum Nr. 4 – Nicht konforme Daten

 

Durch die zunehmende Zahl an Datenvorschriften sind Initiativen zur Datensicherheit und -governance zu einer Priorität für datengetriebene Unternehmen geworden. Denn die Folgen einer Non-Compliance sind schwerwiegend – hohe Geldstrafen, Rufschädigung … das kann Ihnen nachts durchaus den Schlaf rauben.

Zeenea als Traumfänger: Wir gewährleisten die Compliance, indem wir Ihre personenbezogenen Daten automatisch identifizieren, klassifizieren und verwalten. Mithilfe intelligenter Empfehlungen erkennt unsere Plattform persönliche Daten und macht Vorschläge, welche Objekte getaggt werden sollten. Dabei stellt sie sicher, dass die Informationen über Datenschutzrichtlinien und -vorschriften allen Datenkonsumenten innerhalb des Unternehmens bei ihrer täglichen Arbeit bekannt gemacht werden.

Erfahren Sie, wie wir die Compliance von Daten unterstützen.

Starten Sie Ihr Daten-Traumprojekt mit Zeenea!

 

Wenn Sie an Zeenea für Ihre datengestützten Initiativen interessiert sind, kontaktieren Sie uns für eine 30-minütige persönliche Demo mit einem unserer Datenexperten.

Bestandsaufnahme des Zugangs zu Daten in datengetriebenen Unternehmen – BARC Data Culture Survey 23

Bestandsaufnahme des Zugangs zu Daten in datengetriebenen Unternehmen – BARC Data Culture Survey 23

Wir freuen uns, die Arbeit des Forschungsinstituts BARC zu unterstützen, und bieten Ihnen die Möglichkeit, die neueste Studie „Data Culture Survey 23“ hier kostenlos herunterzuladen .

In der letztjährigen Studie definierte BARC den Zugang zu Daten als wichtigsten Aspekt seines Data Culture Frameworks. In diesem Jahr hat das Forschungsinstitut eine Bestandsaufnahme der Erfahrungen und Projekte von Unternehmen in Bezug auf ihre Bestrebungen, eine echte Data Culture einzuführen, durchgeführt, wobei der Schwerpunkt auf eben diesem Zugang zu Daten liegt.

Die Studie stützte sich auf die Ergebnisse einer weltweiten Online-Umfrage, die im Juli und August 2022 durchgeführt wurde. Die Umfrage wurde innerhalb des BARC-Panels sowie über Websites und Newsletter beworben. Insgesamt nahmen 384 Personen an der Umfrage teil, aus einer Vielzahl an Rollen, Sektoren und Unternehmensgrößen.

In diesem Artikel erfahren Sie mehr über die Ergebnisse zum Zugang zu Unternehmensdaten – ein Auszug aus der von BARC durchgeführten Umfrage 2023.

Zwei Ansätze: das Recht auf Wissen (Right to know) vs. die Notwendigkeit von Wissen (Need to know)

53 % der Best-in-Class*-Unternehmen setzen auf das Prinzip des Rechts auf Wissen (Right to know), während nur 24 Prozent der eher zögerlichen Unternehmen* dieses Prinzip befürworten.

In der Studie beschreibt BARC zwei Prinzipien, die beim Zugang zu Daten zu beobachten sind: Das Need-to-know-Prinzip steht für einen restriktiven Ansatz, bei dem die Nutzer eine Genehmigung beantragen müssen, um auf Daten zugreifen zu können. Im Gegensatz dazu beruht das Right-to-know-Prinzip auf der Einrichtung einer Datendemokratie, in der alle Mitarbeiter freien Zugang zu Daten haben – die einzige Einschränkung bilden dabei bewusst beschränkte Daten (z. B. sensible, persönliche oder ähnliche Daten).

Der Need-to-know-Ansatz war bisher das vorherrschende Modell für den Zugang zu Daten, wobei 63 % der Teilnehmer bestätigten, dass dieser Ansatz in ihrer Organisation vorherrscht. Deutlich mehr als die Hälfte der Unternehmen in der Stichprobe hält jedoch das Right-to-know-Modell für vorteilhafter.

Für viele Befragte besteht jedoch noch eine große Diskrepanz zwischen ihren Wünschen und der Realität. Das Recht auf Wissen (Right to know) wird vor allem von kleinen Unternehmen praktiziert. Das ist nicht überraschend, denn ihre Organisationsstrukturen sind einfach und flach, und die Kommunikationskanäle sind direkt. So stellt das BARC fest, dass mit zunehmender Größe eines Unternehmens auch die organisatorische Komplexität und die Anforderungen an die Data Governance steigen. Hier herrscht tendenziell das Need-to-know-Prinzip vor.

Unternehmen, die hauptsächlich das Right-to-know-Prinzip praktizieren, sind der Ansicht, dass sie mehr Nutzen aus ihren Daten ziehen als Unternehmen, die nach dem Need-to-know-Prinzip verfahren. So berichten sie beispielsweise von einer wesentlich höheren Erfolgsquote, wenn es darum geht, einen Wettbewerbsvorteil zu erlangen, die Marktposition zu sichern und die Umsätze zu steigern.

Need To Know Versus Right To Know Barc Data Culture Survey

Technologien & Tools, die mit dem Zugriff auf Daten verbunden sind

 

Es ist kein Geheimnis, dass Sie für den Zugang zu Ihren Daten technische Unterstützung benötigen. Laut BARC setzen etwa zwei Drittel der befragten Unternehmen herkömmliche Data-Warehousing- und BI-Technologien ein. Darüber hinaus verwenden 69 % Excel und 51 % nutzen Self-Service-Analysetools. Diese Zahlen sind nicht überraschend, wenn das Ziel darin besteht, die Probleme beim Datenzugang mit den vorhandenen Unternehmenstools zu lösen.

Erwähnenswert ist, dass 32 % Code verwenden, um den Datenzugang zu verwalten, was mit der allgemeinen Marktwahrnehmung von BARC übereinstimmt, dass Programmiersprachen wie Python in der Landschaft der Unternehmensdaten zunehmend an Bedeutung gewinnen.

Im Gegenzug dazu steigt auch der Bedarf an Transparenz, um Daten, Funktionen und Algorithmen auf einfache Weise finden und sicher integrieren zu können. Damit ist das Feld für Softwareanbieter bestellt, neue Lösungen anzubieten, die dabei helfen, den Code zu verwalten und zu überwachen, um so Kontroll- und Überwachungsprozesse einzuführen.

Technologies And Concepts Used In Organization Barc Data Culture Survey

Schließlich zeigt die Umfrage, dass es in Bezug auf die Technologien für den Zugang zu Daten noch viel Nachholbedarf gibt! Weniger als 25 % der befragten Unternehmen nutzen Data-Intelligence-Plattformen oder Data Catalogs. Doch genau diese Lösungen ermöglichen es, Data Knowledge außerhalb des BI-Kontexts systemübergreifend zusammenzustellen, analysierbar zu machen und damit die größten Herausforderungen beim Zugang zu Daten zu meistern.

Die Bedeutung von Data Knowledge wurde vor allem von Best-in-Class*-Unternehmen erkannt. 58 % von ihnen nutzen Data-Intelligence-Plattformen, während es bei den Laggards* nur 19 % sind.

Laggards Versus Best In Class Technologies Used Barc Data Culture Survey

Mangelnde Kompetenz in Bezug auf neue Technologien

 

Technologie ist nur die halbe Lösung für Probleme beim Zugang zu Daten. Wie in einem früheren Artikel erwähnt, haben viele Daten-Herausforderungen ihren Ursprung in fehlender Strategie oder Organisation.

Der Mehrwert von Technologien zur Verbesserung des Zugangs zu Daten ist begrenzt. Nur etwas mehr als die Hälfte der befragten Unternehmen schafft es, den Datenzugriff mithilfe von BI- und Data-Warehousing-Technologien zu verbessern, und nur jedem dritten Unternehmen gelingt dies mithilfe von Self-Service-Analysetools.

Tools zur Datenvirtualisierung, Data-Intelligence-Plattformen und Datenkataloge spielen eine bemerkenswerte Rolle bei der technischen Unterstützung des Zugangs zu Daten. Diese Tools können eindeutig einen Mehrwert bieten, aber BARC geht davon aus, dass es wahrscheinlich an Wissen und Ausbildung mangelt, um sie umfassend nutzen zu können.

Tatsächlich nennen 39 % der Befragten fehlende Fähigkeiten als zweithäufigstes Hindernis für den Zugang zu Daten!

Befreien Sie den Zugriff und den Wert der Daten für Ihre Datennutzer, indem Sie eine Data Culture aufbauen

 

Wenn Sie mehr über die Ergebnisse dieser Studie erfahren möchten, können Sie das Dokument kostenlos herunterladen. Sie erhalten wertvolle Informationen über:

● die Bewertung verschiedener Ansätze für den Zugang zu Daten,
● die Auswirkungen der Einführung einer Data Culture,
● die Herausforderungen bei der Einführung des Zugangs zu Daten,
● und vieles mehr.

* Die Stichprobe wurde in „Best-in-Class (Klassenbeste)“ und „Laggards (Nachzügler)“ unterteilt, um Unterschiede in Bezug auf die aktuelle Data Culture in den Unternehmen zu beschreiben. Diese Einteilung erfolgte auf der Grundlage der Frage „Wie beurteilen Sie die Datenkultur Ihres Unternehmens im Vergleich zu Ihren wichtigsten Mitbewerbern?“. Unternehmen, deren Datenkultur deutlich besser ist als die ihrer Konkurrenten, werden als „Best-in-Class“ bezeichnet, wohingegen Unternehmen, deren Datenkultur etwas oder deutlich schlechter als die ihrer Mitbewerber ist, als „Laggards“ klassifiziert werden.

5 zentrale Funktionen von Zeenea für ein Fünf-Sterne-Data-Stewardship-Programm

5 zentrale Funktionen von Zeenea für ein Fünf-Sterne-Data-Stewardship-Programm

Sie verarbeiten Daten, riesige Mengen an Daten … Aber diese Daten sind oft über verschiedene Tools, Plattformen, Datenbanken, Tabellen usw. verteilt. Darüber hinaus sind einige Ihrer Daten unzugänglich oder – noch schlimmer – für unberechtigte Personen zugänglich. Als Experten für Unternehmensdaten müssen Data Stewards in der Lage sein, das Wer, Was, Wann, Wo und Warum ihrer Daten zu identifizieren, um ein zuverlässiges Data-Stewardship-Programm zu entwickeln.

Leider stehen Data Stewards oft vor einem großen Hindernis: dem Mangel an Tools, die sie in dieser Rolle unterstützen. Wenn es um große Datenmengen geht, können die Pflege der Datendokumentation, die Verwaltung der Metadaten Ihres Unternehmens und die Lösung von Qualitäts- und Governance-Problemen sehr schwierig sein.

Und genau hier kann Zeenea intervenieren und Ihnen helfen. Unsere Data-Discovery-Plattform – und ihre intelligenten und automatisierten Funktionen für das Metadaten-Management – machen Data Stewards das Leben leichter. In diesem Artikel erfahren Sie mehr über 5 zentrale Funktionen unserer Software für ein Fünf-Sterne-Data-Stewardship-Programm.

Funktion 1: Universelle Konnektivität

Automatische Inventarisierung der Metadaten Ihrer Datenquellen

Wie bereits erwähnt, sind Unternehmensdaten über zahlreiche Datenquellen verteilt, was die Verwaltung und umfassende Kontrolle des Datenbestands durch Data Stewards erschwert oder sogar unmöglich macht. Zu diesem Zweck bietet Zeenea eine Lösung zur Katalogisierung von Daten der neuesten Generation, die alle Metadaten des Unternehmens in einer einzigen Quelle der Wahrheit zentralisiert. Die große Auswahl an nativen Konnektoren unserer Plattform ruft über unsere APIs und Scanner automatisch Metadaten ab, sammelt und synchronisiert sie.

Funktion 2: Ein flexibles und individuell anpassbares Metamodell

Automatisierung der Datendokumentation

Die Dokumentation von Daten kann extrem zeitaufwändig sein, manchmal müssen Tausende von Properties, Feldern und anderen wichtigen Metadaten implementiert werden, damit die Fachteams den Kontext der Daten, auf die sie zugreifen, vollumfänglich verstehen.

Zeenea bietet einen flexiblen und individuell anpassbaren Weg, um vorkonfigurierte Metamodell-Templates für Objekte (Datensätze, Felder, Datenprozesse usw.) und eine unbegrenzte Anzahl von benutzerdefinierten Objekten (Verfahren, Regeln, KPIs, Vorschriften usw.) zu erstellen.

Importieren oder erstellen Sie Ihre Dokumentationsvorlagen einfach, indem Sie Ihre vorhandenen Properties sowie Ihre Tags und andere benutzerdefinierte Metadaten in Ihre Templates ziehen. Haben Sie in einem Template einen Fehler gemacht? Kein Problem! Fügen Sie Eigenschaften und Abschnitte nach Belieben hinzu, löschen oder bearbeiten Sie diese – Ihre Elemente werden automatisch aktualisiert, sobald sie bearbeitet wurden.

Nachdem Sie Ihre Templates erstellt haben, können Sie alle Assets, aus denen Ihr Metamodell besteht, und ihre Beziehungen zueinander, mithilfe unseres dynamischen Diagramms leicht visualisieren. Das intuitive Design zeigt die Details jedes Objekttyps – ihre Abschnitte und Eigenschaften – und aktualisiert sich automatisch nach jeder Änderung. Sie können auch in ein beliebiges Objekt hinein- oder herauszoomen und ein Bild Ihres Metamodells exportieren.

Das Gleiche gilt für Ihre Glossary-Objekte! Wir haben die physische und die logische Ebene des Glossary-Metamodells getrennt, damit Data Stewards und andere Mitwirkende ihre Fachbegriffe leicht definieren und finden können. Mithilfe desselben Verfahrens wie beim physischen und logischen Metamodell erstellen oder importieren Sie semantische Objekte, ordnen diese in Hierarchien an und konfigurieren, wie die Elemente Ihres Glossars mit technischen Elementen verknüpft sind.

Funktion 3: Automatische Data-Lineage

Verfolgung Ihrer Datentransformationen

Data-Lineage-Funktionen spielen eine zentrale Rolle, damit Data Stewards genaue und zuverlässige Compliance-Berichte erstellen können. Viele Softwareentwickler bieten Lineage-Funktionen an, aber nur wenige verstehen sie wirklich. Aus diesem Grund bietet Zeenea ein interaktives Data-Lineage-Diagramm an, mit dem Ihre Benutzer über eine visuelle und leicht verständliche Schnittstelle durch den Lebenszyklus ihrer Daten navigieren können. Klicken Sie auf ein beliebiges Objekt, um eine Übersicht über seine Dokumentation, seine Beziehungen zu anderen Objekten sowie seine Metadaten zu erhalten. So erhalten Sie eine 360°-Ansicht der Elemente in Ihrem Data Catalog.

Funktion 4: Intelligente Vorschläge

Schnelle Identifizierung personenbezogener Daten

Aufgrund der DSGVO, des California Consumer Privacy Acts und anderer Vorschriften über die Sicherheit und Vertraulichkeit persönlicher Daten kann es mühsam sein, jeden vorhandenen Datensatz durchzugehen, um sicherzustellen, dass die Daten korrekt als personenbezogen gekennzeichnet wurden. Um sicherzustellen, dass Ihre Daten immer korrekt identifiziert werden, analysiert Zeenea Ähnlichkeiten zwischen vorhandenen persönlichen Daten, indem es Felder identifiziert und Vorschläge macht, was als „personenbezogen“ markiert werden sollte. Ihre Data Stewards können diese Vorschläge direkt von ihrem Dashboard aus annehmen, ignorieren oder löschen.

Funktion 5: Ein effektives Berechtigungsmodell

Gewährleisten, dass die richtigen Personen auf die richtigen Daten zugreifen

Für Organisationen, in denen verschiedene Arten von Benutzern auf den Datenbestand zugreifen, ist es nicht sinnvoll, jeder Person einen Vollzugriff zu gewähren, um alles ändern zu können. Vor allem, wenn es sich um sensible oder persönliche Informationen handelt. Aus diesem Grund hat Zeenea ein Modell für Berechtigungssätze entwickelt, mit dem Data Stewards die Effizienz Ihres Unternehmens steigern und das Risiko von Fehlern verringern können. Vergeben Sie Lese-, Bearbeitungs- und Administrationsrechte in allen oder verschiedenen Teilen des Data Catalogs, um nicht nur die Sicherheit Ihres Katalogs zu gewährleisten, sondern auch um Zeit zu sparen, wenn Datenkonsumenten den Bezug einer Information finden müssen.

Sind Sie bereit, Ihr Data Stewardship-Programm mit Zeenea zu starten?

Wenn Sie an den Funktionen von Zeenea für Ihre Dokumentations- und Stewardship-Anforderungen interessiert sind, kontaktieren Sie uns für eine 30-minütige persönliche Demo mit einem unserer Datenexperten.

Wie unterstützt der Data Catalog die vier Grundprinzipien des Data Mesh?

Wie unterstützt der Data Catalog die vier Grundprinzipien des Data Mesh?

Einführung: Was ist ein Data Mesh?

Mit der Erkenntnis, dass Daten für ihr Geschäft von strategischer Bedeutung sind, haben Unternehmen versucht, sich neu zu organisieren, um das volle Potenzial ihres Datenbestands zu erschließen. Die Frage der Datenspeicherung hat nach und nach verschiedene Lösungen hervorgebracht, die versuchen, diese Frage zu beantworten: Datamarts, Data Warehouses und schließlich Data Lakes, die immer größere Datenmengen aufnehmen können und die Datenbestände möglichst vielen Menschen zentral zur Verfügung stellen, um die Silos im Unternehmen aufzubrechen.

Aber die Unternehmen haben nach wie vor Schwierigkeiten, den Bedürfnissen der verschiedenen Fachbereiche gerecht zu werden. Denn die Geschwindigkeit der Produktion, der Transformation und die zunehmende Komplexität der Daten (Art, Herkunft usw.) stellen die Skalierbarkeit einer solchen zentralisierten Organisation auf die Probe. Der zentrale Datenbrunnen neigt dazu, zu einem Nadelöhr zu werden, an dem Fachbereiche reagieren können und an dem nur einige wenige Expertenteams anzutreffen sind.

Dies gilt umso mehr in einem Umfeld, in dem Unternehmen aus Fusionen oder Übernahmen hervorgegangen oder in Tochtergesellschaften organisiert sind. Der Aufbau einer gemeinsamen Vision und Organisation aller Einheiten kann sich als komplex und mühsam erweisen.

Ausgehend von dieser Erkenntnis entwickelte Zhamak Dehghani das Konzept des „Data Mesh“ und schlug einen Paradigmenwechsel bei der Verwaltung analytischer Daten mit einem dezentralen Ansatz vor.

Das Data Mesh ist in der Tat keine technische Lösung, sondern vielmehr ein Ziel, ein Leitstern, wie Mick Lévy es nennt, dem man folgen muss, um die Herausforderungen zu meistern, denen die Unternehmen heute gegenüberstehen:

  • Elegant auf die Komplexität, die Unbeständigkeit und die Unsicherheit des Geschäfts reagieren
  • Trotz Wachstum seine Agilität bewahren
  • Die Wertschöpfung proportional zu den Investitionen beschleunigen

Wie kann der Data Catalog die Einführung eines Data-Mesh-Ansatzes erleichtern?

Ein Data Catalog hat das Ziel, alle Daten eines Unternehmens zu katalogisieren und sie den technischen oder fachlichen Teams zur Verfügung zu stellen, die Nutzung der Daten zu erleichtern, die Zusammenarbeit rund um die Verwendung der Daten zu fördern und so die Wertschöpfung zu maximieren und zu beschleunigen.

In einer Organisation mit einem Data Mesh sind die Daten an verschiedenen Orten gesichert und werden von unterschiedlichen Teams verwaltet. Hier besteht die Aufgabe des Datenkatalogs darin, einen zentralen Zugriffspunkt auf die Datenressourcen für das gesamte Unternehmen zu gewährleisten.

Aber dafür muss der Data Catalog die folgenden vier Grundprinzipien des Data Mesh unterstützen:

  • „Domain-driven ownership of data“
  • „Data as a product“
  • „Self-serve data platform“
  • „Federated computational governance“

Domain Ownership

Das erste Prinzip des Data Mesh besteht darin, die Verantwortlichkeiten rund um Daten zu dezentralisieren. Das Unternehmen muss zunächst Fachbereiche definieren, und zwar mehr oder weniger granular, je nach Kontext und Anwendungsfall (z. B.: Produktion, Vertrieb, Logistik usw.).

Jeder Bereich erhält dann die Verantwortung für die von ihm erzeugten Daten. Die Bereiche gewinnen an Autonomie, um wachsende Datenmengen leichter zu verwalten und zu nutzen. Insbesondere wird dadurch die Datenqualität verbessert, da das Fachwissen direkt an der Quelle genutzt wird.

Dieser Ansatz stellt insbesondere die Zweckmäßigkeit eines zentralisierten Master Data Managements in Frage, das eine zentrale, umfassende Datenmodellierung vorschlägt, die jedoch für die Datenkonsumenten schwer zu verstehen und nur schwer über einen längeren Zeitraum aufrechtzuerhalten ist.

Dank des Data Catalogs müssen sich die Fachteams auf den Datenkatalog stützen und verlassen können, um ihre Daten zu inventarisieren und den Umfang ihres Bereichs mithilfe einer Modellierung zu beschreiben, die sich an der bereichsspezifischen Nutzung orientiert.

Diese Modellierung muss über ein mit dem Data Catalog verknüpftes Business Glossary zugänglich sein. Dieses Business Glossary muss die einzige Quelle der Wahrheit bleiben, jedoch gleichzeitig die verschiedenen Facetten der Daten entsprechend der Nutzung und den Bedürfnissen jedes Bereichs widerspiegeln.

Wenn z. B. das Konzept „Produkt“ für das gesamte Unternehmen gilt, sind seine Attribute für die Bereiche Logistik, Design oder Verkauf dennoch von unterschiedlichem Interesse.

Ein graphenbasiertes Business Glossary ist daher aufgrund seiner Flexibilität, Modellierungs- und Erkundungsmöglichkeiten besser geeignet als ein vordefinierter hierarchischer Ansatz. Während die Konsistenz dieser semantischen Ebene unternehmensweit sichergestellt wird, gibt ein graphenbasiertes Business Glossary den Datenverantwortlichen die Möglichkeit, die Besonderheiten ihrer jeweiligen Bereiche besser zu berücksichtigen.

Der Data Catalog muss daher den verschiedenen Bereichen die Gelegenheit geben, bei der Definition und Pflege des Metamodells und der Asset-Dokumentation zusammenzuarbeiten, um deren Qualität zu gewährleisten.

Um dies zu erreichen, muss der Datenkatalog auch ein geeignetes Berechtigungsmanagement anbieten, um eine eindeutige Aufteilung der Verantwortlichkeiten zu ermöglichen und jedem Bereichsleiter die Möglichkeit zu geben, die Dokumentation seines Bereichs selbst in die Hand zu nehmen.

Data as a product

Das zweite Prinzip des Data Mesh besteht darin, Daten nicht mehr als Asset zu betrachten, sondern als Produkt mit einer eigenen Benutzererfahrung und einem eigenen Lebenszyklus. Damit soll insbesondere vermieden werden, dass durch die Dezentralisierung der Verantwortlichkeiten erneut Silos im Unternehmen entstehen.

Jeder Bereich ist somit dafür verantwortlich, ein oder mehrere Datenprodukte für andere Bereiche zur Verfügung zu stellen. Aber über dieses Ziel der Reduzierung der Fragmentierung hinaus ermöglicht die Betrachtung von Daten als Produkt ein Vorgehen, das sich auf die Erwartungen und Bedürfnisse der Endnutzer konzentriert: Welche Personas sind Datenkonsumenten? In welchen Formaten nutzen die Benutzer die Daten? Mit welchen Tools? Wie kann die Zufriedenheit der Benutzer gemessen werden?

Mit einem zentralisierten Ansatz fällt es den Unternehmen nämlich schwer, auf die Bedürfnisse der Fachanwender einzugehen und zu skalieren. Das Data Mesh wird daher dazu beitragen, die Verbreitung der Datenkultur zu erleichtern, indem es die Hürde, die zur Nutzung der Daten überwunden werden muss, verringert.

Laut Zhamak Dehghani sollte ein Datenprodukt verschiedene Kriterien erfüllen, und der Data Catalog kann teilweise dabei helfen:

Entdeckbar: Der erste Schritt für einen Data Analyst, einen Data Scientist oder einen anderen Datenkonsumenten auf seiner Suche nach Daten besteht darin, zu wissen, welche Daten es gibt und welche Arten von Insights er entdecken kann. Der Data Catalog begegnet diesem Problem mit einer intelligenten Suchmaschine, die nach Schlüsselwörtern sucht, Tipp- und Syntaxfehler akzeptiert, Vorschläge generiert und erweiterte, intuitive Filtermöglichkeiten bietet. Der Data Catalog muss auch personalisierte Wege zur Discovery seiner Inhalte anbieten, um die verschiedenen Data Products besser zu fördern. Schließlich sollte die Such- und Navigationserfahrung im Data Catalog einfach sein und auf Marktstandards wie Google oder Amazon basieren, um das Onboarding für nicht-technische Nutzer zu erleichtern.

Verständlich: Daten müssen leicht verständlich und konsumierbar sein. Eine weitere Aufgabe des Data Catalogs ist es, den gesamten Kontext bereitzustellen, der für das Verständnis der Daten erforderlich ist: Beschreibung, zugehörige Geschäftskonzepte, Klassifizierung, Beziehungen zu anderen Datenprodukten etc. Die Fachbereiche können sich auf den Data Catalog stützen, um den Verbrauchern so viel Autonomie wie möglich beim Verstehen ihrer Datenprodukte zu geben. Ein Plus wäre eine Integration von Datentools und Sandboxes, um das Verhalten der Daten besser zu verstehen.

Vertrauenswürdig: Die Konsumenten müssen Vertrauen in die Daten haben, die sie verwenden. Auch hier spielt der Data Catalog eine wichtige Rolle. Ein Data Catalog ist kein Data-Quality-Tool, Qualitätsindikatoren müssen jedoch im Data Catalog automatisch abgerufen und aktualisiert werden können, damit sie für die Nutzer sichtbar sind (Vollständigkeit, Aktualisierungshäufigkeit usw.). Der Data Catalog sollte, wenn möglich, auch statistische Informationen über die Daten aufzeigen oder die Data Lineage rekonstruieren können, insbesondere durch automatisierte Systeme, um den Ursprung und die verschiedenen Transformationen zu verstehen.

Nativ zugänglich: Ein Datenprodukt sollte in der von den Personas (Data Analysts, Data Scientists usw.) erwarteten Form geliefert werden. Ein und dasselbe Datenprodukt kann daher potenziell in mehreren Formaten geliefert werden, je nach Verwendungszweck und Kompetenzen der Zielnutzer. Es sollte möglichst einfach sein, Schnittstellen zu den Tools herzustellen, welche die Nutzer verwenden. In diesem Punkt hat der Datenkatalog hingegen keine besondere Rolle zu spielen.

Nutzbar: Ein Schlüssel zum Erfolg eines Datenprodukts ist auch, dass es selbstständig konsumiert werden kann und dass es für sich genommen eine Bedeutung hat. Es muss so gestaltet sein, dass es die Notwendigkeit von Berührungspunkten mit anderen Datenprodukten minimiert, um selbst einen messbaren Wert für seine Konsumenten zu liefern.

Adressierbar: Sobald der Nutzer das von ihm benötigte Datenprodukt im Data Catalog gefunden hat, muss er leicht darauf zugreifen können oder in der Lage sein, auf einfache und effiziente Weise den Zugriff darauf anzufordern. Dazu muss der Data Catalog Schnittstellen zu Policy-Enforcement-Systemen aufweisen, die den Zugriff auf die Daten durch die Automatisierung eines Teils der Arbeit erleichtern und beschleunigen.

Sicher: Dieser Punkt hängt mit dem vorherigen zusammen. Die Nutzer müssen leicht auf die Daten zugreifen können, aber auf sichere Weise, je nachdem, welche Richtlinien für die Zugriffsrechte eingerichtet wurden. Auch diesen Aspekt erleichtert die Integration des Data Catalogs mit einer Policy-Enforcement-Lösung.

Interoperabel: Um den Austausch zwischen den Bereichen zu erleichtern und die erneute Bildung von Silos zu vermeiden, müssen Data Products auf Unternehmensebene festgelegten Standards entsprechen, damit jede Art von Datenprodukt problemlos konsumiert und Datenprodukte untereinander integriert werden können. Der Data Catalog muss auch die Möglichkeit bieten, die Metadaten der Datenprodukte zu verbreiten, um die Fachbereiche über APIs miteinander zu verbinden.

Self-serve data infrastructure

In einer Organisation mit einem Data Mesh sind die Fachbereiche dafür verantwortlich, die Data Products dem gesamten Unternehmen zur Verfügung zu stellen. Um dieses Ziel zu erreichen, müssen die Fachbereiche jedoch über Dienste verfügen, die ihnen die Einrichtung erleichtern und die Verwaltungsaufgaben so weit wie möglich automatisieren. Diese Dienste müssen die Komplexität der zugrunde liegenden Architektur verschleiern, um die größtmögliche Autonomie der Fachbereiche von den Infrastrukturteams zu gewährleisten.

In einer dezentralen Organisation wird diese Dienste-Ebene auch Kostensenkungen ermöglichen, insbesondere hinsichtlich der Belastung der Data Engineers, einer Mitarbeiterressource, die schwer zu finden ist.

Der Data Catalog ist Teil dieser Abstraktionsschicht und ermöglicht es den Fachbereichen, die Datenquellen, für die sie verantwortlich sind, einfach zu inventarisieren. Dazu muss der Data Catalog selbst einen Katalog von Konnektoren anbieten, der die verschiedenen von den Fachbereichen eingesetzten Technologien (Speicherung, Transformation usw.) unterstützt, und die Kuratierungsaufgaben so weit wie möglich automatisiert.

Mithilfe einfach zu bedienender APIs ermöglicht der Data Catalog den Fachbereichen, ihre fachlichen oder technischen Repositories einfach zu synchronisieren, ihre Qualitätsmanagement-Tools zu verbinden usw.

Federated computational governance

Das Data Mesh bietet einen dezentralisierten Ansatz für das Datenmanagement, bei dem die Fachbereiche eine gewisse Souveränität erlangen. Die Einrichtung einer föderalen Governance-Struktur ermöglicht jedoch die globale Kohärenz der Governance-Regeln, die Interoperabilität der Datenprodukte und ein Monitoring auf der Ebene des Data Mesh.

Das Data Office tritt daher eher als Vermittler auf, der die Governance-Prinzipien und -Richtlinien verbreitet, denn als Kontrolleur. Der CDO ist nicht mehr für die Qualität oder die Sicherheit verantwortlich, sondern definiert, was Qualität, Sicherheit usw. ausmacht. Die Bereichsleiter übernehmen auf lokaler Ebene die Umsetzung dieser Prinzipien.

Dieser Paradigmenwechsel ist vor allem durch die Automatisierung der Durchsetzung von Governance-Richtlinien möglich. Die Anwendung dieser Richtlinien wird dadurch im Vergleich zu einem zentralisierten Ansatz beschleunigt, da sie so nah wie möglich an der Quelle erfolgt.

Der Data Catalog kann auch hier bei der Verbreitung von Governance-Prinzipien und -Richtlinien eingesetzt werden, die im Data Catalog dokumentiert oder katalogisiert und mit den Data Products, für die sie gelten, verknüpft werden können. Der Data Catalog wird auch Metadaten für die Systeme bereitstellen, die für die Automatisierung der Anwendung von Regeln und Richtlinien zuständig sind.

Schlussfolgerung

In einer zunehmend komplexen und sich verändernden Datenumgebung bietet das Data Mesh eine sozio-architektonische Alternative zu zentralisierten Ansätzen, die Schwierigkeiten mit der Skalierung haben und sich schwertun, den Anforderungen der Fachbereiche hinsichtlich Qualität und Reaktionsfähigkeit gerecht zu werden.

Der Data Catalog spielt in dieser Organisationsstruktur eine zentrale Rolle, da er ein zentrales Zugriffsportal für die Discovery und die gemeinsame Nutzung von Datenprodukten im gesamten Unternehmen bereitstellt, den Fachbereichen die einfache Verwaltung ihrer Datenprodukte ermöglicht und Metadaten für die Automatisierung von Richtlinien liefert, die für eine föderal strukturierte Governance erforderlich sind.

Die Fallstricke bei der Implementierung eines Datenkatalogs – Datenkatalog-Integration

Die Fallstricke bei der Implementierung eines Datenkatalogs – Datenkatalog-Integration

Metadaten-Management ist ein wichtiger Bestandteil eines jeden umfassenderen Datenmanagement-Projekts und erfordert mehr als die bloße Implementierung einer Datenkatalog-Software, egal wie vernetzt diese auch sein mag.

Zwar wird ein solches Tool das Metadaten-Management immer unterstützen, es kann jedoch nicht allein dessen Erfolg garantieren.

Diese Artikelserie ist inspiriert von Erfahrungen aus den unterschiedlichsten Branchen, Unternehmensgrößen und -kulturen und zeigt die wichtigsten Fallstricke und Missverständnisse auf, die Sie bei der Einführung eines unternehmensweiten Datenkatalogs unbedingt vermeiden sollten.

Die beschriebenen Fallstricke drehen sich um vier Themen, die für den Erfolg des Vorhabens von zentraler Bedeutung sind:

  1. Datenkultur
  2. Sponsorship
  3. Projektsteuerung
  4. Datenkatalog-Integration

Die Integration des Datenkatalogs in das Ökosystem des Unternehmens fördert Möglichkeiten zur Wertschöpfung. Es ist von entscheidender Bedeutung, diesen Aspekt sorgfältig zu berücksichtigen und die Vorteile zu verstehen.

Nicht alle Metadaten müssen von Hand eingegeben werden

Immer mehr Systeme produzieren, aggregieren und ermöglichen die Eingabe von Metadaten. Diese Informationen müssen im Katalog abgerufen und konsolidiert werden – ohne Doppelerfassung – aus offensichtlichen Gründen der Wirtschaftlichkeit, Zuverlässigkeit und schnellen Verfügbarkeit.

Der Datenkatalog bietet also die Möglichkeit, diese Informationen mit dem von den Mitarbeitern in ihren jeweiligen Bereichen getragenen Wissen zu konsolidieren. Diese Konsolidierung muss jedoch durch eine technische Integration erfolgen und darf nicht manuell durchgeführt werden. Die Durchführung von Importen/Exporten zwischen Systemen, die auf menschlichen Handlungen beruhen, ist kein sinnvoller Ansatz.

Die Stärke eines Datenkatalogs muss in seiner Fähigkeit liegen, Metadaten über technische Integrationsketten aufzunehmen und so eine robuste Synchronisierung zwischen den Systemen zu ermöglichen. Hier kommt das Konzept der Metadatenplattform zum Tragen.

Der Datenkatalog ist kein „magisches“ Werkzeug

Umgekehrt wäre die Annahme, dass der Datenkatalog alle Arten von Metadaten unabhängig von der Quelle oder dem Format abrufen kann, mehr als irreführend.

Der Katalog soll zwar das Abrufen von Metadaten erleichtern, aber einige Metadaten können nicht automatisch in den Katalog eingefügt werden. Es bleibt also immer ein Kostenfaktor, der durch das Eingreifen von Mitarbeitern getragen wird.

Der erste Grund dafür liegt ganz einfach in der Herkunft einiger Metadaten selbst: Informationen sind vielleicht einfach noch nicht in Systemen vorhanden, weil sie nur aus dem Wissen von Experten stammen. Der Datenkatalog ist in diesem Fall also ein potenzieller Kandidat dafür, das Mastersystem zu werden, um sie aufzunehmen.

Gleichzeitig können manche Informationen aus vielen Gründen in Systemen vorhanden sein, ohne dass es möglich ist, sie automatisiert abzurufen. Beispiele hierfür sind das Fehlen einer Schnittstelle, die einen stabilen Zugriff auf die Informationen ermöglicht, oder die Notwendigkeit, auf Reverse Engineering zurückzugreifen, um relevante Informationen zu isolieren. Das Risiko eines Rauschens in den Informationen ist also hoch, was dazu führen kann, dass die Qualität des Kataloginhalts abnimmt und die Nutzer sich letztendlich von ihm abwenden.

Der Datenkatalog darf nicht mit nur einer einzigen Metadatenquelle verbunden sein

Metadaten existieren auf zahlreichen und unterschiedlichen Ebenen. Die Quellen sind vielfältig und ergänzen sich für ein umfassendes Verständnis. Es ist gerade die Zusammenführung dieser Informationen in einer zentralen Lösung, dem Datenkatalog, die den Nutzern die Elemente liefern wird, die sie für ihre Zwecke benötigen.

Die Wahl eines vernetzten Datenkatalogs ist ein echter Vorteil, da das Auffinden von Assets und das Abrufen der zugehörigen Metadaten durch Automatisierung erheblich vereinfacht wird.

Diese Konnektivität kann sich aber sehr oft auch auf andere, komplementäre Systeme erstrecken. Dabei handelt es sich um andere Systeme, die dem ersten System vor- oder nachgelagert sind und es ermöglichen, Data Lineage zu materialisieren und so den Fluss und die Transformationen zwischen den Systemen zu dokumentieren.

Die Systeme müssen jedoch nicht miteinander verbunden sein und können lediglich dazu beitragen, dass durch ihre Hinzufügung zum Datenkatalog eine umfassende Kartografie der Unternehmensdaten erstellt wird.

Schließlich können die verschiedenen angeschlossenen Quellen aufgrund der Vielfalt der Daten, die im Datenkatalog dokumentiert werden können, auch jede für sich zur Anreicherung einer bestimmten Ebene im Datenkatalog beitragen: semantische Schicht für die einen, physische Schicht für die anderen etc.

Die verschiedenen Quellen, die in den Datenkatalog einfließen, werden nach und nach unter der Gesamtleitung des Data Offices integriert, wobei die Strategie von der Wertschöpfung geprägt ist.

Die 10 Fallstricke bei der Implementierung eines Datenkatalogs

Wenn Sie mehr über die für ein erfolgreiches Datenkatalog-Projekt zu vermeidende Fallstricke erfahren möchten, laden Sie sich unser kostenloses eBook herunter!

Die 10 Fallstricke Bei Der Implementierung Eines Datenkatalogs Mockup

Die Fallstricke bei der Implementierung eines Datenkatalogs – Projektsteuerung

Die Fallstricke bei der Implementierung eines Datenkatalogs – Projektsteuerung

Metadaten-Management ist ein wichtiger Bestandteil eines jeden umfassenderen Datenmanagement-Projekts und erfordert mehr als die bloße Implementierung einer Datenkatalog-Software, egal wie vernetzt diese auch sein mag.

Zwar wird ein solches Tool das Metadaten-Management immer unterstützen, es kann jedoch nicht allein dessen Erfolg garantieren.

Diese Artikelserie ist inspiriert von Erfahrungen aus den unterschiedlichsten Branchen, Unternehmensgrößen und -kulturen und zeigt die wichtigsten Fallstricke und Missverständnisse auf, die Sie bei der Einführung eines unternehmensweiten Datenkatalogs unbedingt vermeiden sollten.

Die beschriebenen Fallstricke drehen sich um vier Themen, die für den Erfolg des Vorhabens von zentraler Bedeutung sind:

  1. Datenkultur
  2. Sponsorship
  3. Projektsteuerung
  4. Datenkatalog-Integration

Wie jedes Projekt muss auch die Einführung einer Metadaten-Management-Initiative gesteuert werden, um sicherzustellen, dass die Ziele in möglichst kurzer Zeit und zu geringen Kosten erreicht werden. Die Steuerung darf jedoch nicht selbst in die Irre führen, was wir im Folgenden illustrieren.

Die Quantität der Metadaten darf nie über der Qualität stehen

Der Geist verabscheut, wie die Natur, die Leere. Der Datenkatalog hat die Aufgabe, die mit den Unternehmensdaten verbundenen Vermögenswerte zu dokumentieren. Beim Start des Projekts führt das Fehlen von Elementen fast systematisch zu dem Reflex, den Katalog mit möglichst vielen Objekten zu füllen.

Ein guter Datenkatalog zeichnet sich jedoch nicht durch die Menge der vorhandenen Objekte aus, sondern durch die Qualität seines Inhalts und die Kohärenz der Informationen. Diese beiden Merkmale werden also eine Steuerung erfordern, um die Prioritäten zu ermitteln, zunächst in Bezug auf den Umfang und dann in Bezug auf die bereitzustellenden Informationen.

Was also auf den ersten Blick als frustrierend – weil einschränkend – erscheinen mag, wird sich sehr schnell als relevant, ja sogar als entscheidend für den Erfolg des Projekts erweisen. Die Nutzer werden den Datenkatalog zu Recht als eine “Source of Truth” betrachten, ähnlich wie ein Wörterbuch. Es ist immer besser, ausgewählten und qualitativ hochwertigen Inhalt anzubieten – vielleicht zuerst für eine bestimmte Zielgruppe -, der eine gute Erfahrung bietet, die dazu einlädt, für zukünftige Recherchen spontan auf das Tool zurückzugreifen.

Ein Datenkatalog füllt sich nicht von selbst, auch nicht, wenn er für die Nutzer geöffnet ist

Der Datenkatalog steht vielen Nutzern offen, von denen einige über Wissen über vorhandene Datenbestände verfügen. Es ist jedoch selten bis nie der Fall, dass sich spontan positive Kreise bilden, die zu einer natürlichen Aktualisierung des Inhalts des Datenkatalogs führen.

Die Realität sieht anders aus: Eine Begleitung zum Start, aber auch darüber hinaus, ist unerlässlich.

Die Qualität der Informationen, aber auch die Quantität müssen überwacht werden. Ebenso ist es wichtig, die involvierten Teams fortlaufend zu sensibilisieren und weiterzubilden. Dies kann auch durch die Einführung von formalen Prozessen unterstützt werden, die eine Kontrolle ermöglichen und zur Korrektur oder Erweiterung des Katalogs anregen.

Es ist unmöglich, alle Ziele des Datenkatalogs gleich zu Beginn des Projekts festzulegen, ohne sie jemals anzupassen

Der Datenkatalog muss die Erwartungen einer Vielzahl von Nutzern mit unterschiedlichen Bedürfnissen erfüllen.

Es ist daher utopisch zu glauben, dass man zu Beginn des Projekts eine vollständige Liste der Erwartungen kennt, bzw. diese Liste nach Start des Programms als endgültig fixiert anzusehen. Es ist daher die Aufgabe eines Data Offices, kontinuierlich Bedürfnisse zu sammeln und zu analysieren, sie zu verstehen und zu priorisieren, um sie in geeignete Inhalte umzusetzen.

In der Regel entwickeln sich die Bedürfnisse entlang verschiedener Parameter, die zu Beginn noch lange nicht feststehen. Beispiele hierfür sind der Reifegrad des Unternehmens und seiner Mitarbeiter in Bezug auf das Datenmanagement, der sich im Laufe der Zeit ändern wird, die Entwicklung der datenbezogenen Nutzungsmöglichkeiten oder auch die Entwicklung der rechtlichen Rahmenbedingungen.

All diese Parameter haben Einfluss auf den Inhalt, den der Datenkatalog abdecken muss, sowohl auf den Umfang als auch auf die Art der Informationen, die über die Daten bereitgestellt werden.

Die 10 Fallstricke bei der Implementierung eines Datenkatalogs

Wenn Sie mehr über die für ein erfolgreiches Datenkatalog-Projekt zu vermeidende Fallstricke erfahren möchten, laden Sie sich unser kostenloses eBook herunter!

Die 10 Fallstricke Bei Der Implementierung Eines Datenkatalogs Mockup

Die Fallstricke bei der Implementierung eines Datenkatalogs – Sponsorship

Die Fallstricke bei der Implementierung eines Datenkatalogs – Sponsorship

Metadaten-Management ist ein wichtiger Bestandteil eines jeden umfassenderen Datenmanagement-Projekts und erfordert mehr als die bloße Implementierung einer Datenkatalog-Software, egal wie vernetzt diese auch sein mag.

Zwar wird ein solches Tool das Metadaten-Management immer unterstützen, es kann jedoch nicht allein dessen Erfolg garantieren.

Diese Artikelserie ist inspiriert von Erfahrungen aus den unterschiedlichsten Branchen, Unternehmensgrößen und -kulturen und zeigt die wichtigsten Fallstricke und Missverständnisse auf, die Sie bei der Einführung eines unternehmensweiten Datenkatalogs unbedingt vermeiden sollten.

Die beschriebenen Fallstricke drehen sich um vier Themen, die für den Erfolg des Vorhabens von zentraler Bedeutung sind:

  1. Datenkultur
  2. Sponsorship
  3. Projektsteuerung
  4. Datenkatalog-Integration

Metadaten-Management-Projekte führen zu vielfältigen Veränderungen, die die Organisation und die Verantwortlichkeiten der Mitarbeiter betreffen. Sie müssen auf höchster Ebene initiiert werden.

Ein Datenkatalogprojekt kann ohne interne Management-Unterstützung nicht erfolgreich sein

Bei einer Metadaten-Management-Initiative werden einige Mitarbeiter mit neuen Verantwortlichkeiten, oder aber neuen Richtlinien in Bezug auf ihre bestehenden Verantwortlichkeiten ausgestattet. Das Projekt wird recht häufig von einem dedizierten, bereichsübergreifenden Team geleitet, um die Durchführung zu erleichtern. Die Mitarbeiter, von denen ein zusätzlicher Beitrag verlangt wird, werden jedoch in der Regel nicht von diesem Team gemanagt, sondern gehören anderen Abteilungen an.

Ohne die Vermittlung von Führungskräften innerhalb dieser Teams und eine mit dem funktionsübergreifenden Team abgestimmte Ansprache – und in einigen Fällen auch die Festlegung von Zielen, die mit diesen Verantwortlichkeiten zusammenhängen – bleibt die Initiative oft fragil. Sie kann dann selbst bei der kleinsten Hürde scheitern, da sie nicht offiziell kommuniziert ist.

Die Vorgehensweise hängt sehr stark von der Organisation Ihres Unternehmens ab. Nichtsdestotrotz ist es ratsam, Ziele festzulegen, um den Beitrag der involvierten Mitarbeiter im Projekt zu formalisieren und zu lenken sowie die Ergebnisse zu steuern.

Ein Datenkatalogprojekt erfordert eine Anfangsinvestition

Häufig wird zu Beginn eines Metadaten-Management-Projekts eine anfängliche Sammlung von Informationen durchgeführt, um den Katalog zu füllen.

Diese Informationen stammen oft aus bestehenden Dokumentationen, aber auch von Mitarbeitern, die das alleinige Wissen über bestimmte Elemente besitzen. Die ersten Schritte bestehen darin, diese Metadaten zu zentralisieren und gleichzeitig zu sichern, indem man sie in den Datenkatalog einspeist.

Der Datenkatalog sollte eine einfache Möglichkeit bieten, diese Informationen zu konzentrieren und sie einer möglichst großen Zahl von Menschen zugänglich zu machen.

Der Zeenea Data Catalog bietet verschiedene Mechanismen, um dies zu erreichen, insbesondere durch dessen starke Vernetzung. Dies ermöglicht die automatische Übernahme von Metadaten aus Quellsystemen.

Darüber hinaus dient die Konnektivität auch einem anderen Zweck: Sie sorgt dafür, dass der Katalog auf dem neuesten Stand bleibt und mit den Quellsystemen abgestimmt ist. Was für die Metadaten gilt, die durch diesen Mechanismus automatisch synchronisiert werden, gilt auch für andere Metadaten, die aus den Beiträgen der Mitarbeiter stammen: Ein Informationssystem lebt von Natur aus. Die vorhandenen Daten entwickeln sich weiter und die zugehörige Dokumentation folglich auch. Das bedeutet, dass die Dokumentation gepflegt werden muss, um sie frisch zu halten.

>> Zeenea entdecken <<

Die 10 Fallstricke bei der Implementierung eines Datenkatalogs

Wenn Sie mehr über die für ein erfolgreiches Datenkatalog-Projekt zu vermeidende Fallstricke erfahren möchten, laden Sie sich unser kostenloses eBook herunter!

Die 10 Fallstricke Bei Der Implementierung Eines Datenkatalogs Mockup

Die Fallstricke bei der Implementierung eines Datenkatalogs – Datenkultur

Die Fallstricke bei der Implementierung eines Datenkatalogs – Datenkultur

Metadaten-Management ist ein wichtiger Bestandteil eines jeden umfassenderen Datenmanagement-Projekts und erfordert mehr als die bloße Implementierung einer Datenkatalog-Software, egal wie vernetzt diese auch sein mag.

Zwar wird ein solches Tool das Metadaten-Management immer unterstützen, es kann jedoch nicht allein dessen Erfolg garantieren.

Diese Artikelserie ist inspiriert von Erfahrungen aus den unterschiedlichsten Branchen, Unternehmensgrößen und -kulturen und zeigt die wichtigsten Fallstricke und Missverständnisse auf, die Sie bei der Einführung eines unternehmensweiten Datenkatalogs unbedingt vermeiden sollten.

Die beschriebenen Fallstricke drehen sich um vier Themen, die für den Erfolg des Vorhabens von zentraler Bedeutung sind:

  1. Datenkultur
  2. Sponsorship
  3. Projektsteuerung
  4. Datenkatalog-Integration

Es gibt nur wenige Organisationen, in denen Daten das zentrale Produkt sind. Zwar sind Daten allgegenwärtig, doch sind sie sehr oft ein Nebenprodukt der eigentlichen Tätigkeit. Es ist daher nicht verwunderlich, dass viele Mitarbeiter sich der Bedeutung von Daten nicht immer bewusst sind. Datenkultur ist nicht angeboren und ein mangelndes Bewusstsein kann zu einem großen Hindernis bei der Einführung des Datenkatalogs werden.

Lassen Sie uns dies anhand einiger immer wiederkehrender Missverständnisse veranschaulichen.

Nicht alle Mitarbeiter sind für die Herausforderungen des Metadaten-Managements sensibilisiert

Das erste Hindernis liegt vermutlich im allgemeinen Verständnis der Disziplin. Zunächst einmal müssen die Mitarbeiter die entscheidende Rolle von Daten für die Entwicklung des Unternehmens erkennen. Es empfiehlt sich, die Akkulturation der Mitarbeiter an die Herausforderungen des Datenmanagements im Rahmen eines umfassenderen Programms anzugehen.

Eines der wichtigsten Prinzipien ist dabei, dass Daten innerhalb der Organisation ein Allgemeingut sind. Das bedeutet, dass der oder die Verwalter eines Datensatzes die Pflicht haben, diesen für das Unternehmen und alle Mitarbeiter sichtbar und verständlich zu machen.

Eines der mächtigsten Hindernisse auf dem Weg zum Metadaten-Management ist die Unkenntnis des Aufwands, den die Erstellung und Pflege einer Dokumentation erfordert. Dies wird noch verschärft, wenn die Zielgruppe der interessierten Nutzer auf einige wenige Personen beschränkt ist, die sich bereits mit dem Thema auskennen. Sobald die Zielgruppe nicht mehr nur eine Teilmenge, sondern das gesamte Unternehmen und potenziell alle Mitarbeiter sind, muss das Wissen über Daten in einer „skalierbaren“ Form festgehalten werden.

Ein Datenkatalog ist kein Allzweckwerkzeug

Das Thema Datenkultur kann auch das Team betreffen, das mit der Steuerung des Projekts betraut ist. Insbesondere eine ungenaue Kenntnis der Tools und ihrer Zwecke kann irreführend sein und zu suboptimalen oder letztlich nachteiligen Entscheidungen führen.

Der Datenkatalog ist eine zentrale Softwarekomponente des Metadaten-Managements, gleichzeitig jedoch nicht die einzige. Es sollte daher nicht versucht werden, alles mit diesem Tool zu erledigen. Dies mag offensichtlich erscheinen, aber in der Praxis kann es schwierig sein, die Grenzen zu erkennen, jenseits derer eine spezialisierte Drittanbieterlösung erforderlich wird.

Der Datenkatalog ist das Herzstück der Dokumentation und sollte die Anlaufstelle für jeden Mitarbeiter sein, der Fragen zu einem datenbezogenen Konzept hat. Das macht den Katalog jedoch nicht zur Lösung, in der alles zu finden sein muss. Diese Nuance ist wichtig, denn Informationen zu referenzieren oder zusammenzufassen bedeutet nicht unbedingt, jegliche existierende Information mit aufzunehmen.

In der Tat gibt es viele unterschiedliche Themen, die bei der Vorbereitung eines Metadaten-Management-Projekts auftauchen: die technische und/oder funktionale Modellierung, die Verwaltung der Berechtigungen für die Daten, der Workflow für den Datenzugriff etc. All diese Themen sind wichtig, wertvoll und mit den Daten verbunden. Dennoch sind sie nicht dafür vorgesehen, von einer Lösung zur Dokumentation Ihrer Datenbestände verwaltet zu werden.

Es ist daher wichtig, zunächst diese Bedürfnisse zu ermitteln, eine Strategie zu definieren, um sie zu erfüllen – unterstützt durch ein geeignetes Tooling – und dieses Tooling dann in ein größeres Ökosystem zu integrieren, zu dem der Datenkatalog gehört.

Die 10 Fallstricke bei der Implementierung eines Datenkatalogs

Wenn Sie mehr über die für ein erfolgreiches Datenkatalog-Projekt zu vermeidende Fallstricke erfahren möchten, laden Sie sich unser kostenloses eBook herunter!

Die 10 Fallstricke Bei Der Implementierung Eines Datenkatalogs Mockup

Data Curation: Eine wichtige Herausforderung, um Ihre Datenbestände nutzbar zu machen

Data Curation: Eine wichtige Herausforderung, um Ihre Datenbestände nutzbar zu machen

Es ist gut, über eine große Menge an Daten zu verfügen. Sie im Alltag pragmatisch, intelligent und raffiniert zu nutzen, ist aber noch besser! Um das zu erreichen, müssen Sie in Ihrem Unternehmen eine echte Datenkultur schaffen. Die Grundlage dieser Kultur ist die Data Curation.

90 % der weltweiten Daten wurden in den letzten zwei Jahren erstellt. Mit dem exponentiellen Wachstum vernetzter Geräte werden die Unternehmen mit einer fatalen Tatsache konfrontiert: Unsere Fähigkeit, Daten zu erzeugen, wird unsere Fähigkeit, sie zu verwalten und zu nutzen, bei weitem übertreffen.

Und das wird wohl auch nicht besser werden! Laut den im Digital Economy Compass 2020 von Statista veröffentlichten Schätzungen hat sich das Volumen der jährlich weltweit erzeugten digitalen Daten in den letzten zehn Jahren mehr als verzwanzigfacht und wird 2021 die Schwelle von 50 Zettabyte überschreiten!

Vor diesem Hintergrund ist es nicht verwunderlich, dass die meisten Unternehmen derzeit nur 12 % der ihnen zur Verfügung stehenden Daten analysieren können! Denn der Grund für das Erfassen, Speichern und Sichern von Daten ist vor allem der geschäftliche Wert, den man vermutlich aus ihnen ziehen kann.

Mit dieser Herausforderung setzt sich das Konzept der Data Curation (Datenkuratierung) auseinander: der entscheidende Schritt, um das Potenzial des umfangreichen Datenbestands einer Organisation auszuschöpfen.

Data Curation: Ein Definitionsversuch

Wenn man die Definition des INIST (Institut de l’Information Scientifique et Technique), das dem CNRS angegliedert ist, zugrunde legt,

„bezeichnet man als Kuratieren alle Aktivitäten und Vorgänge, die für eine aktive Verwaltung digitaler Forschungsdaten über ihren gesamten Lebenszyklus hinweg notwendig sind. Ziel ist es, sie dauerhaft zugänglich, teilbar und wiederverwendbar zu machen. Im Lebenszyklus von Daten können drei Beteiligte identifiziert werden: die Ersteller, meist Forscher, die „Kuratoren“ und die Nutzer.“

Anders ausgedrückt: Die Aufgabe der Data Curation besteht darin, in einem Datenkatalog diejenigen Daten zu identifizieren, die nutzbar gemacht und verarbeitet werden können, und sie in einem zweiten Schritt den Nutzern zur Verfügung zu stellen, die möglicherweise die besten Erkenntnisse daraus ziehen können.

Um eine effektive und relevante Datenkuratierung einzuführen, muss man sich zunächst auf eine genaue Katalogisierung der verfügbaren Daten stützen. Diese anfängliche Katalogisierung bildet die Grundlage für ein pragmatisches und operatives Datenmanagement.

Sobald die Regeln für die Governance festgelegt sind, muss die gesamte Aufmerksamkeit auf die Nutzer der Daten gerichtet werden. Daten sind ein Rohstoff, der nur dann wertvoll ist, wenn er richtig verarbeitet wird. Diese Verarbeitung muss aber als eine Antwort auf die Anforderungen des Nutzers gedacht werden.

Letzterer ist der Initiator eines Data Curation Projekts.

Die Datenkuratierung ist ein iterativer und kontinuierlicher Prozess zur Nutzung von Daten, der sich von allen wichtigen Aufgaben der Data Governance (vom Qualitätsmanagement über den Datenschutz bis hin zum Lebenszyklusmanagement) unterscheidet.

Data Curation: Eine unverzichtbare Voraussetzungen, die unbestreitbare Vorteile bietet

Data Curation ist eine Perspektive für die schnelle und massive Entwicklung der Datenkultur in Ihrer Organisation. Die Erstellung eines Datenverwaltungs- und Datenkuratierungsplans ermöglicht es zunächst, die erzeugten Daten zu erfassen. Dann können die relevantesten ausgewählt und mit Metadaten erweitert werden, die erforderlich sind, damit auch Fachanwender sie verstehen und wiederfinden.

Alle Mitarbeiter im Unternehmen können dann ihre Wahl, ihre Entscheidungen, ihre Strategien und Methoden auf der Grundlage eines systematischen Rückgriffs auf Daten begründen, ohne über spezielle Kompetenzen verfügen zu müssen.

Ziel ist es, die Voraussetzungen dafür zu schaffen, dass Daten systematisch als Grundlage für jedes Projekt und jeden Vorgang genutzt werden und nicht nur von Data-Science-Teams oder Datenexperten verwendet werden.

Um Ihre Strategie der Datenkuratierung effektiv umzusetzen, müssen Sie sich also auf Elemente stützen, die für eine gute Verwaltung Ihrer Datenbestände unerlässlich sind. Der Reaktorkern beschränkt sich nicht auf die Datenkataloge!

Auch wenn sie unverzichtbar ist und direkt aus Ihrer Arbeit bei der Datenkatalogisierung hervorgeht, spielt die Metadaten-Governance eine noch wichtigere Rolle. Dank dieser Metadaten können die Nutzer leichter mit den Datenportfolios interagieren, und zwar in natürlicher Sprache.

Mit Data Curation können Sie endgültig den Weg zu einer datengetriebenen Dynamik einschlagen!

Welche Rolle spielen Data Stewards?

Welche Rolle spielen Data Stewards?

Der Data Steward ist der maßgebliche Datenansprechpartner im Unternehmen. Wie ein echter Dirigent ist er der unumgängliche Zugangspunkt für den Zugriff auf die Daten. Er verfügt über das technische und fachliche Wissen zu Daten, weshalb er innerhalb einer Organisation als der „Meister der Daten“ bezeichnet wird! In diesem Artikel erfahren Sie mehr über seine Rolle, seine Aufgaben und seine Verantwortlichkeiten.

Angesichts der Herausforderung, die Daten sowohl in Bezug auf ihre Nutzung als auch auf ihre ständige Optimierung darstellen, müssen verschiedene Schlüsselakteure ihre Anstrengungen und ihr Know-how bündeln.

Wir haben vor kurzem über die Berechtigungen und Unterschiede zwischen einem Data Engineer und einem Data Architect gesprochen. Zuvor hatten wir die Aufgaben des Data Analysts sowie die des Data Product Managers und des Chief Data Officers betrachtet. Alle diese Spezialisten haben die Aufgabe, die Daten zum Sprechen zu bringen, ihnen Leben einzuhauchen, sei es durch ihre Organisation, durch die Festlegung einer Strategie und manchmal auch durch ihre Bearbeitung. Aber alle haben eine gemeinsame Anforderung und einen gemeinsamen Anspruch: mit qualitativ hochwertigen Daten zu arbeiten.

Die Sicherstellung der Datenqualität ist daher die wichtigste Aufgabe des Data Stewards, die letztlich alle Prozesse und Entscheidungen der Datenstrategie eines Unternehmens beeinflusst.

Der Data Steward besitzt zahlreiche Kompetenzen

Um dieses Ziel zu erreichen, muss der Data Steward, der manchmal auch als Datenkoordinator bezeichnet wird, über starke Kompetenzen verfügen und sich mit den verschiedenen Arten und Formaten von Daten wohlfühlen.

Da er als Sammelpunkt für alle im Unternehmen erzeugten und genutzten Daten fungiert, muss er außerdem die Qualität der Daten ständig im Auge behalten, um vorrangige Bereinigungs- und Normalisierungsmaßnahmen zu identifizieren. 

Der Data Steward ist vielseitig, besitzt zahlreiche Kompetenzen und wird häufig als der wichtigste Ansprechpartner einer Organisation in Sachen Daten angesehen. Dies geht so weit, dass er oft als „Meister der Daten“ bezeichnet wird. Um der Aufgabe des Data Stewardships, die er verkörpert, gerecht zu werden, muss dieser engagierte Experte an allen Fronten präsent sein, da er eine zentrale Rolle bei der erfolgreichen Umsetzung einer Datenstrategie spielt.

 

Welche Rolle spielt der Data Steward in einem Unternehmen?

Die Unternehmen organisieren sich rund um ihre Daten neu, um einen Mehrwert zu schaffen und schließlich aus diesem Rohmaterial Innovationen zu entwickeln. Data Stewards haben die Aufgabe, die Daten aus den Datensystemen des Unternehmens zu steuern. Sie müssen die ordnungsgemäße Dokumentation der Daten sicherstellen und dafür sorgen, dass ihre Nutzer, wie z. B. Data Scientists oder Projektmanager jederzeit einfach auf sie zugreifen können

Die wichtigste Rolle des Data Stewards besteht darin, den Lebenszyklus aller verfügbaren Daten zu überwachen, um sicherzustellen, dass sie stets von optimaler Qualität sind. Hinter dem Begriff der Datenqualität steht auch der Begriff der Verfügbarkeit. Der Data Steward trägt durch seine Arbeit im Bereich der Datenqualität auch dazu bei, dass die Fachteams leicht auf die benötigten Daten zugreifen können.

Um dem Begriff Data Stewardship seine volle Bedeutung und Tragweite zu verleihen, muss der „Meister der Daten“ in der Lage sein, als Bindeglied zwischen allen Geschäftsbereichen innerhalb eines Unternehmens zu fungieren, nicht nur mit den Datenteams.

In enger Zusammenarbeit mit den Geschäftsbereichen und in ständiger Partnerschaft mit den IT-Teams helfen Data Stewards dabei, Daten zu identifizieren, sie zu sammeln, aber auch zu validieren und zu strukturieren.  Mithilfe ihrer ausgeprägten Kommunikationskompetenz können sie die Verantwortlichen sowie die Personen, die über die Daten Bescheid wissen, identifizieren, die mit den Daten verbundenen Informationen sammeln, sie zentralisieren und dieses Wissen dauerhaft im Unternehmen sichern. Genauer gesagt bringen Data Stewards Metadaten in Erfahrung, d. h. sie erstellen eine strukturierte Sammlung von Informationen, die einen Datensatz beschreiben. Sie verwandeln diese abstrakten Daten in konkrete Assets für das Unternehmen.

Es gibt keine spezielle Ausbildung zum Data Steward, aber das am häufigsten gesuchte Profil ist das eines erfahrenen Fachanwenders, der mit den Techniken des Datenmanagements und den Prozessen der Datenverarbeitung vertraut ist.

 

Welche Aufgaben und Verantwortlichkeiten hat ein Data Steward?

Der Data Steward muss ein breites Spektrum an Aufgaben erfüllen. Er muss sich im Alltag vor allem mit dem Datenmanagement im weitesten Sinne des Wortes befassen und insbesondere dafür sorgen, dass die Prozesse der Informationsbeschaffung und -verarbeitung reibungslos ablaufen. Daten zu finden und zu kennen, eine gewisse Disziplin im Umgang mit Metadaten durchzusetzen und die Bereitstellung der Daten für die Mitarbeiter zu erleichtern: Dies sind unter anderem einige der Themen, mit denen sich ein Data Steward befassen muss.

Sobald die Daten gesammelt sind, ist es wieder der Data Steward, der sich um die optimale Speicherung und Weiterleitung an die Fachteams kümmert, nachdem er die Voraussetzungen für eine präzise Indexierung der Daten geschaffen hat. Da der Data Steward einer der wichtigsten Akteure für die Datenqualität ist, übernimmt er auch eine kritische Aufgabe: die Bereinigung der Daten, indem er Duplikate entfernt und unnötige Daten aussortiert. Um dies zu erreichen, muss der Data Steward dafür sorgen, dass die Dokumentation der von ihm verwalteten Daten auf dem neuesten Stand ist.

Da der Data Steward auch dafür verantwortlich ist, dass alle Ihre Teams Zugang zu den Daten haben, achtet er kontinuierlich auf die Sicherheit der  Datenbestände, sowohl in Bezug auf externe Bedrohungen als auch auf interne Gefahren (z. B. durch Missgeschicke einzelner Mitarbeiter). Der Data Steward ist ein vielseitiger Akteur, der zu einer optimierten Data Governance beiträgt, indem er die Daten operativ überwacht, die Dokumentation der Daten koordiniert und die Compliance optimiert.

Warum hilft der Data Catalog Unternehmen, ihre Data Stewardship-Programme erfolgreich umzusetzen?

Warum hilft der Data Catalog Unternehmen, ihre Data Stewardship-Programme erfolgreich umzusetzen?

Wenn Sie in Ihrem Unternehmen ein Data-Stewardship-Programm einführen, können Sie nicht nur die Qualität Ihrer Daten sicherstellen, sondern auch, dass sie von allen Ihren Mitarbeitern einfach und effizient genutzt werden können. Als Schlüsselfigur bei der Data Governance und dem Datenmanagement benötigt der Data Steward spezielle Werkzeuge, insbesondere den Datenkatalog. Begriffsklärung:

Daten sind in Unternehmen von zunehmend strategischer Bedeutung, und das nicht nur in den großen Konzernen! Denn bei der Festlegung von Geschäftsstrategien, der Steuerung des Vertriebs oder der Organisation der Produktion stellt die Nutzung von Daten einen entscheidenden Wettbewerbsvorteil dar. Um ihr volles Potenzial zu entfalten, müssen Daten verlässlich, qualitativ hochwertig und gut organisiert sein. Diese Merkmale lassen sich ganz klar einer Disziplin zuordnen: dem Data Stewardship.

Der Data Steward, der auch als Meister der Daten bezeichnet wird, fungiert als Garant für die optimale Nutzung Ihrer Daten. Wie genau? Indem Sie alle Daten unabhängig von ihrer Quelle in einer Umgebung zentralisieren, auf die alle Fachbereiche einfach, intuitiv und im laufenden Betrieb zugreifen können. Ein Data-Stewardship-Programm beruht gleichzeitig auf einer strengen Methodik, einem umfassenden Überblick über die verfügbaren Daten und dem Streben nach Rationalisierung, um eine starke Datenkultur in den Unternehmen zu entwickeln. Trotz seines Überblicks, Verständnisses und seiner Methodik muss sich der Data Steward dennoch auf die richtigen Werkzeuge stützen, um seine Aufgaben erfüllen zu können: Der Datenkatalog (oder Data Catalog) ist eines der wichtigsten Werkzeuge für ein erfolgreiches Data-Stewardship-Projekt.

Die Ziele des Data Catalogs

Ein Data Catalog nutzt vor allem Metadaten – Daten über Daten – um ein Repository für alle Datenbestände eines Unternehmens zu erstellen. Diese über verschiedene Quellen (Big Data, Cloud-Dienste, Excel-Tabellen usw.) gesammelten Metadaten werden automatisch gescannt, sodass die Benutzer des Katalogs nach Informationen wie Verfügbarkeit, Aktualität oder Qualität eines Datenbestands suchen und diese abrufen können. In einem Datenkatalog werden die gesammelten Metadaten zentralisiert und vereinheitlicht, sodass sie von IT-Teams und Business-Funktionen innerhalb der Organisation gemeinsam genutzt werden können. Diese einheitliche Sicht auf die Daten bringt viele Vorteile mit sich und Sie können:

  • Eine Datenkultur aufrechterhalten
  • Die Data Discoverage beschleunigen
  • Eine agile Data Governance aufbauen
  • Den Wert der Daten maximieren
  • Besser und schneller produzieren
  • Ein gutes Maß an Datenkontrolle gewährleisten

Welche Vorteile bietet der Datenkatalog den Data Stewards?

Vom Import neuer Datenquellen über die Verfolgung von Datenaktualisierungen – durch die Fähigkeit des Datenkatalogs, Metadaten in Echtzeit und automatisch zu verfolgen und zu steuern, können Data Stewards ihre Effizienz steigern. Denn ein Datenkatalog bietet einen vollständigen Überblick über Ihre Daten, von ihrem Ursprung bis hin zu allen Transformationen, die sie im Laufe der Zeit durchlaufen. Der Einsatz von Datenkatalogen im Rahmen eines Data-Stewardship-Programms bietet unter anderem vier wesentliche Vorteile:

Vorteil Nr. 1: Eine aktuelle Dokumentation aufrechterhalten

Ihre Daten sind lebendig. Sie werden gesammelt, nutzbar gemacht, verarbeitet, erweitert … Um ein vollständiges Verständnis Ihrer Datenbestände zu erhalten, benötigen Sie eine aktuelle Dokumentation, die Ihnen Auskunft darüber gibt, aus welchen Quellen die Daten stammen und wie sie genutzt werden. Der Datenkatalog soll Ihnen helfen, diese Dokumentation auf dem neuesten Stand zu halten.

Der Vorteil von Zeenea: Unser Katalog erfasst und sammelt automatisch Metadaten über unsere APIs und Scanner, um stets sicherzustellen, dass Ihre Daten auf dem neuesten Stand sind. Visualisieren Sie den Ursprung und die Transformationen Ihrer Daten mithilfe unserer intelligenten Lineage-Funktionen.

Vorteil Nr. 2: Die Datenqualität sicherstellen

Die wichtigste Aufgabe eines Datenkatalogs ist es, mithilfe von Metadaten einen klaren Überblick über Ihre Daten zu behalten. Definition, Struktur, Quelle, Verwendung, zu befolgende Verfahren … naturgemäß trägt die Verwaltung der Metadaten durch den Datenkatalog dazu bei, die Datenqualität zu gewährleisten.

Der Vorteil von Zeenea: Mit Zeenea können Data Stewards flexible Metamodell-Templates für vordefinierte und benutzerdefinierte Objekttypen erstellen. Mit einer Drag-and-Drop-Funktion können Sie Eigenschaften, Tags und andere Felder in alle Dokumentationsvorlagen des Katalogs schieben.

Vorteil Nr. 3: Die Datenvorschriften einhalten

Die Einhaltung der Datenvorschriften ist ein entscheidendes Thema bei einem Data-Stewardship-Projekt. Der Datenkatalog leistet durch seine Fähigkeit, Daten zu organisieren und sie in einer eindeutigen, sicheren und lesbaren Umgebung zu zentralisieren, einen Beitrag, diese regulatorischen Anforderungen zu erfüllen.

Der Vorteil von Zeenea: Unser Data Catalog gewährleistet die Einhaltung aller gesetzlichen Vorschriften, indem er personenbezogene Datenbestände automatisch identifiziert, klassifiziert und unternehmensweit verwaltet. Mithilfe intelligenter Empfehlungen erkennt unser Katalog personenbezogene Daten und macht Vorschläge, welche Assets getaggt werden müssen.

Vorteil Nr. 4: Den Lebenszyklus der Daten überwachen

Ihr Data-Stewardship-Projekt, das zwischen Governance, Qualität und Sicherheit angesiedelt ist, setzt voraus, dass Sie den Lebenszyklus Ihrer Daten in Echtzeit verfolgen. Der Datenkatalog ist die Antwort auf diese Herausforderung, indem er Ihnen die Möglichkeit bietet, alle Aktivitäten, die sich auf Ihre Daten auswirken, zu überwachen.

Der Vorteil von Zeenea: Zeenea bietet ein Dashboard für Data Stewards, mit dem sie die mit Metadaten verbundenen Aktivitäten verfolgen und überwachen können. Überprüfen Sie die Vollständigkeit Ihrer Dokumentation, die am häufigsten aufgerufenen und gesuchten Objekte in Ihrem Katalog, den Konnektivitätsstatus Ihres Katalogs und vieles mehr.

Organisation, Wissen, Transparenz, Skalierbarkeit – der Datenkatalog ist das ideale Tool, um Ihr Data Stewardship-Projekt zu begleiten!

Starten Sie Ihr Data Stewardship-Programm mit Zeenea

Zeenea bietet eine Metadaten-Management-Lösung, mit der Data Stewards die Herausforderung immer größerer Datenmengen bewältigen können. Unsere Lösung hilft Organisationen, den Wert ihrer Daten zu maximieren, indem sie den Zeitaufwand für komplexe und zeitraubende Dokumentationsaufgaben reduziert und Datensilos aufbricht, um das Wissen über die Unternehmensdaten zu zentralisieren.

Kontaktieren Sie uns noch heute für eine kostenlose und persönliche Demo mit einem unserer Experten :

Was ist ein Data Catalog?

Was ist ein Data Catalog?

Es versteht sich von selbst, dass Unternehmen, die aus den Unmengen an Informationen, die sie erzeugen, maximalen Nutzen ziehen wollen, sich mit leistungsfähigen Tools für deren Verwaltung und Verwertung ausstatten müssen. Denn große Datenmengen bedeuten auch eine große Verantwortung! Diese Unternehmen müssen insbesondere Lösungen implementieren, die es ihren Datenteams (aber nicht nur diesen) ermöglichen, den Datenbestand zu finden, zu verwalten und ihm zu vertrauen.

Eine dieser Lösungen nennt sich Data Catalog! Mit einem Datenkatalog, der zur Vereinheitlichung aller Daten eines Unternehmens geschaffen wurde, können die Datenmanager wie auch die Datennutzer ihre Produktivität und Effizienz steigern.

Bereits 2017 erklärte Gartner, dass Datenkataloge „das neue schwarze Gold im Bereich Datenmanagement und -analyse“ seien. In „Augmented Data Catalogs: Now an Enterprise Must-Have for Data and Analytics Leaders“, konnte man folgende Aussage lesen:

„Die Nachfrage nach Datenkatalogen wächst, da viele Organisationen nach wie vor Schwierigkeiten haben, sehr unterschiedliche und stark verteilte Daten zu finden, zu inventarisieren und zu analysieren.“

In diesem Artikel vermitteln wir Ihnen alles, was Sie über Datenkataloge wissen müssen – das unverzichtbare Tool für Unternehmen, die in Zukunft datengesteuert arbeiten wollen.

 

Was ist ein Data Catalog?

Bevor wir uns dem Thema Data Catalog zuwenden, ist es wichtig, das Konzept des Metadaten-Managements zu verstehen. Ein Datenkatalog nutzt vor allem Metadaten – Daten über Daten – um ein Repository für alle Datenbestände eines Unternehmens zu erstellen. Diese über verschiedene Quellen (Big Data, Cloud-Dienste, Excel-Tabellen usw.) gesammelten Metadaten werden automatisch gescannt, sodass die Benutzer des Katalogs nach Informationen wie Verfügbarkeit, Aktualität oder Qualität eines Datenbestands suchen und diese abrufen können.

Bei Zeenea definieren wir einen Data Catalog wie folgt:

„Ein Data Catalog ist ein detailliertes Verzeichnis aller in einer Organisation verfügbaren Daten-Assets sowie der Metadaten, mit deren Hilfe diese Assets genutzt werden können.“

 

Was ist das Ziel eines Data Catalogs?

Alle Themen rund um Daten werden oft als extrem technisch angesehen. Dennoch ist Dateninnovation nur möglich, wenn sie von möglichst vielen Menschen im Unternehmen gemeinsam angegangen wird. Das ist der eigentliche Zweck eines Datenkatalogs: den Zugang zu Daten demokratisieren.

Ein Data Catalog soll verschiedene Endbenutzer bedienen – Data Analysts, Data Stewards, Data Scientists, Business Analysts und viele andere – die unterschiedliche Erwartungen, Bedürfnisse, Profile und Wege haben, Daten zu verstehen. Ein Data Catalog muss sich dann an alle anpassen: Es darf kein technisches Fachwissen notwendig sein, um den Datenbestand des Unternehmens aufzufinden, zu durchsuchen und zu verstehen.

 

Was sind die Vorteile eines Data Catalogs?

Wie bereits erwähnt, werden in einem Datenkatalog die gesammelten Metadaten zentralisiert und vereinheitlicht, sodass sie von IT-Teams und Business-Funktionen innerhalb der Organisation gemeinsam genutzt werden können. Diese einheitliche Sicht auf die Daten bringt viele Vorteile mit sich und ermöglicht:

Eine Beschleunigung der Data Discovery

Da jeden Tag Tausende von Daten erstellt werden, werden Unternehmen mit Informationen konfrontiert, die sie weder verstehen noch richtig verwalten können. Jüngste Studien zeigen, dass Data-Science-Teams immer noch 80 % ihrer Zeit mit der Vorbereitung und Bereinigung von Daten verbringen, anstatt sie zu analysieren. Durch den Einsatz eines Data Catalogs in Ihrer Organisation wird die Geschwindigkeit, mit der die Datenteams ihre Daten entdecken können, um das Fünffache erhöht. So können sich Ihre Teams auf das Wesentliche konzentrieren: ihre Datenprojekte so schnell wie möglich fertigzustellen.

Eine Datenkultur aufrechterhalten

Ebenso wie die Organisations- oder Unternehmenskultur bezieht sich die Datenkultur auf ein Arbeitsumfeld, in dem Entscheidungen auf der Grundlage empirischer und emphatischer Beweise getroffen werden. Ein Data Catalog ermöglicht es, das Wissen über Daten nicht mehr nur auf eine Gruppe von Experten zu beschränken und schafft eine bessere Zusammenarbeit an ihren Datenbeständen.

Einer agile Data Governance aufbauen

Anstatt komplexe und schwer zu wartende Prozesse auf vermeintliche Informationen anzuwenden, ermöglichen Datenkataloge eine Data Governance mit einem agilen Bottom-up-Ansatz. Ein Datenkatalog ermöglicht es Datennutzern, ein Prozessregister zu erstellen, gesetzliche Verpflichtungen zu dokumentieren, den Lebenszyklus von Daten zu verfolgen sowie sensible Informationen zu identifizieren. All dies in einem einzigen Repository.

Den Wert der Daten maximieren

Durch die Zusammenführung aller Daten eines Unternehmens auf einer Referenz-Datenplattform wird es möglich, diese Assets zu verknüpfen und leichter einen Wert daraus zu ziehen. Die Zusammenarbeit von technischen und fachlichen Teams im Data Catalog ermöglicht Innovationen, die auf tatsächlichen Marktbedürfnisse reagieren.

Besser und schneller produzieren

Mehr als 70 % der Zeit, die für die Datenanalyse aufgewendet wird, wird mit „Datenkonflikt“-Aktivitäten verbracht. Der Katalog vereinfacht die Suche nach Daten, die Identifizierung von Personen, die über das jeweilige Wissen verfügen, und damit das Treffen intelligenter Entscheidungen.

Ein gutes Maß an Datenkontrolle gewährleisten

Mit falsch interpretierten oder fehlerhaften Daten setzen sich Unternehmen der Gefahr aus, Entscheidungen auf fehlerhafte Informationen zu stützen. Datenkataloge ermöglichen den Zugriff auf stets aktuelle Daten, und die Nutzer dieser Daten haben stets die Gewissheit, dass sie zuverlässige und verwertbare Informationen nutzen können.

 

Was sind die zentralen Funktionen eines Data Catalogs?

Das Metamodell

Ein Data Catalog muss die Metadaten der Datenquellen eines Unternehmens automatisch erfassen und aktualisieren. Mithilfe eines flexiblen Metamodells müssen die Administratoren des Katalogs in der Lage sein, Properties hinzuzufügen, zu konfigurieren und zu überlagern, um katalogisierte Datensätze zu dokumentieren. Mit diesem Ansatz bietet der Katalog eine einfache und modulare Möglichkeit, Dokumentationsmodelle zu konfigurieren, die den Zielen und Prioritäten des Unternehmens entsprechen.

what-is-a-data-catalog-metamodel

Die Suchmaschine

 

Eines der Hauptmerkmale eines Datenkatalogs ist seine Suchmaschine. Alle indizierten Metadaten müssen über ein Suchfeld durchsuchbar sein. Durch die Verwendung von Keywords muss ein Datenkatalog in der Lage sein, präzise Ergebnisse als Antwort auf eine Suchanfrage anzuzeigen. Außerdem muss er den Nutzern Möglichkeiten zur Verfügung stellen, ihre Suchergebnisse zu filtern und sie gleichzeitig für ihr Profil und nach ihren Wünschen zu optimieren
what-is-a-data-catalog-search-engine-1

Der Knowledge Graph

Ein Knowledge Graph ist für jedes Datenkatalog-Projekt von entscheidender Bedeutung. Der Knowledge Graph ermöglicht die Darstellung der verschiedenen Konzepte und der Verbindungen zwischen den Objekten (semantisch oder statisch). Der Knowledge Graph eines Datenkatalogs liefert den Nutzern umfassende und ausführliche Suchergebnisse, optimierte Data Exploration, intelligente Empfehlungen und vieles mehr.

 

what-is-a-data-catalog-knowledge-graphs

Die Data Lineage

Mit Data Lineage ist es möglich, den Ursprung und die Veränderungen eines Datensatzes im Laufe der Zeit in seiner Gesamtheit zu visualisieren. So kann man verstehen, woher die Daten kommen, wann und wo sie sich trennen und mit anderen Daten verschmelzen. Diese Veränderungen und Verarbeitungen, die mit den Daten vorgenommen werden, sind unerlässlich, um die DSGVO und andere Datenvorschriften einzuhalten.

what-is-a-data-catalog-data-lineage

Das Business Glossary

Mit einem Business Glossary können Datenkonsumenten ein gemeinsames Fachvokabular verwalten und es im gesamten Unternehmen zugänglich machen. Diese unverzichtbare Funktion gibt den mit den Daten verbundenen Begriffen einen Sinn und setzt sie in einen eindeutigen Kontext.

what-is-a-data-catalog-business-glossary

Welche Anwendungsfälle gibt es für einen Datenkatalog?

Für den Chief Data Officer

Der Chief Data Officer spielt eine zentrale Rolle für die Datenstrategie eines Unternehmens. Seine Aufgabe ist es, den Datenbestand zu beherrschen und den Zugang zu ihm zu erleichtern, um das Ziel eines datengetriebenen Unternehmens zu erreichen. Ein Data Catalog hilft ihm:

  • die Zuverlässigkeit und den Wert der Unternehmensdaten zu gewährleisten
  • die Data Fluency in der Organisation zu stärken
  • die Dokumentation des Datenbestands nutzbar zu machen
  • eine Datendemokratie einführen
  • einen Compliance-Prozess einzuleiten

 

Für den Data Steward

Der Data Steward wird aufgrund seiner technischen und fachlichen Kompetenz als wichtigster Ansprechpartner für alle Daten in seinem Bereich anerkannt und hat oft den Spitznamen „Master of Data“! Ein Data Catalog ermöglicht es ihm:

  • das Datenwissen auf einer einzigen Plattform zu zentralisieren
  • die Dokumentation auszubauen
  • eine Kommunikation mit den Datennutzern aufzubauen
  • den Wert der Daten zu benennen
  • ein Metadaten-Management einzuführen

 

Für den Data Scientist

Um ihre Aufgaben zu erfüllen, müssen Endnutzer ebenso wie Data Scientists in der Lage sein, die Daten für ihre spezifischen Anwendungsfälle schnell zu finden und zu verstehen. Ein Data Catalog hilft ihnen:

  • Daten sehr einfach zu finden, unabhängig davon, wo sie gespeichert sind
  • die Historie der Datensätze und ihre Lineage einzusehen
  • den geschäftlichen Kontext der Daten zu verstehen
  • die Personen mit dem notwendigen Wissen zum jeweiligen Datensatz zu identifizieren
  • problemlos mit Kolleginnen und Kollegen zusammenzuarbeiten

 

Der Nutzungszyklus eines Data Catalogs

Ein Datenkatalog ist in den verschiedenen Phasen Ihrer Projekte äußerst hilfreich:

Ein Datenkatalog in der Implementierungsphase

Verbindung zu Datenquellen – Ein Data Catalog verbindet sich mit all Ihren Datenquellen. Verbinden Sie Ihre Lösungen für Datenintegration, Vorbereitung, Visualisierung, CRM usw.

Ein Datenkatalog in der Dokumentationsphase

Erstellung des Metamodells – Ein Data Catalog erfasst und aktualisiert die technischen und operativen Metadaten der Datenquellen des Unternehmens. Es ermöglicht das Hinzufügen, Konfigurieren oder Überlagern von (obligatorischen oder nicht obligatorischen) Informationen zu katalogisierten Datensätzen.

Ein Datenkatalog in der Discovery-Phase

Verstehen der Daten – Mit einem Data Catalog sind die Nutzer – mit oder ohne technische Kenntnisse – in der Lage, die Unternehmensdaten vollständig zu verstehen.

Definition der Daten – Ein Datenkatalog ermöglicht es den Datenverantwortlichen – wie z. B. DSBs oder CDOs – die relevanten Daten, die verwendet werden sollen, richtig zu definieren. Mithilfe von Metadaten können Datenmanager ihre Datensätze leicht dokumentieren, sodass ihre Teams auf kontextualisierte Daten zugreifen können.

Data Mining – Entdecken und Sammeln der verfügbaren Daten in einem Data Catalog. Indem sie alle Unternehmensdaten in einem einzigen Repository katalogisieren, können die Datennutzer sicher sein, dass ihre Daten vertrauenswürdig und verwertbar sind.

Ein Datenkatalog in der Kollaborationsphase

Kommunikation mittels Daten – Ein Data Catalog ermöglicht es den Nutzern, die Kontrolle über die Daten zu behalten. IT- und Fachabteilungen sind in der Lage, verschiedene Datenprojekte zu verstehen und über sie zu kommunizieren. Mithilfe von Kollaborationsfunktionen, wie z. B. Diskussionen, werden Daten zu einem Thema, über das alle Personen im Unternehmen sprechen können.

 

Starten Sie jetzt in Ihr Abenteuer mit dem Zeenea Data Catalog

Zeenea ist eine zu 100 % Cloud-basierte Lösung, die weltweit mit wenigen Klicks verfügbar ist. Wenn Sie sich für Zeenea entscheiden, bieten Sie Ihren Datenteams die beste Umgebung, um Ihre Datenbestände zu finden, zu verstehen und zu nutzen.

Entdecken Sie unsere beiden Anwendungen:

Zeenea Studio – Die Anwendung für Ihre Datenmanagement-Teams für Verwaltung, Pflege und Erweiterung der Dokumentation eines Datenbestands.

Zeenea Explorer – Bietet den Benutzern eine benutzerfreundliche Oberfläche und personalisierte Discovery-Pfade für mehr Effizienz im Unternehmen.

Wenn Sie eine Demo unserer Produkte buchen oder weitere Informationen zu unserem Data Catalog erhalten möchten:

Welche Arten von Metadaten gibt es?

Welche Arten von Metadaten gibt es?

Es ist unerlässlich, über eine große Menge an Daten zu verfügen. Es ist aber ebenso wichtig zu wissen, um welche Art von Daten es sich handelt, woher sie kommen und wie sie genutzt werden können. Und hier kommen Metadaten ins Spiel. Wie können diese also optimiert und sinnvoll genutzt werden? Lesen Sie unseren Leitfaden.

Daten sind unerlässlich, um umfassende Kenntnisse über Ihren Markt, Ihre Branche, Ihre Kunden oder auch Ihre Produkte zu erlangen. Um das volle Potenzial dieser Daten auszuschöpfen, muss man sich jedoch mit ihren Metadaten beschäftigen. Anders ausgedrückt: Sie benötigen Daten über Ihre Daten.

Denn wenn Sie einen genauen Überblick darüber haben, wodurch, wann und über welche Quelle die Daten generiert wurden, können Sie die Informationen kontextualisieren. Metadaten sind sozusagen strukturierte Informationen, die eine Informationsquelle beschreiben, erklären, lokalisieren oder den Zugang, die Nutzung oder die Verwaltung einer Informationsquelle erleichtern.

Aber lassen Sie sich davon nicht täuschen. Die Rolle der Metadaten beschränkt sich nicht darauf, den Ursprung der Daten zu verstehen.

Gut verwaltet und richtig strukturiert können Sie mithilfe von Metadaten auch herausfinden, wie Sie die Ihnen zur Verfügung stehenden Informationen am besten nutzen können, um die Ziele zu erreichen, die Sie sich gesetzt haben.

Wozu dienen Metadaten also wirklich?

Metadaten sind überall. Nicht nur in Kundendateien oder in den Archiven Ihrer Websites. Wenn Sie mit einem Smartphone ein Foto machen, werden Ihren Bildern sofort Metadaten hinzugefügt: Datum, Uhrzeit, Aufnahmeort, Blende usw. All diese Informationen können sich als wertvoll erweisen, wenn Sie Ordnung in Ihr virtuelles Fotoalbum bringen möchten.

Im Rahmen des Datenprojekts Ihres Unternehmens ist es genau das Gleiche!

Metadaten sind zwar notwendig, um wirklich zu verstehen, woher Ihre Daten kommen und wie sie verwendet werden können, aber das ist nicht ihr einziger Nutzen. Denn Metadaten sind, wenn sie richtig verwaltet werden, ein wichtiger Hebel für die Organisation und Strukturierung der Informationen, die Sie im Geschäftsalltag nutzen wollen. Eine optimale Verwaltung der Metadaten bildet daher die Grundlage für ein datenzentriertes Transformationsprojekt.

Typologien von Metadaten

Wenn man den allgemeinen Begriff Metadaten verwendet, um die Informationen über die Daten, die Ihnen zur Verfügung stehen, zu beschreiben, muss man auch wissen, dass sie in verschiedene Typen eingeteilt werden können.

So muss zwischen beschreibenden Metadaten, die eine Ressource allgemein darstellen, um die Identifizierung der verfügbaren Daten zu erleichtern, und strukturellen Metadaten unterschieden werden. Letztere geben Auskunft über die Zusammensetzung oder auch die Organisation einer Datenressource. Zur Beschreibung eines Datenportfolios gibt es auch administrative Metadaten, die Informationen über das Datum der Erstellung oder des Erwerbs der Daten liefern, aber auch über die Zugriffsrechte, die Laufzeit und die mögliche Nutzung.

Neben diesen sogenannten generischen Metadaten kann ein breites Spektrum an Metadaten hinzugefügt werden. Sie können Auskunft über die fachspezifischen Anwendungen und Nutzungen der Informationen geben, über technische Aspekte oder auch die beschreibende Dimension der enthaltenen Informationen unterstützen.

Je größer die Datenmenge, über die Sie verfügen, und je vielfältiger die Quellen, aus denen die Daten stammen, desto stärker profitieren Sie von einer feingliedrigen Verwaltung der Metadaten.

Welche Tools eignen sich für das Metadaten-Management?

Um Ordnung in Ihre Metadaten zu bringen, aber auch um die Nutzung durch Ihre Mitarbeiter zu optimieren, ist ein Data Catalog von zentraler Bedeutung. Mit diesem Tool für die Verwaltung von Metadaten verfügen Sie über einen Index Ihrer Daten und Metadaten. So können Sie schnell erkennen, welche Informationsquellen Ihren Teams zur Verfügung stehen. Die Aufgabe des Data Catalogs geht jedoch noch weiter. Mit seiner Hilfe können Sie alle Ihre Datenbestände referenzieren, bei Bedarf den Zugriff darauf erleichtern und sogar thematische bzw. semantische Suchen durchführen.

Denken Sie immer daran, dass die Qualität Ihrer Metadaten die Qualität der Beschreibung Ihrer Daten beeinflusst, was sich direkt auf die Sichtbarkeit und Nutzbarkeit Ihrer Daten auswirkt.

Bei Zeenea haben wir innerhalb unseres Data Catalogs drei Arten von Metadaten definiert, für die wir im Folgenden einige Beispiele nennen:

 

  • Technische Metadaten: Sie beschreiben die Struktur eines Datensatzes und die mit der Speicherung verbundenen Informationen.
  • Geschäftliche Metadaten: Sie setzen die Datensätze in ihren geschäftlichen Kontext: Beschreibungen (Kontext und Verwendung), Eigentümer und Ansprechpartner, Tags und Properties, mit dem Ziel, eine den Datensätzen übergeordnete Taxonomie zu erstellen, die von unserer Suchmaschine indiziert wird. Business-Metadaten sind auch auf der schematischen Ebene eines Datensatzes zu finden: Beschreibungen, Tags oder auch der Grad der Vertraulichkeit der Daten pro Spalte..

  • Operative Metadaten: Sie geben Aufschluss darüber, wann und wie die Daten erstellt oder verändert wurden: statistische Analyse der Daten, Datum der Aktualisierung, Herkunft (Lineage), Menge, Kardinalität, ID der Verarbeitung, mit der die Daten erstellt oder verändert wurden, Status der Datenverarbeitung usw.

Was macht einen Datenkatalog “smart”? #5 – User Experience

Was macht einen Datenkatalog “smart”? #5 – User Experience

Ein Datenkatalog konsolidiert Millionen von Informationen unterschiedlichster Art – und sein Volumen wächst exponentiell. Diese Menge an Informationen bringt zwei große Herausforderungen mit sich:

  • Wie kann dieses Informationsvolumen gepflegt werden, ohne dass die Kosten fürs Metadaten-Management explodieren?
  • Wie findet man das passende Dataset für einen bestimmten Use Case?

Wir bei Zeenea glauben, dass ein Datenkatalog “smart” sein muss, um diese beiden Fragen zu beantworten, und zwar durch kluge technologische und konzeptionelle Vorkehrungen, die sich nicht auf die Integration von KI-Algorithmen beschränken. 

Wir haben fünf Bereiche identifiziert, in denen ein Datenkatalog smart sein kann – die meisten davon ohne Einsatz von Machine Learning:

    1. Modellierung des Metamodells
    2. Inventarisierung von Daten
    3. Metadaten-Management
    4. Suchmaschine
    5. User Experience

Unserer Meinung nach muss ein Datenkatalog auch in Bezug auf die User Experience für verschiedene Nutzergruppen, die mit ihm arbeiten, smart sein. Eine der größten Herausforderungen bei der Einführung eines Datenkatalogs ist dessen Akzeptanz durch diejenige, für die er letztendlich bestimmt ist – die Datennutzer. Die Nutzererfahrung spielt dabei eine entscheidende Rolle.

User Experience im Kontext von Datenkatalogen

Nutzererfahrung ist ein umfangreiches und komplexes Thema, das wir hier nicht erschöpfend behandeln können. Sie beruht hauptsächlich auf der Identifizierung von “Persona”, deren Verhalten und Ziele man zu modellieren versucht, um ihnen eine möglichst leistungsfähige und ergonomische grafische Benutzeroberfläche zu bieten. Im Kontext von Datenkatalogen ist die Charakterisierung von Persona problematisch, da es keine kanonische Organisation gibt – es handelt sich um ein universelles Werkzeug, das für Unternehmen jeder Größe, die in praktisch jeder Branche und weltweit tätig sind, von großem Wert ist.

Anstatt schwer greifbare Persona zu modellieren, kann man sich dem Thema nähern, indem man die oben erwähnte Herausforderung angeht – die Akzeptanz. Dabei können zwei große Nutzerpopulationen unterschieden werden:

  • Die Produzenten von Metadaten, die den Katalog befüllen und die Qualität der Inhalte überwachen – wir nennen sie allgemein Data Stewards;

  • Die Konsumenten von Metadaten, die den Katalog im Rahmen eines betrieblichen Ziels nutzen, das mit ihrer Funktion zusammenhängt – wir nennen sie einfach Nutzer.

Diese beiden Populationen sind natürlich nicht völlig voneinander getrennt: Manche Data Stewards, die vielseitig einsetzbar sind, sind auch Nutzer.

Hemmnisse für die Einführung des Katalogs im Unternehmen

Der wahre Wert eines Datenkatalogs liegt in seiner Fähigkeit, nicht nur von Datenmanagement-Spezialisten, sondern von der viel größeren Population der Daten- (oder Metadaten-)Nutzer angenommen zu werden.

Diese Gruppe ist sehr vielfältig. Sie umfasst Datenexperten (Data Engineers, Data Architects, Data Analysts, Data Scientists usw.), Business-Profile (Projektleiter, Bereichsleiter, Produktmanager usw.), Compliance- oder Risikospezialisten. Und ganz allgemein – in Organisationen mit den höchsten Reifegraden – alle Manager auf operativer Ebene, die Daten nutzen müssen, um ihre Leistung zu verbessern.

Die Annahme des Datenkatalogs durch diese Nutzerpopulationen wird typischerweise durch die folgenden Aspekte behindert:

  • Die Nutzer verwenden den Datenkatalog nur sporadisch: Sie nutzen ihn einmalig, um die Antwort auf eine bestimmte Fragestellung im Rahmen ihrer operativen Tätigkeit zu bekommen. Sie haben in der Regel weder Zeit noch Lust, eine lange Lernkurve für ein Tool zu durchlaufen, das sie nur gelegentlich nutzen.

  • Nicht alle haben die gleichen Anforderungen in Bezug auf Metadaten. Einige werden sich mehr mit technischen Metadaten beschäftigen, andere interessieren sich stärker für semantisches Informationen und wieder andere konzentrieren sich auf organisatorische oder Governance-Aspekte.

  • Nicht alle beherrschen das Metamodell oder die interne Organisation der Informationen im Katalog. Sie können sich schnell von einer Flut von Konzepten eingeschüchtert fühlen, die für sie nicht verständlich sind.

Der Smart Data Catalog adressiert diese verschiedenen Hemmnisse, um die Annahme des Katalogs zu gewährleisten. Im Folgenden möchten wir erläutern, wie Zeenea diese Herausforderung angeht.

Zeenea’s Ansätze zur Förderung der Akzeptanz des Katalogs

Der erste Lösungsansatz liegt in der grafischen Benutzeroberfläche. Wir sind der Meinung, dass die Nutzer eine möglichst niedrige Lernkurve haben sollten, um mit dem Katalog arbeiten zu können – in der Praxis bedeutet dies die Nutzung des Katalogs ohne vorherige Schulung. Um dies zu gewährleisten, haben wir mehrere Entscheidungen getroffen.

Data Stewards und Nutzern wird nicht die gleiche Benutzeroberfläche zur Verfügung gestellt. Zeenea bietet zwei Anwendungen:

  • Zeenea Studio – das Tool zur Verwaltung und Überwachung der Kataloginhalte – ein Expertentool für Data Stewards.

  • Zeenea Explorer – das Tool für die Nutzer bietet eine möglichst einfache Erfahrung beim Suchen und Erkunden des Katalogs.

Dieser Ansatz greift die von Marketplace-Anwendungen bekannten Prinzipien auf – die nach wie vor die großen Spezialisten für Katalogverwaltung im weitesten Sinne sind. Diese Lösungen bieten typischerweise mindestens zwei Anwendungen an. Die eine, die man als Back-Office bezeichnen könnte, ermöglicht es den Verwaltern des Marketplaces (oder seinen Partnern), den Katalog auf möglichst automatisierte Weise zu füllen, den Inhalt zu kontrollieren und seine Qualität zu überwachen. Die andere, den Nutzern gewidmete Anwendung wird meist durch eine E-Commerce-Webseite materialisiert und ermöglicht es ihnen, nach Artikeln zu suchen oder den Katalog thematisch zu erkunden. Zeenea Studio und Zeenea Explorer übernehmen jeweils diese beiden Rollen.

Der Rolle des Nutzers entsprechend hierarchisch gegliederte Informationen

Eine weiterer von Zeenea geplanter Mechanismus befindet sich noch im Versuchsstadium. Hier geht es darum, die Hierarchie der Informationen im Katalog dynamisch an das Profil des Nutzers anzupassen.

Bei einem Datenkatalog hingegen hängt die Hierarchie der Informationen von der operativen Rolle des Nutzers ab. Für manche bestehen die wichtigsten Informationen über ein Dataset in seine technischen Eigenschaften: Speicherort, Sicherheit, Formate, Typen usw. Andere interessieren sich vor allem für die Semantik der Daten und Business Lineage. Wieder andere möchten die Prozesse und Kontrollen kennen, die in die Datenproduktion involviert sind – sei es für regulatorische oder operative Zwecke.

Der Smart Data Catalog sollte die Struktur seiner Informationen dynamisch anpassen können, um unterschiedliche Anforderungen zu erfüllen.

Eine letzte Herausforderung betrifft die thematischen Suchpfade. Auch hier ist es schwierig, eine Struktur zu finden, die alle Nutzergruppen zufrieden stellt. Einige werden den Katalog eher nach technischen Gesichtspunkten durchsuchen (Systeme, Anwendungen, Technologien usw.). Andere bevorzugen eine funktionale Klassifikation – Fachbereiche und Unterbereiche – wieder andere wählen eher nach semantischen Gesichtspunkten aus (anhand eines Business Glossarys) usw.

Eine für alle universelle Klassifikation erscheint uns utopisch. Auch hier sollte sich der Smart Data Catalog an die verschiedenen Herangehensweisen anpassen, anstatt von den Nutzern zu verlangen, eine Klassifikation zu beherrschen, die für sie vielleicht keinen Sinn ergibt. Schließlich ist die User Experience einer der wichtigsten Erfolgsfaktoren eines Datenkatalogs.

post-wp-smart-data-catalog-de

Um zu verstehen, wie ein „smartes“ Metamodell die Fähigkeiten des Datenkatalogs stärkt,

laden Sie jetzt unser eBook „Was ist ein Smart Data Catalog?“ herunter!

Was macht einen Datenkatalog “smart”? #4 – Suchmaschine

Was macht einen Datenkatalog “smart”? #4 – Suchmaschine

Ein Datenkatalog konsolidiert Millionen von Informationen unterschiedlichster Art – und sein Volumen wächst exponentiell. Diese Menge an Informationen bringt zwei große Herausforderungen mit sich:

  • Wie kann dieses Informationsvolumen gepflegt werden, ohne dass die Kosten fürs Metadaten-Management explodieren?
  • Wie findet man das passende Dataset für einen bestimmten Use Case?

Wir bei Zeenea glauben, dass ein Datenkatalog “smart” sein muss, um diese beiden Fragen zu beantworten, und zwar durch kluge technologische und konzeptionelle Vorkehrungen, die sich nicht auf die Integration von KI-Algorithmen beschränken. 

Wir haben fünf Bereiche identifiziert, in denen ein Datenkatalog smart sein kann – die meisten davon ohne Einsatz von Machine Learning:

    1. Modellierung des Metamodells
    2. Inventarisierung von Daten
    3. Metadaten-Management
    4. Suchmaschine
    5. User Experience

Die Suchmaschine: eine unverzichtbare Voraussetzung für Data Discovery

Die Durchsuchung einer so großen Menge an Informationen, wie dies in einem Enterprise Data Catalog der Fall ist, sollte keine Nebenfunktion sein. Vielmehr ist die Suchmaschine einer der wichtigsten Bestandteile des Katalogs und sollte für die Nutzer einfach, leistungsstark und effektiv sein. Google oder Amazon haben die Messlatte in dieser Hinsicht sehr hoch gelegt, und das Sucherlebnis, das sie bieten, gilt als Benchmark in diesem Bereich.

Es lässt sich wie folgt zusammenfassen:

  • Die Eingabe weniger Stichwörter in die Suchleiste reicht – mir werden häufige Kombinationen von Begriffen vorgeschlagen, um meine Suche zu verbessern.

  • Ergebnisse werden in Sekundenschnelle in einer genauen Reihenfolge angezeigt, wobei ich die für mich interessantesten auf der ersten Seite finde.

  • Andernfalls füge ich meiner Suche entweder einen Begriff hinzu, um sie besser einzugrenzen, oder nutze das Filtersystem, um irrelevante Ergebnisse auszuschließen.

Die auf dem Markt vorhandenen Datenkatalog-Lösungen bieten gemeinhin eine gutes Indexierungs-, Bewertungs- und Filtersystem. Dieser Ansatz liefert zufriedenstellende Ergebnisse, wenn der Nutzer eine genaue Vorstellung davon hat, was er sucht (High Intent Search), ist aber enttäuschend für diejenigen, deren Ansatz eher explorativ ist (Low Intent Search) oder wenn es darum geht, dem Nutzer spontan bestimmte relevante Ergebnisse vorzuschlagen (No Intent).

Kurz gesagt, eine einfache Indexierung ermöglicht das Finden von Elementen, deren genaue Merkmale bekannt sind, reicht aber nicht aus, wenn die Suche eher vage bleibt. Die Ergebnisse werden dann zu oft durch zahlreiche falsch positive Treffer verunreinigt, und deren Reihenfolge ist ebenfalls nicht zufriedenstellend.

 

Eine multidimensionale Herangehensweise für eine leistungsfähige Suche

Für uns war von Anfang an klar, dass ein zu einfaches Indexierungssystem keine zufriedenstellende Nutzererfahrung gewährleisten kann. Wir haben daher beschlossen, die Suchmaschine in einem eigenen Modul der Plattform zu isolieren und sie zum Ziel stetiger Innovation (und Investition) zu machen.

Natürlich verfügen wir weder über die finanziellen Mittel von Google, noch über dessen Wissen über die Optimierung von Suchergebnissen. Wir haben jedoch mehrere Funktionen in unsere Suchmaschine integriert, die bereits zu stark relevanten Ergebnissen führen und ständig verbessert werden.

In besonderem Maße interessierten wir uns für die Arbeit der Google-Gründer an ihrem PageRank-Algorithmus. Dieser berücksichtigt mehrere Dutzend Aspekte (sogenannte Features), darunter die Dichte der Beziehungen zwischen den verschiedenen Graph-Objekten (Hyperlinks im Falle von Internetseiten) oder die semantische Analyse des Knowledge Graphs.

Dazu gehören insbesondere die folgenden Funktionen:

  • Die klassische, flache Indizierung aller Attribute eines Objekts (Name, Beschreibung und alle Eigenschaften) mit einer Gewichtung nach der Art der Eigenschaft.

  • Eine NLP-Schicht (Natural Language Processing) zur Berücksichtigung von Näherungswerten (Tipp- oder Rechtschreibfehler).

  • Eine semantische Analyseschicht, die auf der Verarbeitung des Knowledge Graphs basiert.

  • Eine Personalisierungsschicht, die derzeit auf einer einfachen Klassifizierung der Nutzer nach ihren Use Cases beruht, die aber in Zukunft mit individuellen Profildaten angereichert werden soll.

 

Smart Filtering zur Kontextualisierung und Begrenzung der Suchergebnisse

Als Ergänzung zur Suchmaschine bieten wir ein intelligentes Filtersystem, das Smart Filtering. Diese Funktion findet man häufig auf E-Commerce-Webseiten (z.B. Amazon oder Booking.com) und besteht darin, kontextbezogene Filter vorzuschlagen, um die Ergebnisse einer Suche einzugrenzen.

Die Filter funktionieren folgendermaßen:

  • In der Filterliste werden ausschließlich die Eigenschaften angezeigt, die die Ergebnisliste tatsächlich reduzieren.
  • Jeder Filter zeigt seine Auswirkung an, d.h. die Anzahl der nach Anwendung des Filters verbleibenden Ergebnisse.
  • Bei Anwendung des Filters wird die Ergebnisliste sofort aktualisiert.

Wir glauben, dass wir durch die Kombination von multidimensionaler Suche und Smart Filtering unserer Konkurrenz voraus sind. Darüber hinaus ermöglicht es unsere entkoppelte Architektur (die Suchmaschine ist eine eigenständige Komponente), ständig mit neuen Ansätzen zu experimentieren und gleichzeitig diejenigen, die wir für sinnvoll halten, schnell zu integrieren.

post-wp-smart-data-catalog-de

Um zu verstehen, wie ein „smartes“ Metamodell die Fähigkeiten des Datenkatalogs stärkt,

laden Sie jetzt unser eBook „Was ist ein Smart Data Catalog?“ herunter!

Was macht einen Datenkatalog “smart”? #3 – Metadaten-Management

Was macht einen Datenkatalog “smart”? #3 – Metadaten-Management

Ein Datenkatalog konsolidiert Millionen von Informationen unterschiedlichster Art – und sein Volumen wächst exponentiell. Diese Menge an Informationen bringt zwei große Herausforderungen mit sich:

  • Wie kann dieses Informationsvolumen gepflegt werden, ohne dass die Kosten fürs Metadaten-Management explodieren?
  • Wie findet man das passende Dataset für einen bestimmten Use Case?

Wir bei Zeenea glauben, dass ein Datenkatalog “smart” sein muss, um diese beiden Fragen zu beantworten, und zwar durch kluge technologische und konzeptionelle Vorkehrungen, die sich nicht auf die Integration von KI-Algorithmen beschränken. 

Wir haben fünf Bereiche identifiziert, in denen ein Datenkatalog smart sein kann – die meisten davon ohne Einsatz von Machine Learning:

  1. Modellierung des Metamodells
  2. Inventarisierung von Daten
  3. Metadaten-Management
  4. Suchmaschine
  5. User Experience

Im Bereich des eigentlichen Metadaten-Managements wird der Begriff “Smart Data Catalog” am häufigsten mit Algorithmik, Machine Learning und künstlicher Intelligenz in Verbindung gebracht.

Wie lässt sich Metadaten-Management automatisieren?

Das Metadaten-Management regelt und verwaltet die Attribute des Metamodells für die inventarisierten Daten. Der mit ihm verbundene Aufwand ist proportional zur Anzahl der Attribute und zur Anzahl der im Katalog vorhandenen Objekte.

Die Rolle des Smart Data Catalogs besteht darin, diese Aufgabe so weit wie möglich zu automatisieren. Falls dies nicht möglich ist, sollen Menschen (Data Stewards) bei dieser Tätigkeit unterstützt werden, um deren Arbeit sowohl produktiver als auch zuverlässiger zu machen.

Wie im letzten Artikel erwähnt, kann durch unsere Konnektivität ein Teil der Metadaten automatisiert werden, was jedoch hauptsächlich auf technische Metadaten beschränkt bleibt. Ein vollständiges Metamodell, selbst bescheidener Größe, umfasst auch Dutzende von Metadaten, die nicht aus den Quellsystemen extrahiert werden können (aus dem einfachen Grund, dass sie dort nicht enthalten sind).

Es gibt mehrere Ansätze zur Lösung der Problematik. 

Die Erkennung von Mustern (pattern recognition)

Der direkteste Ansatz besteht darin, nach Mustern im Katalog zu suchen (pattern recognition), um die Werte der Metadaten für neue Objekte vorzuschlagen.

Einfach ausgedrückt: Ein Muster (Pattern) besteht aus allen Metadaten eines Objekts und seinen Beziehungen zu anderen Elementen im Katalog. Die Mustererkennung wird typischerweise mithilfe von Machine-Learning-Algorithmen durchgeführt.

Eine einfache Strukturanalyse reicht nicht aus (zwei Datasets können identische Daten enthalten, aber in unterschiedlichen Strukturen). Sich auf die Übereinstimmung der Daten zu verlassen, ist ebenfalls nicht effizient. Zwei Datasets können identische Informationen enthalten, aber mit unterschiedlichen Werten. Beispielsweise eine Kundenrechnung für 2020 in einem, die für 2021 im anderen Dataset.

Zur Lösung der Problematik stützt sich Zeenea auf eine Technologie, die wir als Fingerprint bezeichnen. Das Prinzip des Fingerprints besteht darin, ein Dataset (genauer gesagt ein Field in einem Dataset) auf einen numerischen Vektor zu reduzieren, der diese Daten charakterisiert (man spricht von „Features“).

Zur Erstellung des Fingerprints ziehen wir zwei große Familien von „Features“ aus den Daten unserer Kunden herauf:

  • Eine Reihe von „Features“, die an numerische Daten angepasst sind (überwiegend statistische Indikatoren);
  • Daten aus „Word Embedding“-Modellen (Vektorisierung von Wörtern) für Textdaten.

Der Fingerprint ist das Herzstück unserer intelligenten Algorithmen.

Weitere in die Suggestion Engine eingebettete Ansätze

Die Mustererkennung ist zwar ein effektiver Ansatz, um die Metadaten eines neu in den Katalog aufgenommenen Objekts vorzuschlagen, hat jedoch eine wichtige Voraussetzung: Es müssen Muster vorhanden sein, die erkannt werden können. Mit anderen Worten: Sie funktioniert nur, wenn der Katalog bereits eine große Anzahl von Objekten enthält, was natürlich nicht der Fall ist, wenn das Projekt erst startet.

Gerade in der Anfangsphase ist die Belastung durch das Metadaten-Management jedoch am größten. Es müssen also andere Ansätze integriert werden, die die Data Stewards unterstützen können, wenn der Katalog noch leer ist. 

Die Suggestion Engine bei Zeenea, die die intelligenten Algorithmen zur Unterstützung beim Metadaten-Management bereitstellt, verfolgt daher eine andere Herangehensweise, die wir hier in wenigen Punkten vorstellen möchten (sie wird regelmäßig erweitert): 

  • Erkennung struktureller Ähnlichkeiten
  • Die Ähnlichkeitserkennung durch Fingerprints
  • Annäherung von Namen

Die Suggestion Engine, die den Inhalt des Katalogs analysiert, um wahrscheinliche Werte für die Metadaten der importierten Objekte zu ermitteln, ist ein Ziel ständiger Innovation. Wir testen regelmäßig neue Ansätze, die teils sehr einfach, teils aber auch sehr anspruchsvoll sind. Diese Komponente unseres Produkts verbessert sich stetig, je größer der Katalog wird und je stärker die Algorithmen angereichert werden.

Bei Zeenea haben wir uns dafür entschieden, die Durchlaufzeit als zentralen KPI zur Messung der Produktivität der Data Stewards (die das ultimative Ziel des smarten Metadaten-Managements ist) zu verwenden. Die Durchlaufzeit (oder Lead Time) ist ein Begriff aus dem Lean Management und misst im Zusammenhang mit dem Datenkatalog die Zeit, die zwischen der Inventarisierung eines Objekts und der Dokumentierung aller seiner Metadaten vergeht.

    post-wp-smart-data-catalog-de

    Um zu verstehen, wie ein „smartes“ Metamodell die Fähigkeiten des Datenkatalogs stärkt,

    laden Sie jetzt unser eBook „Was ist ein Smart Data Catalog?“ herunter!

    Was macht einen Datenkatalog “smart”? #2 – Inventarisierung von Daten

    Was macht einen Datenkatalog “smart”? #2 – Inventarisierung von Daten

    Ein Datenkatalog konsolidiert Millionen von Informationen unterschiedlichster Art – und sein Volumen wächst exponentiell. Diese Menge an Informationen bringt zwei große Herausforderungen mit sich:

    • Wie kann dieses Informationsvolumen gepflegt werden, ohne dass die Kosten fürs Metadaten-Management explodieren?
    • Wie findet man das passende Dataset für einen bestimmten Use Case?

    Wir bei Zeenea glauben, dass ein Datenkatalog “smart” sein muss, um diese beiden Fragen zu beantworten, und zwar durch kluge technologische und konzeptionelle Vorkehrungen, die sich nicht auf die Integration von KI-Algorithmen beschränken. 

    Wir haben fünf Bereiche identifiziert, in denen ein Datenkatalog smart sein kann – die meisten davon ohne Einsatz von Machine Learning:

      1. Modellierung des Metamodells
      2. Inventarisierung von Daten
      3. Metadaten-Management
      4. Suchmaschine
      5. User Experience

    Ein zweiter Bereich, in dem ein Datenkatalog smart sein sollte, betrifft die Inventarisierung. Wir erinnern uns: Ein Datenkatalog ist im Grunde eine möglichst umfassendes Verzeichnis von Informationsbeständen, ergänzt durch eine Reihe von Metadaten, die eine optimale Nutzung der betreffenden Daten ermöglichen. Bei der Einführung eines jeden Datenkatalogs ist die Inventarisierung der in den verschiedenen Systemen vorhandenen Datenbestände einer der ersten Schritte.

    Die Herausforderung der automatisierten Inventarisierung

    Der deklarative Ansatz für den Aufbau des Inventars, so gut er auch durchdacht sein mag, erscheint uns nicht besonders smart. Er erfordert einen erheblichen Arbeitsaufwand, um den Katalog zu initialisieren, und zwingt zu ständiger und ziemlich mühsamer Arbeit, um ihn auf dem neuesten Stand zu halten – in einer sich ständig verändernden digitalen Welt veraltet der anfängliche Bestand schnell.

    Der erste, offensichtliche Schritt zu einer cleveren Inventarisierung besteht in der Automatisierung. Bis auf wenige Ausnahmen werden die Datenbestände eines Unternehmens in spezialisierten Systemen verwaltet, die von verteilten Dateisystemen über ERP-Systeme, relationale oder nicht-relationale Datenbanken, Business Software, Data Warehouses usw. reichen. Alle diese Systeme führen auf die eine oder andere Weise ein Register der von ihnen verwalteten Daten sowie eine Reihe von Metadaten, die für ihren reibungslosen Betrieb erforderlich sind.

    Es ist also nicht nötig, diese Informationen manuell neu zu erstellen: Es genügt, sich mit den Systemen zu verbinden und den Inhalt des Katalogs mit dem der Quellsysteme zu synchronisieren. Das Prinzip ist einfach, die Umsetzung deutlich schwieriger. Leider gibt es keinen Standard, an den sich die verschiedenen Technologien halten, um einen universellen Zugriff auf ihre Metadaten zu ermöglichen.

    Die entscheidende Rolle der Konnektivität zu den Quellsystemen

    Eine umfassende und “intelligente” Konnektivität ist daher essentiell für den Smart Data Catalog. Für eine weitere Beschreibung unseres Ansatzes bzgl. Konnektivität bei Zeenea verweise ich erneut auf unser letztes Whitepaper 5 zentrale Innovationen eines modernen Datenkatalogs. An dieser Stelle sei nur an einige Hauptmerkmale unserer Herangehensweise erinnert. Unsere Konnektivität ist:

      • Proprietär – wir verlassen uns nicht auf eine Lösung von Dritten.
      • Verteilt – um den Umfang des Katalogs nicht einzuschränken.
      • Offen – jeder Kunde kann seine eigenen Konnektoren entwickeln.
      • Universell – jede beliebige Metadatenquelle kann synchronisiert werden.

    Dieser Ansatz ermöglicht nicht nur das Lesen und Synchronisieren der in den Quellsystemen enthaltenen Metadaten, sondern auch das Erzeugen von Metadaten.

    Bisher produzieren wir zwei Arten von Metadaten:

    • Statistische Analyse zur Erstellung eines Datenprofils – Verteilung der Werte, Anteil der Nullwerte, Extremwerte usw. (die Art dieser Metadaten hängt natürlich vom Typ der analysierten Daten ab);

     

    • Strukturanalyse zur Ermittlung des funktionalen Typs bestimmter Textdaten (E-Mail, Postanschrift, Sozialversicherungsnummer, Kundennummer usw. – das System ist erweiter- und anpassbar).

    Auch der Inventarierungsmechanismus muss smart sein

    Neben der Konnektivität, dank der der Katalog automatisch mit den in den verschiedenen Systemen enthaltenen Informationen befüllt wird, ist unser Inventarisierungsmechanismus selbst in vielerlei Hinsicht smart:

    • Die Erkennung von Datasets beruht auf einer umfassenden Kenntnis der Speicherstrukturen, insbesondere in Big-Data-Kontexten. So wird beispielsweise ein IoT-Datensatz, der aus Tausenden von Dateien mit Zeitreihenmessungen besteht, als ein einziges Dataset identifiziert (die Anzahl der Dateien und ihre Speicherorte sind lediglich Metadaten);

    • Die Inventarisierung ist standardmäßig nicht direkt in den Katalog integriert, um zu vermeiden, dass technische oder temporäre Datasets importiert werden, die im Katalog in der Regel unnötig sind (weil die Daten entweder nicht verwertbar oder redundant sind);

    • Die Auswahl der Datenbestände selbst, die in den Katalog importiert werden sollen, wird unterstützt – es werden die Objekte identifiziert, die am wahrscheinlichsten in den Katalog aufgenommen werden. Wir nutzen mehrere komplementäre Ansätze, um diese Auswahl zu treffen.
    post-wp-smart-data-catalog-de

    Um zu verstehen, wie ein „smartes“ Metamodell die Fähigkeiten des Datenkatalogs stärkt,

    laden Sie jetzt unser eBook „Was ist ein Smart Data Catalog?“ herunter!

    Was macht einen Datenkatalog “smart”? #1 – Modellierung des Metamodells

    Was macht einen Datenkatalog “smart”? #1 – Modellierung des Metamodells

    Ein Datenkatalog konsolidiert Millionen von Informationen unterschiedlichster Art – und sein Volumen wächst exponentiell. Diese Menge an Informationen bringt zwei große Herausforderungen mit sich:

    • Wie kann dieses Informationsvolumen gepflegt werden, ohne dass die Kosten fürs Metadaten-Management explodieren?
    • Wie findet man das passende Dataset für einen bestimmten Use Case?

    Wir bei Zeenea glauben, dass ein Datenkatalog “smart” sein muss, um diese beiden Fragen zu beantworten, und zwar durch kluge technologische und konzeptionelle Vorkehrungen, die sich nicht auf die Integration von KI-Algorithmen beschränken. 

    Wir haben fünf Bereiche identifiziert, in denen ein Datenkatalog smart sein kann – die meisten davon ohne Einsatz von Machine Learning:

      1. Modellierung des Metamodells
      2. Inventarisierung von Daten
      3. Metadaten-Management
      4. Suchmaschine
      5. User Experience

    Ein universelles und statisches Metamodell kann nicht smart sein

    Die Anzahl der Metadaten, die für die effektive Nutzung von Informationsbeständen erforderlich sind, kann beträchtlich sein. Gleichzeitig sind diese Metadaten für jede Organisation oder sogar für einzelne Gruppen innerhalb einer Organisation unterschiedlich. So wird beispielsweise ein Business Analyst nicht unbedingt nach denselben Informationen suchen wie ein Ingenieur oder ein Produktmanager.

    Der Versuch, ein universelles Metamodell zu definieren, erscheint uns nicht besonders klug. Ein solches Metamodell müsste sich an jeden erdenklichen Kontext anpassen, was zu einer der drei klassischen Folgen führen würde:

    • Eine übertriebene Vereinfachung, die auf Dauer nicht alle Use Cases abdecken wird;
    • Eine übermäßige Abstraktion, zum Preis eines langen und schwierigen Erlernens der Konzepte – was schwer mit dem großflächigen Einsatz des Katalogs zu vereinbaren ist;
    • Eine zu niedrige Abstraktion, die dazu zwingt, konkrete Konzepte zu vervielfachen, indem Begriffe aus vielen verschiedenen Kontexten kombiniert werden – von denen viele jedoch in einem bestimmten Kontext nutzlos sind und wodurch das Metamodell unnötig kompliziert und unverständlich würde.

    Eine smarte Metamodellierung sollte unserer Meinung nach die Möglichkeit bieten, das Metamodell an den jeweiligen Kontext anzupassen und es mit der Entwicklung der Use Cases oder dem Reifegrad der Organisation zu erweitern.

    Der organische Ansatz des Metamodells

    Ein Metamodell ist eine Wissensdomäne, und die formale Struktur eines Wissensmodells trägt den Namen Ontologie.

    Eine Ontologie definiert eine Menge von Objektklassen, ihre Attribute und die Beziehungen, die sie untereinander haben können. In einem universellen Modell ist die Ontologie statisch – die Klassen, Attribute und Beziehungen sind vordefiniert, mit unterschiedlichem Abstraktionsgrad und unterschiedlicher Komplexität.

    Bei Zeenea haben wir uns entschieden, uns nicht auf eine statische Ontologie zu stützen, sondern auf einen evolutiven Knowledge Graph.

    Zu Beginn ist das Metamodell daher bewusst sehr einfach gehalten – es umfasst nur eine Handvoll Typen, die verschiedene Klassen von Informationsbeständen (Datasets, Fields, Visualizations, …) repräsentieren und jeweils mit einigen Attributen versehen sind, die wir als universell betrachten (Name, Beschreibung, Kontakte). Dieses grundlegende Metamodell wird automatisch durch technische Metadaten ergänzt, die aus den Datenquellen extrahiert werden und je nach der zugrunde liegenden Technologie variieren (die technischen Metadaten einer Tabelle in einem Data Warehouse sind nicht unbedingt dieselben wie die einer Parquet-Datei in einem Data Lake).

    Smart Data Catalog - Metamodel

    Diese organische Form der Metamodellierung ist unserer Meinung nach die beste und intelligenteste Antwort auf die Problematik der Ontologie in einem Datenkatalog. Sie bietet mehrere wichtige Vorteile:

    • Das Metamodell kann vollständig an den jeweiligen Kontext angepasst werden, wobei es oftmals auf einer bereits vorhandenen Modellierung aufbaut und die hauseigene Nomenklatur und Terminologie integriert, ohne dass ein langer und kostspieliger Lernzyklus erforderlich ist;

    • Das Metamodell muss nicht vollständig definiert sein, um mit der Katalognutzung zu beginnen – es genügt, sich auf die wenigen Objektklassen und Attribute zu konzentrieren, die für die ersten Use Cases notwendig sind, und dieses Modell dann zu erweitern, wenn der Katalogumfang wächst;

    • Nutzerfeedback kann schrittweise integriert werden, was die Akzeptanz des Katalogs und damit den ROI des Metadaten-Managements verbessert.

     

    Hinzufügen funktionaler Attribute zum Metamodell zur Erleichterung der Suche

    Dieser Ansatz der Metamodellierung hat zwar massive Vorteile, aber auch einen großen Nachteil: Da das Metamodell sehr dynamisch ist, ist es für die Vorschlags- und Suchmaschine schwierig, dessen Struktur zu verstehen und folglich die Nutzer bei Einspeisung und der Entdeckung von Informationen effektiv zu unterstützen (diese beiden Themen stehen jedoch im Mittelpunkt des Smart Data Catalog).

    Ein Teil der Lösung betrifft das Metamodell und insbesondere die Attribute der Ontologie. Klassischerweise werden die Attribute eines Metamodells durch ihren technischen Typ definiert (ein Datum, eine Zahl, eine Zeichenkette, eine Liste von Werten usw.). Bei Zeenea sind diese technischen Typen natürlich enthalten, darüber hinaus aber auch funktionale Typen – ein Qualitätsniveau, eine Vertraulichkeitsstufe, ein Personenbezug usw.

    Die Verwendung dieser funktionalen Typen ermöglicht es Zeenea, die Ontologie besser zu verstehen, um ihre Algorithmen zu verfeinern und die Informationsdarstellung anzupassen.

    post-wp-smart-data-catalog-de

    Um zu verstehen, wie ein „smartes“ Metamodell die Fähigkeiten des Datenkatalogs stärkt,

    laden Sie jetzt unser eBook „Was ist ein Smart Data Catalog?“ herunter!

    Zeenea zum besten Datenkatalog auf dem Markt für Data Democratization gewählt – BARC

    Zeenea zum besten Datenkatalog auf dem Markt für Data Democratization gewählt – BARC

    Am 20. Oktober 2021 veranstaltete BARC ein interaktives Webinar, bei dem drei etablierte Anbieter auf dem Markt für Datenkataloge (Alation, Collibra, Informatica) und drei Herausforderer (dataspot, Synabi, Zeenea) ihre Lösungen vorstellten. Zeenea gewann die Gunst des Publikums und wurde von BARC folglich als die beste Lösung für Data Democratization gekürt.

    BARC-Webinar: 6 Datenkatalog-Lösungen im direkten Vergleich

    Datenkataloge unterstützen Organisationen spürbar bei der Wertschöpfung aus Daten. Immer mehr Initiativen zur Implementierung und Nutzung von Datenkatalogen können inzwischen beobachtet werden, aber nur wenige davon werden in den Unternehmen effektiv angenommen und eingesetzt. In einem interaktiven Webinar stellte BARC drei traditionellen Marktführern (Alation, Collibra und Informatica) drei Herausforderer (Zeenea, dataspot und Synabi) gegenüber, um ihre Produkte im direkten Vergleich zu präsentieren. Die Veranstaltung verlief in drei Etappen.

    Zunächst stellte BARC die Liste der in die engere Wahl gezogenen Anbieter vor. Anschließend wurde das Szenario präsentiert: Wie wählt man die beste Datenkatalog-Lösung im Kontext einer Data Democracy aus? Die verschiedenen Anbieter sollten zeigen, warum gerade ihre Lösungen am besten geeignet sind, um eine echte Data Democracy zu schaffen und den Zugang zu Daten für möglichst viele Personen in einer Organisation zu erleichtern.

    webinar-barc-2021-data-catalog-1

    Nun hatte jeder Anbieter 20 Minuten Zeit, um seine Lösung vorzustellen und deren Unterscheidungsmerkmale zu demonstrieren. Der Zeenea Data Catalog wurde von Luc Legardeur – Mitbegründer und VP International Sales – vorgestellt. Während und nach den Präsentationen konnte das anwesende Publikum Fragen stellen.

    Anschließend teilte BARC seine Best Practices für die Auswahl eines Datenkatalogs sowie einige Schlussfolgerungen zu den vorgestellten Lösungen. Das Publikum wurde außerdem aufgefordert, jede Lösung anhand eines Bewertungssystems zu beurteilen.

    Sehen Sie sich hier das gesamte Webinar an: https://pages.barc.de/en/data-cataloging

    Die wichtigsten Stärken des Zeenea Data Catalog aus Sicht des Publikums

    Zeenea konnte im Vergleich mit den führenden Anbietern durchaus überraschen. Das Publikum honorierte zunächst einen Faktor, den Zeenea von vielen Wettbewerbern unterscheidet: die Plattform zeichnet sich vor allem durch die Benutzerfreundlichkeit seiner beiden Anwendungen Zeenea Studio und Zeenea Explorer aus. Auch die Einfachheit der Data Discovery innerhalb des Katalogs und das Data-Lineage-Feature wurden hervorgehoben.

    webinar-barc-2021-data-catalog-2

    Darüber hinaus bietet unser Datenkatalog eine hohe Flexibilität, welche insbesondere durch ein vollständig anpassbares Metamodell zum Ausdruck kommt. Letzteres ist keinesfalls starr und vordefiniert, sondern ständig für neue Use Cases in der Organisation erweiterbar. Dies ist in der Tat einer der Hauptunterscheidungspunkte unseres Produkts auf einem hart umkämpften Markt.

    Zeenea: Der Datenkatalog für Data Democratization

    Die am Webinar teilnehmenden Anbietern sollten vor allem zeigen, wie ihr Tool die Demokratisierung von Daten in Organisationen unterstützen kann. Nach jeder Präsentation wurde das Publikum daher gebeten, die Eignung des Tools zur Umsetzung von Data Democratization auf einer Skala von 1 bis 10 (1 = „keine Unterstützung“; 10 = „volle Unterstützung“) zu bewerten. Zeenea erhielt die höchste Durchschnittsnote und entschied den Wettbewerb damit, vor etablierten Akteuren wie Informatica oder auch Alation, für sich.

    webinar-barc-2021-data-catalog-3

    Bewertung von Timm Grosser

    Senior Analyst Data & Analytics bei BARC

    Allgemeine Einschätzung

    “In my opinion, the presentation emphasized the easy extension of the metadata model. For example, it was shown how easy it is to add new “properties” to a data object and then make them available in analytics, searches, etc. without having to rework the metadata model or the application. Zeenea calls this concept the “organic data catalog”, a term I use myself to convey a similar meaning. The visual highlight was the discovery functions for objects and their dependencies.”

    Zeenea gewinnt den Wettbewerb

    “Zeenea, the only pure knowledge graph in the contest, was the best received by the audience, even if the gap to the other providers was only marginal. In my opinion, knowledge graphs are particularly interesting when metadata structures need to be flexible and extended. A useful side effect is that the metadata is equally comprehensible to humans and machines as correlations are stored directly in the graph and not in the application. In my opinion, knowledge graphs will therefore take a stronger position in modern data & analytics landscapes in the future, leading among other things to a reduction in information silos.”

    Mehr Informationen zum Knowledge Graph gibt es in:

    banner-5-technological-breakthroughs

    BARC stellte ebenfalls fest, dass Cloud-Lösungen wie Zeenea immer stärker nachgefragt werden. Sie ermöglichen eine bessere Nutzung von Rechenleistung und Shared Services sowie eine leichtere Ausbreitung der Lösung im Unternehmen.

    Lesen Sie die vollständige Analyse im BARC-Blog: 

    Über BARC

    BARC (Business Application Research Center) ist ein deutsches Unternehmen, das sich auf die Marktforschung und Beratung im Bereich der Unternehmenssoftware spezialisiert hat. Zu den Fachgebieten gehören Business Intelligence und Analytics, Datenmanagement, Content Management (ECM), Customer Relationship Management (CRM) und Enterprise Resource Planning (ERP). Seit über 20 Jahren unterstützen die BARC-Analysten Unternehmen bei der strategischen Ausrichtung ihrer Organisation und der Bewertung von Software.

    Website: http://barc-research.com/

    Wenn Sie mehr über das Webinar erfahren möchten oder weitere Informationen über unseren Datenkatalog benötigen:

    Was ist Metadaten-Management?

    Was ist Metadaten-Management?

    By 2021, organizations will spend twice as much effort in managing metadata compared to 2018 in order to assess the value and risks associated with the data and its use.“

    *Gartner, The State of Metadata Management

     

    Die Definition von Metadaten-Management

    Bevor wir den Begriff Metadaten-Management (oder auch Verwaltung von Metadaten) definieren, sollten wir uns einen Moment Zeit nehmen, um die Grundlagen zu wiederholen: Was ist der Unterschied zwischen Daten und Metadaten? Wenn Sie nicht viel Zeit haben, merken Sie sich einfach nur, dass Metadaten es ermöglichen, Daten mithilfe der bekannten 5 W-Fragen zu kontextualisieren: Wer?, Was?, Wann?, Wo?, Warum?

    Diese Fragen erfüllen somit ein klares Ziel: die Daten zu verstehen, um sie bewusst zu nutzen.

    Mit dem zunehmenden Einsatz von Big Data und neue Datenschutzgesetzen müssen Data Leader bei ihren Datenprojekten durch Bemühungen, die sich auf Metadaten konzentrieren, an Reife gewinnen. Metadaten sind überall zu finden: Sobald ein Datensatz generiert wird, wird eine Reihe von Informationen erzeugt, die ihn kontextualisieren.

    Nehmen wir als Beispiel eine Excel-Tabelle mit einer Liste von Kontakten. Die Daten sind Vor- und Nachnamen, E-Mail-Adressen und Postanschriften und die Metadaten dieses Datensatzes wären das Erstellungsdatum, der Dateiname, die Autoren, die Dateigröße oder auch Kommentare, die im Dokument hinterlassen wurden.

    Diese Disziplin rund um das Metadaten-Management ist an sich nichts Revolutionäres. Die Unternehmen haben seine Bedeutung erkannt, und haben auch hier Excel-Tabellen erstellt. Die wahre Wende für datengetriebene Unternehmen besteht heute darin, sich im Metadaten-Management mit Lösungen zu wappnen, die den Übergang von lediglich passiven Metadaten zu aktiven und verwertbaren Informationen für Anwendungsfälle vollziehen: Compliance erreichen, eine Data Governance einführen und den Wert der eigenen Daten verstehen.

    Was spricht für die Implementierung einer Metadaten-Management-Strategie?

    Ein erster Anwendungsfall in Bezug auf die Verwaltung von Metadaten erleichtert das Auffinden und das Verstehen des Datenbestands eines Unternehmens.

    Dazu muss ein Metadaten-Repository eingerichtet, befüllt und zur Verfügung gestellt werden.

    Im Folgenden zeigen wir einige Vorteile, die das Metadaten-Management mit sich bringt :

    • Ein besseres Verständnis der Bedeutung von Daten aus dem Bestand des Unternehmens
    • Eine Kommunikation über die Semantik von Daten über einen Data Catalog
    • Eine höhere Produktivität und Effektivität der Data Leader, wodurch Projekte schneller umgesetzt werden können
    • Die Identifizierung von Synergien und Überprüfung der Konsistenz von Informationen durch die Verwendung von Data Dictionaries und Business Glossaries
    • Die Stärkung der Dokumentation eines Datensatzes (Löschung, Archiv, Qualität, …).
    • Die Generierung von Audit Trails und Audit-Informationen (Risiko und Sicherheit für die Einhaltung von Vorschriften)

    Verwalten Sie Ihre Metadaten mit Zeenea

    Mit Zeenea verwandeln Sie Ihre Metadaten in verwertbares Wissen!

    Unsere Metadaten-Management-Plattform organisiert und aktualisiert automatisch die Informationen aus Ihren Speichersystemen. Sie wird zur zentralen und einzigen Datenquelle für jeden Datenbenutzer im Unternehmen.

    Business Glossary – Produktivitätssteigerung für den Data Catalog

    Business Glossary – Produktivitätssteigerung für den Data Catalog

    Unternehmen sehen sich mit enormen Mengen an technischen Assets konfrontiert, und es werden immer mehr. Zusätzlich sind häufig viele Informationen in verschiedenen Systemen redundant vorhanden. Alle diese Assets sind selbst mithilfe von Automatisierungslösungen äußerst schwierig exakt zu dokumentieren. Für die meisten Unternehmen ist das praktisch nicht durchführbar.

    Mit Automatisierungslösungen ist es jedoch häufig möglich, eine gewisse Menge an Informationen zu erlangen und eine ausreichend detaillierte technische Dokumentation über den Inhalt des Informationssystems zu erstellen. Mit standardmäßigen Data-Catalog-Lösungen können erfahrene Benutzer diese Dokumentation dann durch Ergänzung von Klassifizierungsattributen vervollständigen, um das technische Ökosystem des Unternehmens präziser zu beschreiben.

    Zwar werden mit diesen Informationen vielleicht bestimmte Fragen von eher technisch orientierten Fragestellern (Ingenieure, Architekten, usw.) beantwortet, jedoch bleiben sie normalerweise für eine wachsende Gruppe an Benutzern der Unternehmensdaten weiterhin unverständlich. Denn diese Benutzer können die Daten weder effizient nutzen noch steuern.

    Um den erforderlichen Kontext zur tatsächlichen Verwendung dieser Daten bereitzustellen, benötigen die Benutzer verschiedene organisatorische, statistische, und Compliance-bezogene Informationen.

    Insbesondere muss eine technische Dokumentation durch sogenannte semantische Informationen ergänzt werden. Hierfür wird ein Business Glossary aufgebaut.

     

    Mithilfe eines Business Glossarys eine gemeinsame Sprache sprechen.

    Wenn Fachnutzer Daten abrufen, beziehen sie sich üblicherweise Konzepte wie Kundenadresse, Verkäufe oder Umsätze 2021 heran. Sie sprechen nicht von einer Tabelle oder einem Datenbankschema, denn diese Konzepte kennen bzw. verstehen sie nicht unbedingt. Mit einem Business Glossary werden Konzepte definiert, und diese Definitionen können dann an alle Mitarbeiter weitergegeben werden.

    Der Nutzen semantischer Metadaten wird daher mehreren Zielsetzungen gerecht:

    • Bau einer Brücke zwischen Fachnutzern und technischen Nutzern, indem eine gemeinsame Sprache für eine effiziente Zusammenarbeit geschaffen wird;
    • Ausrichtung der Fachnutzer, insbesondere aus verschiedenen Einheiten im Unternehmen, auf diese Definitionen. Damit werden vor allem Mehrdeutigkeiten zwischen ähnlichen Begriffen vermieden; 
    • Möglichkeit für alle Nutzer, gesuchte Daten leichter zu finden und entsprechenden Kontext zum Verständnis und zur Nutzung bereitzustellen.

    Ein guter Data Catalog muss daher eine Lösung bieten, um diese Fachkonzepte zu verwalten und sie mit technischen Assets zu verknüpfen, die diese Konzepte umsetzen. So kann dann der Datenkatalog im gesamten Unternehmen genutzt werden.

    Möchten Sie mehr über Business Glossarys erfahren?

    Wenn Sie Ihr Wissen über das Business Glossary eines Datenkatalogs vertiefen möchten, laden Sie unser kostenloses E-Book herunter: „Business Glossary: Wesentlicher Bestandteil eines Datenkatalogs für datengetriebene Unternehmen“.

    In diesem E-Book können Sie Folgendes nachlesen:

    • Eine ausführliche Beschreibung bestehender Vorgehensweisen für die jeweilige Zielsetzung des Unternehmens, wenn es darum geht, bestimmte Wissensbereiche wie Lexikon, Thesaurus, formale Ontologie zu beschreiben;
    • Eine Präsentation des Ansatzes von Zeenea, der auf Diagrammen beruht und die nötige Flexibilität, Einfachheit und Skalierbarkeit aufweist, um den Anforderungen der Datennutzer gerecht zu werden.

    thumb-wp-business-glossary-wesentlicher-bestandteil-eines-datenkatalogs-de

    Wie funktioniert der Aufbau eines effektiven Berechtigungssystems für einen Data Catalog?

    Wie funktioniert der Aufbau eines effektiven Berechtigungssystems für einen Data Catalog?

    Der Data Catalog eines Unternehmens kann den gesamten Datenbestand aufwerten, indem er sich insbesondere auf zwei Arten von Informationen stützt – einerseits die rein technischen Informationen, die automatisch von den Quellen synchronisiert werden; und andererseits die fachspezifischen Informationen, die aus der Arbeit der Data Stewards hervorgegangen sind. Letztere werden manuell aktualisiert und bringen so ihre eigenen Risiken auf Unternehmensebene mit sich.

    Ein Berechtigungssystem ist daher von entscheidender Bedeutung, um die Zugriffsrechte der Benutzer des Data Catalogs zu definieren und zu priorisieren. Dieser Artikel beleuchtet die grundlegenden Merkmale und die möglichen Ansätze für den Aufbau eines effektiven Berechtigungssystems, und erläutert auch die im Zeenea Data Catalog implementierte Lösung.

    Das Berechtigungssystem: ein unverzichtbares Werkzeug auf Unternehmensebene

    Damit die Benutzer des Data Catalogs den Informationen vertrauen können, die sie sich ansehen, muss die Dokumentation der katalogisierten Objekte relevant, von hoher Qualität und vor allem zuverlässig sein. Ihre Nutzer müssen den ihnen zur Verfügung stehenden Datenbestand leicht finden, verstehen und nutzen können.

    Herkunft der Kataloginformationen und Automatisierung

    Ein Datenkatalog integriert in der Regel zwei verschiedene Arten von Informationen. Zum einen gibt es rein technische Informationen, die direkt aus der Datenquelle stammen. Bei Zeenea werden diese Informationen vollautomatisch und kontinuierlich zwischen dem Data Catalog und jeder Datenquelle synchronisiert, um die Richtigkeit und Aktualität der Daten zu gewährleisten. Zum anderen enthält der Katalog die gesamte fachspezifische oder organisatorische Dokumentation (überwiegender Anteil), die ihrerseits aus der Arbeit der Data Stewards hervorgegangen ist. Diese Informationen können nicht automatisiert werden und werden von den Datenmanagement-Teams des Unternehmens manuell aktualisiert

    Das Berechtigungssystem als Voraussetzung für die Nutzung des Data Catalogs

    Um diese zweite Datenkategorie verwalten zu können, muss der Katalog Kontrollmechanismen für die Eingabe enthalten. Es ist nämlich nicht wünschenswert, dass ein beliebiger Nutzer des Data Catalogs Ihres Unternehmens Informationen erstellen, bearbeiten, importieren, exportieren oder sogar löschen kann, ohne dass er zuvor die entsprechenden Berechtigungen erhalten hat. Ein System zur Verwaltung von Benutzerrechten ist daher eine unabdingbare Voraussetzung. Dieses System übernimmt die Rolle des Türstehers. Es legt die Zugriffsrechte der Nutzer fest.

    Die drei grundlegenden Merkmale des Berechtigungssystems eines Data Catalogs

    Die Einführung eines unternehmensweiten Berechtigungssystems ist mit vielen Erwartungen verbunden, die bereits bei der Konzeption berücksichtigt werden müssen. Wir haben uns für diesen Artikel drei wichtige grundlegende Merkmale eines Berechtigungssystems herausgepickt: seinen Grad an Granularität und Flexibilität, seine Lesbarkeit und Prüfbarkeit sowie seine einfache Verwaltung.

    Granularität und Flexibilität

    Zunächst muss ein Berechtigungssystem das richtige Maß an Granularität und Flexibilität aufweisen. Bestimmte Aktionen müssen im gesamten Katalog verfügbar sein, um seine Nutzung zu erleichtern. Andere Aktionen müssen auf bestimmte Teile des Katalogs beschränkt werden. Einige Benutzer haben globale Rechte, die sich auf alle Objekte im Katalog beziehen, andere sind darauf beschränkt, ausschließlich den ihnen zugewiesenen Umfang bearbeiten zu können. Das Berechtigungssystem muss also die gesamte Bandbreite von globalen Berechtigungen bis hin zu Berechtigungen für einzelne Objekte im Katalog ermöglichen.

    Zeenea zum Beispiel hat Kunden aller Größenordnungen und mit einem sehr heterogenen Reifegrad in Bezug auf Data Governance-Themen. Einige sind Start-ups, andere sind große Unternehmen. Einige haben die Data Culture bereits fest in ihren Prozessen verankert, andere hingegen sind gerade erst dabei, eine Datenkultur aufzubauen. Das Berechtigungssystem muss daher flexibel genug sein, um sich an alle Arten von Unternehmen und Strukturen anzupassen.

    Lesbarkeit und Prüfbarkeit

    Zweitens muss ein Berechtigungssystem lesbar und leicht nachvollziehbar sein. Bei einem Audit oder einer Überprüfung der Systemberechtigungen muss ein Administrator, der ein Objekt untersucht, schnell erkennen können, wer in der Lage ist, das betroffene Objekt zu verändern. Umgekehrt muss ein Administrator, wenn er sich die Rechte eines Benutzers im Detail ansieht, schnell in der Lage sein, den ihm zugewiesenen Bereich und seine dort erlaubten Aktionen zu bestimmen.

    So wird auf eine einfache Art und Weise sichergestellt, dass die richtigen Personen Zugriff auf die richtigen Bereiche haben und über die richtige Berechtigungsstufe in Bezug auf ihre Rolle im Unternehmen verfügen.

    Waren Sie schon einmal mit einem so komplexen Berechtigungssystem konfrontiert, dass Sie unmöglich nachvollziehen konnten, warum ein bestimmter Benutzer eine bestimmte Information einsehen durfte? Oder warum er im Gegenzug nicht in der Lage war dies zu tun?

    Einfache Verwaltung

    Letztlich muss ein Berechtigungssystem belastbar sein, wenn der Umfang des Katalogs stetig zunimmt. Wir wissen heute, dass wir in einer Welt der Daten leben: 2,5 Exabyte an Daten wurden im Jahr 2020 Tag für Tag erzeugt, und für das Jahr 2025 gehen Schätzungen von 463 Exabyte täglich aus. Neue Projekte, neue Produkte, neue Verwendungszwecke: Unternehmen müssen sich täglich mit der Explosion ihres Datenbestands auseinandersetzen.

    Um relevant zu bleiben, muss sich ein Data Catalog mit den Daten des Unternehmens weiterentwickeln. Das Berechtigungssystem muss angesichts von Änderungen des Inhalts oder der internen Mobilität von Mitarbeitenden unbedingt die notwendige Resilienz aufweisen.

    Verschiedene Ansätze für die Gestaltung eines Berechtigungssystems für einen Datenkatalog

    Es gibt verschiedene Ansätze für die Gestaltung des Berechtigungssystems eines Data Catalogs, welche die erwarteten und oben aufgeführten Hauptmerkmale mehr oder weniger gut erfüllen. Wir haben uns entschieden, drei davon in diesem Artikel näher zu erläutern.

    Crowdsourcing

    Zunächst der Crowdsourcing-Ansatz – man vertraut darauf, dass sich das Kollektiv selbst korrigiert. Einige wenige Administratoren können den Inhalt moderieren und alle Nutzer tragen zur Dokumentation bei. Ergänzend gibt es meist ein Auditsystem, um sicherzustellen, dass keine Informationen durch Fehler oder Böswilligkeit verloren gehen. In diesem Fall gibt es keine Vorabkontrolle, sondern eine kollektive Korrektur im Nachhinein. Ein derartiges System wird typischerweise von Online-Enzyklopädien wie Wikipedia gewählt. Diese Systeme sind auf die Anzahl der Autoren und Beitragenden und deren individuelles Wissen angewiesen, um gut zu funktionieren, da die Selbstkorrektur nur durch das Kollektiv wirksam werden kann.

    Dieses System erfüllt perfekt das Bedürfnis nach Lesbarkeit: Da alle Nutzer die gleiche Berechtigungsstufe haben, gibt es keine offenen Fragen bezüglich der Zugriffsrechte der einzelnen Personen. Auch die Verwaltung ist denkbar einfach – jeder neue Benutzer hat die allen gemeinsame Berechtigungsstufe, und jedes neue Objekt im Data Catalog ist für alle zugänglich. Im Gegenzug gibt es keine Möglichkeit, die Granularität der Rechte zu verwalten. Jeder kann alles tun und alles sehen.

    Dem einzelnen Nutzer zugeordnete Berechtigung

    Ein zweiter Ansatz für die Gestaltung des Berechtigungssystems: Lösungen, bei denen der Umfang der Berechtigungen dem Profil des Nutzers zugeordnet ist. Wenn ein Benutzer im Data Catalog angelegt wird, weisen die Administratoren ihm einen Berechtigungsbereich zu, der die Ressourcen definiert, welche der Benutzer sehen und bearbeiten kann. In diesem Fall werden alle Kontrollen im Vorfeld durchgeführt und ein Benutzer kann nicht versehentlich Zugriff auf eine bestimmte Ressource erhalten. Nach diesem System arbeiten viele Betriebssysteme, wie z. B. Windows.

    Dieses System hat den Vorteil, dass es sehr sicher ist. Es besteht kein Risiko, dass eine neue Ressource für Personen sichtbar ist oder bearbeitet werden kann, die nicht über die notwendige Berechtigung dafür verfügen. Dieses System erfüllt ebenfalls das Bedürfnis nach Lesbarkeit: Für jeden Nutzer sind alle für ihn zugänglichen Ressourcen einfach zu finden. Die erwartete Granularität ist ebenfalls gut, da es möglich ist, die Daten des Systems jeder Ressource einzeln zuzuweisen.

    Im Gegenzug ist die Verwaltung komplexer: Jede neue Ressource, die zum Katalog hinzugefügt wird, muss auch zu den Berechtigungsbereichen der betroffenen Benutzer hinzugefügt werden. Diese Einschränkung kann durch das Erstellen von dynamischen Berechtigungsbereichen ausgeglichen werden. Dazu können Regeln definiert werden, die den Nutzern Ressourcen zuweisen, z. B. werden einem bestimmten Benutzer alle Dateien mit der Dateiendung .PDF zugänglich gemacht. Es können aber leicht widersprüchliche Regeln entstehen, die dann die Lesbarkeit des Systems erschweren.

    Der jeweiligen Ressource zugeordnete Berechtigung

    Der dritte große Ansatz zur Gestaltung des Berechtigungssystems eines Data Catalogs: Lösungen, bei denen die erlaubten Aktionen der zu ändernden Ressource zugeordnet werden. Für jede Ressource werden die möglichen Berechtigungen für den jeweiligen Benutzer festgelegt. Jede Ressource besitzt also eine eigene Liste mit Berechtigungen. Beim Betrachten der Ressource ist dann sofort ersichtlich, wer sie lesen oder bearbeiten kann. Nach diesem System arbeiten beispielsweise UNIX-Betriebssysteme.

    Das Bedürfnis nach Lesbarkeit wird perfekt erfüllt: Ein Administrator sieht beim Betrachten der Ressource sofort die Rechte der verschiedenen Benutzer. Dasselbe gilt für die Granularität: Dieser Ansatz ermöglicht es, Rechte auf Makroebene durch ein Vererbungssystem oder auf mikroskopischer Ebene direkt an der Ressource zu vergeben. Was die Verwaltung betrifft, muss jeder neue Benutzer den verschiedenen Ressourcen zugeordnet werden, was potenziell mühsam ist. Es gibt jedoch Gruppensysteme, die diese Komplexität abmildern können.

    Das Berechtigungsmodell des Zeenea Data Catalog: einfach, lesbar und flexibel

    Von den vorgestellten Ansätzen wollen wir nun den von Zeenea gewählten Ansatz näher erläutern und beschreiben, wie er angewendet wird.

    Wir haben uns für den Ansatz auf Ressourcenebene entschieden

    Lassen Sie uns zunächst die verschiedenen Vor- und Nachteile der zuvor behandelten Ansätze noch einmal zusammenfassen. Die beiden Systeme mit ressourcen- oder benutzerbezogenen Berechtigungen kommen dem Bedarf nach Granularität angemessen nach – diese Systeme ermöglichen die Zuweisung von Rechten für jede einzelne Ressource. Beim Crowdsourcing hingegen lautet die Grundphilosophie, dass jeder auf alles zugreifen kann.

    Die Lesbarkeit ist in Crowdsourcing-Systemen oder bei Systemen, in denen die Berechtigungen an die Ressource geknüpft sind, eindeutig einfacher nachzuvollziehen. In Systemen, in denen die Berechtigungen dem jeweiligen Benutzer zugeordnet sind, ist sie immer noch angemessen, aber oft auf Kosten einer einfachen Verwaltung.

    Die Verwaltung ist bei einem Crowdsourcing-Ansatz sehr einfach und hängt davon ab, was man stärker verändern wird – die Ressource oder die Nutzer.

    Da der Crowdsourcing-Ansatz die Anforderungen an die Granularität nicht erfüllt, haben wir ihn gestrichen. Somit blieben uns zwei Möglichkeiten: die der Ressource zugeordnete Berechtigung oder die dem Benutzer zugeordnete Berechtigung. Aufgrund der Tatsache, dass die Lesbarkeit bei der Ressource zugeordneten Berechtigungen etwas besser ist und da sich der Inhalt des Katalogs schneller ändern wird als die Anzahl der Nutzer, erschien uns die Option der dem Nutzer zugeordneten Berechtigungen als die am wenigsten sinnvolle.

    Die Option, die wir bei Zeenea ausgewählt haben, ist daher die dritte: Die Berechtigungen werden der Ressourcen zugeordnet.

    Die Funktionsweise des Berechtigungssystems des Zeenea Data Catalogs

    Im Zeenea Data Catalog kann für jeden Benutzer festgelegt werden, ob er das Recht hat, Objekte aus dem gesamten Katalog, einen oder mehrere Objekttypen oder nur die Objekte in seinem Bereich zu lesen und zu bearbeiten. Dies ermöglicht maximale Granularität, aber auch globalere Rollen. Beispielsweise könnten „Super-Stewards“ die Berechtigung erhalten, ganze Teile des Katalogs, wie das Glossar, zu bearbeiten.

    Anschließend wird jedem Katalogobjekt eine Liste von Verwahrern zugeordnet, d. h. die Personen, die für die Dokumentation dieses Objekts verantwortlich sind. So ist es mit einer einfachen Betrachtung der Details des Objekts möglich, sofort zu erkennen, an wen man sich wenden muss, um die Dokumentation zu korrigieren, zu vervollständigen oder eine Frage dazu zu stellen. Das System ist also lesbar und einfach verständlich. Die Aktionsbereiche der Benutzer werden mithilfe eines granularen Systems bis hin zum einzelnen Katalogobjekt genau bestimmt.

    Wenn ein neuer Benutzer zum Katalog hinzugefügt wird, muss sein Aktionsbereich festgelegt werden. Aktuell erfolgt diese Konfiguration über eine Massenbearbeitung der Objekte. Um die Verwaltung weiter zu vereinfachen, wird es jedoch bald möglich sein, Gruppen von verantwortlichen Benutzern zu definieren, sodass ein neuer Mitarbeiters bei seinem Eintritt nicht mehr namentlich zu jedem Objekt in seinem Bereich hinzugefügt werden muss. Sie müssen ihn dann nur noch zur zuständigen Gruppe hinzufügen und der Bereich wird ihm automatisch zugewiesen.

    Letztendlich haben wir uns auch bewusst dafür entschieden, keinen Workflow zur Validierung der Dokumentation im Katalog zu implementieren. Wir sind der Meinung, dass die Eigenverantwortung der Teams einer der Schlüssel zum Erfolg bei der Einführung eines Data Catalogs ist. Deshalb führen wir lediglich eine Kontrolle ein, welche die Rechte des Benutzers und seinen Bereich festlegt. Sobald diese beiden Elemente festgelegt wurden, können die Dokumentationsverantwortlichen frei handeln. Ein Ereignisprotokoll über alle Änderungen, um eine vollständige Überprüfbarkeit zu ermöglichen, sowie ein Diskussionssystem über die Objekte, mit dem alle Benutzer Weiterentwicklungen vorschlagen oder Fehler in der Dokumentation melden können, runden die verfügbaren Tools ab.

    Wenn Sie mehr über unser Berechtigungsmodell erfahren oder weitere Informationen über den Data Catalog erhalten möchten:

    Wie wir durch die Umstellung auf ein SaaS-Modell in 6 Monaten 320 Production Releases umsetzen konnten

    Wie wir durch die Umstellung auf ein SaaS-Modell in 6 Monaten 320 Production Releases umsetzen konnten

    Nachdem Zeenea zunächst als On-Premise-Lösung für den Data Catalog begonnen hatte, vollzog das Unternehmen die Umstellung auf eine vollständige SaaS-Lösung. Eineinhalb Jahre später wurden in den vergangenen sechs Monaten über dreihundert Production Releases durchgeführt, das sind im Durchschnitt fast drei pro Tag. Hier erläutern wir, warum wir diesen Wechsel durchgeführt haben, wie wir ihn organisatorisch umgesetzt haben und welchen Mehrwert dies für unsere Kunden bietet.

     

    Die Anfänge von Zeenea: ein On-Premise Data Catalog

    Bei seiner Gründung im Jahr 2017 war Zeenea eine On-Premise-Lösung, d. h. die Architektur war physisch bei unseren Unternehmenskunden verortet. Diese Entscheidung wurde aufgrund zweier zentraler Herausforderungen getroffen: Erstens muss die Sicherheit einer Lösung, die auf alle Datensysteme des Kunden zugreift, zwingend gewährleistet sein; und zweitens basierten die meisten IT-Systeme unserer Kunden auf On-Premise-Datenbankverwaltungssystemen, auf die außerhalb des internen Netzwerks dieser Unternehmen nicht zugegriffen werden konnte.

    Dieser Ansatz bedeutete jedoch eine starke Einschränkung für die Expansion und Entwicklung von Zeenea. Der erste Grund dafür war, dass dieser Ansatz viel Kundensupport für die Einsätze erforderte. Und der zweite Grund war, dass bei verschiedenen Kunden mehrere Versionen gleichzeitig in Betrieb sein konnten. Außerdem war es kompliziert, dringende Korrekturen zu implementieren. Schließlich wurde der entwickelte Produktmehrwert beim Kunden erst verspätet aktualisiert.

    Die strategische Umstellung auf einen Data Catalog, der zu 100 % SaaS-basiert arbeitet.

    Angesichts dieser potenziellen Hemmnisse für die Entwicklung unseres Data Catalogs haben wir Ende 2019 als logische Konsequenz beschlossen, einen Wechsel zu einer vollständig SaaS-basierten Lösung zu vollziehen. Eineinhalb Jahre später haben wir in den vergangenen sechs Monaten über dreihundert Production Releases durchgeführt, das sind im Durchschnitt fast drei pro Tag. Wir sind wie folgt vorgegangen.

    Zunächst haben wir auf das ursprüngliche Sicherheitsproblem reagiert. Wir haben die Sicherheit von Anfang an in unsere Cloud-Praktiken einbezogen und in diesem Sinne auch eine Sicherheitszertifizierung eingeleitet (SOC2 und in Kürze ISO27001).

    Anschließend haben wir aus unserer Architektur den einzigen Baustein herausgenommen, der beim Kunden vor Ort bleiben musste: den Zeenea-Scanner. Aus technologischer Sicht bauten wir eine Multi-Tenant-SaaS-Architektur auf, indem wir unseren bestehenden Monolithen in mehrere Anwendungsbausteine aufteilten.

    Die größte Herausforderung waren jedoch nicht die technischen, sondern die kulturellen und organisatorischen Aspekte …

     

    Die Schlüssel zu unserem Erfolg: Organisation und Gewöhnung an das SaaS-Modell

    Wir haben unsere SaaS-Kultur aufgebaut und gefestigt, hauptsächlich indem wir Mitarbeitende mit großer Erfahrung in diesem Bereich einstellten und den Wissensaustausch effektiv organisiert haben.

    Um den kulturellen Aspekt zu verdeutlichen, unterscheiden wir z. B. zwischen abgeschlossenen und vollständigen Entwicklungen. Bei Zeenea gilt eine Entwicklung als abgeschlossen, wenn sie in die Codebasis integriert ist, keine bekannten Fehler oder Bugs aufweist und das Sicherheits- und Engineering-Niveau den von uns festgelegten Anforderungen entspricht. Eine Entwicklung gilt als vollständig, wenn sie unseren Kunden zur Verfügung gestellt werden kann, die entwickelten Funktionen also ein nutzbares und zusammenhängendes Ganzes bilden.

    Um diese Unterscheidung zu unterstützen, haben wir einen Feature-Toggle-Mechanismus eingeführt, mit dem die Aktivierung vollständig entwickelter Funktionen verwaltet werden kann: Eine Entwicklung geht systematisch in Produktion, sobald sie fertiggestellt ist, und wird dann bei unseren Kunden aktiviert, sobald sie vollständig ist.

    Auf der organisatorischen Seite haben wir Feature-Teams eingeführt: Jedes Team arbeitet an allen Komponenten einer bestimmten Funktion. Sobald eine Funktion vollständig ist, wird sie ausgeliefert. Andere Funktionen werden unvollständig geliefert und deaktiviert, sind aber abgeschlossen.

    Das SaaS-Modell und sein Mehrwert für unsere Kunden

    Die ersten, die einen Vorteil aus der Agilität des SaaS-Modells ziehen, sind natürlich die Zeenea-Kunden. Funktionen sind schneller verfügbar, d. h. sobald sie vollständig sind. Außerdem kann die Einführung einer neuen Funktion nach ihrem Wunsch innerhalb von zwei Monaten nach der Bereitstellung des Feature-Toggle erfolgen.

    Dies ermöglicht eine einfache Integration in den Kundenkontext, da es insbesondere seine Benutzereinschränkungen berücksichtigt. Schließlich ermöglicht uns diese Möglichkeit der Funktionsaktivierung, Funktionen vorab vorzustellen und in einigen Fällen sogar Beta-Tests für unsere Kunden durchzuführen.

    All dies verstärkt sich natürlich durch die traditionellen Vorteile einer SaaS-Lösung: automatische und häufige Updates von kleineren Weiterentwicklungen oder Korrekturen, Zugriff auf die Lösung von jedem Browser aus, keine Hardware-Infrastruktur bei unseren Kunden, was eine schnelle Skalierbarkeit ermöglicht usw.

    Auch wenn der Weg zur Umstellung von einem On-Premise-Modell auf eine SaaS-Anwendung mit etlichen Hindernissen verbunden war, sind wir heute stolz darauf, dass wir die Herausforderung der (fast) kontinuierlichen Bereitstellung gemeistert haben und unseren Kunden jetzt einen deutlich höheren Mehrwert bieten können.

    Der Data Catalog: das wichtigste Bindeglied im Metadaten-Management

    Der Data Catalog: das wichtigste Bindeglied im Metadaten-Management

    Produziert oder nutzt Ihr Unternehmen eine immer größere Menge an Daten? Um sie zu klassifizieren, zu ordnen und sie im Alltag zum Sprechen zu bringen, ist Ordnung entscheidend. Durch ein strenges und konsequentes Metadaten-Management, gestützt auf einen leistungsfähigen Datenkatalog, können Sie sowohl an Relevanz als auch an Effizienz gewinnen.

    Die Unternehmen produzieren immer mehr Daten. Das geht so weit, dass die Verarbeitungs- und Auswertungskapazitäten beeinträchtigt werden können, und zwar nicht aus einem Mangel an Wissen, sondern aus einem Mangel an Organisation. Wenn die Datenmengen explodieren, wird auch das Datenmanagement komplexer.

    Um hier Ordnung zu schaffen und zu halten, wird das Metadaten-Management zu einer zentralen Herausforderung.

    Was sind Metadaten und wie werden sie verwaltet?

    Metadaten werden verwendet, um die in einem Datensatz enthaltenen Informationen zu beschreiben: Quelle, Typ, Uhrzeit, Datum, Größe … Die Bandbreite der Metadaten, die an einen Datensatz angehängt werden können, ist groß. Ohne Metadaten verlieren Ihre Daten ihren Kontext, sie verlieren ihre Aussagekraft und sind schwer zu klassifizieren, zu ordnen und zu nutzen. Da sie aber sehr zahlreich und sehr unterschiedlich sind, müssen Sie in der Lage sein, diese Informationsflut zu bewältigen.

    Aktualität, Genauigkeit, Zugänglichkeit – das Metadaten-Management setzt sich also als unumgängliche Praxis durch. Um die Herausforderung eines optimalen Metadaten-Managements zu meistern, müssen Sie sich unbedingt auf einen Data Catalog stützen.

     

    Welche Vorteile bringt ein Datenkatalog?

    Ein Datenkatalog ist vergleichbar mit dem Index einer riesigen Enzyklopädie. Da die Daten, die Sie tagtäglich sammeln und verwalten, naturgemäß vielfältig sind, müssen Sie diese klassifizieren und eindeutig identifizieren. Andernfalls würde Ihr Datenbestand zu einem riesigen Durcheinander werden, aus dem Sie keinen Mehrwert ziehen können.

    Bei Zeenea definieren wir einen Data Catalog als:

    Ein detailliertes Inventar aller Datenbestände einer Organisation und ihrer Metadaten, das Datenprofis dabei helfen soll, schnell die Informationen zu finden, die für den jeweiligen Geschäfts- und Analysezweck am besten geeignet sind.

    Ein Datenkatalog ist durch die folgenden Funktionen eine wichtige Säule für das Metadaten-Management:

    Data Dictionary

    Jede gesammelte oder verwendete Angabe wird so beschrieben, dass sie in Bezug zu anderen Daten gesetzt werden kann. Dieser Metadaten-Thesaurus ist ein Grundpfeiler für die effiziente und pragmatische Nutzung Ihres Datenkatalogs. Der Data Catalog referenziert alle Daten Ihres Unternehmens in einem Data Dictionary und trägt so dazu bei, den Zugang zu Informationen zu optimieren, selbst wenn der Benutzer keinen Zugriff auf die betreffende Software hat.

    Metadaten-Register

    Dieses dynamische Metadaten-Repository greift auf allen Ebenen ein: vom Datensatz bis zu den Daten selbst. Für jedes Element kann dieses Metadatenregister eine geschäftliche und technische Beschreibung, die Eigentümer, Qualitätsindikatoren oder auch eine Taxonomie (Properties, Tags usw.) enthalten.

    Daten-Suchmaschine

    Durch die integrierten Suchfunktionen Ihres Datenkatalogs können Sie auf Ihre Daten zugreifen. Alle im Register ausgefüllten Metadaten können über die Suchmaschine des Datenkatalogs abgefragt werden. Die Suche kann auf allen Ebenen sortiert und gefiltert werden.

    Data Catalog und Metadaten: die zwei Säulen der Datenexzellenz!

    Es ist sinnlos zu versuchen, den Datenkatalog und das Konzept des Metadaten-Managements gegeneinander auszuspielen, da sie einfach zusammengehören.

    Der Data Catalog ist sozusagen ein unverzichtbares Repository zur Vereinheitlichung aller Metadaten, die in Ihrem Unternehmen ausgetauscht werden können. Dieses Repository trägt zu einem genauen Verständnis und einer präzisen Dokumentation Ihrer Datenbestände bei.

    Aber Vorsicht! Die Integration eines Data Catalogs ist ein Projekt, das ein gründliches und methodisches Vorgehen erfordert. Um diese Arbeit in Angriff zu nehmen und Ihr Datenpotenzial freizusetzen, sollten Sie zunächst einen umfassenden Audit Ihrer Daten durchführen und iterativ vorgehen.

    Als Garant für die richtige Verwendung Ihrer Daten ist der Datenkatalog ein wichtiger Hebel, den Sie betätigen müssen, um das Metadaten-Management Ihres Unternehmens zu stärken!

    Was ist Data Lineage?

    Was ist Data Lineage?

    Ihre Daten-Assets müssen jederzeit ohne Einbußen verfügbar und nutzbar sein. Damit Ihnen das gelingt, sollten Sie perfekt über Ihre Daten, ihre Herkunft und über ihre Nutzung in Ihrer Organisation Bescheid wissen. Dieses Wissen verschaffen Sie sich mit Data Lineage.

    Daten stellen nach Mitarbeitern das wertvollste Vermögensgut von Unternehmen dar. Daten müssen erhalten und aufgewertet werden, denn sie sind die Intelligenz eines Unternehmens. Sie sind die Verbindung zwischen Unternehmen, Kunden und Partnern.

    Aber aus dieser zentralen Stellung im Alltag eines Unternehmens ergibt sich eine große Verantwortung für diejenigen, die die Daten nutzen. Verstehen, ohne aufdringlich zu sein, wissen, ohne auszuspionieren – das muss alles ins Gleichgewicht gebracht werden.

    Vom Inkrafttreten des BCBS 239 bis hin zur DSGVO möchte der Gesetzgeber in Bezug auf Daten transparente Bedingungen schaffen, um so weit wie möglich die Privatsphäre des Einzelnen zu schützen, und zu ermöglichen, dass Daten niemals zum Nachteil eines Kunden genutzt werden können.

    Angesichts dieser Erfordernisse ist Data Lineage von entscheidender Bedeutung. Hinter dem Anglizismus Data Lineage – auf Deutsch als Datenherkunft bezeichnet – steckt ein zentrales Konzept: die Rückverfolgbarkeit von Daten. Dabei handelt es sich um eine Rückverfolgbarkeit, die den gesamten Lebenszyklus der Daten umspannt – von der Erfassung über die Nutzung bis hin zur Speicherung und Aufbewahrung im Laufe der Zeit.

     

    Data Lineage: so funktioniert es

    Der Zweck von Data Lineage besteht darin, eine absolute Rückverfolgbarkeit Ihrer Daten gewährleisten zu können. Und das beschränkt sich nicht nur auf das Wissen über die Herkunft der Informationen. Das geht noch viel weiter!

    Um den besonderen Wert von Data Lineage besser verstehen zu können, möchte ich folgendes Bild verwenden.

    Stellen Sie sich vor, Sie essen in einem Restaurant zu Abend. Auf der Speisekarte stehen Gerichte mit fantasievollen Bezeichnungen und mit mehr oder weniger zahlreichen exotischen Zutaten, von denen Ihnen einige unbekannt sind. Der Kellner bringt Ihnen Ihren Teller, Sie kosten, es schmeckt Ihnen und Sie fragen nach der Herkunft des Gerichts, das Sie gerade essen.

    Abhängig von Ihrer Persönlichkeit erwarten Sie nicht die gleiche Antwort.

    Als Feinschmecker möchten Sie wissen, wie die verschiedenen Zutaten  verarbeitet wurden, um das Endprodukt zu ergeben. Sie möchten über die verschiedenen Schritte der Zubereitung, die Garmethode, die Dauer, die Gewürze  usw. Bescheid wissen. Kurz gesagt, Sie interessieren sich für die technischen Details der Zubereitung – das Rezept. Und vermutlich möchten Sie auch mehr über die Herkunft der Zutaten wissen.

    Als Prüfer konzentrieren Sie sich stärker auf die gesamte Liefer- und Transformationskette: Identität der Lieferanten, Ort und Bedingungen der Aufzucht oder des Anbaus der Zutaten, Transport, Verpackung, Schlachtung, Zerkleinerung und Vorbereitung, Einhaltung der Kühlkette, usw. Sie möchten sich bestimmt auch vergewissern, dass diese Lieferkette den verschiedenen Labels oder Zertifikaten entspricht, auf die der Restaurantbetreiber verweist (Herkunft der Zutaten, Bio, „hausgemacht“, AOC, AOP, usw.).

    Wieder andere interessieren sich für historische oder kulturelle Informationen – woher stammt das Gericht, welche Tradition hat es inspiriert? Wann und von wem wurde es ursprünglich kreiert?

    Und wieder andere (eher wenige, denke ich) werden mehr über den phylogenetischen Ursprung der Kälberrasse wissen wollen, die der Koch verwendet hat …

    Kurz gesagt: In der Gastronomie wird auf die Frage nach der Herkunft nicht eine einzige, gleichartige Antwort erwartet. Und das gilt auch für Daten.

    Denn mit Data Lineage verfügen Sie über ein Instrument, mit dem Sie Daten in Echtzeit überwachen können.

    Sobald sie erfasst wurden, werden sie überwacht, um:

        • mögliche Fehler bei Datenverarbeitungsprozessen zu erkennen und zu nachzuverfolgen,
        • Prozessänderungen kontinuierlich zu steuern und zu überwachen, indem die Risiken einer Beeinträchtigung der Daten gemindert werden,
        • Datenmigrationen zu steuern,
        • sich einen Überblick über ihre Metadaten zu verschaffen.

    Data Lineage dient als Hilfe in Ihrem Unternehmen, um sicherzustellen, dass Ihre Daten aus einer zuverlässigen, kontrollierten Quelle stammen, dass die Transformationen, denen sie möglicherweise unterzogen werden, bekannt, überwacht und legitim sind und dass sie an der richtigen Stelle und zum richtigen Zeitpunkt für den richtigen Nutzer zur Verfügung stehen.

    Als Kontrollinstrument hat Data Lineage die Hauptaufgabe, die Genauigkeit und Einheitlichkeit ihrer Daten zu prüfen. Und wie kann das gewährleistet werden? Data Lineage versetzt Ihre Mitarbeiter in die Lage, Suchen im gesamten Lebenszyklus von Daten durchzuführen – upstream und downstream, von der Quelle bis zum finalen Ziel – um Anomalien zu erkennen, zu isolieren und zu korrigieren.

    Die vier Hauptvorteile von Data Lineage

    Erster Vorteil: Die Einführung von Data Lineage geht mit der Einhaltung regulatorischer Anforderungen einher. Da damit alle Produktions- und Nutzungsprozesse von Daten überprüft und kartiert werden, trägt Data Lineage dazu bei, das Risiko eines Datenschutzverstoßes zu reduzieren.

    Darüber hinaus unterstützt sie die Data Governance, denn Ihrem Unternehmen und den Mitarbeitern wird ein umfassendes Regelwerk bereitgestellt, das den Fluss der Daten und Metadaten beschreibt. Dieses Wissen ist von entscheidender Bedeutung, um eine hundertprozentig einsatzfähige Datenarchitektur zu gestalten.

    Ebenso ermöglicht Data Lineage eine automatisierte Dokumentation Ihrer Abläufe bei der Datenerzeugung. Und wenn Sie Daten in Ihrer Entwicklungsstrategie eine vorrangige Stellung einräumen möchten, wird Data Lineage Ihnen bei der Realisierung der Projekte erheblich Zeit sparen.

    Und der letzte große Vorteil betrifft ihre Mitarbeiter selbst. Mit Daten, deren Herkunft, Qualität und Zuverlässigkeit durch Data Lineage gewährleistet ist, können sie sich komplett auf Ihre Abläufe verlassen und für ihre täglichen Aufgaben dieses unverzichtbare Asset heranziehen.

    Richten Sie Ihr Unternehmen auf diese neue Dimension aus, die auf einer Datenstrategie ohne Einbußen beruht: Sparen Sie Zeit, gewährleisten Sie die Einhaltung der DSGVO und erleichtern Sie Ihren Teams die Arbeit … Warten Sie nicht länger, fangen Sie sofort an!

    Was ist das Data Mesh?

    Was ist das Data Mesh?

    Im Bereich der Datennutzung findet man regelmäßig neue Begriffe: Data Management Platform, Data Quality, Data Lake, Data Warehouse … Hinter jedem dieser Begriffe verbergen sich Besonderheiten und technische Lösungen. Mit dem Data Mesh gehen Sie einen Schritt weiter und bringen technisches und funktionales Management in Einklang. Begriffsklärung:

    Sie fragen sich: „Data Mesh“? Was soll das sein? Sie brauchen nicht rot zu werden, wenn Sie mit diesem Konzept nicht vertraut sind.  Es wurde erst 2019 als Antwort auf die wachsende Zahl von Datenquellen und den zunehmenden Bedarf der Unternehmen an Agilität ins Leben gerufen.

    Das Modell des Data-Mesh beruht auf dem Prinzip einer dezentralisierten oder verteilten Architektur, die ein Geflecht aus zahlreichen Daten nutzt. Wenn man sich den Data Lake als einen Speicherplatz für Rohdaten vorstellen kann, und das Data Warehouse als Plattform für die Sammlung und Analyse heterogener Daten, die von Ihren Mitarbeitenden ausgewertet werden können, folgt das Data Mesh einer anderen Logik.

    Auf dem Papier haben Data Warehouse und Data Mesh viele Gemeinsamkeiten, vor allem in Bezug auf ihren Hauptzweck, nämlich den ständigen Zugriff in Echtzeit auf möglichst aktuelle Informationen zu ermöglichen. Das Data Mesh geht jedoch noch einen Schritt weiter. Die Aktualität der Informationen ist nur ein Teil dieses Tools.

    Da es sich um ein verteiltes Modell handelt, ist das Data Mesh so konzipiert, dass es jedem Geschäftsbereich in Ihrem Unternehmen die für ihn relevanten Schlüsselinformationen bietet. Um diese Herausforderung zu meistern, beruht das Data Mesh auf der Erstellung von Datendomänen.

    Welche Vorteile bietet das? Mehr Autonomie für Ihre Teams durch lokale Datenverwaltung, die Berücksichtigung einer dezentralisierten Dimension, die es ermöglicht, immer mehr Daten zu aggregieren, und schließlich die Kontrolle über die Organisation Ihrer Datenbestände zu behalten.

    Data Mesh: zwischen Logik und Organisation

    Während der Data Lake letztlich ein zentraler Speicher für alle Ihre Daten ist, ist das Data Mesh das genaue Gegenteil. Vergessen Sie die monolithische Dimension des Data Lake. Daten sind ein lebendiges, ständig in Entwicklung begriffenes Asset, ein Werkzeug, das dem besseren Verständnis Ihres Marktes, Ihres Ökosystems dient und als solches nur ein Instrument der Erkenntnis und des Verständnisses ist.

    Um das Konzept des Datengeflechts zu verinnerlichen, muss man Daten anders denken. Wie genau? Indem man den Grundstein für eine Organisation mit mehreren Domänen legt. Jeder Datentyp hat seinen Zweck, sein Ziel und seine Nutzung.

    Ab diesem Zeitpunkt müssen alle Abteilungen Ihres Unternehmens ihre Aktivitäten und Entscheidungen auf die Daten stützen, die ihnen wirklich dabei helfen, ihre Aufgaben zu erfüllen. Das Marketing verwendet nicht dieselben Daten wie der Vertrieb oder Ihre Produktionsteams.

    Die Implementierung eines Datenkatalogs ist daher die wichtigste Voraussetzung für die Erstellung eines Data Mesh. Das bedeutet, dass es ohne eine klare Vorstellung von der Data Governance schwierig sein wird, die Transformation Ihres Unternehmens in Gang zu setzen.

    Auch die Datenqualität ist ein zentrales Element für diese Überlegungen. Aber das Data Mesh wird Ihnen dabei helfen, indem es die Datenverantwortung auf Domänenebene dezentralisiert und qualitativ hochwertige, umgewandelte Daten liefert.

    Herausforderungen, die es zu bewältigen gilt

    Sie halten die Einführung eines Data Mesh für unmöglich, weil Sie das Projekt für komplex und zu technisch halten? Keine Panik! Das Data Mesh ist, abgesehen von seiner technischen Natur, seinen Anforderungen und der damit verbundenen Strenge, vor allem ein neues Paradigma. Er muss alle Beteiligten in Ihrer Organisation dazu bringen, Daten als ein an die Fachbereiche gerichtetes Produkt zu denken.

    Mit anderen Worten: Wenn Sie sich am Data-Mesh-Modell orientieren, wird die technische Infrastruktur der Datenumgebung zentralisiert, während die operative Verwaltung der Daten dezentralisiert und den Fachabteilungen überlassen wird.

    Mit einem Data Mesh schaffen Sie die Voraussetzungen für eine große Akzeptanz von Daten und eine Datenkultur in allen Ihren Teams, damit alle Mitarbeitenden ihre täglichen Aktivitäten auf Daten stützen können.

    Zwischen Aufbruchstimmung und straffer Verwaltung

    Die Logik des Data Mesh ist, dass die Daten den Fachabteilungen dienen. Das bedeutet, dass Ihre Teams einfach und jederzeit darauf zugreifen und die Daten bearbeiten können müssen, um sie als Nährboden für ihre tägliche Arbeit zu nutzen.

    Um dennoch die Qualität der Daten zu erhalten oder die Einhaltung der Governance-Regeln zu gewährleisten, ist das Change Management von entscheidender Bedeutung und die Definition der Berechtigungen der einzelnen Personen entscheidend. Im Rahmen der Einführung eines Data Mesh müssen Sie ein gesundes Fundament für Ihre Organisation legen.

    Auf der einen Seite steht der freie Zugang zu den Daten für alle Mitarbeitenden (die funktionale Governance). Auf der anderen Seite steht die Verwaltung und Administration, mit anderen Worten: die technische Governance in den Händen der Data-Teams.

    Die Nutzung zu erleichtern, indem man die Rollen klar unterteilt – das ist der vermeintliche Widerspruch des Data Mesh!

    Die Katalogisierung von Daten als Schlüssel zur Einhaltung von Vorschriften

    Die Katalogisierung von Daten als Schlüssel zur Einhaltung von Vorschriften

    Unabhängig von der Branche ist das Beherrschen der Daten ein strategischer Schlüsselbereich für jedes Unternehmen.Diese Informationen sind entscheidend, um Innovationen für die Produkte und Dienstleistungen von morgen zu entwickeln. Mit dem Aufkommen neuer Technologien wie Big Data, IoT oder auch künstlicher Intelligenz sammeln Unternehmen zudem exponentiell wachsende Datenmengen, die aus verschiedenen Quellen mit unterschiedlichen Formaten stammen.

    Darüber hinaus erfordert die Datenverarbeitung aufgrund der immer strengeren Vorschriften wie der DSGVO die Einführung geeigneter Sicherheitsmaßnahmen, um Datenlecks und missbräuchlicher Verarbeitung vorzubeugen.

    Die Herausforderung liegt also in der erneuten Inbesitznahme des eigenen Datenbestands. Mit anderen Worten: Die Unternehmen suchen nach Lösungen, um eine Katalogisierung und Abbildung ihrer Daten aufrechtzuerhalten, die ihre betriebliche Realität widerspiegelt.
     

    Was ist eine Datenkatalogisierung?

    Beginnen wir bei den Grundlagen: Mit einer Datenkatalogisierung (auch Data Mapping genannt) können Sie die Zugangspunkte von Daten sowie deren Verarbeitung bewerten und grafisch darstellen. Es gibt verschiedene Arten von Informationen, die katalogisiert werden müssen, z. B:

    • die Informationen über die Daten,
    • die Verarbeitung der Daten.

     

    Über die Daten

    Die Idee eines Data Mappings ist es, an der Datensemantik (Untersuchung der Bedeutungen und ihres Sinns) zu arbeiten
    Diese Arbeit findet nicht an den Daten selbst statt, sondern vielmehr über die Metadaten. Sie ermöglichen es, die Bedeutung der Daten und ihren Kontext bestmöglich zu erfassen. Diese Metadaten können den „geschäftlichen“ Namen der Daten, ihren technischen Namen, ihren Speicherort, wann sie gespeichert wurden, von wem sie gespeichert wurden usw. beschreiben.

    Durch die Einführung semantischer Regeln und einer gemeinsamen Datensprache über ein Business Glossary können Unternehmen ihre Daten identifizieren und lokalisieren und so allen Mitarbeitern den Zugriff auf die Daten ermöglichen.
     

    Über die Datenverarbeitung

    In Bezug auf die Datenverarbeitung ist es wichtig, Folgendes zu erfassen:

    • die Datenströme: mit ihren Quellen und Zielen,
    • die Datentransformationen: alle Transformationen, welche die Daten bei der Verarbeitung durchlaufen.

     

    Ein mächtiges Werkzeug: Die Data Lineage

    Data Lineage ist definiert als der Lebenszyklus eines Datensatzes und ist eine Dokumentation aller Transformationen, die zwischen seinem Anfangszustand und seinem Endzustand stattgefunden haben.

    Data Lineage ist eng mit der Katalogisierung der Datenverarbeitung verbunden: Man muss sehen, welche Daten von einer bestimmten Verarbeitung betroffen sind und die Auswirkungen sehr schnell analysieren können. Wenn zum Beispiel eine Verarbeitungsanomalie zu einer Beschädigung von Daten geführt hat, kann man so herausfinden, welche Daten potenziell betroffen sind.

    In einem anderen Fall muss das Mapping aus der Sicht eines Datensatzes sagen können, aus welchen Datensätzen der Datensatz hervorgegangen ist.  So kann man die Auswirkungen einer Änderung des Quelldatensatzes schnell analysieren, da man die verknüpften Daten schnell wiederfindet.
     

    Die Vorteile der Einführung des Datamappings

    Mit einer Mapping-Lösung können Unternehmen auf die geltenden Datenschutzgesetze reagieren, insbesondere auf die DSGVO, indem sie die folgenden Fragen beantworten:

    • Wer? Wer ist für einen Datensatz oder eine Verarbeitung verantwortlich? Wer ist für den Datenschutz verantwortlich? Wer sind mögliche Auftragsdatenverarbeiter?
    • Was? Welche Art von Daten wird erfasst? Handelt es sich um sensible Daten?
    • Warum? Können wir den Zweck der Erfassung und Verarbeitung der Daten  ?
    • Wo? Wo werden die Daten gespeichert? In welcher Datenbank?
    • Wie lange? Wie lange werden die einzelnen Datenkategorien aufbewahrt?
    • Wie genau? Was ist der Rahmen und welche Sicherheitsmaßnahmen werden für die sichere Erfassung und Speicherung personenbezogener Daten ergriffen?

    Bei der Beantwortung dieser Fragen positionieren sich IT-Manager, Data Lab Manager, Business Analysts oder auch Data Scientists, um die Arbeit mit Daten relevant und effektiv zu gestalten.

    Mithilfe dieser Fragen können Unternehmen die Vorschriften einhalten, aber gleichzeitig auch:

    • Die Datenqualität verbessern und möglichst viele Informationen bereitstellen, mit deren Hilfe die Nutzer erkennen können, ob die Daten für die Verwendung geeignet sind.
    • Die Effizienz und Selbständigkeit ihrer Mitarbeiter durch grafisches und ergonomisches Data Mapping erhöhen.
    • Daten im Detail analysieren, um bessere datengestützte Entscheidungen zu treffen und letztendlich eine datengetriebene Organisation zu werden.

     

    Schlussfolgerung

    Nur wenn ein Unternehmen über einen korrekt katalogisierten Datenbestand verfügt, wird es in der Lage sein, die Vorteile seiner Daten zu nutzen. Eine qualitativ hochwertige Datenanalyse ist nur möglich, wenn die Daten ordnungsgemäß dokumentiert, rückverfolgbar und für alle zugänglich sind.

    Sie suchen nach einem Tool für das Data Mapping?

    Weitere Informationen zu unserem Data Catalog erhalten Sie unter den folgenden Links:

    oder vereinbaren Sie direkt mit uns einen Termin für eine Demo unserer Lösung:

    IoT in der Industrie: Warum Ihr Unternehmen einen Datenkatalog benötigt

    IoT in der Industrie: Warum Ihr Unternehmen einen Datenkatalog benötigt

    Die digitale Transformation ist zu einer Priorität in der Gesamtstrategie von Unternehmen geworden, und die Industrie bildet hier keine Ausnahme! Angesichts höherer Kundenerwartungen, größerer Anforderungen an die Personalisierung und der zunehmenden Komplexität der globalen Lieferkette müssen die Branchen neue, innovativere Produkte und Dienstleistungen finden. Als Reaktion auf diese Herausforderungen investieren Produktionsbetriebe zunehmend in das IoT.

    In der Tat ist der IoT-Markt in den letzten Jahren exponentiell gewachsen. Laut IDC werden die Umsätze im IoT-Sektor im Jahr 2022 auf rund 1,2 Billionen US-Dollar anwachsen. Statista hingegen schätzt, dass seine wirtschaftlichen Auswirkungen bis 2025 zwischen 3,9 und 11,1 Billionen US-Dollar betragen könnten.

    In diesem Artikel definieren wir, was das IoT ist, zeigen einige spezifische Anwendungsbeispiele in der Produktion und erklären, warum ein Zeenea Data Catalog ein wichtiges Tool für Hersteller ist, um bei der Einführung des IoT Fortschritte zu machen.

    Was ist das IoT?

    Eine kurze Definition

    Laut Tech Target ist das Internet der Dinge (Internet of Things, IoT) „ein System aus miteinander verbundenen IT-Geräten, mechanischen und digitalen Anlagen, Gegenständen oder Personen, die mit eindeutigen Kennungen und der Fähigkeit ausgestattet sind, Daten über ein Netzwerk zu übertragen, ohne dass eine Interaktion von Mensch zu Mensch oder von Mensch zu Computer erforderlich ist“.

    Ein „Ding“ im IoT kann also eine Person mit einem implantierten Herzmonitor sein, ein Auto mit eingebauten Sensoren, die den Fahrer warnen, wenn der Reifendruck niedrig ist, oder ein beliebiges anderes Objekt, dem eine Kennung zugewiesen werden kann und das in der Lage ist, Daten über ein Netzwerk zu übertragen.

    Aus der Perspektive der Fertigung ist das IoT ein Mittel zur Digitalisierung von Industrieprozessen. Das industrielle IoT nutzt ein Netzwerk von Sensoren, um kritische Produktionsdaten zu sammeln, und verwendet verschiedene Softwareprogramme, um diese Daten in wertvolle Informationen über die Effizienz der Produktionsabläufe umzuwandeln.

    Anwendungsbeispiele für das IoT in der verarbeitenden Industrie

    Derzeit beschäftigen sich viele IoT-Projekte mit den Bereichen Anlagen- und Asset-Management, Sicherheit und Betrieb, Logistik, Kundenservice usw. Im Folgenden finden Sie eine Liste mit Beispielen für IoT-Anwendungen im produzierenden Gewerbe:

    Predictive Maintenance (Vorausschauende Wartung)

    Für die Industrie stellen ungeplante Ausfallzeiten und Pannen zwei der größten Probleme dar. Die Fertigungsunternehmen erkennen daher, wie wichtig es ist, potenzielle Ausfälle, ihr Auftreten und ihre Folgen zu identifizieren. Um diese potenziellen Probleme zu überwinden, setzen Unternehmen Machine Learning (ML) ein, um schnellere und intelligentere datengestützte Entscheidungen zu treffen.

    ML erleichtert das Erkennen von Mustern in den verfügbaren Daten und die Vorhersage von Ergebnissen der Anlagen. Diese Art von Informationen ermöglicht es den Herstellern, den aktuellen Zustand ihrer Anlagen einzuschätzen, Warnzeichen zu ermitteln, Warnungen zu übermitteln und die entsprechenden Reparaturprozesse zu aktivieren.

    Mithilfe von Predictive Maintenance durch die Nutzung des IoT können Hersteller die Wartungskosten senken, die Ausfallzeiten verkürzen und die Lebensdauer ihrer Anlagen und Maschinen verlängern. Das verbessert die Produktionsqualität, da Probleme behoben werden, bevor die Geräte ausfallen.

    Medivators, ein führender Medizintechnik-Hersteller, integrierte beispielsweise erfolgreich IoT-Lösungen im gesamten Servicebereich und verzeichnete einen beeindruckenden Anstieg von 78 % bei Service-Ereignissen, die ohne zusätzliche Personalressourcen leicht diagnostiziert und behoben werden konnten.

    Asset-Nachverfolgung

    Die Nachverfolgung von IoT-Assets ist eines der am schnellsten wachsenden Phänomene in der Industrie. Bis 2027 werden weltweit schätzungsweise 267 Millionen Asset-Tracking-Systeme in der Landwirtschaft, der Lieferkette, im Bauwesen, im Bergbau und in anderen Märkten eingesetzt.

    Während Hersteller in der Vergangenheit viel Zeit damit verbracht haben, ihre Produkte manuell nachzuverfolgen und zu überprüfen, nutzt das IoT Sensoren und Asset-Management-Software, um die „Dinge“ automatisch zu überwachen. Diese Sensoren übertragen ihre Standortinformationen kontinuierlich oder in regelmäßigen Abständen ins Internet, und die Software zeigt diese Informationen dann an, sodass Sie diese abrufen können. Dadurch können Fertigungsunternehmen den Zeitaufwand für das Auffinden von Materialien, Werkzeugen und Geräten reduzieren.

    Die Automobilindustrie ist ein hervorragendes Beispiel dafür: Das IoT hat erheblich zur Verfolgung von Daten der einzelnen Fahrzeuge beigetragen. So hat Volvo Trucks beispielsweise Connected Fleet Services eingeführt, die eine intelligente Navigation mit Echtzeit-Straßenbedingungen nutzen, die auf der Grundlage von Informationen anderer Volvo-LKWs in der gleichen Gegend erstellt werden. In Zukunft werden mehr Echtzeitdaten aus Fahrzeugen dazu beitragen, dass die Wetteranalysen schneller und genauer arbeiten können; z. B. lässt die Nutzung von Scheibenwischern und Scheinwerfern am Tag Rückschlüsse auf die Witterungsverhältnisse zu. Diese Aktualisierungen können dazu beitragen, die Nutzung von Assets zu maximieren, indem Fahrzeuge abhängig von der Witterung umgeleitet werden können.

    Ein weiteres Beispiel für die Verfolgung ist bei Amazon zu sehen. Das Unternehmen verwendet WiFi-Roboter, um die QR-Codes seiner Produkte zu scannen und so die Bestellungen zu verfolgen und zu sortieren. Stellen Sie sich vor, Sie könnten Ihr Inventar, einschließlich der Vorräte, die Sie für die zukünftige Fertigung auf Lager haben, mit nur einem Klick verfolgen. Sie werden nie wieder eine Frist verpassen! Und um es noch einmal zu wiederholen: All diese Daten können dazu verwendet werden, Trends zu erkennen, um die Fertigungstermine noch effizienter zu gestalten.

    Ein Innovationsmotor

    Durch das Sammeln und Überprüfen industrieller Daten können die Unternehmen Produktionsprozesse besser verfolgen und exponentiell wachsende Datenmengen sammeln. Dieses Wissen ermöglicht die Entwicklung innovativer Produkte und Dienstleistungen sowie neuer Geschäftsmodelle. So hat beispielsweise JCDecaux Asia seine Anzeigenstrategie mithilfe von Daten und IoT entwickelt. Ihr Ziel war es, ein klares Bild davon zu bekommen, was die Menschen an den von ihnen durchgeführten Kampagnen interessiert und ihre Aufmerksamkeit durch Animationen auf ihren Bildschirmen noch stärker zu gewinnen. „Auf einigen Bildschirmen haben wir kleine Kameras installiert, mit denen wir messen können, ob die Menschen vor der Werbung langsamer werden oder nicht“, erklärt Emmanuel Bastide, Generaldirektor für die Region Asien bei JCDecaux.

    Wird die Anzeige von Werbung in Zukunft auf individuelle Profile zugeschnitten sein? JCDecaux erklärt, dass es z. B. an Flughäfen möglich sei, Werbung gezielter auf die Tageszeit oder die Landung eines Flugzeugs aus einem bestimmten Land auszurichten! Durch die Verbindung mit den Ankunftssystemen des Flughafens können die erzeugten Daten die Informationen an die Anzeigeterminals senden, die dann spezielle Werbung für die ankommenden Passagiere anzeigen können.

    Datenkataloge: Eine zentrale Quelle der Wahrheit, um Ihre Industriedaten zu beherrschen

    Um erweiterte Analysen zu ermöglichen, Daten von Sensoren zu sammeln, digitale Sicherheit zu gewährleisten und Machine Learning und künstliche Intelligenz zu nutzen, müssen die Branchen „ihre Daten freischalten“. Das bedeutet, sie in einer Art intelligenten und benutzerfreundlichen „Gelben Seiten“ innerhalb der Datenlandschaft des Unternehmens zu zentralisieren.

    Ein Datenkatalog ist eine zentrale Ablage für Metadaten, die es jeder Person im Unternehmen ermöglicht, auf alle Daten zuzugreifen, die für einen bestimmten Zweck benötigt werden, sie zu verstehen und ihnen zu vertrauen.

    Zeenea, der Datenkatalog für die Industrie

    Zeenea hilft den verschiedenen Branchen beim Aufbau einer durchgängigen Informationswertschöpfungskette. Unser Data Catalog ermöglicht die Rundum-Verwaltung einer Wissensbasis, indem er das gesamte Potenzial der Metadaten Ihrer Unternehmens-Assets nutzt.

    Erfolgsgeschichte von Renault: Wie der Zeenea Data Catalog unverzichtbar wurde

    2017 wurde Renault Digital mit dem Ziel gegründet, die Renault-Gruppe in ein datengetriebenes Unternehmen zu verwandeln.

    Heute besteht diese Einheit aus einer Gemeinschaft von Experten aus verschiedenen digitalen Bereichen, die in der Lage sind, agile Innovationen für die IT-Projekte des Unternehmens zu entwickeln. In einem Vortrag auf dem Data Centric Exchange von Zeenea beschreibt Jean-Pierre Huchet, Data Lake Manager von Renault, was ihre größten Herausforderungen mit den Daten waren:

    • Die Daten waren zu stark in Silos organisiert,
    • der Zugang zu den Daten war schwierig,
    • es gab keine klare und gemeinsame Begriffsdefinitionen in Bezug auf Daten,
    • es fehlte ein Überblick über personenbezogene oder sensible Daten,
    • es gab eine geringe Akzeptanz von Daten (oder Data Literacy).

    Durch die Wahl von Zeenea als Datenkatalog waren sie in der Lage, diese Herausforderungen zu meistern. Zeenea ist heute zu einem wichtigen Baustein in den Datenprojekten von Renault Digital geworden. Sein Erfolg äußert sich durch:

    • Seine Integration in das Renault Digital Onboarding: Die Bedienung des Datenkatalogs ist Teil des Ausbildungsprogramms.
    • Widerstandsfähige Dokumentationsprozesse und -regeln, die über Zeenea implementiert wurden.
    • Hunderte von aktiven Nutzern.

    Heute ist Zeenea ihr wichtigster Datenkatalog. Renault Digital definiert die folgenden Ziele: ein klarer Überblick über die Upstream- und Downstream-Daten in ihrem hybriden Data Lake, ein umfassender Überblick über die Nutzung ihrer Daten sowie der Aufbau mehrerer tausend Data Explorer im Zeenea Data Catalog

    Die einzigartigen Funktionen von Zeenea, angepasst an die jeweilige Branche

    Der Zeenea Data Catalog verfügt über die folgenden Eigenschaften, um Ihre IoT-Probleme zu lösen:

    • Universelle Konnektivität zu allen von Fertigungsunternehmen verwendeten Technologien
    • Flexible Metamodelle, die an den Kontext der jeweiligen Branche angepasst sind
    • Erleichterte Compliance dank automatischer Data Lineage
    • Reibungsloser Übergang zur Data Literacy durch eine anregende User Experience
    • Eine Plattform mit einem angemessenen Preis und einer schnellen Investitionsrendite

    Möchten Sie den Zugriff auf die Daten Ihres Unternehmens freischalten?

    Sind Sie in der Fertigungsindustrie tätig? Holen Sie sich den Schlüssel zu Ihren Unternehmensdaten, indem Sie unser neues Whitepaper „Unlock Data: Industrieunternehmen“ herunterladen.

    Was ist der Unterschied zwischen einem Data Dictionary und einem Business Glossary?

    Was ist der Unterschied zwischen einem Data Dictionary und einem Business Glossary?

    Im Zusammenhang mit dem Metadaten-Management trifft man oft auf die Begriffe „Data Dictionary“ und „Business Glossary“. Obwohl sie auf den ersten Blick ähnlich erscheinen mögen, sind sie in Wahrheit ziemlich unterschiedlich! Lassen Sie uns im Folgenden die Unterschiede und ihre Beziehung zueinander herausarbeiten.

    Was ist ein Data Dictionary?

    Ein Data Dictionary (Datenwörterbuch) ist eine Sammlung von Beschreibungen oder Elementen, die Datenobjekten oder -modellen entsprechen.

    Diese Beschreibungen können Attribute, Felder oder sogar Properties enthalten, um die Typen, Veränderungen oder Beziehungen der Daten zu beschreiben.

    Datenwörterbücher helfen Datenprofis, ihre Daten und Metadaten besser zu verstehen. Datenwörterbücher werden üblicherweise in Form von Tabellen oder Arbeitsblättern gepflegt und sind für technische Profile wie Entwickler, Datenanalysten, Datenwissenschaftler usw. bei ihrer täglichen Arbeit unverzichtbar.

    Was ist ein Business Glossary?

    Ein Business Glossary verleiht den Daten in den Abteilungen eines Unternehmens eine Bedeutung und setzt sie in einen Kontext.

    Ein Business Glossary ist also ein Ort, an dem geschäftliche Fachbegriffe und datenbezogene Begriffe definiert werden.

    Das mag einfach klingen, aber es ist selten, dass alle Mitarbeiter eines Unternehmens das gleiche Verständnis, die gleiche Definition von Begriffen – sogar bei grundlegenden Termini – wie „Kontakt“ und „Kunde“ teilen.

    Ein Beispiel für ein Business Glossary in Zeenea:

    Die wichtigsten Unterschiede zwischen einem Data Dictionary und einem Business Glossary

    Data Dictionaries verarbeiten Informationen aus Datenbanken und Systemen und werden hauptsächlich von IT-Teams verwendet. Business Glossaries definieren Begriffe, die innerhalb einer Organisation verwendet werden. Es ist ein Fachwörterbuch, das im Unternehmen als verbindlich gilt.

    Data Dictionaries liegen in der Regel in Form von Diagrammen, Tabellen, Spalten usw. vor, während ein Business Glossary eine einheitliche Definition von geschäftlichen Fachbegriffen in Textform liefert.

    Ein Business Glossary verknüpft Begriffe und ihre Beziehungen, anders als ein Data Dictionary.

    In welcher Beziehung stehen ein Data Dictionary und ein Business Glossary zueinander?

    Die Antwort ist einfach: Ein Business Glossary verleiht dem Data Dictionary einen Sinn.

    Im Business Glossary wird beispielsweise eine US-Sozialversicherungsnummer (SSN) definiert als „eine eindeutige Nummer, die von der US-Regierung zum Zweck der Identifizierung von Personen im US-Sozialversicherungssystem zugewiesen wird“.

    Im Datenwörterbuch wird der Begriff SSN definiert als „eine neunstellige Zeichenfolge, die in der Regel mit Bindestrichen dargestellt wird“.

    Wenn ein Data Explorer nicht sicher ist, was der Begriff „SSN“ im Kontext seines Data Dictionaries bedeutet, kann er jederzeit im Business Glossary nach dem zugehörigen Begriff suchen.

    Interessieren Sie sich für die Automatisierung eines Data Dictionaries und die Erstellung eines Business Glossaries für Ihr Unternehmen?

    Möchten Sie ein zentrales Metadaten-Repository für alle Datenquellen Ihres Unternehmens erstellen?

    Unser Tool bietet eine intuitive Möglichkeit, Glossare Ihres Unternehmens zu erstellen und zu importieren, um diese Definitionen mit Konzepten von Zeenea oder Datensätzen zu verknüpfen, die in unseren Data Catalog importiert wurden.

    Was ist ein Knowledge Graph und wie stärkt er die Funktionsfähigkeit eines Data Catalogs?

    Was ist ein Knowledge Graph und wie stärkt er die Funktionsfähigkeit eines Data Catalogs?

    Schon seit einigen Jahren hören wir immer wieder den Begriff Knowledge Graph. Sei es beim personalisierten Einkaufserlebnis durch Online-Empfehlungen auf Websites wie Amazon, Zalando usw., oder auf unserer bevorzugten Suchmaschine Google.

    Allerdings stellt dieses Konzept für die meisten Datenverantwortlichen wie auch bei vielen Datenanalysen nach wie vor eine Herausforderung dar, wenn versucht wird, die Assets zu aggregieren und zu verknüpfen, um wie die Internet-Riesen davon profitieren zu können.

    Zur Untermauerung dieser Erkenntnis hat Gartner in seinem Artikel „How to Build Knowledge Graphs That Enable AI-Driven Enterprise Applications“ (Wie werden Knowledge Graphs erstellt, die KI-basierte Unternehmensanwendungen ermöglichen) erklärt, dass « Data and analytics leaders are encountering increased hype around knowledge graphs, but struggle to find meaningful use cases that can secure business buy-in ».

    In diesem Artikel erläutern wir anhand eines Beispiels von Google das Konzept des Knowledge Graph. Anschließend nehmen wir sein in Datenkatalogen nutzbares Potenzial unter die Lupe.

    Was ist ein Knowledge Graph genau?

    Laut GitHub ist ein Knowledge Graph eine Art von Ontologie, die Kenntnisse in Bezug auf Einheiten und ihre gegenseitigen Beziehungen auf dynamische und automatisierte Weise beschreibt, im Gegensatz zu statischen Ontologien, die nur schwierig gepflegt werden können.

    Hier folgen noch weitere von verschiedenen Fachleuten vorgeschlagene Definitionen von Knowledge Graph:

    • Ein „Instrument zur Speicherung und Verwendung der Daten, sodass Personen und Maschinen die Verbindungen in Datensätzen besser nutzen können“. (Datanami)
    • Eine „Datenbank, in der Informationen in einem grafischen Format gespeichert werden und die vor allem zur Erstellung einer grafischen Präsentation der Beziehungen zwischen sämtlichen Datenpunkten herangezogen werden kann“. (Forbes)
    • „Lexika der semantischen Welt“. (Forbes)

    Dank Machine-Learning-Algorithmen stellt ein Knowledge Graph eine Struktur für alle Ihre Daten bereit und macht es möglich, multilaterale Beziehungen in Ihren gesamten Datenquellen anzulegen.

    Die Durchgängigkeit dieser Struktur erweitert sich schrittweise mit der Ergänzung neuer Daten, womit weitere Beziehungen geschaffen werden und zusätzlicher Kontext hinzugefügt wird. Das unterstützt Ihre Datenteams, Entscheidungen zu treffen, denen sonst vielleicht niemals gefundene Beziehungen zugrunde liegen.

    Die Idee eines Knowledge Graph besteht darin, ein Objektnetz zu konstruieren bzw. – was noch wichtiger ist – semantische oder funktionelle Beziehungen zwischen verschiedenen Assets herzustellen.

    In einem Datenkatalog stellt ein Knowledge Graph somit verschiedene Konzepte dar und verbindet die Objekte miteinander über semantische oder statische Beziehungen.

     

    Beispiel Google

    Der Algorithmus von Google greift auf dieses System zurück, um für Endnutzer relevante Informationen für die Suche einzuholen und bereitzustellen. Der Knowledge Graph von Google umfasst über 500 Millionen Objekte sowie mehr als 3,5 Mrd. Fakten zu verschiedenen Objekten und zu Beziehungen zwischen diesen Objekten.

    Er verbessert Suchen über Google vor allem in dreifacher Hinsicht:

    • Finden guter Ergebnisse: Eine Suche, die nicht nur auf Stichwörtern, sondern auch auf deren Bedeutung beruht.
    • Bester Überblick: Einholung der relevantesten Informationen aus verschiedenen Quellen, je nach Absicht des Nutzers.
    • Vertiefung und Erweiterung der Suche: Dank relevanter Vorschläge erfahren Sie mehr als erwartet.
    Knowledge Graph Over Static Ontology

     

    Wie stärken Knowledge Graphs die Nutzung von Data Catalogs?

    Anhand eines Data Catalogs können Knowledge Graphs Ihr Unternehmen in seiner Datenstrategie wie folgt unterstützen:

    Umfassende und tiefgreifende Suchergebnisse

    Heutzutage nutzen zahlreiche Suchmaschinen mehrere Knowledge Graphs, um eine Suche durchzuführen, die über Stichwörter hinausgeht. Mit Knowledge Graphs können Suchmaschinen Konzepte, Einheiten und die gegenseitigen Beziehungen verstehen. Daraus ergeben sich folgende Vorteile:

    • Möglichkeit, tiefgreifendere und relevantere Ergebnisse zu liefern –einschließlich der Fakten und Beziehungen – anstelle einfacher Dokumente,
    • Möglichkeit, Suchen in Form von Fragen oder Sätzen zu formulieren, anstatt einer Eingabe von Stichwörtern,
    • Fähigkeit, komplexe Suchen zu verstehen, die sich auf Kenntnisse, wie sie in verschiedenen Elementen gefunden wurden, beziehen, indem die im Graph definierten Beziehungen genutzt werden.

    Optimierung der Data Discovery

    Unternehmensdaten können in Lichtgeschwindigkeit von einer Stelle zur anderen übertragen und in verschiedenen Datenquellen und Speicheranwendungen gespeichert werden. Mitarbeitern und Partnern ist es so möglich, jederzeit und überall auf die Daten zuzugreifen. Die Identifizierung, Lokalisierung und Klassifizierung Ihrer Daten zu ihrem Schutz und zur Informationsbeschaffung sollten daher eine Priorität darstellen!

    Zu einigen der Vorteile von Knowledge Graphs für die Data Discovery zählen unter anderem:

    • Ein besseres Verständnis der Unternehmensdaten – wo sie sich befinden, wer auf sie zugreifen kann und wie sie übertragen werden können,
    • Automatische Klassifizierung der Daten je nach Kontext,
    • Risikomanagement und Einhaltung der Regeln,
    • Komplette Datentransparenz,
    • Identifizierung, Klassifizierung und Überwachung sensibler Daten,
    • Die Möglichkeit, Datenschutzkontrollen in Echtzeit auf der Grundlage vordefinierter Richtlinien und Kontextfaktoren anzuwenden,
    • Korrekte Bewertung aller Daten.

    Das hilft einerseits bei der Einführung geeigneter Sicherheitsmaßnahmen, um den Verlust sensibler Daten zu verhindern und verheerende finanzielle und rufschädigende Folgen für das Unternehmen abzuwenden. Andererseits haben Ihre Teams mithilfe von Data Discovery die Möglichkeit, den Kontext der Daten genauer zu erkunden, um spezifische Elemente zu identifizieren, die Antworten liefern sowie Möglichkeiten und Wege zu finden, Ihre Fragen zu beantworten.

     

    Relevante Empfehlungen

    Wie eingangs erwähnt, stellen Empfehlungen darüber hinaus ein vertrautes Angebot zahlreicher Online-Shops, persönlicher Assistenten und digitaler Plattformen dar.

    Empfehlungen müssen sich auf den Inhalt stützen. In einem Data Catalog können die Machine-Learning-Funktionen in Kombination mit einem Knowledge Graph bestimmte Datentypen erkennen und Tags oder statistische Regeln auf die Daten anwenden, um effiziente, intelligente Informationsvorschläge zu liefern.

    Diese Funktion heißt auch „data pattern recognition“ (Datenmusterkennung). Sie kann ähnliche Assets identifizieren wie auch auf statistische Algorithmen und ML-Funktionen zurückgreifen, die aus anderen Systemen stammen.

    Dieses System der Datenmustererkennung hilft Datenverantwortlichen dabei, Metadaten zu verwalten, um:

    • Datendubletten zu identifizieren und Metadaten zu kopieren,
    • logische Daten zu erkennen (E-Mails, Ort, Adresse, usw.)
    • Attributwerte vorzuschlagen (Erkennung von Dokumentationsmodelle zur Anwendung auf ein ähnliches oder neues Objekt),
    • Verknüpfungen vorzuschlagen – semantische oder Lineage-Verknüpfungen,
    • mögliche Fehler zu erkennen und um damit Qualität und Relevanz des Katalogs zu verbessern.

    Die Idee besteht darin, bestimmte, aus Empfehlungen abgeleitete Techniken zu nutzen, die auf in Standard-Nutzungskatalogen enthaltenen Inhalten beruhen. Hat der Nutzer etwas gefunden hat, schlägt der Katalog auch Alternativen vor, die sowohl auf dem Nutzerprofil als auch der Mustererkennung beruhen.

     

    Bestimmte Einsatzmöglichkeiten eines Data Catalogs mithilfe eines Knowledge Graph

     

    • Erfassung der Assets, die für digitale Projekte herangezogen oder mit deren Scheitern verknüpft waren.
    • Suche nach Assets von gemeinsamem Interesse für die Einführung neuer Produkte für die Marketing-Abteilung.
    • Erstellung einer Rundum-Ansicht von Personen und Unternehmen für kommerzielle Zwecke.
    • Abgleichen der Unternehmensanforderungen mit Personen und Projekten im HR-Bereich.
    • Auffinden von Regelungen in Bezug auf spezifische Verträge und Investitionen in der Finanzabteilung.

     

    Schlussfolgerung

    Aufgrund des steten Zuwachses an Daten in Unternehmen würde eine strategielose Organisation der Informationen einen Verlust der Wettbewerbsfähigkeit und Relevanz im Zuge der Digitalisierung nach sich ziehen. Um diesen nachteiligen Effekt einer „Blackbox“ zu verhindern, ist es entscheidend, darauf zu achten, dass Ihr Data Catalog einen Knowledge Graph für Unternehmen enthält.

    Mit einem Knowledge Graph in Kombination mit KI und Machine-Learning-Algorithmen werden Ihre Daten besser kontextualisiert. Damit können Sie nicht nur tiefgreifendere und feinere Daten erhalten, sondern auch langfristig intelligentere Entscheidungen treffen.

    Für weitere Informationen zum Thema Knowledge Graph lesen Sie hier einen sehr interessanten Artikel des BARC-Analysten Timm Grosser: Linked Data for Analytics?

     

    Starten Sie jetzt mit dem Zeenea Data Catalog

    Zeenea ist eine zu 100 % cloudfähige Lösung, die mit wenigen Klicks weltweit verfügbar ist. Mit einer Entscheidung für den Zeenea Data Catalog bekommen Sie die Kosten, die für die Implementierung und Pflege eines Datenkatalogs entstehen, ganz leicht in den Griff und können gleichzeitig den Zugriff Ihrer Teams auf Ihre Daten vereinfachen.

    Dank der automatischen Einspeisungsmechanismen wie auch der Algorithmen für Vorschläge und Korrekturen können die Gesamtkosten des Katalogs gesenkt und zugleich die Qualität der darin enthaltenen Informationen in Rekordzeit garantiert werden.

    Ein „smarter“ Data Catalog ist für Data Leader von entscheidender Bedeutung

    Ein „smarter“ Data Catalog ist für Data Leader von entscheidender Bedeutung

    Der Begriff „Smart Data Catalog“ ist in den letzten Monaten schwer in Mode gekommen. Wenn davon die Rede ist, dass etwas „smart“ ist, denken die meisten Menschen automatisch und zu Recht an einen Datenkatalog, der Machine-Learning-Funktionen enthält.

    Wir bei Zeenea sind nicht der Meinung, dass ein Smart Data Catalog nur aus ML-Funktionen besteht!

    Tatsächlich gibt es verschiedene Möglichkeiten, „smart“ zu sein.

    Dieser Artikel konzentriert sich auf den Vortrag, den Guillaume Bodet, Mitbegründer und CEO von Zeenea, auf dem Data Innovation Summit 2020 gehalten hat: „Smart data catalogs, a must-have for data leaders.“

    Eine kurze Definition des Begriffs Data Catalog

    Wir definieren einen Datenkatalog als:

    Ein detailliertes Inventar aller Datenbestände einer Organisation und ihrer Metadaten, das Datenprofis dabei helfen soll, schnell die Informationen zu finden, die für den jeweiligen Geschäfts- und Analysezweck am besten geeignet sind.

    Ein Data Catalog soll verschiedenen Personen oder Endnutzern dienen. All diese Endnutzer haben unterschiedliche Erwartungen, Bedürfnisse, Profile und verstehen Daten auf verschiedene Arten und Weisen. Diese Endnutzer sind Data Analysts, Data Stewards, Data Scientists, Business Analysts und viele andere. Da immer mehr Menschen Daten nutzen und mit ihnen arbeiten, muss ein Datenkatalog für alle Endnutzer „smart“ sein.

    Was versteht man unter dem Begriff Data Assets?

    Ein finanzieller Vermögenswert, erscheint in der Bilanz normalerweise mit einer Schätzung seines Wertes. Wenn man von Datenvermögen oder „Data Assets“ spricht, sind diese genauso wichtig oder in manchen Fällen sogar wichtiger als die anderen Vermögenswerte des Unternehmens. Das Problem ist, dass der Wert von Datenvermögen nicht immer bekannt ist.

    Es gibt jedoch viele Möglichkeiten, den Wert Ihrer Daten zu nutzen. Unternehmen haben die Möglichkeit, den Wert ihrer Daten direkt zu nutzen, indem sie ihre Daten z. B. verkaufen oder austauschen. Viele Unternehmen tun dies. Sie bereinigen die Daten, strukturieren sie und verkaufen sie dann.

    Unternehmen können den Wert ihrer Daten auch indirekt nutzen. Mithilfe von Data Assets können Unternehmen:

    • Innovationen für neue Produkte/Dienstleistungen entwickeln
    • Ihre Gesamtleistung verbessern
    • Die Produktpositionierung verbessern
    • Märkte/Kunden besser verstehen
    • Die betriebliche Effizienz verbessern

    Erfolgreiche Unternehmen sind diejenigen, die ihre Datenlandschaft beherrschen und ihre Daten für alle ihre Geschäftsbereiche nutzen.

     

    Schwierigkeiten in Bezug auf Datenkataloge …

    Wenn Ihr Unternehmen Tausende von Daten verarbeitet, bedeutet dies in der Regel, dass Sie mit folgenden Problemen konfrontiert werden:

    • Hunderte von Systemen, die sowohl interne Daten (Data Warehouses, Anwendungen, Data Lakes, Datenbanken, APIs usw.) als auch externe Daten von Partnern speichern.
    • Tausende von Datensätzen, Modellen und Visualisierungen (Data Assets), die aus Tausenden von Feldern bestehen.
    • Und diese Felder enthalten Millionen von Attributen (oder Metadaten)!

    Ganz zu schweigen von den Hunderten von Nutzern, die Ihre Daten verwenden.

    Dies wirft zwei verschiedene Fragen auf: 

    Wie kann ich die Qualität meiner Informationen aufbauen, aufrechterhalten und stärken, damit meine Endnutzer meinem Katalog vertrauen?

    Wie kann ich Daten für bestimmte Anwendungsfälle schnell finden?

    Die Antwort ist ein Smart Data Catalog!

    Wir bei Zeenea sind der Meinung, dass es fünf wesentliche Bereiche der „Intelligenz“ eines Data Catalogs gibt. Folgende Aspekte müssen intelligent sein:

    • Design: Die Art und Weise, wie die Nutzer den Katalog durchsuchen und Informationen konsumieren.
    • Benutzererfahrung: Wie er sich an verschiedene Profile anpasst.
    • Inventarisierung: Wie er eine intelligente und automatische Möglichkeit zur Inventarisierung bietet.
    • Suchmaschine: Erfüllt unterschiedliche Erwartungen und liefert intelligente Vorschläge.
    • Metadaten-Management: Ein Katalog, der Daten markiert und mithilfe von ML-Funktionen miteinander verknüpft.

    Lassen Sie uns jeden dieser Bereiche im Detail betrachten.

     

    Intelligentes Design

    Ein Knowledge Graph

    Ein Data Catalog mit intelligentem Design verwendet Knowledge Graphs anstelle von statischen Ontologien (eine Art, Informationen zu klassifizieren, die meist hierarchisch aufgebaut ist).  Das Problem mit Ontologien ist, dass sie sehr schwer zu erstellen und zu pflegen sind, und normalerweise verstehen nur bestimmte Arten von Profilen die verschiedenen Klassifizierungen wirklich.

    Ein Knowledge Graph hingegen stellt die verschiedenen Konzepte eines Data Catalogs dar und verbindet die Objekte durch semantische oder statische Verknüpfungen miteinander. Die Idee eines Knowledge Graphs ist es, ein Netzwerk von Objekten aufzubauen und, was noch wichtiger ist, semantische oder funktionale Beziehungen zwischen den verschiedenen Assets in Ihrem Katalog herzustellen.

    Grundsätzlich bietet ein intelligenter Data Catalog den Benutzern eine Möglichkeit, miteinander verbundene Objekte zu finden und zu verstehen.

     

    Adaptive Metamodelle

    In einem Data Catalog finden die Nutzer Hunderte verschiedener Properties, die für sie nicht immer relevant sein müssen. In der Regel werden zwei Arten von Informationen verwaltet:

    1. Entitäten: einfache Objekte, Glossareinträge, Definitionen, Modelle, Beschreibungen usw.
    2. Properties: Attribute, die Sie diesen Entitäten zuweisen (alle zusätzlichen Informationen wie das Erstellungsdatum, das Datum der letzten Aktualisierung usw.)

    Das Design des Metamodells muss dem Datenkonsumenten dienen. Es muss für neue Wirtschaftlichkeitsanalysen geeignet sein und sollte so einfach zu handhaben sein, dass die Nutzer es pflegen und verstehen können. Es muss auch einen einfachen Weg bieten können, um neue Objekttypen und Attributmengen zu erstellen!

     

    Semantische Attribute

    In einem Data Catalog sind die Attribute des Metamodells meist technische Properties. Einige der Attribute eines Objekts umfassen allgemeine Typen wie Text, Zahl, Datum, Werteliste etc. Da es sich um notwendige Informationen handelt, sind sie nicht völlig ausreichend, da sie keine Informationen über die Semantik bzw. die Bedeutung enthalten. Dies ist deshalb wichtig, weil der Katalog mithilfe dieser Informationen die Visualisierung des Attributs anpassen und die Vorschläge für die Nutzer verbessern kann.

    Zusammenfassend lässt sich sagen, dass es kein einheitliches Design eines Data Catalogs gibt, sondern dass er sich im Laufe der Zeit weiterentwickeln muss, um neue Datenentwicklungen und Anwendungsfälle zu unterstützen.

    knowledge-graph

    Intelligente Benutzererfahrung

    Wie bereits erwähnt, enthält ein Data Catalog zahlreiche Informationen, und für die Endnutzer ist es oft schwierig, die für sie interessanten Informationen zu finden. Die Erwartungen unterscheiden sich je nach Profil! Ein Data Scientist erwartet statistische Informationen, während ein Compliance-Beauftragter Informationen zu verschiedenen Rechtsvorschriften erwartet.

    Mit einer intelligenten und anpassungsfähigen User Experience wird ein Data Catalog die relevantesten Informationen für die jeweilige Endbenutzer darstellen. Die Informationshierarchie und die angepassten Suchergebnisse in einem intelligenten Data Catalog basieren auf:

    • Statische Einstellungen: Informationen, die im Data Catalog bei der Konfiguration bereits bekannt sind. Er weiß, ob das Profil eher auf Datenwissenschaft, IT usw. ausgerichtet ist.
    • Dynamic Profiling: Eine Technik, um herauszufinden, wonach der Endnutzer normalerweise sucht, welche Interessen er hat und wie er den Katalog in der Vergangenheit genutzt hat.

     

    Ein intelligentes Inventarsystem

    Die Einführung eines Datenkatalogs beruht auf Vertrauen – und Vertrauen kann nur entstehen, wenn sein Inhalt richtig ist. Da sich die Datenlandschaft schnell verändert, muss sie mit operativen Systemen verbunden sein, um die erste Informationsebene über die Metadaten Ihres Datenbestands aktuell zu halten.

    Der Katalog muss seinen Inhalt mit dem aktuellen Inhalt der operativen Systeme synchronisieren.

    Die typische Architektur eines Data Catalogs arbeitet mit Scannern, die Ihre operativen Systeme scannen und Informationen aus verschiedenen Quellen (Big Data, NoSQL, Cloud, Data Warehouse usw.) einbringen und synchronisieren. Die Idee ist der Aufbau einer universellen Konnektivität, damit Unternehmen jede Art von System automatisch scannen und in den Knowledge Graph einfügen können.

    Bei Zeenea gibt es eine Automatisierungsebene, um die Informationen aus den Systemen in den Katalog zu bringen. Sie kann:

    • Assets aktualisieren, um physische Veränderungen widerzuspiegeln
    • Gelöschte oder verschobene Güter aufspüren
    • Verbindungen zwischen Objekten auflösen
    • Regeln anwenden, um den geeigneten Satz von Attributen auszuwählen und die Werte der Attribute zu definieren
    smart-inventorying-zeenea

    Eine intelligente Suchmaschine

    In einem Data Catalog ist die Suchmaschine eines der wichtigsten Merkmale. Man unterscheidet zwei Arten von Suchen:

    • High-Intent-Suche: Der Endbenutzer weiß bereits, was er sucht, und verfügt über genaue Informationen zu seiner Suchanfrage. Entweder kennt er bereits den Namen des Datensatzes oder er weiß bereits, wo dieser sich befindet. High-Intent-Suchen werden häufig von Personen verwendet, die bereits über Kenntnisse der Unternehmensdaten verfügen.
    • Low-Intent-Suche: Der Endbenutzer ist sich nicht ganz sicher, wonach er sucht, sondern möchte herausfinden, was er in seinem Kontext verwenden könnte. Die Suche erfolgt mithilfe von Keywords und die Nutzer erwarten, dass die relevantesten Ergebnisse angezeigt werden.

    Ein intelligenter Datenkatalog muss beide Suchtypen unterstützen!

    Er muss auch intelligente Filter zur Verfügung stellen. Dies ist eine notwendige Ergänzung der Sucherfahrung des Nutzers (insbesondere bei der Low-Intent-Suche), mit deren Hilfe der Benutzer seine Suchergebnisse durch Ausschluss irrelevanter Attribute eingrenzen kann. Wie bei vielen großen Unternehmen wie Google, Booking.com und Amazon müssen die Filteroptionen auf den Inhalt der Suche und das Profil des Nutzers abgestimmt sein, damit die relevantesten Ergebnisse angezeigt werden.

    Intelligentes Metadaten-Management

    Bei der intelligenten Metadatenverwaltung (auch als Smart Metadata Management bezeichnet) handelt es sich im Allgemeinen um den sogenannten „erweiterten Datenkatalog“, der Machine Learning nutzt, um bestimmte Datentypen zu erkennen, Tags hinzuzufügen oder statistische Regeln für die Daten zu erstellen.

    Eine Möglichkeit, das Metadaten-Management intelligent zu gestalten, ist die Anwendung von Data Pattern Recognition. Die Data Pattern Recognition erkennt ähnliche Assets und stützt sich dabei auf statistische Algorithmen und ML-Funktionen, die von anderen Erkennungsmustern abgeleitet sind.

    Ein derartiges System zur Erkennung von Datenmustern unterstützt die Data Stewards bei der Parametrisierung ihrer Metadaten:

    • Duplikate identifizieren und Metadaten kopieren
    • Logische Datentypen erkennen (E-Mails, Orte, Adressen usw.)
    • Attributwerte vorschlagen (Dokumentationsvorlagen erkennen, die auf ein ähnliches Objekt oder ein neues Objekt angewendet werden sollen)
    • Links und Verbindungen vorschlagen – semantisch oder Lineage
    • Potenzielle Fehler aufspüren, um die Qualität und Relevanz des Katalogs zu verbessern

    Außerdem hilft sie den Datennutzern, die gewünschten Informationen zu finden. Die Idee ist, bestimmte Techniken zu verwenden, die von Empfehlungen abgeleitet sind und auf dem Inhalt basieren, den man in den Katalogen für den allgemeinen Gebrauch findet. Wenn der Nutzer etwas gefunden hat, schlägt ihm der Katalog Alternativen vor, die sowohl auf seinem Profil als auch auf der Mustererkennung (Pattern Recognition) basieren.

     

    Starten Sie mit dem Zeenea Data Catalog

    Zeenea ist eine zu 100 % Cloud-basierte Lösung, die weltweit mit wenigen Klicks verfügbar ist. Wenn Sie sich für den Zeenea Data Catalog entscheiden, haben Sie die Kosten für die Implementierung und Wartung Ihres Data Catalogs jederzeit unter Kontrolle und können gleichzeitig den Zugang für Ihre Teams vereinfachen.

    Automatische Einspeisemechanismen sowie Vorschlags- und Korrekturalgorithmen senken die Gesamtkosten des Katalogs und sorgen dafür, dass die Qualität der enthaltenen Informationen für Ihre Datenteams in Rekordzeit gewährleistet ist.