Es versteht sich von selbst, dass Unternehmen, die aus den Unmengen an Informationen, die sie erzeugen, maximalen Nutzen ziehen wollen, sich mit leistungsfähigen Tools für deren Verwaltung und Verwertung ausstatten müssen. Denn große Datenmengen bedeuten auch eine große Verantwortung! Diese Unternehmen müssen insbesondere Lösungen implementieren, die es ihren Datenteams (aber nicht nur diesen) ermöglichen, den Datenbestand zu finden, zu verwalten und ihm zu vertrauen.
Eine dieser Lösungen nennt sich Data Catalog! Mit einem Datenkatalog, der zur Vereinheitlichung aller Daten eines Unternehmens geschaffen wurde, können die Datenmanager wie auch die Datennutzer ihre Produktivität und Effizienz steigern.
Bereits 2017 erklärte Gartner, dass Datenkataloge „das neue schwarze Gold im Bereich Datenmanagement und -analyse“ seien. In „Augmented Data Catalogs: Now an Enterprise Must-Have for Data and Analytics Leaders“, konnte man folgende Aussage lesen:
„Die Nachfrage nach Datenkatalogen wächst, da viele Organisationen nach wie vor Schwierigkeiten haben, sehr unterschiedliche und stark verteilte Daten zu finden, zu inventarisieren und zu analysieren.“
In diesem Artikel vermitteln wir Ihnen alles, was Sie über Datenkataloge wissen müssen – das unverzichtbare Tool für Unternehmen, die in Zukunft datengesteuert arbeiten wollen.
Was ist ein Data Catalog?
Bevor wir uns dem Thema Data Catalog zuwenden, ist es wichtig, das Konzept des Metadaten-Managements zu verstehen. Ein Datenkatalog nutzt vor allem Metadaten – Daten über Daten – um ein Repository für alle Datenbestände eines Unternehmens zu erstellen. Diese über verschiedene Quellen (Big Data, Cloud-Dienste, Excel-Tabellen usw.) gesammelten Metadaten werden automatisch gescannt, sodass die Benutzer des Katalogs nach Informationen wie Verfügbarkeit, Aktualität oder Qualität eines Datenbestands suchen und diese abrufen können.
Bei Zeenea definieren wir einen Data Catalog wie folgt:
„Ein Data Catalog ist ein detailliertes Verzeichnis aller in einer Organisation verfügbaren Daten-Assets sowie der Metadaten, mit deren Hilfe diese Assets genutzt werden können.“
Was ist das Ziel eines Data Catalogs?
Alle Themen rund um Daten werden oft als extrem technisch angesehen. Dennoch ist Dateninnovation nur möglich, wenn sie von möglichst vielen Menschen im Unternehmen gemeinsam angegangen wird. Das ist der eigentliche Zweck eines Datenkatalogs: den Zugang zu Daten demokratisieren.
Ein Data Catalog soll verschiedene Endbenutzer bedienen – Data Analysts, Data Stewards, Data Scientists, Business Analysts und viele andere – die unterschiedliche Erwartungen, Bedürfnisse, Profile und Wege haben, Daten zu verstehen. Ein Data Catalog muss sich dann an alle anpassen: Es darf kein technisches Fachwissen notwendig sein, um den Datenbestand des Unternehmens aufzufinden, zu durchsuchen und zu verstehen.
Was sind die Vorteile eines Data Catalogs?
Wie bereits erwähnt, werden in einem Datenkatalog die gesammelten Metadaten zentralisiert und vereinheitlicht, sodass sie von IT-Teams und Business-Funktionen innerhalb der Organisation gemeinsam genutzt werden können. Diese einheitliche Sicht auf die Daten bringt viele Vorteile mit sich und ermöglicht:
Eine Beschleunigung der Data Discovery
Da jeden Tag Tausende von Daten erstellt werden, werden Unternehmen mit Informationen konfrontiert, die sie weder verstehen noch richtig verwalten können. Jüngste Studien zeigen, dass Data-Science-Teams immer noch 80 % ihrer Zeit mit der Vorbereitung und Bereinigung von Daten verbringen, anstatt sie zu analysieren. Durch den Einsatz eines Data Catalogs in Ihrer Organisation wird die Geschwindigkeit, mit der die Datenteams ihre Daten entdecken können, um das Fünffache erhöht. So können sich Ihre Teams auf das Wesentliche konzentrieren: ihre Datenprojekte so schnell wie möglich fertigzustellen.
Eine Datenkultur aufrechterhalten
Ebenso wie die Organisations- oder Unternehmenskultur bezieht sich die Datenkultur auf ein Arbeitsumfeld, in dem Entscheidungen auf der Grundlage empirischer und emphatischer Beweise getroffen werden. Ein Data Catalog ermöglicht es, das Wissen über Daten nicht mehr nur auf eine Gruppe von Experten zu beschränken und schafft eine bessere Zusammenarbeit an ihren Datenbeständen.
Einer agile Data Governance aufbauen
Anstatt komplexe und schwer zu wartende Prozesse auf vermeintliche Informationen anzuwenden, ermöglichen Datenkataloge eine Data Governance mit einem agilen Bottom-up-Ansatz. Ein Datenkatalog ermöglicht es Datennutzern, ein Prozessregister zu erstellen, gesetzliche Verpflichtungen zu dokumentieren, den Lebenszyklus von Daten zu verfolgen sowie sensible Informationen zu identifizieren. All dies in einem einzigen Repository.
Den Wert der Daten maximieren
Durch die Zusammenführung aller Daten eines Unternehmens auf einer Referenz-Datenplattform wird es möglich, diese Assets zu verknüpfen und leichter einen Wert daraus zu ziehen. Die Zusammenarbeit von technischen und fachlichen Teams im Data Catalog ermöglicht Innovationen, die auf tatsächlichen Marktbedürfnisse reagieren.
Besser und schneller produzieren
Mehr als 70 % der Zeit, die für die Datenanalyse aufgewendet wird, wird mit „Datenkonflikt“-Aktivitäten verbracht. Der Katalog vereinfacht die Suche nach Daten, die Identifizierung von Personen, die über das jeweilige Wissen verfügen, und damit das Treffen intelligenter Entscheidungen.
Ein gutes Maß an Datenkontrolle gewährleisten
Mit falsch interpretierten oder fehlerhaften Daten setzen sich Unternehmen der Gefahr aus, Entscheidungen auf fehlerhafte Informationen zu stützen. Datenkataloge ermöglichen den Zugriff auf stets aktuelle Daten, und die Nutzer dieser Daten haben stets die Gewissheit, dass sie zuverlässige und verwertbare Informationen nutzen können.
Was sind die zentralen Funktionen eines Data Catalogs?
Das Metamodell
Ein Data Catalog muss die Metadaten der Datenquellen eines Unternehmens automatisch erfassen und aktualisieren. Mithilfe eines flexiblen Metamodells müssen die Administratoren des Katalogs in der Lage sein, Properties hinzuzufügen, zu konfigurieren und zu überlagern, um katalogisierte Datensätze zu dokumentieren. Mit diesem Ansatz bietet der Katalog eine einfache und modulare Möglichkeit, Dokumentationsmodelle zu konfigurieren, die den Zielen und Prioritäten des Unternehmens entsprechen.
Die Suchmaschine
Der Knowledge Graph
Ein Knowledge Graph ist für jedes Datenkatalog-Projekt von entscheidender Bedeutung. Der Knowledge Graph ermöglicht die Darstellung der verschiedenen Konzepte und der Verbindungen zwischen den Objekten (semantisch oder statisch). Der Knowledge Graph eines Datenkatalogs liefert den Nutzern umfassende und ausführliche Suchergebnisse, optimierte Data Exploration, intelligente Empfehlungen und vieles mehr.
Die Data Lineage
Mit Data Lineage ist es möglich, den Ursprung und die Veränderungen eines Datensatzes im Laufe der Zeit in seiner Gesamtheit zu visualisieren. So kann man verstehen, woher die Daten kommen, wann und wo sie sich trennen und mit anderen Daten verschmelzen. Diese Veränderungen und Verarbeitungen, die mit den Daten vorgenommen werden, sind unerlässlich, um die DSGVO und andere Datenvorschriften einzuhalten.
Das Business Glossary
Mit einem Business Glossary können Datenkonsumenten ein gemeinsames Fachvokabular verwalten und es im gesamten Unternehmen zugänglich machen. Diese unverzichtbare Funktion gibt den mit den Daten verbundenen Begriffen einen Sinn und setzt sie in einen eindeutigen Kontext.
Welche Anwendungsfälle gibt es für einen Datenkatalog?
Für den Chief Data Officer
Der Chief Data Officer spielt eine zentrale Rolle für die Datenstrategie eines Unternehmens. Seine Aufgabe ist es, den Datenbestand zu beherrschen und den Zugang zu ihm zu erleichtern, um das Ziel eines datengetriebenen Unternehmens zu erreichen. Ein Data Catalog hilft ihm:
- die Zuverlässigkeit und den Wert der Unternehmensdaten zu gewährleisten
- die Data Fluency in der Organisation zu stärken
- die Dokumentation des Datenbestands nutzbar zu machen
- eine Datendemokratie einführen
- einen Compliance-Prozess einzuleiten
Für den Data Steward
Der Data Steward wird aufgrund seiner technischen und fachlichen Kompetenz als wichtigster Ansprechpartner für alle Daten in seinem Bereich anerkannt und hat oft den Spitznamen „Master of Data“! Ein Data Catalog ermöglicht es ihm:
- das Datenwissen auf einer einzigen Plattform zu zentralisieren
- die Dokumentation auszubauen
- eine Kommunikation mit den Datennutzern aufzubauen
- den Wert der Daten zu benennen
- ein Metadaten-Management einzuführen
Für den Data Scientist
Um ihre Aufgaben zu erfüllen, müssen Endnutzer ebenso wie Data Scientists in der Lage sein, die Daten für ihre spezifischen Anwendungsfälle schnell zu finden und zu verstehen. Ein Data Catalog hilft ihnen:
- Daten sehr einfach zu finden, unabhängig davon, wo sie gespeichert sind
- die Historie der Datensätze und ihre Lineage einzusehen
- den geschäftlichen Kontext der Daten zu verstehen
- die Personen mit dem notwendigen Wissen zum jeweiligen Datensatz zu identifizieren
- problemlos mit Kolleginnen und Kollegen zusammenzuarbeiten
Der Nutzungszyklus eines Data Catalogs
Ein Datenkatalog ist in den verschiedenen Phasen Ihrer Projekte äußerst hilfreich:
Ein Datenkatalog in der Implementierungsphase
Verbindung zu Datenquellen – Ein Data Catalog verbindet sich mit all Ihren Datenquellen. Verbinden Sie Ihre Lösungen für Datenintegration, Vorbereitung, Visualisierung, CRM usw.
Ein Datenkatalog in der Dokumentationsphase
Erstellung des Metamodells – Ein Data Catalog erfasst und aktualisiert die technischen und operativen Metadaten der Datenquellen des Unternehmens. Es ermöglicht das Hinzufügen, Konfigurieren oder Überlagern von (obligatorischen oder nicht obligatorischen) Informationen zu katalogisierten Datensätzen.
Ein Datenkatalog in der Discovery-Phase
Verstehen der Daten – Mit einem Data Catalog sind die Nutzer – mit oder ohne technische Kenntnisse – in der Lage, die Unternehmensdaten vollständig zu verstehen.
Definition der Daten – Ein Datenkatalog ermöglicht es den Datenverantwortlichen – wie z. B. DSBs oder CDOs – die relevanten Daten, die verwendet werden sollen, richtig zu definieren. Mithilfe von Metadaten können Datenmanager ihre Datensätze leicht dokumentieren, sodass ihre Teams auf kontextualisierte Daten zugreifen können.
Data Mining – Entdecken und Sammeln der verfügbaren Daten in einem Data Catalog. Indem sie alle Unternehmensdaten in einem einzigen Repository katalogisieren, können die Datennutzer sicher sein, dass ihre Daten vertrauenswürdig und verwertbar sind.
Ein Datenkatalog in der Kollaborationsphase
Kommunikation mittels Daten – Ein Data Catalog ermöglicht es den Nutzern, die Kontrolle über die Daten zu behalten. IT- und Fachabteilungen sind in der Lage, verschiedene Datenprojekte zu verstehen und über sie zu kommunizieren. Mithilfe von Kollaborationsfunktionen, wie z. B. Diskussionen, werden Daten zu einem Thema, über das alle Personen im Unternehmen sprechen können.
Starten Sie jetzt in Ihr Abenteuer mit dem Zeenea Data Catalog
Zeenea ist eine zu 100 % Cloud-basierte Lösung, die weltweit mit wenigen Klicks verfügbar ist. Wenn Sie sich für Zeenea entscheiden, bieten Sie Ihren Datenteams die beste Umgebung, um Ihre Datenbestände zu finden, zu verstehen und zu nutzen.
Entdecken Sie unsere beiden Anwendungen:
Zeenea Studio – Die Anwendung für Ihre Datenmanagement-Teams für Verwaltung, Pflege und Erweiterung der Dokumentation eines Datenbestands.
Zeenea Explorer – Bietet den Benutzern eine benutzerfreundliche Oberfläche und personalisierte Discovery-Pfade für mehr Effizienz im Unternehmen.
Wenn Sie eine Demo unserer Produkte buchen oder weitere Informationen zu unserem Data Catalog erhalten möchten: