Ein zweiter Bereich, in dem ein Datenkatalog smart sein sollte, betrifft die Inventarisierung. Wir erinnern uns: Ein Datenkatalog ist im Grunde eine möglichst umfassendes Verzeichnis von Informationsbeständen, ergänzt durch eine Reihe von Metadaten, die eine optimale Nutzung der betreffenden Daten ermöglichen. Bei der Einführung eines jeden Datenkatalogs ist die Inventarisierung der in den verschiedenen Systemen vorhandenen Datenbestände einer der ersten Schritte.
Die Herausforderung der automatisierten Inventarisierung
Der deklarative Ansatz für den Aufbau des Inventars, so gut er auch durchdacht sein mag, erscheint uns nicht besonders smart. Er erfordert einen erheblichen Arbeitsaufwand, um den Katalog zu initialisieren, und zwingt zu ständiger und ziemlich mühsamer Arbeit, um ihn auf dem neuesten Stand zu halten – in einer sich ständig verändernden digitalen Welt veraltet der anfängliche Bestand schnell.
Der erste, offensichtliche Schritt zu einer cleveren Inventarisierung besteht in der Automatisierung. Bis auf wenige Ausnahmen werden die Datenbestände eines Unternehmens in spezialisierten Systemen verwaltet, die von verteilten Dateisystemen über ERP-Systeme, relationale oder nicht-relationale Datenbanken, Business Software, Data Warehouses usw. reichen. Alle diese Systeme führen auf die eine oder andere Weise ein Register der von ihnen verwalteten Daten sowie eine Reihe von Metadaten, die für ihren reibungslosen Betrieb erforderlich sind.
Es ist also nicht nötig, diese Informationen manuell neu zu erstellen: Es genügt, sich mit den Systemen zu verbinden und den Inhalt des Katalogs mit dem der Quellsysteme zu synchronisieren. Das Prinzip ist einfach, die Umsetzung deutlich schwieriger. Leider gibt es keinen Standard, an den sich die verschiedenen Technologien halten, um einen universellen Zugriff auf ihre Metadaten zu ermöglichen.
Die entscheidende Rolle der Konnektivität zu den Quellsystemen
Eine umfassende und “intelligente” Konnektivität ist daher essentiell für den Smart Data Catalog. Für eine weitere Beschreibung unseres Ansatzes bzgl. Konnektivität bei Zeenea verweise ich erneut auf unser letztes Whitepaper 5 zentrale Innovationen eines modernen Datenkatalogs. An dieser Stelle sei nur an einige Hauptmerkmale unserer Herangehensweise erinnert. Unsere Konnektivität ist:
- Proprietär – wir verlassen uns nicht auf eine Lösung von Dritten.
- Verteilt – um den Umfang des Katalogs nicht einzuschränken.
- Offen – jeder Kunde kann seine eigenen Konnektoren entwickeln.
- Universell – jede beliebige Metadatenquelle kann synchronisiert werden.
Dieser Ansatz ermöglicht nicht nur das Lesen und Synchronisieren der in den Quellsystemen enthaltenen Metadaten, sondern auch das Erzeugen von Metadaten.
Bisher produzieren wir zwei Arten von Metadaten:
- Statistische Analyse zur Erstellung eines Datenprofils – Verteilung der Werte, Anteil der Nullwerte, Extremwerte usw. (die Art dieser Metadaten hängt natürlich vom Typ der analysierten Daten ab);
- Strukturanalyse zur Ermittlung des funktionalen Typs bestimmter Textdaten (E-Mail, Postanschrift, Sozialversicherungsnummer, Kundennummer usw. – das System ist erweiter- und anpassbar).
Auch der Inventarierungsmechanismus muss smart sein
Neben der Konnektivität, dank der der Katalog automatisch mit den in den verschiedenen Systemen enthaltenen Informationen befüllt wird, ist unser Inventarisierungsmechanismus selbst in vielerlei Hinsicht smart:
- Die Erkennung von Datasets beruht auf einer umfassenden Kenntnis der Speicherstrukturen, insbesondere in Big-Data-Kontexten. So wird beispielsweise ein IoT-Datensatz, der aus Tausenden von Dateien mit Zeitreihenmessungen besteht, als ein einziges Dataset identifiziert (die Anzahl der Dateien und ihre Speicherorte sind lediglich Metadaten);
- Die Inventarisierung ist standardmäßig nicht direkt in den Katalog integriert, um zu vermeiden, dass technische oder temporäre Datasets importiert werden, die im Katalog in der Regel unnötig sind (weil die Daten entweder nicht verwertbar oder redundant sind);
- Die Auswahl der Datenbestände selbst, die in den Katalog importiert werden sollen, wird unterstützt – es werden die Objekte identifiziert, die am wahrscheinlichsten in den Katalog aufgenommen werden. Wir nutzen mehrere komplementäre Ansätze, um diese Auswahl zu treffen.