Zeenea - Data Innovation Summit 2022

Was macht einen Datenkatalog “smart”? #2 – Inventarisierung von Daten

Februar 16, 2022
Februar 16, 2022
16 Februar 2022

Ein Datenkatalog konsolidiert Millionen von Informationen unterschiedlichster Art – und sein Volumen wächst exponentiell. Diese Menge an Informationen bringt zwei große Herausforderungen mit sich:

  • Wie kann dieses Informationsvolumen gepflegt werden, ohne dass die Kosten fürs Metadaten-Management explodieren?
  • Wie findet man das passende Dataset für einen bestimmten Use Case?

Wir bei Zeenea glauben, dass ein Datenkatalog “smart” sein muss, um diese beiden Fragen zu beantworten, und zwar durch kluge technologische und konzeptionelle Vorkehrungen, die sich nicht auf die Integration von KI-Algorithmen beschränken. 

Wir haben fünf Bereiche identifiziert, in denen ein Datenkatalog smart sein kann – die meisten davon ohne Einsatz von Machine Learning:

    1. Modellierung des Metamodells
    2. Inventarisierung von Daten
    3. Metadaten-Management
    4. Suchmaschine
    5. User Experience

Ein zweiter Bereich, in dem ein Datenkatalog smart sein sollte, betrifft die Inventarisierung. Wir erinnern uns: Ein Datenkatalog ist im Grunde eine möglichst umfassendes Verzeichnis von Informationsbeständen, ergänzt durch eine Reihe von Metadaten, die eine optimale Nutzung der betreffenden Daten ermöglichen. Bei der Einführung eines jeden Datenkatalogs ist die Inventarisierung der in den verschiedenen Systemen vorhandenen Datenbestände einer der ersten Schritte.

Die Herausforderung der automatisierten Inventarisierung

Der deklarative Ansatz für den Aufbau des Inventars, so gut er auch durchdacht sein mag, erscheint uns nicht besonders smart. Er erfordert einen erheblichen Arbeitsaufwand, um den Katalog zu initialisieren, und zwingt zu ständiger und ziemlich mühsamer Arbeit, um ihn auf dem neuesten Stand zu halten – in einer sich ständig verändernden digitalen Welt veraltet der anfängliche Bestand schnell.

Der erste, offensichtliche Schritt zu einer cleveren Inventarisierung besteht in der Automatisierung. Bis auf wenige Ausnahmen werden die Datenbestände eines Unternehmens in spezialisierten Systemen verwaltet, die von verteilten Dateisystemen über ERP-Systeme, relationale oder nicht-relationale Datenbanken, Business Software, Data Warehouses usw. reichen. Alle diese Systeme führen auf die eine oder andere Weise ein Register der von ihnen verwalteten Daten sowie eine Reihe von Metadaten, die für ihren reibungslosen Betrieb erforderlich sind.

Es ist also nicht nötig, diese Informationen manuell neu zu erstellen: Es genügt, sich mit den Systemen zu verbinden und den Inhalt des Katalogs mit dem der Quellsysteme zu synchronisieren. Das Prinzip ist einfach, die Umsetzung deutlich schwieriger. Leider gibt es keinen Standard, an den sich die verschiedenen Technologien halten, um einen universellen Zugriff auf ihre Metadaten zu ermöglichen.

Die entscheidende Rolle der Konnektivität zu den Quellsystemen

Eine umfassende und “intelligente” Konnektivität ist daher essentiell für den Smart Data Catalog. Für eine weitere Beschreibung unseres Ansatzes bzgl. Konnektivität bei Zeenea verweise ich erneut auf unser letztes Whitepaper 5 zentrale Innovationen eines modernen Datenkatalogs. An dieser Stelle sei nur an einige Hauptmerkmale unserer Herangehensweise erinnert. Unsere Konnektivität ist:

    • Proprietär – wir verlassen uns nicht auf eine Lösung von Dritten.
    • Verteilt – um den Umfang des Katalogs nicht einzuschränken.
    • Offen – jeder Kunde kann seine eigenen Konnektoren entwickeln.
    • Universell – jede beliebige Metadatenquelle kann synchronisiert werden.

Dieser Ansatz ermöglicht nicht nur das Lesen und Synchronisieren der in den Quellsystemen enthaltenen Metadaten, sondern auch das Erzeugen von Metadaten.

Bisher produzieren wir zwei Arten von Metadaten:

  • Statistische Analyse zur Erstellung eines Datenprofils – Verteilung der Werte, Anteil der Nullwerte, Extremwerte usw. (die Art dieser Metadaten hängt natürlich vom Typ der analysierten Daten ab);

 

  • Strukturanalyse zur Ermittlung des funktionalen Typs bestimmter Textdaten (E-Mail, Postanschrift, Sozialversicherungsnummer, Kundennummer usw. – das System ist erweiter- und anpassbar).

Auch der Inventarierungsmechanismus muss smart sein

Neben der Konnektivität, dank der der Katalog automatisch mit den in den verschiedenen Systemen enthaltenen Informationen befüllt wird, ist unser Inventarisierungsmechanismus selbst in vielerlei Hinsicht smart:

  • Die Erkennung von Datasets beruht auf einer umfassenden Kenntnis der Speicherstrukturen, insbesondere in Big-Data-Kontexten. So wird beispielsweise ein IoT-Datensatz, der aus Tausenden von Dateien mit Zeitreihenmessungen besteht, als ein einziges Dataset identifiziert (die Anzahl der Dateien und ihre Speicherorte sind lediglich Metadaten);

  • Die Inventarisierung ist standardmäßig nicht direkt in den Katalog integriert, um zu vermeiden, dass technische oder temporäre Datasets importiert werden, die im Katalog in der Regel unnötig sind (weil die Daten entweder nicht verwertbar oder redundant sind);

  • Die Auswahl der Datenbestände selbst, die in den Katalog importiert werden sollen, wird unterstützt – es werden die Objekte identifiziert, die am wahrscheinlichsten in den Katalog aufgenommen werden. Wir nutzen mehrere komplementäre Ansätze, um diese Auswahl zu treffen.
post-wp-smart-data-catalog-de

Um zu verstehen, wie ein „smartes“ Metamodell die Fähigkeiten des Datenkatalogs stärkt,

laden Sie jetzt unser eBook „Was ist ein Smart Data Catalog?“ herunter!

zeenea logo

At Zeenea, we work hard to create a data fluent world by providing our customers with the tools and services that allow enterprises to be data driven.

zeenea logo

Chez Zeenea, notre objectif est de créer un monde “data fluent” en proposant à nos clients une plateforme et des services permettant aux entreprises de devenir data-driven.

zeenea logo

Das Ziel von Zeenea ist es, unsere Kunden "data-fluent" zu machen, indem wir ihnen eine Plattform und Dienstleistungen bieten, die ihnen datengetriebenes Arbeiten ermöglichen.

Related posts

Articles similaires

Ähnliche Artikel

Be(come) data fluent

Read the latest trends on big data, data cataloging, data governance and more on Zeenea’s data blog.

Join our community by signing up to our newsletter!

Devenez Data Fluent

Découvrez les dernières tendances en matière de big data, data management, de gouvernance des données et plus encore sur le blog de Zeenea.

Rejoignez notre communauté en vous inscrivant à notre newsletter !

Werden Sie Data Fluent

Entdecken Sie die neuesten Trends rund um die Themen Big Data, Datenmanagement, Data Governance und vieles mehr im Zeenea-Blog.

Melden Sie sich zu unserem Newsletter an und werden Sie Teil unserer Community!

Let's get started
Make data meaningful & discoverable for your teams
Learn more >

Los Geht’s!

Geben Sie Ihren Daten einen Sinn

Mehr erfahren >

Démarrez maintenant
Donnez du sens à votre patrimoine de données
En savoir plus >