smart-data-catalog-3-metadata-management

Was macht einen Datenkatalog “smart”? #3 – Metadaten-Management

Februar 16, 2022

16 Februar 2022

Wie kann dieses Informationsvolumen gepflegt werden, ohne dass die Kosten fürs Metadaten-Management explodieren?
Wie findet man das passende Dataset für einen bestimmten Use Case?

Wir bei Zeenea glauben, dass ein Datenkatalog “smart” sein muss, um diese beiden Fragen zu beantworten, und zwar durch kluge technologische und konzeptionelle Vorkehrungen, die sich nicht auf die Integration von KI-Algorithmen beschränken.

Wir haben fünf Bereiche identifiziert, in denen ein Datenkatalog smart sein kann – die meisten davon ohne Einsatz von Machine Learning:

—

Im Bereich des eigentlichen Metadaten-Managements wird der Begriff “Smart Data Catalog” am häufigsten mit Algorithmik, Machine Learning und künstlicher Intelligenz in Verbindung gebracht.

Wie lässt sich Metadaten-Management automatisieren?

Das Metadaten-Management regelt und verwaltet die Attribute des Metamodells für die inventarisierten Daten. Der mit ihm verbundene Aufwand ist proportional zur Anzahl der Attribute und zur Anzahl der im Katalog vorhandenen Objekte.

Die Rolle des Smart Data Catalogs besteht darin, diese Aufgabe so weit wie möglich zu automatisieren. Falls dies nicht möglich ist, sollen Menschen (Data Stewards) bei dieser Tätigkeit unterstützt werden, um deren Arbeit sowohl produktiver als auch zuverlässiger zu machen.

Wie im letzten Artikel erwähnt, kann durch unsere Konnektivität ein Teil der Metadaten automatisiert werden, was jedoch hauptsächlich auf technische Metadaten beschränkt bleibt. Ein vollständiges Metamodell, selbst bescheidener Größe, umfasst auch Dutzende von Metadaten, die nicht aus den Quellsystemen extrahiert werden können (aus dem einfachen Grund, dass sie dort nicht enthalten sind).

Es gibt mehrere Ansätze zur Lösung der Problematik.

Die Erkennung von Mustern (pattern recognition)

Der direkteste Ansatz besteht darin, nach Mustern im Katalog zu suchen (pattern recognition), um die Werte der Metadaten für neue Objekte vorzuschlagen.

Einfach ausgedrückt: Ein Muster (Pattern) besteht aus allen Metadaten eines Objekts und seinen Beziehungen zu anderen Elementen im Katalog. Die Mustererkennung wird typischerweise mithilfe von Machine-Learning-Algorithmen durchgeführt.

Eine einfache Strukturanalyse reicht nicht aus (zwei Datasets können identische Daten enthalten, aber in unterschiedlichen Strukturen). Sich auf die Übereinstimmung der Daten zu verlassen, ist ebenfalls nicht effizient. Zwei Datasets können identische Informationen enthalten, aber mit unterschiedlichen Werten. Beispielsweise eine Kundenrechnung für 2020 in einem, die für 2021 im anderen Dataset.

Zur Lösung der Problematik stützt sich Zeenea auf eine Technologie, die wir als Fingerprint bezeichnen. Das Prinzip des Fingerprints besteht darin, ein Dataset (genauer gesagt ein Field in einem Dataset) auf einen numerischen Vektor zu reduzieren, der diese Daten charakterisiert (man spricht von „Features“).

Zur Erstellung des Fingerprints ziehen wir zwei große Familien von „Features“ aus den Daten unserer Kunden herauf:

Eine Reihe von „Features“, die an numerische Daten angepasst sind (überwiegend statistische Indikatoren);
Daten aus „Word Embedding“-Modellen (Vektorisierung von Wörtern) für Textdaten.

Der Fingerprint ist das Herzstück unserer intelligenten Algorithmen.

Weitere in die Suggestion Engine eingebettete Ansätze

Die Mustererkennung ist zwar ein effektiver Ansatz, um die Metadaten eines neu in den Katalog aufgenommenen Objekts vorzuschlagen, hat jedoch eine wichtige Voraussetzung: Es müssen Muster vorhanden sein, die erkannt werden können. Mit anderen Worten: Sie funktioniert nur, wenn der Katalog bereits eine große Anzahl von Objekten enthält, was natürlich nicht der Fall ist, wenn das Projekt erst startet.

Gerade in der Anfangsphase ist die Belastung durch das Metadaten-Management jedoch am größten. Es müssen also andere Ansätze integriert werden, die die Data Stewards unterstützen können, wenn der Katalog noch leer ist.

Die Suggestion Engine bei Zeenea, die die intelligenten Algorithmen zur Unterstützung beim Metadaten-Management bereitstellt, verfolgt daher eine andere Herangehensweise, die wir hier in wenigen Punkten vorstellen möchten (sie wird regelmäßig erweitert):

Erkennung struktureller Ähnlichkeiten
Die Ähnlichkeitserkennung durch Fingerprints
Annäherung von Namen

Die Suggestion Engine, die den Inhalt des Katalogs analysiert, um wahrscheinliche Werte für die Metadaten der importierten Objekte zu ermitteln, ist ein Ziel ständiger Innovation. Wir testen regelmäßig neue Ansätze, die teils sehr einfach, teils aber auch sehr anspruchsvoll sind. Diese Komponente unseres Produkts verbessert sich stetig, je größer der Katalog wird und je stärker die Algorithmen angereichert werden.

Bei Zeenea haben wir uns dafür entschieden, die Durchlaufzeit als zentralen KPI zur Messung der Produktivität der Data Stewards (die das ultimative Ziel des smarten Metadaten-Managements ist) zu verwenden. Die Durchlaufzeit (oder Lead Time) ist ein Begriff aus dem Lean Management und misst im Zusammenhang mit dem Datenkatalog die Zeit, die zwischen der Inventarisierung eines Objekts und der Dokumentierung aller seiner Metadaten vergeht.

Um zu verstehen, wie ein „smartes“ Metamodell die Fähigkeiten des Datenkatalogs stärkt,

laden Sie jetzt unser eBook „Was ist ein Smart Data Catalog?“ herunter!

DOWNLOAD

← Previous Next →

← Vorherige Nächste →

← Précédent Suivant →

Zeenea Actian Logo

At Zeenea, we work hard to create a data fluent world by providing our customers with the tools and services that allow enterprises to be data driven.

Zeenea Actian Logo

Chez Zeenea, notre objectif est de créer un monde “data fluent” en proposant à nos clients une plateforme et des services permettant aux entreprises de devenir data-driven.

Zeenea Actian Logo

Das Ziel von Zeenea ist es, unsere Kunden "data-fluent" zu machen, indem wir ihnen eine Plattform und Dienstleistungen bieten, die ihnen datengetriebenes Arbeiten ermöglichen.

TECHNOLOGIE

LÖSUNGEN

FUNKTIONALITÄTEN

APPLICATIONS

BRANCHEN

FÜR DATA LEADER

KNOWLEDGE HUB

PRODUCT HUB

ÜBER ZEENEA

KONTAKT AUFNEHMEN

DIENSTLEISTUNGEN

PHILOSOPHIE

Was macht einen Datenkatalog “smart”? #3 – Metadaten-Management

Wie lässt sich Metadaten-Management automatisieren?

Die Erkennung von Mustern (pattern recognition)

Weitere in die Suggestion Engine eingebettete Ansätze

Related posts

Articles similaires

Ähnliche Artikel

Be(come) data fluent

Devenez Data Fluent

Werden Sie Data Fluent

Product

Capabilities

Use Cases

Resources

Company

Produkt

Funktionalitäten

Use Cases

Ressourcen

Company

Produit

Capacités

Cas d'usage

Ressources

Société

TECHNOLOGIE

LÖSUNGEN

FUNKTIONALITÄTEN

APPLICATIONS

BRANCHEN

FÜR DATA LEADER

KNOWLEDGE HUB

PRODUCT HUB

ÜBER ZEENEA

KONTAKT AUFNEHMEN

DIENSTLEISTUNGEN

PHILOSOPHIE

Was macht einen Datenkatalog “smart”? #3 – Metadaten-Management

Wie lässt sich Metadaten-Management automatisieren?

Die Erkennung von Mustern (pattern recognition)

Weitere in die Suggestion Engine eingebettete Ansätze

Related posts

Articles similaires

Ähnliche Artikel

Die Hintergründe des Data Mesh: Best Practices für die Verwaltung von Metadaten

Die Rolle von Datenkatalogen bei der Beschleunigung von KI-Initiativen

[SERIE] Data Shopping Teil 2 – Das Data-Shopping-Erlebnis in Zeenea

[SERIE] Der Data Marketplace für das Data Mesh – Teil 3: Den Marketplace über domänenspezifische Datenkataloge mit Inhalten versorgen

[SERIE] Der Data Marketplace für das Data Mesh – Teil 2: Einen unternehmensweiten Marketplace aufbauen

Be(come) data fluent

Devenez Data Fluent

Werden Sie Data Fluent

Product

Capabilities

Use Cases

Resources

Company

Produkt

Funktionalitäten

Use Cases

Ressourcen

Company

Produit

Capacités

Cas d'usage

Ressources

Société