Zeenea - Data Innovation Summit 2022

Was macht einen Datenkatalog “smart”? #1 – Modellierung des Metamodells

Februar 16, 2022
Februar 16, 2022
16 Februar 2022

Ein Datenkatalog konsolidiert Millionen von Informationen unterschiedlichster Art – und sein Volumen wächst exponentiell. Diese Menge an Informationen bringt zwei große Herausforderungen mit sich:

  • Wie kann dieses Informationsvolumen gepflegt werden, ohne dass die Kosten fürs Metadaten-Management explodieren?
  • Wie findet man das passende Dataset für einen bestimmten Use Case?

Wir bei Zeenea glauben, dass ein Datenkatalog “smart” sein muss, um diese beiden Fragen zu beantworten, und zwar durch kluge technologische und konzeptionelle Vorkehrungen, die sich nicht auf die Integration von KI-Algorithmen beschränken. 

Wir haben fünf Bereiche identifiziert, in denen ein Datenkatalog smart sein kann – die meisten davon ohne Einsatz von Machine Learning:

    1. Modellierung des Metamodells
    2. Inventarisierung von Daten
    3. Metadaten-Management
    4. Suchmaschine
    5. User Experience

Ein universelles und statisches Metamodell kann nicht smart sein

Die Anzahl der Metadaten, die für die effektive Nutzung von Informationsbeständen erforderlich sind, kann beträchtlich sein. Gleichzeitig sind diese Metadaten für jede Organisation oder sogar für einzelne Gruppen innerhalb einer Organisation unterschiedlich. So wird beispielsweise ein Business Analyst nicht unbedingt nach denselben Informationen suchen wie ein Ingenieur oder ein Produktmanager.

Der Versuch, ein universelles Metamodell zu definieren, erscheint uns nicht besonders klug. Ein solches Metamodell müsste sich an jeden erdenklichen Kontext anpassen, was zu einer der drei klassischen Folgen führen würde:

  • Eine übertriebene Vereinfachung, die auf Dauer nicht alle Use Cases abdecken wird;
  • Eine übermäßige Abstraktion, zum Preis eines langen und schwierigen Erlernens der Konzepte – was schwer mit dem großflächigen Einsatz des Katalogs zu vereinbaren ist;
  • Eine zu niedrige Abstraktion, die dazu zwingt, konkrete Konzepte zu vervielfachen, indem Begriffe aus vielen verschiedenen Kontexten kombiniert werden – von denen viele jedoch in einem bestimmten Kontext nutzlos sind und wodurch das Metamodell unnötig kompliziert und unverständlich würde.

Eine smarte Metamodellierung sollte unserer Meinung nach die Möglichkeit bieten, das Metamodell an den jeweiligen Kontext anzupassen und es mit der Entwicklung der Use Cases oder dem Reifegrad der Organisation zu erweitern.

Der organische Ansatz des Metamodells

Ein Metamodell ist eine Wissensdomäne, und die formale Struktur eines Wissensmodells trägt den Namen Ontologie.

Eine Ontologie definiert eine Menge von Objektklassen, ihre Attribute und die Beziehungen, die sie untereinander haben können. In einem universellen Modell ist die Ontologie statisch – die Klassen, Attribute und Beziehungen sind vordefiniert, mit unterschiedlichem Abstraktionsgrad und unterschiedlicher Komplexität.

Bei Zeenea haben wir uns entschieden, uns nicht auf eine statische Ontologie zu stützen, sondern auf einen evolutiven Knowledge Graph.

Zu Beginn ist das Metamodell daher bewusst sehr einfach gehalten – es umfasst nur eine Handvoll Typen, die verschiedene Klassen von Informationsbeständen (Datasets, Fields, Visualizations, …) repräsentieren und jeweils mit einigen Attributen versehen sind, die wir als universell betrachten (Name, Beschreibung, Kontakte). Dieses grundlegende Metamodell wird automatisch durch technische Metadaten ergänzt, die aus den Datenquellen extrahiert werden und je nach der zugrunde liegenden Technologie variieren (die technischen Metadaten einer Tabelle in einem Data Warehouse sind nicht unbedingt dieselben wie die einer Parquet-Datei in einem Data Lake).

Smart Data Catalog - Metamodel

Diese organische Form der Metamodellierung ist unserer Meinung nach die beste und intelligenteste Antwort auf die Problematik der Ontologie in einem Datenkatalog. Sie bietet mehrere wichtige Vorteile:

  • Das Metamodell kann vollständig an den jeweiligen Kontext angepasst werden, wobei es oftmals auf einer bereits vorhandenen Modellierung aufbaut und die hauseigene Nomenklatur und Terminologie integriert, ohne dass ein langer und kostspieliger Lernzyklus erforderlich ist;

  • Das Metamodell muss nicht vollständig definiert sein, um mit der Katalognutzung zu beginnen – es genügt, sich auf die wenigen Objektklassen und Attribute zu konzentrieren, die für die ersten Use Cases notwendig sind, und dieses Modell dann zu erweitern, wenn der Katalogumfang wächst;

  • Nutzerfeedback kann schrittweise integriert werden, was die Akzeptanz des Katalogs und damit den ROI des Metadaten-Managements verbessert.

 

Hinzufügen funktionaler Attribute zum Metamodell zur Erleichterung der Suche

Dieser Ansatz der Metamodellierung hat zwar massive Vorteile, aber auch einen großen Nachteil: Da das Metamodell sehr dynamisch ist, ist es für die Vorschlags- und Suchmaschine schwierig, dessen Struktur zu verstehen und folglich die Nutzer bei Einspeisung und der Entdeckung von Informationen effektiv zu unterstützen (diese beiden Themen stehen jedoch im Mittelpunkt des Smart Data Catalog).

Ein Teil der Lösung betrifft das Metamodell und insbesondere die Attribute der Ontologie. Klassischerweise werden die Attribute eines Metamodells durch ihren technischen Typ definiert (ein Datum, eine Zahl, eine Zeichenkette, eine Liste von Werten usw.). Bei Zeenea sind diese technischen Typen natürlich enthalten, darüber hinaus aber auch funktionale Typen – ein Qualitätsniveau, eine Vertraulichkeitsstufe, ein Personenbezug usw.

Die Verwendung dieser funktionalen Typen ermöglicht es Zeenea, die Ontologie besser zu verstehen, um ihre Algorithmen zu verfeinern und die Informationsdarstellung anzupassen.

post-wp-smart-data-catalog-de

Um zu verstehen, wie ein „smartes“ Metamodell die Fähigkeiten des Datenkatalogs stärkt,

laden Sie jetzt unser eBook „Was ist ein Smart Data Catalog?“ herunter!

zeenea logo

At Zeenea, we work hard to create a data fluent world by providing our customers with the tools and services that allow enterprises to be data driven.

zeenea logo

Chez Zeenea, notre objectif est de créer un monde “data fluent” en proposant à nos clients une plateforme et des services permettant aux entreprises de devenir data-driven.

zeenea logo

Das Ziel von Zeenea ist es, unsere Kunden "data-fluent" zu machen, indem wir ihnen eine Plattform und Dienstleistungen bieten, die ihnen datengetriebenes Arbeiten ermöglichen.

Related posts

Articles similaires

Ähnliche Artikel

Be(come) data fluent

Read the latest trends on big data, data cataloging, data governance and more on Zeenea’s data blog.

Join our community by signing up to our newsletter!

Devenez Data Fluent

Découvrez les dernières tendances en matière de big data, data management, de gouvernance des données et plus encore sur le blog de Zeenea.

Rejoignez notre communauté en vous inscrivant à notre newsletter !

Werden Sie Data Fluent

Entdecken Sie die neuesten Trends rund um die Themen Big Data, Datenmanagement, Data Governance und vieles mehr im Zeenea-Blog.

Melden Sie sich zu unserem Newsletter an und werden Sie Teil unserer Community!

Let's get started
Make data meaningful & discoverable for your teams
Learn more >

Los Geht’s!

Geben Sie Ihren Daten einen Sinn

Mehr erfahren >

Démarrez maintenant
Donnez du sens à votre patrimoine de données
En savoir plus >