Ein universelles und statisches Metamodell kann nicht smart sein
Die Anzahl der Metadaten, die für die effektive Nutzung von Informationsbeständen erforderlich sind, kann beträchtlich sein. Gleichzeitig sind diese Metadaten für jede Organisation oder sogar für einzelne Gruppen innerhalb einer Organisation unterschiedlich. So wird beispielsweise ein Business Analyst nicht unbedingt nach denselben Informationen suchen wie ein Ingenieur oder ein Produktmanager.
Der Versuch, ein universelles Metamodell zu definieren, erscheint uns nicht besonders klug. Ein solches Metamodell müsste sich an jeden erdenklichen Kontext anpassen, was zu einer der drei klassischen Folgen führen würde:
- Eine übertriebene Vereinfachung, die auf Dauer nicht alle Use Cases abdecken wird;
- Eine übermäßige Abstraktion, zum Preis eines langen und schwierigen Erlernens der Konzepte – was schwer mit dem großflächigen Einsatz des Katalogs zu vereinbaren ist;
- Eine zu niedrige Abstraktion, die dazu zwingt, konkrete Konzepte zu vervielfachen, indem Begriffe aus vielen verschiedenen Kontexten kombiniert werden – von denen viele jedoch in einem bestimmten Kontext nutzlos sind und wodurch das Metamodell unnötig kompliziert und unverständlich würde.
Eine smarte Metamodellierung sollte unserer Meinung nach die Möglichkeit bieten, das Metamodell an den jeweiligen Kontext anzupassen und es mit der Entwicklung der Use Cases oder dem Reifegrad der Organisation zu erweitern.
Der organische Ansatz des Metamodells
Ein Metamodell ist eine Wissensdomäne, und die formale Struktur eines Wissensmodells trägt den Namen Ontologie.
Eine Ontologie definiert eine Menge von Objektklassen, ihre Attribute und die Beziehungen, die sie untereinander haben können. In einem universellen Modell ist die Ontologie statisch – die Klassen, Attribute und Beziehungen sind vordefiniert, mit unterschiedlichem Abstraktionsgrad und unterschiedlicher Komplexität.
Bei Zeenea haben wir uns entschieden, uns nicht auf eine statische Ontologie zu stützen, sondern auf einen evolutiven Knowledge Graph.
Zu Beginn ist das Metamodell daher bewusst sehr einfach gehalten – es umfasst nur eine Handvoll Typen, die verschiedene Klassen von Informationsbeständen (Datasets, Fields, Visualizations, …) repräsentieren und jeweils mit einigen Attributen versehen sind, die wir als universell betrachten (Name, Beschreibung, Kontakte). Dieses grundlegende Metamodell wird automatisch durch technische Metadaten ergänzt, die aus den Datenquellen extrahiert werden und je nach der zugrunde liegenden Technologie variieren (die technischen Metadaten einer Tabelle in einem Data Warehouse sind nicht unbedingt dieselben wie die einer Parquet-Datei in einem Data Lake).
Diese organische Form der Metamodellierung ist unserer Meinung nach die beste und intelligenteste Antwort auf die Problematik der Ontologie in einem Datenkatalog. Sie bietet mehrere wichtige Vorteile:
- Das Metamodell kann vollständig an den jeweiligen Kontext angepasst werden, wobei es oftmals auf einer bereits vorhandenen Modellierung aufbaut und die hauseigene Nomenklatur und Terminologie integriert, ohne dass ein langer und kostspieliger Lernzyklus erforderlich ist;
- Das Metamodell muss nicht vollständig definiert sein, um mit der Katalognutzung zu beginnen – es genügt, sich auf die wenigen Objektklassen und Attribute zu konzentrieren, die für die ersten Use Cases notwendig sind, und dieses Modell dann zu erweitern, wenn der Katalogumfang wächst;
- Nutzerfeedback kann schrittweise integriert werden, was die Akzeptanz des Katalogs und damit den ROI des Metadaten-Managements verbessert.
Hinzufügen funktionaler Attribute zum Metamodell zur Erleichterung der Suche
Dieser Ansatz der Metamodellierung hat zwar massive Vorteile, aber auch einen großen Nachteil: Da das Metamodell sehr dynamisch ist, ist es für die Vorschlags- und Suchmaschine schwierig, dessen Struktur zu verstehen und folglich die Nutzer bei Einspeisung und der Entdeckung von Informationen effektiv zu unterstützen (diese beiden Themen stehen jedoch im Mittelpunkt des Smart Data Catalog).
Ein Teil der Lösung betrifft das Metamodell und insbesondere die Attribute der Ontologie. Klassischerweise werden die Attribute eines Metamodells durch ihren technischen Typ definiert (ein Datum, eine Zahl, eine Zeichenkette, eine Liste von Werten usw.). Bei Zeenea sind diese technischen Typen natürlich enthalten, darüber hinaus aber auch funktionale Typen – ein Qualitätsniveau, eine Vertraulichkeitsstufe, ein Personenbezug usw.
Die Verwendung dieser funktionalen Typen ermöglicht es Zeenea, die Ontologie besser zu verstehen, um ihre Algorithmen zu verfeinern und die Informationsdarstellung anzupassen.