smart data catalogs

Ein „smarter“ Data Catalog ist für Data Leader von entscheidender Bedeutung

August 24, 2020
August 24, 2020
24 August 2020

Der Begriff „Smart Data Catalog“ ist in den letzten Monaten schwer in Mode gekommen. Wenn davon die Rede ist, dass etwas „smart“ ist, denken die meisten Menschen automatisch und zu Recht an einen Datenkatalog, der Machine-Learning-Funktionen enthält.

Wir bei Zeenea sind nicht der Meinung, dass ein Smart Data Catalog nur aus ML-Funktionen besteht!

Tatsächlich gibt es verschiedene Möglichkeiten, „smart“ zu sein.

Dieser Artikel konzentriert sich auf den Vortrag, den Guillaume Bodet, Mitbegründer und CEO von Zeenea, auf dem Data Innovation Summit 2020 gehalten hat: „Smart data catalogs, a must-have for data leaders.“

Eine kurze Definition des Begriffs Data Catalog

Wir definieren einen Datenkatalog als:

Ein detailliertes Inventar aller Datenbestände einer Organisation und ihrer Metadaten, das Datenprofis dabei helfen soll, schnell die Informationen zu finden, die für den jeweiligen Geschäfts- und Analysezweck am besten geeignet sind.

Ein Data Catalog soll verschiedenen Personen oder Endnutzern dienen. All diese Endnutzer haben unterschiedliche Erwartungen, Bedürfnisse, Profile und verstehen Daten auf verschiedene Arten und Weisen. Diese Endnutzer sind Data Analysts, Data Stewards, Data Scientists, Business Analysts und viele andere. Da immer mehr Menschen Daten nutzen und mit ihnen arbeiten, muss ein Datenkatalog für alle Endnutzer „smart“ sein.

Was versteht man unter dem Begriff Data Assets?

Ein finanzieller Vermögenswert, erscheint in der Bilanz normalerweise mit einer Schätzung seines Wertes. Wenn man von Datenvermögen oder „Data Assets“ spricht, sind diese genauso wichtig oder in manchen Fällen sogar wichtiger als die anderen Vermögenswerte des Unternehmens. Das Problem ist, dass der Wert von Datenvermögen nicht immer bekannt ist.

Es gibt jedoch viele Möglichkeiten, den Wert Ihrer Daten zu nutzen. Unternehmen haben die Möglichkeit, den Wert ihrer Daten direkt zu nutzen, indem sie ihre Daten z. B. verkaufen oder austauschen. Viele Unternehmen tun dies. Sie bereinigen die Daten, strukturieren sie und verkaufen sie dann.

Unternehmen können den Wert ihrer Daten auch indirekt nutzen. Mithilfe von Data Assets können Unternehmen:

  • Innovationen für neue Produkte/Dienstleistungen entwickeln
  • Ihre Gesamtleistung verbessern
  • Die Produktpositionierung verbessern
  • Märkte/Kunden besser verstehen
  • Die betriebliche Effizienz verbessern

Erfolgreiche Unternehmen sind diejenigen, die ihre Datenlandschaft beherrschen und ihre Daten für alle ihre Geschäftsbereiche nutzen.

 

Schwierigkeiten in Bezug auf Datenkataloge …

Wenn Ihr Unternehmen Tausende von Daten verarbeitet, bedeutet dies in der Regel, dass Sie mit folgenden Problemen konfrontiert werden:

  • Hunderte von Systemen, die sowohl interne Daten (Data Warehouses, Anwendungen, Data Lakes, Datenbanken, APIs usw.) als auch externe Daten von Partnern speichern.
  • Tausende von Datensätzen, Modellen und Visualisierungen (Data Assets), die aus Tausenden von Feldern bestehen.
  • Und diese Felder enthalten Millionen von Attributen (oder Metadaten)!

Ganz zu schweigen von den Hunderten von Nutzern, die Ihre Daten verwenden.

Dies wirft zwei verschiedene Fragen auf: 

Wie kann ich die Qualität meiner Informationen aufbauen, aufrechterhalten und stärken, damit meine Endnutzer meinem Katalog vertrauen?

Wie kann ich Daten für bestimmte Anwendungsfälle schnell finden?

Die Antwort ist ein Smart Data Catalog!

Wir bei Zeenea sind der Meinung, dass es fünf wesentliche Bereiche der „Intelligenz“ eines Data Catalogs gibt. Folgende Aspekte müssen intelligent sein:

  • Design: Die Art und Weise, wie die Nutzer den Katalog durchsuchen und Informationen konsumieren.
  • Benutzererfahrung: Wie er sich an verschiedene Profile anpasst.
  • Inventarisierung: Wie er eine intelligente und automatische Möglichkeit zur Inventarisierung bietet.
  • Suchmaschine: Erfüllt unterschiedliche Erwartungen und liefert intelligente Vorschläge.
  • Metadaten-Management: Ein Katalog, der Daten markiert und mithilfe von ML-Funktionen miteinander verknüpft.

Lassen Sie uns jeden dieser Bereiche im Detail betrachten.

 

Intelligentes Design

Ein Knowledge Graph

Ein Data Catalog mit intelligentem Design verwendet Knowledge Graphs anstelle von statischen Ontologien (eine Art, Informationen zu klassifizieren, die meist hierarchisch aufgebaut ist).  Das Problem mit Ontologien ist, dass sie sehr schwer zu erstellen und zu pflegen sind, und normalerweise verstehen nur bestimmte Arten von Profilen die verschiedenen Klassifizierungen wirklich.

Ein Knowledge Graph hingegen stellt die verschiedenen Konzepte eines Data Catalogs dar und verbindet die Objekte durch semantische oder statische Verknüpfungen miteinander. Die Idee eines Knowledge Graphs ist es, ein Netzwerk von Objekten aufzubauen und, was noch wichtiger ist, semantische oder funktionale Beziehungen zwischen den verschiedenen Assets in Ihrem Katalog herzustellen.

Grundsätzlich bietet ein intelligenter Data Catalog den Benutzern eine Möglichkeit, miteinander verbundene Objekte zu finden und zu verstehen.

 

Adaptive Metamodelle

In einem Data Catalog finden die Nutzer Hunderte verschiedener Properties, die für sie nicht immer relevant sein müssen. In der Regel werden zwei Arten von Informationen verwaltet:

  1. Entitäten: einfache Objekte, Glossareinträge, Definitionen, Modelle, Beschreibungen usw.
  2. Properties: Attribute, die Sie diesen Entitäten zuweisen (alle zusätzlichen Informationen wie das Erstellungsdatum, das Datum der letzten Aktualisierung usw.)

Das Design des Metamodells muss dem Datenkonsumenten dienen. Es muss für neue Wirtschaftlichkeitsanalysen geeignet sein und sollte so einfach zu handhaben sein, dass die Nutzer es pflegen und verstehen können. Es muss auch einen einfachen Weg bieten können, um neue Objekttypen und Attributmengen zu erstellen!

 

Semantische Attribute

In einem Data Catalog sind die Attribute des Metamodells meist technische Properties. Einige der Attribute eines Objekts umfassen allgemeine Typen wie Text, Zahl, Datum, Werteliste etc. Da es sich um notwendige Informationen handelt, sind sie nicht völlig ausreichend, da sie keine Informationen über die Semantik bzw. die Bedeutung enthalten. Dies ist deshalb wichtig, weil der Katalog mithilfe dieser Informationen die Visualisierung des Attributs anpassen und die Vorschläge für die Nutzer verbessern kann.

Zusammenfassend lässt sich sagen, dass es kein einheitliches Design eines Data Catalogs gibt, sondern dass er sich im Laufe der Zeit weiterentwickeln muss, um neue Datenentwicklungen und Anwendungsfälle zu unterstützen.

knowledge-graph

Intelligente Benutzererfahrung

Wie bereits erwähnt, enthält ein Data Catalog zahlreiche Informationen, und für die Endnutzer ist es oft schwierig, die für sie interessanten Informationen zu finden. Die Erwartungen unterscheiden sich je nach Profil! Ein Data Scientist erwartet statistische Informationen, während ein Compliance-Beauftragter Informationen zu verschiedenen Rechtsvorschriften erwartet.

Mit einer intelligenten und anpassungsfähigen User Experience wird ein Data Catalog die relevantesten Informationen für die jeweilige Endbenutzer darstellen. Die Informationshierarchie und die angepassten Suchergebnisse in einem intelligenten Data Catalog basieren auf:

  • Statische Einstellungen: Informationen, die im Data Catalog bei der Konfiguration bereits bekannt sind. Er weiß, ob das Profil eher auf Datenwissenschaft, IT usw. ausgerichtet ist.
  • Dynamic Profiling: Eine Technik, um herauszufinden, wonach der Endnutzer normalerweise sucht, welche Interessen er hat und wie er den Katalog in der Vergangenheit genutzt hat.

 

Ein intelligentes Inventarsystem

Die Einführung eines Datenkatalogs beruht auf Vertrauen – und Vertrauen kann nur entstehen, wenn sein Inhalt richtig ist. Da sich die Datenlandschaft schnell verändert, muss sie mit operativen Systemen verbunden sein, um die erste Informationsebene über die Metadaten Ihres Datenbestands aktuell zu halten.

Der Katalog muss seinen Inhalt mit dem aktuellen Inhalt der operativen Systeme synchronisieren.

Die typische Architektur eines Data Catalogs arbeitet mit Scannern, die Ihre operativen Systeme scannen und Informationen aus verschiedenen Quellen (Big Data, NoSQL, Cloud, Data Warehouse usw.) einbringen und synchronisieren. Die Idee ist der Aufbau einer universellen Konnektivität, damit Unternehmen jede Art von System automatisch scannen und in den Knowledge Graph einfügen können.

Bei Zeenea gibt es eine Automatisierungsebene, um die Informationen aus den Systemen in den Katalog zu bringen. Sie kann:

  • Assets aktualisieren, um physische Veränderungen widerzuspiegeln
  • Gelöschte oder verschobene Güter aufspüren
  • Verbindungen zwischen Objekten auflösen
  • Regeln anwenden, um den geeigneten Satz von Attributen auszuwählen und die Werte der Attribute zu definieren
smart-inventorying-zeenea

Eine intelligente Suchmaschine

In einem Data Catalog ist die Suchmaschine eines der wichtigsten Merkmale. Man unterscheidet zwei Arten von Suchen:

  • High-Intent-Suche: Der Endbenutzer weiß bereits, was er sucht, und verfügt über genaue Informationen zu seiner Suchanfrage. Entweder kennt er bereits den Namen des Datensatzes oder er weiß bereits, wo dieser sich befindet. High-Intent-Suchen werden häufig von Personen verwendet, die bereits über Kenntnisse der Unternehmensdaten verfügen.
  • Low-Intent-Suche: Der Endbenutzer ist sich nicht ganz sicher, wonach er sucht, sondern möchte herausfinden, was er in seinem Kontext verwenden könnte. Die Suche erfolgt mithilfe von Keywords und die Nutzer erwarten, dass die relevantesten Ergebnisse angezeigt werden.

Ein intelligenter Datenkatalog muss beide Suchtypen unterstützen!

Er muss auch intelligente Filter zur Verfügung stellen. Dies ist eine notwendige Ergänzung der Sucherfahrung des Nutzers (insbesondere bei der Low-Intent-Suche), mit deren Hilfe der Benutzer seine Suchergebnisse durch Ausschluss irrelevanter Attribute eingrenzen kann. Wie bei vielen großen Unternehmen wie Google, Booking.com und Amazon müssen die Filteroptionen auf den Inhalt der Suche und das Profil des Nutzers abgestimmt sein, damit die relevantesten Ergebnisse angezeigt werden.

Intelligentes Metadaten-Management

Bei der intelligenten Metadatenverwaltung (auch als Smart Metadata Management bezeichnet) handelt es sich im Allgemeinen um den sogenannten „erweiterten Datenkatalog“, der Machine Learning nutzt, um bestimmte Datentypen zu erkennen, Tags hinzuzufügen oder statistische Regeln für die Daten zu erstellen.

Eine Möglichkeit, das Metadaten-Management intelligent zu gestalten, ist die Anwendung von Data Pattern Recognition. Die Data Pattern Recognition erkennt ähnliche Assets und stützt sich dabei auf statistische Algorithmen und ML-Funktionen, die von anderen Erkennungsmustern abgeleitet sind.

Ein derartiges System zur Erkennung von Datenmustern unterstützt die Data Stewards bei der Parametrisierung ihrer Metadaten:

  • Duplikate identifizieren und Metadaten kopieren
  • Logische Datentypen erkennen (E-Mails, Orte, Adressen usw.)
  • Attributwerte vorschlagen (Dokumentationsvorlagen erkennen, die auf ein ähnliches Objekt oder ein neues Objekt angewendet werden sollen)
  • Links und Verbindungen vorschlagen – semantisch oder Lineage
  • Potenzielle Fehler aufspüren, um die Qualität und Relevanz des Katalogs zu verbessern

Außerdem hilft sie den Datennutzern, die gewünschten Informationen zu finden. Die Idee ist, bestimmte Techniken zu verwenden, die von Empfehlungen abgeleitet sind und auf dem Inhalt basieren, den man in den Katalogen für den allgemeinen Gebrauch findet. Wenn der Nutzer etwas gefunden hat, schlägt ihm der Katalog Alternativen vor, die sowohl auf seinem Profil als auch auf der Mustererkennung (Pattern Recognition) basieren.

 

Starten Sie mit dem Zeenea Data Catalog

Zeenea ist eine zu 100 % Cloud-basierte Lösung, die weltweit mit wenigen Klicks verfügbar ist. Wenn Sie sich für den Zeenea Data Catalog entscheiden, haben Sie die Kosten für die Implementierung und Wartung Ihres Data Catalogs jederzeit unter Kontrolle und können gleichzeitig den Zugang für Ihre Teams vereinfachen.

Automatische Einspeisemechanismen sowie Vorschlags- und Korrekturalgorithmen senken die Gesamtkosten des Katalogs und sorgen dafür, dass die Qualität der enthaltenen Informationen für Ihre Datenteams in Rekordzeit gewährleistet ist.

zeenea logo

At Zeenea, we work hard to create a data fluent world by providing our customers with the tools and services that allow enterprises to be data driven.

zeenea logo

Chez Zeenea, notre objectif est de créer un monde “data fluent” en proposant à nos clients une plateforme et des services permettant aux entreprises de devenir data-driven.

zeenea logo

Das Ziel von Zeenea ist es, unsere Kunden "data-fluent" zu machen, indem wir ihnen eine Plattform und Dienstleistungen bieten, die ihnen datengetriebenes Arbeiten ermöglichen.

Related posts

Articles similaires

Ähnliche Artikel

Be(come) data fluent

Read the latest trends on big data, data cataloging, data governance and more on Zeenea’s data blog.

Join our community by signing up to our newsletter!

Devenez Data Fluent

Découvrez les dernières tendances en matière de big data, data management, de gouvernance des données et plus encore sur le blog de Zeenea.

Rejoignez notre communauté en vous inscrivant à notre newsletter !

Werden Sie Data Fluent

Entdecken Sie die neuesten Trends rund um die Themen Big Data, Datenmanagement, Data Governance und vieles mehr im Zeenea-Blog.

Melden Sie sich zu unserem Newsletter an und werden Sie Teil unserer Community!

Let's get started

Make data meaningful & discoverable for your teams

Los geht’s!

Geben Sie Ihren Daten einen Sinn

Mehr erfahren >

Soc 2 Type 2
Iso 27001
© 2024 Zeenea - All Rights Reserved
Soc 2 Type 2
Iso 27001
© 2024 Zeenea - All Rights Reserved

Démarrez maintenant

Donnez du sens à votre patrimoine de données

En savoir plus

Soc 2 Type 2
Iso 27001
© 2024 Zeenea - Tous droits réservés.