Zeenea - Data Innovation Summit 2022

Was macht einen Datenkatalog “smart”? #4 – Suchmaschine

Februar 16, 2022
Februar 16, 2022
16 Februar 2022

Ein Datenkatalog konsolidiert Millionen von Informationen unterschiedlichster Art – und sein Volumen wächst exponentiell. Diese Menge an Informationen bringt zwei große Herausforderungen mit sich:

  • Wie kann dieses Informationsvolumen gepflegt werden, ohne dass die Kosten fürs Metadaten-Management explodieren?
  • Wie findet man das passende Dataset für einen bestimmten Use Case?

Wir bei Zeenea glauben, dass ein Datenkatalog “smart” sein muss, um diese beiden Fragen zu beantworten, und zwar durch kluge technologische und konzeptionelle Vorkehrungen, die sich nicht auf die Integration von KI-Algorithmen beschränken. 

Wir haben fünf Bereiche identifiziert, in denen ein Datenkatalog smart sein kann – die meisten davon ohne Einsatz von Machine Learning:

    1. Modellierung des Metamodells
    2. Inventarisierung von Daten
    3. Metadaten-Management
    4. Suchmaschine
    5. User Experience

Die Suchmaschine: eine unverzichtbare Voraussetzung für Data Discovery

Die Durchsuchung einer so großen Menge an Informationen, wie dies in einem Enterprise Data Catalog der Fall ist, sollte keine Nebenfunktion sein. Vielmehr ist die Suchmaschine einer der wichtigsten Bestandteile des Katalogs und sollte für die Nutzer einfach, leistungsstark und effektiv sein. Google oder Amazon haben die Messlatte in dieser Hinsicht sehr hoch gelegt, und das Sucherlebnis, das sie bieten, gilt als Benchmark in diesem Bereich.

Es lässt sich wie folgt zusammenfassen:

  • Die Eingabe weniger Stichwörter in die Suchleiste reicht – mir werden häufige Kombinationen von Begriffen vorgeschlagen, um meine Suche zu verbessern.

  • Ergebnisse werden in Sekundenschnelle in einer genauen Reihenfolge angezeigt, wobei ich die für mich interessantesten auf der ersten Seite finde.

  • Andernfalls füge ich meiner Suche entweder einen Begriff hinzu, um sie besser einzugrenzen, oder nutze das Filtersystem, um irrelevante Ergebnisse auszuschließen.

Die auf dem Markt vorhandenen Datenkatalog-Lösungen bieten gemeinhin eine gutes Indexierungs-, Bewertungs- und Filtersystem. Dieser Ansatz liefert zufriedenstellende Ergebnisse, wenn der Nutzer eine genaue Vorstellung davon hat, was er sucht (High Intent Search), ist aber enttäuschend für diejenigen, deren Ansatz eher explorativ ist (Low Intent Search) oder wenn es darum geht, dem Nutzer spontan bestimmte relevante Ergebnisse vorzuschlagen (No Intent).

Kurz gesagt, eine einfache Indexierung ermöglicht das Finden von Elementen, deren genaue Merkmale bekannt sind, reicht aber nicht aus, wenn die Suche eher vage bleibt. Die Ergebnisse werden dann zu oft durch zahlreiche falsch positive Treffer verunreinigt, und deren Reihenfolge ist ebenfalls nicht zufriedenstellend.

 

Eine multidimensionale Herangehensweise für eine leistungsfähige Suche

Für uns war von Anfang an klar, dass ein zu einfaches Indexierungssystem keine zufriedenstellende Nutzererfahrung gewährleisten kann. Wir haben daher beschlossen, die Suchmaschine in einem eigenen Modul der Plattform zu isolieren und sie zum Ziel stetiger Innovation (und Investition) zu machen.

Natürlich verfügen wir weder über die finanziellen Mittel von Google, noch über dessen Wissen über die Optimierung von Suchergebnissen. Wir haben jedoch mehrere Funktionen in unsere Suchmaschine integriert, die bereits zu stark relevanten Ergebnissen führen und ständig verbessert werden.

In besonderem Maße interessierten wir uns für die Arbeit der Google-Gründer an ihrem PageRank-Algorithmus. Dieser berücksichtigt mehrere Dutzend Aspekte (sogenannte Features), darunter die Dichte der Beziehungen zwischen den verschiedenen Graph-Objekten (Hyperlinks im Falle von Internetseiten) oder die semantische Analyse des Knowledge Graphs.

Dazu gehören insbesondere die folgenden Funktionen:

  • Die klassische, flache Indizierung aller Attribute eines Objekts (Name, Beschreibung und alle Eigenschaften) mit einer Gewichtung nach der Art der Eigenschaft.

  • Eine NLP-Schicht (Natural Language Processing) zur Berücksichtigung von Näherungswerten (Tipp- oder Rechtschreibfehler).

  • Eine semantische Analyseschicht, die auf der Verarbeitung des Knowledge Graphs basiert.

  • Eine Personalisierungsschicht, die derzeit auf einer einfachen Klassifizierung der Nutzer nach ihren Use Cases beruht, die aber in Zukunft mit individuellen Profildaten angereichert werden soll.

 

Smart Filtering zur Kontextualisierung und Begrenzung der Suchergebnisse

Als Ergänzung zur Suchmaschine bieten wir ein intelligentes Filtersystem, das Smart Filtering. Diese Funktion findet man häufig auf E-Commerce-Webseiten (z.B. Amazon oder Booking.com) und besteht darin, kontextbezogene Filter vorzuschlagen, um die Ergebnisse einer Suche einzugrenzen.

Die Filter funktionieren folgendermaßen:

  • In der Filterliste werden ausschließlich die Eigenschaften angezeigt, die die Ergebnisliste tatsächlich reduzieren.
  • Jeder Filter zeigt seine Auswirkung an, d.h. die Anzahl der nach Anwendung des Filters verbleibenden Ergebnisse.
  • Bei Anwendung des Filters wird die Ergebnisliste sofort aktualisiert.

Wir glauben, dass wir durch die Kombination von multidimensionaler Suche und Smart Filtering unserer Konkurrenz voraus sind. Darüber hinaus ermöglicht es unsere entkoppelte Architektur (die Suchmaschine ist eine eigenständige Komponente), ständig mit neuen Ansätzen zu experimentieren und gleichzeitig diejenigen, die wir für sinnvoll halten, schnell zu integrieren.

post-wp-smart-data-catalog-de

Um zu verstehen, wie ein „smartes“ Metamodell die Fähigkeiten des Datenkatalogs stärkt,

laden Sie jetzt unser eBook „Was ist ein Smart Data Catalog?“ herunter!

zeenea logo

At Zeenea, we work hard to create a data fluent world by providing our customers with the tools and services that allow enterprises to be data driven.

zeenea logo

Chez Zeenea, notre objectif est de créer un monde “data fluent” en proposant à nos clients une plateforme et des services permettant aux entreprises de devenir data-driven.

zeenea logo

Das Ziel von Zeenea ist es, unsere Kunden "data-fluent" zu machen, indem wir ihnen eine Plattform und Dienstleistungen bieten, die ihnen datengetriebenes Arbeiten ermöglichen.

Related posts

Articles similaires

Ähnliche Artikel

Be(come) data fluent

Read the latest trends on big data, data cataloging, data governance and more on Zeenea’s data blog.

Join our community by signing up to our newsletter!

Devenez Data Fluent

Découvrez les dernières tendances en matière de big data, data management, de gouvernance des données et plus encore sur le blog de Zeenea.

Rejoignez notre communauté en vous inscrivant à notre newsletter !

Werden Sie Data Fluent

Entdecken Sie die neuesten Trends rund um die Themen Big Data, Datenmanagement, Data Governance und vieles mehr im Zeenea-Blog.

Melden Sie sich zu unserem Newsletter an und werden Sie Teil unserer Community!

Let's get started
Make data meaningful & discoverable for your teams
Learn more >

Los Geht’s!

Geben Sie Ihren Daten einen Sinn

Mehr erfahren >

Démarrez maintenant
Donnez du sens à votre patrimoine de données
En savoir plus >