Die Suchmaschine: eine unverzichtbare Voraussetzung für Data Discovery
Die Durchsuchung einer so großen Menge an Informationen, wie dies in einem Enterprise Data Catalog der Fall ist, sollte keine Nebenfunktion sein. Vielmehr ist die Suchmaschine einer der wichtigsten Bestandteile des Katalogs und sollte für die Nutzer einfach, leistungsstark und effektiv sein. Google oder Amazon haben die Messlatte in dieser Hinsicht sehr hoch gelegt, und das Sucherlebnis, das sie bieten, gilt als Benchmark in diesem Bereich.
Es lässt sich wie folgt zusammenfassen:
- Die Eingabe weniger Stichwörter in die Suchleiste reicht – mir werden häufige Kombinationen von Begriffen vorgeschlagen, um meine Suche zu verbessern.
- Ergebnisse werden in Sekundenschnelle in einer genauen Reihenfolge angezeigt, wobei ich die für mich interessantesten auf der ersten Seite finde.
- Andernfalls füge ich meiner Suche entweder einen Begriff hinzu, um sie besser einzugrenzen, oder nutze das Filtersystem, um irrelevante Ergebnisse auszuschließen.
Die auf dem Markt vorhandenen Datenkatalog-Lösungen bieten gemeinhin eine gutes Indexierungs-, Bewertungs- und Filtersystem. Dieser Ansatz liefert zufriedenstellende Ergebnisse, wenn der Nutzer eine genaue Vorstellung davon hat, was er sucht (High Intent Search), ist aber enttäuschend für diejenigen, deren Ansatz eher explorativ ist (Low Intent Search) oder wenn es darum geht, dem Nutzer spontan bestimmte relevante Ergebnisse vorzuschlagen (No Intent).
Kurz gesagt, eine einfache Indexierung ermöglicht das Finden von Elementen, deren genaue Merkmale bekannt sind, reicht aber nicht aus, wenn die Suche eher vage bleibt. Die Ergebnisse werden dann zu oft durch zahlreiche falsch positive Treffer verunreinigt, und deren Reihenfolge ist ebenfalls nicht zufriedenstellend.
Eine multidimensionale Herangehensweise für eine leistungsfähige Suche
Für uns war von Anfang an klar, dass ein zu einfaches Indexierungssystem keine zufriedenstellende Nutzererfahrung gewährleisten kann. Wir haben daher beschlossen, die Suchmaschine in einem eigenen Modul der Plattform zu isolieren und sie zum Ziel stetiger Innovation (und Investition) zu machen.
Natürlich verfügen wir weder über die finanziellen Mittel von Google, noch über dessen Wissen über die Optimierung von Suchergebnissen. Wir haben jedoch mehrere Funktionen in unsere Suchmaschine integriert, die bereits zu stark relevanten Ergebnissen führen und ständig verbessert werden.
In besonderem Maße interessierten wir uns für die Arbeit der Google-Gründer an ihrem PageRank-Algorithmus. Dieser berücksichtigt mehrere Dutzend Aspekte (sogenannte Features), darunter die Dichte der Beziehungen zwischen den verschiedenen Graph-Objekten (Hyperlinks im Falle von Internetseiten) oder die semantische Analyse des Knowledge Graphs.
Dazu gehören insbesondere die folgenden Funktionen:
- Die klassische, flache Indizierung aller Attribute eines Objekts (Name, Beschreibung und alle Eigenschaften) mit einer Gewichtung nach der Art der Eigenschaft.
- Eine NLP-Schicht (Natural Language Processing) zur Berücksichtigung von Näherungswerten (Tipp- oder Rechtschreibfehler).
- Eine semantische Analyseschicht, die auf der Verarbeitung des Knowledge Graphs basiert.
- Eine Personalisierungsschicht, die derzeit auf einer einfachen Klassifizierung der Nutzer nach ihren Use Cases beruht, die aber in Zukunft mit individuellen Profildaten angereichert werden soll.
Smart Filtering zur Kontextualisierung und Begrenzung der Suchergebnisse
Als Ergänzung zur Suchmaschine bieten wir ein intelligentes Filtersystem, das Smart Filtering. Diese Funktion findet man häufig auf E-Commerce-Webseiten (z.B. Amazon oder Booking.com) und besteht darin, kontextbezogene Filter vorzuschlagen, um die Ergebnisse einer Suche einzugrenzen.
Die Filter funktionieren folgendermaßen:
- In der Filterliste werden ausschließlich die Eigenschaften angezeigt, die die Ergebnisliste tatsächlich reduzieren.
- Jeder Filter zeigt seine Auswirkung an, d.h. die Anzahl der nach Anwendung des Filters verbleibenden Ergebnisse.
- Bei Anwendung des Filters wird die Ergebnisliste sofort aktualisiert.
Wir glauben, dass wir durch die Kombination von multidimensionaler Suche und Smart Filtering unserer Konkurrenz voraus sind. Darüber hinaus ermöglicht es unsere entkoppelte Architektur (die Suchmaschine ist eine eigenständige Komponente), ständig mit neuen Ansätzen zu experimentieren und gleichzeitig diejenigen, die wir für sinnvoll halten, schnell zu integrieren.