Der Data Catalog eines Unternehmens kann den gesamten Datenbestand aufwerten, indem er sich insbesondere auf zwei Arten von Informationen stützt – einerseits die rein technischen Informationen, die automatisch von den Quellen synchronisiert werden; und andererseits die fachspezifischen Informationen, die aus der Arbeit der Data Stewards hervorgegangen sind. Letztere werden manuell aktualisiert und bringen so ihre eigenen Risiken auf Unternehmensebene mit sich.
Ein Berechtigungssystem ist daher von entscheidender Bedeutung, um die Zugriffsrechte der Benutzer des Data Catalogs zu definieren und zu priorisieren. Dieser Artikel beleuchtet die grundlegenden Merkmale und die möglichen Ansätze für den Aufbau eines effektiven Berechtigungssystems, und erläutert auch die im Zeenea Data Catalog implementierte Lösung.
Das Berechtigungssystem: ein unverzichtbares Werkzeug auf Unternehmensebene
Damit die Benutzer des Data Catalogs den Informationen vertrauen können, die sie sich ansehen, muss die Dokumentation der katalogisierten Objekte relevant, von hoher Qualität und vor allem zuverlässig sein. Ihre Nutzer müssen den ihnen zur Verfügung stehenden Datenbestand leicht finden, verstehen und nutzen können.
Herkunft der Kataloginformationen und Automatisierung
Ein Datenkatalog integriert in der Regel zwei verschiedene Arten von Informationen. Zum einen gibt es rein technische Informationen, die direkt aus der Datenquelle stammen. Bei Zeenea werden diese Informationen vollautomatisch und kontinuierlich zwischen dem Data Catalog und jeder Datenquelle synchronisiert, um die Richtigkeit und Aktualität der Daten zu gewährleisten. Zum anderen enthält der Katalog die gesamte fachspezifische oder organisatorische Dokumentation (überwiegender Anteil), die ihrerseits aus der Arbeit der Data Stewards hervorgegangen ist. Diese Informationen können nicht automatisiert werden und werden von den Datenmanagement-Teams des Unternehmens manuell aktualisiert
Das Berechtigungssystem als Voraussetzung für die Nutzung des Data Catalogs
Um diese zweite Datenkategorie verwalten zu können, muss der Katalog Kontrollmechanismen für die Eingabe enthalten. Es ist nämlich nicht wünschenswert, dass ein beliebiger Nutzer des Data Catalogs Ihres Unternehmens Informationen erstellen, bearbeiten, importieren, exportieren oder sogar löschen kann, ohne dass er zuvor die entsprechenden Berechtigungen erhalten hat. Ein System zur Verwaltung von Benutzerrechten ist daher eine unabdingbare Voraussetzung. Dieses System übernimmt die Rolle des Türstehers. Es legt die Zugriffsrechte der Nutzer fest.
Die drei grundlegenden Merkmale des Berechtigungssystems eines Data Catalogs
Die Einführung eines unternehmensweiten Berechtigungssystems ist mit vielen Erwartungen verbunden, die bereits bei der Konzeption berücksichtigt werden müssen. Wir haben uns für diesen Artikel drei wichtige grundlegende Merkmale eines Berechtigungssystems herausgepickt: seinen Grad an Granularität und Flexibilität, seine Lesbarkeit und Prüfbarkeit sowie seine einfache Verwaltung.
Granularität und Flexibilität
Zunächst muss ein Berechtigungssystem das richtige Maß an Granularität und Flexibilität aufweisen. Bestimmte Aktionen müssen im gesamten Katalog verfügbar sein, um seine Nutzung zu erleichtern. Andere Aktionen müssen auf bestimmte Teile des Katalogs beschränkt werden. Einige Benutzer haben globale Rechte, die sich auf alle Objekte im Katalog beziehen, andere sind darauf beschränkt, ausschließlich den ihnen zugewiesenen Umfang bearbeiten zu können. Das Berechtigungssystem muss also die gesamte Bandbreite von globalen Berechtigungen bis hin zu Berechtigungen für einzelne Objekte im Katalog ermöglichen.
Zeenea zum Beispiel hat Kunden aller Größenordnungen und mit einem sehr heterogenen Reifegrad in Bezug auf Data Governance-Themen. Einige sind Start-ups, andere sind große Unternehmen. Einige haben die Data Culture bereits fest in ihren Prozessen verankert, andere hingegen sind gerade erst dabei, eine Datenkultur aufzubauen. Das Berechtigungssystem muss daher flexibel genug sein, um sich an alle Arten von Unternehmen und Strukturen anzupassen.
Lesbarkeit und Prüfbarkeit
Zweitens muss ein Berechtigungssystem lesbar und leicht nachvollziehbar sein. Bei einem Audit oder einer Überprüfung der Systemberechtigungen muss ein Administrator, der ein Objekt untersucht, schnell erkennen können, wer in der Lage ist, das betroffene Objekt zu verändern. Umgekehrt muss ein Administrator, wenn er sich die Rechte eines Benutzers im Detail ansieht, schnell in der Lage sein, den ihm zugewiesenen Bereich und seine dort erlaubten Aktionen zu bestimmen.
So wird auf eine einfache Art und Weise sichergestellt, dass die richtigen Personen Zugriff auf die richtigen Bereiche haben und über die richtige Berechtigungsstufe in Bezug auf ihre Rolle im Unternehmen verfügen.
Waren Sie schon einmal mit einem so komplexen Berechtigungssystem konfrontiert, dass Sie unmöglich nachvollziehen konnten, warum ein bestimmter Benutzer eine bestimmte Information einsehen durfte? Oder warum er im Gegenzug nicht in der Lage war dies zu tun?
Einfache Verwaltung
Letztlich muss ein Berechtigungssystem belastbar sein, wenn der Umfang des Katalogs stetig zunimmt. Wir wissen heute, dass wir in einer Welt der Daten leben: 2,5 Exabyte an Daten wurden im Jahr 2020 Tag für Tag erzeugt, und für das Jahr 2025 gehen Schätzungen von 463 Exabyte täglich aus. Neue Projekte, neue Produkte, neue Verwendungszwecke: Unternehmen müssen sich täglich mit der Explosion ihres Datenbestands auseinandersetzen.
Um relevant zu bleiben, muss sich ein Data Catalog mit den Daten des Unternehmens weiterentwickeln. Das Berechtigungssystem muss angesichts von Änderungen des Inhalts oder der internen Mobilität von Mitarbeitenden unbedingt die notwendige Resilienz aufweisen.
Verschiedene Ansätze für die Gestaltung eines Berechtigungssystems für einen Datenkatalog
Es gibt verschiedene Ansätze für die Gestaltung des Berechtigungssystems eines Data Catalogs, welche die erwarteten und oben aufgeführten Hauptmerkmale mehr oder weniger gut erfüllen. Wir haben uns entschieden, drei davon in diesem Artikel näher zu erläutern.
Crowdsourcing
Zunächst der Crowdsourcing-Ansatz – man vertraut darauf, dass sich das Kollektiv selbst korrigiert. Einige wenige Administratoren können den Inhalt moderieren und alle Nutzer tragen zur Dokumentation bei. Ergänzend gibt es meist ein Auditsystem, um sicherzustellen, dass keine Informationen durch Fehler oder Böswilligkeit verloren gehen. In diesem Fall gibt es keine Vorabkontrolle, sondern eine kollektive Korrektur im Nachhinein. Ein derartiges System wird typischerweise von Online-Enzyklopädien wie Wikipedia gewählt. Diese Systeme sind auf die Anzahl der Autoren und Beitragenden und deren individuelles Wissen angewiesen, um gut zu funktionieren, da die Selbstkorrektur nur durch das Kollektiv wirksam werden kann.
Dieses System erfüllt perfekt das Bedürfnis nach Lesbarkeit: Da alle Nutzer die gleiche Berechtigungsstufe haben, gibt es keine offenen Fragen bezüglich der Zugriffsrechte der einzelnen Personen. Auch die Verwaltung ist denkbar einfach – jeder neue Benutzer hat die allen gemeinsame Berechtigungsstufe, und jedes neue Objekt im Data Catalog ist für alle zugänglich. Im Gegenzug gibt es keine Möglichkeit, die Granularität der Rechte zu verwalten. Jeder kann alles tun und alles sehen.
Dem einzelnen Nutzer zugeordnete Berechtigung
Ein zweiter Ansatz für die Gestaltung des Berechtigungssystems: Lösungen, bei denen der Umfang der Berechtigungen dem Profil des Nutzers zugeordnet ist. Wenn ein Benutzer im Data Catalog angelegt wird, weisen die Administratoren ihm einen Berechtigungsbereich zu, der die Ressourcen definiert, welche der Benutzer sehen und bearbeiten kann. In diesem Fall werden alle Kontrollen im Vorfeld durchgeführt und ein Benutzer kann nicht versehentlich Zugriff auf eine bestimmte Ressource erhalten. Nach diesem System arbeiten viele Betriebssysteme, wie z. B. Windows.
Dieses System hat den Vorteil, dass es sehr sicher ist. Es besteht kein Risiko, dass eine neue Ressource für Personen sichtbar ist oder bearbeitet werden kann, die nicht über die notwendige Berechtigung dafür verfügen. Dieses System erfüllt ebenfalls das Bedürfnis nach Lesbarkeit: Für jeden Nutzer sind alle für ihn zugänglichen Ressourcen einfach zu finden. Die erwartete Granularität ist ebenfalls gut, da es möglich ist, die Daten des Systems jeder Ressource einzeln zuzuweisen.
Im Gegenzug ist die Verwaltung komplexer: Jede neue Ressource, die zum Katalog hinzugefügt wird, muss auch zu den Berechtigungsbereichen der betroffenen Benutzer hinzugefügt werden. Diese Einschränkung kann durch das Erstellen von dynamischen Berechtigungsbereichen ausgeglichen werden. Dazu können Regeln definiert werden, die den Nutzern Ressourcen zuweisen, z. B. werden einem bestimmten Benutzer alle Dateien mit der Dateiendung .PDF zugänglich gemacht. Es können aber leicht widersprüchliche Regeln entstehen, die dann die Lesbarkeit des Systems erschweren.
Der jeweiligen Ressource zugeordnete Berechtigung
Der dritte große Ansatz zur Gestaltung des Berechtigungssystems eines Data Catalogs: Lösungen, bei denen die erlaubten Aktionen der zu ändernden Ressource zugeordnet werden. Für jede Ressource werden die möglichen Berechtigungen für den jeweiligen Benutzer festgelegt. Jede Ressource besitzt also eine eigene Liste mit Berechtigungen. Beim Betrachten der Ressource ist dann sofort ersichtlich, wer sie lesen oder bearbeiten kann. Nach diesem System arbeiten beispielsweise UNIX-Betriebssysteme.
Das Bedürfnis nach Lesbarkeit wird perfekt erfüllt: Ein Administrator sieht beim Betrachten der Ressource sofort die Rechte der verschiedenen Benutzer. Dasselbe gilt für die Granularität: Dieser Ansatz ermöglicht es, Rechte auf Makroebene durch ein Vererbungssystem oder auf mikroskopischer Ebene direkt an der Ressource zu vergeben. Was die Verwaltung betrifft, muss jeder neue Benutzer den verschiedenen Ressourcen zugeordnet werden, was potenziell mühsam ist. Es gibt jedoch Gruppensysteme, die diese Komplexität abmildern können.
Das Berechtigungsmodell des Zeenea Data Catalog: einfach, lesbar und flexibel
Von den vorgestellten Ansätzen wollen wir nun den von Zeenea gewählten Ansatz näher erläutern und beschreiben, wie er angewendet wird.
Wir haben uns für den Ansatz auf Ressourcenebene entschieden
Lassen Sie uns zunächst die verschiedenen Vor- und Nachteile der zuvor behandelten Ansätze noch einmal zusammenfassen. Die beiden Systeme mit ressourcen- oder benutzerbezogenen Berechtigungen kommen dem Bedarf nach Granularität angemessen nach – diese Systeme ermöglichen die Zuweisung von Rechten für jede einzelne Ressource. Beim Crowdsourcing hingegen lautet die Grundphilosophie, dass jeder auf alles zugreifen kann.
Die Lesbarkeit ist in Crowdsourcing-Systemen oder bei Systemen, in denen die Berechtigungen an die Ressource geknüpft sind, eindeutig einfacher nachzuvollziehen. In Systemen, in denen die Berechtigungen dem jeweiligen Benutzer zugeordnet sind, ist sie immer noch angemessen, aber oft auf Kosten einer einfachen Verwaltung.
Die Verwaltung ist bei einem Crowdsourcing-Ansatz sehr einfach und hängt davon ab, was man stärker verändern wird – die Ressource oder die Nutzer.
Da der Crowdsourcing-Ansatz die Anforderungen an die Granularität nicht erfüllt, haben wir ihn gestrichen. Somit blieben uns zwei Möglichkeiten: die der Ressource zugeordnete Berechtigung oder die dem Benutzer zugeordnete Berechtigung. Aufgrund der Tatsache, dass die Lesbarkeit bei der Ressource zugeordneten Berechtigungen etwas besser ist und da sich der Inhalt des Katalogs schneller ändern wird als die Anzahl der Nutzer, erschien uns die Option der dem Nutzer zugeordneten Berechtigungen als die am wenigsten sinnvolle.
Die Option, die wir bei Zeenea ausgewählt haben, ist daher die dritte: Die Berechtigungen werden der Ressourcen zugeordnet.
Die Funktionsweise des Berechtigungssystems des Zeenea Data Catalogs
Im Zeenea Data Catalog kann für jeden Benutzer festgelegt werden, ob er das Recht hat, Objekte aus dem gesamten Katalog, einen oder mehrere Objekttypen oder nur die Objekte in seinem Bereich zu lesen und zu bearbeiten. Dies ermöglicht maximale Granularität, aber auch globalere Rollen. Beispielsweise könnten „Super-Stewards“ die Berechtigung erhalten, ganze Teile des Katalogs, wie das Glossar, zu bearbeiten.
Anschließend wird jedem Katalogobjekt eine Liste von Verwahrern zugeordnet, d. h. die Personen, die für die Dokumentation dieses Objekts verantwortlich sind. So ist es mit einer einfachen Betrachtung der Details des Objekts möglich, sofort zu erkennen, an wen man sich wenden muss, um die Dokumentation zu korrigieren, zu vervollständigen oder eine Frage dazu zu stellen. Das System ist also lesbar und einfach verständlich. Die Aktionsbereiche der Benutzer werden mithilfe eines granularen Systems bis hin zum einzelnen Katalogobjekt genau bestimmt.
Wenn ein neuer Benutzer zum Katalog hinzugefügt wird, muss sein Aktionsbereich festgelegt werden. Aktuell erfolgt diese Konfiguration über eine Massenbearbeitung der Objekte. Um die Verwaltung weiter zu vereinfachen, wird es jedoch bald möglich sein, Gruppen von verantwortlichen Benutzern zu definieren, sodass ein neuer Mitarbeiters bei seinem Eintritt nicht mehr namentlich zu jedem Objekt in seinem Bereich hinzugefügt werden muss. Sie müssen ihn dann nur noch zur zuständigen Gruppe hinzufügen und der Bereich wird ihm automatisch zugewiesen.
Letztendlich haben wir uns auch bewusst dafür entschieden, keinen Workflow zur Validierung der Dokumentation im Katalog zu implementieren. Wir sind der Meinung, dass die Eigenverantwortung der Teams einer der Schlüssel zum Erfolg bei der Einführung eines Data Catalogs ist. Deshalb führen wir lediglich eine Kontrolle ein, welche die Rechte des Benutzers und seinen Bereich festlegt. Sobald diese beiden Elemente festgelegt wurden, können die Dokumentationsverantwortlichen frei handeln. Ein Ereignisprotokoll über alle Änderungen, um eine vollständige Überprüfbarkeit zu ermöglichen, sowie ein Diskussionssystem über die Objekte, mit dem alle Benutzer Weiterentwicklungen vorschlagen oder Fehler in der Dokumentation melden können, runden die verfügbaren Tools ab.
Wenn Sie mehr über unser Berechtigungsmodell erfahren oder weitere Informationen über den Data Catalog erhalten möchten: