Zeenea - Data Innovation Summit 2022

Leitfaden zum Data Quality Management #1 – Die neun Dimensionen der Datenqualität

April 4, 2022
April 4, 2022
04 April 2022

Datenqualität, besser bekannt unter dem englischen Begriff Data Quality, bezieht sich auf die Fähigkeit eines Unternehmens, seine Daten dauerhaft und im Laufe der Zeit zu erhalten. Zum Thema Datenqualität hört man von Fachleuten immer wieder, dass deren Verbesserung die Lösung für alle geschäftlichen Probleme ist und daher oberste Priorität haben sollte.

Die Realität sieht unserer Meinung nach jedoch anders aus: Datenqualität sollte nur als ein Mittel unter vielen betrachtet werden, um die Unsicherheit beim Erreichen der Unternehmensziele zu verringern.

In dieser Serie erfahren Sie alles, was Sie über Datenqualitätsmanagement (DQM) wissen müssen:

  1. Die neun Dimensionen der Datenqualität
  2. Die Herausforderungen und Risiken der Datenqualität
  3. Die wichtigsten Funktionen eines DQM-Tools
  4. Der Beitrag des Datenkatalogs zum DQM

 

Was ist Datenqualität?

Wenn Sie einen Data Analyst oder einen Data Engineer fragen, was Datenqualität ist, werden Sie höchstwahrscheinlich unterschiedliche Antworten erhalten – sogar innerhalb eines Unternehmens. Einige werden zum Beispiel von der Einzigartigkeit der Daten sprechen, während andere die Standardisierung als Kriterium nennen. Vielleicht haben Sie selbst Ihre eigene Interpretation.

Qualität wird laut der Norm DIN EN ISO 9000:2015 als „Grad, in dem ein Satz inhärenter Merkmale eines Objekts Anforderungen erfüllt“ definiert.

DAMA International (The Global Data Management Community) – ein internationaler Verband, der die geschäftlichen und technischen Fachleute für Datenmanagement vereint – leitet diese Definition im Datenkontext ab: Datenqualität ist der Grad, in dem die Dimensionen der Daten die Anforderungen erfüllen“

Der dimensionale Ansatz zur Datenqualität

Operativ schlägt sich die Datenqualität in den sogenannten Dimensionen der Datenqualität nieder, wobei sich jede Dimension auf einen bestimmten Aspekt der Qualität bezieht. Die vier am häufigsten verwendeten Dimensionen sind in der Regel Vollständigkeit, Genauigkeit, Validität und Verfügbarkeit – auf die wir weiter unten näher eingehen werden. 

In der Literatur findet man eine große Anzahl verschiedener Dimensionen und Kriterien, mit denen die Datenqualität beschrieben werden kann. Man muss sich jedoch darüber im Klaren sein, dass es heute keinen Konsens darüber gibt, welche diese Dimensionen sind. DAMA definiert bspw. sechzig Dimensionen – während die meisten DQM-Softwareanbieter in der Regel fünf oder sechs Dimensionen vorschlagen.

Die neun Dimensionen der Datenqualität

Wir bei Zeenea glauben, dass der ideale Kompromiss in neun Dimensionen der Datenqualität besteht: Vollständigkeit, Genauigkeit, Validität, Einzigartigkeit, Konsistenz, Aktualität, Nachvollziehbarkeit, Klarheit und Verfügbarkeit.

Wir möchten Ihnen die neun Dimensionen und die verschiedenen Konzepte, die in diesem eBook behandelt werden, anhand eines einfachen Beispiels veranschaulichen.

Arthur ist dafür verantwortlich, Marketingkampagnen an seine Kunden und Interessenten zu senden, um die neuen Angebote seines Unternehmens vorzustellen. Dabei stößt er auf eine Reihe von Problemen:

  • Arthur sendet manchmal mehrere Mitteilungen an dieselben Personen, 
  • Die in seinem CRM angegebenen E-Mails sind oft ungültig,
  • Interessenten und Kunden erhalten nicht immer den richtigen Inhalt,
  • Einige Informationen über Interessenten sind veraltet,
  • Briefe, die an wichtige Kunden geschickt wurden, kommen zurück,
  • Kunden werden in E-Mails mit der falschen Anrede angesprochen,
  • Es gibt zwei Adressen für Kunden und Interessenten, und es ist unklar, wofür sie stehen,
  • Es ist nicht immer klar, woher die Daten, die er nutzt, stammen oder wie er auf ihre Quellen zugreifen kann.

Die folgenden Daten stehen Arthur für seinen Auftrag zur Verfügung. Wir werden sie verwenden, um jede der neun DQ-Dimensionen zu veranschaulichen:

data-quality-table

1. Vollständigkeit

Sind die Daten vollständig? Fehlen irgendwelche Informationen? Ziel dieser Dimension ist es, leere oder fehlende Daten zu identifizieren.

In unserem Beispiel hat Arthur festgestellt, dass eine der E-Mail-Adressen nicht ausgefüllt ist:

Data Quality - Table Empty Email

Zur Behebung des Problems könnte er versuchen, herauszufinden, ob andere Systeme diese Informationen enthalten. Arthur könnte auch die zuständigen Kollegen bitten, die fehlenden E-Mail-Adressen manuell auszufüllen.

 

2. Genauigkeit

Stimmen die vorliegenden Werte mit den tatsächlichen Daten überein, d. h. mit denen, die in der realen Welt vorliegen?

Arthur hat festgestellt, dass Briefe an wichtige Kunden zurückkommen, weil die Postadressen nicht korrekt sind. Man stellt tatsächlich fest, dass eine der Adressen nicht dem Adressformat der realen Welt entspricht:

Data Quality - Table Address

Es könnte für Arthur interessant sein, sich nach Diensten zur Überprüfung von Postadressen umzuschauen.

3. Validität

Entspricht der Datensatz der Syntax seiner Definition? Mit dieser Dimension soll sichergestellt werden, dass die Daten einem bestimmten Modell oder einer bestimmten Regel entsprechen.

Arthur hat festgestellt, dass er regelmäßig Rückläufer für ungültige E-Mails erhält. Außerdem erhalten einige Interessenten und Kunden nicht den richtigen Inhalt, da sie nicht richtig qualifiziert sind. Man stellt fest, dass die E-Mail-Adresse annalincoln@apple das falsche Format hat und der Kundentyp Csutomer nicht korrekt ist.

Data Quality - Table Input Errors

Zur Lösung des Problems kann er bspw. veranlassen, dass die Client Type-Werte immer Teil einer Liste von Referenzwerten sein müssen (Customer oder Prospect) und dass die E-Mail-Adresse einem bestimmten Format entspricht.

4. Konsistenz

 

Sind verschiedene Werte in einem Datensatz in Bezug auf eine Regel konform? Es gilt sicherzustellen, dass die Daten zwischen mehreren Spalten übereinstimmen.

Einige der männlichen Kunden beschweren sich über E-Mails, in denen sie fälschlicherweise als Frau bezeichnet werden. Bei Lino Rodrigez gibt es tatsächlich einen Widerspruch zwischen den Spalten Gender und Title.

Data Quality - Table Title and Gender

To solve these types of problems, it is possible to create a logical rule that ensures that when the id Gender is Male, the title should be Mr.5.

5. Aktualität

 

Ist der Zeitraum zwischen Erstellung der Daten und ihrer Nutzung angemessen? Es soll sichergestellt werden, dass die Daten innerhalb eines im Verhältnis zu ihrer Erstellung angemessenen Zeitraums verwendet werden.

Arthur hat festgestellt, dass einige Informationen über potenzielle Kunden veraltet und nicht mehr aktuell sind. Für seine Tätigkeit und sein Unternehmen sollten CRM-Daten, die älter als sechs Monate sind, nicht verwendet werden

Data Quality - Table Time Value

Das Problem könnte durch eine Regel behoben werden, die zu alte Daten identifiziert und ausschließt. Eine andere Alternative wäre, die gleichen Informationen aus einem anderen System abzurufen, das frischere Daten enthält.

6. Einzigartigkeit

 

Gibt es Datensätze, die mehr als einmal vorhanden sind? Damit soll sichergestellt werden, dass die Daten nicht doppelt genutzt werden.

Arthur stellt fest, dass er die gleichen Mitteilungen mehrmals an die gleichen Personen gesendet hat. Die Kundin Lisa Smith kommt doppelt in der Datei vor:

Data Quality - Table Double

In diesem vereinfachten Beispiel sind die duplizierten Daten genau dieselben. Mit fortgeschritteneren Algorithmen wie bspw. Jaro, Jaro-Winkler oder Levenshtein lassen sich die duplizierten Daten feiner gruppieren.

7. Klarheit

 

Ist es für Datennutzer einfach, die Metadaten zu verstehen? Ziel ist es, die Bedeutung der Daten zu erfassen und Interpretationen zu vermeiden.

Arthur hatte Zweifel an den beiden vorhandenen Adressen, da es nicht klar ist, worauf sie sich beziehen. Die Namen Street Address 1 und Street Address 2 sind interpretationsbedürftig und sollten nach Möglichkeit geändert werden. Das Umbenennen innerhalb einer Datenbank ist oft ein komplizierter Vorgang und sollte zumindest mit einer Beschreibung ordnungsgemäß dokumentiert werden:

data quality - clarity

8. Nachvollziehbarkeit

 

Ist es möglich, Daten zurückzuverfolgen? Ziel ist es, auf die Ursprünge der Daten zuzugreifen sowie auf die Transformationen, die sie möglicherweise durchlaufen haben.

Arthur ist sich nicht ganz sicher, woher seine Daten kommen und wie er auf die Quelldaten zugreifen kann. Dies könnte ihm jedoch sehr nützlich sein, insbesondere um sicherzustellen, dass Probleme tatsächlich an der Quelle behoben werden. Er müsste also wissen, dass die Daten, die er in seinem Marketing-Tool verwendet, aus den Daten im Data Warehouse seines Unternehmens stammen, die wiederum aus dem CRM-Tool kommen.

Data Quality - CRM

9. Verfügbarkeit

 

Wie können die Daten von den Nutzern eingesehen oder abgerufen werden? Ziel ist es, den Zugang zu den Daten zu erleichtern.

Arthur überlegt sich, wie er einfach auf die Quelldaten zugreifen könnte. Wenn wir das vorherige Schema wieder aufgreifen, hätte er gerne einen einfachen und schnellen Zugriff auf Daten aus dem Data Warehouse und/ oder dem CRM-Tool. In einigen Fällen müsste Arthur eine Anfrage stellen, bevor er direkt auf diese Informationen zugreifen kann.

Werfen Sie einen Blick in unseren Leitfaden zum Data Quality Management

Für weitere Informationen über Datenqualität und DQM, laden Sie sich jetzt unseren kostenlosen “Leitfaden zum Data Quality Management“ herunter!

der-leitfaden-zum-data-quality-management-cover

zeenea logo

At Zeenea, we work hard to create a data fluent world by providing our customers with the tools and services that allow enterprises to be data driven.

zeenea logo

Chez Zeenea, notre objectif est de créer un monde “data fluent” en proposant à nos clients une plateforme et des services permettant aux entreprises de devenir data-driven.

zeenea logo

Das Ziel von Zeenea ist es, unsere Kunden "data-fluent" zu machen, indem wir ihnen eine Plattform und Dienstleistungen bieten, die ihnen datengetriebenes Arbeiten ermöglichen.

Related posts

Articles similaires

Ähnliche Artikel

Be(come) data fluent

Read the latest trends on big data, data cataloging, data governance and more on Zeenea’s data blog.

Join our community by signing up to our newsletter!

Devenez Data Fluent

Découvrez les dernières tendances en matière de big data, data management, de gouvernance des données et plus encore sur le blog de Zeenea.

Rejoignez notre communauté en vous inscrivant à notre newsletter !

Werden Sie Data Fluent

Entdecken Sie die neuesten Trends rund um die Themen Big Data, Datenmanagement, Data Governance und vieles mehr im Zeenea-Blog.

Melden Sie sich zu unserem Newsletter an und werden Sie Teil unserer Community!

Let's get started
Make data meaningful & discoverable for your teams
Learn more >

Los Geht’s!

Geben Sie Ihren Daten einen Sinn

Mehr erfahren >

Démarrez maintenant
Donnez du sens à votre patrimoine de données
En savoir plus >