datenqualität Archives

Wie kann KI die Governance Ihrer Unternehmensdaten verbessern?

von Zeenea Software | Okt. 23, 2024 | Data Governance

Laut einem von McKinsey Ende 2022 veröffentlichten Bericht würden 50 % der Unternehmen bereits künstliche Intelligenz einsetzen, um ihre Serviceabläufe zu optimieren und neue Produkte zu entwickeln. Die Entwicklung von KI und Machine Learning im Unternehmensalltag zeigt, welch herausragende Rolle Daten in den Entwicklungsstrategien der Führungskräfte spielen. Um effektiv arbeiten zu können, ist die KI auf große Datensätze angewiesen, die einer methodischen und strengen Governance unterliegen müssen.

Hinter dem Begriff Data Governance steht die Gesamtheit der Prozesse, Richtlinien und Normen, um die Erfassung, Speicherung, Verwaltung, Qualitätssicherung und den Zugang zu Daten innerhalb einer Organisation zu regeln. Welche Rolle spielt die Data Governance? Sie stellt sicher, dass die Daten präzise, sicher, und zugänglich sind und mit den geltenden Vorschriften übereinstimmen. Zwischen KI und Data Governance besteht eine enge Beziehung, denn KI-Modelle lernen aus Daten, und minderwertige oder verzerrte Daten können zu falschen oder diskriminierenden Entscheidungen führen.

Möchten Sie sicherstellen, dass die von KI-Systemen und ihren Algorithmen verwendeten Daten vertrauenswürdig, ethisch korrekt und datenschutzkonform sind? Dann ist die Data Governance eine unabdingbare Voraussetzung für Sie. Wenn Sie zur selben Zeit ein Doppelprojekt aus KI und Data Governance vorantreiben, schaffen Sie positive Synergien. Die KI kann auf diese Weise direkt zur Verbesserung der Data Governance eingesetzt werden, indem sie Aufgaben wie die Erkennung von Anomalien oder die Klassifizierung von Daten automatisiert.

Zusammenfassung der (zahlreichen!) Vorteile einer Data Governance mit KI-Unterstützung.

Welche Vorteile bietet KI für die Data Governance?

Verbesserung der Qualität Ihrer Daten

Die Datenqualität muss die Grundlage jeder Datenstrategie sein. Je zuverlässiger die Daten sind, desto relevanter sind die daraus abgeleiteten Erkenntnisse, Entscheidungen und Leitlinien. KI trägt durch mehrere Mechanismen zur Verbesserung der Datenqualität bei. KI-Algorithmen können insbesondere die Erkennung und Korrektur von Fehlern in Datensätzen automatisieren und so Inkonsistenzen und Ungenauigkeiten reduzieren.

Darüber hinaus kann KI dabei helfen, Daten zu normalisieren, indem sie diese auf kohärente Weise strukturiert, damit sie flüssiger und zuverlässiger ausgewertet, verglichen und in einen Zusammenhang gebracht werden können. Mithilfe von maschinellem Lernen (Machine Learning) ist es auch möglich, versteckte Muster und Trends in den Daten zu erkennen und so Fehler oder fehlende Daten zu entdecken.

Automatisierung der Compliance Ihrer Daten

Da die Zahl der Cyberbedrohungen buchstäblich explodiert, muss die Einhaltung der Daten-Compliance in Ihrem Unternehmen absolute Priorität genießen. Die Gewährleistung dieser Compliance setzt jedoch eine ständige Wachsamkeit voraus, die nicht ausschließlich von der menschlichen Intelligenz getragen werden kann. Zumal KI potenzielle Verstöße gegen Datenvorschriften proaktiv überwachen kann. Wie genau? Indem sie alle Datenströme in Echtzeit auf Anomalien oder unbefugte Zugriffe hin analysiert, automatische Warnungen auslöst und sogar Empfehlungen zur Behebung möglicher Probleme macht. Darüber hinaus erleichtert KI die Klassifizierung und Kennzeichnung sensibler Daten und stellt so sicher, dass diese angemessen verarbeitet werden. Außerdem können KI-Systeme automatische Compliance-Berichte erstellen und so den Verwaltungsaufwand reduzieren.

Erhöhen Sie die Sicherheit Ihrer Daten

KI besitzt die Fähigkeit, Bedrohungen durch die Analyse von Datenzugriffsmustern in Echtzeit proaktiv zu erkennen und kann so vor verdächtigem Verhalten wie Eindringversuchen oder unbefugtem Zugriff warnen. Um im Dienste der Data Governance noch einen Schritt weiter zu gehen, nutzt die KI Systeme zur Erkennung von Malware, die auf maschinellem Lernen basieren. Diese Systeme sind in der Lage, Signaturen bekannter Malware zu identifizieren und unbekannte Varianten durch die Analyse ihres Verhaltens zu erkennen. Darüber hinaus trägt sie zur Sicherheit bei, indem sie die Verwaltung von Sicherheits-Patches automatisiert und die Einhaltung von Sicherheitsrichtlinien überwacht.

Demokratisierung der Daten

Der Kern Ihrer Datenstrategie beruht auf einem Ziel: Ihre Mitarbeiter sollen ermutigt werden, Daten zu nutzen, wann immer es möglich ist. Auf diese Weise fördern Sie die Entwicklung einer Datenkultur in Ihrer Organisation. Der Schlüssel zum Erfolg liegt darin, den Zugang zu den Daten zu erleichtern, indem Sie die Suche und Analyse komplexer Daten erleichtern. KI-Suchmaschinen können schnell relevante Informationen aus großen Datensätzen extrahieren, sodass Ihre Mitarbeiter in kürzester Zeit das finden, was sie brauchen. Darüber hinaus kann KI die Aggregation und Präsentation von Daten in Form von interaktiven Dashboards automatisieren, wodurch die Daten jederzeit leichter abgerufen und weitergegeben werden können!

Wie sieht die Zukunft der Data Governance aus?

Immer mehr Daten, immer mehr Analysen, immer mehr Vorhersagbarkeit. Das ist der Lauf der Dinge. Dies wird dazu führen, dass die Unternehmen ganzheitlichere Ansätze für ihre Herausforderungen wählen werden. Mehr Höhe, mehr Distanz, für immer mehr Nähe zu ihren Märkten. Um diese Herausforderung zu meistern, ist es von entscheidender Bedeutung, die Data Governance in die globalen Strategien einzubeziehen. In diesem Zusammenhang wird die Automatisierung von entscheidender Bedeutung sein und sich größtenteils auf Werkzeuge stützen, die künstliche Intelligenz und maschinelles Lernens nutzen, um Daten proaktiv zu finden, zu klassifizieren und zu sichern.

Die Zukunft wird unter dem Stern einer stärkeren Zusammenarbeit zwischen IT-, Rechts- und Geschäftsteams stehen, die für den Erfolg der Data Governance und die Aufrechterhaltung des Vertrauens aller Beteiligten von entscheidender Bedeutung ist.

Die wichtigsten Prioritäten und Herausforderungen für den Chief Data Officer (CDO) im Jahr 2024

von Zeenea Software | Jan. 10, 2024 | Data Mesh, Daten-Inspiration

In unserer dynamischen modernen Geschäftswelt ist das Erheben, Umwandeln und Nutzen von Daten für Unternehmen, die ihren Wettbewerbsvorteil wahren wollen, unverzichtbar geworden. Der Wunsch, „datenzentrierter“ zu werden, ist in allen Branchen offensichtlich, und viele Unternehmen ernennen einen Chief Data Officer (CDO), der sie in eine Zukunft führen soll, in der wertvolle Daten schnell entdeckt und genutzt werden. Im Sommer 2023 führte AWS eine umfassende weltweite Studie über die sich verändernde Rolle von CDOs, ihre wichtigsten Prioritäten und die Herausforderungen, mit denen sie 2023 konfrontiert waren, durch.

In diesem Artikel werden wir die wichtigsten Ergebnisse dieser Studie analysieren und uns mit den zentralen Themen beschäftigen, auf die sich CDOs im Jahr 2024 konzentrieren werden.

Generative KI, ein Zukunfts-Trend?

Eine begeisterter Annäherung an das Potenzial der generativen KI

Während die Nutzung generativer KI noch in den Kinderschuhen steckt, untersuchen CDOs aller Branchen aktiv ihre Möglichkeiten. Die generative KI stößt auf große Begeisterung, und einige CDOs gaben an, dass sie ihren Status innerhalb ihrer Organisation aufgewertet hat. Die Studie zeigt jedoch, dass der Einsatz generativer KI für viele Unternehmen derzeit noch weitgehend experimentell ist. Fast ein Drittel der Befragten gab an, dass sie „auf individueller Ebene experimentieren“ und keine umfassende Unternehmensstrategie verfolgen.

Obwohl die Initiativen zur generativen KI aktuell nicht über den Status eines Experiments hinauskommen, sehen die CDOs eine transformative Zukunft. Nicht weniger als 80 % der Befragten sind der Meinung, dass generative KI die Arbeit ihres Unternehmens langfristig verändern wird. Darüber hinaus erwarten oder sehen 46 Prozent bereits eine breite Einführung generativer KI in ihrem Unternehmen und 62 % planen, ihre Investitionen in generative KI zu erhöhen.

Datenqualität, Vertrauen und Sicherheit sind die größten Herausforderungen für die generative KI

Ein großer Teil der CDOs bezeichnete die Datenqualität als die größte Herausforderung für die generative KI. Die entscheidende Bedeutung qualitativ hochwertiger Daten beim Training generativer KI-Modelle kann nicht hoch genug eingeschätzt werden, und das Finden der richtigen Anwendungsfälle ist entscheidend, um sinnvolle Einblicke und Werte zu generieren.

Auch die Errichtung von Barrieren für eine verantwortungsvolle Nutzung wurde als Anliegen genannt, da 43 % der CDOs die Notwendigkeit ethischer und verantwortungsvoller Praktiken im Zusammenhang mit KI anerkennen. Dicht gefolgt von den Bereichen Datensicherheit und Datenschutz sowie Datenwissen und Datenkompetenz, was die Notwendigkeit einer Belegschaft unterstreicht, die in der Lage ist, die Macht der generativen KI zu nutzen.

Die Data Governance bleibt eine Priorität

Unternehmen ändern ihren Ansatz bei der Data Governance

Das zweite Jahr in Folge wurde die Data Governance als zeitintensivste Aktivität der CDOs genannt, was ein Wachstum von 44 % im Jahr 2022 auf 63 % im Jahr 2023 widerspiegelt. Darüber hinaus sehen mehr als die Hälfte der CDOs (51 %) die Data Governance als ihre Hauptverantwortung an, wobei 66 % angeben, dass sie mindestens 20 % ihrer Zeit in Anspruch nimmt.

Der AWS-Bericht betont, dass die Ziele der Data Governance darin bestehen, die Verfügbarkeit der Daten zu gewährleisten, das Vertrauen zu stärken und den Datenschutz zu gewährleisten. Ohne eine starke Data-Governance-Komponente kann keine Datenstrategie effektiv umgesetzt werden – Data Governance gilt als wichtigster Hebel zur Wertschöpfung für CDOs.

Die CDOs erkennen an, dass die Einführung einer effektiven Data Governance eine Herausforderung darstellt, hauptsächlich aufgrund der erheblichen Verhaltensänderungen, die sie innerhalb des Unternehmens erfordert. Das traditionelle Konzept der „Governance“ wandelt sich in einigen Unternehmen zum Positiven hin zu einer „Datenaktivierung“ . Diese Begriffsänderung spiegelt eine Entwicklung wider, welche die Data Governance als Katalysator und nicht als restriktive Maßnahme positioniert.

Datenkultur und Datenkompetenz bleiben weiterhin eine Herausforderung für die effektive Nutzung

Dem Bericht zufolge ist die Einführung einer datengetriebenen Kultur die größte Herausforderung, die es zu bewältigen gilt. Die Umfrage zeigt die vielen Facetten dieser Herausforderung auf, die organisatorisches Verhalten, Einstellungen und das Fehlen einer datengetriebenen Kultur oder eines datengestützten Ansatzes zur Entscheidungsfindung umfasst. Die CDOs bemühen sich, ihrem Unternehmen eine datenzentrierte Denkweise einzuimpfen, und stoßen dabei auf verschiedene Hindernisse:

• Die Schwierigkeit, Verhaltensweisen und Einstellungen innerhalb der Organisation zu ändern (70 %)
• Das Fehlen einer datengestützten Kultur oder datenbasierter Entscheidungsprozesse (59 %)
• Mangelnde Kontrolle oder mangelndes Verständnis für die Daten (50 %)
• Unzureichende Ressourcen, um die Ziele zu erreichen (55 %)

Um diesen Herausforderungen zu begegnen, engagieren sich die CDOs aktiv in Initiativen zur Einführung einer Datenkultur, wobei mehr als die Hälfte von ihnen ein Fünftel ihrer Zeit oder mehr für solche Programme aufwendet. Diese Initiativen umfassen häufig Programme zur Data Literacy und Ansätze für das Change Management, die auf spezifische Daten- oder Analyseprojekte zugeschnitten sind.

Schaffung eines sichtbaren Geschäftswerts

Analytik und KI in der Projektentwicklung

Im Jahr 2022 wurden Analytik- und KI-Projekte als entscheidender Faktor für die Schaffung eines messbaren Mehrwerts anerkannt, eine Einschätzung, die sich 2023 noch verstärkte. Mehr als die Hälfte der Befragten bevorzugt inzwischen einen gezielten Ansatz, bei dem sie sich auf eine kleine Gruppe von Schlüsselprojekten im Bereich Analytik oder KI als wichtigste Quelle der Wertschöpfung konzentrieren.

Obwohl die Datenverwaltung eine vorrangige Verantwortung ist, legen nur 44 % der CDOs den Schwerpunkt auf Datenverwaltungsinitiativen, wie z. B. die Verbesserung der Infrastruktur, im spezifischen Kontext jedes analytischen und KI-Anwendungsfalls und nicht als eigenständige Anstrengung.

Hin zu einem auf Datenprodukte ausgerichteten Ansatz

Das Konzept der Datenprodukte (Data Products), das mit dem Data Mesh entstanden ist, stellt einen neuen Ansatz für die Datenverwaltung dar. Basierend auf dem Prinzip, Daten als Produkt zu behandeln, führt dieses innovative Konzept eine Reihe von Merkmalen ein, welche die Art und Weise, wie Unternehmen ihre Datenbestände wahrnehmen und nutzen, neu definieren.

Laut der Studie verfolgen 39 % der CDOs eine Ausrichtung auf die Verwaltung von Datenprodukten und führen in ihren Teams spezielle Datenproduktmanager ein. Dieser Ansatz gewährleistet eine umfassende und disziplinierte Verwaltung aller Facetten von Analyse- oder KI-Initiativen, von der Konzeption über die Bereitstellung bis hin zur kontinuierlichen Wartung.

In dem Bericht erklärt Sebastian Klapdor, Chief Data and Technology bei Vista: „Der Fokus auf Datenprodukte hat die Datenexperten näher an den Rest der Organisation herangeführt. Von nun an werden die Datenproduktmanager die gleiche Arbeitsmethode wie die Produktmanager befolgen, die Software für Kunden entwickeln.“

Schlussfolgerung

Im Jahr 2024 wird die Arbeit der CDOs von dynamischen Herausforderungen und sich ändernden Prioritäten geprägt, wie die CDO Agenda 2024 von AWS enthüllt. Die Erforschung der generativen KI zeigt sowohl die Begeisterung als auch die Vorsicht der CDOs – während das transformative Potenzial weithin anerkannt wird, unterstreichen Herausforderungen wie Datenqualität, ethische Überlegungen und Sicherheit die Notwendigkeit eines ausgewogenen und verantwortungsbewussten Ansatzes.

Darüber hinaus bleibt die Data Governance ein ständiges Anliegen, wobei sich die Perspektive hin zur „Datenaktivierung“ verschiebt und der Kampf, den Unternehmen eine datenorientierte Kultur einzuimpfen, nach wie vor nicht gewonnen ist.

Schließlich wird bei der Suche nach einer sichtbaren geschäftlichen Wertschöpfung der Schwerpunkt auf eine Entwicklung hin zu einem Ansatz der Datenprodukte und eine strategische Integration von Analytik und KI in die Projektentwicklung gelegt. Die CDOs begnügen sich nicht damit, sich einen Weg durch die technologischen Fortschritte zu bahnen, sondern gehen auch aktiv die kulturellen und organisatorischen Veränderungen an, die notwendig sind, um das volle Potenzial der Daten auszuschöpfen.

Rückblick auf die Entwicklungen der Zeenea-Plattform im Jahr 2023

von Zeenea Software | Jan. 8, 2024 | Datenkatalog

2023 war ein gutes Jahr für Zeenea. Mit über 50 Releases und Updates unserer Plattform waren die letzten 12 Monate reich an Neuerungen und Verbesserungen, die den Wert Ihrer Unternehmensdaten freisetzen. Unsere Teams arbeiten ständig an neuen Funktionen, die den Alltag Ihrer Daten- und Fachbereichsteams vereinfachen und verbessern.

In diesem Artikel teilen wir gerne einige unserer Lieblingsfunktionen aus dem Jahr 2023, mit deren Hilfe unsere Kunden:

die Zeit für das Suchen und Finden von Daten verkürzen,
die Produktivität und Effektivität der Data Stewards steigern,
zuverlässige, sichere und datenschutzkonforme Informationen in der gesamten Organisation bereitstellen und
eine durchgehende Konnektivität mit all ihren Datenquellen herstellen konnten.

Die Zeit für das Suchen und Finden von Daten verkürzen

Einer der Grundwerte des Produkts von Zeenea ist Einfachheit. Wir sind davon überzeugt, dass die Data Discovery einfach und schnell sein muss, um Dateninitiativen in der gesamten Organisation zu beschleunigen.

Viele Datenteams haben immer noch Schwierigkeiten, die Informationen zu finden, die sie für die Erstellung eines bestimmten Berichts oder Anwendungsfalls benötigen. Entweder können sie die Daten nicht lokalisieren, weil sie über verschiedene Quellen, Dateien oder Arbeitsblätter verstreut sind, oder sie sind mit einer riesigen Menge an Informationen konfrontiert und wissen nicht einmal, wo sie ihre Suche starten sollen.

Im Jahr 2023 haben wir unsere Plattform weiterentwickelt, um sie so benutzerfreundlich wie möglich zu gestalten. Durch die Bereitstellung einfacher und schneller Möglichkeiten zur Untersuchung von Daten hat Zeenea es seinen Kunden ermöglicht, ihre Assets innerhalb von Sekunden zu finden, zu erkunden und zu verstehen.

Ein neuer Look für den Zeenea Explorer

Eine der ersten Veränderungen, mit denen unsere Teams die Discovery-Erfahrung unserer Kunden verbessern wollten, war die Bereitstellung einer benutzerfreundlicheren Oberfläche in unserer Data-Mining-Anwendung, dem Zeenea Explorer. Diese Überarbeitung umfasste:

Eine neue Startseite

Unsere Startseite brauchte ein Facelift für ein flüssigeres Benutzererlebnis. Für Nutzer, die nicht wissen, wonach sie suchen, haben wir ganz neue Discovery-Pfade hinzugefügt, die direkt von der Startseite des Zeenea Explorers aus zugänglich sind.

• Navigation nach Objekttyp: Wenn der Nutzer sicher ist, welche Art von Daten er sucht, z. B. einen Datensatz, eine Visualisierung, einen Prozess oder benutzerdefinierte Daten, kann er direkt auf den Katalog zugreifen, der bereits mit der gesuchten Art von Daten vorgefiltert ist.

• Navigation im Business Glossary: Die Benutzer können schnell durch das Business Glossary des Unternehmens navigieren, indem sie direkt auf die Glossar-Ressourcen zugreifen, die von den Data Stewards in Zeenea Studio definiert oder importiert wurden.

• Navigation nach Thema: Die Anwendung ermöglicht es den Nutzern, durch eine Liste von Objekten zu navigieren, die ein bestimmtes Thema, einen Anwendungsfall oder ein anderes für das Unternehmen relevantes Element darstellen (mehr dazu weiter unten).

Neue Detailseiten für Objekte

Um ein Katalogobjekt auf Anhieb zu verstehen, war eine der ersten wesentlichen Änderungen die Position der Registerkarten des Objekts. Ursprünglich wurden die Registerkarten auf der linken Seite der Seite platziert, was viel Platz beanspruchte. Jetzt befinden sich die Registerkarten am oberen Rand der Seite, was besser zum Layout der Zeenea Studio-Anwendung passt. Diese neue Anordnung ermöglicht es Datenkonsumenten, die aussagekräftigsten Informationen über ein Objekt zu finden, wie z. B.:

hervorgehobene Eigenschaften, die von den Data Stewards bei der Gestaltung des Katalogs festgelegt wurden,
verwandte Begriffe aus dem Glossar, um den Kontext des Objekts zu verstehen,
wichtige Personen, um die mit dem Objekt verbundenen Kontakte schnell zu erreichen.

Darüber hinaus ermöglicht unser neues Layout den Nutzern, alle Felder, Metadaten und alle anderen verknüpften Objekte sofort zu finden. Während die Informationen in der alten Version noch auf drei verschiedene Registerkarten verteilt waren, finden Datenkonsumenten nun die Beschreibung des Objekts und alle verknüpften Objekte auf einer einzigen Registerkarte mit dem Namen „Details“. Je nachdem, welchen Objekttyp Sie durchsuchen, befinden sich alle Felder, Ein- und Ausgaben, Glossar-Objekte (Parent/Child), Implementierungen und andere Metadaten im selben Abschnitt, wodurch Sie bei der Suche nach Daten wertvolle Zeit sparen.

Außerdem wurden die Flächen für unsere grafischen Komponenten vergrößert – die Nutzer haben nun mehr Platz, um die Lineage ihres Objekts, das Datenmodell usw. zu sehen.

Ein neues Filtersystem

Zeenea Explorer bietet ein intelligentes Filtersystem zur Kontextualisierung der Suchergebnisse. Es gibt vorkonfigurierte Filter von Zeenea, z. B. eine Filteroption nach Objekttyp, Verbindung, Kontakt oder nach den benutzerdefinierten Filtern der Organisation. Für eine noch effizientere Suche haben wir unsere Suchergebnis-Seite und unser Filtersystem neu gestaltet:

Die verfügbaren Filter sind immer sichtbar, so dass Sie die Suche leichter verfeinern können.
Wenn Sie auf ein Suchergebnis klicken, steht Ihnen immer ein Vorschaupanel mit weiteren Informationen zur Verfügung, ohne dass der Kontext der Suche verloren geht.
Die für die Suche relevantesten Filter sind oben auf der Seite platziert, so dass Sie schnell die Ergebnisse erhalten, die Sie für bestimmte Anwendungsfälle benötigen.

Katalog nach Thema durchsuchen

Eine der wichtigsten Neuerungen im Jahr 2023 war die Funktion mit dem Namen „Themen“. Mit ihrer Hilfe können Fachanwender (noch!) schneller ihre Datenbestände für ihre Anwendungsfälle finden, und Data Stewards können in Zeenea Studio ganz einfach Themen definieren. Dazu wählen sie einfach die Filter im Katalog aus, die ein bestimmtes Thema, einen Anwendungsfall oder ein anderes Element, das für das Unternehmen relevant ist, darstellen.

Datenteams, die den Zeenea Explorer verwenden, können den Katalog auf diese Weise einfach und schnell nach Themen durchsuchen, um die Zeit zu verkürzen, die sie für die Suche nach den benötigten Informationen benötigen. Die Themen sind direkt auf der Startseite des Zeenea Explorers und in der Suchleiste bei der Navigation durch den Katalog zugänglich.

Alternative Namen für Glossarobjekte

Damit die Benutzer die Daten und Fachbegriffe, die sie für ihre Anwendungsfälle benötigen, leicht finden können, können Data Stewards Synonyme, Akronyme und Abkürzungen für die Glossarelemente hinzufügen!

Zum Beispiel: Customer Relationship Management > CRM

Verbesserung der Suchleistung

Im Laufe des Jahres haben wir eine Vielzahl von Verbesserungen umgesetzt, um die Effizienz des Suchprozesses zu erhöhen. Das Hinzufügen von „Stoppwörtern“ (Stop-Words), zu denen Pronomen, Artikel und Präpositionen gehören, führt zu genaueren und relevanteren Ergebnissen bei Suchanfragen. Außerdem haben wir einen „INFIELD:“-Operator hinzugefügt, der es den Nutzern ermöglicht, direkt in bestimmten Feldern zu suchen, um eine höhere Genauigkeit zu erzielen.

Integration von Microsoft Teams

Zeenea hat auch die Möglichkeiten für die Kommunikation und Zusammenarbeit ausgebaut. Genauer gesagt: Wenn ein Kontakt mit einer Microsoft-E-Mail-Adresse verknüpft ist, erleichtert Zeenea nun den Start einer direkten Unterhaltung über Teams. Diese Integration ermöglicht es Teams-Nutzern, schnell mit den richtigen Personen ins Gespräch zu kommen, um zusätzliche Informationen zu bestimmten Objekten zu erhalten. Weitere Integrationen mit zahlreichen Tools befinden sich in der Entwicklung ⭐

Die Produktivität und Effizienz der Data Stewards steigern

Das Ziel von Zeenea ist es, das Leben von Datenproduzenten zu vereinfachen, damit sie die Dokumentation ihrer Unternehmensdaten mit wenigen Klicks verwalten, pflegen und erweitern können. Hier finden Sie einige Funktionen und Verbesserungen, die Ihnen dabei helfen, organisiert, konzentriert und produktiv zu bleiben.

Automatischer Import von Datensätzen

Beim Importieren neuer Datensätze in den Katalog können Administratoren die automatische Importfunktion aktivieren, die neue Objekte nach jeder geplanten Inventur automatisch importiert. Diese Verbesserung spart Zeit und erhöht die betriebliche Effizienz, sodass sich die Data Stewards auf strategische Aufgaben konzentrieren können, anstatt sich mit dem routinemäßigen Importprozess zu beschäftigen.

Entfernen verwaister Felder

Außerdem haben wir die Möglichkeit hinzugefügt, verwaiste Felder effektiver zu verwalten. Dazu gehört auch die Möglichkeit, Massenlöschungen von verwaisten Feldern vorzunehmen, was den Prozess der Bereinigung und Organisation des Katalogs beschleunigt. Data Stewards können auch ein einzelnes verwaistes Feld direkt von seiner Detailseite aus löschen, was einen niederschwelligen und präziseren Ansatz der Katalogpflege mit sich bringt.

Erstellung von Berichten auf der Grundlage von Kataloginhalten

Wir haben einen neuen Abschnitt in Zeenea Studio hinzugefügt – das Analytics Dashboard – um auf einfache Weise Berichte zu erstellen, die auf dem Inhalt und der Nutzung des Katalogs einer Organisation basieren.

Direkt auf der Seite des Analytics Dashboards können Data Stewards den Grad der Vollständigkeit ihrer Objekttypen, einschließlich der benutzerdefinierten Objekte, einsehen. Jede Komponente ist anklickbar, um schnell den nach dem ausgewählten Objekttyp gefilterten Abschnitt des Katalogs anzuzeigen.

Um detailliertere Informationen über den Grad der Vollständigkeit eines bestimmten Objekttyps zu erhalten, können Stewards ihre eigenen Analysen erstellen! Sie wählen den Objekttyp und eine Eigenschaft aus und können für jeden Wert dieser Property den Vollständigkeitsgrad aller Vorlagenelemente des Objekttyps, einschließlich der Beschreibung und der damit verbundenen Glossarobjekte, einsehen.

New Analytics Dashboard Gif Without Adoption

Neuer Look für das Steward Board

Der Zeenea Explorer ist nicht die einzige Anwendung, die einen neuen Look bekommen hat! Um die Datenmanager dabei zu unterstützen, organisiert, konzentriert und produktiv zu bleiben, haben wir das Layout des Dashboards neu gestaltet, damit es intuitiver zu bedienen ist und die Arbeit schneller erledigt werden kann. Das umfasst:

Neues Design: Eine völlig neue Ebene der Personalisierung bei der Anmeldung im Dashboard. Der Umfang geht nun über den Vollständigkeitsgrad der Datensätze hinaus – er umfasst alle Objekte, für die man Verwahrer ist, einschließlich Felder, Datenverarbeitung, Glossarobjekte und benutzerdefinierte Objekte.

Watchlist-Widget: So wie Data Stewards Themen erstellen können, um die Organisation der Explorer-Benutzer zu verbessern, können sie nun auch Watchlists erstellen, um den Zugriff auf Objekte zu erleichtern, die bestimmte Aktionen erfordern. Sie filtern den Katalog mit den Kriterien ihrer Wahl, speichern diese Präferenzen über die Schaltfläche „Filter speichern unter“ als neue Watchlist und greifen über das Watchlist-Widget direkt darauf zu, wenn sie sich in ihr Dashboard einloggen.

Widget „Letzte Suchanfragen“: Dieses Widget richtet sich speziell an den Data Steward und konzentriert sich auf die jüngsten Suchanfragen, damit er dort anknüpfen kann, wo er aufgehört hat.

Das Widget „Beliebte Objekte“: Dieses Widget zeigt die Objekte, die im Zuständigkeitsbereich des Stewards von anderen Nutzern am häufigsten aufgerufen und verwendet werden. Jedes Objekt ist anklickbar, sodass Sie sofort auf seinen Inhalt zugreifen können.

Zuverlässige, sichere und konforme Informationen in der gesamten Organisation bereitstellen

Sampling von Datensätzen

Bei einigen Verbindungen ist es möglich, eine Datenprobe für die Datensätze zu erhalten. Unsere Data-Sampling-Funktionen ermöglichen es den Benutzern, repräsentative Untermengen von bestehenden Datensätzen zu erhalten, und bieten so einen effizienteren Ansatz für die Arbeit mit großen Datenmengen. Wenn das Datensampling aktiviert ist, können Administratoren die Felder so konfigurieren, dass sie gesperrt sind, wodurch das Risiko, dass sensible personenbezogene Informationen angezeigt werden, verringert wird.

Diese Funktion ist für unsere Kunden sehr wichtig, da sie den Benutzern die Möglichkeit gibt, wertvolle Zeit und Ressourcen zu sparen, indem sie mit kleineren, aber repräsentativen Teilen von großen Datensätzen arbeiten. Sie ermöglicht außerdem die schnelle Identifizierung von Datenproblemen und verbessert so die Gesamtqualität der Daten und die anschließende Analyse. Insbesondere geht die Funktion, Felder auszuschließen, auf zentrale Datenschutz- und Sicherheitsbedenken ein, da die Nutzer so mit anonymisierten oder pseudonymisierten Teilmengen sensibler Daten arbeiten können, was die Einhaltung von Datenschutzbestimmungen gewährleistet und Daten vor unbefugtem Zugriff schützt.

Leistungsstarke Lineage-Funktionen

Im Jahr 2022 haben wir zahlreiche Verbesserungen an unserem Lineage-Graph vorgenommen. Wir haben nicht nur sein Design und Layout vereinfacht, sondern es den Nutzern auch ermöglicht, nur die erste Ebene der Lineage anzuzeigen, die Lineage nach Bedarf zu erweitern und zu schließen und eine hervorgehobene Ansicht der direkten Herkunft eines ausgewählten Objekts zu erhalten.

In diesem Jahr haben wir weitere wichtige Änderungen an der Benutzeroberfläche vorgenommen, unter anderem die Möglichkeit, alle Lineage-Ebenen mit einem Klick zu erweitern oder zu reduzieren, Datenprozesse auszublenden, die nicht mindestens eine Eingabe und eine Ausgabe haben, und Verbindungen mithilfe eines Tooltips für Verbindungen mit langen Namen einfach zu visualisieren.

Die wichtigste Neuerung ist jedoch die Möglichkeit, eine Data Lineage auf Feldebene anzuzeigen! Tatsächlich ist es nun möglich, die Eingabe- und Ausgabefelder von Tabellen und Berichten abzurufen und für mehr Kontext die Beschreibung des Vorgangs hinzuzufügen. Anschließend können die Benutzer ihre Transformationen auf Feldebene im Laufe der Zeit direkt im Data Lineage Graph im Zeenea Explorer und in Zeenea Studio betrachten.

Informationen zur Datenqualität

Durch die Nutzung der GraphQL-Technologie und des Knowledge Graph bietet Zeenea einen flexiblen Ansatz zur Integration der besten Lösungen für das Datenqualitätsmanagement. Über unsere Katalog-API-Funktionen synchronisiert Zeenea Datensätze durch einfache Abfrage- und Mutationsoperationen von einem Drittanbieter-Tool für das Data Quality Management (DQM). Das DQM-Tool wird die Ergebnisse der Datenqualitätsanalyse des entsprechenden Datensatzes in Echtzeit in der Plattform bereitstellen, so dass die Nutzer die Informationen zur Datenqualität direkt im Katalog leicht überprüfen können.

Diese neue Funktionalität umfasst:

Eine Registerkarte Datenqualität auf den Detailseiten Ihres Datensatzes, auf der Nutzer die ausgeführten Qualitätskontrollen sowie deren Typ, Status, Beschreibung, das letzte Ausführungsdatum usw. sehen können.

Die Möglichkeit, weitere Informationen zur Qualität des Datensatzes direkt im DQM-Tool über den Link „Dashboard in [Name des Tools] öffnen“ anzuzeigen.

Einen Indikator für die Qualität der Daten eines Datensatzes, der direkt in den Suchergebnissen und im Lineage angezeigt wird.

Eine durchgehende Konnektivität mit all ihren Datenquellen herstellen

Mit Zeenea verbinden Sie sich in Sekundenschnelle mit all Ihren Datenquellen. Die integrierten Scanner und APIs unserer Plattform versetzen Organisationen in die Lage, Metadaten innerhalb ihres Ökosystems automatisch zu sammeln, zu konsolidieren und zu verknüpfen. In diesem Jahr haben wir unsere Konnektivität erheblich verbessert, damit unsere Kunden eine Plattform aufbauen können, die ihr Datenökosystem wirklich repräsentiert.

Eine API zur Verwaltung des Katalogs

Da Zeenea die Bedeutung der API-Integration erkannt hat, hat das Unternehmen leistungsstarke API-Funktionen entwickelt, die es Organisationen ermöglichen, ihren Datenkatalog innerhalb ihres bestehenden Ökosystems nahtlos zu verbinden und zu nutzen.
Im Jahr 2023 entwickelte Zeenea die Katalog-API, die Datenmanager bei ihren Dokumentationsaufgaben unterstützt. Sie umfasst:

Abfrageoperationen, um bestimmte Assets aus dem Katalog abzurufen: Die Abfrageoperationen unserer API umfassen das Abrufen eines bestimmten Assets, entweder über seine eindeutige Referenz oder über seinen Namen und seinen Typ, oder das Abrufen einer Liste von Assets über eine bestimmte Verbindung oder einen bestimmten Objekttyp. Die Katalog-API von Zeenea ermöglicht eine gewisse Flexibilität bei der Abfrage, so dass die Ergebnisse eingeschränkt werden können, um nicht von einer Unmenge von Informationen überflutet zu werden.

Mutationsoperationen zum Erstellen und Aktualisieren von Katalog-Assets: Um bei der Dokumentation und Aktualisierung von Unternehmensdaten noch mehr Zeit zu sparen, ermöglicht die Zeenea Katalog-API den Datenproduzenten das einfache Erstellen, Bearbeiten und Löschen von Katalogressourcen. So können sie benutzerdefinierte Objekte und Datenprozesse und deren zugehörige Metadaten erstellen, aktualisieren und löschen sowie Datensätze und Visualisierungen aktualisieren. Dies ist auch bei Kontakten möglich. Das ist besonders wichtig, wenn Benutzer das Unternehmen verlassen oder ihre Rolle wechseln – die Datenproduzenten können Informationen, die mit einer bestimmten Person verbunden waren, leicht auf eine andere übertragen.

Verwaltung von Eigenschafts- und Zuständigkeitscodes

Eine weitere Funktion, die implementiert wurde, ist die Möglichkeit, Eigenschaften und Zuständigkeiten mit einem Code zu versehen, um sie einfach in API-Skripts für zuverlässigere Abfragen und Wiederherstellungen zu verwenden.

Für alle Eigenschaften und Verantwortlichkeiten, die in Zeenea erstellt (z. B. Informationen zur persönlichen Identifikation) oder von Konnektoren gesammelt wurden, ist es möglich, den Namen und die Beschreibung zu ändern, um sie besser an den Kontext der Organisation anzupassen.

Mehr als ein Dutzend zusätzlicher Konnektoren

Bei Zeenea entwickeln wir fortschrittliche Konnektoren, um Metadaten zwischen unserer Data-Discovery-Plattform und all Ihren Quellen automatisch zu synchronisieren. Diese native Konnektivität erspart Ihnen die mühsame und schwierige Aufgabe, manuell nach den Daten zu suchen, die Sie für einen bestimmten Anwendungsfall benötigen, der oft den Zugang zu begrenzten technischen Ressourcen erfordert.

Allein im Jahr 2023 haben wir mehr als ein Dutzend neue Konnektoren entwickelt! Diese Leistung unterstreicht unsere Agilität und Kompetenz bei der schnellen Integration der verschiedenen Datenquellen, die unsere Kunden nutzen. Durch die Erweiterung unserer Konnektivitätsoptionen wollen wir eine größere Flexibilität und Zugänglichkeit ermöglichen.

Unsere Konnektoren anzeigen

Was bedeutet Datenmodernisierung?

von Zeenea Software | Okt. 11, 2023 | Daten-Inspiration

Die Modernisierung von Daten ist entscheidend, um den Wert der Daten freizusetzen. Sei es, um Silos aufzubrechen, die Zusammenarbeit zu verbessern oder KI und fortschrittliche Analysen zu nutzen – die Datenmodernisierung ermöglicht datengestützte Entscheidungen, die Aufdeckung von Trends, die Optimierung von Betriebsabläufen, die Personalisierung von Kundenerlebnissen und Innovationen. Haben Sie Lust, aktiv zu werden? Lesen Sie unseren Leitfaden!

Galoppierende Inflation, volatile Märkte, veränderte Verbrauchererwartungen, Hyperwettbewerb, beschleunigte Time-to-Market … Ein Cocktail, der Sie dazu veranlasst, Ihre Prozesse und Ihre Organisation zu überdenken, um agiler und flexibler zu werden. Ihre Daten sind von dieser Notwendigkeit nicht ausgenommen. Um diese vielfältigen Herausforderungen zu meistern, ist die Datenmodernisierung (auch häufig als Data Modernization bezeichnet) für Ihr Unternehmen das Versprechen, Ihre Daten in vier Schwerpunktbereichen vollumfänglich zu nutzen:

• Fundiertere Entscheidungen treffen,
• Innovationen fördern,
• die Agilität in einem von Unsicherheiten geprägten Umfeld verbessern,
• die Wettbewerbsfähigkeit in sich ständig verändernden Märkten erhalten.

Hinter dem Konzept der Data Modernization verbirgt sich ein strategischer Prozess, der darauf abzielt, die Praktiken, Infrastrukturen und Technologien im Zusammenhang mit der Datenverwaltung innerhalb eines Unternehmens umzugestalten und zu aktualisieren. Um diesen Prozess der Datenmodernisierung einzuleiten, müssen Sie unbedingt auf wesentliche Elemente wie die Neugestaltung der Datenarchitektur aufbauen. Diese beruht auf der Entwicklung und Einführung von Systemen und Datenstrukturen, die agiler, flexibler und skalierbarer sind, um den sich ändernden Bedürfnissen des Unternehmens gerecht zu werden.

Der andere wesentliche Teil eines Projekts zur Datenmodernisierung ist die Datenintegration. Sie beruht auf der Vereinheitlichung von Daten aus unterschiedlichen internen und externen Quellen, um eine vollständige und einheitliche Sicht auf den Informationsbestand zu schaffen.

In einem dritten Schritt sollten Sie die Automatisierung der Datenverarbeitung und den systematischen Einsatz von KI in Betracht ziehen, um die Analyse- und Entscheidungsprozesse zu beschleunigen.

Schließlich geht es bei der Datenmodernisierung auch um einen verstärkten Schutz sensibler Daten, um die Compliance Ihrer Datenbestände zu gewährleisten, und um eine bessere Data Governance für Qualität, Nachvollziehbarkeit und Rechenschaftspflicht sicherzustellen.

Warum ist eine Modernisierung der Daten notwendig?

Die Vorteile der Datenmodernisierung in dem komplexen Kontext, in dem wir uns heute weltweit befinden, scheinen auf der Hand zu liegen. Es gibt aber auch andere, nicht weniger gute Gründe, den Weg der Datenmodernisierung einzuschlagen.

Grund Nr. 1: Sich an technologische Entwicklungen anpassen

Rasante technologische Fortschritte haben neue Möglichkeiten geschaffen, um Daten effizienter zu speichern, zu verarbeiten und zu analysieren. Wenn Sie Ihre Daten modernisieren, können Sie diese neuen Technologien nutzen und haben so die besten Chancen, wettbewerbsfähig zu bleiben.

Grund Nr. 2: Die Datenexplosion bewältigen

Die Menge der von Unternehmen erzeugten Daten hat erheblich zugenommen. Die Modernisierung macht es möglich, diese massiven Mengen effizienter zu bewältigen und eine Überlastung der bestehenden Infrastruktur zu vermeiden.

Grund Nr. 3: Sich neue Datentypen zu eigen machen und nutzen

Die Unternehmen verarbeiten inzwischen eine größere Datenvielfalt, darunter auch unstrukturierte Daten, wie z. B. Daten aus sozialen Medien und Videos. Die Modernisierung macht es möglich, diese verschiedenen Datenquellen zu integrieren und zu nutzen.

Grund Nr. 4: Die Herausforderung der geschäftlichen Agilität annehmen

Sie messen sie täglich im Arbeitsalltag. Sowohl Ihre Organisation als auch Ihre Teams müssen immer agiler werden, um sich schnell an Veränderungen des Marktes anpassen zu können. Durch Datenmodernisierung können Sie sich auf eine flexiblere und damit agilere Dateninfrastruktur stützen!

Grund Nr. 5: Sicherheit und Compliance gewährleisten

Die Datenschutzbestimmungen entwickeln sich ständig weiter. Durch eine angemessene Modernisierung wird die Datensicherheit erhöht und die Einhaltung der gesetzlichen Anforderungen sichergestellt.

Grund Nr. 6: Die Datenqualität kontinuierlich verbessern

Bei der Datenmodernisierung werden die Daten bereinigt, normalisiert und um Metadaten erweitert, was ihre Qualität und Zuverlässigkeit verbessert und bessere Entscheidungsprozesse ermöglicht.

Grund Nr. 7: Im Innovationswettlauf mithalten

In einer immer stärker digitalisierten Welt werden Unternehmen, die sich auf den Weg der Datenmodernisierung begeben haben, in der Lage sein, neue Innovationsmöglichkeiten zu erkunden, wie z. B. die Nutzung von künstlicher Intelligenz, maschinellem Lernen und fortgeschrittenen Analysen.

Welche Best Practices gibt es für die Modernisierung Ihrer Daten?

Sie möchten in Ihrem Unternehmen ein Projekt zur Datenmodernisierung starten? Es geht darum, auf einer guten Basis zu starten. Zu Beginn sollten Sie sich klare Ziele setzen. Aus welchen Gründen starten Sie die Initiative? Wie sieht Ihre strategische Vision aus? Wenn Sie diese Fragen beantworten, können Sie anschließend einen präzisen Fahrplan aufstellen, der sicherstellt, dass der Prozess an den Bedürfnissen und Prioritäten des Unternehmens ausgerichtet ist.

Achten Sie dann darauf, eine robuste Data Governance einzurichten. Diese beruht auf genauen Prozessen, um die Daten zu verwalten, zu sichern und ihre Qualität zu gewährleisten. Außerdem legt sie Rollen und Zuständigkeiten fest, wodurch die Rechenschaftspflicht und die Compliance sichergestellt werden. Zu wissen, wer welche Aktion, wann und für wen ausführt, ermöglicht die Steuerung von immer vielfältigeren Datenbeständen im Arbeitsalltag.

Konzentrieren Sie sich in einem dritten Schritt auf die Qualität der Daten. Setzen Sie alles daran, Fehler zu erkennen und zu korrigieren, Duplikate zu entfernen und sicherzustellen, dass die genutzten Daten präzise und einheitlich sind. Qualitativ hochwertige Daten erhöhen das Vertrauen und die Effizienz von Entscheidungsprozessen.

Verfolgen Sie letztendlich einen methodischen Ansatz, der auf Agilität beruht. Behalten Sie immer die Methode der kleinen Schritte im Hinterkopf. Erwarten Sie keinen großen Knall, sondern verlassen Sie sich im Prozess der Datenmodernisierung auf Iterationen und kontinuierliche Anpassungen. So können Sie sich schnell an die sich verändernden Bedürfnisse Ihres Unternehmens anpassen und gleichzeitig die Turbulenzen minimieren.

Dürfen wir Ihnen einen letzten Ratschlag geben? Betrachten Sie die Datenmodernisierung nicht als Technologieprojekt! Beziehen Sie Ihre Teams ein und begleiten Sie den Wandel, indem Sie auf Schulungen setzen, um die Akzeptanz zu gewährleisten.

Was ist Datennormalisierung?

von Zeenea Software | Sep. 12, 2023 | Daten-Inspiration, Datenqualität

Ist Ihnen die Qualität Ihrer Daten wichtig? Dann wird es Ihnen wahrscheinlich weiterhelfen, mehr über die Normalisierung von Daten zu erfahren! Bei der Datennormalisierung werden Daten umgewandelt, ohne sie zu verfälschen, um ihre Effizienz zu verbessern und sie in einen vordefinierten und eingeschränkten Satz von Werten einzupassen.

Entdecken Sie die Bedeutung dieser Technik, die für datengetriebene Unternehmen unverzichtbar geworden ist.

Für jedes Unternehmen, das datengestützt arbeiten möchte, um seine Produktivität, Effizienz oder die Relevanz seines Angebots oder seiner Aussagen auf seinem Markt zu verbessern, ist die Repräsentativität der Daten eine entscheidende Frage. Ihre Herausforderung: Sorgen Sie dafür, dass Sie möglichst viele Informationen aus Ihren Daten gewinnen können. Dazu müssen Sie alles tun, um die Verzerrung der Informationen zu begrenzen. Das ist die Aufgabe der Datennormalisierung, die auch als Data Normalization bezeichnet wird.

Der Prozess der Normalisierung von Daten wird in der Statistik, der Datenwissenschaft und dem Machine Learning häufig verwendet, um die Werte verschiedener Variablen innerhalb eines bestimmten Intervalls zu skalieren. Das primäre Ziel der Normalisierung ist es, Daten miteinander vergleichbar und für Analyse- und Modellierungsalgorithmen leichter interpretierbar zu machen.

Warum ist die Normalisierung von Daten für Unternehmen wichtig?

In vielen Fällen können die Daten sehr unterschiedlich skaliert sein, d. h. einige Variablen können viel größere oder kleinere Werte haben als andere. Dies kann für bestimmte statistische Verfahren oder Machine-Learning-Algorithmen problematisch sein, da sie empfindlich auf die Skalierung der Daten reagieren. Durch die Normalisierung kann dieses Problem gelöst werden, da die Werte der Variablen so angepasst werden, dass sie in einem bestimmten Intervall liegen, oft zwischen 0 und 1, oder um den Mittelwert mit einer bestimmten Standardabweichung.

Welche Vorteile sind mit der Normalisierung von Daten verbunden?

Die Datennormalisierung verbessert die Qualität, Leistung und Interpretierbarkeit von statistischen Analysen und Machine-Learning-Modellen, indem sie Probleme mit der Skalierung von Variablen beseitigt und einen fairen Vergleich zwischen verschiedenen Datenmerkmalen ermöglicht. In der Praxis führt dies zu konkreten Vorteilen:

Maximale Vergleichbarkeit: Normalisierte Daten werden auf die gleiche Skala gebracht und ermöglichen so einen leichteren Vergleich und eine bessere Interpretation verschiedener Variablen.

Optimierung des maschinellen Lernens: Die Normalisierung erleichtert die schnellere Konvergenz von Machine-Learning-Algorithmen, indem sie die Skala der Variablen verkleinert und so hilft, schneller zuverlässige und konsolidierte Ergebnisse zu erhalten.

Verbesserte Stabilität der Modelle: Die Normalisierung verringert die Auswirkungen von Extremwerten (Ausreißern) und macht die Modelle stabiler und widerstandsfähiger gegen Datenschwankungen.

Verbesserung der Interpretierbarkeit: Die Datennormalisierung erleichtert die Interpretation der Koeffizienten und macht die Analyse verständlicher.

Welche Methoden werden für die Normalisierung der Daten verwendet?

Es gibt mehrere Methoden zur Normalisierung von Daten, aber zwei stechen aus der Masse heraus, angefangen bei der Min-Max-Scaling-Methode. Sie beruht auf dem Prinzip, dass die Werte einer Variablen so skaliert werden, dass sie in einem bestimmten Bereich liegen, in der Regel zwischen 0 und 1. Diese Technik ist besonders nützlich, wenn Sie die lineare Beziehung zwischen den Originalwerten beibehalten möchten.

Eine andere Methode, die sogenannte Z-Score-Normalisierung, ist eine Technik, die eher dem Gebot der Standardisierung entspricht. Sie transformiert die Werte einer Variablen so, dass sie einen Mittelwert von 0 und eine Standardabweichung von 1 haben. Anders als bei der Min-Max-Normalisierung gibt es bei der Standardisierung keine spezifische Ober- oder Untergrenze für die transformierten Werte. Diese Technik wird empfohlen, wenn die Variablen stark unterschiedliche Skalen haben, da sie die Daten um den Wert Null zentriert und anhand der Standardabweichung skaliert.

Im Hinblick auf die Normalisierung von Daten können auch andere Methoden in Betracht gezogen werden, die jedoch seltener eingesetzt werden. Merken Sie sich jedoch die Normalisierung durch Dezimalstellen (Decimal Scaling) oder die Normalisierung durch Einheitsvektoren (Unit Vector Scaling).

Bei der Normalisierung durch Dezimalstellen wird jeder Wert einer Variablen durch eine Zehnerpotenz entsprechend der Anzahl der signifikanten Stellen dividiert. Dadurch wird das Komma nach links verschoben, sodass die höchstwertige Stelle links von der Dezimalstelle steht. Diese Technik passt die Werte so an, dass sie in einem kleineren Intervall liegen, und vereinfacht dadurch die Berechnungen.

Die Normalisierung durch Einheitsvektoren wird im Bereich des maschinellen Lernens verwendet. Dabei wird jeder Wert eines Datenvektors durch die euklidische Norm des Vektors geteilt wird, wodurch der Vektor in einen Einheitsvektor (mit der Länge 1) umgewandelt wird. Diese Technik wird häufig in Algorithmen verwendet, die Abstände oder Ähnlichkeiten zwischen Vektoren berechnen.

Was ist der Unterschied zwischen der Normalisierung und der Standardisierung von Daten?

Die Normalisierung von Daten (Data Normalization) und die Standardisierung von Daten (Data Standardization) befassen sich beide mit der Herausforderung der Repräsentativität von Daten, jedoch aus unterschiedlichen Perspektiven. Obwohl es sich in beiden Fällen um Techniken zur Skalierung von Daten handelt, unterscheiden sie sich in der Art und Weise, wie sie die Werte von Variablen umwandeln.

Die Standardisierung transformiert die Werte einer Variablen so, dass sie einen Mittelwert von 0 und eine Standardabweichung von 1 haben. Im Gegensatz zur Normalisierung wird bei der Standardisierung kein bestimmter Bereich für die transformierten Werte festgelegt. Die Standardisierung ist nützlich, wenn die Variablen stark unterschiedliche Skalen haben, und sie ermöglicht es, die Daten um den Wert Null zu zentrieren und in Bezug auf die Standardabweichung zu skalieren, was die Interpretation der Koeffizienten in einigen Modellen erleichtern kann. Abhängig von der Art Ihrer Daten und den Erkenntnissen, die Sie aus ihnen gewinnen möchten, ist mal eine Datennormalisierung, mal eine Datenstandardisierung erforderlich.

Alles über Data Observability

von Zeenea Software | Jan. 5, 2023 | Data Governance, Daten-Inspiration, Datenqualität

Unternehmen sammeln und verarbeiten mehr Daten als früher und viel weniger als in Zukunft. Nach der Entwicklung einer echten Data Culture ist es von entscheidender Bedeutung, einen vollständigen und kontinuierlichen Einblick in seine Daten zu haben. Das Ziel? Mögliche Probleme und Beschädigungen von Daten zu antizipieren. Diese Aufgabe wird von der Data Observability, also der Beobachtung und Verwaltung des Zustands Ihrer Daten, übernommen. Einige Erklärungen.

4,95 Milliarden Internetnutzer. 5,31 Milliarden Mobiltelefonbenutzer. 4,62 Milliarden aktive Nutzer von sozialen Netzwerken. Die Zahlen des Digital Report 2022 Global Overview von HootSuite und We Are Social veranschaulichen, wie sehr die ganze Welt vernetzt ist. Eine rasante Digitalisierung lässt die Zahl der Daten, die den Unternehmen zur Verfügung stehen, regelrecht explodieren. Allein im Jahr 2021 sollen 79 Zettabyte an Daten produziert und gesammelt worden sein – eine Zahl, die 40-mal größer ist als die im Jahr 2010 erzeugte Datenmenge! Und laut den von Statista veröffentlichten Zahlen soll bis Ende 2022 die Schwelle von 97 Zettabyte erreicht werden, die sich bis 2025 noch einmal verdoppeln könnte. Diese Unmenge an Daten ist eine große Herausforderung für die Unternehmen.

Das Sammeln, Verwalten, Organisieren und Nutzen von Daten kann Unternehmen Kopfzerbrechen bereiten, denn wenn Daten bearbeitet und verschoben werden, können sie beschädigt oder sogar völlig unbrauchbar werden. Die Data Observability (Datenbeobachtbarkeit) ist ein Weg, wie Sie die Kontrolle über die Zuverlässigkeit, Qualität und Zugänglichkeit Ihrer Daten zurückgewinnen können.

Was ist Data Observability?

Die Data Observability ist eine Disziplin, die sich mit der Analyse, dem Verstehen, der Diagnose und der Verwaltung des Zustands von Daten über ihren gesamten Lebenszyklus beschäftigt.

Um den Weg der Data Observability einzuschlagen, müssen Sie eine Plattform für die Datenbeobachtbarkeit aufbauen. Diese ermöglicht Ihnen dann nicht nur genaue und ganzheitliche Insights in Ihre Daten, sondern auch die Identifizierung von Qualitätsproblemen und Redundanzen – und zwar in Echtzeit. Wie genau? Indem sie Tools für die kontinuierliche Telemetrie nutzt.

Denken Sie jedoch nicht, dass die Beobachtbarkeit von Daten sich darauf beschränkt, die Daten zu überwachen. Das geht viel weiter. Die Data Observability trägt auch dazu bei, die Sicherheit Ihrer Daten zu optimieren. Denn durch die ständige Überwachung Ihrer Datenströme kann die Wirksamkeit der Sicherheitsvorkehrungen gewährleistet werden. Sie fungiert somit als Tool für die Früherkennung möglicher Probleme.

Welche Vorteile bietet die Data Oberservability?

Der erste Vorteil der Data Observability ist die Fähigkeit, eine mögliche Verschlechterung der Qualität oder der Sicherheit Ihrer Daten vorherzusehen. Da das Prinzip der Beobachtbarkeit auf einer kontinuierlichen und automatisierten Überwachung Ihrer Daten basiert, können Sie Probleme sehr frühzeitig erkennen.

Aus dieser durchgängigen und permanenten Sichtbarkeit Ihrer Daten können Sie noch einen weiteren Nutzen ziehen: eine Verbesserung der Verlässlichkeit Ihrer Abläufe bei der Erfassung und Verarbeitung Ihrer Datenbestände. Da die Datenmengen immer größer werden und alle Ihre Entscheidungsprozesse mit Daten verknüpft sind, ist es von entscheidender Bedeutung, die Kontinuität der Informationsverarbeitung zu gewährleisten. Jede Sekunde, in der die Datenverwaltungsprozesse unterbrochen werden, kann sich nachteilig auf Ihr Geschäft auswirken.

Die Data Observability eröffnet Ihnen nicht nur die Möglichkeit, das Unterbrechungsrisiko zu begrenzen, sondern auch, Ihre Abläufe im Falle eines Zwischenfalls so schnell wie möglich wiederherzustellen.

Die fünf Säulen der Data Observability

Um das volle Potenzial der Datenbeobachtbarkeit auszuschöpfen, müssen Sie den Aktionsradius Ihrer Plattform kennen. Diese basiert auf fünf Grundpfeilern.

Säule Nr. 1: Die Aktualität

Mithilfe einer Data-Observability-Plattform können Sie insbesondere die Aktualität der Daten überprüfen und so wirksam gegen veraltete Informationen vorgehen. Das Prinzip: Die Relevanz des aus den Daten gewonnenen Wissens gewährleisten.

Säule Nr. 2: Die Verteilung

Der Begriff der Verteilung ist besonders wichtig, wenn man sich mit der Zuverlässigkeit von Daten befasst. Das Konzept ist einfach: Man stützt sich auf den wahrscheinlichen Wert eines Datensatzes, um seine Zuverlässigkeit vorherzusagen.

Säule Nr. 3: Die Menge

Um herauszufinden, ob Ihre Daten vollständig sind, müssen Sie die erwartete Menge antizipieren. Mithilfe von Data Observability können Sie für eine bestimmte Stichprobe das erwartete Nominalvolumen abschätzen und mit dem verfügbaren Datenvolumen vergleichen. Wenn die Variablen übereinstimmen, sind die Daten vollständig.

Säule Nr. 4: Das Schema oder Programm

Wissen, ob Ihre Daten beschädigt wurden. Diese Aufgabe erfüllt das Schema, das auch als Programm bezeichnet wird. Das Prinzip besteht in der Gewährleistung der Überwachung von Veränderungen an Datentabellen und der Datenorganisation, um beschädigte Daten schneller zu erkennen.

Säule Nr. 5: Die Lineage

Durch die Sicherstellung der Sammlung von Metadaten und eine sorgfältige Zuordnung der Datenquellen ist es möglich, ähnlich wie bei einem Wasserleck in einer Armatur, binnen kürzester Zeit und mit hoher Genauigkeit die Ursachen und Unterbrechungspunkte in Ihren Datenverarbeitungsprozessen zu identifizieren.

Der Unterschied zwischen Data Observability und Data Quality

Die Datenbeobachtbarkeit ist ein Element zur kontinuierlichen Optimierung der Qualität Ihrer Daten. Sie unterscheidet sich jedoch von der Data Quality, die Vorrang vor der Data Observability hat. Denn damit die Beobachtbarkeit vollständig genutzt werden kann, muss zuvor die Datenqualität sichergestellt worden sein.

Während die Data Quality den Zustand eines Datensatzes misst, oder genauer gesagt, wie gut er den Anforderungen einer Organisation entspricht, erkennt, behebt und vermeidet die Data Observability Probleme, welche die Datenqualität und die Zuverlässigkeit des Systems beeinträchtigen.

Was ist Data Integrity und was bedeutet das?

von Zeenea Software | Dez. 16, 2022 | Data Governance, Daten-Inspiration, Datenqualität

Da wir direkt in eine Welt eingetreten sind, in der Daten das wertvollste Asset Ihres Unternehmens darstellen, sind die Qualität, die Sicherheit und die Unversehrtheit Ihrer Daten von entscheidender Bedeutung. Um diese zu gewährleisten, muss die Integrität der Daten kontinuierlich überwacht werden. Sie möchten die Grundregeln der Data Integrity kennenlernen und Ihr Unternehmen auf den Weg zu einer sinnvollen und zuverlässigen Datennutzung bringen? Lesen Sie unseren Leitfaden!

Der Begriff der Datenintegrität wird zwar oft erwähnt, wenn es um die Sicherheit und Kompromittierung von Daten geht, diese Verwendung darf jedoch nicht mit der Data Integrity verwechselt werden, die eine eigene Disziplin in der komplexen und anspruchsvollen Welt der Datennutzung darstellt.

Die genaue Definition von Data Integrity lautet: die Aufrechterhaltung und Sicherstellung der Richtigkeit und Konsistenz von Daten während ihres gesamten Lebenszyklus.

Die Integrität der Daten zu gewährleisten bedeutet, dafür zu sorgen, dass die in einer Datenbank gespeicherten Daten jederzeit vollständig, richtig und zuverlässig sind. Dies gilt unabhängig davon, wie lange sie gespeichert werden, wie oft auf sie zugegriffen wird oder wie sie verarbeitet werden.

Die verschiedenen Arten der Datenintegrität

Datenintegrität ist ein komplexer Begriff, da er viele verschiedene Formen und Bedeutungen enthält. Über einen globalen Data-Integrity-Ansatz hinaus muss ein Unternehmen verstehen, dass es verschiedene Arten von Datenintegrität gibt. Diese stehen nicht im Widerspruch zueinander, sondern ergänzen und vereinen sich im Dienste der Qualität und Sicherheit Ihrer Datenbestände.

Die Gewährleistung der Datenintegrität in all ihren Dimensionen ist nicht nur eine Herausforderung für die Compliance, sondern auch für die optimale Nutzung der verfügbaren Daten. Bei der Datenintegrität gilt es zwischen zwei Hauptarten zu unterscheiden: die physische Integrität und die logische Integrität.

Die physische Integrität

Der Schutz der physischen Integrität von Daten bedeutet, diese nach Möglichkeit keinen menschlichen Fehlern oder Hardwareausfällen (wie z. B. Fehlfunktionen von Speicherservern) auszusetzen.

Dazu gehört auch, dafür zu sorgen, dass die Daten beispielsweise von Systementwicklern nicht verfälscht werden können. Die physische Integrität der Daten wird ebenso in Frage gestellt, wenn ein Stromausfall oder ein Brand eine Datenbank beeinträchtigt.

Schließlich ist die physische Integrität auch dann gefährdet, wenn es einem Angreifer gelingt, sich Zugang zu den Daten zu verschaffen.

Die logische Integrität

Die logische Integrität Ihrer Daten zu gewährleisten bedeutet, dafür zu sorgen, dass die Daten unter keinen Umständen verändert werden. Die logische Integrität soll die Daten wie die physische Integrität vor Manipulationen und menschlichen Fehlern schützen, sie wird jedoch auf andere Weise und auf vier verschiedenen Achsen ausgeübt:

Entity Integrity

Die Entitätsintegrität nutzt das Prinzip der Zuordnung eines Primärschlüssels zu jedem gespeicherten Datensatz. Mit diesen eindeutigen Werten können Sie alle Ihre Datenelemente identifizieren. Die Entity Integrity gewährleistet z. B. die wirksame Bekämpfung von Dubletten, da jeder Datensatz nur einmal katalogisiert wird.

Referential Integrity

Das Prinzip der referentiellen Integrität beschreibt die Reihe von Prozessen, die sicherstellen, dass Daten auf einheitliche und homogene Weise gespeichert und verwendet werden. Eine relationale Datenbank ist Ihre beste Versicherung, dass nur angemessene und autorisierte Änderungen, Ergänzungen oder Löschungen von Daten vorgenommen werden. Die referentielle Integrität ermöglicht es, Regeln zu definieren, um die Eingaben von Dubletten zu verhindern oder die Richtigkeit der eingegebenen Daten in Echtzeit zu überprüfen.

Domain Integrity

Die Bereichsintegrität bezieht sich auf alle Prozesse, welche die Richtigkeit der mit einem Bereich verknüpften Daten gewährleisten. Ein Bereich wird durch eine Reihe von Werten charakterisiert, die als akzeptabel gelten und die eine Spalte enthalten kann. Ein Bereich kann verschiedene Regeln enthalten, um das Datenformat, die Art oder die Menge der Informationen, die eingegeben werden können, zu definieren.

User-defined Integrity

Die benutzerdefinierte Integrität beinhaltet Regeln, die vom Benutzer erstellt werden, um seine Anforderungen im Zusammenhang mit der individuellen Nutzung zu erfüllen. Durch die Ergänzung der Datenintegritätsmaßnahmen um eine Reihe spezifischer Regeln für den Fachbereich kann das Management der Entity Integrity, der Referential Integrity und der Domain Integrity vervollständigt werden.

Warum ist die Gewährleistung der Data Integrity so wichtig?

Die Datenintegrität ist aus zwei wesentlichen Gründen wichtig.

Erstens aufgrund der Datenkonformität. Da die DSGVO strenge Regeln aufstellt und harte Strafen vorsieht, ist die Gewährleistung der Datenintegrität zu jedem Zeitpunkt ein wichtiger Aspekt.

Zweitens für die eigentliche Nutzung Ihrer Daten. Wenn die Integrität gewahrt bleibt, können Sie sicher sein, dass die verfügbaren Informationen zuverlässig und von hoher Qualität sind und vor allem der Realität entsprechen!

Die Unterschiede zwischen Data Integrity und Data Security

Die Data Security ist eine Disziplin, die alle Maßnahmen zusammenfasst, die eingesetzt werden, um die Beschädigung von Daten zu verhindern. Sie beruht auf der Verwendung von Systemen, Prozessen und Verfahren, die den unberechtigten Zugriff auf Ihre Daten einschränken.

Die Data Integrity hingegen beschäftigt sich mit Techniken und Lösungen, die sicherstellen, dass die Integrität und Richtigkeit von Daten über ihren gesamten Lebenszyklus erhalten bleibt.

Anders ausgedrückt: Die Data Security ist eine der Komponenten, die zur Data Integrity beitragen.

Was sind die größten Fehler bezüglich der Datenqualität und wie können sie behoben werden?

von Zeenea Software | Dez. 7, 2022 | Daten-Inspiration, Datenqualität

Um sich von der Konkurrenz abzuheben, Innovationen voranzutreiben und immer stärker personalisierte Produkte und Dienstleistungen anzubieten, sind Ihre Daten von entscheidender Bedeutung. Es ist jedoch Vorsicht geboten: Jeden Tag können neue kleine Störungen die Qualität Ihrer Daten beeinträchtigen. Unvollständige oder fehlerhafte Daten, Sicherheitsprobleme, versteckte Daten, Redundanzen, Inkonsistenzen oder Ungenauigkeiten – die Liste ist lang.

Lernen Sie hier die häufigsten Fehler bezüglich der Data Quality kennen und erfahren Sie, wie Sie diese ein für alle Mal vermeiden können!

Die Risiken, die mit einer schlechten Datenqualität verbunden sind

Man kann es nicht oft genug wiederholen: Bei Daten geht es nicht um die verfügbare Menge, sondern um ihre Qualität. Das Data Quality Management (DQM) ist eine anspruchsvolle Disziplin, die auf einer ständigen Hinterfragung der Datenprozesse beruht, aber auch auf einer kontinuierlichen Beobachtung der Art der Informationen, die Ihren Datenbestand ausmachen. Eine schlechte Datenqualität kann sich direkt in geringeren Umsätzen und höheren Betriebskosten niederschlagen, was finanzielle Verluste für Ihr Unternehmen zur Folge haben kann.

Wenn die Datenqualität beeinträchtigt ist, können Analysen, Vorhersagen, Prognosen und sogar Entscheidungen verfälscht werden. Und je größer die Menge an beeinträchtigten Daten ist, desto größer ist auch die Diskrepanz zwischen der Realität und Ihrem Bild der Realität. Die Gewährleistung der Datenqualität erfordert zunächst ein gutes Verständnis für die Fehler, welche sich auf die Qualität der Daten auswirken können.

Die größten Fehler bezüglich der Datenqualität

Die Gewährleistung der Datenqualität ist eine zentrale Herausforderung für jedes Unternehmen, das seine Entwicklungsstrategie auf Daten stützt. Um zielgerichtete Aktionen durchzuführen, muss man Aufgaben richtig priorisieren und darf sich nicht verzetteln. Beim Data Quality Management geht es darum, alle fehlerhaften Informationen zu identifizieren, die Ihre Entscheidung verzerren könnten. Diese fehlerhaften Daten lassen sich in vier Kategorien einteilen.

Redundante Daten

Redundante Daten und Datendubletten werden häufig verwechselt. Dennoch sind sie unterschiedlich. Wenn Daten als Dubletten vorhanden sind, bedeutet dies, dass dieselbe Information in derselben Datenbank oder Datei mehrfach vorhanden ist. Von redundanten Daten spricht man, wenn ein und dieselbe Information in verschiedenen Dateien vorkommt. Redundante Daten sind daher heimtückischer, da sie oft schwerer zu erkennen ist. Man geht davon aus, dass die Datenqualität sich bei mehr als 5 % redundanten Daten zu verschlechtern beginnt. CRM-Tools erzeugen zum Beispiel häufig redundante Daten, da die Nutzer manchmal Kontakte hinzufügen, ohne vorab zu prüfen, ob diese bereits in der Datenbank vorhanden sind.

Versteckte Daten

Im Alltag generiert Ihr Unternehmen eine immer größere Menge an Daten. Sehr oft nutzen Sie nur einen begrenzten Teil der verfügbaren Informationsmenge. Der Rest der Daten, die bei Ihrer Tätigkeit anfallen, wird verstreut und in Datensilos verwässert. Diese Daten bleiben dann dauerhaft ungenutzt. Beispielsweise wird die Einkaufhistorie eines Kunden nicht immer den Kundenservice-Teams zur Verfügung gestellt. Diese Informationen würden es jedoch ermöglichen, das Profil des Kunden besser zu erfassen und somit relevantere Antworten auf seine spezifischen Anfragen zu geben oder durch passende Vorschläge sogar Upselling oder Cross-Selling zu betreiben.

Inkonsistente Daten

Sind Patrick Schmid und Patrick Schmitt wirklich zwei verschiedene Kunden? Das zu erkennen ist nicht immer einfach. Inkonsistente Daten beeinträchtigen die Datenqualität erheblich. Sie können auch durch ein anderes bekanntes Phänomen entstehen: das der Redundanz. Dieses Phänomen tritt auf, wenn Sie neben Ihren eigenen Daten mit mehreren Quellen (insbesondere mit Daten von Drittanbietern) arbeiten. Es kommt zu Abweichungen im Datenformat, in der Einheit oder auch in der Rechtschreibung – all diese Inkonsistenzen müssen im Rahmen eines Data Quality Prozesses aufgespürt werden.

Fehlerhafte Daten

Es mag offensichtlich erscheinen, aber fehlerhafte Daten sind das größte Übel für die Datenqualität. Wenn die Kundendaten falsch sind, sind die vorgeschlagenen personalisierten Kundenerfahrungen nicht relevant. Wenn z. B. die mit Ihren Lagerbeständen verbundenen Daten fehlerhaft sind, kann es zu Lieferschwierigkeiten oder explodierenden Lagerkosten kommen. Falsche Kontaktdaten, fehlende oder leere Informationen – Sie müssen wirklich alles tun, um fehlerhafte Daten auszumerzen.

Wie können Probleme bei der Datenqualität gelöst werden?

Der gesunde Menschenverstand führt zwar häufig zu einem guten Datenqualitätsmanagement, kann es aber alleine nicht garantieren.

Um sich der Herausforderung zu stellen und Ihre Probleme mit der Datenqualität zu lösen, benötigen Sie ein Tool für das Data Quality Management. Um die richtige Lösung zu wählen, müssen Sie jedoch zunächst eine sorgfältige Katalogisierung Ihrer Datenbestände erstellen, um die tatsächliche Nutzung in Ihrem Unternehmen zu ermitteln und die tatsächliche Qualität Ihrer Daten zu bewerten. Der Einsatz einer Data Quality Management-Lösung, einer Data Governance, die Schulung und Sensibilisierung Ihrer Teams für den richtigen Umgang mit Daten … all das sind unverzichtbare Säulen, um die Zahl der Fehler im Zusammenhang mit der Datenqualität zu begrenzen!

Wenn Sie mehr über das Data Quality Management als Disziplin erfahren möchten, laden Sie gerne unser kostenloses eBook „Der Leitfaden zum Data Quality Management“ herunterladen

Was bedeutet Data Ingestion?

von Zeenea Software | Sep. 16, 2022 | Daten-Inspiration, Datenqualität

Entscheidungen ohne fundierte Grundlage zu treffen und sich auf Ihre Intuition zu verlassen, ist keine Option mehr, wenn Ihre Mitbewerber sich bereits beschäftigen, wie sich mit der Nutzung von Daten befassen. Sie müssen den nächsten Schritt machen. Mithilfe der Data Ingestion können Sie schneller und effizienter auf Daten zugreifen, da diese an einer zentralen Stelle gespeichert werden. Überblick.

Angesichts des enormen Wettbewerbs und der Digitalisierung Ihres Unternehmens befindet sich Ihr Betrieb in einem Wettlauf gegen die Zeit. Ein Wettlauf, in dem Sie nicht unbedingt gegen Ihre direkten Mitbewerber antreten, sondern vielmehr ein Wettlauf zwischen Ihrem Unternehmen und Ihren Kunden. Die Herausforderung: die Konsumtrends und Bedürfnisse Ihrer Zielgruppen immer schneller zu erkennen, um die Erwartungen vorherzusehen. Der Erste zu sein, der einen bestimmten Bedarf befriedigt, vor allen anderen auf einem aufstrebenden Markt Fuß zu fassen … diese strategischen Notwendigkeiten können mithilfe von Data Ingestion beantwortet werden.

Diese Praxis trägt dazu bei, ein genaueres Wissen über Ihre Kunden oder Ihren Markt aufzubauen, da sie die Auswertung zunehmend heterogener Daten ermöglicht, mit deren Hilfe Sie selbst schwache Signale identifizieren können, um Trends schnell, aber vor allem effizient, zu erkennen.

Data Ingestion verstehen

Das Prinzip der Data Ingestion beruht auf der Idee, verschiedene Datenquellen an einer Stelle zu zentralisieren. Es liegt in der Natur der Sache, dass diese unterschiedlichen Daten sorgfältig bereinigt und Dubletten entfernt werden müssen, damit sie in einer Zielumgebung zusammengeführt und dann verarbeitet und genutzt werden können. Unabhängig davon, ob Ihre Daten aus einem Data Lake, aus Kundendateien, SaaS-Anwendungen oder einer beliebigen anderen Quelle stammen, können sie an einem Zielort zusammengefasst werden, um sie abzugleichen und so das Verständnis für einen Markt, ein Ökosystem oder eine Zielgruppe zu verbessern.

Der Begriff Abgleich fasst den Zweck der Data Ingestion perfekt zusammen. Das Prinzip besteht darin, das in verschiedenen Arten von Datenbanken enthaltene Wissen zu kombinieren, um den größtmöglichen Nutzen daraus zu ziehen.

Was sind die wichtigsten Vorteile der Data Ingestion?

Wenn Sie sich für ein Data-Ingestion-Projekt entscheiden, können Sie verschiedene Vorteile daraus ziehen. Zunächst einmal gewinnen Sie unweigerlich an Reaktionsfähigkeit und Flexibilität. Tools für die Data Ingestion sind nicht nur in der Lage, sehr große Datenmengen, sondern auch eine Vielzahl von Datentypen, einschließlich unstrukturierter Daten, zu verwalten und zu verarbeiten.

Die Data Ingestion verspricht auch eine Reduzierung der Komplexität.

Durch die Fähigkeit, unterschiedliche Datenquellen miteinander in Einklang zu bringen, erleichtert die Data Ingestion die Prozesse der Datenextraktion und der Umstrukturierung in vordefinierte Formate erheblich, um die Daten leichter nutzbar zu machen.

Die Informationen, zu denen Ihnen die Data Ingestion Zugang verschafft, können dann in fortgeschrittenen Analysetools nutzbar gemacht werden. Das Ziel: Den Nutzen dieser umfassenden Kenntnisse über Ihre Kunden oder Ihren Markt zu maximieren, um damit Business-Intelligence-Tools zu füttern. So können Sie leichter eine neue strategische Ausrichtung festlegen, die sich auf ein echtes Datenprojekt stützt, das an Tiefe gewinnt und es Ihnen ermöglicht, Ihr Unternehmen „datengetrieben“ zu entwickeln. Die Data Ingestion trägt dazu bei, Ihren Mitarbeitern den Zugang zu den Daten zu vereinfachen.

Eine ausgeprägtere Datenkultur bedeutet auch schnellere und fundiertere Entscheidungen und damit einen Wettbewerbsvorteil bei der Festlegung erfolgreicherer taktischer und strategischer Schwerpunkte.

Welche Herausforderungen gilt es bei der Data Ingestion zu meistern?

Eine Disziplin wie die Data Ingestion bleibt anspruchsvoll, und um ihr volles Potenzial zu entfalten, muss eine Reihe von Bedingungen erfüllt werden. So ist zu beachten, dass der Eingang sehr großer Datenmengen Probleme bezüglich der Datenqualität aufwerfen kann, was nicht nur die Aussagekraft der Analysen verschlechtert, sondern auch die Bearbeitungszeiten verlängert. Außerdem erhöht die Vielfalt der Datenquellen rein technisch die Anfälligkeit für Schwachstellen. Diese beiden großen Herausforderungen ziehen eine dritte Schwierigkeit nach sich, der man sich bewusst sein muss, bevor man ein solches Projekt startet.

Eine höhere Komplexität und Risikoexposition bergen rein technisch das Risiko höherer Verarbeitungskosten. Um ein erfolgreiches Data-Ingestion-Projekt durchzuführen, muss man sich dieser Risiken bewusst sein, um sich vor ihnen zu schützen …

Wie führt man ein Data Ingestion-Projekt zum Erfolg?

Der erste Tipp für den effektiven Start eines Data-Ingestion-Projekts lautet Antizipation. Die Fähigkeit, Risiken und Schwierigkeiten zu antizipieren, hängt von der richtigen Abbildung Ihrer Datenbestände ab.

Der andere Hebel, den es zu betätigen gilt, ist die Automatisierung.

Die Datenmengen, die im Rahmen der Data Ingestion verarbeitet werden, sind so groß, dass manuelle Operationen auf ein Minimum beschränkt werden müssen. Die Automatisierung der Datenverarbeitung hat darüber hinaus den Vorteil, dass Ihre Datenstruktur einheitlicher wird.

Um die Erfolgsaussichten Ihres Data-Ingestion-Projekts zu maximieren, können Sie letztlich auch eine Data Ingestion in Echtzeit in Betracht ziehen. Dieses Verfahren wird auch als Streaming Data Ingestion bezeichnet und eignet sich besonders, wenn Sie Ihr Wissen über einen Markt kontinuierlich aktualisieren möchten. Ein solcher Dateneingang in Echtzeit liefert eine wichtige Antwort auf die Herausforderung, Entscheidungen in Echtzeit zu treffen.

Leitfaden zum Data Quality Management #4 – Der Beitrag des Datenkatalogs zum DQM

von Zeenea Software | Apr. 4, 2022 | Daten-Inspiration, Datenqualität

Datenqualität, besser bekannt unter dem englischen Begriff Data Quality, bezieht sich auf die Fähigkeit eines Unternehmens, seine Daten dauerhaft und im Laufe der Zeit zu erhalten. Zum Thema Datenqualität hört man von Fachleuten immer wieder, dass deren Verbesserung die Lösung für alle geschäftlichen Probleme ist und daher oberste Priorität haben sollte.

Die Realität sieht unserer Meinung nach jedoch anders aus: Datenqualität sollte nur als ein Mittel unter vielen betrachtet werden, um die Unsicherheit beim Erreichen der Unternehmensziele zu verringern.

In dieser Serie erfahren Sie alles, was Sie über Datenqualitätsmanagement (DQM) wissen müssen:

Die neun Dimensionen der Datenqualität
Die Herausforderungen und Risiken der Datenqualität
Die wichtigsten Funktionen eines DQM-Tools
Der Beitrag des Datenkatalogs zum DQM

Ein Datenkatalog ist kein DQM-Tool

Ein Datenkatalog sollte nicht als vollwertiges QM-Werkzeug betrachtet werden, so wie wir es in diesem Artikel beschrieben haben.

Zunächst einmal ist eines der Kernprinzipien der Datenqualität, dass die Kontrollen idealerweise direkt im Quellsystem stattfinden sollten. Wenn diese Prüfungen nur im Datenkatalog – und nicht direkt an der Quelle und in den Transformation-Pipelines – durchgeführt werden, erhöht dies die Gesamtkosten.

Zweitens muss ein Datenkatalog so umfassend und so wenig intrusiv wie möglich sein, um eine schnelle Einführung im Unternehmen zu gewährleisten. Dies ist nicht vereinbar mit der Komplexität der Datentransformationen und der Vielzahl an Werkzeugen, die zur Durchführung dieser Transformationen verwendet werden.

Letztlich muss ein Datenkatalog ein einfach zu verstehendes und benutzerfreundliches Tool bleiben, wie in Artikel 3 unserer Data Democracy beschrieben.

Der Beitrag des Datenkatalogs zum DQM

Der Datenkatalog ist zwar kein DQM-Tool, trägt aber dennoch wesentlich dazu bei, und zwar auf folgende Art und Weise:

Mithilfe des Datenkatalogs können Datennutzer Metadaten leicht verstehen, um Interpretationen der Daten zu vermeiden. Bezogen auf DQM spiegelt diese grundlegende Funktion die Dimension der Klarheit wider;

Ein Datenkatalog ermöglicht eine zentrale Sicht auf alle im Unternehmen verfügbaren Daten. Informationen zur Datenqualität sind also Metadaten wie alle anderen auch, die den Benutzern zur Verfügung gestellt werden müssen. Sie sollten leicht zu interpretieren und abrufbar sein und die Dimensionen Genauigkeit, Konsistenz, Validität, Einzigartigkeit, Vollständigkeit und Aktualität widerspiegeln.

Ein Datenkatalog hat die Funktion, Daten zurückzuverfolgen (Data Lineage), was der Dimension der Nachvollziehbarkeit entspricht;

Ein Datenkatalog ermöglicht in der Regel den direkten Zugriff auf die Datenquelle, was die Dimension der Verfügbarkeit widerspiegelt.

Die Strategie zur Implementierung von DQM

Die folgende Tabelle zeigt im Detail, wie Datenqualität in den verschiedenen auf dem Markt existierenden Lösungen berücksichtigt wird:

Wie bereits beschrieben, sollten standardmäßig so viele Qualitätstests und -überprüfungen wie möglich direkt im Quellsystem durchgeführt werden. Die Integration von Qualitätstests in einen Data Catalog kann zwar die Benutzererfahrung verbessern, ist aber aufgrund seiner Beschränkungen – die Data Quality ist nicht in die Transformationen integriert – nicht unbedingt erforderlich.

Wenn die Systeme jedoch komplexer werden und man beispielsweise die Daten mehrerer uneinheitlicher Systeme, die nicht die gleichen funktionalen Regeln implementiert haben, konsolidieren möchte, wird ein spezialisiertes Data-Quality-Tool unerlässlich.

Die Implementierungsstrategie wird von den Use Cases und den Zielen des Unternehmens abhängen. Grundsätzlich ist es jedoch sinnvoll, DQM inkrementell einzuführen:

Sicherstellen, dass das Quellsystem die relevanten Qualitätsregeln beinhaltet;
Einen Datenkatalog einführen, um die Qualität in Bezug auf die Dimensionen Genauigkeit, Nachvollziehbarkeit und/ oder Verfügbarkeit zu verbessern;
Data Quality mit einem spezialisierten Tool in die Datentransformationen integrieren und gleichzeitig diese Informationen über API automatisch in den Data Catalog zurückführen.

Fazit

Datenqualität bezieht sich auf die Fähigkeit eines Unternehmens, seine Daten dauerhaft und im Laufe der Zeit zu erhalten. Bei Zeenea definieren wir sie anhand von neun der sechzig Dimensionen, die DAMA International identifiziert hat: Vollständigkeit, Genauigkeit, Validität, Einzigartigkeit, Konsistenz, Aktualität, Nachvollziehbarkeit, Klarheit und Verfügbarkeit erfüllen.

Als Data-Catalog-Anbieter lehnen wir die Vorstellung ab, dass der Datenkatalog ein vollwertiges QM-Instrument ist. Es handelt sich lediglich um eine von mehreren Möglichkeiten, zur Verbesserung der Datenqualität beizutragen – insbesondere in den Dimensionen Klarheit, Verfügbarkeit und Rückverfolgbarkeit

Werfen Sie einen Blick in unseren Leitfaden zum Data Quality Management

Für weitere Informationen über Datenqualität und DQM, laden Sie sich jetzt unseren kostenlosen “Leitfaden zum Data Quality Management“ herunter!

DOWNLOAD

der-leitfaden-zum-data-quality-management-cover

Leitfaden zum Data Quality Management #3 – Die wichtigsten Funktionen eines DQM-Tools

von Zeenea Software | Apr. 4, 2022 | Daten-Inspiration, Datenqualität

In dieser Serie erfahren Sie alles, was Sie über Datenqualitätsmanagement (DQM) wissen müssen:

Die neun Dimensionen der Datenqualität
Die Herausforderungen und Risiken der Datenqualität
Die wichtigsten Funktionen eines DQM-Tools
Der Beitrag des Datenkatalogs zum DQM

Im Folgenden möchten wir die auf dem Markt angebotenen DQM-Lösungen genauer untersuchen und so die Herausforderungen dieser Disziplin noch besser verstehen.

Wie geht man vor, um Qualitätsprobleme zu erkennen und zu beheben? Was bieten die marktüblichen Tools an Funktionen zur Verbesserung der Datenqualität?

Ohne zu sehr ins Detail zu gehen, möchten wir Ihnen die Qualitäten eines DQM-Tools anhand der wichtigsten Bewertungskriterien des Magic Quadrant for Data Quality Solutions von Gartner veranschaulichen.

Konnektivität

Ein DQM-Tool muss in der Lage sein, Qualitätsregeln für alle Daten im Unternehmen abzurufen und anzuwenden (interne, externe, On-Prem-, Cloud-, relationale, nicht-relationale Daten usw.). Das Tool muss sich also mit allen wichtigen Daten des Unternehmens verbinden können, um Qualitätsregeln anzuwenden.

Profiling, Messung und Visualisierung von Daten

Um Qualitätsprobleme zu beheben, muss man sie erst einmal erkennen können. Data Profiling ermöglicht es Business-Anwendern und IT-Abteilungen, sich einen Überblick über die Datenqualität zu verschaffen, um Probleme zu erkennen und zu verstehen.

Das Tool muss daher in der Lage sein, die im Abschnitt Die neun Dimensionen der Datenqualität beschriebenen Schritte durchzuführen: Qualitätsprobleme anhand der für das Unternehmen wichtigsten Dimensionen identifizieren.

Monitoring

Das Tool muss in der Lage sein, die Entwicklung der Datenqualität zu überwachen und die Verantwortlichen ab bestimmten Schwellenwerten zu alarmieren.

Standardisierung und Bereinigung von Daten

Es kommt zwangsläufig der Zeitpunkt, an dem die Daten bereinigt werden müssen. Hier sind Funktionen zur Datenbereinigung nötig, um Standards oder Geschäftsregeln zur Änderung von Daten (Format, Werte oder Layout) anzuwenden.

Matching und die Zusammenführung von Daten

Duplikate innerhalb von oder zwischen Datensätzen müssen identifiziert und entfernt werden.

Validierung von Adressen

Unvollständige oder fehlerhafte Adressen müssen standardisiert werden.

Pflege und Anreicherung von Daten

Dies sind die Fähigkeiten eines DQM-Tools, Daten aus externen Quellen zu integrieren, um die Vollständigkeit zu verbessern – und damit den Wert der Daten zu steigern.

Entwicklung und Umsetzung von Geschäftsregeln

Das DQM-Tool muss Geschäftsregeln erstellen, einsetzen und verwalten können, die dann zur Validierung von Daten verwendet werden.

Lösung von Problemen

Das DQM-Tool sollte es Fachbereichen und IT ermöglichen, Datenqualitätsprobleme zuzuordnen, zu lösen und zu überwachen.

Metadaten-Management

Das Tool muss in der Lage sein, alle Metadaten im Zusammenhang mit dem Datenqualitätsprozess zu erfassen und abzugleichen.

Zusammenarbeit

Schließlich muss sich die Lösung an die verschiedenen Rollen im Unternehmen anpassen, insbesondere an nicht-technische Fachanwender.

Werfen Sie einen Blick in unseren Leitfaden zum Data Quality Management

Für weitere Informationen über Datenqualität und DQM, laden Sie sich jetzt unseren kostenlosen “Leitfaden zum Data Quality Management“ herunter!

DOWNLOAD

Leitfaden zum Data Quality Management #2 – Herausforderungen und Risiken der Datenqualität

von Zeenea Software | Apr. 4, 2022 | Daten-Inspiration, Datenqualität

In dieser Serie erfahren Sie alles, was Sie über Datenqualitätsmanagement (DQM) wissen müssen:

Die neun Dimensionen der Datenqualität
Die Herausforderungen und Risiken der Datenqualität
Die wichtigsten Funktionen eines DQM-Tools
Der Beitrag des Datenkatalogs zum DQM

Unternehmen und die Herausforderung der Datenqualität

Initiativen zur Verbesserung der Datenqualität werden von Unternehmen traditionell eingeführt, um Compliance-Anforderungen zu erfüllen und Risiken zu verringern. Sie sollen außerdem eine zuverlässige Entscheidungsfindung sicherstellen.

Leider gibt es viele Reibungspunkte, die das Erreichen dieser Ziele zur Verbesserung der Datenqualität verhindern können. Hier einige Beispiele:

Das exponentielle Wachstum von Datenvolumen, -geschwindigkeit und -vielfalt macht das Umfeld komplex und unsicher;
Teams werden zunehmend dezentralisiert, wobei jedes Team seinen eigenen Kompetenzbereich hat;
IT- und Datenteams sind überlastet und haben keine Zeit, sich mit dem Thema Data Quality zu befassen;
Dieselben Teams drücken sich gerne vor diesen oft als undankbar empfundenen Aufgaben;
Die Prozesse zur Aggregation von Daten sind komplex und langwierig;
Es kann schwierig sein, Daten zwischen verschiedenen Quellen zu standardisieren;
Die Prüfung von Änderungen zwischen Systemen ist komplex;
Governance-Richtlinien sind schwer zu implementieren.

Auf der anderen Seite bieten sich aber auch zahlreiche Chancen. Die Sicherstellung qualitativ hochwertiger Daten ermöglicht es Unternehmen, Innovationen mithilfe von Künstlicher Intelligenz zu fördern und so ein individuelles Kundenerlebnis zu schaffen. Allerdings müssen sie auch über genügend qualitativ hochwertige Daten verfügen.

Gartner prognostiziert, dass bis 2022 85 % der KI-Projekte aufgrund von Verzerrungen in den Daten, Algorithmen oder den Teams, die sie verwalten, falsche Ergebnisse liefern.

Senkung von Risiken durch Verbesserung der Datenqualität

Schlechte Datenqualität sollte als Risiko betrachtet werden, und Software zur Verbesserung der Qualität als mögliche Behandlungsmethode, um das Risikoniveau zu senken.

Der Prozess der Behebungs eines Qualitätsproblems:

Ausgehend von der vorherigen Annahme müsste dann jedes Qualitätsproblem in mehreren Phasen angegangen werden:

1. Identifizierung der Risiken: In dieser Phase werden diejenigen Risiken gesucht, erkannt und beschrieben, die dem Unternehmen daran hindern können, seine Ziele zu erreichen – und zwar insbesondere aufgrund mangelnder Datenqualität.

2. Risikoanalyse: Ziel dieser Phase ist es, die Natur des Risikos und dessen Ausprägungen zu verstehen. Sie umfasst Wahrscheinlichkeitsfaktoren für Ereignisse und deren Folgen, die Art und das Ausmaß dieser Folgen, die Wirksamkeit der vorhandenen Kontrollmittel usw.

Hier soll also herausgefunden werden, was die schlechte Qualität der Marketingdaten verursacht hat. Als Beispiele könnten genannt werden:

Eine schlechte User Experience auf dem Quellsystem, die zu Eingabefehlern führt;
Eine fehlende Überprüfung der Vollständigkeit, Genauigkeit, Validität, Eindeutigkeit, Konsistenz oder Aktualität der Daten;
Ein Mangel an einfachen Mitteln, um die Nachvollziehbarkeit, Klarheit und Verfügbarkeit der Daten zu gewährleisten;
Das Fehlen von Governance-Prozessen und die fehlende Einbeziehung der Business-Teams.

3. Risikobewertung: In dieser Phase geht es darum, die Ergebnisse der Risikoanalyse mit den festgelegten Risikokriterien zu vergleichen. Hier soll festgestellt werden, ob für die Entscheidungsfindung weitere Maßnahmen erforderlich sind – sollen die vorhandenen Mittel beibehalten werden, welche Optionen zur Behebung gibt es, müssen weitere Analysen durchgeführt werden usw.

Konzentrieren wir uns auf die neun Dimensionen der Datenqualität und versuchen wir, die Auswirkungen schlechter Qualität auf jede von ihnen für Arthurs Ziel mithilfe einer Risikomatrix zu bewerten:

Die Bewertungen für Wahrscheinlichkeit und Auswirkung müssen mit den Hauptbeteiligten vorgenommen werden, d. h. mit den Mitarbeitern auf operativer Ebene, die mit den betreffenden Daten am besten vertraut sind.

4. Behebung des Risikos: In der Phase der Behebung werden Optionen und Maßnahmen zur Verringerung des Risikos bestimmt. Dies beinhaltet auch eine Beurteilung der Wirksamkeit der durchgeführten Maßnahmen, und festzustellen, ob das Restrisiko akzeptabel ist oder nicht und – im letzteren Fall – eventuell eine weitere Behandlung in Betracht zu ziehen.

Die Verbesserung der Datenqualität ist kein Selbstläufer:

Ihre Kosten müssen im Hinblick auf die Ziele des Unternehmens bewertet werden;
Die Maßnahmen zur Behebung von Risiken müssen anhand jeder der Qualitätsdimensionen bewertet werden.

Werfen Sie einen Blick in unseren Leitfaden zum Data Quality Management

Für weitere Informationen über Datenqualität und DQM, laden Sie sich jetzt unseren kostenlosen “Leitfaden zum Data Quality Management“ herunter!

DOWNLOAD

Leitfaden zum Data Quality Management #1 – Die neun Dimensionen der Datenqualität

von Zeenea Software | Apr. 4, 2022 | Daten-Inspiration, Datenqualität

In dieser Serie erfahren Sie alles, was Sie über Datenqualitätsmanagement (DQM) wissen müssen:

Die neun Dimensionen der Datenqualität
Die Herausforderungen und Risiken der Datenqualität
Die wichtigsten Funktionen eines DQM-Tools
Der Beitrag des Datenkatalogs zum DQM

Was ist Datenqualität?

Wenn Sie einen Data Analyst oder einen Data Engineer fragen, was Datenqualität ist, werden Sie höchstwahrscheinlich unterschiedliche Antworten erhalten – sogar innerhalb eines Unternehmens. Einige werden zum Beispiel von der Einzigartigkeit der Daten sprechen, während andere die Standardisierung als Kriterium nennen. Vielleicht haben Sie selbst Ihre eigene Interpretation.

Qualität wird laut der Norm DIN EN ISO 9000:2015 als „Grad, in dem ein Satz inhärenter Merkmale eines Objekts Anforderungen erfüllt“ definiert.

DAMA International (The Global Data Management Community) – ein internationaler Verband, der die geschäftlichen und technischen Fachleute für Datenmanagement vereint – leitet diese Definition im Datenkontext ab: Datenqualität ist der Grad, in dem die Dimensionen der Daten die Anforderungen erfüllen“

Der dimensionale Ansatz zur Datenqualität

Operativ schlägt sich die Datenqualität in den sogenannten Dimensionen der Datenqualität nieder, wobei sich jede Dimension auf einen bestimmten Aspekt der Qualität bezieht. Die vier am häufigsten verwendeten Dimensionen sind in der Regel Vollständigkeit, Genauigkeit, Validität und Verfügbarkeit – auf die wir weiter unten näher eingehen werden.

In der Literatur findet man eine große Anzahl verschiedener Dimensionen und Kriterien, mit denen die Datenqualität beschrieben werden kann. Man muss sich jedoch darüber im Klaren sein, dass es heute keinen Konsens darüber gibt, welche diese Dimensionen sind. DAMA definiert bspw. sechzig Dimensionen – während die meisten DQM-Softwareanbieter in der Regel fünf oder sechs Dimensionen vorschlagen.

Die neun Dimensionen der Datenqualität

Wir bei Zeenea glauben, dass der ideale Kompromiss in neun Dimensionen der Datenqualität besteht: Vollständigkeit, Genauigkeit, Validität, Einzigartigkeit, Konsistenz, Aktualität, Nachvollziehbarkeit, Klarheit und Verfügbarkeit.

Wir möchten Ihnen die neun Dimensionen und die verschiedenen Konzepte, die in diesem eBook behandelt werden, anhand eines einfachen Beispiels veranschaulichen.

Arthur ist dafür verantwortlich, Marketingkampagnen an seine Kunden und Interessenten zu senden, um die neuen Angebote seines Unternehmens vorzustellen. Dabei stößt er auf eine Reihe von Problemen:

Arthur sendet manchmal mehrere Mitteilungen an dieselben Personen,
Die in seinem CRM angegebenen E-Mails sind oft ungültig,
Interessenten und Kunden erhalten nicht immer den richtigen Inhalt,
Einige Informationen über Interessenten sind veraltet,
Briefe, die an wichtige Kunden geschickt wurden, kommen zurück,
Kunden werden in E-Mails mit der falschen Anrede angesprochen,
Es gibt zwei Adressen für Kunden und Interessenten, und es ist unklar, wofür sie stehen,
Es ist nicht immer klar, woher die Daten, die er nutzt, stammen oder wie er auf ihre Quellen zugreifen kann.

Die folgenden Daten stehen Arthur für seinen Auftrag zur Verfügung. Wir werden sie verwenden, um jede der neun DQ-Dimensionen zu veranschaulichen:

1. Vollständigkeit

Sind die Daten vollständig? Fehlen irgendwelche Informationen? Ziel dieser Dimension ist es, leere oder fehlende Daten zu identifizieren.

In unserem Beispiel hat Arthur festgestellt, dass eine der E-Mail-Adressen nicht ausgefüllt ist:

Zur Behebung des Problems könnte er versuchen, herauszufinden, ob andere Systeme diese Informationen enthalten. Arthur könnte auch die zuständigen Kollegen bitten, die fehlenden E-Mail-Adressen manuell auszufüllen.

2. Genauigkeit

Stimmen die vorliegenden Werte mit den tatsächlichen Daten überein, d. h. mit denen, die in der realen Welt vorliegen?

Arthur hat festgestellt, dass Briefe an wichtige Kunden zurückkommen, weil die Postadressen nicht korrekt sind. Man stellt tatsächlich fest, dass eine der Adressen nicht dem Adressformat der realen Welt entspricht:

Es könnte für Arthur interessant sein, sich nach Diensten zur Überprüfung von Postadressen umzuschauen.

3. Validität

Entspricht der Datensatz der Syntax seiner Definition? Mit dieser Dimension soll sichergestellt werden, dass die Daten einem bestimmten Modell oder einer bestimmten Regel entsprechen.

Arthur hat festgestellt, dass er regelmäßig Rückläufer für ungültige E-Mails erhält. Außerdem erhalten einige Interessenten und Kunden nicht den richtigen Inhalt, da sie nicht richtig qualifiziert sind. Man stellt fest, dass die E-Mail-Adresse annalincoln@apple das falsche Format hat und der Kundentyp Csutomer nicht korrekt ist.

Zur Lösung des Problems kann er bspw. veranlassen, dass die Client Type-Werte immer Teil einer Liste von Referenzwerten sein müssen (Customer oder Prospect) und dass die E-Mail-Adresse einem bestimmten Format entspricht.

4. Konsistenz

Sind verschiedene Werte in einem Datensatz in Bezug auf eine Regel konform? Es gilt sicherzustellen, dass die Daten zwischen mehreren Spalten übereinstimmen.

Einige der männlichen Kunden beschweren sich über E-Mails, in denen sie fälschlicherweise als Frau bezeichnet werden. Bei Lino Rodrigez gibt es tatsächlich einen Widerspruch zwischen den Spalten Gender und Title.

To solve these types of problems, it is possible to create a logical rule that ensures that when the id Gender is Male, the title should be Mr.5.

5. Aktualität

Ist der Zeitraum zwischen Erstellung der Daten und ihrer Nutzung angemessen? Es soll sichergestellt werden, dass die Daten innerhalb eines im Verhältnis zu ihrer Erstellung angemessenen Zeitraums verwendet werden.

Arthur hat festgestellt, dass einige Informationen über potenzielle Kunden veraltet und nicht mehr aktuell sind. Für seine Tätigkeit und sein Unternehmen sollten CRM-Daten, die älter als sechs Monate sind, nicht verwendet werden

Das Problem könnte durch eine Regel behoben werden, die zu alte Daten identifiziert und ausschließt. Eine andere Alternative wäre, die gleichen Informationen aus einem anderen System abzurufen, das frischere Daten enthält.

6. Einzigartigkeit

Gibt es Datensätze, die mehr als einmal vorhanden sind? Damit soll sichergestellt werden, dass die Daten nicht doppelt genutzt werden.

Arthur stellt fest, dass er die gleichen Mitteilungen mehrmals an die gleichen Personen gesendet hat. Die Kundin Lisa Smith kommt doppelt in der Datei vor:

In diesem vereinfachten Beispiel sind die duplizierten Daten genau dieselben. Mit fortgeschritteneren Algorithmen wie bspw. Jaro, Jaro-Winkler oder Levenshtein lassen sich die duplizierten Daten feiner gruppieren.

7. Klarheit

Ist es für Datennutzer einfach, die Metadaten zu verstehen? Ziel ist es, die Bedeutung der Daten zu erfassen und Interpretationen zu vermeiden.

Arthur hatte Zweifel an den beiden vorhandenen Adressen, da es nicht klar ist, worauf sie sich beziehen. Die Namen Street Address 1 und Street Address 2 sind interpretationsbedürftig und sollten nach Möglichkeit geändert werden. Das Umbenennen innerhalb einer Datenbank ist oft ein komplizierter Vorgang und sollte zumindest mit einer Beschreibung ordnungsgemäß dokumentiert werden:

8. Nachvollziehbarkeit

Ist es möglich, Daten zurückzuverfolgen? Ziel ist es, auf die Ursprünge der Daten zuzugreifen sowie auf die Transformationen, die sie möglicherweise durchlaufen haben.

Arthur ist sich nicht ganz sicher, woher seine Daten kommen und wie er auf die Quelldaten zugreifen kann. Dies könnte ihm jedoch sehr nützlich sein, insbesondere um sicherzustellen, dass Probleme tatsächlich an der Quelle behoben werden. Er müsste also wissen, dass die Daten, die er in seinem Marketing-Tool verwendet, aus den Daten im Data Warehouse seines Unternehmens stammen, die wiederum aus dem CRM-Tool kommen.

9. Verfügbarkeit

Wie können die Daten von den Nutzern eingesehen oder abgerufen werden? Ziel ist es, den Zugang zu den Daten zu erleichtern.

Arthur überlegt sich, wie er einfach auf die Quelldaten zugreifen könnte. Wenn wir das vorherige Schema wieder aufgreifen, hätte er gerne einen einfachen und schnellen Zugriff auf Daten aus dem Data Warehouse und/ oder dem CRM-Tool. In einigen Fällen müsste Arthur eine Anfrage stellen, bevor er direkt auf diese Informationen zugreifen kann.

Werfen Sie einen Blick in unseren Leitfaden zum Data Quality Management

Für weitere Informationen über Datenqualität und DQM, laden Sie sich jetzt unseren kostenlosen “Leitfaden zum Data Quality Management“ herunter!

DOWNLOAD

Data Quality Management: Eine wichtige Zutat zur Verbesserung der Datenqualität

von Zeenea Software | März 26, 2022 | Daten-Inspiration, Datenqualität

Selbst die größte Menge an Daten nützt nichts, wenn diese von schlechter Qualität sind. Das Data Quality Management muss eine Priorität für Unternehmen werden. Als Entscheidungshilfe, zur Steuerung von Innovationen und der Kundenzufriedenheit erfordert die Überwachung der Datenqualität ein präzises und methodisches Vorgehen.

Daten nur um der Daten willen zu produzieren, weil es gerade in Mode ist, weil Ihre Konkurrenten es tun, weil Sie in der Fachpresse oder im Internet davon gelesen haben, dass man das so macht, das war einmal.

Heutzutage leugnet keine Branche mehr den überaus strategischen Charakter von Daten. Hinter dieser allgemeinen Begeisterung für Daten steht jedoch die eigentliche Herausforderung: die Datenqualität. Wenn man jedoch den Gartner Magic Quadrant for Data Quality Solutions 2020 betrachtet, zeigt sich, dass mehr als ein Viertel der kritischen Daten der größten Unternehmen fehlerhaft sind. Eine Situation, die direkte und indirekte Kosten verursacht.

Strategische Fehler, schlechte Entscheidungen, verschiedene Kosten im Zusammenhang mit der Datenverwaltung … die durchschnittlichen Kosten einer schlechten Datenqualität belaufen sich auf 11 Millionen Euro pro Jahr. Warum? Ganz einfach, weil von nun an alle strategischen Entscheidungen Ihres Unternehmens von Ihrem Wissen über Ihre Kunden, Lieferanten und Partner geleitet werden. Wenn man bedenkt, dass Daten in Ihrem Geschäft allgegenwärtig sind, wird die Datenqualität zur zentralen Herausforderung. Und nicht nur Gartner weist auf diese Tatsache hin.

So enthüllte Ende 2020 die renommierte Firma IDC in einer Studie, dass Unternehmen vor zahlreichen Herausforderungen stehen, wenn sie aus der Nutzung ihrer Daten einen Vorteil ziehen wollen. Knapp zwei Drittel aller Unternehmen sehen die Identifizierung relevanter Daten als Herausforderung an, 76 % halten die Datenerfassung für verbesserungswürdig und 72 % sind der Meinung, dass ihre Prozesse zur Umwandlung von Daten für Analysezwecke verbessert werden könnten.

Das Data Quality Management: Eine anspruchsvolle Aufgabe

Wie beim Kochen gilt: Je hochwertiger die Zutaten, desto besser wird das Rezept bei Ihren Gästen ankommen. Da Daten zu besseren Analysen und damit zu besseren Entscheidungen führen sollen, ist eine gute Datenqualität von entscheidender Bedeutung.

Aber was zeichnet hochwertige Daten aus?

Mehrere Kriterien können dabei eine Rolle spielen. Die Genauigkeit der Daten (eine vollständige Telefonnummer), ihre Konformität (eine Nummer besteht aus 10 Ziffern, denen eine Ländervorwahl vorangestellt ist), ihre Gültigkeit (sie wird nach wie vor verwendet), ihre Zuverlässigkeit (Ihr Gesprächspartner ist tatsächlich unter der Nummer zu erreichen) usw.

Ein effektives Datenqualitätsmanagement muss sicherstellen, dass alle Kriterien, die Sie für qualitativ hochwertige Daten festlegen, erfüllt sind. Aber Vorsicht! Die Daten müssen noch mit Leben gefüllt werden, um ihre Qualität im Laufe der Zeit zu gewährleisten. Das heißt, wenn eine Angabe eine Weile nicht mehr aktualisiert wurde, ist sie möglicherweise veraltet. Und veraltete Daten oder Daten, die nicht aktualisiert, geteilt oder genutzt werden, verlieren sofort an Wert, da sie nicht mehr effektiv dazu beitragen, Ihre Überlegungen, Strategien und Entscheidungen zu unterstützen.

Best Practices für die Datenqualität

Um die Integrität, Kohärenz, Genauigkeit, Gültigkeit und, kurz gesagt, die Qualität Ihrer Daten zu gewährleisten, müssen Sie methodisch vorgehen. Der wichtigste Schritt bei einem effektiven Data Quality Management-Projekt ist zunächst die Vermeidung von Duplikaten. Duplikate sind nicht nur eine Belastung für Ihre Datenbanken, sondern verfälschen auch die Analysen und können die Relevanz Ihrer Entscheidungen beeinträchtigen.

Wenn Sie sich für ein Data Quality Management-Tool entscheiden, sollten Sie darauf achten, dass es ein Modul zur automatisierten Nutzung von Metadaten enthält. Wenn Sie das gesamte Wissen, das Sie über Ihre Daten haben, in einer einzigen Schnittstelle zentralisieren, erleichtert das die Datennutzung. Dies ist der zweite konstitutive Pfeiler Ihres Data Quality Management-Projekts.

Mithilfe einer genauen Definition Ihrer Daten und ihrer Nomenklatur können Sie den Prozess der Qualitätsoptimierung effizient einleiten. Wenn Ihre Daten dann eindeutig identifiziert und klassifiziert sind, geht es darum, ihre Qualität zu bewerten, indem Sie sie mit den Erwartungen der verschiedenen Fachbereiche innerhalb des Unternehmens in Beziehung setzen.

Dieser Abgleich zwischen der Art der verfügbaren Daten und ihrer Nutzung durch die Fachbereiche ist ein entscheidendes Element für die Steuerung der Datenqualität. Wir müssen aber auch einen Schritt weiter gehen und uns fragen, wie sensibel die Daten sind. Ob Ihre Daten sensibel sind oder nicht, hängt davon ab, auf welche Art und Weise Sie die Datenschutzvorschriften umsetzen.

Seit dem Inkrafttreten der DSGVO im Jahr 2018 können riskante Entscheidungen in Bezug auf die Datensicherheit hart geahndet werden, und das nicht nur aus finanzieller Sicht.

Denn die Bürger und somit Ihre Kunden sind mittlerweile dafür sensibilisiert, wie Sie die Daten nutzen und schützen, die sie an Sie weitergeben. Durch eine effektive Steuerung der Datenqualität tragen Sie auch dazu bei, das Vertrauen Ihrer Kunden zu erhalten … Und dieses Vertrauen ist unbezahlbar!

TECHNOLOGIE

LÖSUNGEN

FUNKTIONALITÄTEN

APPLICATIONS

BRANCHEN

FÜR DATA LEADER

KNOWLEDGE HUB

PRODUCT HUB

ÜBER ZEENEA

KONTAKT AUFNEHMEN

DIENSTLEISTUNGEN

PHILOSOPHIE

Wie kann KI die Governance Ihrer Unternehmensdaten verbessern?

Welche Vorteile bietet KI für die Data Governance?

Verbesserung der Qualität Ihrer Daten

Automatisierung der Compliance Ihrer Daten

Erhöhen Sie die Sicherheit Ihrer Daten

Demokratisierung der Daten

Wie sieht die Zukunft der Data Governance aus?

Die wichtigsten Prioritäten und Herausforderungen für den Chief Data Officer (CDO) im Jahr 2024

Generative KI, ein Zukunfts-Trend?

Eine begeisterter Annäherung an das Potenzial der generativen KI

Datenqualität, Vertrauen und Sicherheit sind die größten Herausforderungen für die generative KI

Die Data Governance bleibt eine Priorität

Unternehmen ändern ihren Ansatz bei der Data Governance

Datenkultur und Datenkompetenz bleiben weiterhin eine Herausforderung für die effektive Nutzung

Schaffung eines sichtbaren Geschäftswerts

Analytik und KI in der Projektentwicklung

Hin zu einem auf Datenprodukte ausgerichteten Ansatz

Schlussfolgerung

Rückblick auf die Entwicklungen der Zeenea-Plattform im Jahr 2023

Die Zeit für das Suchen und Finden von Daten verkürzen

Ein neuer Look für den Zeenea Explorer

Eine neue Startseite

Neue Detailseiten für Objekte

Ein neues Filtersystem

Katalog nach Thema durchsuchen

Alternative Namen für Glossarobjekte

Verbesserung der Suchleistung

Integration von Microsoft Teams

Die Produktivität und Effizienz der Data Stewards steigern

Automatischer Import von Datensätzen

Entfernen verwaister Felder

Erstellung von Berichten auf der Grundlage von Kataloginhalten

Neuer Look für das Steward Board

Zuverlässige, sichere und konforme Informationen in der gesamten Organisation bereitstellen

Sampling von Datensätzen

Leistungsstarke Lineage-Funktionen

Informationen zur Datenqualität

Eine durchgehende Konnektivität mit all ihren Datenquellen herstellen

Eine API zur Verwaltung des Katalogs

Verwaltung von Eigenschafts- und Zuständigkeitscodes

Mehr als ein Dutzend zusätzlicher Konnektoren

Was bedeutet Datenmodernisierung?

Warum ist eine Modernisierung der Daten notwendig?

Grund Nr. 1: Sich an technologische Entwicklungen anpassen

Grund Nr. 2: Die Datenexplosion bewältigen

Grund Nr. 3: Sich neue Datentypen zu eigen machen und nutzen

Grund Nr. 4: Die Herausforderung der geschäftlichen Agilität annehmen

Grund Nr. 5: Sicherheit und Compliance gewährleisten

Grund Nr. 6: Die Datenqualität kontinuierlich verbessern

Grund Nr. 7: Im Innovationswettlauf mithalten

Welche Best Practices gibt es für die Modernisierung Ihrer Daten?

Was ist Datennormalisierung?

Warum ist die Normalisierung von Daten für Unternehmen wichtig?

Welche Vorteile sind mit der Normalisierung von Daten verbunden?

Welche Methoden werden für die Normalisierung der Daten verwendet?