Die sechs häufigsten Datenqualitätsprobleme und wie Sie diese lösen können

16. März, 2022
13:20

Facebook X LinkedIn Reddit WhatsApp Pocket

Schlechte Datenqualität ist ein permanentes Problem vieler Unternehmen. Doch es gibt strategische Interventionen, die diese Negativ-Spirale aufbrechen. Paul Dietrich von Collibra erklärt die sechs häufigsten Ursachen und Probleme in Bezug auf mangelnde Datenqualität und wie Sie diese vermeiden.

Der technologische Wandel wird in heutiger Zeit von Künstlicher Intelligenz (KI) und Machine Learning (ML) geprägt. Diese Technologien verändern unseren Alltag unaufhaltsam – in der Theorie. Denn sie gehen Hand in Hand mit einer Flut von Daten, und genau hier liegt für viele Unternehmen die Wurzel des Problems: Ihre Datenqualität ist nicht gut genug für den produktiven Einsatz dieser Technologien. Der Schaden, der durch mangelnde Datenqualität entsteht, ist immens. Er beträgt laut einer Studie von Thomas C. Redman vom MIT Sloan Management Review 15 bis 25 Prozent des Umsatzes. Andere Studien sehen diese Kosten sogar bei 30 Prozent (30 cents on the dollar). Höchste Zeit also, sich dieser Probleme ernsthaft anzunehmen. Denn auch wenn es keinen heiligen Gral gibt, der alle Probleme über Nacht verschwinden lässt, so können doch Maßnahmen ergriffen werden, die schon heute die Datenqualität verbessern. Nachfolgend sind die sechs bekanntesten Datenqualitätsprobleme sowie deren Lösungswege aufgeführt.

1. Inkonsistente und duplizierte Daten

Arbeitet ein Unternehmen mit mehreren Datenquellen, sind Abweichungen im Format, der Einheit oder in der Schreibweise wahrscheinlich – ganz zu schweigen von Duplikaten, Unstimmigkeiten und Überschneidungen. Inkonsistenzen können bereits bei der Migration von Daten in ein zentrales System übertragen werden. In Phasen der Veränderung – wie Unternehmensfusionen – ist der Druck besonders hoch. Schließlich sollen Daten möglichst schnell zusammengeführt werden. Werden Probleme aber nicht kontinuierlich behoben, potenzieren sie sich und machen damit ganze Datensätze unbrauchbar. Duplikate hingegen können zu verzerrten Modellen für maschinelles Lernen (ML) führen: Die Konsequenz: Verzerrte Analyseergebnisse werden deutlich wahrscheinlicher.

Die Lösung: Eine datengetriebene Kultur

Unternehmen und besonders die Führungskräfte sollten explizit Werte, Verhaltensweisen und Normen fördern, die eine effektive Nutzung von Daten ermöglichen. Das fängt im Kleinen an. So könnten etwa datenbasierte Präsentationen als Standard in Meetings eingeführt werden. Außerdem wichtig sind unternehmensweit einheitliche Definition für Datenqualität mit spezifisch messbaren Kennzahlen. Diese sollten dann auch kontinuierlich gemessen werden, damit entsprechende Maßnahmen zur Fehlerbehebung entwickelt werden können. Zudem sollten alle Mitarbeitenden die Möglichkeit haben, Datenqualitätsprobleme zu melden, zu identifizieren und erkennen, im Idealfall sogar selbst zu lösen.

2. Versteckte Daten

Viele Organisationen analysieren nur einen Teil ihrer Daten, der übrige Datenschatz schlummert vergessen in Datensilos und Altsystemen. Diese Daten werden auch als versteckte Daten bezeichnet, da sie für die tägliche Arbeit nicht erkennbar sind. So verschenken Unternehmen das Potenzial, diese Daten für verbesserte Services, optimierte Prozesse und datenbasierte Entscheidungen zu nutzen.

Die Lösung: Ein besseres Datenverständnis

Es braucht Zeit, die eigenen Datenquellen zu verstehen. Aber: Klarheit darüber, was Daten beschreiben, wie sie extrahiert werden können und wie man sie gewinnbringend einsetzt, ist essenziell. Dabei geht es nicht nur um ‚richtige‘ Daten, sondern auch ‘die richtigen’ Daten. Erst, wenn klar ist, um welche Daten es sich handelt, können diese bestmöglich eingesetzt werden.

3. Ungenaue oder fehlerhafte Daten

Datenqualität kann sich mit der Zeit verschlechtern und die Daten können auf ihrem Weg durch verschiedene Systeme ihre Integrität verlieren. Besonders gravierend ist das bei Kundendaten, denn hier sorgen falsche oder unvollständige Daten schnell für Probleme. Das betrifft zum Beispiel den Kundenservice oder Marketingkampagnen. In stark regulierten Branchen wie dem Gesundheitswesen sind exakte Daten unumgänglich – schließlich gibt es hier keine Fehlertoleranz für ungenaue Analysen oder falsche Entscheidungen.

Die Lösung: Problemlösung ab der Datenquelle

Häufig werden Datenqualitätsprobleme vorübergehend behoben, sodass einzelne Mitarbeitende die Arbeit fortsetzen können. Diese kurzfristigen Lösungen dienen nicht der Allgemeinheit. Daher sollten Verbesserungen stets an der Quelle adressiert werden, um so wiederkehrende Probleme zu verhindern. Ein Fehler muss also bis hin zur Quelle zurückverfolgt und dort korrigiert werden.

4. Mehrdeutige Daten

In großen Datenbanken oder Data Lakes können sich selbst bei strenger Überwachung Fehler einschleichen: Spaltenüberschriften können irreführend sein, die Formatierung kann Probleme aufweisen und Rechtschreibfehler können unentdeckt bleiben. Solche mehrdeutigen Daten führen schnell zu zahlreichen Fehlern in Berichten und Analysen.

Die Lösung: Normierung der Daten

Wann immer möglich sollten Unternehmen eine definierte Liste von Werten oder vorformulierten Sätzen in Feldern verwenden, um zu verhindern, dass Menschen vermeidbare Fehler machen. Normierung-Tools und -techniken können ebenfalls helfen, Mehrdeutigkeiten aufzuklären und dadurch die Datenqualität wiederherzustellen.

5. Zu viele Daten

Zu viele Daten erscheinen auf den ersten Blick kein Problem für die Datenqualität zu sein. Wird jedoch nach Daten gesucht, die für bestimmte Analyse-Projekte relevant sind, kann man sich leicht in der Flut der Daten verlieren. Business User, Datenanalysten und Data Scientists verbringen einen Großteil ihrer Zeit damit, die richtigen Daten zu finden, aufzubereiten, und andere Datenqualitätsprobleme werden mit zunehmender Datenmenge immer gravierender.

Die Lösung: Schulung Ihrer Teams in DataOps Methoden

Die DataOps-Methodik konzentriert sich auf prozessorientierte Automatisierung und Best Practices zur Verbesserung der Qualität und Flexibilität Ihrer Datenanalysen. Mit DataOps lassen sich menschliche Verhaltensweisen, die die Datenqualität definieren, testen und korrigieren, automatisieren.

6. Datenausfallzeiten

Es kann kurze Zeiträume geben, in denen Daten nicht zuverlässig oder nicht bereitstehen (insbesondere bei Ereignissen wie Fusionen und Übernahmen, Umstrukturierungen, Infrastruktur-Upgrades und Migrationen). Diese Datenausfallzeiten können Unternehmen stark beeinträchtigen, da sie zu Kundenbeschwerden oder schlechten Analysen führen.

Die Lösung: Der richtige Partner für Data Governance

Die kontinuierliche Überwachung von Datenausfallzeiten und deren Minimierung durch automatisierte Lösungen ist unerlässlich. Ein guter Data-Governance-Partner bietet einen umfassenden Ansatz, der den ständigen Zugriff auf vertrauenswürdige Daten gewährleistet. Der Schlüssel dazu ist jedoch die Festlegung der Verantwortlichkeit. Die richtigen Service-Level-Agreements (SLAs) können dazu beitragen, Datenausfallzeiten zu kontrollieren und hochwertige Datenpipelines zu gewährleisten, die jederzeit für den Betrieb und die Analyse bereit sind.

Fazit

Es gibt viele Möglichkeiten, wie sich unzuverlässige Daten in ein Unternehmen einschleichen. Mit der richtigen Unternehmenskultur und mit einer ganzheitlichen Data Governance Strategie können Sie jedoch sicherstellen, dass Ihre Datenqualität konstant hoch ist. Erst dann ziehen Unternehmen den größtmöglichen Nutzen aus den eigenen Daten – und nur so können Sie endlich die vielversprechenden Machine Learning Technologien effektiv, gewinnbringend und zuverlässig einsetzen.

Die sechs häufigsten Datenqualitätsprobleme und wie Sie diese lösen können

1. Inkonsistente und duplizierte Daten

2. Versteckte Daten

3. Ungenaue oder fehlerhafte Daten

4. Mehrdeutige Daten

5. Zu viele Daten

6. Datenausfallzeiten

Fazit

Paul

Dietrich

Artikel zu diesem Thema

Weitere Artikel

Meistgelesene Artikel

IT Verlag

Wichtige Links

Kontakt