IT-Sicherheit in Produktion und Technik
12.09.17 - 13.09.17
In Berlin

Be CIO: IT Management im digitalen Wandel
13.09.17 - 13.09.17
In Köln

IBC 2017
14.09.17 - 18.09.17
In Amsterdam

Orbit IT-Forum: Auf dem Weg zum Arbeitsplatz der Zukunft
27.09.17 - 27.09.17
In Leverkusen

it-sa 2017
10.10.17 - 12.10.17
In Nürnberg

 

Traditionelle Verfahren in der Customer Identity Resolution setzten Zeichenkettenvergleiche und Match-Codes ein. Heute werden mehr und mehr mathematische Verfahren insbesondere aus der Fuzzy-Logik eingesetzt, die durch landesspezifische Wissensbasen (Abbildung) ergänzt werden. Diese Wissensbasen sind offen und können daher im Lauf der Zeitmittels Lernverfahren verbessert werden. 

 
So können zunächst allgemeine Wissensbasen problemspezifisch angepasst werden. Eine umfassende Zusammenstellung der gängigen und auch fortgeschrittenen Verfahren findet man beispielsweise bei Uniserv. www.uniserv. com/de/ products/data-quality-technology/ methods-algorithms.php 
 
Beim Customer Resolution Management können natürlich auch Fehler auftreten. Man spricht von einem Fehler der ersten Art (oder auch „falsch positiv“), wenn zwei Datensätze, die zu verschiedenen Kunden gehören, einem Kunden zugeordnet werden. Vom Fehler zweiter Art (oder auch „falsch negativ“) spricht man, wenn zwei Datensätze, die den gleichen Kunden bezeichnen, nicht zugeordnet werden.
 
Bild 1 erläutert die Situation: Im Schaubild links bedeutet der „obere Schwellenwert“ die Mindestübereinstimmung, damit verschiedene Datensätze einer Identität zugeordnet werden. Entsprechend bedeutet der „untere Schwellenwert“, dass alle Datensätze mit einem kleineren Ähnlichkeitsmaß verschiedenen Identitäten zugeordnet werden. Datensätze mit Ähnlichkeitsmaßen, die zwischen dem oberen und unteren Schwellenwert liegen, sind manuell zu prüfen.
 
 
Bild 1: Wann können bestimmte Datensätze einer Identität zugeordnet werden?
 
 
Setzt man den oberen Schwellenwert zu niedrig an, dann erhöht man die Anzahl der falsch positiven Entscheidungen. Setzt man den unteren Schwellenwert zu hoch an, dann erhöht man die Anzahl der falsch negativen Entscheidungen. Im Laufe der Zeit gewinnt man Erfahrung und kann den oberen und unteren Schwellenwert empirisch optimieren.
 
 
Bild 2: Namens- und Adressidentifizierung, Doublettenabgleich und Clusterung: Die Qualität von traditionellen Verfahren wie Zeichenkettenvergleichen und Match-Codes ist in der Regel nicht ausreichend, kann aber sehr gut durch mathematische Verfahren der Fuzzy-Logik verbessert werden. Um schließlich auf einen Qualitätslevel von nahezu 100 Prozent zu kommen, sollten landesspezifische Wissensbasen eingesetzt werden.
 
Frische IT-News gefällig?
IT Newsletter Hier bestellen:

Newsletter IT-Management
Strategien verfeinert mit profunden Beiträgen und frischen Analysen

Newsletter IT-Security
Pikante Fachartikel gewürzt mit Shortnews in Whitepaper-Bouquet