VERANSTALTUNGEN

USU World 2018
06.06.18 - 07.06.18
In World Conference Center Bonn

CEBIT 2018
11.06.18 - 15.06.18
In Hannover

ERP Tage Aachen
19.06.18 - 21.06.18
In Aachen

next IT Con
25.06.18 - 25.06.18
In Nürnberg

XaaS Evolution 2018
01.07.18 - 03.07.18
In H4 Hotel Berlin Alexanderplatz

 

Traditionelle Verfahren in der Customer Identity Resolution setzten Zeichenkettenvergleiche und Match-Codes ein. Heute werden mehr und mehr mathematische Verfahren insbesondere aus der Fuzzy-Logik eingesetzt, die durch landesspezifische Wissensbasen (Abbildung) ergänzt werden. Diese Wissensbasen sind offen und können daher im Lauf der Zeitmittels Lernverfahren verbessert werden. 

 
So können zunächst allgemeine Wissensbasen problemspezifisch angepasst werden. Eine umfassende Zusammenstellung der gängigen und auch fortgeschrittenen Verfahren findet man beispielsweise bei Uniserv. www.uniserv. com/de/ products/data-quality-technology/ methods-algorithms.php 
 
Beim Customer Resolution Management können natürlich auch Fehler auftreten. Man spricht von einem Fehler der ersten Art (oder auch „falsch positiv“), wenn zwei Datensätze, die zu verschiedenen Kunden gehören, einem Kunden zugeordnet werden. Vom Fehler zweiter Art (oder auch „falsch negativ“) spricht man, wenn zwei Datensätze, die den gleichen Kunden bezeichnen, nicht zugeordnet werden.
 
Bild 1 erläutert die Situation: Im Schaubild links bedeutet der „obere Schwellenwert“ die Mindestübereinstimmung, damit verschiedene Datensätze einer Identität zugeordnet werden. Entsprechend bedeutet der „untere Schwellenwert“, dass alle Datensätze mit einem kleineren Ähnlichkeitsmaß verschiedenen Identitäten zugeordnet werden. Datensätze mit Ähnlichkeitsmaßen, die zwischen dem oberen und unteren Schwellenwert liegen, sind manuell zu prüfen.
 
CIR Bild1
 
Bild 1: Wann können bestimmte Datensätze einer Identität zugeordnet werden?
 
 
Setzt man den oberen Schwellenwert zu niedrig an, dann erhöht man die Anzahl der falsch positiven Entscheidungen. Setzt man den unteren Schwellenwert zu hoch an, dann erhöht man die Anzahl der falsch negativen Entscheidungen. Im Laufe der Zeit gewinnt man Erfahrung und kann den oberen und unteren Schwellenwert empirisch optimieren.
 
CIR Bild2 400
 
Bild 2: Namens- und Adressidentifizierung, Doublettenabgleich und Clusterung: Die Qualität von traditionellen Verfahren wie Zeichenkettenvergleichen und Match-Codes ist in der Regel nicht ausreichend, kann aber sehr gut durch mathematische Verfahren der Fuzzy-Logik verbessert werden. Um schließlich auf einen Qualitätslevel von nahezu 100 Prozent zu kommen, sollten landesspezifische Wissensbasen eingesetzt werden.
 
GRID LIST
Schatzkiste

Heben Sie Ihren Datenschatz mithilfe von Self-Service-BI

Unternehmen stehen heute einer riesigen Datenmenge gegenüber, die eine Unmenge an…
Tb W190 H80 Crop Int Edfb0446c4d7b02ec6e9e4f9acaf3aad

Prognostische Analytik liefert Daten für bessere Entscheidungen

Traditionell konzentrieren sich Business-Intelligence (BI)-Berichte auf eine Analyse der…
Tb W190 H80 Crop Int 489dee67c6511f2f775a4da1af1b344d

Daten sind das neue Öl, aber Informationen sind das neue Gold

Branchenübergreifend wird in und von Unternehmen immer wieder die gleiche Frage gestellt:…
Smarte News aus der IT-Welt

IT Newsletter


Hier unsere Newsletter bestellen:

 IT-Management

 IT-Security