Net.Law.S 2018
20.02.18 - 21.02.18
In Nürnberg, Messezentrum

CESIS 2018
20.02.18 - 21.02.18
In München

SAMS 2018
26.02.18 - 27.02.18
In Berlin, Maritim proArte

Plentymarkets Online-Händler-Kongress
03.03.18 - 03.03.18
In Kassel

Search Marketing Expo 2018
20.03.18 - 21.03.18
In München, ICM – Internationales Congress Center

 

Traditionelle Verfahren in der Customer Identity Resolution setzten Zeichenkettenvergleiche und Match-Codes ein. Heute werden mehr und mehr mathematische Verfahren insbesondere aus der Fuzzy-Logik eingesetzt, die durch landesspezifische Wissensbasen (Abbildung) ergänzt werden. Diese Wissensbasen sind offen und können daher im Lauf der Zeitmittels Lernverfahren verbessert werden. 

 
So können zunächst allgemeine Wissensbasen problemspezifisch angepasst werden. Eine umfassende Zusammenstellung der gängigen und auch fortgeschrittenen Verfahren findet man beispielsweise bei Uniserv. www.uniserv. com/de/ products/data-quality-technology/ methods-algorithms.php 
 
Beim Customer Resolution Management können natürlich auch Fehler auftreten. Man spricht von einem Fehler der ersten Art (oder auch „falsch positiv“), wenn zwei Datensätze, die zu verschiedenen Kunden gehören, einem Kunden zugeordnet werden. Vom Fehler zweiter Art (oder auch „falsch negativ“) spricht man, wenn zwei Datensätze, die den gleichen Kunden bezeichnen, nicht zugeordnet werden.
 
Bild 1 erläutert die Situation: Im Schaubild links bedeutet der „obere Schwellenwert“ die Mindestübereinstimmung, damit verschiedene Datensätze einer Identität zugeordnet werden. Entsprechend bedeutet der „untere Schwellenwert“, dass alle Datensätze mit einem kleineren Ähnlichkeitsmaß verschiedenen Identitäten zugeordnet werden. Datensätze mit Ähnlichkeitsmaßen, die zwischen dem oberen und unteren Schwellenwert liegen, sind manuell zu prüfen.
 
CIR Bild1
 
Bild 1: Wann können bestimmte Datensätze einer Identität zugeordnet werden?
 
 
Setzt man den oberen Schwellenwert zu niedrig an, dann erhöht man die Anzahl der falsch positiven Entscheidungen. Setzt man den unteren Schwellenwert zu hoch an, dann erhöht man die Anzahl der falsch negativen Entscheidungen. Im Laufe der Zeit gewinnt man Erfahrung und kann den oberen und unteren Schwellenwert empirisch optimieren.
 
CIR Bild2 400
 
Bild 2: Namens- und Adressidentifizierung, Doublettenabgleich und Clusterung: Die Qualität von traditionellen Verfahren wie Zeichenkettenvergleichen und Match-Codes ist in der Regel nicht ausreichend, kann aber sehr gut durch mathematische Verfahren der Fuzzy-Logik verbessert werden. Um schließlich auf einen Qualitätslevel von nahezu 100 Prozent zu kommen, sollten landesspezifische Wissensbasen eingesetzt werden.
 
GRID LIST
Tb W190 H80 Crop Int 74532d0eacb31d5d7ec7a54979240d99

Neue In-Memory-Datenbankplattform Terracotta DB

Die Software AG gab die Verfügbarkeit der In-Memory-Datenbank (IMDB) Terracotta DB…
Analytics Summit 2017

Google Analytics Konferenz in Deutschland

Bereits zum sechsten Mal veranstaltet der zertifizierte Google Analytics Partner Trakken…
Tb W190 H80 Crop Int 8934e8c1736b537d6fa8ae0594f8bc01

Digitale Signatur trotzt Quantencomputern

Die Kryptografie und die Rechenkraft von Computern sind in einem ständigen Wettlauf:…
Stefan Müller

Hitachi Vantara ein neuer Player entsteht auf dem Markt | Kommentar

Die Data Intelligence-Szene wurde aufgemischt: Hitachi gab die Fusion seiner Sparten…
Digitalisierung Auto

Datenmanagement: Die Autobranche sucht das Geschäft der Zukunft

Uber hat einen höheren Börsenwert als General Motors; Tesla verkauft seine…
Programmcode

Programmcode von Yago ist nun für jedermann nutzbar

Im Internet hat fast jedes Wort mehr als eine Bedeutung, was die Suche oft mühsam macht.…
Frische IT-News gefällig?
IT Newsletter Hier bestellen:

Newsletter IT-Management
Strategien verfeinert mit profunden Beiträgen und frischen Analysen

Newsletter IT-Security
Pikante Fachartikel gewürzt mit Shortnews in Whitepaper-Bouquet