Evolution in der Datenintegration: Open Source: Eine Idee setzt sich durch

Linux, Java, Ecplipse, Typo3, Joomla, Firefox, Apache, Ingres, PostgreSQL, MySQL, Palo und nun Talend. Die Liste ist lang, das Angebot an erstklassiger Open Source-Software imB-to-B Bereichwird immer größer.

Talend, ist hierzulande relativ neu, gilt aber weltweit im Bereich der Open Source-Datenintegration bereits als Marktführer. Mit
bereits über 800 zahlenden Kunden weltweit, darunter Sony, Swiss Life, Virgin Mobile und Yahoo! wird das Startup bereits im kommenden Jahr profitabel sein.

Anzeige

Kernprodukt ist die Open Source-Lösung Talend Open Studio, um die sich einzelner Produkte gruppieren. Mit dieser kostenlosen Lösung können Anwender Datenintegration im Kleinen betreiben und die Funktionalität der Software testen. Unternehmen die Service, Support
und größeren Funktionsumfang benötigen, greifen auf die Talend Integration Suite zurück.Mit ihr können Anwender die Kosten von Datenintegration, ETL und Datenqualität drastisch senken. Dass immermehr Anwender davon Gebrauch machen, beweisen die Zahlen eindrucksvoll. Mit über fünf Millionen Downloads für alle Produkte ist Talend die weltweitmeist genutzte und amhäufigsten installierte Datenintegrationslösung.

Das Unternehmen hat Hauptniederlassungen in Nordamerika, Europa und Asien sowie ein internationales Netzwerk von Technologie- und Servicepartnern. Die deutsche Niederlassung befindet sich in Nürnberg.

Hallo Mittelstand!

Viele mittelständische Anwender dürften in Datenqualität und Datenintegration Handlungsbedarf haben. Allein, es fehlte bislang an vernünftigen Angeboten auf demMarkt für diese Zielgruppe. Unter Datenintegration versteht man das Kombinieren und Transformieren von unterschiedlichen Daten innerhalb der gesamten IT-Infrastruktur. Typischerweise bestehen solche Prozesse aus der Extraktion von verschiedensten Datenquellen (Datenbanken, Dateien, Applikationen, Web Services, E-Mails, etc.), der Anwendung von diversen Transformationsregeln (Join, Lookup, Dublettenbereinigung, Berechnungen, etc.) und der endgültigen Überführung in das gewünschte Zielsystem.

Talends Lösungen verbinden alle Quell- und Zielsysteme. Zusätzlich bietet das Unternehmen Datenqualitätslösungen an, um seine Datenintegrationslösungen gerade erweiterte Versionen wie Talend Open Profiler und Talend Data Quality. Unternehmen jeder Größe können mit den Lösungen zuverlässig und schnell unterschiedliche unternehmenskritische Geschäftsdaten systemübergreifend
auswerten und Datenintegrationsprojekte unkompliziert realisieren.

Mit den neuen Versionen können Anwender nun selbst Regeln definieren, nach welchen die Daten überprüft werden, wiederkehrende Muster in Datensätzen identifizieren, inkorrekte Datensätze noch besser erkennen und per Fuzzy-Logic Duplikate aufspüren, auch wenn sie nicht identisch sind. Die neuen Releases von Talend Open Profiler und Talend Data Quality sorgen zudem für eine noch bessere Kontrolle und Konsistenz von Unternehmensdaten. Dabei kosten diese Lösungen nur einen Bruchteil anderer Systeme und sind weit weniger komplex.

Datenprofiling zum Nulltarif

Ein großer Wurf ist dem Unternehmen mit demTalendOpen Profiler gelungen. Es ist der weltweit erste quelloffene Datenprofiler und natürlich kann auch er nach der Open Source-Philosophie kostenlos heruntergeladen werden. Unternehmen können damit in kürzester Zeit die Qualität ihrer Daten kontrollieren. Der Datenprofiler prüft dazu jedes einzelne Element gemäß bestimmter Indikatoren. Die Software ist trotz ihrer Leistungsfähigkeit denkbar einfach zu bedienen, denn sie wurde so programmiert, dass sie auch IT-Laien anwenden können.

Talend Data Quality –korrekte und saubere Daten

Talend Data Quality ist die erste Open Source-basierte Lösung, um Datenprofilierung und Datenpflege in einer einzigen IT-Umgebung durchzuführen. Damit gewinnen Anwender korrekte Daten, können falsche oder beschädigte Daten finden und löschen und Daten
vervielfältigen.

Die Neuerungen im Überblick:

  • 1. Qualitätsregeln selbst bestimmen – Anwender können jetzt ihre eigenen Regeln definieren, nach denen die Qualität der Daten überprüft wird.  Zum Beispiel kann eine Regel formuliert werden, durch die die Validität von Postleitzahlen auf der Grundlage der Landeskennzahlen überprüft wird, die sich in einem anderen Datensatz befinden. Oder es wird definiert, dass die Telefonvorwahlen mit demOrt der Adresse abgeglichen werden sollen.
  • 2.Muster finden – der „Pattern Finder“ erkennt vorherrschende Muster in Datensätzen. Beispielsweise lässt sich dadurch herausfinden, dass ein Kommentarfeld für die Eingabe der Versicherungs- oder Handy-Nummer benutzt wurde.
  • 3. Erweitertes Daten Profiling – hiermit lassen sich Redundanzen aufspüren. Es wird eingesetzt, um Beziehungen zwischen Einheiten festzustellen und Korrelationen zu bestimmen. Es wird auch genutzt, um externe Werte und mögliche inkorrekte Datenpunkte zu identifizieren.
  • 4. Neue Komponenten zur Datenbereinigung – damit werden auf Grundlage der Fuzzy-Logic-Technologie doppelte Daten beseitigt oder zusammengeführt. Beispiel:Obwohl die Städte Marlborough und Marlboro unterschiedlich geschrieben werden, sind die beiden Städtenamen oft austauschbar. Die Fuzzy-Technologie verringert die Sorge, dass diese beiden Städte getrennt klassifiziert werden.


Ganz imSinne der Anwender dürfte das Talend Internet-Portal sein, auf dem jeder Anwender, der für die Qualität und Stimmigkeit von Daten verantwortlich ist, sehr schnell erfährt, wie sich die Qualität seiner Daten nach der Bearbeitung verbessert oder verschlechtert. Er kann jede potenzielle Fehlerquelle erkennen und beseitigen. Das Portal bietet dieMöglichkeit, einen detaillierten Bericht abzurufen, zentrale
Benachrichtigungen besser einzustellen sowie den eigenen Datenbestand besser zu verstehen.

Die Datenmenge, die Unternehmen zu bewältigen haben, steigt kontinuierlich an und auch die Anzahl der zu bewältigenden Plattformen wird nicht weniger werden – im Gegenteil. Früher oder später wird sich daher jedes Unternehmen mit demThema Datenintegration beschäftigen müssen. Durch den Open Source-Ansatz von Talend sind die Einstiegshürden jedoch niedriger als jemals zuvor. Datenintegration ist heute wirklich für jedermann zu kleinen Kosten realisierbar.

Ulrich Parthier

Und hier erfahren Sie mehr über die die 10 wichtigsten Gründe für die Wahl von Open Source-Datenintegration: www.talend.com/itm09

Diesen Artikel finden Sie auch in der Ausgabe Oktober/10 2009 des it management.

Anzeige

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.