tom's networking guide
 
Anzeige
23. 09. 2011
3.5/5
Dr. Götz Güttich
Tom's Networking Guide

Test Talend Data Quality v4

Auf der Suche nach dem verschwundenen Datensatz

Das Schaffen eines hohen Datenqualitäts-Niveaus stellt für praktisch alle Organisationen eine große Herausforderung dar. Üblicherweise kommen die vorhandenen Datenbestände aus verschiedenen Quellen, werden von unterschiedlichen Mitarbeitern gewartet und ändern sich zudem im Lauf der Zeit. In diesen Datenbeständen für Konsistenz und Übersichtlichkeit zu sorgen, ist eine anspruchsvolle Aufgabe. Talend bietet mit Data Quality ein Produkt an, das sich genau mit diesem Themenbereich auseinander setzt. Das Testlabor des IAIT hat die Lösung unter die Lupe genommen.
Talend Data Quality v4
.

Runderneuerte Datenbestände

Kaum ein Unternehmen kommt heute mehr ohne größere Datenbestände aus. Seien es Kundendaten, Mitarbeiterdaten, Bestandsdaten oder vielerlei andere Arten von Informations-Sammlungen. Damit diese Daten ? beispielsweise eine Datenbank mit Kundenadressen ? für ein Unternehmen den bestmöglichen Nutzen bringen, müssen sie den tatsächlichen Gegebenheiten entsprechen. Es sollten keine Doubletten vorhanden sein, die Postleitzahlen müssen stimmen und die Namen der Städte sollten in einer einheitlichen Schreibweise vorliegen, damit Recherchen nach bestimmten Städtenamen schnell und einfach alle dazugehörigen Einträge zu Tage fördern. Bereits ein einfacher Buchstabendreher kann dazu führen, dass wichtige Kunden im Daten-Nirvana verschwinden und nie mehr angeschrieben werden. Datenqualität spielt aber nicht nur bei Kundenbeziehungen eine wichtige Rolle, sondern genauso in anderen Bereichen, wie etwa beim Verwalten des Lagerbestands, bei der Buchhaltung und beim Einkauf.

Wie lässt sich eine hohe Datenqualität in allen Beständen eines Unternehmens sicherstellen? Ein Data-Quality-Tool wie die Lösung von Talend untersucht die vorhandenen Einträge und wandelt sie ? im Bestfall weitgehend automatisch ? in konsistente und vollständige Datensätze um. Das heißt, es entfernt Doubletten, gleicht Postleitzahlen mit Städtenamen ab und sorgt dafür, dass alle Ortsbezeichnungen gleich geschrieben werden. Auf ähnliche Weise bringt es Lagerdaten und Informationen aus anderen Unternehmens-Bereichen auf den letzten Stand. Leistungsfähige Produkte sind sogar dazu in der Lage, auf externe Datenquellen zuzugreifen, wie beispielsweise auf Listen aus Quellen wie http://www.geonames.org, die für alle Postleitzahlen die dazugehörigen Städtenamen und Bundesländer aufführen. Mit ihnen ist es möglich, über alle Datensätze hinweg standardisierte Schreibweisen sicher zu stellen und die Einträge sogar um neue Informationen (wie zum Beispiel das jeweilige Bundesland) zu erweitern, die in der Originaldatenbank überhaupt nicht vorhanden waren.

Talend erweitert die offenen und freien Geonames-Daten (und andere frei verfügbare Quellen) übrigens noch durch Partnerschaften um weitere Faktoren, wie etwa Dienstleistungen zur Adress-Bereinigung von Uniserv. Kunden, die Talend Data Quality einsetzen, müssen demzufolge keine externen Informationen zukaufen, wenn sie ihre Datenbestände optimieren wollen.

Bei Einträgen, deren Format vorgegeben ist, wie beispielsweise E-Mail-Adressen, überprüft ein Data-Quality-Produkt bei Bedarf ebenfalls die Syntax. In vielen Fällen vergleicht das Datenqualitäts-Werkzeug zudem mehrere Einträge aus verschiedenen Quellen und wählt mit Hilfe unterschiedlicher Algorithmen die jeweils besten oder korrektesten Daten aus, um sie anschließend in einheitlicher Form wieder in alle Quellen zurückzuschreiben. Bei Talend Data Quality besteht außerdem die Möglichkeit, Grenzwerte ? so genannte Match Intervals ? zu setzen. Kommt der Vergleichs-Algorithmus beispielsweise zu 95 bis 100 Prozent zu dem Ergebnis, dass zwei Datensätze inhaltlich identisch sind, so kann er automatisch einen davon löschen. Liegt die Wahrscheinlichkeit lediglich bei 80 Prozent, so landen die betroffenen Einträge in einer Jobliste und einer der zuständigen Mitarbeiter muss sich die Informationen ansehen und selbst eine Entscheidung treffen. Auf diese Art und Weise lässt sich vermeiden, dass zu viel manuelle Arbeit anfällt, während gleichzeitig verhindert wird, dass das Data Quality Tool durch irgendwelche Automatismen wichtige Daten vernichtet.

Zum manuellen Nachbearbeiten inkonsistenter Daten stellt Talend die so genannte Data Stewardship Console bereit. Dabei handelt es sich um ein browser-basiertes Werkzeug, das den Anwendern alle Funktionen in die Hand gibt, um aus verschiedenen Informationen, die sich leicht unterscheiden und aus unterschiedlichen Quellen kommen, einen einheitlichen Datensatz zu erzeugen.

In der Praxis arbeitet Talend Data Quality in drei Schritten:

  • Während des "Profilings" ? das dazugehörige Tool, der Talend Open Profiler steht übrigens unter einer Open-Source-Lizenz auf der Website des Herstellers bereit ? lassen sich die in den Daten vorhandenen Probleme analysieren und Pläne zur Datenverbesserung aufstellen.
  • Beim "Matching" entfernt das System Duplikate und
  • bei der "Record Consolidation" führt es Informationen aus verschiedenen Quellen zu einem standardisierten, einheitlichen Eintrag zusammen. Mit Talend Data Quality lassen sich übrigens nicht nur die im Unternehmen vorhandenen Daten säubern und auf den aktuellen Stand bringen, sondern es ist ebenso möglich, von außen gelieferte Daten ? die möglicherweise in regelmäßigen Intervallen von einem Geschäftspartner kommen ? automatisiert zu prüfen und so sicherzustellen, dass sie erst dann in der Datenbank landen, wenn sie den Kriterien der jeweiligen Organisation entsprechen.

Leserkommentar

Keine Kommentare

Kommentar hinzufügen

* - Pflichtfeld

*





*
*
Rubriken
Anzeige
Anzeige
Anzeige
Anzeige
Mehr zum Thema
Test Datacore SANsymphony V R8
Mit SANsymphony-V bietet Datacore eine leistungsfähige Software-Plattform zum Bereitstellen, Teilen, Migrieren, Replizieren, Erweitern, Konfigurieren und Upgraden von Speicher ohne Verzögerungen und Downtime. IAIT hat sich angesehen, was die aktuelle Vers [mehr]
Test Entuity Eye of the Storm 2011 Enterprise
Je umfangreicher die Netzwerke, desto schneller verlieren Administratoren ohne geeignete Tools den Überblick. Entuity Eye oft he Storm 2011 bietet verschiedene Methoden an, mit denen die bestehende Infrastruktur zumindest teil-automatisch erfasst werden k [mehr]
Test Kroll Ontrack PowerControls 6.0
Exchange- und Sharepoint-Server sind längst in vielen Unternehmen unverzichtbarer Bestandteil der Unternehmens-Infrastruktur. Die unabdingbaren Backup-Szenarien werden dabei aber oft vernachlässigt. Hauptsache es gibt ein Backup, wie erfolgreich sich Date [mehr]
Workshop Medienspeicherung und Verteilung
Eigene Videos, Digitalfotos und MP3-Song immer und überall hören und sehen, ohne langes Suchen durch zentrale Medienspeicherung und Medienabruf vom PC, TV-Gerät und Handy aus. [mehr]
Test CA ARCserv Backup r12
Die jüngste Version der Backup-Software für Unternehmen weist im Management- und Sicherheitsbereich viele neue Funktionen auf. Was das Produkt in der Praxis leistet, hat sich IAIT angesehen. [mehr]
High-Speed-PLC-Modems der 200-mbps-Klasse
Powerline-Modems der jüngsten Generation versprechen Triple-Play-taugliche Heimvernetzung ohne neue Kabel ? die Hausstromleitung genügt. Wir haben getestet, wie viele der versprochenen 200 MBit/s in der Realität durch Stromnetz flitzen und ob Video- und [mehr]
Anzeige