tom's networking guide
 
Anzeige

Test Talend Data Quality v4

Auf der Suche nach dem verschwundenen Datensatz

Das Matching

Wenn das Profiling abgeschlossen wurde, kann es daran gehen, das Matching durchzuführen, um doppelte Einträge aus den Datenbanken zu entfernen. Dazu stellt der Data Profiler den Befehl "Remove Duplicats" zur Verfügung, der automatisch einen Reinigungsjob für die gefundenen doppelten Einträge generiert. Im Test entfernten wir auf diese Weise schnell und einfach sämtliche Doubletten aus unserer Datenbank. Wie in der Einleitung bereits angesprochen, ist es aber sinnvoll, beim Erkennen der Doubletten über die Score-Funktion gewisse Grenzwerte zu setzen und inkonsistente Daten in der Data Stewardship Console manuell zu überprüfen, damit keine wichtigen Einträge verloren gehen.

Über die Matching-Funktion lässt sich sogar verhindern, dass überhaupt Doubletten entstehen. So ist es beispielsweise denkbar, einen Task zu erstellen, der eingehende neue Adressdaten mit einer Referenztabelle vergleicht und die neuen Informationen nur dann in die Datenbank einträgt, wenn sie dort noch nicht vorhanden sind. Verschiedene Matching-Algorithmen sorgen in diesem Zusammenhang beispielsweise für das automatische Erkennen von Buchstabendrehern und ähnlichem.

Der Data Profiler stellt die Analyse-Ergebnisse zusätzlich in grafischer Form zur Verfügung. (©Smartmedia PresSservice)

Record Consolidation

Mit ähnlichen Methoden wie beim Matching lassen sich automatisch Daten aus verschiedenen Quellen zusammenführen, um einheitliche und vollständige Datensätze zu erhalten. Zusätzlich stehen Alias-Tabellen zur Fehlerkorrektur zur Verfügung, etwa um das Format einer Bestellnummer zu vereinheitlichen (12-345 statt 12345). Dank dieser Funktionen sind viele Arbeitsschritte automatisierbar und Grenzwerte helfen wiederum dabei, unklare Datensätze auszufiltern und an die Data Stewardship Console zur Weiterverarbeitung zu übergeben. Im Test verhielten sich die Jobs wie erwartet und lösten die offensichtlichen Unklarheiten automatisch auf, während sie zweifelhafte Fälle der Console überließen. Es ist in der Praxis aber sinnvoll, vor der Arbeit mit echten Daten erst einmal ein paar Probeläufe in einer Testumgebung durchzuführen, um die Grenzwerte optimal festzulegen. Sonst zerstört das System möglicherweise einige Datensätze oder es bleibt zu viel Handarbeit liegen.

Zum Vergleichen von Einträgen stehen verschiedene Matching-Algorithmen zur Verfügung, wie "genaue Übereinstimmung" und "Levenshtein". (©Smartmedia PresSservice)

Leserkommentar

Keine Kommentare

Kommentar hinzufügen

* - Pflichtfeld

*





*
*
Rubriken
Anzeige
Anzeige
Anzeige
Anzeige
Mehr zum Thema
Test Datacore SANsymphony V R8
Mit SANsymphony-V bietet Datacore eine leistungsfähige Software-Plattform zum Bereitstellen, Teilen, Migrieren, Replizieren, Erweitern, Konfigurieren und Upgraden von Speicher ohne Verzögerungen und Downtime. IAIT hat sich angesehen, was die aktuelle Vers [mehr]
Test Entuity Eye of the Storm 2011 Enterprise
Je umfangreicher die Netzwerke, desto schneller verlieren Administratoren ohne geeignete Tools den Überblick. Entuity Eye oft he Storm 2011 bietet verschiedene Methoden an, mit denen die bestehende Infrastruktur zumindest teil-automatisch erfasst werden k [mehr]
Test Kroll Ontrack PowerControls 6.0
Exchange- und Sharepoint-Server sind längst in vielen Unternehmen unverzichtbarer Bestandteil der Unternehmens-Infrastruktur. Die unabdingbaren Backup-Szenarien werden dabei aber oft vernachlässigt. Hauptsache es gibt ein Backup, wie erfolgreich sich Date [mehr]
Workshop Medienspeicherung und Verteilung
Eigene Videos, Digitalfotos und MP3-Song immer und überall hören und sehen, ohne langes Suchen durch zentrale Medienspeicherung und Medienabruf vom PC, TV-Gerät und Handy aus. [mehr]
Test CA ARCserv Backup r12
Die jüngste Version der Backup-Software für Unternehmen weist im Management- und Sicherheitsbereich viele neue Funktionen auf. Was das Produkt in der Praxis leistet, hat sich IAIT angesehen. [mehr]
High-Speed-PLC-Modems der 200-mbps-Klasse
Powerline-Modems der jüngsten Generation versprechen Triple-Play-taugliche Heimvernetzung ohne neue Kabel ? die Hausstromleitung genügt. Wir haben getestet, wie viele der versprochenen 200 MBit/s in der Realität durch Stromnetz flitzen und ob Video- und [mehr]
Anzeige