tom's networking guide
 
Anzeige

Test Talend Data Quality v4

Auf der Suche nach dem verschwundenen Datensatz

Die Data Stewardship Console

Kommt die Datenqualitätslösung bei ihren Analysen zu keinen klaren Ergebnissen, so sollten die zuständigen Mitarbeiter die übrig gebliebenen unklaren Einträge wie bereits angesprochen manuell prüfen, vervollständigen und in die Datenbank zurückschreiben. Um diesen Schritt auf einfache Weise von einem beliebigen Ort aus durchführen zu können, steht die zuvor genannte Data Stewardship Console zur Verfügung. In unserem Test hatten wir zu diesem Zeitpunkt bereits mit den eben beschriebenen Methoden diverse Datenanalysen abgeschlossen, bei denen etliche Datensätze angefallen waren, die das System bei unseren Voreinstellungen nicht von selbst bereinigen konnte.

Folglich loggten wir uns nun mit unserem Webbrowser über die URL

http://{IP-Adresse des Servers}:8080/org.talend.datastewardship/login.jsp

bei der Data Stewardship Console ein. Danach fanden wir uns in einem Verwaltungstool wieder, das am oberen Rand über eine Menüzeile und auf der linken Seite über eine Baumstruktur verfügte. Die Menüzeile umfasste eine Suchfunktion und die Möglichkeit, die Sprache des Interfaces umzustellen (Englisch oder Französisch, Übersetzungen in viele andere Sprachen sind ebenfalls verfügbar, diese erstellt Talend in Zusammenarbeit mit der Community). Die Baumstruktur enthielt die offenen Aufgaben. An erster Stelle ist hier zunächst einmal der Knoten "Common" erwähnenswert, denn er liefert den zuständigen Mitarbeitern unter "New Tasks" eine Liste, die alle ungelösten Aufgaben enthält, die in der Datenbank vorhanden sind. In dieser Liste lassen sich einzelne Tasks aufrufen und abarbeiten. Neben dem Namen der Aufgabe besteht die Auflistung noch aus dem Status (New, etc.), dem Typ (Resolution und ähnliches), dem Urheber (also dem Data Quality Job, der den Task erzeugt hat), dem Datum und dem Job, der an dem Task Änderungen vorgenommen hat sowie dem Zeitpunkt dieser Modifikationen. Es ist sogar möglich, den Task ? ähnlich wie einzelne Songs in einer Musiksammlung ? mit einer Sternchenskala mit insgesamt fünf Sternchen zu bewerten und so Prioritäten festzulegen.

Die Data Stewardship Console zeigt in übersichtlicher Form an, welche Tasks welche Prioritäten und welchen Status haben. (©Smartmedia PresSservice)

Ruft der Anwender eine Aufgabe auf, so erhält er eine Tabelle mit den Namen der vorhandenen Einträge und den unterschiedlichen Werten, die ihnen aus den verschiedenen Quellen zugewiesen wurden, also beispielsweise "Name", "Adresse" und "Stadt" und dann jeweils dahinter in Spaltenform die Einträge, die in den verschiedenen Datenbanken für diese Felder existieren. Für Stadt kann das zum Beispiel in Datenbank 1 "St. Anton" sein, in Datenbank 2 "St Anton" und in Datenbank 3 "Sankt Anton". In diesen tabellarischen Auflistungen lassen sich gleiche Werte automatisch unterstreichen, was eine große Hilfe bei der Auswahl der richtigen Einträge bedeutet. Der Benutzer ist nun dazu in der Lage, aus den verschiedenen Spalten für jede Zeile den besten Wert zu selektieren und so einen einheitlichen Datensatz zusammen zu stellen, der die besten Daten sämtlicher Quellen vereint. Das Interface wurde übersichtlich gestaltet und ist praktisch selbsterklärend, so dass kein Anwender hier Probleme bekommen dürfte. Bei Bedarf lassen sich den einzelnen Feldern erklärende Texte hinzufügen, die das System anzeigt, wenn der Mauszeiger über einem dazugehörigen Eintrag stehen bleibt.

Genau wie für die "New Tasks" finden sich unterhalb von "Common" noch Listen zu "Resolved Tasks" und "All Tasks". Dazu kommt noch die genannte Sternchen-Wertung, die die Aufgaben unter "Starred" nach ihrer Wichtigkeit anzeigt.

Der nächste Knoten nennt sich "Types" und sortiert die Aufgaben nach ihrer Beschaffenheit. So gibt es Resolution Tasks, wie den eben beschriebenen, der die Aufgabe hat, Wiedersprüche in Datensätzen aufzulösen und Data Tasks, die zum Bearbeiten von Daten dienen, beispielsweise wenn es darum geht, SAP-Informationen für den Einsatz in einem Webshop um zusätzliche Felder ? wie etwa die Lieferzeit ? zu erweitern.

Die letzten beiden Punkte der Data Stewardship Console umfassen Tags, mit deren Hilfe die Anwender die Tasks nach eigenen Kriterien sortieren können, zum Beispiel nach Datenquellen oder nach thematischen Unterschieden (um die Übersichtlichkeit zu erhöhen). Dazu kommt die Administration, über die die zuständigen Mitarbeiter unter anderem dazu in der Lage sind, bestimmte Jobs bestimmten Personen zuzuweisen.

Hier ein Task mit Daten aus drei unterschiedlichen Quellen. Unterstrichene Einträge sind identisch. Die Anwender klicken einfach auf die Informationen, die sie als korrekt einstufen, um auf der linken Seite einen konsistenten Datensatz zu erzeugen. (©Smartmedia PresSservice)

Leserkommentar

Keine Kommentare

Kommentar hinzufügen

* - Pflichtfeld

*





*
*
Rubriken
Anzeige
Anzeige
Anzeige
Anzeige
Mehr zum Thema
Test Datacore SANsymphony V R8
Mit SANsymphony-V bietet Datacore eine leistungsfähige Software-Plattform zum Bereitstellen, Teilen, Migrieren, Replizieren, Erweitern, Konfigurieren und Upgraden von Speicher ohne Verzögerungen und Downtime. IAIT hat sich angesehen, was die aktuelle Vers [mehr]
Test Entuity Eye of the Storm 2011 Enterprise
Je umfangreicher die Netzwerke, desto schneller verlieren Administratoren ohne geeignete Tools den Überblick. Entuity Eye oft he Storm 2011 bietet verschiedene Methoden an, mit denen die bestehende Infrastruktur zumindest teil-automatisch erfasst werden k [mehr]
Test Kroll Ontrack PowerControls 6.0
Exchange- und Sharepoint-Server sind längst in vielen Unternehmen unverzichtbarer Bestandteil der Unternehmens-Infrastruktur. Die unabdingbaren Backup-Szenarien werden dabei aber oft vernachlässigt. Hauptsache es gibt ein Backup, wie erfolgreich sich Date [mehr]
Workshop Medienspeicherung und Verteilung
Eigene Videos, Digitalfotos und MP3-Song immer und überall hören und sehen, ohne langes Suchen durch zentrale Medienspeicherung und Medienabruf vom PC, TV-Gerät und Handy aus. [mehr]
Test CA ARCserv Backup r12
Die jüngste Version der Backup-Software für Unternehmen weist im Management- und Sicherheitsbereich viele neue Funktionen auf. Was das Produkt in der Praxis leistet, hat sich IAIT angesehen. [mehr]
High-Speed-PLC-Modems der 200-mbps-Klasse
Powerline-Modems der jüngsten Generation versprechen Triple-Play-taugliche Heimvernetzung ohne neue Kabel ? die Hausstromleitung genügt. Wir haben getestet, wie viele der versprochenen 200 MBit/s in der Realität durch Stromnetz flitzen und ob Video- und [mehr]
Anzeige