tom's networking guide
 
Anzeige

Test Talend Data Quality v4

Auf der Suche nach dem verschwundenen Datensatz

Talend Data Quality

Wenden wir uns nun dem Data Quality Werkzeug und der Data Stewardship Console zu, um einen Eindruck über die Leistungsfähigkeit dieser Komponenten zu erhalten. Bei Talend Data Quality handelt es sich um eine Software, die zum Einsatz kommt, um die Data Quality Jobs zu entwickeln und ablaufen zu lassen. Dazu setzt das Tool auf eine Eclipse-Oberfläche auf, so dass Anwender, die bereits mit der Eclipse-Entwicklungsumgebung gearbeitet haben, keine Probleme dabei haben werden, mit dem Data-Quality-Werkzeugklar zu kommen.

Wie die meisten modernen Software-Produkte verwendet das Data-Quality-Tool eine Menüzeile am oberen Fensterrand, über die sich wesentliche Arbeiten, wie der Import und der Export von Projekten oder das Gestalten der Ansicht durchführen lassen. Darunter befindet sich eine Icon-Leiste, über die die Benutzer direkt auf die wichtigsten Befehle wie "Export", "Create Job" und ähnliches zugreifen. Das Tool lässt sich in zwei verschiedenen Modi betreiben, zunächst als "Design Workspace" und außerdem als "Data Profiler".

Mit Hilfe der Pattern lassen sich Standards definieren, wie hier für das Datumsformat. (©Smartmedia PresSservice)

Der Design Workspace

Setzen wir uns zuerst mit dem Design Workspace auseinander, also dem Modus zum Entwickeln von Jobs. In diesem Modus offeriert das Tool auf der linken Seite des Fensters ein Repository, das alle für die Arbeit mit der Lösung relevanten Komponenten umfasst. Hier sind zunächst einmal die Jobs selbst zu nennen. Talend Data Quality hält sämtliche Jobs in einer Baumstruktur vor, so dass gleich erkennbar ist, welche Aufgaben womit zusammenhängen. In der Mitte des Fensters befindet sich der Job Designer, also die eigentliche Entwicklungsumgebung. Um das Erstellen von Jobs einfach zu machen, hat Talend an dieser Stelle ein grafisches Entwicklungswerkzeug implementiert, das mit Icons arbeitet. In einer Art Werkzeugkasten namens "Palette" auf der rechten Seite stehen eine Vielzahl unterschiedlicher Icons zur Verfügung, die bestimmte Funktionen repräsentieren. Dabei kann es sich um lokale Datenbanken oder bestimmte Systemkomponenten sowie Funktionen beziehungsweise Dateien handeln. Die Jobs werden von den Anwendern aus diesen Icons erzeugt und die zwischen den Icons angelegten Verbindungen repräsentieren dann den Weg, den die Daten nehmen, wenn der Job läuft.

Um beispielsweise Daten aus einem Excel-Sheet in eine MySQL-Datenbank zu übernehmen (wie wir es an dieser Stelle mit unserer eigenen Datenbank getan haben), zogen wir zunächst aus der Palette das vorgefertigte Icon, das Excel-Sheets repräsentiert, in den Arbeitsbereich der Entwicklungsumgebung. Danach teilten wir dem Icon unter "Eigenschaften" über Pfad und Dateiname mit, um welche Excel-Datei es sich handeln sollte.

Im nächsten Schritt zogen wir das Icon für MySQL-Datenbanken aus der Palette auf die Arbeitsfläche und definierten ? ebenfalls unter "Properties" -, welche Datenbank auf welchem Server wir als Ziel des Datenimports verwenden wollten (hier unsere lokale MySQL-Datenbank). Zum Schluss generierten wir eine Linie zwischen den beiden Icons, die den Datenfluss wiederspiegelte. Die Eigenschaften dieser Linie ließen sich dann nutzen, um festzulegen, welche Felder der Excel-Tabelle in welche Spalten der Datenbank importiert werden, so dass Einträge wie Straße, Name und ähnliches am richtigen Zielort ankommen. Als wir danach auf den Ausführen-Button klickten, erzeugte Talend Data Quality den für den Importvorgang erforderlichen Code automatisch und führte den Datenimport durch. Alle Informationen lassen sich im Betrieb übrigens jederzeit mit dem so genannten Data Viewer anzeigen und so verifizieren.

Das Erstellen von Jobs läuft sehr einfach ab und dank der großen Zahl der vom Hersteller mitgelieferten Icons lassen sich mit diesem Ansatz selbst komplexe Aufgaben wie das Vergleichen bestimmter Felder, das Aussortieren von Doubletten oder das Bilden von Datenblöcken realisieren. Datenblöcke sind beispielsweise in Umgebungen mit großen Datenbanken sinnvoll. Sie helfen dabei Ressourcen zu sparen, indem sie bei Vergleichsvorgängen Blöcke bilden, innerhalb derer das System die Datensätze miteinander vergleicht. Wenn es keine Blöcke gibt, so muss die Data-Quality-Lösung jeden vorhandenen Datensatz jedem anderen Eintrag in der Datenbank gegenüberstellen, was zu einer hohen Kapazitätsauslastung führen kann. Deswegen kann es sinnvoll sein, die Vergleichsvorgänge auf bestimmte Datenblöcke ? wie etwa Adressdaten aus einem Land oder Personendaten aus einem Unternehmen ? zu beschränken.

Die Icons, die die Matching-Funktionen bereitstellen, bieten den Anwendern eine große Zahl unterschiedlicher Vergleichsalgorithmen. Dazu gehören "genaue Übereinstimmung", "genaue Übereinstimmung ohne Berücksichtigung von Groß- und Kleinschreibung", "Soundex", "Soundex FR", "Jaro", "Jaro-Winkler", "Metaphone", "Double Metaphone", "Levenshtein" und "q-grams". Diese sind jeweils über den Menüpunkt "Einstellungen" selektierbar.

Um beim Erstellen von Jobs für eine bestmögliche Übersichtlichkeit zu sorgen, wurde die Palette übrigens in verschiedene Rubriken unterteilt, die die jeweils dazugehörigen Icons umfassen. Dabei handelt es sich um "Dateien", "Datenbanken", "Eigener Code", "Internet", "System" und ähnliches. Die Rubrik "Eigner Code" kommt zum Einsatz, um eigene Funktionen zu erzeugen, wenn die genannten Icons für irgendwelche Aufgabenstellungen nicht ausreichen.

Im Test fanden wir den Icon-basierten Ansatz zum Generieren von Jobs sehr überzeugend. In den meisten Fällen werden wohl Mitarbeiter, die von Software-Entwicklung keine Ahnung haben, ebenfalls dazu in der Lage sein, mit Hilfe von Talend Data Quality die Tasks anzulegen, die sie für ihre Arbeit brauchen.

Am unteren Rand des Arbeitsbereichs befinden sich diverse Reiter, die Jobinformationen wie Version, Logdateien und ähnliches sowie Kontexte wie Variablen und Werte umfassen. Dazu kommen außerdem noch Subjobs, der bereits erwähnte Reiter zum Starten der Tasks (mit Debugläufen), ein Bereich mit Fehlern, Warnungen und Informationen, ein Scheduler sowie ein Reiter, der sich mit Modulen befasst. Über den letzten Eintrag "Job Hierarchie" lassen sich Child-Prozesse erkennen, hier ist es also möglich, zu sehen, wo sich der aktuelle Job in Bezug auf den gesamten Arbeitsablauf befindet.

Abgesehen von den Job Designs umfasst das Repository noch weitere Einträge wie Code Routinen, SQL Templates, Metadaten (wie SAP-Verbindungen, LDAP, Excel-Files, etc.) und die generierte Dokumentation. Darunter finden sich dann die Gliederung des jeweiligen Jobs und ein Code Viewer.

Zusätzlich zum Repository bietet Talend Data Quality den Benutzern einen so genannten Navigator. Dieser ermöglicht es ihnen, direkt auf Projektkomponenten wie Code, Dokumentation und Libraries zuzugreifen.

Leserkommentar

Keine Kommentare

Kommentar hinzufügen

* - Pflichtfeld

*





*
*
Rubriken
Anzeige
Anzeige
Anzeige
Anzeige
Mehr zum Thema
Test Datacore SANsymphony V R8
Mit SANsymphony-V bietet Datacore eine leistungsfähige Software-Plattform zum Bereitstellen, Teilen, Migrieren, Replizieren, Erweitern, Konfigurieren und Upgraden von Speicher ohne Verzögerungen und Downtime. IAIT hat sich angesehen, was die aktuelle Vers [mehr]
Test Entuity Eye of the Storm 2011 Enterprise
Je umfangreicher die Netzwerke, desto schneller verlieren Administratoren ohne geeignete Tools den Überblick. Entuity Eye oft he Storm 2011 bietet verschiedene Methoden an, mit denen die bestehende Infrastruktur zumindest teil-automatisch erfasst werden k [mehr]
Test Kroll Ontrack PowerControls 6.0
Exchange- und Sharepoint-Server sind längst in vielen Unternehmen unverzichtbarer Bestandteil der Unternehmens-Infrastruktur. Die unabdingbaren Backup-Szenarien werden dabei aber oft vernachlässigt. Hauptsache es gibt ein Backup, wie erfolgreich sich Date [mehr]
Workshop Medienspeicherung und Verteilung
Eigene Videos, Digitalfotos und MP3-Song immer und überall hören und sehen, ohne langes Suchen durch zentrale Medienspeicherung und Medienabruf vom PC, TV-Gerät und Handy aus. [mehr]
Test CA ARCserv Backup r12
Die jüngste Version der Backup-Software für Unternehmen weist im Management- und Sicherheitsbereich viele neue Funktionen auf. Was das Produkt in der Praxis leistet, hat sich IAIT angesehen. [mehr]
High-Speed-PLC-Modems der 200-mbps-Klasse
Powerline-Modems der jüngsten Generation versprechen Triple-Play-taugliche Heimvernetzung ohne neue Kabel ? die Hausstromleitung genügt. Wir haben getestet, wie viele der versprochenen 200 MBit/s in der Realität durch Stromnetz flitzen und ob Video- und [mehr]
Anzeige