tom's networking guide
 
Anzeige

Test Talend Data Quality v4

Auf der Suche nach dem verschwundenen Datensatz

Der Test

Für unseren Test haben wir uns sowohl die Enterprise Edition von Talend Data Quality als auch die Data Stewardship Console genau angesehen. Dazu arbeiteten wir zunächst mit Testdaten, die uns von Talend zur Verfügung gestellt wurden und integrierten dann unsere eigenen Informationen in das System. Anschließend durchliefen wir mit diesen Daten die zuvor genannten Schritte des Profilings, des Matchings und der Record Consolidation.

Die Installation der Data-Quality-Lösung läuft verhältnismäßig einfach ab. Wir setzten in unserer Testumgebung zunächst einen MySQL-Server auf, der die zu bearbeitenden Daten aufnehmen sollte. Dieser Arbeitsschritt wird im Unternehmensumfeld nicht erforderlich sein, da in Umgebungen, in denen Talend Data Quality zum Einsatz kommt, üblicherweise bereits eine oder mehrere Datenbanken mit Informationen vorhanden sind, die sich in Zusammenhang mit der Datenqualitätslösung nutzen lassen - diese arbeitet schließlich mit jeder SQL-Database zusammen.

Der Testaufbau

Bei unserem Testsystem handelte es sich um einen Windows Server 2008 R2, der in einer virtuellen Machine auf Vmware-Basis lief, die mit acht GByte RAM und zwei CPU-Kernen ausgestattet war. Der Hersteller empfiehlt für die Data-Quality-Lösung ? je nach Anwendungsbereich - Computer mit vier bis acht GByte Arbeitsspeicher. Auf dem Testrechner hatten wir vorab den Java Development Kit in der Version 6 Update 24 installiert und die "JAVA_HOME"-Systemvariable definiert, damit die Software unsere Java-Installation finden konnte.

Nachdem MySQL 5.5.9 in Betrieb war und wir die erste ? zu diesem Zeitpunkt noch leere ? Datenbank angelegt hatten, entpackten wir zunächst die Zip-Datei mit der Enterprise Edition von Talend Data Quality 4.1.2 in den Ordner c:\Talend. Danach installierten wir die Data Stewardship Console, die in Form einer JAR-Datei ausgeliefert wurde, mit dem dazugehörigen Java-basierten Installer in unser "Programme"-Verzeichnis. Da die Stewardship Console bereits ihre eigene Tomcat-Version mitbringt, ist an dieser Stelle nichts weiter zu tun, um das Browser-basierte Werkzeug einzurichten.

Im nächsten Schritt starteten wir Tomcat (und die Data Stewardship Console) mit Hilfe des Befehls "start.bat" im bin-Directoy unterhalb des Tomcat-Verzeichnisses. Danach riefen wir Talend Data Quality auf ? die Lösung, die wir zuvor in den Ordner "c:\Talend" entpackt hatten ? und legten ein erstes Projekt an. Dazu mussten wir erst einmal ein Repository generieren (mit dem Workspace, unserer E-Mail-Adresse und ähnlichem) und anschließend unsere Lizenz eingeben. Um die Projekt-Erstellung zu vereinfachen, importierten wir an dieser Stelle anschließend einfach das Demoprojekt, das Talend für neue User mitliefert, die sich mit der Software vertraut machen möchten. Sobald unser neues Projekt geöffnet war, stellten wir zunächst eine Verbindung zur Datenbank für die Data Stewardship Console her.

Die Joberstellung läuft in Talend Data Quality einfach über Icons ab. (©Smartmedia PresSservice)

Nun ging es daran, Talend Data Quality mit den Demodaten zu füllen, die Talend uns für den ersten Teil unseres Tests zur Verfügung gestellt hatte. Diese Aufgabe wird durch ein paar vordefinierte Jobs erledigt, die Talend ebenfalls in unser Testpaket integriert hatte. Um diese Jobs auszuführen, importierten wir die Job-Daten mit Hilfe des Befehls "Datei / Importieren" in unser Projekt. Danach wechselten wir innerhalb der Software nach "Repository / Job Designs" und führten die eben erwähnten Jobs nacheinander aus. Die Jobs integrierten die Testdaten in die Datenbank und führten bereits eine erste Analyse aus, die ähnliche Datensätze aus verschiedenen Quellen in die Datenbank der Data Stewardship Console verschob, damit sie dort manuell untersucht werden konnten. Als diese Schritte erledigt waren, hatten wir ein System zur Verfügung, das in etwa so aussah, wie eine Installation in einem Unternehmen, das bereits damit begonnen hatte, die Qualität der ersten Datensätze unter die Lupe zu nehmen. Auf die Schritte, die nötig sind, um Datensätze neu in die Data-Quality-Lösung zu integrieren, gehen wir später im Rahmen des Imports unserer eigenen Datenbank noch genauer ein.

Leserkommentar

Keine Kommentare

Kommentar hinzufügen

* - Pflichtfeld

*





*
*
Rubriken
Anzeige
Anzeige
Anzeige
Anzeige
Mehr zum Thema
Test Datacore SANsymphony V R8
Mit SANsymphony-V bietet Datacore eine leistungsfähige Software-Plattform zum Bereitstellen, Teilen, Migrieren, Replizieren, Erweitern, Konfigurieren und Upgraden von Speicher ohne Verzögerungen und Downtime. IAIT hat sich angesehen, was die aktuelle Vers [mehr]
Test Entuity Eye of the Storm 2011 Enterprise
Je umfangreicher die Netzwerke, desto schneller verlieren Administratoren ohne geeignete Tools den Überblick. Entuity Eye oft he Storm 2011 bietet verschiedene Methoden an, mit denen die bestehende Infrastruktur zumindest teil-automatisch erfasst werden k [mehr]
Test Kroll Ontrack PowerControls 6.0
Exchange- und Sharepoint-Server sind längst in vielen Unternehmen unverzichtbarer Bestandteil der Unternehmens-Infrastruktur. Die unabdingbaren Backup-Szenarien werden dabei aber oft vernachlässigt. Hauptsache es gibt ein Backup, wie erfolgreich sich Date [mehr]
Workshop Medienspeicherung und Verteilung
Eigene Videos, Digitalfotos und MP3-Song immer und überall hören und sehen, ohne langes Suchen durch zentrale Medienspeicherung und Medienabruf vom PC, TV-Gerät und Handy aus. [mehr]
Test CA ARCserv Backup r12
Die jüngste Version der Backup-Software für Unternehmen weist im Management- und Sicherheitsbereich viele neue Funktionen auf. Was das Produkt in der Praxis leistet, hat sich IAIT angesehen. [mehr]
High-Speed-PLC-Modems der 200-mbps-Klasse
Powerline-Modems der jüngsten Generation versprechen Triple-Play-taugliche Heimvernetzung ohne neue Kabel ? die Hausstromleitung genügt. Wir haben getestet, wie viele der versprochenen 200 MBit/s in der Realität durch Stromnetz flitzen und ob Video- und [mehr]
Anzeige