tom's networking guide
 
Anzeige

Test IAIT Talend Enterprise Data Integration Big Data Edition

Datenverarbeitung im ganz großen Stil

Funktionsweise

Talend Enterprise Data Integration arbeitet als Code Generator. Die Anwender müssen für den Einsatz der Lösung lediglich eine Datenquelle definieren, beispielsweise eine CSV-Datei oder eine Datenbank, und angeben, wie das Produkt mit den Daten umzugehen hat. Im Fall einer CSV-Datei lassen sich hier unter anderem die Kodierung, der Field-Separator und ähnliches festlegen, die verfügbaren Optionen sind aber natürlich bei jeder Quelle unterschiedlich. Sobald die Datenquelle existiert, können die Benutzer sie als Icon im Arbeitsbereich platzieren.

Anschließend ist es möglich, die durchzuführenden Arbeitsschritte zu definieren. Hier steht den Usern eine Vielzahl unterschiedlicher Optionen zur Verfügung. Zum Beispiel haben sie die Möglichkeit, Daten zu filtern, zu sortieren, zu ersetzen, umzuwandeln, zu splitten, zusammenzuführen und zu konvertieren. Darüber hinaus lassen sich die Daten auch über eine Map-Funktion transformieren, also nur bestimmte Datenfelder auswählen, die Datenfelder anders anordnen, zusätzliche Daten - wie eine Nummerierung - automatisch hinzufügen und vieles mehr. Für diese ganzen Umwandlungs-Features stehen wieder Icons bereit, die lediglich in den Arbeitsbereich gezogen werden müssen, Dort geschieht dann die Detail-Konfiguration für den jeweiligen Einsatzfall.

Sobald die Datenquelle definiert wurde und fest steht, in welcher Form das Werkzeug die Informationen verarbeiten soll, geht es an die Definition des Exports. Dafür bietet Talend Konnektoren an, die den Kontakt zu den unterstützten Zielsystemen, wie Informix oder Hadoop, herstellen. Die Konnektoren visualisiert die Data Integration-Lösung ebenfalls durch Icons, die nach einem Drag-&-Drop in den Arbeitsbereich zur Verfügung stehen und sich dort auch konfigurieren lassen. Die Konfigurationsoptionen hängen hier wieder vom Ausgabetyp ab. Soll die Ausgabe in ein Excel-Sheet erfolgen, reicht beispielsweise die Angabe des Zielspeicherorts.

Der Datenfluss zwischen den einzelnen Icons wird durch Linien repräsentiert, die Sie in den meisten Fällen einfach mit der Maus ziehen können. In einzelnen Fällen müssen Sie zuvor den Verbindungstyp in einem Menü auszuwählen. Wenn all diese Schritte erledigt wurden, können Sie den Job starten. Daraufhin erzeugt das Data Integration-Tool den zum Ausführen der Aufgabe erforderlichen Code, startet ihn und führt die Datenumwandlung durch.

Der generierte Code kann Java oder SQL sein und für Hadoop zusätzlich noch Map Reduce, Pig Latin, HiveQL und mehr, je nach genutzter Technologie.

Dank des Ansatzes, die einzelnen Arbeitsschritte durch Icons zu symbolisieren, denen die Anwender nur die Rahmenbedingungen mitteilen müssen, und den Code dann automatisch zu erzeugen, haben auch Mitarbeiter ohne Programmierkenntnisse die Chance, komplexe Datenverarbeitungsschritte durchzuführen, die viel Code benötigen.

Der eben skizzierte Job war nur ein sehr einfaches Beispiel. Das Produkt kann aber viel komplexere Aufgaben durchzuführen, wie beispielsweise den Import von Daten mit anschließendem Mapping bestimmter Felder, Umwandeln einiger Datentypen und dem Sortieren der überarbeiteten Ausgabe vor dem Export.

Legt ein User eine CSV-Datei als Datenquelle an, so hat er die Möglichkeit, eine große Zahl unterschiedlicher Parameter festzulegen. (©Smartmedia PresSservice)

Versionen

Die Data Integration von Talend gibt es in mehreren unterschiedlichen Versionen. Zunächst einmal die Open Source-Versionen "Talend Open Studio for Data Integration" und "Talend Open Studio for Big Data". Diese finden Sie auf der Webseite des Herstellers zum freien Download und können Sie beliebig nutzen. Dazu kommen die kostenpflichtigen Produkte der Talend Enterprise Data Integration in den Editionen "Team", "Professional", "Cluster" und "Big Data". Diese unterscheiden sich von den Open Source-Varianten vor allem durch eine größere Zahl an Support-Optionen (unter anderem mit SLAs) und durch zusätzliche Funktionen wie Shared Repositories, Assistenten, Shared Jobs, Version Control, Referenzprojekte und vieles mehr. Die kostenpflichtigen Versionen ihrerseits unterscheiden sich untereinander wieder durch das unterstützte Feature-Set, zum Beispiel den Support von Lastverteilung, Hochverfügbarkeit und eben Hadoop. Talend gehört übrigens zu den ersten Anbietern, die Hadoop überhaupt unterstützen.

Auf der Website des Herstellers finden Sie eine übersichtlich Auflistung der verfügbaren Software-Varianten mit ihren jeweiligen Funktionen. Im Test kam bei uns die Big Data-Version der kostenpflichtigen Talend Enterprise Data Integration zum Einsatz. Es sei aber an dieser Stelle darauf hingewiesen, dass die Open Source-Versionen bereits einen relativ großen Funktionsumfang haben, der für sämtliche Datenumwandlungsjobs "für den Hausgebrauch" vollkommen ausreicht. Administratoren, die sich die Arbeit sparen wollen, Skripts zum Daten Im- und Export zu schreiben, sollten sich die Produkte einmal ansehen.

Leserkommentar

Keine Kommentare

Kommentar hinzufügen

* - Pflichtfeld

*





*
*
Rubriken
Anzeige
Anzeige
Anzeige
Anzeige
Mehr zum Thema
Test Datacore SANsymphony V R8
Mit SANsymphony-V bietet Datacore eine leistungsfähige Software-Plattform zum Bereitstellen, Teilen, Migrieren, Replizieren, Erweitern, Konfigurieren und Upgraden von Speicher ohne Verzögerungen und Downtime. IAIT hat sich angesehen, was die aktuelle Vers [mehr]
Test Entuity Eye of the Storm 2011 Enterprise
Je umfangreicher die Netzwerke, desto schneller verlieren Administratoren ohne geeignete Tools den Überblick. Entuity Eye oft he Storm 2011 bietet verschiedene Methoden an, mit denen die bestehende Infrastruktur zumindest teil-automatisch erfasst werden k [mehr]
Test Kroll Ontrack PowerControls 6.0
Exchange- und Sharepoint-Server sind längst in vielen Unternehmen unverzichtbarer Bestandteil der Unternehmens-Infrastruktur. Die unabdingbaren Backup-Szenarien werden dabei aber oft vernachlässigt. Hauptsache es gibt ein Backup, wie erfolgreich sich Date [mehr]
Workshop Medienspeicherung und Verteilung
Eigene Videos, Digitalfotos und MP3-Song immer und überall hören und sehen, ohne langes Suchen durch zentrale Medienspeicherung und Medienabruf vom PC, TV-Gerät und Handy aus. [mehr]
Test CA ARCserv Backup r12
Die jüngste Version der Backup-Software für Unternehmen weist im Management- und Sicherheitsbereich viele neue Funktionen auf. Was das Produkt in der Praxis leistet, hat sich IAIT angesehen. [mehr]
High-Speed-PLC-Modems der 200-mbps-Klasse
Powerline-Modems der jüngsten Generation versprechen Triple-Play-taugliche Heimvernetzung ohne neue Kabel ? die Hausstromleitung genügt. Wir haben getestet, wie viele der versprochenen 200 MBit/s in der Realität durch Stromnetz flitzen und ob Video- und [mehr]
Anzeige