tom's networking guide
 
Anzeige

Test IAIT Talend Enterprise Data Integration Big Data Edition

Datenverarbeitung im ganz großen Stil

Arbeit mit der Lösung

Bei dem Entwicklungstool handelt es sich um eine von Eclipse abgeleitete Arbeitsumgebung, die auf der linken Seite über ein Repository verfügt, über das sich unter anderem Jobs, Joblets und Meta-Daten definieren lassen. Die Jobs umfassen die über die Icons symbolisierten Arbeitsanweisungen zum Umgang mit den Daten. Die Meta-Daten können zum Einsatz kommen, um Datei-, Datenbank- sowie SAP-Verbindungen, Schemas und ähnliches einzurichten und die Joblets ermöglichen es, einzelne Prozesse als normale Komponenten - also modular - zu nutzen.

Zwei weitere interessante Funktionalitäten finden Sie im Unterordner "Code". Die "Job Scripts" stellen Prozess-Beschreibungen - also Anleitungen zum Generieren von Code - in XML-Form dar. Das bedeutet, mit den Job Scripts können Sie die Prozesse komplett beschreiben, was es beispielsweise ermöglicht, Funktionen zum Import von Tabellen-Beschreibungen und ähnliches zu realisieren. Die "Routinen" gestatten im Gegensatz dazu die Definition automatischer Aufgaben, beispielsweise zum Aufsplitten von Feldern.

In der Mitte sehen Sie oben den bereits erwähnten Arbeitsbereich, in dem Sie die Jobs mit Hilfe der Icons definieren während Sie unten kontextabhängig die Konfigurationsoptionen für das gerade selektierte Icon bearbeiten können. An gleicher Stelle finden Sie außerdem Optionen zum Starten und Debuggen der Jobs und Listen mit Fehlern, Meldungen und Infos.

Am rechten Fensterrand stellt Talend Enterprise Data Integration die so genannte Palette mit den einzelnen Komponenten bereit, die als Icons nutzbar sind. Dazu gehören die Import- und Export-Konnektoren genauso wie die Funktionen zum Bearbeiten der Daten, zum Ausführen von Befehlen und vieles mehr. Sie können aber jederzeit eigenen Code in das System einbinden. Die Palette stellt also die Quelle für die Drag-&-Drop-Vorgänge dar, mit denen sich die einzelnen Komponenten in den Arbeitsbereich ziehen lassen.

Pig Latin in Aktion. (©Smartmedia PresSservice)

Die ersten Jobs

Im Test führten wir an dieser Stelle den ersten Job zum Import einer CSV-Datei und anschließendem Schreiben der darin enthaltenen Daten in ein Excel-Sheet aus. Da wir diesen Job im Wesentlichen schon in der Einleitung beschrieben haben, setzen wir uns jetzt nicht weiter damit auseinander, sondern wenden uns direkt dem Job zu, der Daten aus einer CSV-Datei in Hadoop schreibt. Um diesen Job zu realisieren, verwendeten wird als Quelle die zuvor unter Meta-Daten definierte CSV-Datei mit ihren Konfigurations-Parametern wie Field-Separator oder Kodierung und zogen sie als Quelle in den Arbeitsbereich. Anschließend definierten wir ein Exportziel. Dazu wählten wir aus dem Ordner "Big Data" in der Palette den Typ "tHDFSOutput" und zogen das dazugehörige Icon neben unser Source File. HDFS steht in diesem Zusammenhang für "Hadoop Distributed File System".

Nun machten wir uns daran, das Output-Icon zu Konfigurieren. Nachdem wir es angeklickt hatten, konnten wir im Reiter "Component" unter dem Arbeitsbereich alle nötigen Angaben vornehmen. Dazu gehörten die verwendete Hadoop-Version, der Servername, das Benutzerkonto, der Zielordner und der Name der Zieldatei in Hadoop. Für unseren Test setzten wir als Ziel wieder eine CSV-Datei ein.

Abschließend mussten wir dann noch eine Verbindung zwischen den beiden Icons herzustellen. Dazu klickten wir mit der rechten Maustaste auf das Source-Icon und zogen dann mit der Maus eine Linie zum HDFS-Icon.

Nachdem die Verbindung existierte, konnten wir den Job über den entsprechenden Reiter unter dem Arbeitsbereich starten. Als der Task durchgelaufen war, informierte uns die Talend-Software über den erreichten Durchsatz in Reihen (Rows) pro Sekunde und die Zahl der übertragenen Datensätze. Direkt in Hadoop konnten wir mit Hilfe der Funktion "Browse the file system" unter http://{Name des Hadoop-Servers}:50070 überprüfen, dass die neue Datei tatsächlich am Zielort angekommen war. Insgesamt dauerte die Erstellung dieses Jobs keine fünf Minuten und im Test funktionierte alles Out of the Box so wie erwartet.

Nun wollten wir natürlich Daten aus Hadoop auslesen. Dazu selektierten wir als Quelle aus der Palette ein Element namens "tHDFSInput" und konfigurierten es analog zum vorher eingerichteten Ziel mit Servernamen, Dateinamen und so weiter. Für die Datenausgabe fügten wir dann ein "tLogRow"-Element hinzu, das die Daten des Datenstroms einfach auf der Systemkonsole ausgibt. Nachdem wir - wie oben - eine Verbindung zwischen den beiden Icons erstellt hatten, konnten wir den Job starten und den Datei-Inhalt unseres CSV-Files auf dem Bildschirm betrachten. Die Ein- und Ausgabe von Informationen mit Hadoop und der Talend Data Integration-Lösung gestaltete sich also sehr einfach.

Leserkommentar

Keine Kommentare

Kommentar hinzufügen

* - Pflichtfeld

*





*
*
Rubriken
Anzeige
Anzeige
Anzeige
Anzeige
Mehr zum Thema
Test Datacore SANsymphony V R8
Mit SANsymphony-V bietet Datacore eine leistungsfähige Software-Plattform zum Bereitstellen, Teilen, Migrieren, Replizieren, Erweitern, Konfigurieren und Upgraden von Speicher ohne Verzögerungen und Downtime. IAIT hat sich angesehen, was die aktuelle Vers [mehr]
Test Entuity Eye of the Storm 2011 Enterprise
Je umfangreicher die Netzwerke, desto schneller verlieren Administratoren ohne geeignete Tools den Überblick. Entuity Eye oft he Storm 2011 bietet verschiedene Methoden an, mit denen die bestehende Infrastruktur zumindest teil-automatisch erfasst werden k [mehr]
Test Kroll Ontrack PowerControls 6.0
Exchange- und Sharepoint-Server sind längst in vielen Unternehmen unverzichtbarer Bestandteil der Unternehmens-Infrastruktur. Die unabdingbaren Backup-Szenarien werden dabei aber oft vernachlässigt. Hauptsache es gibt ein Backup, wie erfolgreich sich Date [mehr]
Workshop Medienspeicherung und Verteilung
Eigene Videos, Digitalfotos und MP3-Song immer und überall hören und sehen, ohne langes Suchen durch zentrale Medienspeicherung und Medienabruf vom PC, TV-Gerät und Handy aus. [mehr]
Test CA ARCserv Backup r12
Die jüngste Version der Backup-Software für Unternehmen weist im Management- und Sicherheitsbereich viele neue Funktionen auf. Was das Produkt in der Praxis leistet, hat sich IAIT angesehen. [mehr]
High-Speed-PLC-Modems der 200-mbps-Klasse
Powerline-Modems der jüngsten Generation versprechen Triple-Play-taugliche Heimvernetzung ohne neue Kabel ? die Hausstromleitung genügt. Wir haben getestet, wie viele der versprochenen 200 MBit/s in der Realität durch Stromnetz flitzen und ob Video- und [mehr]
Anzeige