Test IAIT Talend Enterprise Data Integration Big Data Edition
Datenverarbeitung im ganz großen Stil
Bei dem Entwicklungstool handelt es sich um eine von EclipseJobletssungen zum Umgang mit den Daten. DJoblets
Sie im Unterordner "Code". Die "Job Scripts" stellen Prozess-Beschreibungen - also Anleitungen zum Generieren von Code - in XML-Form dar. Das bedeutet, mit den Job Scripts -Bgestatten im Gegensatz dazu die Definition automatischer Aufgaben, beispielsweise zum Aufsplitten von Feldern.
In der Mitte sehen Sie oben denn Arbeitsbereich, in dem SieSie. An gleicher Stelle finden Sie au Optionen zum Starten und Debuggen der Jobs und Listen mit Fehlern, Meldungen und Infos.
Am rechten Fensterrand stellt Talend&
Pig Latin in AktionPresSservice)
Die ersten Jobs
Schreiben der darin enthaltenen Daten in ein Excel-Sheet aus. Da wir diesen Job im Wesentlichen schon in der Einleitung beschrieben haben, setzen wir uns jetzt nicht weiter damit auseinander, sondern wenden uns direkt dem Job zu, der Daten aus einer CSV-Datei in Hadoop schreibt. Um diesen Job zu realisieren, verwendeten wird als Quelle die zuvor unter Meta-Daten definierte CSV-Datei mit ihren Konfigurations-PtHDFSOutputHadoop Distributed File System".
Nun machten wir uns daran, das Output-Icon zu Konfigurieren. Nachdem wir es angeklickt hatten, konnten wir im Reiter "ComponentHadoop-Version, der Servername, das Benutzerkonto, der Zielordner und der Name der Zieldatei in Hadoopten wir als Ziel wieder eine CSV-Datei ein.
eine Verbindung zwischen den beiden Icons herzustellen. Dazu klickten wir mit der rechten Maustaste auf das Source-Icon und zogen dann mit der Maus eine Linie zum HDFS-Icon.
Reiter unter dem Arbeitsbereich starten. Als der Task durchgelaufen war, informierte uns die Talend-Reihen (Rows)Hadoop konnten wir mit Hilfe der Funktion "Browse the file system" unter http://{Name des Hadoop-Serversthe Box so wie erwartet.
Hadoop auslesen. Dazu selektierten wir als Quelle aus der Palette ein Element namens "tHDFSInputtLogRow"-Element hinzu, das die Daten des Datenstroms einfach auf der Systemkonsole ausgibt. Nachdem wir - wie oben - eine Verbindung zwischen den beiden Icons erstellt hatten, konnten wir den Job starten und den Datei-Inhalt unseres CSV-Files auf dem Bildschirm betrachten. Die Ein- und Ausgabe von Informationen mit Hadoop und der Talend Data gestaltete sich also sehr einfach.
Kommentar hinzufügen