tom's networking guide
 
Anzeige

Test IAIT Talend Enterprise Data Integration Big Data Edition

Datenverarbeitung im ganz großen Stil

Arbeiten mit den Daten

Nachdem wir mit den letzten beiden Jobs sichergestellt hatten, dass das Talend-Produkt problemlos mit unserem Hadoop-System kommunizieren konnte, machten wir uns im nächsten Schritt daran, eine Datenauswertung durchzuführen. Dazu lasen wir aus einer Kundendatei mit zehn Millionen Datensätzen eine bestimmte Kundennummer aus. Hierbei nutzten wir die Vorteile von Hadoop und erzeugten mit dem Talend-Werkzeug einen Code, der dann in das Hadoop-System übertragen wurde und dort die Datenabfragen durchführte. Das Ergebnis der Anfrage speicherten wir als File im Hadoop-Dateisystem ab.

In diesem Zusammenhang ist es wichtig, zunächst einmal auf die technischen Hintergründe einzugehen. Hadoop verwendet für Berechnungen über große Datenmengen den Algorithmus "MapReduce". Dabei handelt es sich um ein Framework zum parallelen Durchführen von Abfragen unter Einsatz vieler Computer. MapReduce umfasst zwei Schritte: Zunächst einmal erfolgt das "Mapping", das heißt, der Master-Node erhält den Input, teilt ihn in kleinere Teil-Anfragen auf und verteilt diese dann an die Nodes im Cluster. Die Unterknoten splitten dann die Anfragen entweder nochmals unter sich auf - was zu einer Art Baumstruktur führt - oder fragen ihre Datenbestände direkt ab und schicken die Antwort zurück an den Master-Node. Im zweiten Schritt ("Reduce") sammelt der Master diese Antworten wieder ein und fügt sie zu einer Ausgabe zusammen, die die ursprüngliche Anfrage beantwortet. Auf diese Art und Weise lassen sich die Abfragen parallel auf mehreren Systemen abarbeiten, was zu einer beeindruckenden Leistungsfähigkeit führt.

Um MapReduce-Programme zu erstellen, die auf Hadoop laufen, kommt die "Pig"-Plattform zum Einsatz. Sie heißt so, weil sie die "Trüffel" in den Datensätzen finden soll. Die dazugehörige Programmiersprache nennt sich "Pig Latin". Für den Einsatz von MapReduce müssen Sie also spezielle Programme schreiben. Der Code Generator Talend Enterprise Data Integration nimmt Ihnen hier die meiste Arbeit ab und stellt Funktionalitäten zur Verfügung, die es Ihnen ermöglichen, die Datenquellen, Abfragen und Ziele direkt mit den gewohnten Icons im Arbeitsbereich der Entwicklungs-Umgebung zu definieren, den Code zu erzeugen (zum Beispiel MapReduce oder Pig Latin), an die Hadoop-Umgebung zu schicken und dort ausführen zu lassen.

Im Test legten wir zu diesem Zweck zunächst ein Element namens "tPigLoad" an, das die zu untersuchenden Daten laden sollte. Ihm gaben wir als Konfigurationsparameter unter anderem wieder den Hadoop-Servernamen, die Hadoop-Version, den Benutzeraccount, die zu untersuchende Datei und das Schema mit, das wir zuvor im Bereich Meta-Daten konfiguriert hatten. Anschließend erzeugten wir ein Filterelement vom Typ "tPigRow" und teilten ihm mit, welches Feld welchen Wert haben sollte, um die Abfrage nach der Kundenummer umzusetzen.

Mit Hilfe des Hadoop-Webinterfaces künnen Sie sich jederzeit über den Status ihrer Jobs informieren. (©Smartmedia PresSservice)

Noch kurz zum Schema: Da die Quelldatei ja aus Daten wie Name, Nummer und ähnlichem besteht, muss Talend Enterprise Data Integration wissen, welche Daten zu welchen Feldern gehören. Die dazugehörigen Felder lassen sich unter Meta-Daten als Schema definieren und dem System mitteilen.

Die Antwort definierten wir mit einem Icon namens "tPigStoreResult", dem wir den Zielordner und den Dateinamen für das Antwortfile zuordneten. Zum Schluss stellten wir noch Verbindungen zwischen den einzelnen Icons her, diesmal nicht mit der rechten Maustaste, sondern durch einen Rechtsklick auf das betroffene Element und die Auswahl des Befehle "Pig Combine" im Menü "Zeile", da wir ja ein Script zur Ausführung auf dem Hadoop-System erzeugen wollten. Anschließend starteten wir den Job und konnten kurz darauf im Web-Interface des Hadoop-Servers das Ergebnis betrachten, das wie erwartet ausfiel. Die Arbeit mit den Pig-Elementen lief im Test also ebenfalls vollkommen problemlos ab.

Im nächsten Job machten wir uns daran, anhand der Einträge in unserer Kundendatei herauszufinden, wie oft welche Produkte verkauft worden waren. Dazu kopierten wir den Job mit der Abfrage und ersetzten das tPigRow-Element durch ein Icon namens "tPigAggregate", dem wir mitteilten, dass wir eine Ausgabespalte namens "Anzahl" haben wollten und dass das System aus der Datenbank mit den Kunden-Einträgen alle Produktnamen zählen und die Namen dann mit Angabe der Häufigkeit ihres Vorkommens in eine Datei schreiben sollte. Nach dem Start des Jobs konnten wir das Ergebnis nach kurzer Zeit auf unserem Hadoop-Server einsehen.

Leserkommentar

Keine Kommentare

Kommentar hinzufügen

* - Pflichtfeld

*





*
*
Rubriken
Anzeige
Anzeige
Anzeige
Anzeige
Mehr zum Thema
Test Datacore SANsymphony V R8
Mit SANsymphony-V bietet Datacore eine leistungsfähige Software-Plattform zum Bereitstellen, Teilen, Migrieren, Replizieren, Erweitern, Konfigurieren und Upgraden von Speicher ohne Verzögerungen und Downtime. IAIT hat sich angesehen, was die aktuelle Vers [mehr]
Test Entuity Eye of the Storm 2011 Enterprise
Je umfangreicher die Netzwerke, desto schneller verlieren Administratoren ohne geeignete Tools den Überblick. Entuity Eye oft he Storm 2011 bietet verschiedene Methoden an, mit denen die bestehende Infrastruktur zumindest teil-automatisch erfasst werden k [mehr]
Test Kroll Ontrack PowerControls 6.0
Exchange- und Sharepoint-Server sind längst in vielen Unternehmen unverzichtbarer Bestandteil der Unternehmens-Infrastruktur. Die unabdingbaren Backup-Szenarien werden dabei aber oft vernachlässigt. Hauptsache es gibt ein Backup, wie erfolgreich sich Date [mehr]
Workshop Medienspeicherung und Verteilung
Eigene Videos, Digitalfotos und MP3-Song immer und überall hören und sehen, ohne langes Suchen durch zentrale Medienspeicherung und Medienabruf vom PC, TV-Gerät und Handy aus. [mehr]
Test CA ARCserv Backup r12
Die jüngste Version der Backup-Software für Unternehmen weist im Management- und Sicherheitsbereich viele neue Funktionen auf. Was das Produkt in der Praxis leistet, hat sich IAIT angesehen. [mehr]
High-Speed-PLC-Modems der 200-mbps-Klasse
Powerline-Modems der jüngsten Generation versprechen Triple-Play-taugliche Heimvernetzung ohne neue Kabel ? die Hausstromleitung genügt. Wir haben getestet, wie viele der versprochenen 200 MBit/s in der Realität durch Stromnetz flitzen und ob Video- und [mehr]
Anzeige