tom's networking guide
 
Anzeige

Test IAIT Talend Enterprise Data Integration Big Data Edition

Datenverarbeitung im ganz großen Stil

Arbeit mit Hive

Hive realisiert einen JDBC-Zugriff auf Hadoop mit SQL. Über Hive können Sie Hadoop-Systeme demzufolge mit einer SQL-ähnlichen Syntax abfragen. Für den Test von Hive legten wir zunächst im Bereich "Meta-Daten" eine neue Datenbank-Verbindung zur vorhandenen Kunden-Datenbank an, die auf unserem Hadoop-Testsystem lag. Dazu war es ausreichend, als Datenbanktyp "Hive" zu selektieren, den Server und den Port anzugeben und auf "Check" zu klicken. Nach dem erfolgreichen Test der Datenbank-Verbindung war diese in unserem Data Integration-System vorhanden und ließ sich als Icon nutzen.

In den Konfigurations-Optionen der Hive-Datenbank-Verbindung findet sich unter anderem ein "Query"-Feld, in das Sie SQL-Abfragen eintragen können. In unserer ersten Abfrage untersuchten wir die Kundendatenbank daraufhin, wie viele Kunden in "Hannover" wohnten. Dazu trugen wir die Abfrage

"select count(*) from {Datenbank} where city like '%Hannover%'"

in das Query-Feld der Datenbankverbindung ein, verwendeten als Ausgabe wieder ein tLowRow-Element und erzeugten eine Verbindung zwischen den beiden Icons, über die das System den Count-Wert ausgab. Kurz darauf konnten wir die Zahl der betroffenen Kunden auf der Systemkonsole einsehen. Die Arbeit mit Hive gestaltete sich ähnlich einfach wie die mit Pig.

Unser zweiter Hive-Job sollte die komplette Datenbank in eine Excel-Tabelle schreiben. Dazu passten wir die Abfrage in unserer Quell-Verbindung entsprechend an, selektierten statt des tLogRow-Elements ein "tFileOutputExcel"-Icon und gaben den Zielpfad und den Dateinamen für die Ziel-Datei an. Danach stellten wir mit der rechten Maustaste noch eine Verbindung zwischen den beiden Einträgen her. Kurz nach Start des Jobs fanden wir alle gesuchten Daten in einem Excel-Sheet auf unserem Rechner vor. Hive ist eine Technologie, die SQL-Administratoren einen großen Nutzen bringt. Sie lässt sich mit Hilfe von Talend Enterprise Data Integration ohne großen Aufwand einsetzen.

Der Verbindungsaufbau zu einer Hive-Datenbank gestaltet sich verhältnismäßig einfach. (©Smartmedia PresSservice)

HBase

HBase stellt eine verhältnismäßig einfache skalierbare Datenbank dar, die sich zum Verwalten großer Datenmengen innerhalb einer Hadoop-Umgebung eignet. Sie kommt in der Regel mit Daten zum Einsatz, die die Anwender selten ändern, aber häufig ergänzen. Zum Abschluss unseres Tests exportierten wir diverse Daten aus unserer bereits zu Beginn genutzten CSV-Datei in die HBase-Datenbank auf unserem Hadoop-System und ließen sie uns anschließend direkt auf unsere Systemkonsole ausgeben.

Dazu erzeugten wir zunächst einen neuen Job und zogen das Icon mit der Quell-CSV-Datei auf die Arbeitsfläche. Danach verwendeten wir ein tMap-Element, um die Daten aus der Datei auszufiltern, die in der Datenbank landen sollten. Zum Schluss erzeugten wir ein Icon vom Typ "tHBaseOutput". Dieses verlangt als Konfigurations-Angaben im Wesentlichen den Hadoop-Typ, den Servernamen, den Table-Name und die Zuweisung der Daten zu den dazugehörigen Feldern. Nachdem alle nötigen Verbindungen vorhanden waren, starteten wir den Job und die Daten landeten in der Datenbank.

Um zu prüfen, ob auch alles richtig funktioniert hatte, gaben wir zum Abschluss die Daten in der HBase-Umgebung auf unsere Systemkonsole aus. Hierzu kam ein Element namens "tHBaseInput" zum Einsatz, das sich analog zu der Output-Komponente konfigurieren ließ. Ein tLogRow-Icon und die Verbindung zwischen den beiden Elementen schlossen die Job-Konfiguration ab. Nach dem Start des Jobs erschienen die Daten wir erwartet auf unserem Bildschirm. Benutzer von HBase können sich folglich ebenfalls darauf verlassen, dass die Arbeit mit Talend Enterprise Data Integration und ihrer Datenbank ohne Schwierigkeiten von statten geht.

Datenabfragen mit einer SQL-ähnlichen Sprache und Hive. Smartmedia PresSservice)

Leserkommentar

Keine Kommentare

Kommentar hinzufügen

* - Pflichtfeld

*





*
*
Rubriken
Anzeige
Anzeige
Anzeige
Anzeige
Mehr zum Thema
Test Datacore SANsymphony V R8
Mit SANsymphony-V bietet Datacore eine leistungsfähige Software-Plattform zum Bereitstellen, Teilen, Migrieren, Replizieren, Erweitern, Konfigurieren und Upgraden von Speicher ohne Verzögerungen und Downtime. IAIT hat sich angesehen, was die aktuelle Vers [mehr]
Test Entuity Eye of the Storm 2011 Enterprise
Je umfangreicher die Netzwerke, desto schneller verlieren Administratoren ohne geeignete Tools den Überblick. Entuity Eye oft he Storm 2011 bietet verschiedene Methoden an, mit denen die bestehende Infrastruktur zumindest teil-automatisch erfasst werden k [mehr]
Test Kroll Ontrack PowerControls 6.0
Exchange- und Sharepoint-Server sind längst in vielen Unternehmen unverzichtbarer Bestandteil der Unternehmens-Infrastruktur. Die unabdingbaren Backup-Szenarien werden dabei aber oft vernachlässigt. Hauptsache es gibt ein Backup, wie erfolgreich sich Date [mehr]
Workshop Medienspeicherung und Verteilung
Eigene Videos, Digitalfotos und MP3-Song immer und überall hören und sehen, ohne langes Suchen durch zentrale Medienspeicherung und Medienabruf vom PC, TV-Gerät und Handy aus. [mehr]
Test CA ARCserv Backup r12
Die jüngste Version der Backup-Software für Unternehmen weist im Management- und Sicherheitsbereich viele neue Funktionen auf. Was das Produkt in der Praxis leistet, hat sich IAIT angesehen. [mehr]
High-Speed-PLC-Modems der 200-mbps-Klasse
Powerline-Modems der jüngsten Generation versprechen Triple-Play-taugliche Heimvernetzung ohne neue Kabel ? die Hausstromleitung genügt. Wir haben getestet, wie viele der versprochenen 200 MBit/s in der Realität durch Stromnetz flitzen und ob Video- und [mehr]
Anzeige