tom's networking guide
 
Anzeige

Test Talend Data Quality v4

Auf der Suche nach dem verschwundenen Datensatz

Der Data Profiler

Wenden wir uns jetzt dem zweiten Betriebsmodus des Tools zu, dem Data Profiler. Über diesen lassen sich Datenanalysen durchführen, die beispielsweise Aufschluss darüber geben, wie viele Städtenamen in einer Datenbank fehlerhaft sind oder wie oft die Syntax der Einträge im E-Mail-Adressfeld falsch ist. Die Ergebnisse des Profilings sind folglich die Grundlage für die Record Consolidation. Wesentliche Funktionen des Data Profiler-Modus von Talend Data Quality finden sich zudem in dem oben genannten Open-Source-Werkzeug "Talend Open Profiler", das auf der Website des Unternehmens zum Download bereit steht. Dieses ist allerdings nicht dazu in der Lage, Reports zu erzeugen (und so einen Überblick über alte Analyseergebnisse verfügbar zu machen), Analysen jobgesteuert anzustoßen und aus den Analyse-Ergebnissen automatisch Regeln für die Daten-Integration abzuleiten.

Mit Hilfe des genannten Modus führten wir nun im Test das Profiling durch. Über das Werkzeug lassen sich neben den bereits beschriebenen Aufgaben unter anderem unvollständige Adressen und Datenfelder herausfinden, die mit einem Leerzeichen beginnen. Die Analysen arbeiten mit Objekten wie Datenbankverbindungen und wenden zum Erkennen von Abweichungen Muster und Indikatoren wie maximale Länge, durchschnittliche Länge und ähnliches an. Die Ergebnisse erscheinen nicht nur in tabellarischer Form (zum Beispiel 40 Prozent der E-Mail-Adressen sind fehlerhaft), sondern gleichzeitig als grafische Darstellungen, die zum Beispiel die Korrelationen zwischen Postleitzahlen und Städtenamen zeigen.

Talend Data Quality unterstützt bei den Analysen nicht nur Datenquellen aus beliebigen SQL-Datenbanken, sondern ist zudem noch in der Lage, Daten in CSV-Dateien zu untersuchen.

Unser Job zum Datenimport ließ sich über nur zwei Icons realisieren. (©Smartmedia PresSservice)

Um eine Analyse zu erstellen, müssen die zuständigen Mitarbeiter lediglich mit der rechten Maustaste auf das betroffene Feld klicken und den Befehl "Neue Analyse" aufrufen. Dann startet ein Wizard, der sie zunächst nach dem Typ der Untersuchung fragt (Connection-, Catalog-, Schema-, Table-, Column-, Redundancy-oder Column-Correlation-Analysis). Dann können sie der Analyse einen Namen geben und die zu untersuchenden Komponenten hinzufügen. Es ist gleichfalls möglich, die Abfrage mit den oben bereits erwähnten Indikatoren zu versehen. Nach einem Klick auf den Run-Button läuft die Analyse durch und gibt ihre Ergebnisse wie beschrieben in Form von Tabellen und Grafiken aus. Im Test hatten wir unsere Analysen schnell erstellt und konnten zügig auf die Ergebnisse zugreifen ? sowohl bei unserer eigenen Datenbank als auch bei den Testdaten.

Zum Profiling gehören außerdem noch Reportfähigkeiten. Deswegen bietet Talend Data Quality die Möglichkeit, PDF-Reports und ähnliches zu Analysen zu erstellen. Die Reports lassen sich aus den Analysen erzeugen und jederzeit mit anderen Mitarbeitern teilen.

Leserkommentar

Keine Kommentare

Kommentar hinzufügen

* - Pflichtfeld

*





*
*
Rubriken
Anzeige
Anzeige
Anzeige
Anzeige
Mehr zum Thema
Test Datacore SANsymphony V R8
Mit SANsymphony-V bietet Datacore eine leistungsfähige Software-Plattform zum Bereitstellen, Teilen, Migrieren, Replizieren, Erweitern, Konfigurieren und Upgraden von Speicher ohne Verzögerungen und Downtime. IAIT hat sich angesehen, was die aktuelle Vers [mehr]
Test Entuity Eye of the Storm 2011 Enterprise
Je umfangreicher die Netzwerke, desto schneller verlieren Administratoren ohne geeignete Tools den Überblick. Entuity Eye oft he Storm 2011 bietet verschiedene Methoden an, mit denen die bestehende Infrastruktur zumindest teil-automatisch erfasst werden k [mehr]
Test Kroll Ontrack PowerControls 6.0
Exchange- und Sharepoint-Server sind längst in vielen Unternehmen unverzichtbarer Bestandteil der Unternehmens-Infrastruktur. Die unabdingbaren Backup-Szenarien werden dabei aber oft vernachlässigt. Hauptsache es gibt ein Backup, wie erfolgreich sich Date [mehr]
Workshop Medienspeicherung und Verteilung
Eigene Videos, Digitalfotos und MP3-Song immer und überall hören und sehen, ohne langes Suchen durch zentrale Medienspeicherung und Medienabruf vom PC, TV-Gerät und Handy aus. [mehr]
Test CA ARCserv Backup r12
Die jüngste Version der Backup-Software für Unternehmen weist im Management- und Sicherheitsbereich viele neue Funktionen auf. Was das Produkt in der Praxis leistet, hat sich IAIT angesehen. [mehr]
High-Speed-PLC-Modems der 200-mbps-Klasse
Powerline-Modems der jüngsten Generation versprechen Triple-Play-taugliche Heimvernetzung ohne neue Kabel ? die Hausstromleitung genügt. Wir haben getestet, wie viele der versprochenen 200 MBit/s in der Realität durch Stromnetz flitzen und ob Video- und [mehr]
Anzeige