Sowohl die Informationsvisualisierung als auch die Statistik beschäftigen sich mit der
Analyse von hochdimensionalen Daten, wobei beide Wissenschaften unterschiedliche
Wege beschreiten. Die Informationsvisualisierung ist ein Teilgebiet der Computergraphik
und erstellt aus Datensätzen, die üblicherweise mehr als drei Dimensionen
aufweisen, Grafiken, die Einsicht in das Wesen der Daten geben sollen. Aufgrund
der hohen Dimensionalität weisen die Datenpunkte oft keinen inhärenten räumlichen
Bezug auf, weshalb die besondere Herausforderung in der Darstellung der Gesamtheit
der Daten liegt. Zusätzlich werden Interaktionsmöglichkeiten zur Verfügung gestellt,
um die Grafiken an die Bedürfnisse des Benutzers anzupassen. Somit ist es möglich,
die Daten visuell zu erforschen und die wesentlichen Informationen zu extrahieren.
Im Gegensatz dazu bedient sich die Statistik der Ausführung von Algorithmen, die numerische
Zusammenfassungen des zu untersuchenden Verhaltens der Daten erstellen.
Basierend auf den fundierten theoretischen Betrachtungen der Datenanalyse erlauben
diese Ergebnisse, Aussagen über die analysierten Datensätze zu treffen und zusätzlich
festzustellen, mit welcher Wahrscheinlichkeit diese Aussagen Gültigkeit besitzen.
Da beide Wissenschaften die selben Ziele verfolgen, ist es eine logische Konsequenz
Methoden der Statistik mit den Techniken der Informationsvisualisierung zu kombinieren,
um bessere und effizientere Analysen der Daten vornehmen zu können.
Diese Arbeit gibt daher einen Überblick über die wichtigsten Werkzeuge, welche von
der Statistik und der Informationsvisualisierung für die Exploration von hochdimensionalen
Daten bereitgestellt wird. Außerdem werden bereits existierende Anwendungen,
die Techniken aus beiden Disziplinen vereinen, vorgestellt.
Das primäre Ziel dieser Arbeit ist es aber, statistische Methoden für Applikationen
der Informationsvisualisierung zur Verfügung zu stellen. Dafür wurde eine Bibliothek
an Routinen zusammengestellt, die zum einen als besonders wichtig für die visuelle
Datenexploration gelten und zum anderen eine Modifikation ihrer Parameter
und eine rasche Neuberechnung zulassen, so dass Änderungen für die Visualisierung
übernommen werden können. Diese Bibliothek ist darauf ausgerichtet Datensätze, die
Millionen von Datenpunkten und Hunderte von Dimensionen enthalten, zu bearbeiten.
Zusätzlich wird in einer Beispielapplikation eine mögliche Verflechtung zwischen statistischen
Routinen und verschiedenen Visualisierungsformen demonstriert. Hierbei
wurde besonderes Augenmerk auf die Erkennung von Ausreißern, das Gruppieren von
Datenpunkten und Dimensionen sowie die Dimensionsreduktion gelegt.