Integrating Statistical Basefunctionality in Interactive Visual Data Analysis

Kurzfassung

Sowohl die Informationsvisualisierung als auch die Statistik beschäftigen sich mit der Analyse von hochdimensionalen Daten, wobei beide Wissenschaften unterschiedliche Wege beschreiten. Die Informationsvisualisierung ist ein Teilgebiet der Computergraphik und erstellt aus Datensätzen, die üblicherweise mehr als drei Dimensionen aufweisen, Grafiken, die Einsicht in das Wesen der Daten geben sollen. Aufgrund der hohen Dimensionalität weisen die Datenpunkte oft keinen inhärenten räumlichen Bezug auf, weshalb die besondere Herausforderung in der Darstellung der Gesamtheit der Daten liegt. Zusätzlich werden Interaktionsmöglichkeiten zur Verfügung gestellt, um die Grafiken an die Bedürfnisse des Benutzers anzupassen. Somit ist es möglich, die Daten visuell zu erforschen und die wesentlichen Informationen zu extrahieren.

Im Gegensatz dazu bedient sich die Statistik der Ausführung von Algorithmen, die numerische Zusammenfassungen des zu untersuchenden Verhaltens der Daten erstellen. Basierend auf den fundierten theoretischen Betrachtungen der Datenanalyse erlauben diese Ergebnisse, Aussagen über die analysierten Datensätze zu treffen und zusätzlich festzustellen, mit welcher Wahrscheinlichkeit diese Aussagen Gültigkeit besitzen.

Da beide Wissenschaften die selben Ziele verfolgen, ist es eine logische Konsequenz Methoden der Statistik mit den Techniken der Informationsvisualisierung zu kombinieren, um bessere und effizientere Analysen der Daten vornehmen zu können. Diese Arbeit gibt daher einen Überblick über die wichtigsten Werkzeuge, welche von der Statistik und der Informationsvisualisierung für die Exploration von hochdimensionalen Daten bereitgestellt wird. Außerdem werden bereits existierende Anwendungen, die Techniken aus beiden Disziplinen vereinen, vorgestellt.

Das primäre Ziel dieser Arbeit ist es aber, statistische Methoden für Applikationen der Informationsvisualisierung zur Verfügung zu stellen. Dafür wurde eine Bibliothek an Routinen zusammengestellt, die zum einen als besonders wichtig für die visuelle Datenexploration gelten und zum anderen eine Modifikation ihrer Parameter und eine rasche Neuberechnung zulassen, so dass Änderungen für die Visualisierung übernommen werden können. Diese Bibliothek ist darauf ausgerichtet Datensätze, die Millionen von Datenpunkten und Hunderte von Dimensionen enthalten, zu bearbeiten. Zusätzlich wird in einer Beispielapplikation eine mögliche Verflechtung zwischen statistischen Routinen und verschiedenen Visualisierungsformen demonstriert. Hierbei wurde besonderes Augenmerk auf die Erkennung von Ausreißern, das Gruppieren von Datenpunkten und Dimensionen sowie die Dimensionsreduktion gelegt.

Kurzfassung

Download