LU Visualisierung 2005: Statistische Analysen mit Parallelen Koordinaten

Zum Download des Programms

Beschreibung des User Interfaces

Der Großteil der Funktionalität des Programms kann über das Menü angesteuert werden. Über das Menü File können Daten in Form von CSV-Dateien geladen, Bilder der aktuellen Visualisierung exportiert und selektierte Daten ins CSV-Format exportiert werden.

Im Menü Applications können der linked 2D Scatterplot und die Outlier Detection aufgerufen werden.

Im Menü View können die Fenster für die Einstellungen der Farbgebung und der Achsenansicht geöffnet werden.

Über das Menü Tools können die Fenster für die statistischen Funktionen (Clustering, PCA, Distanzen) aufgerufen werden.

In den folgenden Abschnitten werden die Dialoge für die Einstellungen aus den Menüs Applications, View und Tools näher beschrieben.

Farbgebung

Die Farbgebung für die Visualisierungen kann über das Menü View / Coloring aufgerufen werden.

Abbildung 9: Farbdialog - Nach Selektion

Im Panel Color types kann ausgewählt werden, ob die Datenpunkte gemäß einer Selektion oder gemäß der Werte einer Dimension eingefärbt werden sollen.

Wird gemäß einer Selektion gefärbt, so kann man Farben für selektierte und nicht selektierte Datenpunkte festlegen, in dem man mit der rechten Maustaste auf die dafür vorgesehenen Farbrechtecke klickt. Für Datenpunkte, die Selektionswerte zwischen 0 und 1 haben, kann ein Farbverlauf definiert werden. Linear transition legt dabei einen Farbverlauf zwischen der Farbe für selektierte Datenpunkte und jene für nicht selektierte Datenpunkte fest. Bei Advanced transition können an jeder Stelle mittels Doppelklick Farbpunkte eingefügt werden. Mit erneutem Doppelklick können diese wieder gelöscht werden und mit einem rechten Mausklick kann die Farbe verändert werden. Diese Farbpunkte können auch verschoben werden.

Abbildung 10: Farbdialog - Nach Dimensionswerten

Wird gemäß der Werte einer Dimension gefärbt, so kann zunächst festgelegt werden, nach welcher Dimension gefärbt werden soll. Ansonsten sind alle Einstellungen analog zur Färbung nach Selektion vorzunehmen. Anstatt der Farbe von selektierten und nicht selektierten Datenpunkten kann nun die Farbe für Datenpunkte mit maximalen und minimalen Wert in der spezifizierten Dimension festgelegt werden. Der Farbverlauf für die Werte dazwischen wird wieder analog festgelegt.

Achsenansicht für Parallele Koordinaten

Über das Menü View / Axis management kann man Einstellungen zu den Achsen für die Parallele Koordinaten Ansicht öffnen.

Abbildung 11: Dialog für die Achsen-Verwaltung der Parallelen Koordinaten

Zunächst können allgemeine Achseneinstellungen festgelegt werden (Anzeige von Dimensionsnamen bzw. ob deren Minima und Maxima angezeigt werden sollen).

Im Panel Axes specific properties kann für die ausgewählten Achsen festgelegt werden, ob sie sichtbar oder geflippt (d.h. dass sich das Maximum am unteren Ende der Achse befindet) sein sollen. Weiters können die selektierten Achsen mit dem Button Move selected axis up in der Ansicht vorgereiht und mit Move selected axis down in der Ansicht nach hinten verschoben werden. Der Button Show all axes setzt alle Achsen auf sichtbar.

Clustering

Über das Menü Tools / Clustering werden die Einstellungen für das k means Clustering geöffnet.

Abbildung 12: Dialog für die Clustereinstellungen

Im Panel Algorithm properties kann eingestellt werden wie viele Cluster erzeugt werden sollen, wie viele Iterationen der Algorithmus maximal durchlaufen soll und unter welcher Update Schranke der Algorithmus terminieren soll. (Letzteres wird in Prozent vom Wertebereich der Daten angegeben. Verschiebt sich kein Clusterzentrum mehr als dieser angegebener Wert, so endet der Algorithmus.)

Beim Dimension weighting werden jene Dimensionen ausgewählt, nach denen geclustert werden soll. Dabei können den Dimensionen verschiedene Gewichte zwischen 0 und 1 zugewiesen werden, um deren Einfluss auf das Clustering festzulegen.

Der Button Cluster startet den Clusteralgorithmus und fügt die Clustering Ergebnisse zum Datensatz hinzu.

Principal component analysis (PCA)

Die Einstellungen für die PCA können mit dem Menü View / Principal Component Analysis geöffnet werden.

Abbildung 13: Dialog für die Einstellungen der Hauptkomponentenanalyse

Im Panel Type of pca wird festgelegt ob die PCA auf der klassischen oder einer robusten Schätzung der Kovarianzmatrix beruht. Wurde die robuste Variante ausgewählt, so kann der User festlegen auf wieviel Prozent der Daten sich die robuste Schätzung beziehen soll.

Im Panel PCA parameters werden die Dimensionen ausgewählt, für welche die PCA durchgeführt werden soll. Mit einem Auswahlfeld kann festgelegt werden, wieviele Hauptkomponenten abgespeichert werden sollen. Für die gewählte Anzahl der Hauptkomponenten wird die beschriebene Varianz in Prozent angegeben. Schließlich kann noch der Name für die neuen Koordinatendimensionen der Datenpunkte, die abgespeichert werden, festgelegt werden.

Der Button Add principal components to data fügt die Koordinatendimensionen zum Datensatz hinzu.

Distances

Über das Menü Tools / Distances können die Einstellungen für die Distanz-Berechnungen geöffnet werden. Die Einstellungen können hier analog zu jenen der PCA vorgenommen werden. Zu den Daten werden entweder die Mahalanobis oder die robuste Distanz hinzugefügt. Die Distanz-Berechnung berücksichtigt nur die ausgewählten Dimensionen.

Abbildung 14: Dialog für die Distanzeinstellungen

Outlier Detection

Über das Menü Applications / Outlier Detection wird eine Anwendung zur Erkennung von Ausreißern gestartet.

Zunächst wird ein Fenster zum Berechnen der robusten Distanz geöffnet. Dieses entspricht jenem der Distances, wobei allerdings keine Auswahl zwischen robuster und Mahalanobis Distanz vorgenommen werden kann. Anstatt die Distanz nun in den Daten abzuspeichern, wird sie in einem speziellen Scatterplot angezeigt.

Abbildung 15: Dialog für die Ausreißer Detektion

Im folgenden Scatterplot ist auf der X Achse die ID der Einträge im Datensatz aufgetragen. Auf der Y Achse ist die berechnete robuste Distanz geplottet. Eine Markierung zeigt die Entscheidungsgrenze, die Ausreißer von "normalen" Datenpunkten trennt an. Durch den Schieberegler auf der linken Seite kann eingestellt werden, wie viele "normale" Datenpunkte in Prozent im Datensatz erwartet werden. Demnach verändert sich die Grenze die das entsprechende Quantil der Chi-Quadrat Verteilung mit einem Freiheitsgrad von p entspricht. p repräsentiert die Anzahl der Dimensionen, die für die Berechnung der robusten Distanz herangezogen wurde.

Durch ein Kontext-Menü kann man interaktiv auf den Ausreißern oder alternativ auf den "normalen" Daten weiterarbeiten.

Abbildung 16: View der Ausreißer Detektion

« Hauptkomponentenanalyse (PCA)