LU Visualisierung 2005:
Statistische Analysen mit Parallelen Koordinaten
Jürgen Platzer, 0025360


Zurück zu: Hauptkomponentenanalyse (PCA)

Beschreibung des User Interfaces

Der Großteil der Funktionalität des Programms kann über das Menü angesteuert werden. Über das Menü "File" können Daten in Form von CSV-Dateien geladen, Bilder der aktuellen Visualisierung exportiert und selektierte Daten ins CSV-Format exportiert werden.

Im Menü "Applications" können der linked 2D Scatterplot und die Outlier Detection aufgerufen werden.

Im Menü "View" können die Fenster für das Steuern der Farbgebung und der Achsenansicht geöffnet werden.

Über das Menü "Tools" können die Fenster für die statistischen Funktionen (Clustering, PCA, Distanzen) aufgerufen werden.

Farbgebung

Farbdialog - Nach Selektion
Abbildung 9: Farbdialog - Nach Selektion



Im Panel "Color types" kann ausgewählt werden, ob die Datenpunkte gemäß einer Selektion oder gemäß der Werte einer Dimension eingefärbt werden sollen.

Wird gemäß einer Selektion gefärbt, so kann man Farben für selektierte und nicht selektierte Datenpunkte festlegen, in dem man mit der rechten Maustaste auf die dafür vorgesehenen Farbrechtecke klickt. Für Datenpunkte, die Selektionswerte zwischen 0 und 1 haben, kann ein Farbverlauf definiert werden. "Linear transition" legt dabei einen Farbverlauf zwischen der Farbe für selektierte Datenpunkte und jene für nicht selektierte Datenpunkte fest. Bei "Advanced transition" können an jeder Stelle mittels Doppelklick Farbpunkte eingefügt werden. Mit erneutem Doppelklick können diese wieder gelöscht werden und mit einem rechten Mausklick kann die Farbe verändert werden. Diese Farbpunkte können auch verschoben werden.

Farbdialog - Nach Dimensionswerten
Abbildung 10: Farbdialog - Nach Dimensionswerten

Wird gemäß der Werte einer Dimension gefärbt, so kann zunächst festgelegt werden, nach welcher Dimension gefärbt werden soll. Ansonsten sind alle Einstellungen analog zur Färbung nach Selektion vorzunehmen. Anstatt der Farbe von selektierten und nicht selektierten Datenpunkten kann nun die Farbe für Datenpunkte mit maximalen und minimalen Wert in der spezifizierten Dimension festgelegt werden. Der Farbverlauf für die Werte dazwischen wird wieder analog festgelegt.

Achsenansicht für Parallele Koordinaten

Dialog für die Achsen-Verwaltung der Parallelen Koordinaten
Abbildung 11: Dialog für die Achsen-Verwaltung der Parallelen Koordinaten



Zunächst können allgemeine Achseneinstellungen festgelegt werden (Anzeige von Dimensionsnamen und deren minimalen bzw. maximalen Wert).

Im Panel "Axes specific properties" kann für die ausgewählten Achsen festgelegt werden, ob sie sichtbar oder geflippt sein sollen. Weiters können die selektierten Achsen mit dem Button "Move selected axis up" in der Ansicht vorgereiht und mit "Move selected axis down" in der Ansicht nach hinten verschoben werden. Der Button "Show all axes" setzt alle Achsen auf sichtbar.

Clustering

Dialog für die Clustereinstellungen
Abbildung 12: Dialog für die Clustereinstellungen



Im Panel "Algorithm properties" kann eingestellt werden wie viele Cluster erzeugt werden sollen, wie viele Iterationen der Algorithmus maximal laufen soll und ab welcher Update Schranke der Clusterzentren der Algorithmus terminieren soll. (Letzteres Maß wird in Prozent vom Wertebereich der Daten angegeben.)

Beim "Dimension weighting" werden jene Dimensionen ausgewählt, nach denen geclustert werden soll. Dabei können den Dimensionen verschiedene Gewichte zwischen 0 und 1 zugewiesen werden, um deren Einfluss auf das Clustering festzulegen.

Der Button "Cluster" startet den Clusteralgorithmus und fügt die Clustering Ergebnisse zum Datensatz hinzu.

Principal component analysis (PCA)

Dialog für die Einstellungen der Hauptkomponentenanalyse
Abbildung 13: Dialog für die Einstellungen der Hauptkomponentenanalyse



Im Panel "Type of pca" wird festgelegt ob die PCA auf der klassischen oder einer robusten Schätzung der Kovarianzmatrix beruht. Wurde die robuste Variante ausgewählt, so kann der User festlegen auf wieviel Prozent der Daten sich die robuste Schätzung beziehen soll.

Im Panel "PCA parameters" werden die Dimensionen ausgewählt, für welche die PCA durchgeführt werden soll. Mit einem Auswahlfeld kann festgelegt werden, wieviele Hauptkomponenten abgespeichert werden sollen. Für die gewählte Anzahl der Hauptkomponenten wird die beschriebene Varianz in Prozent angegeben. Schließlich kann noch der Name für die neuen Koordinatendimensionen der Datenpunkte, die abgespeichert werden, festgelegt werden.

Der Button "Add principal components to data" fügt die Koordinatendimensionen zum Datensatz hinzu.

Distances

Dialog für die Distanzeinstellungen
Abbildung 14: Dialog für die Distanzeinstellungen



Dieses Fenster wird analog zu jenem der PCA bedient.

Outlier Detection

Dialog für die Ausreißer Detektion
Abbildung 15: Dialog für die Ausreißer Detektion



Zunächst wird ein Fenster zum Berechnen der robusten Distanz geöffnet. Dieses entspricht jenem der Distances, wobei allerdings keine Auswahl zwischen robuster und Mahalanobis Distanz vorgenommen werden kann. Anstatt die Distanz nun in den Daten abzuspeichern, wird sie in einem speziellen Scatterplot angezeigt.

View der Ausreißer Detektion
Abbildung 16: View der Ausreißer Detektion



Auf der X Achse ist die ID der Einträge im Datensatz aufgetragen. Auf der Y Achse ist die berechnete robuste Distanz geplottet. Eine Markierung zeigt die Entscheidungsgrenze, die Ausreißer von "normalen" Datenpunkten trennt an. Durch den Schieberegler auf der linken Seite kann eingestellt werden, wie viele "normale" Datenpunkte in Prozent im Datensatz erwartet werden. Demnach verändert sich die Grenze die das entsprechende Quantil der Chi-Quadrat Verteilung mit einem Freiheitsgrad von p entspricht. p repräsentiert die Anzahl der Dimensionen, die für die Berechnung der robusten Distanz herangezogen wurde.

Durch ein Menü kann man interaktiv auf den Ausreißern oder alternativ auf den "normalen" Daten weiterarbeiten.
Zurück zu den Unipages

Zurück zu: Hauptkomponentenanalyse (PCA)