« Hauptkomponentenanalyse (PCA) |
Der Großteil der Funktionalität des Programms kann über das Menü angesteuert werden. Über das
Menü File
können Daten in Form von CSV-Dateien geladen, Bilder der aktuellen Visualisierung exportiert
und selektierte Daten ins CSV-Format exportiert werden.
Im Menü Applications
können der linked 2D Scatterplot und die Outlier Detection aufgerufen werden.
Im Menü View
können die Fenster für die Einstellungen der Farbgebung und der Achsenansicht
geöffnet werden.
Über
das Menü Tools
können die Fenster für die statistischen Funktionen (Clustering, PCA, Distanzen) aufgerufen
werden.
In den folgenden Abschnitten werden die Dialoge für die Einstellungen aus den Menüs Applications
,
View
und Tools
näher beschrieben.
Die Farbgebung für die Visualisierungen kann über das Menü View / Coloring
aufgerufen werden.
Abbildung 9: Farbdialog - Nach Selektion
Im Panel Color types
kann ausgewählt werden, ob die Datenpunkte gemäß einer Selektion oder gemäß der
Werte einer Dimension eingefärbt werden sollen.
Wird gemäß einer Selektion gefärbt, so kann man Farben für selektierte und nicht selektierte Datenpunkte
festlegen, in dem man mit der rechten Maustaste auf die dafür vorgesehenen Farbrechtecke klickt. Für
Datenpunkte, die Selektionswerte zwischen 0 und 1 haben, kann ein Farbverlauf definiert werden. Linear
transition
legt dabei einen Farbverlauf zwischen der Farbe für selektierte Datenpunkte und jene für nicht
selektierte Datenpunkte fest. Bei Advanced transition
können an jeder Stelle mittels Doppelklick
Farbpunkte eingefügt werden. Mit erneutem Doppelklick können diese wieder gelöscht werden und mit einem
rechten Mausklick kann die Farbe verändert werden. Diese Farbpunkte können auch verschoben werden.
Abbildung 10: Farbdialog - Nach Dimensionswerten
Wird gemäß der Werte einer Dimension gefärbt, so kann zunächst festgelegt werden, nach welcher Dimension gefärbt werden soll. Ansonsten sind alle Einstellungen analog zur Färbung nach Selektion vorzunehmen. Anstatt der Farbe von selektierten und nicht selektierten Datenpunkten kann nun die Farbe für Datenpunkte mit maximalen und minimalen Wert in der spezifizierten Dimension festgelegt werden. Der Farbverlauf für die Werte dazwischen wird wieder analog festgelegt.
Über das Menü View / Axis management
kann man Einstellungen
zu den Achsen für die Parallele Koordinaten Ansicht öffnen.
Abbildung 11: Dialog für die Achsen-Verwaltung der Parallelen Koordinaten
Zunächst können allgemeine Achseneinstellungen festgelegt werden (Anzeige von Dimensionsnamen bzw.
ob deren Minima und Maxima angezeigt werden sollen).
Im Panel Axes specific properties
kann für die ausgewählten Achsen festgelegt werden, ob
sie sichtbar oder geflippt (d.h. dass sich das Maximum am unteren Ende der Achse befindet) sein sollen. Weiters können die selektierten Achsen mit dem Button
Move selected axis up
in der Ansicht vorgereiht und mit Move selected axis down
in der Ansicht nach hinten
verschoben werden. Der Button Show all axes
setzt alle Achsen auf sichtbar.
Über das Menü Tools / Clustering
werden die Einstellungen für das k means Clustering geöffnet.
Abbildung 12: Dialog für die Clustereinstellungen
Im Panel Algorithm properties
kann eingestellt werden wie viele Cluster erzeugt werden sollen, wie
viele Iterationen der Algorithmus maximal durchlaufen soll und unter welcher Update Schranke der
Algorithmus terminieren soll. (Letzteres wird in Prozent vom Wertebereich der Daten angegeben. Verschiebt sich kein
Clusterzentrum mehr als dieser angegebener Wert, so endet der Algorithmus.)
Beim Dimension weighting
werden jene Dimensionen ausgewählt, nach denen geclustert werden soll. Dabei können
den Dimensionen verschiedene Gewichte zwischen 0 und 1 zugewiesen werden, um deren Einfluss auf das Clustering
festzulegen.
Der Button Cluster
startet den Clusteralgorithmus und fügt die Clustering Ergebnisse zum Datensatz hinzu.
Die Einstellungen für die PCA können mit dem Menü View / Principal Component Analysis
geöffnet werden.
Abbildung 13: Dialog für die Einstellungen der Hauptkomponentenanalyse
Im Panel Type of pca
wird festgelegt ob die PCA auf der klassischen oder einer robusten Schätzung der
Kovarianzmatrix beruht. Wurde die robuste Variante ausgewählt, so kann der User festlegen auf wieviel
Prozent der Daten sich die robuste Schätzung beziehen soll.
Im Panel PCA parameters
werden die Dimensionen ausgewählt, für welche die PCA durchgeführt werden soll.
Mit einem Auswahlfeld kann festgelegt werden, wieviele Hauptkomponenten abgespeichert werden sollen. Für
die gewählte Anzahl der Hauptkomponenten wird die beschriebene Varianz in Prozent angegeben. Schließlich
kann noch der Name für die neuen Koordinatendimensionen der Datenpunkte, die abgespeichert werden,
festgelegt werden.
Der Button Add principal components to data
fügt die Koordinatendimensionen zum Datensatz hinzu.
Über das Menü Tools / Distances
können die Einstellungen für die Distanz-Berechnungen geöffnet werden.
Die Einstellungen können hier analog zu jenen der PCA vorgenommen werden. Zu den Daten werden entweder die Mahalanobis oder
die robuste Distanz hinzugefügt. Die Distanz-Berechnung berücksichtigt nur die ausgewählten Dimensionen.
Abbildung 14: Dialog für die Distanzeinstellungen
Über das Menü Applications / Outlier Detection
wird eine Anwendung zur Erkennung von Ausreißern gestartet.
Zunächst wird ein Fenster zum Berechnen der robusten Distanz geöffnet. Dieses entspricht
jenem der Distances, wobei allerdings keine Auswahl zwischen robuster und Mahalanobis Distanz vorgenommen
werden kann. Anstatt die Distanz nun in den Daten abzuspeichern, wird sie in einem speziellen Scatterplot
angezeigt.
Abbildung 15: Dialog für die Ausreißer Detektion
Im folgenden Scatterplot ist auf
der X Achse die ID der Einträge im Datensatz aufgetragen. Auf der Y Achse ist die
berechnete robuste Distanz geplottet. Eine Markierung zeigt die Entscheidungsgrenze, die Ausreißer von "normalen"
Datenpunkten trennt an. Durch den Schieberegler auf der linken Seite kann eingestellt werden, wie viele "normale"
Datenpunkte in Prozent im Datensatz erwartet werden. Demnach verändert sich die Grenze die das entsprechende Quantil
der Chi-Quadrat Verteilung mit einem Freiheitsgrad von p entspricht. p repräsentiert die Anzahl der Dimensionen, die
für die Berechnung der robusten Distanz herangezogen wurde.
Durch ein Kontext-Menü kann man interaktiv auf den Ausreißern oder alternativ auf den "normalen" Daten weiterarbeiten.
Abbildung 16: View der Ausreißer Detektion
« Hauptkomponentenanalyse (PCA) |