LU Visualisierung 2005:
Statistische Analysen mit Parallelen Koordinaten
Jürgen Platzer, 0025360


Zurück zu: k means Clustering
Weiter zu: Hauptkomponentenanalyse (PCA)

Mahalanobis und robuste Distanz

Die Mahalanobis Distanz gibt für jeden Datenpunkt an wie weit dieser vom Zentrum der Daten (unter Berücksichtigung der Streuung) entfernt ist. (Ein ausführliches Beispiel, das die Funktionalität der Mahalanobis Distanz illustriert, wird demnächst an dieser Stelle verlinkt!) Sie wird wie folgt berechnet:

Formel der Mahalanobis Distanz

C(X) repräsentiert die Kovarianzmatrix und T(X) das komponentenweise arithmetische Mittel. Da sowohl das arithmetische Mittel als auch die Kovarianzmatrix durch Ausreißer stark beeinflusst werden kann, kann eine robuste Schätzung der Lokation (T(X)) und der Streuung (C(X)) verwendet werden, um eine robuste Distanz zu ermitteln.

Um den Unterschied zwischen der Mahalanobis und der robusten Distanz aufzuzeigen wurde der künstliche Datensatz von Hawkins, Bradu, and Kass (1984) verwendet. Der Datensatz besteht aus 75 Beobachtungen, von denen die ersten 14 Ausreißer sind. Dies ist in folgender Abbildung zu erkennen.

Darstellung des HBK-Datensatzes in Parallelen Koordinaten
Abbildung 5: Darstellung des HBK-Datensatzes in Parallelen Koordinaten



Es ist nicht immer wie in diesem Beispiel aus der Visualisierung des Datensatzes ersichtlich, ob es sich bei Datenpunkten um hochdimensionale Ausreißer handelt. Daher ist es wichtig, ein verlässliches Maß berechnen zu können, das angibt, ob Datenpunkte sich von der Mehrheit der Daten signifikant unterscheiden.

Um diese hochdimensionalen Ausreißer zu detektieren, wurde nun die Mahalanobis und die robuste Distanz berechnet und in den Parallelen Koordinaten zusätzlich zu den Dimensionen des HBK-Datensatzes angezeigt. In Abbildung 6 werden durch das Selektieren der größten Werte der Mahalanobis Distanz auch "normale" Datenpunkte erfasst. Würde man allerdings nur den einen signifikanten Ausreißer, der von der Mahalanobis Distanz angezeigt wird, auswählen, so würde man nicht alle Ausreißer detektieren.

Ausreißer Detektion mit der Mahalanobis Distanz
Abbildung 6: Selektion der Ausreißer mit Hilfe der Mahalanobis Distanz



Im Gegensatz dazu separiert die robuste Distanz alle Ausreißer klar vom Hauptteil der Daten, was in Abbildung 7 ersichtlich ist. Dabei ist es hilfreich, dass eine signifikante Lücke in den Werten der Distanzen auftritt.

Ausreißer Detektion mit der Robusten Distanz
Abbildung 7: Selektion der Ausreißer mit Hilfe der Robusten Distanz

Zurück zu den Unipages

Zurück zu: k means Clustering
Weiter zu: Hauptkomponentenanalyse (PCA)