Zum Download des Programms

Hauptkomponentenanalyse (PCA)

Die Hauptkomponentenanalyse berechnet die Eigenvektoren der Kovarianzmatrix und reiht sie nach deren Eigenwerten. Jener Eigenvektor mit dem größten Eigenwert stellt die erste Hauptkomponente dar. Auf diese ist der größte Anteil der Varianz der Daten abgebildet. So kann die Hauptkomponentenanalyse zur Dimensionsreduktion herangezogen werden. (Wie bei der Berechnung von der Distanz kann auch für die Hauptkomponentenanalyse eine robuste Schätzung für die Kovarianz verwendet werden.) Eine Hauptkomponente stellt dabei eine neue künstliche Dimension dar, die durch eine Linearkombination der Dimensionen der Daten berechnet wird.

In folgendem Beispiel werden die vier Messdimensionen des Iris Datensatzes auf die erste Hauptkomponente abgebildet. Diese beschreibt (mit einer klassischen Schätzung für die Kovarianzmatrix) 92,5 Prozent der Varianz in den Daten, was auch als 92,5 Prozent des Informationsgehalts der Daten interpretiert werden kann.

In der folgenden Visualisierung sind die IDs der Datenpunkte, deren Projektion auf die erste Hauptkomponente und deren Spezies abgebildet. Sie sind gemäß ihrer Zugehörigkeit zu einer Spezies eingefärbt.

Darstellung der ersten Hauptkomponente der Iris Daten
Abbildung 8: Darstellung der ersten Hauptkomponente der Iris Daten

Aus dieser Graphik kann man erkennen, dass die vier Messdimensionen die blau eingefärbte Spezies sehr gut von den anderen separiert, während die beiden verbleibenden Spezies Überschneidungen in den Werten aufweisen und ein Ausreißer aus der roten Spezies weit im Bereich der grünen liegt.