Faktorenanalyse

In der empirischen Realität gibt es meist Zusammenhänge nicht nur zwischen zwei Untersuchungsvariablen, sondern sehr viele, möglicherweise alle Untersuchungsvariablen hängen zusammen. Die Faktorenanalyse versucht, die hohe Dimensionalität des Untersuchungsraums zu reduzieren. Die Faktorenanalyse ist also ein datenreduzierendes Verfahren. Sie ermöglicht es ohne entscheidenden Informationsverlust, viele wechselseitig hoch korrelierende Variablen durch wenige voneinander unabhängige Faktoren zu ersetzen.

Graphische Interpretation:
Jeder Merkmalsträger kann als ein Punkt in einem hochdimensionierten Achsenkreuz präsentiert werden, dessen Dimensionalität von der Anzahl der Untersuchungsvariablen bestimmt wird. Die Faktorenanalyse beantwortet somit die Frage, ob es eine deutlich geringere Anzahl von Faktoren gibt, die die Zusammenhänge zwischen allen Untersuchungsvariablen weitgehend zu erklären in der Lage sind. [Voss, S. 164].

Faktorenanalyse als heuristisches hypothesengenerierendes Verfahren
Die Faktorenanalyse ist ein heuristisches hypothesengenerierendes Verfahren. D.h. es muß ein Ordnungssystem erstellt werden, das mit den thoeretischen Kontexten der unterstellten Variablen am besten zu vereinbaren ist. Dann werden Hypothesen über Strukturen formuliert, die den untersuchten Merkmalen zugrunde liegen.

Voraussetzung für die Faktorenanalyse ist also, daß Korrelationen zwischen einzelnen Merkmalen oder Merkmalsgruppen bestehen. Je höher die Korrelation zwischen den Beobachtungsmerkmalen, umso besser lassen sich die resultierenden Faktoren erklären. Dabei versucht die Faktorenanalyse die einfachste Struktur zu finden, die die Ausgangsdaten möglichst genau wiedergibt und erklärt. Die Forderungen einer möglichst guten Abbildung der Beobachtungsdaten einerseits und der möglichst geringen Zahl von Faktoren andererseits stehen in Konkurrenz zueinander. Das führt dazu, daß Ergebnisse der Faktorenanalyse von subjektiven Aspekten abhängen können. Das gilt insbesondere für die Anzahl der gewählten Faktoren und deren Interpretation. Durch verschiedene Bedingungen, die an die Faktoren gestellt werden, resultieren eine Menge verschiedener Verfahren.
Ein wesentlicher Grundgedanke der Faktoranalyse besteht darin, den Merkmalsträgern (Beobachtungen pro Untersuchungseinheit) Faktorwerte (f) und den Variablen Ladungskoeffizienten (Korellationskoeffizienten vor ihrer Standardisierung) so zuzuordnen, daß aus dieser Gleichung Z Schätzwerte errechnet werden können. Aus diesen wird eine Korrelationskoeffizientenmatrix R erstellt, die möglichst gut mit der empirischen Korrelationskoeffizientenmatrix R übereinstimmen soll.

Rechenweg

Äußerlich sieht dieses Modell aus wie ein System von m multiplen Regressionsmodellen. Der entscheidende Unterschied besteht darin, daß die Einflußgrößen bei den Regressionsmodellen vorgegeben und mit der eigentlichen Variablen zusammen explizit gemessen werden, wohingegen die Faktoren hypothetische Konstrukte sind, die aus der standardisierten Datenmatrix Z herausgerechnet (extrahiert) werden sollen.
Ausgangspunkt einer Faktorenanalyse ist eine empirische (quantitative) Datenmatrix Y. Die Datenmatrix enthält die Merkamslwerte der interessierenden Merkmal Yi, die am i-ten Objekt beobachtet wurden.
Aus der empiritschen Datenmatrix Y wird die standardisierte Datenmatrix berechnet. (Dazu standardisiert man die Matrix Y so, daß der Mittelwert jeder Spalte Null und die empirische Varianz jeder Spalte Eins ist).
Die Faktorenanalyse geht nun davon aus, daß sich die korrelierten, beobachteteten Merkmale als Linearkombination von unbekannten nichtbeobachteten Faktoren darstellen lassen. Jedes Element der standardisierten Datenmatrix läßt sich als Linearkombination von Realisationen der unbekannten Faktoren beschreiben.
Das heißt: Die Matrix yst ist darstellbar als Produkt zweier Matrizen, ergibt sich durch Multiplikation der Ladungsmatrix mit der Matrix der Faktorenwerte.

Zur Lösung dieser Gleichung sucht man (bzw. SPSS) Werte für die geschätzte Faktorenmatrix, bis die obige Gleichung erfüllt werden kann (Das ist deshalb so schwierig und aufwendig, weil es sich um Matritzen handelt!).

Interpretation

Begriffe aus der Faktorenanalyse

Ladungsmatrix

Die Ladungsmatrix heißt auch Matrix der Faktorladungen. Die Koeffizienten der Ladungsmatrix beschreiben die Ladungen des k-ten nichtbeobachteten Faktors bezüglich des j-ten beobachteten Merkmals. Eine Faktorladung aij entspricht der Korrelation zwischen einer Variablen i mit einem Faktor j. Die Ladungsmatrix beschreibt den Zusammenhang zwischen Merkmalen und Faktoren.
Matrix der Faktorenwerte
beschreibt die n beobachteten Objekte bezüglich der Faktore. Die Faktorenmatrix beschreibt den Zusammenhang zwischen Faktoren und Objekten.
Die standardisierte Datenmatrix beschreibt den Zusammenhang zwischen Merkmalen und Objekten.
Die Faktorenmatrix beschreibt den Zusammenhang zwischen Faktoren und Objekten.
Die Ladungsmatrix beschreibt den Zusammenhang zwischen Merkmalen und Faktoren.
Ladungsmuster
Ein wesentlicher Grundgedanke der Faktorenanalyse besteht darin, den Merkmalsträgern (Beobachtungen pro Untersuchungseinheit) Faktorwerte (f) und den Variablen Ladungskoeffizienten (Korrelationskoeffizienten, wenn diese vorher standardisiert worden sind) so zuzuorden, daß Z Schätzwerte errechnet werden können, und aus diesen eine Korrelationskoeffizientenmatrix R-Schätzwert, die möglichst gut mit der epirischen Korrelationskoeffizientenmatrix R übereinstimmen soll. Die Korrelation zwischen Z und einem Faktor F beruht im Wesentlichen auf der transponierten Matrix von Faktorwerten, denn die Zielfunktion lautet: . Aus Z wird abgeleitet (Korrelationskoeffizientenmatrix). Diese Umformung verdeutlicht, wie wichtig die Ladungsmuster für die Bestimmung der Faktorwerte sind.
Ladungskoeffizient (=Faktorladung)
Eine Faktorladung entspricht der Korrelation zwischen einer Variablen i mit einem Faktor j als erklärter Varianzanteil entspricht dem Determinationskoeffizienten
In der Faktorenanalyse entscheidet sich die Bedeutung der Faktoren aufgrund der Faktorladung. Sie ist letztlich ausschlaggebend für die Wertigkeit des Faktors.
Die Koeffizienten aij der gemeinsamen Faktoren und die Koeffizienten dj der spezifischen Faktoren werden als Faktorladungen bezeichnet.
Kommunalität einer Variablen
Die Kommunalität einer Variablen gibt an, in welchem Ausmaß diese Variablen durch die Faktoren aufgeklärt bzw. erfaßt wird. D.h. sie ist im Rahmen der Faktorenanalyse ein Maß für den Grad des Zusammenhangs einer Variablen mit allen anderen Variablen, statistisch gesehen erklärt die Kommunalität den Anteil der gemeinsamen Varianz. Jede Variable hat eine spezifische Kommunalität.
Die Varianz einer standardisierten Variablen ist immer 1. Die Kommunalität muß folglich kleiner 1 sein, sollte aber möglichst gegen 1 tendieren: Weicht sie stark von 1 ab, kann man annehmen, daß die Faktoren schlecht gewählt worden sind.
Eigenwert
Eigenwerte spielen bei der Faktorenanalyse die quasi entscheidende Rolle: Sie werden vor der Faktorrotation berechnet und dienen zumeist als Kriterium für die Entscheidung, ob Faktoren im faktorenanalytischem Modell beibehalten oder weggelassen werden.
Der Eigenwert eines Faktors j gibt an, wieviel von der Gesamtvarianz aller Variablen durch diesen Faktor erfaßt wird. Ist ein Eigenwert kleiner als 1, erklärt er also weniger als die Varianz einer einzigen Variablen, wird der entsprechende Faktor für unbedeutend erklärt.
Die Eigenwertbestimmung der Faktoren dient also dazu, unwichtige Faktoren zu eleminieren.

Faktorenanalyse mit SPSS

1. Dateneingabe
Die Variablen werden definiert <Data><Define Variable> und die Werte eingegeben
2. Faktorenanalyse durchführen
Durch <Statistics><Data Reduction> <Factor> erhält man das Auswahlmenü für die Faktorenanalyse. Man wählt diejenigen Variablen aus, die in die Berechnung einfließen sollen, stellt ggf Optionen ein und bestätigt mit <OK>
3. Ausgabe
SPSS wirft folgende Output-Datei aus:

- - - - - - - - - - -   F A C T O R   A N A L Y S I S   - - - - - - - - - -
Analysis number 1   Listwise deletion of cases with missing values

Extraction   1 for analysis   1, Principal Components Analysis (PC)

Initial Statistics:
Variable     Communality  *  Factor   Eigenvalue   Pct of Var   Cum Pct
                          *
BILD             1,00000  *     1       2,74449       54,9         54,9
KREUZWOR         1,00000  *     2       1,88370       37,7         92,6
MATHE            1,00000  *     3        ,28589        5,7         98,3
MIND             1,00000  *     4        ,06505        1,3         99,6
PUZZLE           1,00000  *     5        ,02087         ,4        100,0

PC    extracted   2 factors


Factor Matrix


              Factor  1     Factor  2

BILD           -,21991        ,95524
KREUZWOR        ,85770        ,31660
MATHE          -,31275        ,91674
MIND            ,96914        ,15782
PUZZLE          ,96095        ,07521

Final Statistics:

Variable     Communality  *  Factor   Eigenvalue   Pct of Var   Cum Pct
                          *
BILD              ,96085  *     1       2,74449       54,9         54,9
KREUZWOR          ,83589  *     2       1,88370       37,7         92,6
MATHE             ,93822  *
MIND              ,96414  *
PUZZLE            ,92909  *

Clusteranalyse

Wenn es Zusammenhänge zwischen einer größeren Zahl von Untersuchungsvariablen gibt, werden sich die Merkmalsträger in einem hochdimensionalen Achsenkreuz in bestimmter Weise "klumpen". Dies "Klumpen" (engl.: Cluster) zu isolieren und auf der Grundlage der eventuellen Isolationserfolge dann zu inhaltlichen Interpretationen der beobachteten Zusammenhänge zu gelangen, ist Aufgabe der Cluster-Analyse.
Die Clusteranalyse teilt also viele, multivariate und durch einen festen Satz von Merkmalen beschriebene Untersuchungsobjekte nach Maßgabe ihrer Ähnlichkeit in homogene Gruppen oder Cluster ein, die allerdings extern möglichst gut voneinander seperierbar sein sollen. Die Ähnlichkeit bzw. Unähnlichkeit hängt von den Merkmalen der Objekte ab, diese müssen durch sorgfältige inhaltliche Überlegungen begründet werden.
Methodisch gesehen mißt die Clusteranalyse Abstände zwischen Merkmalsträger. Wertepaare, die in geringem Abstand vorkommen, werden in gemeinsame Klumpen aufgenommen. Das verwendete Distanzmaß ist die euklidische Distanz, die nach dem Satz des Pythagoras berechnet wird. Voraussetzung: Die Variablen müssen unabhängig sein, bei Korrelation kommt es zu Problemen mit dem Distanzmaß.

Unterschied Varianzanalyse - F-Test

Beim F-Test Test werden die Varianzen zweier Grundgesamtheiten bewertet. Stammen sie aus einer GG? Gibt es einen signifikanten Unterschied?
Varianzanalyse: Stammen zwei oder mehrere Mittelwerte aus der gleichen Grundgesamtheit?

Begriffe Statistik C

Chi-Quadrat-Verteilung
Chi-Quadrat-Test
Dichtefunktion
* Exogene Variablen
Faktorenanalyse
Faktorladung
Freiheitsgerade
F-Verteilung
Gamma-Funktion
Gamma-Verteilung
Interaktion
Interaktion bei der zweifaktoriellen Varianzanalyse
Konfidenzbereich
Ladung
Ladungskoeffizient
Linearitätshypothese
* Methode der kleinsten Quadrate
Momentenmethode
* Multiple Regressionsrechnung
* Multiples Regressionsmodell
* Rangkorrelationskoeffizient
* Rangkorrelationskoeffizienten von Spearman
* Regressionskoeffizienten
* Regressionskoeffizient, partieller
Streuung der Standardabweichung
Student-Verteilung/t-Verteilung
Varianzanalyse zweifacher Klassifikation
Varianzquotiententest
Wechselwirkungen
Zufallsvariable