Der
-Anpassungstest
ist prinzipiell auch für ordinalskalierte Daten anwendbar. Er
berücksichtigt jedoch nicht die Größer-Kleiner-Relation, die
zwischen den Stichproben besteht.
3.1 Mediantest (=Vorzeichentest)
Literatur:
Tiede: S 74 ff
3.1.1 Testsituation
Die
Hypothese lautet: der Median der Grundgesamtheit hat einen bestimmten Wert
c.
Hypothese: Ho:
0,5=c (c ist irgendein Wert),
0,5 ist der Median der Grundgesamtheit
Lösungsansatz:
Man vergleicht jeden Stichprobenwert xi mit dem Hypothesenwert c.
Der
Mediantest wird häufig als Schnelltest vorgeschoben: Wenn die
Ho im Median-Test verworfen wird, gilt generell, daß ein
besserer Test auch zur Verwerfung führt. Umgekehrt gilt bei einer Annahme
der Ho nicht unbedingt, daß auch der bessere Test zu diesem
Ergebnis führen würde.
Ein Vorteil des Mediantestes ist es, daß er auch bei kleinen Stichproben
angewendet werden kann. Der größte Nachteil besteht in der Tatsache,
daß er das ordinale Meßniveau nicht nutzt, da er nur auf
Größer/Kleiner-Relationen zu einem bestimmten Wert c (Wert des
Medians) Informationen gibt à die Rangfolgen bei ordinalem
Meßniveau werden nicht genutzt.
Liegt eine metrische Skalierung vor und ist die Grundgesamtheit symmetrisch
verteilt, dann ist der Mediantest ein Konkurrent zum t-Test.
Den Mediantest kann man mit oder ohne störende Werte (Ausreißer?)
durchführen.
3.1.4 Beispiel (Tiede S. 74 unten)
7
von 8 Werten einer Stichprobe liegen über dem Hypothesenwert der
Grundgesamtheit, d.h. v (Anzahl der positiven Vorzeichen)=7.
Frage: Ist der Unterschied zwischen vermutetem Grundgesamtheitsmedian und
Ergebnis
=0,5 (V folgt ja B(8;0,5)): Im
Gegensatz zum Mediantest berücksichtigt der Wilcoxon-Vorzeichen-Rangtest
auch die Information über die in Rängen ausgedrückte
Größe des Unterschieds zwischen jedem Stichprobenwert und dem
Hypothesenwert.
Geprüft werden soll: Der Grundgesamtheitsmedian der stetigen
Untersuchungsvariablen hat einen bestimmten Wert c.
Die Hypothese lautet also:
![]()
Jeder Stichprobenwert xi wird mit dem Hypothesenwert c verglichen.
1. Man ordnet die berechneten Differenzen |di= xi - c|der absoluten
Größe nach, zunächst ohne Beachtung des Vorzeichens.
2. |di|Rangplätze werden vergeben: der kleinste Wert |di|erhält den
Rang 1, der zweitkleinste den Rang 2. (Sind einige |di|gleich groß,
bekommen sie ihren Durchschnittsrang zugewiesen)
3. Man ordnet den Rangzahlen die entsprechenden di zu.
4. Man summiert die Rangzahlen getrennt für positive und negative
Vorzeichen.
!
5. Falls die Summe der Ränge für negative oder für positive
Differenzen "zu klein" oder "zu groß" ist, wird die Hypothese verworfen
(siehe Mediantest, S.18).
Bei einem Wilcoxon-Test bezieht man sich stets auf die absolut
kleinere, nicht die größere Summe der Ränge!
(Vereinbarung unter dem Volk der Statistiker)
Die Prüfgröße für den Wilcoxon-Test W ist formal definiert
als:
,
ai=0, falls di negativ ist, ai=1, falls
di positiv ist (oder umgekehrt).
3.2.3 Wertebereich und Verteilung von W
1.
W kann 0 sein, wenn in der Stichprobe alle Werte kleiner als der Median
sind.
2. W nimmt den größtmöglichen Wert ein, wenn alle Werte
größer als der Median sind. Der maximale Wert ergibt sich aus
![]()
3. W folgt einer diskreten Verteilung.
4. W ist symmetrisch.
3.2.4 Bemerkungen
1.
Der Wilcoxon-Vorzeigen-Rangtest ist effizienter als der Mediantest, da er auch
die Informationen über die Ränge verwendet
2. Bei großem Stichprobenumfang (n>25) und
>=0,05
läßt sich W durch die folgende Normalverteilung approximieren:

3. Der Wilcoxon-Test setzt Symmetrie in der Grundgesamtheit voraus, die
Prüfung der Symmetrie wird in der Praxis oft vernachlässigt.
4. Zwei Hypothesen können getestet werden:
a) Ho: der
Median der Grundgesamtheit hat einen bestimmten Wert c.
b) Ho:
Die Grundgesamtheit ist symmetrisch.
5. Die Rückweisungspunkte in der Formelsammlung auf S. 41 sind
linksseitig tabelliert.
6. Problem des mehrfachen Auftretens von Testwerten: Wenn beim
Mediantest mehrere Testwerte gleichgroß sind, ist das kein Problem, da
allein das Faktum der Abweichung vom Median beim Median zählt. Beim
Wilcoxon-Test wird durch das Zuweisen von Durchschnittsrängen das
Vorliegen der sogenannten "Bindungen" überwunden. Das stellt ein Problem
dar, das jedoch ab n>10 vernachlässigbar ist.
7. Der Wilcoxon-Test gehört mit einer Effizienz von 95 Prozent zu den
trennschärfsten parameterfreien Verfahren.
3.2.5 Beispiel (Tiede S. 77)
Ein
Lehrer hatte in der Vergangenheit die Durchschnittsnote 3 vergeben. Seiner
derzeitigen Schulklasse gab er Zensuren in der folgenden Häufigkeit:
Note
|
1
|
2
|
3
|
4
|
5
|
Häufigkeit
|
0
|
6
|
6
|
4
|
6
|
Geprüft
werden soll, ob sich die Schulklasse von anderen Schulklassen im
Notendurchschnitt unterscheidet. (5% Signifikanzniveau, beidseitig):
Ho: µ0,5=3
Zensur
|
di
|
Rang
für |di|
|
2
|
-1
|
5,5
|
2
|
-1
|
5,5
|
2
|
-1
|
5,5
|
2
|
-1
|
5,5
|
2
|
-1
|
5,5
|
2
|
-1
|
5,5
|
4
|
1
|
5,5
|
4
|
1
|
5,5
|
4
|
1
|
5,5
|
4
|
1
|
5,5
|
5
|
2
|
13,5
|
5
|
2
|
13,5
|
5
|
2
|
13,5
|
5
|
2
|
13,5
|
5
|
2
|
13,5
|
5
|
2
|
13,5
|
Berechnung
nach dem Mediantest:
Nach dem Mediantest ergibt sich: für n=16 (die
6 Schüler, die eine drei erreicht haben, fallen raus): v = 10 positive
Vorzeichen.
Die Rückweisungspunkte r1=3 und
r2=13 liest man in der Formelsammlung auf S. 40 ab (n=15,
=5%).
Da P(V<=3)<=0,025, P(V>=13)<=0,025 wird die Hypothese
Ho: µ0,5=3 angenommen.
Berechnung nach dem Wilcoxon-Vorzeichen-Rangtest
Die Summe der "negativen Ränge" beträgt w=33, d.h. der
Stichprobenwert ist 33.
Der Rückweisungspunkt wr ist in diesem Beispiel bei einem
beidseitigem Signifikanzniveau von 5 Prozent wr=30. (Formelsammlung;
S. 41)
Da also w>wr, ist die Hypothese nicht zu verwerfen, der
Unterschied ist zufällig.
3.2.6 Wilcoxon-Vorzeichen-Rangtest für verbundene Paare
Der
Wilcoxon-Vorzeichen-Rangtest für verbundene Paare nutzt die gegebenen
Informationen über die Differenz eines Meßwertpaares aus:
1. Die Differenz hat ein Vorzeichen.
2. Die Differenz hat einen Betrag.
Getestet wird, ob zwei verbundene Stichproben aus einer Gesamtheit stammen.
Das heißt, getestet wird auch, b sich die beiden Stichprobenmediane
signifikant voneinander unterscheiden:
![]()
Wie beim Wilcoxon-Vorzeichen-Rangtest wird die Prüfvariable
zugrunde gelegt. ai ist 0, falls (x1i -
x2i)>c
Mediantest
|
verbundene
Paare
|
µ0,5
|
1µ0,5-2µ0,5
|
x0,5
|
1x0,5-2x0,5
|
|di|=|xi-c|
|
|di|=|(x1i-x2i)-c|
|
Eine
neue winterharte Weizensorte (Sorte 2) wird mit einer gängigen
Standardsorte bezüglich des Ernteertrags verglichen. Man baut jeweils
beide Sorten in etwa gleichen, ansonsten zufällig gewählten
Standorten an und ermittelt die Erträge in kg pro Flächeneinheit. Es
werden Ränge verteilt, die folgende Tabelle ergibt sich:
di
|
-4
|
28
|
-5
|
20
|
17
|
3
|
9
|
13
|
Rg
(|di |)
|
2
|
8
|
3
|
7
|
6
|
1
|
4
|
5
|
ai
|
1
|
0
|
1
|
0
|
0
|
0
|
0
|
0
|
Der
Wilcoxon-Test prüft hier nicht nur die Frage des Mittelwertunterschiedes,
sondern prüft auch, ob beide Stichproben aus der gleichen Grundgesamtheit
stammen könnten.
Es gibt sich w=5. Dieser Wert liegt bei 5% Signifikanzniveau im Annahmebereich
der Nullhypothese, wie auch beim Vorzeichentest. Der Durchschnittsertrag der
Neuzüchtung ist nicht anders als der der Standardsorte. Der beobachtete
geringere Durchschnittsertrag hat sich aus zufälligen Gründen ergeben.
3.3 Kolmogoroff/Smirnov-Test (Ein-Stichproben-Anpassungstest)
Der
Kolmogoroff/Smirnov-Test verwendet im Gegensatz zum [chi]²-Anpassungstest
auch die Größer-Kleiner-Relation, die zwischen den Stichprobenwerten
besteht.
3.3.1 Testsituation
Der
Kolmogoroff/Smirnov-Test ist für zwei Problemfälle anwendbar, er
beantwortet die folgenden Fragen:
1. Stammt eine Stichprobe aus einer in einer bestimmten Weise verteilten
Grundgesamtheit? (Kolmogoroff/Smirnov-Einstichproben-Anpassungstest, s.u.)
2. Stammen zwei unabhängige Stichproben aus einer Grundgesamtheit? (siehe
Kolmogoroff/Smirnov-Zweistichproben-Anpassungstest, Tiede S. 104ff)
Getestet werden soll, ob die vorliegende (empirische) Verteilung
einigermaßen einer theoretischen Verteilung entspricht. Der
Kolmogoroff/Smirnov-Test benutzt dabei nicht die einfache
Häufigkeitsverteilung (wie beim Chiquadrat-Test).
Bei diesem Testverfahren wird die kumulierte Häufigkeitsverteilung
mit der entsprechenden theoretischen Verteilungsfunktion verglichen. Die
theoretische Verteilungsfunktion entspricht bei stetigen Variablen der
kumulierten Häufigkeit.
Die Nullhypothese lautet: Ho: F(x)=Fo(x), die
Alternativhypothese lautet: Ha: F(x)!=Fo(x)
Die Prüfvariable für den Kolmogoroff/Smirnov-Test lautet:
D.h. man berechnet zusätzlich zu den vorliegenden tatsächlichen
Wahrscheinlichkeiten FB(X)die erwarteten theoretischen
Wahrscheinlichkeiten Fe(X). Die maximale Differenz dmax
bildet den Stichprobenwert. Den Rückweisungspunkt dr liest man
für
% (zweiseitiges Signifikanzniveau) aus der Tabelle in der
Formelsammlung S. 42 ab.
Ist dmax>=dr wird die Hypothese abgelehnt.
3.3.3 Bemerkungen
1.
Die Verteilung von D ist nur bei metrisch skalierten
Untersuchungsvariablen exakt, man kann den Test aber auch bei klassifizierten
(gruppierten) Meßreihen anwenden, wenn gilt:
n>20 und
r (->Anzahl der Klassen) >5
2. Will man eine spezifizierte Verteilungshypothese (siehe
S. Fehler! Textmarke nicht definiert.) testen, sollte man den Test nur
mit Vorsicht verwenden.
3.3.4 Beispiel (Graff, S. 34)
Die
Altersverteilung von 50 Studentinnen zwischen 21 und 30 Jahren wurde
gemessen.
Die Hypothese lautet, daß das Alter in dem gemessenen Bereich von 21 bis
30 Jahren gleichverteilt sein soll. Die Prüfvariable D mißt
die Differenz der kumulierten relativen Häufigkeiten zwischen empirischer
und theoretischer Verteilung.
Empirisch
|
theoretisch
|
||||||
X
|
f
|
relativ
|
kumuliert
|
f
|
relativ
|
kumuliert
|
D
|
21
|
6
|
0,12
|
0,12
|
5
|
0,10
|
0,10
|
0,02
|
22
|
7
|
0,14
|
0,26
|
5
|
0,10
|
0,20
|
0,04
|
23
|
9
|
0,18
|
0,55
|
5
|
0,10
|
0,30
|
0,14
|
24
|
8
|
0,16
|
0,60
|
5
|
0,10
|
0,40
|
0,20
|
25
|
6
|
0,12
|
0,72
|
5
|
0,10
|
0,50
|
0,22
|
26
|
6
|
0,12
|
0,84
|
5
|
0,10
|
0,60
|
0,24
|
27
|
3
|
0,06
|
0,90
|
5
|
0,10
|
0,70
|
0,20
|
28
|
2
|
0,04
|
0,94
|
5
|
0,10
|
0,80
|
0,14
|
29
|
1
|
0,02
|
0,96
|
5
|
0,10
|
0,90
|
0,06
|
30
|
2
|
0,04
|
1,0
|
5
|
0,10
|
1,00
|
0,00
|
Summe
|
50
|
1,0
|
50
|
1,00
|
dmax steht in der letzten Spalte (-> der größte
Differenzwert): dmax=0,24.
Bei einem zweiseitigem Signifikanzniveau von
= 1 % schlägt man nun
für n=50 in der Tabelle in der Formelsammlung auf S. 42 den
Rückweisungspunkt dr nach.
Dabei nutzt man aus, daß für große n approximiert werden kann
nach:
.
Das angegebene Signifikanzniveau ist dann zwar 2 %, aber der Unterschied ist
akzeptabel. Es ergibt sich für
dr = 0,2164.
Ist dmax>=dr wird die Hypothese abgelehnt, hier ist
0,24>=0,2164, d.h. die Nullhypthese wird abgelehnt werden. Das Alter von den
Studentinnen ist nicht gleich verteilt.
3.4 Kolmogoroff/Smirnov-Test (Zwei-Stichproben-Anpassungstest)
3.4.1 Testsituation
Stammen
die beiden Stichproben aus GG, die die gleiche Verteilung aufweisen?
3.4.3 Testdurchführung
Die
Prüfvariable wird analog zum Kolmogoroff/Smirnov-Test
(Ein-Stichproben-Anpassungstest, s. S.22) berechnet:
.
d ist Realisation der Stichprobenvariablen D.
3.4.4 Beispiel
Zwei
Leichtathletikgruppen mit fünf bzw. sechs Leuten (n1=5,
n2=6) machen einen Fitnesstest, nachdem sie ein unterschiedliches
Wintertraining durchgeführt haben. Jeder Athlet kann bis zu 20 Punkte
erreichen. (Dieses Beispiel ist eigentlich kein korrekter Anwendungsfall
für den KS-2-Stichprobenanpassungsfall, da gegen die Faustregeln
n1+n2>35 verstoßen wurde. Da er aber rechnerisch
sehr aufwendig ist, habe ich dieses Beispiel mit kleinen n
gewählt).
x1j
|
5
|
10
|
15
|
17
|
12
|
|
x2j
|
6
|
6
|
7
|
9
|
9
|
13
|
H0: Stammen die beiden Stichproben aus einer Gesamtheit?
F1(x)=F2(X)
Ich berechne die kummulierten Einzelwahrscheinlichkeiten. Zunächst
sortiere ich alle Werte in einer gemeinsamen Stichprobe der Größe
nach, wobei doppelt vorkommende Werte herausgenommen werden.
x1j
|
5
|
10
|
15
|
17
|
18
|
|
x2j
|
6
|
6
|
7
|
9
|
9
|
13
|
gesamt
|
5
|
6
|
7
|
9
|
10
|
13
|
15
|
17
|
18
|
Fb1
|
0.2
|
0.2
|
0.2
|
0.2
|
0.4
|
0.4
|
0.5
|
0.9
|
1
|
Fb2
|
0
|
0.33
|
0.5
|
0.83
|
0.83
|
1
|
1
|
1
|
1
|
d
|
0.2
|
0.1
|
0.3
|
0.63
|
0.43
|
0.6
|
0.4
|
0.4
|
0
|
Werte
für Fb1
Für jeden Wert der "gesamt"-Zeile schaue ich zunächst, ob dieser
Wert aus der ersten Stichprobe stammt. Wenn er aus dieser Stichprobe stammt,
zähle ich, wie oft er in der Stichprobe vorkommt. Diese Zahl teile ich
durch die Anzahl der Elemente der Stichprobe1 (hier=5). Diesen Wert addiere ich
zum vorherigen Wert, der sich für die vorherige Zahl ergab. Wenn ein Wert
nicht aus der Stichprobe 1 stammt, ignoriere ich ihn und übernehme nur das
Ergebnis aus der Zelle der vorherigen Zahl. (Bsp: 10 stammt aus Stichprobe 1,
kommt einmal vor, also hat 10 den Anteilswert von 1/5=0.2 plus dem vorherigen
Wert von 0.2=0.4. 7,9,6 würde ich einfach ignorieren
Werte für Fb2
)
) siehe Formelsammlung)