Ein statistischer Test ist ein Verfahren, das auf Grund eines empirischen Befundes, d.h. von Stichprobenergebnissen, darüber entscheidet, ob eine statistische Hypothese (Annahme oder Behauptung über die unbekannte Verteilung einer Zufallsvariablen) akzeptiert oder verworfen wird.
Ein
Hypothesentest besteht aus den folgenden sechs Schritten:
Wird
bei einer statistischen Entscheidung nur eine einzige Hypothese daraufhin
überprüft, ob diese Hypothese nicht falsch ist, so nennt man
die dazu verwendeten Tests Signifikanztests.
Signifikanztests prüfen also die Wahrscheinlichkeit dafür, beim
Schluß von der Stichprobe auf die Grundgesamtheit einen Fehler erster Art
zu begehen.
Anpassungstests prüfen Hypothesen über die Verteilung einer Zufallsvariablen z.B. H0: F(x)=F0(X), sie vergleichen beobachtete Verteilungen in einer Stichprobe mit einer erwarteten Verteilung. Der Anpassungstest prüft also, mit welcher Wahrscheinlichkeit eine Stichprobe aus einer Grundgesamtheit stammen kann, für die die erwartete Verteilung gilt. Die einfachste Form ist der Binominaltest.
Anteilswerttests prüfen Hypothesen über die Gleichheit von
Anteilswerten. Eine typische Hypothese lautet: Die GG und die Stichprobe sind
gleich verteilt: F0(x)=F(x) (à Binomialtest).
Zusammenhang zwischen Anteilswerts- und Anpassungstest
Betrachtet man nun zunächst nur den dichotomen Fall, bei dem die
Zufallsvariable nur zwei Werte realisieren kann, so läßt sich diese
Verteilungshypothese auch vereinfachend als Hypothese über den Anteilswert
in der Grundgesamtheit formulieren: H0:
=
0. Die
Wahrscheinlichkeit
0 ist einerseits die behauptete
Wahrscheinlichkeit, daß bei einem Zufallszug ein Element einen bestimmten
der beiden möglichen Werte realisiert, andererseits handelt es sich um
eine Hypothese über die zu erwartende relative Häufigkeit von einer
der beiden Klassen, also einem Anteilswert, der gleichzeitig die Verteilung der
Zufallsvariablen bestimmt.
Beide, der Anteilswerttest und der Anpassungstest, testen nun inwieweit die
Unterschiede zwischen den beobachteten und den theoretischen Werten
zufällig oder signifikant sind und beziehen sich dabei auf die relative
Häufigkeit der einzelnen Kategorien. Insofern läßt sich z.B.
der Binomialtest sowohl als Anteilswerttest als auch als Anpassungstest
interpretieren.
Verwendet man z.B. anstelle eines H-Tests mit mehr als zwei unabhängigen Stichproben mehrere U-Tests als Einzeltests, so werden diese Einzeltests als multipler Test angesehen. Zu beachten ist hierbei besonders, daß bei den hintereinandergeschalteten Einzeltests sich die Wahrscheinlichkeit des Fehlers 1. Art mit der Anzahl des Tests vergrößert. Bei einem Vergleich muß dies unbedingt berücksichtigt werden.
Bei
einem konservativen Test ist die Prüfvariable diskret verteilt (z.B.
U-Test). Es gibt für ein vorgegebenes Signifikanzniveau keine Werte zum
Beispiel für ur, die die Gleichung P(u<=ur)=5% erfüllen, deshalb
ersetzt man die Gleichung durch die Ungleichung P(u<=ur)<=
%. Man
wählt also generell als Rückweisungspunkt jenen Wert, der zu einem
Signifikanzniveau von höchsten
führt. Das vorgegebene
Signifikanzniveau kann also praktisch erheblich unterschritten werden. à
Man verhält sich konservativ und begünstigt die Annahme der
Nullhypothese.
Ein exakter Test ist ein Test, der für die zu testende Prüfvariable die exakt zuständige Stichprobenverteilung verwendet. Ein exakter Test approximiert also nicht. Exakte Test sind z.B. der Fisher-Test, der Binomial-Test, der McNemar-Test. Nicht exakt arbeitet zum Beispiel ein Test, bei dem man nach dem Zentralen Grenzwert-Theorem die Normalverteilung approximativ für eine Binomialverteilung verwendet.
Hypothesen
können nie letztendlich verifiziert oder falsifiziert werden. Die
"Annahme" einer Hypothese sagt nur: die vorliegende statistische Evidenz reicht
nicht aus, um die Hypothese zu verwerfen.
Für die richtige bzw. falsche Schlußfolgerung eines Tests gilt
folgende Fehlersystematik.
Schlußfolgerung des Tests |
H0 ist richtig |
Ho ist falsch |
Ho-Annahme |
richtige Schlußfolgerung |
Fehler,
2. Art ( |
Ho -Ablehnung |
Fehler
1. Art ( |
richtige Entscheidung |
Das
Signifikanzniveau eines Testverfahrens ist dabei die Wahrscheinlichkeit, mit
der die Nullhypothese abgelehnt wird, obwohl diese in Wahrheit zutrifft. Das
Signifikanzniveau ist damit gleich dem Fehler 1. Art (
-Fehler). Der
-Fehler heißt auch Überschreitungswahrscheinlichkeit.
Wenn der
-Fehler >=
(bzw
/2), dann wird die
H0 verworfen.
Die Lage der Stichprobenverteilung zur Alternativhypothese bestimmt die
Wahrscheinlichkeit des
-Fehlers.
und
stehen in reziprokem
Verhältnis zueinander.

Bei gleichen Bedingungen (ceteris paribus) wird der
-Fehler kleiner,
1. wenn die Differenz zwischen µo und µa
zunimmt (die linke Kurve wandert nach links)
2. wenn der
-Fehler erhöht wird (die Grenze des
-Fehlers
wandert nach rechts)
3. Wenn der Umfang n vergrößert wird
Rechnerisch bestimmt man
, indem man die
Rückweisungspunkte xr1 und xr2, die den
Annahmebereich der Ho begrenzen, mit den Werten der alternativen
Stichprobenverteilung standardisiert. Die Fläche des Intervalls
(entspricht der Wahrscheinlichkeit im Prüfpunkt) ist der
-Fehler.
Beispiel zur Berechnung des
-Fehlers
In einer Stichprobe von n=100 Zigarettenrauchern, fand man heraus, daß
diese im Durchschnitt
=7
Zigaretten pro Tag rauchten (
=4). Dem steht die Annahme entgegen,
daß Zigarettenraucher im Durchschnitt µ0=8 Zigaretten pro
Tag rauchen. Der durchgeführte Signifikanztest für
=5%
führte zu den Rückweisungspunkten
und
(
.
Die H0 konnte angenommen werden, da der Stichprobenbefund von 7 im
Annahmebereich lag.
Um den
-Fehler zu berechnen, unterstellt man, daß der wahre
Grundgesamtheitsparameter µa so groß ist wie der
Stichprobenbefund
.
Die alternative Stichprobenfunktion ist also verteilt nach
=N(7,4;0,4).
Gesucht ist
.
Man standardisiert
:
![]()
sowie
.
Die tabellierte Verteilungsfunktion liefert das Ergebnis
![]()
Ergebnis: Sollte also der tatsächliche durchschnittliche
Zigarettenverbrauch 7,4 betragen, so beträgt die Wahrscheinlichkeit 67,7
Prozent, unter den gegebenen Umständen (µ,
...) einen Fehler
zweiter Art zu begehen.
Fazit
Das Verhältnis von
und
muß optimiert werden, um eine
optimale Zuverlässigkeit des Tests zu erreichen.
Will man
und
gleichzeitig verringern, muß man den
Stichprobenumfang ehöhen.
Man
unterscheidet einfache und zusammengesetzte Hypothesen:
eine einfache Hypothese (Punkthypothese) besteht aus der Behauptung eines
bestimmten Wertes, z.B. µ=10.000 km.
Eine zusammengesetzte Hypothese umfaßt ein Werteintervall, z.B.
µ>=10.000 oder µ!=8.000 km.
Man unterscheidet
rechtsseitige Alternativhypothesen:
der Alternativwert µa
liegt rechts vom µo, entweder als Punktwert oder
Werteintervall.
Beispiel: ein rechtsseitiger Test liegt vor, wenn bei einem
µo=8.000 ein Alternativwert von µa=10.000 oder
sogar ein Werteintervall von µo>8000 getestet wird.
linksseitige Alternativhypothesen
beidseitige Alternativhypothesen
Unter einer spezifizierter Verteilungshypothese versteht man eine
Hypothese, bei der ein oder mehrere explizite Parameter aus dem
Stichprobenbefund heraus geschätzt werden müssen.
Eine Homogenitätshypothese wird z.B. beim Chi-Quadrat-Homogenitätstest zugrunde gelegt. Sie behauptet, daß ein Merkmal in den zwei oder mehr Stichproben jeweils zugrundeliegenden Grundgesamtheiten jeweils die gleiche Verteilung hat. Genau genommen impliziert die Homogenitätshypothese, daß die empirischen Häufigkeiten mit den theoretischen Häufigkeiten übereinstimmen.
1.
Meßniveau als wichtigstes Kriterium
Das Meßniveau ist das grundsätzliche und wichtigste
Kriterium für statistische Prüfverfahren. Man
unterscheidet:
Prüfverfahren bei nominalem Meßniveau
4. abhängige/unabhängige Stichproben
5. Stichprobenumfang
Ein weiteres Klassifizierungskriterium ist die Größe
der Stichprobe. Bei genügend großem Stichprobenumfang kann man nach
dem Grenzwertsatz von Laplace-Moivre die interessierende Variable mittels
einfach zu handhabender Verteilungen ausreichend gut nähern.
6. parameter/parameterfreie Tests
Man unterscheidet parameter und parameterfreie Tests.
Beim Parametertests interessieren konkrete Werte wie
,
und
µ. Ein parametrisches Prüfverfahren macht also Aussagen über
Grundgesamtheitsparameter bzw. die in der Verteilungsfunktion einer
Untersuchungsvariablen auftretenden Konstanten. Dazu müssen alle Paramter
der GG bekannt sein (was oft nicht gegeben ist à Problem). Bei einem
Parametertest hat jede der denkbaren Stichproben die gleiche
Realisationschance.
Bei parameterfreien Tests (auch nichtparametrische Tests bzw. Verteilungstests genannt) wird der Typ der Zufallsverteilung überprüft: Man entscheidet, ob eine aus n Beobachtungen bestehende Häufigkeitsverteilungen bestehende Nullhypothese, die man aus einer Zufallsstichprobe gezogen hat, mit einer Null-Hypothese vereinbar ist, die man über die Verteilung in der Grundgesamtheit aufgestellt hat.
7. verteilungsfreie/verteilungsgebundene Testverfahren
verteilungsfreier Test: über die Verteilung der Grundgesamtheit
keinerlei Voraussetzungen gemacht. Man bezeichnet verteilungsunabhängige
Tests, da Grundgesamtheitsparameter keine Rolle spielen, auch als
parameterfreie Tests.
Verteilungsfreie- oder unabhängige Verfahren werden allgemein angewendet
bei nicht normalverteilten Grundgesamtheiten, bei ordinal- oder
nominalskaldierten Werten, zur Kontrolle eines parametrischen Tests sowie als
Schnelltest.
Bei verteilungsgebundenen Tests, wie z.B. dem t-Test, hängt die
Verteilung der Prüfvariablen von der Verteilung der Grundgesamtheit (hier
Normalverteilung und Streuungsgleichheit) ab. Diese Prüfverfahren
betreffen durchweg metrisch skalierte Untersuchungsvariablen. Eine Im
allgemeinen haben verteilungsfreie Tests eine geringere Güte als
verteilungsabhängige Tests, da sie oft nur einen Teil der im
Zahlenmaterial enthaltenden Informationen auswerten.
verteilungsgebundener Test: die Verteilung der Untersuchungsvariablen
hängt von der Verteilung der Grundgesamtheit ab.
Bezeichnung
für die Anzahl von Werten, die innerhalb der Begrenzungen eines Systems
von Werten frei variieren oder gewählt werden können. Anders
formuliert: Die Anzahl der Freiheitsgrade v ist definiert als die
Differenz aus dem Stichprobenumfang n und der Anzahl k der aus den n
Stichprobenmeßwerten berechneten Parameter v=n-k.
Freiheitsgrade werden auch als explizite Parameter verwendet, so ist v
der einzige explizite Parameter der Chi-Quadrat-Verteilungsfunktion.