Unter
der Güte eines Tests versteht man die Wahrscheinlichkeit, keinen Fehler
der 2. Art zu begehen, also eine unkorrekte Nullhypothese auch als falsch zu
erkennen. Die Höhe der Wahrscheinlichkeit (1-
) bestimmt demnach die
Güte (oder Trennschärfe) des Testes und folglich wird ein
möglichst kleiner
-Fehler angestrebt. (vergleiche auch
- und
-Fehler, S. 6). Der
-Fehler tritt auf, da statistische
Testverfahren auf die Widerlegung der Nullhypothese ausgerichtet sind.
Die Abhängigkeit der Güte (1-
) von dem Wert der
Alternativhypothese wird als Gütefunktion bezeichnet, sie bildet bei einem
zweiseitigem Test eine napfförmige Kurve. Die Gütefunktion weist
jedem denkbaren Wert des Grundgesamtheitsparameters die Wahrscheinlichkeit
für den Fehler 2. Art zugeordnet (Trennschärfefunktion).
Je höher die Voraussetzungen für ein Testverfahren sind, desto
höher ist im allgemeinen auch die Güte des Tests. Ein Test, der
Normalverteilungen und Streuungsleichheit wie z.B. der t-Test voraussetzt, hat
im Vergleich zu verteilungsunabhängigen Tests, wie z.B. Schnelltests eine
weitaus größere Trennschärfe.
Bei
einigen Prüfsituationen können verschiedene Testverfahren
konkurrieren (z.B. der Mediantest gegen den Vorzeichentest). Es ist also z.B.
möglich, daß ein Verfahren gewählt wird, das nur wenige
Voraussetzungen benötigt, das aber bezüglich der Testgüte
(Vermeidung des
-Fehlers) eingeschränkt ist.
Die Effizienz macht nun einen qualitativen Vergleich der konkurrierenden Tests
möglich. Die finite relative Effizienz wird bemessen durch den Quotienten
der Stichprobenumfänge
.
n1 ist der Stichprobenumfang des "besseren" (z.B. verteilungsgebundenen) Tests, n2 ist der Umfang des "einfacheren" (verteilungsfreien) Tests.
Beträgt der Quotient nun beispielsweise n1=90%, so bedeutet dies, daß die Stichprobe II einem Umfang von n2=100% hat, der Stichproben I jedoch nur n1=90% von n2 genügt, um ein gleichwertiges Ergebnis zu erreichen. So ist das Prüfverfahren I nicht nur ebenbürtig, sondern durch das geringere n sogar billiger und damit Prüfverfahren II vorzuziehen.
Sind die Quotienten jedoch über 90%, sind die "einfachen" Tests jedoch nur
unwesentlich teurer und ungenauer.
interessierender Test |
Effizienz |
konkurrierender Test |
Mediantest |
ca.
95% (bei kleiner Stichprobe) |
t-test |
U-Test |
ca. 95% |
t-Test |
H-Test |
ca. 95% |
F-Test |
Rsp |
ca. 91% |
R (nach Beavis/Pearson) |