Die einfache lineare Regressionsanalyse sucht nach einer linearen Gleichung, die
den Zusammenhang zwischen
und
zum
Ausdruck bringt.
Voraussetzung:
und
sind
mindestens intervall-, d.h. metrisch skaliert.
Begriffe:
X: exogene Variable = Einflußfaktor = erklärende Variable =
Regressor = unabhängige Variable
Y: endogene Variable = Zielvariable = abhängige Variable =
erklärende Variable = Regressand
Schätzgleichung: Gleichung, die exakt die Stichprobe beschreibt
Folgende Probleme lassen sich mit der linearen Einfachregression lösen:
a) mathematischen Art der Beziehung zwischen x und y liefert die Regressionsgleichung
b) Stärke der Beziehung liefert den Korrelationskoeffizienten r (Bravais-Pearson)
Ein reales Problem kann in die folgende angemessene formale Form übersetzt
werden. Zwischen X und Y besteht ein Zusammenhang, der durch die Gleichung
zum
Ausdruck gebracht werden kann.
Jeder Wert von Yi läßt sich aus zwei Komponenten
zusammengesetzt auffassen:
:
Wert, den yi annehmen würde, falls der Zusammenhang zwischen X und Y
streng deterministisch (sprich linear) wäre.
ui : Wert, um den yi von seiner deterministischen
Komponente [alpha]+[beta]xi abweicht (Abweichung zwischen dem realen
Wert und der später zu berechnenden Regressionsgerade), ui ist
der Wert der Störgröße ui. Ui
spezifiziert den stochastischen Teil des Zusammenhangs.
Ui läßt sich als Zufallsvariable auffassen, da oft nicht
angegeben werden kann, welchen Wert Ui bei vorgegebenem Wert xi
annimmt. Ui läßt sich aber auch als Störvariable auffassen, da
die ui die Abweichungen von einer linearen Regressionsfunktion darstellen.
Das nun beschriebene Annahmensystem besteht aus verschiedenen
Chrakterisierungen der Störvariablen

Die
Regressionsgleichung der Stichprobe ergibt sich durch die Gleichung:
,
wobei di die Summe der Schätzfehler, d.h. die Summe der
Differenzen zwischen
und
,
ist. Der Schätzfehler heißt auch Residuum, die Summe Residuen.
Diese Gleichung zur exakten Beschreibung ist (leider) nicht linear, daher
benötigt man als exakte Beschreibung die Gleichung der Regressionsgerade
:
Die Gleichung der Schätzgerade
lautet:![]()
Um die beste Regressionsgerade zu bestimmen
a) soll die Summe der Schätzfehler 0 sein, d.h. die einzelnen Fehler
sollen sich aufheben, d.h. die Gerade muß durch
und
laufen
b) die Zahl der Schätzfehler muß minimal sein
Um
die Parameter a und b einer Regressionsgraden so zu bestimmen, daß die
Gerade den beobachteten Wertepaaren optimal angepaßt ist, muß die
Summe der quadrierten Abweichungen der beobachteten Yi von den
rechnerischen Yt ein Minimum ergeben. D.h. die Regressionsgerade ist
dann optimal berechnet, wenn die Summe der Abweichungsquadrate minimal ist.
![]()
Durch partielle Ableitung und Nullsetzen dieser Ableitungen ergeben sich die
Normalgleichungen zur Bestimmung der Koeffizienten einer linearen
Kleinste-Quadrate-Reressionsfunktions. Löst man das System der
Normalgleichungen nach a und b auf, erhält man die
Regressionskoeffizienten a und b:
Für eine einfache Regressionsgleichung ergeben sich die
Regressionskoeffizienten:

Eine
univariate Regressionsfunktion hat die Funktion
![]()
Dabei bedeuten:
Werte auf der X-Achse
Werte auf der Regressionsfunktion
Man nennt diese Werte auch zu erwartende oder theoretische Werte, weil diese
Y-Werte in Abhängigkeit von Veränderungen der Variablen X zu erwarten
wären, wenn die Regressionslinie den Zusammenhang zwischen X und Y korrekt
wiederspiegelt.
Insoweit kommt in der Regressionsfunktion selbst eine Hypothese über den
vermuteten Zusammenhang zwischen X und Y zum Ausdruck.
a Ordinatenabschnitt der linearen Funktion
b Steigung (= Tangens des Steigungswinkels) der Funktion
Die Koeffzienten a und b spezifizieren den deterministischen Teil des
Zusammenhangs und stellen die wahren Parameter für die gesamte Population
her.
Zwischen
und
und
bestehen
verschiedene Beziehungen:
wenn
beide Merkmalswerte unkorreliert sind
wenn
das Streuungsdiagramm auf einer Geraden mit positiver oder negativer Steigung
liegt
Je größer
,
desto stärker werden die empirischen Y-Werte durch die theoretischen
y-Werte bestimmt/determiniert.
Die
bivariate Regressionsrechnung will die Beziehung der drei Merkmal
X1, X2 und Y klären. Y ist die Variable, die
erklärt werden soll, hängt also statstistisch von X1 und
X2 ab.
Gesucht ist eine Gleichung für die Geraden durch diesen dreidimensionalen
Raum. Diese Gleichung ermöglicht es wie bei der einfachen
Regressionsrechnung, die Tendenz der Abhängigkeit zwischen Y und
X1 und X2 soll durch eine lineare Funktion der Art
bestimmt
werden,
wobei:

Um die Regressionskoeffizienten zu bestimmen, wendet man die Methode der
kleinsten Quadrate an:
Durch
Nullsetzen der partiellen Ableitungen erhält man ein System von
Normalgleichungen, die ein lineares Gleichungssystem mit drei Unbekannten.
Löst man dieses System auf, ergeben sich die folgenden die
Regressionskoeffizienten: [à Schwarze, S. 159]

Bei
einer statistischen Erhebung in den USA wurden von 20 Bauernhöfen die
bewirtschaftete Fläche X2 (in 10 acres; 1 acre=040467 ha), die
Anzahl der unterhaltenen Milchkühe X2 und das erzielte
Jahreseinkommen Y (in 10 Dollar) ermittelt. Die Daten stammen aus den
späten 20er Jahren. Man erhielt folgendes Ergebnis:
| X1
|
18
|
0
|
14
|
6
|
1
|
9
|
6
|
12
|
7
|
2 |
17 |
15 |
7 |
0
|
12
|
16
|
2
|
6
|
12
|
15
|
| X2
|
6
|
22
|
18
|
8
|
12
|
10
|
17
|
11
|
16
|
23
|
7
|
12
|
24
|
16 |
9 |
11 |
22 |
11 |
16 |
8 |
| y
| 96
|
83 |
126 |
61 |
59 |
90 |
82 |
88 |
86 |
76 |
102 |
108 |
96 |
70 |
80 |
113 |
76 |
74 |
98 |
80
|


Die Korrelationsrechnung dient dazu, die Stärke des Zusammenhangs zwischen zwei Untersuchungsvariablen in einer einzigen statistischen Maßzahl zum Ausdruck zu bringen. r ist eine dimensionslose Größe
Voraussetzung für die Anwendung des Korrelationskoeffizienten von Bravais-Pearson sind mindestens intervallskalierte Daten.
![]()
- r=-1 maximaler reziproker Zusammenhang, d.h. mit sehr hoher Wahrscheinlichkeit nehmen die Y-Werte tendenziell ab, wenn die Werte der Variablen X zunehmen
- r=0 kein Zusammenhang zwischen X und Y
- r=+1 maximaler gleichgerichteter Zusammenhang, d.h. mit sehr hoher Wahrscheinlichkeit nehmen die Werte der Variablen Y tendenziell zu, wenn die X-Werte zunehmen.
heißt Determinationskoeffizient oder Bestimmtheitsmaß.
gibt an, welcher Anteil der Streung von Y durch die Regressionsgerade "bestimmt" oder "erklärt" werden kann. Anders ausgedrückt: Der Determinationskoeffizient gibt an, wie groß der Anteil der Varianz der Untersuchungsvariablen ist, der sich auf die Variation der einen exogenen Variablen zurückführen läßt.
Der Determinationskoeffizient hat seinen Namen daher, daß er denjenigen Anteil an der Varianz der Y-Werte angibt, der durch die Variation der X-Werte determiniert wird. Dies geht auf das Prinzip der Varianzzerlegung zurück.
In jedem konkreten Anwendungsbeispiel kann man davon ausgehen, daß die Y-Werte streuen. Diese Streuung kann mit der Varianz (quadrierte Standardabweichung) gemessen werden. Die Aufgabe der Regressionsrechnung kann man auch so erklären, daß man fordert, eine Variable (X) zu finden, die die interessierende abhängige Variable (Y) beeinflußt und in diesem Sinne "statistisch erklärt". "Erklären" bedeutet hier, daß die Veränderungen der Variablen statistisch zurückgeführt werden auf Veränderungen der Variable X. Das bedeutet aber weiterhin, daß ein mehr oder weniger großer Teil der Varianz von Y dadurch statistische erklärt wird, daß die Variation der Variablen X als statistischer Erklkärungsgrund angenommen wird.
Formal sieht das folgendermaßen aus:
Die Variation der Abhängigen Y (Var(y)) läßt sich in zwei Teile zerlegen:
Es besteht also folgender Zusammenhang:
- 1. Teil:
: Variation der zu erwartenden (theoretischen) Y-Werte, die auf der Regressionsgeraden liegen
- 2. Teil:
Reststreuung, d.h. Variation der Y-Werte um die Regressionsgerade herum
=Restwerte=
)
Rechnet man diese Varianzen aus, stellt man fest, daß der prozentuale Anteil vonan der Gesamtvarianz var(y) mit dem numerischen Wert des Determinationskoeffizienten übereinstimmt.
- Je höher der Wert des Determinationskoeffizienten ist (d.h. je stärker der Zusammenhang zwischen x und y), desto kleiner ist die Restreuung, weil sich die Punkte je in diesem Fall sehr eng um die Regressionsgerade herum streuen, desto höher ist der Anteil von var(yt) an der Gesamtstreuung.
Voraussetzung: ordinalskalierte Daten
Der Rangkorrelationskoeffizient beruht nicht auf den direkten Merkmalsausprägungenbzw
, sondern auf den zugeordneten Rangnummern
. Der Rangkorrelationskoeffizient von Spearman ist der auf diese Rangnummern
angewandte Bravais-Pearson-Korrelationskoeffizient, aus diesem Grunde ist auch der Wertebereich für
mit dem von r identisch! Anders ausgedrückt ergibt sich
aus r, wenn man dort die X- und Y-Werte durch deren Rangplätze ersetzt. Nach einigen Umformungen ergibt sich die obige Formel.
Vorgehensweise: Die Daten müssen der Größe nach sortiert sein, erst danach werden die Ränge vergeben. Haben mehrere Merkmalsträger den gleichen Rang inne, erhalten sie den gleichen (gemittelten) Rangplatz, die Rangplätze davor und danach bleiben entsprechend leer.
Entsprechend der Formel subtrahiere ich den jeweiligen Rang yi von xi, quadriere das Ergebnis und addiere alle Ergebnisse für xi, i=1...n usw.