Tigersprungschlucht China

Menu:

4.4 Bivariater Korrelationskoeffizient

Gegeben ist eine Datenmatrix mit 5 metrischen Variablen (Stichprobenumfang n=20). Wie ist vorzugehen, wenn Sie die Matrix der bivariaten Korrelationskoeffizienten bestimmen wollen, indem Sie
  1. das Tabellenkalkulationsprogramm EXCEL
  2. das Statistikprogramm SPSS

einsetzen? (4 Punkte)
Wo sehen Sie die Vorzüge der einzelnen Programme im Vergleich miteinander (2 Punkte)
a) Matrix der bivariaten Korrelationskoeffizienten mit Excel:
Var 1 Var 2 Var 3 Var 4 Var 5
Var 1 =PEARSON ($A$1:$A$20
;A1:A20)
=PEARSON ($A$1:$A$20;
B1:B20)
=PEARSON ($A$1:$A$20;
C1:C20)
=PEARSON ($A$1:$A$20;
D1:D20)
=PEARSON ($A$1:$A$20;
E1:E20)
Var 2   =PEARSON ($B$1:$B$20;
B1:B20)
=PEARSON ($B$1:$B$20;
C1:C20)
=PEARSON ($B$1:$B$20;
D1:D20)
=PEARSON ($B$1:$B$20;
E1:E20)
Var 3     =PEARSON ($C$1:$C$20;
C1:C20)
=PEARSON ($C$1:$C$20;
D1:D20)
=PEARSON ($C$1:$C$20;
E1:E20)
Var 4       =PEARSON ($D$1:$D$20;
D1:D20)
=PEARSON ($D$1:$D$20;
E1:E20)
Var 5          =PEARSON ($E$1:$E$20;E1:E20)
b) Matrix der bivariaten Korrelationskoeffizienten mit SPSS:
Die Eingabe funktioniert genauso wie ein einfacher bivariater Korrelationskoeffizient für zwei Variablen (s.o.)
PEARSON CORR problem requires 560 bytes of workspace.

                      - -  Correlation Coefficients  - -

             VAR00001   VAR00002   VAR00003   VAR00004   VAR00005

VAR00001     1,0000      ,4996     -,0482      ,2038     -,1073
            (   20)    (   20)    (   20)    (   20)    (   20)
            P= ,       P= ,025    P= ,840    P= ,389    P= ,652

VAR00002      ,4996     1,0000     -,0163      ,5473     -,1544
            (   20)    (   20)    (   20)    (   20)    (   20)
            P= ,025    P= ,       P= ,946    P= ,012    P= ,516

VAR00003     -,0482     -,0163     1,0000      ,5498     -,1495
            (   20)    (   20)    (   20)    (   20)    (   20)
            P= ,840    P= ,946    P= ,       P= ,012    P= ,529

VAR00004      ,2038      ,5473      ,5498     1,0000      ,1691
            (   20)    (   20)    (   20)    (   20)    (   20)
            P= ,389    P= ,012    P= ,012    P= ,       P= ,476

VAR00005     -,1073     -,1544     -,1495      ,1691     1,0000
            (   20)    (   20)    (   20)    (   20)    (   20)
            P= ,652    P= ,516    P= ,529    P= ,476    P= ,


(Coefficient / (Cases) / 2-tailed Significance)

" . " is printed if a coefficient cannot be computed
Preceding task required ,88 seconds elapsed.

(Coefficient / (Cases) / 2-tailed Significance)

" . " is printed if a coefficient cannot be computed

Preceding task required ,88 seconds elapsed.

b) Vorzüge und Nachteile der Programme
Die von mir verwendete Version Excel 5.0 ist gegenüber der Version SPSS 5.01 ungleich komfortabler in der Dateieingabe und Kommentierung. Dafür muß man die Formeln zur Berechnung der Korrelationskoeffizienten (mit ein bißchen Unterstützung durch das Auto-Ausfüllen von Excel) quasi per Hand erledigen. Änderungen im Datenmaterial (z.B. durch Korrekturen wegen falscher Werte) werden sofort in die Matrix übernommen, d.h. die Matrix wird automatisch korrigiert. Die Tabelle, die Excel auswirft, kann formatiert werden und steht optisch aufbereitet für andere Anwendungen zur Verfügung.
Im Gegensatz dazu ist die Berechnung bei SPSS wesentlich einfacher, ein Befehl muß nur ausgeführt werden, die Matrix inkl. Zusatzinformationen wird automatisch ausgeworfen. Ich vermute, daß SPSS für große Datensätze wesentliche Geschwindigkeitsvorteile bietet.

4.5 X2-Unabhängigkeitstest mit irgendeinem Programm oder Programmiersprache

Gegeben ist die bivariate Häufigkeitsverteilung für zwei nominalskalierte Variablen, die auf der Grundlage einer großen Zufallsstichprobe gewonnen wurde. Wie ist vorzugehen, wenn Sie PC-gestützt die Hypothese prüfen wollen, daß zwischen beiden Variablen Unabhängigkeit besteht. Welches Softwareprogramm Sie dabei verwenden, bzw. ob Sie selbst programmieren (und ggf. in welcher Sprache) bleibt Ihnen überlassen [WS96, 6P]

 
Lösung mit Excel:
Chi-Quadrat-Unabhängigkeitstest. Einfügen-Funktion Chitest(beobachtete Daten,erwartete Daten) liefert die Prüfgröße (Teststatistik) mit den entsprechenden Freiheitsgrade

Lieblingsgetränk Bier Cola
Männer 1530 1535
Frauen 1800 1801
0,8967434 CHITEST(B3:B4;C3:D4)

 
Lösung mit SPSS:
1. variablen definieren (Partei, Geschlecht)
2. Daten kodieren (<data value> für "Partei" à 1="CDU", 2="SPD"...>
3. eingeben (jeder Fall muß einzeln eingegeben werden)
1,00 1 (Fall 1: CDU, männlich)
2,00 0 (Fall 4: SPD, weiblich)
4. <statistics><crosstabs> auswählen, die Variable für die Spalte und für die Reihe festlegen
5. unter <statistics> <chi-square> auswählen
SPSS wirft folgende Datei aus:

SEX  Geschlecht  by  PARTEI  Partei

                    PARTEI                                  Page 1 of 1
            Count  |
                   |CDU      SPD      fdp      Grüne    sonstige
                   |                                               Row
                   |    1,00|    2,00|    3,00|    4,00|    5,00| Total
SEX        --------+--------+--------+--------+--------+--------+
                0  |     3  |     5  |     2  |     3  |     1  |    14
  weiblich         |        |        |        |        |        |  46,7
                   +--------+--------+--------+--------+--------+
                1  |     4  |     5  |     3  |     2  |     2  |    16
  männlich         |        |        |        |        |        |  53,3
                   +--------+--------+--------+--------+--------+
            Column       7       10        5        5        3       30
             Total    23,3     33,3     16,7     16,7     10,0    100,0

      Chi-Square                  Value           DF               Significance
--------------------          -----------        ----              ------------
                                                         Überschreitungswahrs.¯
Pearson  (klass chi-quadrat)      ,74617           4                  ,94552
Likelihood Ratio                  ,75242           4                  ,94471
Mantel-Haenszel test for          ,00035           1                  ,98508
      linear association

Minimum Expected Frequency -    1,400
Cells with Expected Frequency < 5 -     9 OF    10 ( 90,0%)

Number of Missing Observations:  1

4.6 Normalverteilung mit EXCEL prüfen

Gegeben sind Angaben zur Körpergröße zufällig ausgewählter erwachsener männlicher Personen auf der Basis einer Zufallsstichprobe (n=1000). Wie ist vorzugehen, wenn sie mit dem Tabellenkalkulation EXCEL die Hypothese testen wollen, daß die Untersuchungsvariable in der GG normalverteilt ist.
Lösung:
Liefert die zweiseitige Prüfstatistik für einen Gausstest (Normalverteilung). Bei einem Gausstest wird,
bezogen auf eine Datenmenge, (Matrix) für x ein standardisierter Wert erzeugt und als Ergebnis die
zweiseitige Wahrscheinlichkeit der Normalverteilung geliefert. Mit dieser Funktion können Sie die
Wahrscheinlichkeit schätzen, daß eine bestimmte Beobachtung aus einer bestimmten
Grundgesamtheit stammt.
GTEST(Matrix; x; Sigma)
Matrix ist die Matrix oder der Datenbereich, gegen die/den Sie x testen möchten.
x ist der zu testende Wert.
Sigma ist die bekannte Standardabweichung der Grundgesamtheit. Fehlt dieses Argument, wird mit
der Standardabweichung der jeweiligen Stichprobe gearbeitet

4.7 Demografische Angaben verarbeiten

Im Zuge einer empirischen sozialwissenschaftlichen Untersuchung aufd er Grundlage einer schriftlichen (postalischen) Befragung sind demografische Variablen erfaßt worden (Geburtsjahr, Geschlecht, Familienstand, letzter Bildungsabschluß u.ä.). Skizzieren Sie nicht zu knapp die Arbeitsschritte, die erforderlich sind, um solche demografischen Angaben einer PC-gestützten statistischen Auswertung zugänglich zu machen.
Vorgehensweise:
Nach der Phase der Datenbereitstellung erhält man einen Datenbestand, der, da die Befragung postalisch vorgenommen wurde, schon vorgeordnet ist. Der erste Arbeitsschritt, der vor der elektronischen Weiterverarbeitung nötig ist, ist die Codierung.
Codieren bedeutet in diesem Zusammenhang, daß die Ausgangsdaten so transformiert werden, daß sie einer EDV-Anlage übergeben werden können. Der Code gibt dabei an, in welcher Weise die gegebenen Daten transformiert werden sollen. "Codieren" bedeutet deshalb auch, daß Transformationsregeln vorgegeben werden müssen. Derartige Codierungsregeln werden in einer Übersicht festgelegt, die man Codebuch nennt.
Für dem demografische Daten könnte das Codebuch beispielsweise folgendermaßen aussehen:
Position Inhalt Werte Name Länge Dezimalstellen Typ
1. laufende Nummer 01-1000 NR 4 0 numerisch
2. Geburtsjahr 1890-1997 GEBURT 4 0 numerisch
3. Geschlecht Texte:
w,m
sex 1 0 String
4. Familienstand Texte, z.B.
ledig, verheiratet, geschieden, verwitwet
Famstand 10 0 String
5. letzter Schulabschluß Texte, z.B.
Sonderschule
Volksschule, Hauptschule Fachoberschule,
Fachhochschule
Fachabitur...
Bildung 30 0 String
Wichtig ist es, vor der Datenauswertung "missing values" zu definieren. Durch die Definition und Benutzung des "missing value" wird der Computer in die Lage versetzt zu erkennen, daß kein "echter" Wert vorliegt, der bei folgenden Berechnungen natürlich nicht mitverwendet wird.
Beispielsweise könnte man bei einer erwarteten Spannbreite der Merkmalsausprägung "Geburtsjahr" mit 1890-1997 "missing value" mit "0" kodieren. Bei den nominalskalierten Variablen, die nicht weiter kodiert werden, müssen die missing values Texte sein.
Die Wertebereiche der nominalskalierten Variablen sollte man im zweiten Schritt ebenfalls kodieren, z.B. ledig=0, verheiratet=1, verwitwet=2, keine Angabe=42.
Als nächster Arbeitschritt folgt nun die Anlage des Datenübertragungsblattes. Diese Datenmatrix dient dazu, die Ausgangsdaten gemäß der Regelungen des Codebuches so zu transformieren, daß sie direkt dem Rechner eingegeben werden können. Im obigen Beispiel ergäbe sich beispielsweise
1 1972003 für Person 1, geboren 1972, Geschlecht 0=männlich, Familienstand 0=ledig, Schulabschluß=3 (Fachhochschulreife).
Mit der Datenmatrix ist die Ausgangsbasis für eine folgende computergestützte Auswertung erreicht. 

4.8 Ausschluß falscher Datensätze

Im Zuge einer empirischen sozialwissenschaftlichen Untersuchung auf der Grundlage einer schriftlichen (postalischen) Befragung treffen einige hundert ausgefüllte Fragebogen ein. Unter anderem ist dabei die Variable "Geschlecht" erfaßt. Skizzieren Sie nicht zu knapp die Arbeitsschritte, die erforderlich sind, um PC-gestützt zu prüfen, ob die Werte dieser Variablen im zulässigen Bereich sind, bzw. um diesbezüglich fehlerhafte Datensätze zu identifizieren [WS96, 6P]
Lösung mit Excel:
Zunächst tippe ich die Daten ab oder (besser) scanne sie ein. Dieses eingescannte Rohdatenmaterial könnte mit einem Basic-Programm (besser: Perl-Script) auf falsche bzw. fehlende Werte überprüft werden.
screenshot
Falls mir diese Möglichkeit nicht zur Verfügung steht, muß ich direkt aus meiner Software (hier: Excel) heraus die fehlerhaften Eingaben finden.
Dazu benutze ich (bei Excel 5.0) die Option des AutoFilters:
1. ersten Datenwert der Variable Geschlecht markieren
2. <Daten><Filter><Autofilter> auswählen
3. In der betreffenden Zelle erhalte ich ein Popdown-Menü, in der ich nach meinen Vorgaben bestimmte Werte herausfiltern kann, z.B. alle männlichen, alle weiblichen, alle="k.A.", alle="Weiß nicht" etc.
4. Alle Werte, die nicht männlich und weiblich sind, filtere ich heraus, indem ich einen <benutzerdefinierten Filter> entsprechend der obigen Abbildung einrichte.
5. Diese kann ich dann durch <Bearbeiten><Ersetzen> ersetzen, bzw. den "missing value" einheitlich für alle Werte definieren.

4.9 Gemeinsamkeiten/Unterschiede EXCEL-SPSS

Skizzieren Sie die Gemeinsamkeiten und die Unterschiede zwischen einem Tabellenkalkulationsprogramm (zum Beispiel EXCEL) und einem Statistik-Programm (zum Beispiel SPSS).[WS96, 3 P]

 

Tabellenkalkulationsprogramme

dienen dazu, Berechnungen innerhalb von Zahlenmaterial durchzuführen und das Zahlenmaterial und die Ergebnisse dann optisch ansprechend darzustellen. Die Grundidee der Tabellenkalkulation ist (war) es, die Arbeitsweise mit Tabelle auf einem normalen Blatt Papier und mit einem Rechenstift nachzuvollziehen. Auf dem Bildschirm wird ein in Zellen gegliedertes elektronisches Arbeitsblatt dargestellt. Jede Zelle ist durch die zugehörige Zeilen- und spaltennummer eindeutig bestimmt. In den verschiedenen Zellen können in beliebiger Abfolge Zahlen, Texte, arithmetische und logische Ausdrücke mit oder ohne Bezugnahme auf andere Zellen eingetragen werden. Damit ist es dem Benutzer möglich, auf sehr flexible Art und Weise individuelle Rechenschemata (Rechentabellen) samt erklärendem Text zu gestalten. Tabellenkalkulationsprogramme bieten für den Statistiker vorformulierte Makros in Form von Funktionen an, z.B. zur Mittelwertberechnung, zum Korrelationskoeffizienten r etc. Der Benutzer kann diese Formeln zur Berechnung einsetzen, aber auch eigene Programme mit der zugehörigen Makrosprache programmieren, die ihm die Berechnung erleichtern. Insgesamt läßt sich sagen, daß der "statistische Sachverstand" von Tabellenkalkulationen sehr gering ist, und die Interpretation und richtige Anwendung der Funktionen dem Benutzer überlassen wird. Ein großer Vorteil von Excel ist es, daß sich Formeln dynamisch dem Datenmaterial anpassen, d.h. wird eine Variable verändert, verändern sich automatisch alle darauf beziehenden Variablen.


Softwareprodukte wie SPSS

sind speziell auf die Lösung statistischer Aufgaben zugeschnittene Programme. SPSS bietet im Gegensatz zu Excel die Lösung von anspruchsvolleren Verfahren wie der Cluster- oder Faktorenanalyse, kann Zeitreihenanalysen ebenso durchführen wie nichtparametrische und parametrische Testverfahren. Die zugrundeliegenden Algorithmen sind optimiert, damit ist die schnelle Abwicklung auch umfangreicher Datensätze gegeben. Die Berechnung vollzieht sich in zwei Fenstern, im Datenfenster dürfen nur die Daten stehen, Ergebnisse werden ins Output-Fenster als unformatierten Text ausgegeben.
Ein Nachteil ist, daß Daten nur als Rohdaten eingegeben werden können, liegen bereits Häufigkeitsverteilungen vor, muß man die Daten wieder nach Einzelfällen aufschlüsseln.
Will man Veränderungen im Datensatz vornehmen, müssen alle statistischen Verfahren nochmals neu mit dem Datenmaterial durchgeführt werden. Im Gegensatz zu Excel berücksichtigt SPSS auch Ausnahmen bzw. spezielle Voraussetzungen für Testverfahren. Es bietet wesentlich mehr Optionen als Excel. Der "statistische Sachverstand" ist also beträchtlich höher als bei einer Tabellenkalkulation. Die Interpretation der Output-Daten bleibt dem Anwender überlassen, im Gegensatz zu Excel betitelt SPSS zumindest die Ergebnisse.

Warning: include(/kunden/261483_50969/luebbert.net/include/copyright.inc.php) [function.include]: failed to open stream: No such file or directory in /kunden/261483_50969/luebbert.net/uni/statist/edv/edv4.php on line 510

Warning: include() [function.include]: Failed opening '/kunden/261483_50969/luebbert.net/include/copyright.inc.php' for inclusion (include_path='.:/usr/local/lib/php:/kunden/261483_50969/showroom/library') in /kunden/261483_50969/luebbert.net/uni/statist/edv/edv4.php on line 510