🔍
Wie funktioniert schrittweise Regression in SPSS? (Aufnahme+Ausschluss)-Daten analysieren SPSS(15) - YouTube
Channel: Statistik am PC
[0]
willkommen zu einem tutorial zum thema
schrittweise regression oder stepwise regression
[3]
drei fragen möchte ich in diesem
zusammenhang mit diesem video
[6]
beantworten: zunächst was ist überhaupt
schrittweise regression
[9]
zweitens wie funktioniert dieses
verfahren und drittens wan verwende ich
[13]
es oder wann sollte ich es lieber nicht
verwenden. zunächst zur nummer 1, also
[16]
was ist schrittweise regression?
schrittweise regression ist ein verfahren
[19]
zur aufnahme von variablen in mein
repressionsmodell- dabei kombiniert ist
[23]
die anderen verfahren der forward
selection und der backward elimination,
[28]
also vorwärts selektion und rückwärts
eliminierung und dazu habe ich übrigens
[32]
auch videos gemacht links dazu jetzt in
den info karten oben rechts. die zweite
[35]
frage: wie funktioniert das ganze? ganz
kurz erklärt, wir starten zunächst mit
[39]
einem leeren modell und die variable, die
unabhängige variable, die den höchsten
[43]
korrelationswert mit der abhängigen
variable hat, wird in mein modell
[47]
aufgenommen und verbleibt dann wenn
sie einen signifikanten wert,
[50]
beispielsweise unter 0,05 hat. weitere
variablen werden dann aufgenommen, wenn
[54]
ihre semi partielle korrelation mit der
abhängigen variablen die höchste ist, dh
[59]
die schon aufgenommen variablen, deren
korrelation wird dabei konstant gehalten
[65]
und mit jeder neu aufgenommenen
unabhängigen variablen wird automatisch
[69]
ein neuer signifikanzwert, auch der schon
aufgenommenen variablen, ermittelt und
[72]
wenn diese über einem gewissen niveau
wieder liegt, wird die variable
[75]
ausgeschlossen, so dass ich am ende
lediglich unabhängige variable mit
[79]
signifikanten einfluss auf meine
abhängige variable haben, im modell
[83]
verbleiben. wollen wir das direkt am
beispiel machen. ich habe hier wieder den
[86]
datensatz, wo wir den abiturschnitt
erklären wollen und wir machen das in
[90]
dem wir über "Analysieren", "Regressionen", "linear" gehen. unsere abhängige variable,
[95]
ich habe eben gesagt, ist der
abiturschnitt. unsere unabhängigen
[99]
variablen war bis jetzt immer der
intelligenzquotient und die motivation.
[102]
wir nehmen jetzt mal noch die sportnote
mit auf und das gewicht in kilogramm und
[107]
wir können jetzt hier noch verschiedene
dinge anhaken. wir können zum beispiel
[110]
änderung in R² und die
deskriptive statistiken uns noch
[113]
ausgeben lassen.
unter diagramme brauchen wir nichts
[116]
anhaken. genauso unter speichern. unter
optionen sehen wir noch mal die
[119]
wahrscheinlichkeiten, die verwendet
werden für eine aufnahme, also die
[122]
signifikanz muss unter oder gleich 0,05
sein und für einen ausschluss muss sie
[128]
grösser oder gleich 0,1 sein. also wenn eine signifikanz von 0,1
[132]
erreicht wird, wird die variable wiederum
ausgeschlossen, auch nachdem sie schon
[136]
aufgenommen wurde. andere dinge brauchen wir jetzt hier nicht anhanken
[138]
lediglich wichtig an dieser stelle ist
das hier schrittweise ausgewählt wird.
[142]
ist das geschehen können wir auf "ok"
drücken. Wir bekommen jetzt hier unsere
[145]
auswertung. also hier nochmal die
deskriptive statistiken für das gefühl,
[149]
brauchen wir jetzt an dieser stelle
nicht. Korrelation ist, was ich
[151]
eben sagte: er schaut jetzt nach dem
größtmöglichen positiv oder auch
[155]
negativen korrelationswert und nimmt den als allererstes auf. Und wir sehen hier,
[159]
dass der abiturschnitt ist ja unsere
abhängige variable die unteren hier
[164]
sind die unabhängigen variablen, die
auch hier stehen, das ist ja symmetrisch
[167]
aufgebaut und wir sehen, dass die
korrelation mit dem abiturschnitt von
[171]
-0,91 relativ stark ist, also je höher mein
IQ, desto niedriger,
[177]
also besser, ist mein abitur schnitt und
demzufolge müsste der
[180]
IQ, weil das die höchste korrelation hat mit der
[184]
abiturschnittsvariable als allererstes
aufnehmen und siehe da, wir haben das
[188]
modell 1: aufgenommene variablen:
IQ und hier nochmal die
[192]
methode also schrittweise, kriterien
wahrscheinlichkeit von f-wert unter
[196]
0,05 oder gleich 0,05 ist für eine
aufnahme. größer gleich 0,1 für einen
[202]
ausschluss. wir sehen hier auch schon das modell zwei, dass die motivation
[204]
aufgenommen wurde. Hier in der modell-
zusammenfassung: wir haben nur zwei
[208]
modelle, das heißt er nimmt gar keine
weiteren variablen auf oder entfernt
[212]
auch keine mehr.
das ist jetzt an dieser stelle nicht
[215]
weiter tragisch, dass er keine weiteren
variablen entfernt. das prinzip sollte
[219]
klar sein. wem das prinzip nicht klar ist,
verweise ich nochmal auf das backward elimination modell
[224]
wir möchten jetzt nur noch mal ganz kurz das modell auch interpretieren
[226]
also wir haben hier
modell 1: ein R bzw. R²
[231]
also ein bestimmtheitsmaß von 0,828 und
wir sehen eben 82,8 prozent der varianz
[236]
in unserer abiturnote können wir durch
bereits den intelligenzquotienten
[240]
erklären, was ja auch sinnvoll ist und
wir sehen eben modell 0, sage ich jetzt
[246]
mal ist leer, und wir haben eine
änderung in R² von 82,8 prozent
[250]
also 0,828 - also wir verbessern uns sehr stark für
[255]
modell 2, also bei der aufnahme der
motivation eine änderung in R²
[258]
um 0,07. Das ist jetzt gar nicht mehr so
viel, aber aufgrund des niveaus auf dem
[263]
wir uns hier schon befinden trotzdem
noch erheblich und unser R²
[267]
befindet sich dann demzufolge bei 0,898 also fast 90 prozent der varianz kann
[272]
ich mit meinem modell erklären.
Hinweis an dieser stelle: ich sollte unbedingt,
[275]
wenn ich mehr als eine unabhängige
variable aufnehme in mein modell, auch das
[279]
korrigierte R² anschauen und
vorzugsweise auch dieses, wenn ich die
[283]
auswertung verschriftliche, also in
textform fasse, sollte ich definitiv
[286]
das korrigierte R2, in dem fall
0,894 verwenden. warum das korrigierte?
[292]
R² kontrolliert dafür, dass ich
mehrere unabhängige variable in mein
[296]
modell aufgenommen habe: das hängt damit zusammen, je mehr unabhängige variable
[300]
ich in mein modell aufnehme, desto
größer wird automatisch mein R²,
[304]
ohne dass tatsächlich der
erklärungsgehalt steigen muss. das heißt
[308]
er bereinigt sozusagen am korrigierten
R² um diesen effekt der aufnahme
[313]
weiterer unabhängiger variablen.
als nächstes können wir uns ANOVA-Tabelle
[317]
anschauen. In der ANOVA-Tabelle
interessieren uns eigentlich nur der
[319]
F-Wert hier und der F-Wert ist
verschieden von 0, das heißt es gibt
[322]
einen einfluss des modells auf die
abhängige variable, also auf die
[326]
Abiturschnittsnote des
intelligenzquotienten, das haben wir
[329]
natürlich oben auch schon erahnen
können und im modell 2, also der
[333]
IQ und die motivation gilt das gleiche
[336]
die signifikanz, also wir testen ja bei
der ANOVA, ob die steigung der
[341]
Regressionsgeraden gleich 0 ist - Das ist die Nullhypothese.
[345]
Dadurch, dass hier der Signifikanzwert 0,00 also sozusagen 0, ist können wir die
[351]
Nullhypothese verwerfen, also die steigung der Regressionsgleichung ist ungleich 0,
[355]
demzufolge hat unser Regressionmodell
oder unsere Regressionsgleichung, also
[360]
auch Koeffizienten, die einen Einfluss
auf unsere abhängige variable besitzen.
[364]
deswegen gehen wir unten nochmal in die
Koeffiziententabelle. wir sehen hier den
[367]
IQ, also der Regressionskoeffizient ist hier nicht
[371]
standardisiert -0,058 im ersten modell
und im zweiten modell 0,039.
[376]
Wir gucken uns nur das zweite
modell an, weil das erste modell ist wie
[379]
gesagt, das was wir jetzt eh nicht als
das finale modell annehmen. wir nehmen
[384]
also das zweite modell an, also der
IQ -0,039. je höher
[388]
mein IQ ist, nämlich um einen punkt, desto geringer wird mein
[392]
abiturschnitt nämlich um 0,039.
bei der motivation ist es ähnlich. die
[397]
motivation - vorsicht die ist aber zwischen 1 und 10 skaliert oder der wertebereich
[401]
ist zwischen 1 und 10, wohingegen
IQ zwischen, ich sag mal,
[406]
80 und 140 ungefähr ist in unserem
beispiel, also die motivation hat
[411]
scheinbar einen höheren einfluss also
einen motivationspunkt zusätzlich senkt meine
[416]
Abiturschnittsnote um 0,139 punkte.
[420]
Wichtig dass sind nicht standardisierte koeffizienten .
[422]
wenn man jetzt eben davon
ausgeht, da hier, die motivation hat ja
[425]
einen viel größeren einfluss. Das ist
nicht richtig, dazu müsste man nämlich
[429]
auf die standardisierten koeffizienten
schauen. das ist hier der fall
[432]
und man sieht hier die standardisierten
koeffizienten bewegen sich ja die sind ja
[436]
auf 1 normiert, also wir haben hier -0,6 und hier -0,4 großzügig gerundet
[442]
und -0,6 ist ja durchaus größer
das heißt der IQ hat
[446]
den größeren einfluss. könnte man
sicherlich auch anhand der korrelation,
[450]
die wir hier oben haben, vielleicht schon
so ein bisschen erahnen.
[454]
Schließlich und endlich hier unten nochmal die ausgeschlossenen Variablen, also wir
[457]
schließen im ersten modell noch die
motivation aus: warum? weil wir im ersten
[461]
modell lediglich eine variable
aufgenommen haben und sehen dann im
[464]
zweiten modell sind weiterhin die sportnote das gewicht in kilogramm
[467]
ausgeschlossen. warum? weil wir eben schon erkannt haben: zwar haben sie eine
[471]
gewisse korrelation, aber die signifikanz
die wir hier sehen, ist deutlich über 0,05,
[476]
was ja unser aufnahmekriterium ist.
wenn ich hier oben nochmal schaue, also
[481]
0,05 ist unser aufnahmekriterium und 0,554 oder 0,447 liegt ja deutlich über
[488]
0,05 und somit konnten wir an dieser
stelle eben die variablen ausschließen.
[493]
zu guter letzt bin ich noch die antwort
auf punkt 3 schuldig: wann verwende ich
[496]
eine schrittweise regression und wann nicht?
Prinzipiell mein Rat: verwendet
[500]
schrittweise regression nicht oder nur
sehr selten und wenn ihr sie verwendet,
[504]
dann nicht, wenn ihr irgendwelche
ergebnisse verschriftlicht und das als
[507]
methode angebt. Schrittweise Regression
haftet das stigma an, dass es ein
[510]
exploratives vorgehen ist, also was man
aus dem data mining kennt. man hat viele
[513]
viele daten und man versucht ein
signifikantes modell zu erstellen.
[516]
Das macht natürlich die schrittweise
regression für einen,
[519]
aber das problem ist. es ist eben ein
exploratives vorgehen und kein hypothesen-
[523]
basiertes theoretisch-konzeptionell
fundiertes vorgehen was in den sozial-
[526]
und geisteswissenschaften eben der fall
sein sollte. also für einen ersten
[530]
eindruck ist es okay. aber man sollte
definitiv damit nicht arbeiten, weil man
[535]
eben ja sozusagen das modell immer
weiter fitten lässt, ohne dass man jetzt
[539]
konzeptionellen ideen hat, warum
überhaupt solche wirkungszusammenhänge
[542]
auftreten. das war es an dieser stelle
auch schon wieder. Hat euch das video
[545]
gefallen, lasst mir einen daumen nach oben da. Habt ihr fragen oder anregungen lasst
[549]
es mich in den kommentaren wissen.
ansonsten freue ich mich natürlich
[551]
über ein abonnement und sehe euch beim
nächsten video!
Most Recent Videos:
You can go back to the homepage right here: Homepage





