🔍

Wie funktioniert schrittweise Regression in SPSS? (Aufnahme+Ausschluss)-Daten analysieren SPSS(15) - YouTube

Channel: Statistik am PC

[0]

willkommen zu einem tutorial zum thema schrittweise regression oder stepwise regression

[3]

drei fragen möchte ich in diesem zusammenhang mit diesem video

[6]

beantworten: zunächst was ist überhaupt schrittweise regression

[9]

zweitens wie funktioniert dieses verfahren und drittens wan verwende ich

[13]

es oder wann sollte ich es lieber nicht verwenden. zunächst zur nummer 1, also

[16]

was ist schrittweise regression? schrittweise regression ist ein verfahren

[19]

zur aufnahme von variablen in mein repressionsmodell- dabei kombiniert ist

[23]

die anderen verfahren der forward selection und der backward elimination,

[28]

also vorwärts selektion und rückwärts eliminierung und dazu habe ich übrigens

[32]

auch videos gemacht links dazu jetzt in den info karten oben rechts. die zweite

[35]

frage: wie funktioniert das ganze? ganz kurz erklärt, wir starten zunächst mit

[39]

einem leeren modell und die variable, die unabhängige variable, die den höchsten

[43]

korrelationswert mit der abhängigen variable hat, wird in mein modell

[47]

aufgenommen und verbleibt dann wenn sie einen signifikanten wert,

[50]

beispielsweise unter 0,05 hat. weitere variablen werden dann aufgenommen, wenn

[54]

ihre semi partielle korrelation mit der abhängigen variablen die höchste ist, dh

[59]

die schon aufgenommen variablen, deren korrelation wird dabei konstant gehalten

[65]

und mit jeder neu aufgenommenen unabhängigen variablen wird automatisch

[69]

ein neuer signifikanzwert, auch der schon aufgenommenen variablen, ermittelt und

[72]

wenn diese über einem gewissen niveau wieder liegt, wird die variable

[75]

ausgeschlossen, so dass ich am ende lediglich unabhängige variable mit

[79]

signifikanten einfluss auf meine abhängige variable haben, im modell

[83]

verbleiben. wollen wir das direkt am beispiel machen. ich habe hier wieder den

[86]

datensatz, wo wir den abiturschnitt erklären wollen und wir machen das in

[90]

dem wir über "Analysieren", "Regressionen", "linear" gehen. unsere abhängige variable,

[95]

ich habe eben gesagt, ist der abiturschnitt. unsere unabhängigen

[99]

variablen war bis jetzt immer der intelligenzquotient und die motivation.

[102]

wir nehmen jetzt mal noch die sportnote mit auf und das gewicht in kilogramm und

[107]

wir können jetzt hier noch verschiedene dinge anhaken. wir können zum beispiel

[110]

änderung in R² und die deskriptive statistiken uns noch

[113]

ausgeben lassen. unter diagramme brauchen wir nichts

[116]

anhaken. genauso unter speichern. unter optionen sehen wir noch mal die

[119]

wahrscheinlichkeiten, die verwendet werden für eine aufnahme, also die

[122]

signifikanz muss unter oder gleich 0,05 sein und für einen ausschluss muss sie

[128]

grösser oder gleich 0,1 sein. also wenn eine signifikanz von 0,1

[132]

erreicht wird, wird die variable wiederum ausgeschlossen, auch nachdem sie schon

[136]

aufgenommen wurde. andere dinge brauchen wir jetzt hier nicht anhanken

[138]

lediglich wichtig an dieser stelle ist das hier schrittweise ausgewählt wird.

[142]

ist das geschehen können wir auf "ok" drücken. Wir bekommen jetzt hier unsere

[145]

auswertung. also hier nochmal die deskriptive statistiken für das gefühl,

[149]

brauchen wir jetzt an dieser stelle nicht. Korrelation ist, was ich

[151]

eben sagte: er schaut jetzt nach dem größtmöglichen positiv oder auch

[155]

negativen korrelationswert und nimmt den als allererstes auf. Und wir sehen hier,

[159]

dass der abiturschnitt ist ja unsere abhängige variable die unteren hier

[164]

sind die unabhängigen variablen, die auch hier stehen, das ist ja symmetrisch

[167]

aufgebaut und wir sehen, dass die korrelation mit dem abiturschnitt von

[171]

-0,91 relativ stark ist, also je höher mein IQ, desto niedriger,

[177]

also besser, ist mein abitur schnitt und demzufolge müsste der

[180]

IQ, weil das die höchste korrelation hat mit der

[184]

abiturschnittsvariable als allererstes aufnehmen und siehe da, wir haben das

[188]

modell 1: aufgenommene variablen: IQ und hier nochmal die

[192]

methode also schrittweise, kriterien wahrscheinlichkeit von f-wert unter

[196]

0,05 oder gleich 0,05 ist für eine aufnahme. größer gleich 0,1 für einen

[202]

ausschluss. wir sehen hier auch schon das modell zwei, dass die motivation

[204]

aufgenommen wurde. Hier in der modell- zusammenfassung: wir haben nur zwei

[208]

modelle, das heißt er nimmt gar keine weiteren variablen auf oder entfernt

[212]

auch keine mehr. das ist jetzt an dieser stelle nicht

[215]

weiter tragisch, dass er keine weiteren variablen entfernt. das prinzip sollte

[219]

klar sein. wem das prinzip nicht klar ist, verweise ich nochmal auf das backward elimination modell

[224]

wir möchten jetzt nur noch mal ganz kurz das modell auch interpretieren

[226]

also wir haben hier modell 1: ein R bzw. R²

[231]

also ein bestimmtheitsmaß von 0,828 und wir sehen eben 82,8 prozent der varianz

[236]

in unserer abiturnote können wir durch bereits den intelligenzquotienten

[240]

erklären, was ja auch sinnvoll ist und wir sehen eben modell 0, sage ich jetzt

[246]

mal ist leer, und wir haben eine änderung in R² von 82,8 prozent

[250]

also 0,828 - also wir verbessern uns sehr stark für

[255]

modell 2, also bei der aufnahme der motivation eine änderung in R²

[258]

um 0,07. Das ist jetzt gar nicht mehr so viel, aber aufgrund des niveaus auf dem

[263]

wir uns hier schon befinden trotzdem noch erheblich und unser R²

[267]

befindet sich dann demzufolge bei 0,898 also fast 90 prozent der varianz kann

[272]

ich mit meinem modell erklären. Hinweis an dieser stelle: ich sollte unbedingt,

[275]

wenn ich mehr als eine unabhängige variable aufnehme in mein modell, auch das

[279]

korrigierte R² anschauen und vorzugsweise auch dieses, wenn ich die

[283]

auswertung verschriftliche, also in textform fasse, sollte ich definitiv

[286]

das korrigierte R2, in dem fall 0,894 verwenden. warum das korrigierte?

[292]

R² kontrolliert dafür, dass ich mehrere unabhängige variable in mein

[296]

modell aufgenommen habe: das hängt damit zusammen, je mehr unabhängige variable

[300]

ich in mein modell aufnehme, desto größer wird automatisch mein R²,

[304]

ohne dass tatsächlich der erklärungsgehalt steigen muss. das heißt

[308]

er bereinigt sozusagen am korrigierten R² um diesen effekt der aufnahme

[313]

weiterer unabhängiger variablen. als nächstes können wir uns ANOVA-Tabelle

[317]

anschauen. In der ANOVA-Tabelle interessieren uns eigentlich nur der

[319]

F-Wert hier und der F-Wert ist verschieden von 0, das heißt es gibt

[322]

einen einfluss des modells auf die abhängige variable, also auf die

[326]

Abiturschnittsnote des intelligenzquotienten, das haben wir

[329]

natürlich oben auch schon erahnen können und im modell 2, also der

[333]

IQ und die motivation gilt das gleiche

[336]

die signifikanz, also wir testen ja bei der ANOVA, ob die steigung der

[341]

Regressionsgeraden gleich 0 ist - Das ist die Nullhypothese.

[345]

Dadurch, dass hier der Signifikanzwert 0,00 also sozusagen 0, ist können wir die

[351]

Nullhypothese verwerfen, also die steigung der Regressionsgleichung ist ungleich 0,

[355]

demzufolge hat unser Regressionmodell oder unsere Regressionsgleichung, also

[360]

auch Koeffizienten, die einen Einfluss auf unsere abhängige variable besitzen.

[364]

deswegen gehen wir unten nochmal in die Koeffiziententabelle. wir sehen hier den

[367]

IQ, also der Regressionskoeffizient ist hier nicht

[371]

standardisiert -0,058 im ersten modell und im zweiten modell 0,039.

[376]

Wir gucken uns nur das zweite modell an, weil das erste modell ist wie

[379]

gesagt, das was wir jetzt eh nicht als das finale modell annehmen. wir nehmen

[384]

also das zweite modell an, also der IQ -0,039. je höher

[388]

mein IQ ist, nämlich um einen punkt, desto geringer wird mein

[392]

abiturschnitt nämlich um 0,039. bei der motivation ist es ähnlich. die

[397]

motivation - vorsicht die ist aber zwischen 1 und 10 skaliert oder der wertebereich

[401]

ist zwischen 1 und 10, wohingegen IQ zwischen, ich sag mal,

[406]

80 und 140 ungefähr ist in unserem beispiel, also die motivation hat

[411]

scheinbar einen höheren einfluss also einen motivationspunkt zusätzlich senkt meine

[416]

Abiturschnittsnote um 0,139 punkte.

[420]

Wichtig dass sind nicht standardisierte koeffizienten .

[422]

wenn man jetzt eben davon ausgeht, da hier, die motivation hat ja

[425]

einen viel größeren einfluss. Das ist nicht richtig, dazu müsste man nämlich

[429]

auf die standardisierten koeffizienten schauen. das ist hier der fall

[432]

und man sieht hier die standardisierten koeffizienten bewegen sich ja die sind ja

[436]

auf 1 normiert, also wir haben hier -0,6 und hier -0,4 großzügig gerundet

[442]

und -0,6 ist ja durchaus größer das heißt der IQ hat

[446]

den größeren einfluss. könnte man sicherlich auch anhand der korrelation,

[450]

die wir hier oben haben, vielleicht schon so ein bisschen erahnen.

[454]

Schließlich und endlich hier unten nochmal die ausgeschlossenen Variablen, also wir

[457]

schließen im ersten modell noch die motivation aus: warum? weil wir im ersten

[461]

modell lediglich eine variable aufgenommen haben und sehen dann im

[464]

zweiten modell sind weiterhin die sportnote das gewicht in kilogramm

[467]

ausgeschlossen. warum? weil wir eben schon erkannt haben: zwar haben sie eine

[471]

gewisse korrelation, aber die signifikanz die wir hier sehen, ist deutlich über 0,05,

[476]

was ja unser aufnahmekriterium ist. wenn ich hier oben nochmal schaue, also

[481]

0,05 ist unser aufnahmekriterium und 0,554 oder 0,447 liegt ja deutlich über

[488]

0,05 und somit konnten wir an dieser stelle eben die variablen ausschließen.

[493]

zu guter letzt bin ich noch die antwort auf punkt 3 schuldig: wann verwende ich

[496]

eine schrittweise regression und wann nicht? Prinzipiell mein Rat: verwendet

[500]

schrittweise regression nicht oder nur sehr selten und wenn ihr sie verwendet,

[504]

dann nicht, wenn ihr irgendwelche ergebnisse verschriftlicht und das als

[507]

methode angebt. Schrittweise Regression haftet das stigma an, dass es ein

[510]

exploratives vorgehen ist, also was man aus dem data mining kennt. man hat viele

[513]

viele daten und man versucht ein signifikantes modell zu erstellen.

[516]

Das macht natürlich die schrittweise regression für einen,

[519]

aber das problem ist. es ist eben ein exploratives vorgehen und kein hypothesen-

[523]

basiertes theoretisch-konzeptionell fundiertes vorgehen was in den sozial-

[526]

und geisteswissenschaften eben der fall sein sollte. also für einen ersten

[530]

eindruck ist es okay. aber man sollte definitiv damit nicht arbeiten, weil man

[535]

eben ja sozusagen das modell immer weiter fitten lässt, ohne dass man jetzt

[539]

konzeptionellen ideen hat, warum überhaupt solche wirkungszusammenhänge

[542]

auftreten. das war es an dieser stelle auch schon wieder. Hat euch das video

[545]

gefallen, lasst mir einen daumen nach oben da. Habt ihr fragen oder anregungen lasst

[549]

es mich in den kommentaren wissen. ansonsten freue ich mich natürlich

[551]

über ein abonnement und sehe euch beim nächsten video!

Most Recent Videos:

WE KILLED 6 HEROIC BOSSES! - YouTube

¿Quién inventó el dinero? - YouTube

Cuándo se inventó el dinero y cómo el dólar se convirtió en la principal moneda del mundo - YouTube

This Citizenship Program is Failing - YouTube

Candida Treatment Protocol w/ Dr. DiNezza - YouTube

$500M investor reacts to Real Estate Tik Toks 2 - YouTube

You can go back to the homepage right here: Homepage