🔍
Statistics: Sample variance | Descriptive statistics | Probability and Statistics | Khan Academy - YouTube
Channel: Khan Academy
[0]
.
[1]
Das Video hier ist etwas besonderes
[3]
aus verschiedenen Gründen.
[5]
Erstens: ich zeige Euch die Varianz einer Stichprobe,
[9]
was allein schon interessant ist,
[11]
und ich versuche, das Video hier in HD aufzunehmen.
[14]
Und Ihr seht das hoffentlich größer und schärfer
[16]
als je zuvor.
[17]
Naja, wir werden sehen.
[19]
Ist also alles ein bisschen ein Experiment, ich bitte um Geduld.
[22]
Bevor wir die Varianz einer Stichprobe behandeln,
[25]
wäre es sinnvoll, die Varianz einer Population
[28]
zu wiederholen.
[28]
Dann können wir die Formeln vergleichen.
[32]
Die Varianz einer Population - das hier ist der
[34]
griechische Buchstabe Sigma.
[36]
Klein-Sigma zum Quadrat.
[37]
Das ist die Varianz.
[38]
Ich weiß, das ist komisch, dass eine Variable
[41]
direkt schon quadriert daherkommt.
[41]
Aber man nimmt hier nicht das Quadrat,
[42]
sondern die Variable ist eben Sigma Quadrat.
[44]
Sigma Quadrat heißt Varianz.
[45]
Ich schreib's mal hin.
[46]
Das ist die Varianz.
[48]
.
[51]
Und das ist gleich... Du nimmst jeden Datenpunkt....
[55]
wir nennen die x Index i.
[58]
Du nimmst jeden Datenpunkt, schaust, wie weit der von
[61]
dem Mittelwert der Population weg ist, quadrierst das und
[68]
dann mittelst Du über alle diese.
[71]
Zum Mitteln, summierst Du alle auf.
[72]
Das geht von i gleich 1.
[74]
Also vom ersten Punkt, ganz bis zum n-ten Punkt.
[77]
Und dann, zum Mitteln, summierst Du alle auf und
[79]
teilst das durch n.
[81]
Die Varianz ist also das Mittel all dieser quadrierten Distanzen
[85]
von jedem Punkt und dem Mittelwert.
[87]
Und nur um eine Intuition zu haben, das bedeutet,
[89]
wie weit weg ungefähr die Datenpunkte
[92]
vom Mittelwert entfernt sind.
[94]
So stellt man sich am besten die Varianz vor.
[96]
Aber was, wenn wir... das hier war für
[97]
eine Population, nicht wahr?
[99]
Und wenn wir die Varianz der Körpergröße
[102]
aller Männer im Land haben wollten,
[104]
dann wäre das sehr schwierig.
[106]
Man müsste im Grunde die Größe
[108]
jedes Mannes messen.
[109]
250 Millionen Menschen.
[111]
Oder was wäre, wenn es um eine Population ginge,
[115]
an deren Daten man unmöglich rankäme oder um
[116]
eine Zufallsvariable.
[117]
Dazu später mehr.
[119]
Also in vielen Fällen will man diese Varianz nur abschätzen,
[122]
indem man die Varianz einer Stichprobe nimmt.
[124]
Genauso wie man niemals den Mittelwert einer Population messen kann,
[127]
aber vielleicht will man den abschätzen, indem man
[129]
den Mittelwert einer Stichprobe nimmt.
[131]
Das haben wir im ersten Video gelernt.
[133]
Wenn das hier die ganze Population ist.
[137]
Das sind Millionen von Datenpunkten, sogar Datenpunkte,
[140]
die in der Zukunft liegen, die Du niemals bekommst,
[141]
weil es eine Zufallsvariable ist.
[143]
Das ist also die Population.
[144]
.
[146]
Du willst vielleicht nur eine Schätzung, indem Du eine Stichprobe nimmst.
[152]
Darum geht es im Grunde bei der
[155]
induktiven Statistik.
[156]
Dass man deskriptive Statistikwerte einer Stichprobe herausfindet
[158]
und daraus Schlüsse über die Population zieht.
[160]
Lass uns diese Medizin bei 100 Leuten ausprobieren und
[164]
wenn es statistisch signifikante Ergebnisse bringt,
[166]
wird die Medizin wahrscheinlich auch bei der ganzen Population wirken.
[168]
Darum geht's im Grunde.
[169]
Es ist also echt wichtig, den Unterschied zwischen
[171]
Stichprobe und Population zu verstehen.
[173]
Und wenn man statistische Werte über eine Stichprobe findet,
[177]
die die Population größtenteils beschreiben können oder
[180]
abschätzen können, dann nennen wir diese Werte Parameter für die Population.
[183]
Was ist also der Mittelwert von ... ich schreib diese Definitionen neu.
[187]
Was ist der Mittelwert einer Population?
[188]
Ich mach das mal in lila.
[189]
Lila für Population.
[191]
Der Mittelwert einer Population.
[193]
Du nimmst jeden Datenpunkt in der Population, x i.
[199]
Summierst sie auf.
[201]
Du beginnst mit dem ersten Punkt und gehst durch
[203]
bis zum n-ten Punkt.
[205]
Und teilst durch n.
[206]
Alles aufsummierren und durch n teilen.
[207]
Das ist der Mittelwert.
[208]
Dann fügen wir das in die Formel ein.
[210]
Und Du kannst sehen, wie weit jeder Punkt vom
[213]
zentralen Punkt entfernt ist, vom Mittelwert.
[214]
Und man bekommt die Varianz.
[216]
Was passiert jetzt bei einer Stichprobe?
[219]
Naja, wenn wir den Mittelwert einer Population abschätzen wollen,
[223]
indem wir den Mittelwert für einer Stichprobe berechnen, dann
[226]
ist es das Beste... und das sind alles menschengemachte Formeln.
[229]
Irgendwelche Menschen haben sich gefragt, was ist
[231]
der beste Weg das zu schätzen?
[231]
Das beste, was wir tun können, ist den Mittelwert unserer Stichprobe zu nehmen.
[234]
Und das ist dann der Stichproben-Mittelwert.
[236]
Wir haben im ersten Video gelernt, dass diese Notation
[238]
Die Formel ist fast identisch.
[240]
Nur die Notation ist anders.
[241]
Statt Mü schreibt man x mit einem Strich darauf.
[244]
Stichproben-Mittelwert ist gleich - wieder nimmt man
[248]
nur die Datenpunkte aus der Stichproben, nicht aus der ganzen Population.
[252]
Du summierst sie, vom ersten bis
[256]
zum n-ten, richtig?
[257]
Man sagt, da sind n Datenpunkte in dieser Stichprobe.
[260]
Und dann teilst du es durch die Anzahl der Datenpunkte.
[263]
So weit, so gut.
[264]
Es ist eigentlich die gleiche Formel.
[265]
Wie ich den Mittelwert der Population gerechnet habe, ich sag mal,
[267]
wenn ich nur eine Stichprobe habe, lass mich den Mittelwert genauso berechnen.
[269]
Dann ist das wohl eine gute Schätzung des Mittelwerts
[272]
der Population.
[273]
Bei der Varianz wird's jetzt spannend.
[276]
Die normale Reaktion wäre: OK, ich hab diese Stichprobe
[279]
und wenn ich die Varianz der Population schätzen will,
[283]
warum wende ich nicht die gleiche Formel an
[285]
aber eben über der Stichprobe?
[286]
Das könnte ich sagen - und das ist dann tatsächlich die Stichproben-Varianz.
[289]
Man verwendet s Quadrat.
[294]
Sigma ist ein griechischer Buchstabe, der äquivalent zu s ist.
[298]
Aber da wir hier mit der Stichprobe arbeiten,
[299]
schreiben wir hier s.
[301]
Das ist die Stichproben-Varianz.
[302]
Ich schreib's mal hin.
[303]
Stichproben-Varianz.
[303]
.
[311]
Wir könnten sagen, vielleicht ist es eine gute Idee,
[315]
die Stichproben-Varianz auf die gleiche Weise zu rechnen.
[317]
Wir nehmen die Distanz von jedem der Punkte in der Stichprobe.
[323]
Finden raus, wie weit die sind vom Stichproben-Mittelwert.
[326]
Hier haben die den Populations-Mittelwert benutzt, aber jetzt
[329]
benutzen wir den Stichproben-Mittelwert, weil wir nur den haben.
[331]
Den Populations-Mittelwert kennen wir nicht
[333]
ohne die ganze Population einzubeziehen.
[335]
Nimm das zum Quadrat.
[336]
Das macht es positiv und es weitere Eigenschaften,
[338]
auf die ich später komme.
[340]
Dann nimm den Durchschnitt von allen diesen quadierten Distanzen.
[342]
Summierst alle auf.
[344]
Es gibt n davon, richtig?
[347]
klein-n.
[348]
Du teilst durch klein-n.
[351]
Und du findest, das ist eine gute Schätzung.
[353]
Was auch immer die wahre Varianz ist, das könnte eine gute Schätzung sein
[355]
für die gesamte Population.
[356]
Das ist das, worüber die Leute reden, wenn sie
[360]
von Stichproben-Varianz sprechen.
[361]
Manchmal wird man darauf verwiesen.
[365]
Man schreibt ein klein-n hinein.
[367]
Der Grund ist, wir haben durch n geteilt.
[369]
Du fragst vielleicht: Sal, was ist das Problem?
[371]
Und das Problem... ich versuch mal, einen Eindruck zu vermitteln,
[374]
das hat mich wirklich immer etwas verwirrt.
[376]
Und selbst jetzt muss ich manchmal mit mir ringen,
[379]
um die Idee dahinter zu begreifen.
[381]
Ich habe so eine Idee, aber das etwas formaler
[384]
zu beweisen, dass das wirklich stimmt...
[386]
Stellt Euch das so vor.
[388]
Wenn ich ein paar Zahlen habe
[389]
und ich male einen Zahlenstrahl hier.
[392]
Wenn ich eine Zahl eintrage - sagen wir, man weiß...
[395]
Sagen wir ich habe ein paar Zahlen in meiner Population
[399]
Sagen wir... ich schreibe jetzt zufällig ein paar
[401]
Zahlen in meine Population.
[404]
Und die auf der rechten Seite sind größer als die
[405]
auf der linken Seite.
[406]
.
[408]
Wenn ich eine Stichprobe davon nehme, vielleicht ..
[412]
Die Stichprobe ist zufällig.
[414]
Man will wirklich eine zufällige Stichprobe nehmen.
[416]
Man will nicht, dass das unausgeglichen ist.
[417]
Vielleicht wähle ich diese Zahl, diese und diese
[422]
und diese, OK?
[425]
Wenn ich jetzt den Mittelwert dieser Zahl,
[427]
dieser Zahl, dieser Zahl und dieser Zahl nehme,
[428]
wird der irgendwo in der Mitte sein.
[429]
Vielleicht irgendwo hier drüben.
[431]
Und wenn ich die Stichproben-Varianz berechne
[433]
mit dieser Formel, dann nehme ich diese Distanz zum Quadrat plus
[436]
dieser Distanz zum Qudrat plus dieser Distanz zum Quadrat plus
[441]
dieser Distanz zum Quadrat und mittle über alles.
[443]
Dann würde ich diese Zahl bekommen
[444]
und das wäre wohl eine recht gute Schätzung der
[447]
Varianz der gesamten Population.
[450]
Die Population des Mittelwerts ist möglicherweise
[452]
weiß nicht
[453]
Es könnte ziemlich ähnlich zu dem hier sein.
[455]
Wenn wir alle Datenpunkte nehmen würden und dann das Mittel nähmen,
[457]
dann wäre das vielleicht irgendwo hier.
[459]
Und wenn du dann die Varianz ausrechnest, dann wäre das
[460]
vielleicht recht nah am Mittelwert der ganzen Linien hier, ja?
[463]
Von allen Varianz-Abständen der Stichprobe, ja?
[466]
So weit, so gut.
[467]
Jetzt sagst du, OK, Sal,
[467]
sieht ja ganz gut aus,
[469]
aber da ist ein Haken.
[471]
Was ist denn... Es besteht immer die Möglichkeit, dass man
[474]
nicht diese schön verteilten Zahlen als Stichprobe wählt,
[476]
sondern, was passiert, wenn ich eben diese Zahl, diese Zahl
[480]
und diese Zahl
[483]
als Stichprobe wähle?
[485]
Was auch immer deine Stichprobe ist, dein Stichproben-Mittelwert
[488]
wird immer in der Mitte davon sein, ja?
[490]
Also in diesem Fall ist dein Stichproben-Mittelwert hier.
[492]
Und bei diesen Zahlen würde man jetzt sagen, OK, die Zahl hier
[495]
ist nicht sehr weit von dieser Zahl entfernt und diese Zahl nicht sehr weit von jener und
[497]
diese Zahl ist auch nicht weit.
[499]
Also wird deine Stichproben-Varianz, wenn man's so macht, ziemlich
[501]
niedrig sein.
[503]
Einfach weil alle diese Zahlen ziemlich...
[506]
... ziemlich nah an ihrem Mittelwert
[508]
sein werden.
[510]
Aber in diesem Fall ist die Stichprobe irgendwie unausgeglichen und
[514]
der wirkliche Mittelwert der Population ist ja irgendwo hier drüben.
[517]
Also ist auch die wirkliche Varianz der Stichprobe, wenn man
[520]
den echten Mittelwert wüsste - ich weiß, es klingt verwirrend -
[523]
wenn du den echten Mittelwert wüsstest, würdest du sagen
[524]
"Wow!".
[526]
Du würdest dann diese Abstände hier sehen, die natürlich
[528]
viel größer wären.
[531]
Warum ich das alles erzähle ist, wenn du
[533]
eine Stichprobe nimmst, dann ist es möglich, dass dein Stichproben-Mittelwert
[538]
dem Populations-Mittelwert sehr ähnlich ist, ja?
[540]
Der Stichproben-Mittelwert ist vielleicht hier und der
[542]
Populations-Mittelwert hier.
[543]
Und dann funktioniert diese Formel ganz wunderbar,
[545]
jedenfalls, was die Stichprobenpunkte betrifft und was das
[547]
Berechnen der Varianz betrifft.
[549]
Aber es kann auch sein, dass dein Stichproben-Mittelwert...
[554]
also die Stichprobe ist immer in den Daten enthalten, ja?
[556]
Der Mittelwert ist immer in der Mitte der Stichproben-Daten.
[558]
Aber es ist durchaus möglich, dass der Populations-Mittelwert
[561]
außerhalb der Stichproben-Daten liegt.
[562]
Es kann einfach sein, dass du Werte gewählt hast,
[564]
die nicht den eigentlichen Populations-Mittelwert enthalten.
[568]
Und wenn du dann die Stichproben-Varianz auf diesem Weg berechnest,
[571]
dann unterschätzt du die eigentliche
[574]
Populations-Varianz, richtig?
[576]
Einfach, weil sie immer näher am eigenen Mittelwert sein werden
[578]
als am Mittelwert der Population.
[579]
Und wenn du nur 10% von all dem hier verstehst,
[583]
dann bist du bereits ein Student fortgeschrittener Statistik.
[585]
Ich erzähle all das nur, um dir - hoffentlich -
[589]
eine Ahnung davon zu geben, da das hier häufig...
[593]
diese Formel wird häufig die eigentliche Varianz der Population
[597]
unterschätzen.
[599]
Und es gibt eine Formel - und das wurde tatsächlich richtig
[601]
bewiesen - eine Formel, die eine bessere Schätzung,
[604]
oder sagen wir eine ausgeglichenere Schätzung der
[608]
Populations-Varianz darstellt.
[609]
Oder auch die ausgeglichene Stichproben-Varianz.
[611]
Und manchmal wird es einfach als s Quadrat geschrieben,
[614]
manchmal als s Index n-1 zum Quadrat.
[618]
Und ich zeig euch warum.
[620]
Es ist fast das gleiche.
[622]
Du nimmst jeden Datenpunkt, schaust, wie weit sie
[624]
vom Stichproben-Mittelwert weg sind
[628]
und quadrierst das.
[628]
Und dann nimmst du das Mittel dieser quadrierten Werte,
[631]
mit einem kleinen Unterschied:
[633]
i gleich 1 bis i gleich n...
[635]
statt durch n zu teilen, teilst du durch eine etwas
[639]
kleinere Zahl.
[641]
Du teilst durch n minus 1.
[644]
Wenn du durch n minus 1 teilst anstatt durch n zu teilen,
[646]
wirst du ein etwas größeres Ergebnis bekommen.
[649]
Und es stellt sich heraus, dass das
[651]
tatsächlich eine viel bessere Schätzung ist.
[652]
Und eines Tages werde ich ein Computerprogramm schreiben,
[654]
um mir das experimentell zu beweisen, dass das
[657]
eine bessere Abschätzung der Populations-Varianz ist.
[661]
Und man berechnet das auf die gleiche Weise, nur dass
[663]
man durch n minus 1 dividiert.
[665]
Man kann das auch so erklären... aber nein,
[667]
ich habe keine Zeit mehr.
[668]
Wir belassen es erstmal dabei.
[669]
Und im nächsten Video machen wir ein paar
[670]
Rechnungen, dass ihr nicht zu sehr von der Theorie
[672]
erschlagen werdet.
[673]
Weil wir doch recht abstrakt geworden sind.
[674]
Bis zum nächsten Video.
[676]
.
Most Recent Videos:
You can go back to the homepage right here: Homepage





