🔍
Statistics: Variance of a population | Probability and Statistics | Khan Academy - YouTube
Channel: Khan Academy
[0]
VERTEILUNG
[0]
Ich machte einen kleinen Fehler im letzten Video, als ich über
[0]
den Mittelwert einer Population und den Mittelwert einer Stichprobe sprach.
[0]
Ich werde die Gleichungen erneut schreiben.
[0]
Ich merkte, dass ich in der Formel einen kleinen Fehler machte, und es könnte sein, dass
[0]
ich dich etwas durcheinander gebracht habe.
[0]
Wir wiederholen daher ein wenig, das schadet nie.
[0]
Der Mittelwert einer Population -- noch einmal, das ist µ -- der Mittelwert einer
[0]
Population ist gleichwertig, wie wenn man die Summe aller
[0]
Datenpunkte/Messwerte nimmt.
[0]
Du nimmst die Summe - Dafür steht das große Sigma -
[0]
von jedem Messwert.
[0]
Daher x Index i.
[0]
Ich hatte vorher x Index n geschrieben und wenn du das letzte
[0]
Video anschaut, dann siehst du, warum es etwas verwirrend ist.
[0]
Du startest mit dem ersten Messwert.
[0]
Also i ist gleich 1.
[0]
Du startest mit dem ersten Messwert, und du nimmst die Summe
[0]
bis zum n-ten Messwert, wo wir ein großes N haben,
[0]
wobei N die gesamte Anzahl der Elemente einer Population ist.
[0]
Und dann dividierst du das durch N.
[0]
Das ist also eine andere Schreibweise für x Index 1 plus x Index 2,
[0]
plus, und du führst die Addition einfach fort, bum bum bum, wie viel dort auch immer
[0]
sind. x Index N, und dann dividierst du das durch N.
[0]
Und ich denke, das ist es, was du bereits kennst als den
[0]
arithmetischen Mittelwert, oder den Mittelwert.
[0]
Du addierst einfach alle Elemente und dividierst
[0]
durch die gesamte Anzahl an Elementen.
[0]
Das ist einfach nur eine schöne Schreibweise dafür.
[0]
Und der Mittelwert einer Stichprobe ist im Grunde dasselbe,
[0]
obwohl die Notation ein wenig anders ist.
[0]
Der Mittelwert der Stichprobe wird als x mit Strich darüber geschrieben
[0]
und das entspricht wieder mal der Summe der Elemente in der Stichprobe.
[0]
Und dann unterscheidet sich die Notation ein klein wenig:
[0]
Du beginnst beim ersten Element der Stichprobe und gehst
[0]
bis zur Anzahl der Elemente in der Stichprobe.
[0]
Daher verwendet man das kleine n.
[0]
In der gesamten Population gibt es N Elemente, und
[0]
man nimmt eine Teilmenge davon -- wir nehmen an, dass
[0]
n kleiner oder gleich N ist -- und das dividierst du durch die
[0]
Anzahl der Elemente in der Stichprobe.
[0]
Das wäre also wieder x1 plus x2 plus Punkt, Punkt, Punkt, plus
[0]
x klein n geteilt durch klein n.
[0]
Die hier sind im Grunde dasselbe.
[0]
Wenn deine Stichprobe die gesamte Population wäre, dann
[0]
wären diese beiden n’s gleich und diese Zahlen
[0]
wären gleich.
[0]
Aber es ist einfach ein Unterschied in der Notation, wenn du jemals
[0]
das hier siehst, dann weißt du, dass du es mit einer Stichprobe zu tun hast.
[0]
Hier weißt du, dass du es mit der gesamten Population zu tun hast.
[0]
Und genauso: großes N, gesamte Population
[0]
kleines n, die Stichprobe
[0]
So.
[0]
Jetzt sind wir, denke ich, bereit, ein wenig über
[0]
Maßzahlen von Verteilungen zu lernen.
[0]
Der Mittelwert, der häufigste Wert und der Median, die wir im
[0]
ersten Video dieser Playlist behandelt haben, dienten alle dazu,
[0]
die zentrale Tendenz einer Datenmenge zu messen, oder
[0]
irgendwie eine Zahl zu wählen, die stellvertretend für
[0]
alle Zahlen ist.
[0]
Aber wir verlieren viele Informationen.
[0]
Wir wissen nicht, ob alle Zahlen der Datenmenge
[0]
nahe an dieser Zahl, am Mittelwert, sind, oder vielleicht
[0]
ganz weit weg vom Mittelwert.
[0]
Und deshalb wollen wir die Verteilung messen.
[0]
Ich zeige dir, was ich damit meine.
[0]
Sagen wir, ich habe eine Menge, und die besteht aus
[0]
einer 2, einer 2, einer 3 und einer 3.
[0]
Sagen wir, das ist eine Population.
[0]
Beschränken wir uns erst mal auf Mittelwerte und Verteilungen
[0]
von Populationen.
[0]
Was ist hier also der Mittelwert?
[0]
Der Mittelwert ist hier 2 + 2 + 2 + 3
[0]
und das ganze durch 4.
[0]
Und was ist das?
[0]
Das ist gleich 2 und 1/2, oder?
[0]
4 + 6 geteilt durch 4, richtig?
[0]
Das ist gleich 2,5.
[0]
So.
[0]
Was wäre, wenn wir das hier hätten?
[0]
Wenn wir die Zahlen 0, 0, 5 und 5 hätten?
[0]
Das sind die Zahlen in unserer Menge.
[0]
Ich schreibe Kommata dazwischen, damit du siehst, dass es
[0]
verschiedene Zahlen sind.
[0]
Was ist hier der Mittelwert?
[0]
Nun, der Mittelwert hier -- sagen wir, das ist die Population,
[0]
keine Stichprobe, sondern die gesamte Population,
[0]
du wirst später sehen, warum ich diese Unterscheidung mache --
[0]
der Mittelwert ist also 0 plus 0 plus 5 plus 5,
[0]
das ist 10, geteilt durch 4 ergibt 2,5.
[0]
Das arithmetische Mittel ist also bei beiden Populationen
[0]
der gleiche Wert.
[0]
Beides Mal 2,5.
[0]
Aber du wirst noch sehen, dass diese Mengen verschieden sind.
[0]
Hier sind die Zahlen alle recht nah an 2,5, oder?
[0]
Wohingegen hier der arithmetische Mittelwert zwar 2,5 ist,
[0]
sie liegen aber weiter weg von 2,5.
[0]
Anders gesagt, der Abstand jeder dieser Zahlen,
[0]
jeder der Zahlen in der Menge, deren Abstand vom Mittelwert
[0]
ist größer.
[0]
Man könnte sagen, sie sind verstreuter,
[0]
sie liegen weiter weg vom Mittelwert.
[0]
Auf andere Art betrachtet, ist der Mittelwert hier,
[0]
obwohl er die zentrale Tendenz misst, weitaus weniger bezeichnend
[0]
für alle Zahlen.
[0]
Die Zahlen sind durchschnittlich viel weiter vom Mittelwert entfernt.
[0]
Wie misst man das?
[0]
Nun, man misst das durch die Varianz.
[0]
Ich habe da etwas gefunden, das auf den ersten Blick
[0]
kompliziert aussieht.
[0]
Viele Lehrbücher benutzen eine sehr komplexe Notation.
[0]
Aber die Idee ist fast so unkompliziert wie beim
[0]
arithmetischen Mittel.
[0]
Man schreibt also die Varianz, und zwar bezeichnet man sie
[0]
mit dem kleinen Sigma, dem griechischen Buchstaben --
[0]
ich habe das Oberteil zu lang gezeichnet --
[0]
Lass mich das zurücknehmen.
[0]
Ich will nicht, dass du das für den Rest deines Lebens
[0]
mit einem großen Oberteil schreibst. --
[0]
Man bezeichnet sie mit sigma zum Quadrat.
[0]
Wir kommen gleich dazu, warum man es so schreibt --
[0]
du weißt schon, warum nimmt man nicht v für Varianz,
[0]
warum nimmt man diesen komischen Buchstaben zum Quadrat? --
[0]
dazu komme ich gleich.
[0]
Aber die Varianz einer Population ist definiert als
[0]
-- und nochmals, das sind nur vom Menschen gemachte Konstrukte,
[0]
um uns mit den Daten vertraut zu machen.
[0]
Um eine Datenmenge zu beschreiben, ohne alle ihre Elemente
[0]
auflisten zu müssen, und um in gewisser Weise zu verstehen,
[0]
wofür diese Daten stehen.
[0]
Du nimmst also die Summe, und beginnst dabei mit
[0]
allen Messwerten der Population.
[0]
Aber anstelle die Summe der Messwerte zu nehmen, nimmst du
[0]
jeden Messwert, x Index i, und ziehst davon ab --
[0]
es macht keinen Unterschied, was du wovon abziehst,
[0]
du ziehst den Mittelwert der Population ab.
[0]
Und das quadrierst du dann.
[0]
Was ist das also?
[0]
Das ist der Abstand zwischen jeder Zahl und dem Mittelwert.
[0]
Und wenn man den quadriert, wird die Zahl positiv.
[0]
Du kannst es also als den quadrierten Betrag des Abstandes
[0]
zwischen jeder Zahl und dem Mittelwert der Menge betrachten.
[0]
Dann nimmt man den Mittelwert davon,
[0]
dividiert also durch N.
[0]
Das mag vielleicht sehr kompliziert aussehen, aber
[0]
berechnen wir es doch für diese beiden Datenmengen.
[0]
Lass mich die erste Datenmenge nochmals aufschreiben.
[0]
Sie ist 2, 2, 2 und 3.
[0]
Oder lass es mich so schreiben.
[0]
Damit kann ich es dir ein wenig besser erklären.
[0]
Wenn ich i schreibe -- i1, i2, i3, i4
[0]
Das ist i
[0]
Dann x Index i
[0]
Das ist beliebig, es bedeutet nur der erste Term, der
[0]
zweite Term, der dritte Term.
[0]
Ich hätte das in einer beliebigen Reihenfolge schreiben können, sie spielt keine Rolle.
[0]
Vielleicht war das der erste Term und das der zweite
[0]
und das ist der dritte.
[0]
Es spielt keine Rolle, weil wir sie alle aufaddieren
[0]
und dann dividieren.
[0]
Die Reihenfolge ist also unwichtig.
[0]
Wie auch immer, x Index 1 ist gleich 2.
[0]
x Index 2 ist gleich 2.
[0]
x Index 3 ist gleich 3.
[0]
Ich lasse das Gleichheitszeichen weg. x Index 4 ist gleich 3.
[0]
Was ist der Mittelwert?
[0]
Nun, den haben wir hier oben ausgerechnet.
[0]
Wir haben diese Zahlen einfach addiert und durch 4 geteilt.
[0]
Der Mittelwert ist 2,5.
[0]
Was ist also x Index i minus dem Mittelwert?
[0]
Wir bauen uns langsam diese Gleichung zusammen.
[0]
Was ist x Index i minus dem Mittelwert?
[0]
Nun, 2 minus 2,5 ist minus 0,5.
[0]
2 minus 2,5 ist wieder minus 0,5.
[0]
3 minus 2,5 ergibt 0,5.
[0]
3 minus 2,5 ergibt 0,5.
[0]
So.
[0]
Nun sollen wir diese Gleichung quadrieren.
[0]
Also x Index i minus dem Mittelwert zum Quadrat.
[0]
Und neben anderen Dingen, über die wir später sprechen werden,
[0]
macht das Quadrieren die Werte positiv. Das ist das Wichtigste.
[0]
Das hätten wir auch mit dem Betrag tun können, aber das
[0]
Quadrieren macht all diese hier positiv.
[0]
Also, minus 0,5 zum Quadrat ist plus 0,25.
[0]
Das ist plus 0,25.
[0]
Plus 0,5 zum Quadrat ist auch plus 0,25.
[0]
Und das ist plus 0,25.
[0]
Wenn wir also die Summe von i gleich 1 bis 4 von
[0]
x Index i minus dem Mittelwert, der ist 2,5, zum Quadrat.
[0]
wissen wollen, entspricht das der Summe dieser Zahlen.
[0]
Das bedeutet nur: summiere diese auf.
[0]
Also, die Summe aller dieser Zahlen -- 0,25.
[0]
Das ergibt 1.
[0]
Aber das ist noch nicht die Varianz.
[0]
Die Varianz ist das hier -- schauen wir
[0]
die ursprüngliche Formel an.
[0]
Die Varianz ist das hier geteilt durch die Anzahl
[0]
der Zahlen, die du hast.
[0]
Du nimmst also das.
[0]
Die Varianz ist also gleich diesem Ding hier geteilt durch die
[0]
Anzahl der Zahlen, also 4.
[0]
Das ergibt 0,25.
[0]
Und du siehst, dass hier der quadrierte Abstand jeder der Zahlen
[0]
zum Mittelwert 0,25 war.
[0]
Und der Durchschnitt davon -- das ist im Grunde, was
[0]
die Varianz ausmacht -- der Durchschnitt war auch 0,25.
[0]
Und ich zeige noch ein Beispiel, wo diese hier verschieden sind.
[0]
Um genau zu sein, beim anderen Beispiel in diesem Video
[0]
sind sie nicht verschieden.
[0]
Aber du siehst hier, dass der durchschnittliche quadrierte Abstand vom Mittelwert
[0]
in der ersten Datenmenge 0,25 ist.
[0]
Und was ist hier der durchschnittliche quadrierte Abstand zum Mittelwert?
[0]
Schauen wir mal.
[0]
Wie weit ist das vom Mittelwert entfernt?
[0]
Ich schreibe x Index i, und dann x Index i minus dem
[0]
Mittelwert, für diese Population.
[0]
Also x Index i, eine 0, eine 0, eine 5 und eine 5.
[0]
Das ist der erste Term, x Index 1.
[0]
x Index 1, das ist x Index 2 und so weiter.
[0]
Und jede dieser Zahlen minus -- 0 minus,
[0]
das ist minus 2,5.
[0]
0 minus 2,5 -- das könnte 2,5 sein, oder?
[0]
Das ist der Mittelwert.
[0]
Es ist minus 2,5. 5 minus 2,5 ist 2,5, 5 minus 2,5 ist 2,5.
[0]
Wenn du x Index i minus dem Mittelwert quadrierst,
[0]
-- Was ist 2,5 zum Quadrat? --
[0]
6,25, dann wird es positiv.
[0]
Also 6,25.
[0]
Das ist das Gleiche, 6,25.
[0]
Das ist schon positiv.
[0]
Also 6,25, 6,25.
[0]
Die Varianz ist also die Summe von allen diesen Zahlen geteilt
[0]
durch die Anzahl der Zahlen.
[0]
Wir nehmen also die Summe von allen diesen.
[0]
Es ist also nur der Mittelwert hiervon.
[0]
Und der ist recht einfach auszurechnen.
[0]
Wenn du diese alle addierst und durch 4 teilst,
[0]
bekommst du einfach 6,25.
[0]
Die Varianz diese Population ist also 6,25.
[0]
Nun haben wir es.
[0]
Du hast zwei Datenmengen mit dem gleichen Mittelwert, aber
[0]
die Varianz dieser Datenmenge ist gleich, das haben wir herausbekommen,
[0]
gleich 0,25, während die Varianz dieser Datenmenge gleich 6,25 ist.
[0]
Und es fällt im Moment schwer, sich vorzustellen, wie die 6
[0]
mit der 0,25 zusammenhängt, aber du siehst, dass diese Zahl
[0]
viel größer als diese hier ist.
[0]
Und das gibt dir das Gefühl, dass die Zahlen in dieser Menge
[0]
durchschnittlich viel weiter weg vom Mittelwert sind
[0]
als die Zahlen in dieser Datenmenge.
[0]
Wie dem auch sei, mir geht die Zeit aus.
[0]
Bis zum nächsten Video.
[0]
Wir werden ein wenig hierüber sprechen und uns mit der
[0]
Standardabweichung beschäftigen und damit, was passiert, wenn man diese hier
[0]
von einer Stichprobe statt einer Population nimmt.
[0]
Alles, was wir hier gemacht haben, den Mittelwert und die
[0]
Varianz von jeder Zahl in der Datenmenge zu nehmen,
[0]
machen wir später mit einer Stichprobe.
[0]
Bis bald.
Most Recent Videos:
You can go back to the homepage right here: Homepage





