Standard error of the mean | Inferential statistics | Probability and Statistics | Khan Academy - YouTube

Channel: Khan Academy

[0]
В последните няколко видеа
[2]
започвахме с някое странно разпределение.
[5]
Не е задължително да е странно.
[6]
Може да е хубаво нормално разпределение.
[8]
Но, за да обясня това, че
[9]
не е задължително да имаш нормално разпределение,
[11]
предпочитам да използвам странните.
[12]
Да кажем, че имаш някакъв вид странно разпределение,
[14]
което изглежда подобно на това.
[16]
Може да изглежда всякак.
[17]
Множество пъти сме виждали...
[18]
взимаш извадки от това странно разпределение.
[20]
Да кажем, че взимаш извадки от n равно на 10.
[28]
Взимаме 10 отделни стойности на тази случайна променлива,
[32]
намираме средно аритметичното и после го нанасяме.
[36]
Това е един отделен случай.
[37]
Продължаваме да правим това.
[38]
Правим го отново.
[39]
Взимаме 10 стойности на тази случайна променлива,
[42]
намираме средно аритметичното, отново го поставяме.
[44]
Правиш това множество пъти –
[47]
на теория, безброен брой –
[49]
и започваш да доближаваш емпиричното
[52]
разпределение на средната стойност на извадката.
[53]
При n равно на 10, това няма да е
[55]
перфектно нормално разпределение, но ще е близо.
[58]
Ще е перфектно, само ако n беше безкрайност.
[60]
Но, да кажем, че евентуално – всичките ни извадки,
[65]
намираме много средно аритметични стойности, които са там.
[66]
Това става на купчинка.
[67]
Това става на купчинка.
[68]
И, евентуално, ще започнем да доближаваме нещо,
[70]
което изглежда подобно на това.
[73]
От последното видео видяхме,
[74]
че, първо, ако... да допуснем, че го направехме още веднъж.
[77]
Този път, да приемем, че n е равно на 20.
[81]
Първо, разпределението, което ще получим, ще е по-нормално.
[85]
И, може би, в бъдещи видеа, ние ще
[86]
се задълбочим повече в неща като ексцес и асиметрия.
[89]
Но това ще е по-нормално.
[90]
Но още по-важно тук или, предполагам, още по-очевидно
[93]
за нас, отколкото видяхме в експеримента,
[95]
това ще има по-ниско стандартно отклонение.
[97]
Всички те ще имат еднаква средна стойност.
[99]
Да кажем, че средната стойност тук е 5.
[103]
После, средната стойност тук също ще е 5.
[105]
Средната стойност на емпиричното разпределение на средната стойност
[107]
на извадката ще е 5.
[108]
Няма значение какво е нашето n.
[110]
Ако нашето n е 20, тя пак ще е 5.
[112]
Но стандартното ни отклонение ще
[113]
е по-малко в тези сценарии.
[115]
Видяхме това чрез експериментиране.
[117]
Може да изглежда така.
[118]
Ще е по-нормално, но ще
[119]
има по-тясно стандартно отклонение.
[121]
Може да изглежда така.
[123]
И, ако направехме това с по-голям размер на извадката –
[126]
нека направя това в различен цвят.
[128]
Ако направим това с още по-голям размер на извадката,
[130]
n е равно на 100, тогава ще получим
[133]
нещо, което дори още по-добре приляга на нормалното
[136]
разпределение.
[136]
Взимаме 100 отделни стойности от тази случайна променлива,
[139]
взимаме средно аритметичното и го нанасяме.
[141]
100 отделни стойности на тази случайна променлива,
[142]
взимаме средно аритметичното, нанасяме го.
[143]
Продължаваме да правим това.
[145]
Ако продължим да правим това, ще получим
[147]
нещо, което е още по-нормално от което и да е от тези.
[150]
Това ще пасне много по-добре
[151]
на истинско нормално разпределение,
[153]
но, дори по-очевидно за човешкото око,
[155]
ще е още по-тясно.
[157]
Ще има много ниско стандартно отклонение.
[160]
Ще изглежда подобно на това.
[161]
Ще ти покажа това видео на симулационното приложение, вероятно по-късно
[167]
в това видео.
[168]
Случват се две неща.
[169]
Докато увеличаваш размера на извадката всеки път,
[171]
когато вземеш средно аритметичното, две неща ще се случат.
[173]
Това ще стане по-нормално и стандартното ти отклонение
[177]
става по-малко.
[178]
Може да изникне въпросът: "Има ли формула?"
[180]
Ако знам стандартното отклонение...
[184]
това е стандартното отклонение на оригиналната ми функция на
[187]
вероятностна плътност.
[188]
Това е средната стойност на оригиналната ми функция на вероятностна плътност.
[191]
Знам стандартното отклонение
[194]
и знам, че n ще се промени, в зависимост
[196]
колко извадки взимам всеки път, когато пресмятам средната стойност на извадката.
[199]
Знам стандартното отклонение или, може би, знам дисперсията.
[203]
Дисперсията е просто стандартното отклонение на квадрат.
[206]
Ако не помниш това, може да
[207]
искаш да преговориш тези видеа.
[209]
Но, ако знам дисперсията на оригиналното ми разпределение
[214]
и ако знам колко е n, колко извадки
[218]
взимам всеки път, когато сметна средно аритметичното, за да
[220]
поставя едно нещо в емпиричното разпределение на средната стойност на извадката,
[226]
има ли начин да предвидя каква ще е средната стойност на тези
[230]
разпределения?
[232]
Стандартното отклонение на тези разпределения.
[234]
За да направя това, че да не се объркаш между това и това,
[236]
нека кажа "дисперсията".
[237]
Ако знаеш дисперсията, можеш да откриеш
[238]
стандартното отклонение, понеже едното
[240]
е просто корен квадратен на другото.
[241]
Това е дисперсията на оригиналното ни разпределение.
[246]
За да покажа, че това е дисперсията на нашето емпирично
[249]
разпределение на средната стойност на извадката, ще го запишем тук.
[251]
Това е дисперсията на средната стойност на извадката.
[256]
Помни, реалната средна стойност е тази, гръцката буква
[260]
"мю" (mu) е реалната средна стойност.
[262]
Това е равно на средната стойност.
[265]
Докато "х" с черта над него означава средна стойност на извадката.
[271]
Тук казваме, че това е
[272]
дисперсията на средните стойности на извадката.
[275]
Това ще е реално разпределение.
[277]
Това не е изчисление.
[279]
Ако магически знаехме разпределението,
[282]
тук има реална дисперсия.
[285]
Разбира се, средната стойност – това има средна стойност.
[288]
Това тук – ако искаме означаването ни да е вярно –
[290]
това е средната стойност на емпиричното разпределение на
[295]
средната стойност на извадката.
[295]
Това е средната стойност на нашите средни стойности.
[297]
Просто случайно е същото нещо.
[300]
Това е средната стойност на средните стойности на нашата извадка.
[302]
Това ще е същото като това,
[304]
особено, ако направим опита отново и отново, и отново.
[307]
Но целта на това видео е
[308]
дали има начин да намерим тази дисперсия при дадени
[312]
дисперсията на оригиналното разпределение и n.
[315]
Оказва се, че има.
[316]
Няма да показвам доказателството тук.
[318]
Искам да ти покажа логиката.
[319]
Мисля, че вече разбираш, че с
[321]
всеки опит, който направиш, ако направиш 100, е много по-вероятно,
[325]
когато вземеш средно аритметичното, да се доближиш до реалната
[328]
средна стойност, отколкото ако вземеш n от 2 или n от 5.
[331]
Много по-малко вероятно е да си далеч от нея, ако
[334]
направиш 100 опита, отколкото ако направиш пет.
[336]
Мисля, че знаеш, че това, по някакъв начин,
[338]
трябва да е обратно пропорционално на n.
[340]
Колкото по-голямо е n, толкова по-малко е стандартното отклонение.
[343]
Оказва се, че това е толкова просто, колкото е възможно.
[345]
Това е едно от тези магически неща в математиката.
[347]
Някой ден ще ти го докажа.
[350]
Искам първо да ти дам практическо знание.
[352]
При статистиката винаги ми е трудно да реша
[353]
дали трябва да съм по-формален, когато ти давам твърди доказателства,
[356]
но стигнах до заключението, че
[357]
в статистиката е по-важно първо да получиш практическо
[359]
знание и после, по-късно, след като разбереш всичко това,
[362]
можем да стигнем до наистина задълбочената математика
[365]
и да ти го докажа.
[366]
Но мисля, че засега ти трябват само експериментални доказателства,
[369]
чрез използването на тези симулации, за да ти покажа, че това наистина е вярно.
[372]
Оказва се, че дисперсията на емпиричното
[374]
разпределение на средната стойност на извадката е
[376]
равно на дисперсията на оригиналното разпределение –
[380]
това ето тук – делено на n.
[383]
Това е всичко.
[384]
Ако това тук горе беше дисперсия от – да кажем,
[389]
че това тук горе има дисперсия, равна на 20.
[392]
Просто си измислих това число.
[394]
После, да кажем, че n е 20.
[396]
Тогава дисперсията на емпиричното разпределение
[398]
на средната стойност на извадката за n равно на 20 –
[400]
ще вземеш дисперсията тук горе –
[403]
дисперсията е 20 – делено на n, 20.
[406]
Тук дисперсията ще е
[408]
20 делено на 20, което е равно на 1.
[411]
Това е дисперсията на оригиналното вероятностно
[413]
разпределение.
[414]
А това е твоето n.
[415]
Колко ще е стандартното отклонение?
[417]
Колко ще е корен квадратен от това?
[419]
Стандартното отклонение ще е корен квадратен от 1.
[420]
Това също ще е 1.
[422]
Можем да запишем и това.
[424]
Можем да вземем корен квадратен на двете страни на това и да кажем, че
[432]
стандартно отклонение на емпиричното разпределение
[434]
на средната стойност на извадката често се нарича стандартно отклонение
[437]
на средната стойност, а също се нарича –
[439]
ще запиша това – стандартна грешка на средната стойност.
[447]
Всички тези неща, които сега споменах, означават
[450]
стандартното отклонение на емпиричното
[452]
разпределение на средната стойност на извадката.
[453]
Затова това е объркващо.
[455]
Понеже използваш думите "средна стойност" и "извадка"
[457]
отново и отново.
[458]
И, ако това те обърква, уведоми ме.
[459]
Ще направя друго видео или ще спра и повторя, или нещо такова.
[462]
Но, ако просто вземем корен квадратен от двете страни,
[464]
стандартната грешка на средната стойност или стандартното отклонение
[466]
на емпиричното разпределение на средната стойност на извадката
[468]
е равно на стандартното отклонение
[471]
на оригиналната функция на оригиналната функция
[475]
на вероятностната плътност, което може да е доста ненормално,
[477]
делено на корен квадратен от n.
[479]
Просто взех корен квадратен на двете страни от това уравнение.
[483]
Лично, предпочитам да помня това,
[486]
че дисперсията е обратно пропорционална на n
[488]
и после предпочитам да се върна към това,
[490]
понеже това е по-лесно.
[492]
Просто взимаш дисперсията, делена на n.
[493]
Ако искам стандартното отклонение,
[495]
просто взимам корен квадратен на двете страни
[497]
и получавам тази формула.
[498]
Тук, когато n е 20, стандартното отклонение
[503]
на емпиричното разпределение на средната стойност на извадката
[506]
ще е едно.
[507]
Тук, когато n е 100, дисперсията...
[512]
дисперсията на емпиричната средна стойност на разпределението на извадката
[515]
или дисперсията на средната стойност, или средната стойност на извадката,
[518]
ще е равна на 20, дисперсията на това, делено на n.
[523]
Това е равно на – n е 100 – равно е на една пета.
[526]
Стандартното отклонение на това
[530]
или стандартното отклонение на емпиричното разпределение
[533]
на средната стойност на извадката, или стандартната грешка на средната стойност,
[535]
ще е корен квадратен от това.
[536]
Тоест, 1 върху корен квадратен от 5.
[538]
Това тук ще трябва да е малко
[542]
под една втора от стандартното отклонение,
[544]
докато това тук има стандартно отклонение от 1.
[545]
Виждаш, че това определено е по-малко.
[547]
Знам какво си казваш сега.
[548]
"Сал, ти просто ми даде формула.
[549]
Не е задължително да ти вярвам."
[551]
Да видим дали можем да го докажем,
[553]
чрез използване на симулацията.
[556]
Просто за забавление малко ще си поиграя с това
[560]
разпределение.
[561]
Това е новото ми разпределение.
[563]
Нека взема n – нека взема
[564]
две неща, на които е лесно да вземем квадратния корен,
[566]
понеже гледаме стандартните отклонения.
[568]
Да кажем, че вземем n от 16 и n от 25.
[573]
Да направим 10 000 опита.
[575]
В този случай с всеки опит
[577]
ще взимаме 16 извадки от тук,
[578]
ще вземем средно аритметичното и ще направим диаграма на честотата.
[581]
Тук ще направим 25 едновременно и после ще вземем средно аритметичното.
[584]
За да го запомниш, ще го направя анимирано веднъж.
[586]
Взимам 16 извадки, поставям това тук.
[590]
Взимам 16 извадки, както е описано от тази функция на вероятностната
[593]
плътност, или сега са 25.
[595]
Поставям ги тук.
[597]
Какво ще получа, ако направя това 10 000 пъти?
[602]
Колко ще получа?
[603]
Добре.
[604]
Тук, просто визуално, можеш да кажеш, че когато n е било по-голямо,
[607]
стандартното отклонение тук е по-малко.
[608]
Това е по-свито.
[610]
Но нека запиша това.
[612]
Да видим дали мога да си го спомня.
[613]
Тук n е 6.
[614]
При това случайно разпределение, което направих, стандартното отклонение
[617]
беше 9,3.
[619]
Ще запомня тези.
[620]
Стандартното отклонение за оригиналното беше 9,3.
[624]
Стандартното отклонение тук беше 2,3
[627]
и стандартното отклонение тук е 1,87.
[629]
Да видим дали това съответства на формулата ни.
[632]
Ще махна това от екрана за малко,
[635]
ще се върна обратно и ще направя няколко изчисления.
[639]
Това е на другия ми екран,
[640]
за да мога да си спомня тези числа.
[642]
В опита, който направихме, шантавото ми разпределение
[646]
имаше стандартно отклонение от 9,3.
[656]
Когато n беше равно на 16 – просто направихме експеримента,
[661]
направихме няколко опита, взехме средно аритметичното и направихме
[663]
всичко това – получихме стандартното отклонение
[666]
на емпиричното разпределение на средната стойност на извадката
[668]
или стандартната грешка на средната стойност.
[670]
Експериментално определихме, че това е 2,33.
[675]
После, когато n беше равно на 25,
[680]
получихме, че стандартната грешка на средната стойност е равна на 1,87.
[684]
Да видим дали това съответства на формулите ни.
[688]
Знаем, че дисперсията... или почти можем
[692]
да кажем дисперсията на средната стойност или стандартната грешка –
[695]
дисперсията на емпиричното разпределение на средната стойност на извадката
[698]
е равно на дисперсията на оригиналното ни разпределение, разделена
[701]
на n.
[701]
Взимаме корен квадратен на двете страни.
[704]
После получаваме, че стандартната грешка на средната стойност
[706]
е равна на стандартното отклонение на оригиналното разпределение,
[709]
делено на корен квадратен от n.
[711]
Да видим дали това върши работа за тези две неща.
[714]
Ако взема 9,3 – нека направя този случай.
[718]
9,3 делено на корен квадратен от 16 –
[724]
n е 16 – тоест, делено на корен квадратен от 16, което е 4.
[728]
Колко получавам?
[729]
9,3 делено на 4.
[731]
Нека извадя калкулатор.
[734]
Да видим.
[737]
Искаме да разделим 9,3 на 4.
[741]
9,3 делено на корен квадратен от n – n беше 16,
[745]
тоест, делено на 4 – е равно на 2,32.
[752]
Това е равно на 2,32, което е много, много близо до 2,33.
[761]
Това беше след 10 000 опита.
[763]
Може би точно след това ще видя какво
[764]
се случва, ако направим 20 000 или 30 000 опита, при които
[766]
правим извадки от 16 и взимаме средно аритметичното.
[769]
Нека разгледаме това.
[770]
Тук ще вземем 9,3.
[773]
Нека нарисувам малка черта тук.
[775]
Може би ще скролна надолу.
[776]
Това може да е по-добре.
[777]
Взимаме стандартното отклонение
[780]
на оригиналното разпределение –
[782]
тази формула, която изведохме тук
[784]
ще ни каже, че стандартната ни грешка трябва
[788]
да е равна на стандартното отклонение
[789]
на оригиналното разпределение – 9,3 –
[792]
делено на корен квадратен от n, делено на корен квадратен от 25.
[796]
Корен квадратен от 16 беше 4.
[798]
Това е равно на 9,3 делено на 5.
[802]
Да видим дали това е 1,87.
[804]
Нека отново извадя калкулатора си.
[808]
Ако сметна 9,3 делено на 5, колко ще получа?
[816]
1,86 и това е доста близо до 1,87.
[821]
В този случай имаме 1,86.
[829]
Както можеш да видиш, това, което експериментално получихме,
[832]
беше почти точно – и това е след 10 000 опита –
[835]
това, което очакваш.
[836]
Нека направим още 10 000.
[838]
Имаш още 10 000 опита.
[840]
Все още сме в приблизителните стойности.
[841]
Няма да стигнем до – може би не мога
[843]
да се надявам да получа точното число, закръглено или каквото и да е.
[847]
Но, както можеш да видиш, надявам се, че това ще е достатъчно
[849]
задоволително за теб, че дисперсията на емпиричното
[853]
разпределение на средната стойност на извадката ще е
[859]
равна на дисперсията на
[861]
оригиналното разпределение, без значение
[862]
колко шантаво ще е разпределението ти,
[865]
делено на размера на извадката, на броя извадки, които
[869]
правиш за всяка група, чието средно аритметично взимаш.
[873]
Предполагам това е най-добрият начин да си го представиш.
[875]
Понякога това може да е объркващо,
[876]
понеже взимаш извадки от средно аритметичните стойности, базирани на извадки.
[880]
Когато някой каже размер на извадка, ти се питаш:
[882]
"Дали размерът на извадката е броят пъти,
[885]
когато взех средно аритметичните, или броят пъти,
[886]
когато всеки път взимам средните стойности?
[888]
Не боли да поясниш това.
[891]
Обикновено, когато говорят за размер на извадката,
[892]
те говорят за n.
[894]
И, поне в моя ум, когато мисля за опитите
[897]
като когато вземеш извадка с размер от 16,
[899]
когато вземеш средно аритметичното, това е един опит.
[901]
И после го поставяш.
[901]
После го правиш отново и това е друг опит.
[903]
После го правиш отново и отново.
[905]
Надявам се, че това ти помага да си изясниш нещата.
[907]
Сега също така ще разбираш как
[909]
да получиш стандартната грешка на средната стойност.