🔍
Margin of error 1 | Inferential statistics | Probability and Statistics | Khan Academy - YouTube
Channel: Khan Academy
[0]
Да кажем, че живея в страна
със 100 милиона жители и
[3]
скоро там предстоят
избори за президент.
[5]
В тези избори има двама кандидати.
[8]
Имаме кандидат А и кандидат В.
[16]
И има определени нагласи...
да кажем, че в тази страна
[19]
всички участват в изборите и
ще гласуват за единия от двамата –
[22]
всички участват в изборите
и всички
[24]
ще гласуват или за кандидат
А, или за кандидат В.
[27]
И има някакъв процент,
и някаква ситуация,
[30]
при която р...
нека го напиша тук –
[33]
може би 1 минус р процента...
нека първо да е р.
[37]
Има вероятност р процента
да гласуват за В... мога
[40]
да ги разменя, ако искам.
[41]
р процента ще гласуват
за В, а останалите
[45]
хора ще гласуват за А,
така че вероятно 1 минус р процента
[48]
ше гласуват за А.
[52]
И може би вече разпознаваш, че това е
[54]
едно разпределение на Бернули.
[55]
Мога да избера една
от двете опции.
[60]
И тук стойностите, които
определих, са, че
[62]
или се гласува за кандидат А,
или за кандидат В.
[64]
Трудно се работи
с такива стойности.
[66]
Не е възможно да се изчислят
средната стойност между А и В и всичко
[68]
това – имаме букви,
а не числа.
[70]
За да можем да боравим
с израза математически,
[74]
ще кажем, че вземаме избирател,
който ще гласува за А, и това е
[77]
равносилно на резултат 0,
а избирател, който
[81]
ще гласува за В, е
равносилен на резултат 1.
[85]
Ако пресмятаме това
с разпределение на Бернули,
[89]
в клипа за разпределяния на Бернули
научихме, че
[92]
средната стойност на това разпределение тук
[99]
ще е равна на р.
[100]
И доказателството на това
как сме го намерили
[103]
е доста просто.
[103]
Средната стойност на
това разпределение
[106]
всъщност не е стойност,
в това разпределение,
[109]
ще представлява някакво място
тук, което е равно на р.
[114]
Да кажем, че моята страна
има 100 милиона жители.
[116]
Практически
за мен е невъзможно
[119]
да отида и да попитам
всички 100 милиона жители
[122]
за кого ще гласуват.
[124]
Така че няма да мога точно
да определя какви
[127]
ще са тези параметри.
[128]
Каква е моята средна стойност,
какво ще е р.
[131]
Но вместо да направя това,
аз ще направя едно
[133]
произволно допитване.
[135]
Ще направя извадка от тази
генерална съвкупност,
[139]
а след това ще направя
оценка на това колко реално е р.
[142]
Понеже това ме интересува
в действителност.
[144]
Интересува ме р.
[145]
Така че ще се опитам да изчисля
р чрез една извадка,
[148]
след което ще помислим и по това
колко добра е тази оценка.
[153]
На случаен принцип ще анкетирам
извадка от 100 души.
[166]
И нека кажем, че имам
следните резултати.
[169]
Нека кажем, че 57 души решават
да гласуват за кандидат А.
[177]
Нека го напиша по този начин.
[180]
57 души казват, че
ще гласуват за А, което
[185]
е равносилно да получим
57 резултата 0.
[189]
А останалите хора, още веднъж,
изключително
[191]
мотивирани избиратели, никой
не се колебае, останалите
[195]
43 души казват, че
ще гласуват за В.
[199]
Или това е равносилно
на 43 единици в извадката.
[205]
Като имаме тази извадка,
каква е моята средна стойност на извадката
[210]
и дисперсията на извадката?
[212]
Средната ми стойност тук, това
ще е само
[218]
средното от тези нули
и единици. Имам 57 нули,
[222]
ще се получи 57 по 0
плюс моите 43 единици.
[227]
Значи сборът от моите резултати,
който е 43 единици...
[231]
плюс 43 по 1, върху общия
брой резултати, които
[235]
съм получил, върху 100.
[237]
И какво ми дава това?
[239]
Тук 57 пъти по 0 е 0.
[243]
43 пъти по 1, делено
на 100 е 0,43.
[247]
Това е средната стойност на моята извадка,
средната стойност само на 100
[251]
точки от данните, които всъщност получих.
[253]
А каква е дисперсията
на извадката ми?
[258]
Дисперсията на извадката е равна
на сбора от квадратите
[265]
на разстоянията от средната стойност,
разделен на броя елементи минус 1.
[270]
Да не забравяме, че това е дисперсията
на извадката, и искаме да получим
[273]
най-добрата оценка на истинската
дисперсия в това разпределение.
[278]
А за да направим това, не разделяме
на 100, а ще разделим
[280]
на 100 минус 1.
[281]
Научихме това преди
много, много клипове.
[283]
И така, имам 57.
[287]
Това са 57 резултата 0.
[292]
Тук ще използваме същия
жълт цвят –
[294]
57 резултата 0.
[296]
И всеки от тези резултати
е на разстояние 0 минус 0,43
[301]
от средната стойност.
[303]
Всеки от тези резултати е 0.
[304]
Изваждаме 0,43, което
е разликата на 0 и 0,43.
[308]
И ако искам разстоянието
на квадрат, повдигам го на втора степен –
[311]
така изчисляваме дисперсията.
[312]
Имаме 57 от тези.
[313]
И после имаме 43 пъти, в които
получавам единица в извадката –
[318]
43 пъти получих
1, и това 1 е равно на
[323]
1 минус 0,43 разстояние от средната
стойност, защото това е тя,
[328]
и искам да повдигна на квадрат
това разстояние.
[330]
И не искам
да го разделям на n.
[332]
Не искам да го деля
на 100 – спомни си, че се опитвам
[335]
да изчисля действителната средна
стойност на генералната съвкупност.
[337]
За да може това да е най-
добрата оценка.
[340]
Обясних защо преди много,
много клипове –
[342]
разделихме на 100 минус 1,
т.е. на 99.
[349]
Ще взема калкулатора,
за да намерим
[351]
дисперсията на нашата извадка.
[353]
Изваждам калкулатора,
и имаме... ще изчисля
[359]
числителя най-напред. Имам 57 по,
0 минус 0,43, на квадрат,
[372]
плюс, 43 пъти по
1 минус 0,43, на квадрат,
[387]
След това делим всичко това
на 100 минус 1, т.е. на 99.
[393]
Делено на 99 е равно на 0,2475.
[399]
Така дисперсията на
извадката е равна на 0,2475.
[406]
И ако искам да намеря извадковото
стандартно отклонение,
[409]
намирам просто
квадратния корен от това.
[410]
Извадковото стандартно отклонение
е равно на квадратен корен
[413]
от дисперсията на извадката.
[415]
Така че намирам квадратния корен
от тази стойност, която току що получих.
[419]
Получавам 0,497.
[422]
Нека всъщност закръгля
това на 0,50.
[428]
Така стандартното отклонение
на моята извадка е 0,50.
[435]
И сега като погледнеш това,
може да кажеш: "Нашата най-добра
[438]
оценка на процента
хора, които гласуват за А или В,
[442]
е това, което видяхме
преди малко тук."
[443]
Най-добрият резултат или нашата най-добра
оценка за средната стойност е това,
[447]
че 43% от хората ще гласуват
за В, а всички
[450]
други ще гласуват за А.
[452]
Но интересният въпрос е:
[454]
колко добра е тази извадка?
[456]
Нека отидем на следващото ниво.
[458]
Нека се опитаме да помислим
за един интервал от около 43%, за който
[462]
сме 95% основателно уверени, почти
[467]
95% сигурни, че истинската средна
стойност е в този интервал.
[473]
Нека го изясня.
[474]
Изобразявам.
[475]
Когато вземаме средна стойност
на извадката, ние я вземаме от
[479]
извадковото разпределение на
извадковата средна стойност.
[482]
Нека го покажа.
[483]
Извадковото разпределение
на извадковата средна стойност.
[487]
И понеже вземаме извадка от едно
дискретно разпределение, това
[491]
всъщност ще е едно дискретно
разпределение, но
[495]
то ще има 100 възможни стойности.
[498]
Това тук може да приеме
100 различни стойности.
[501]
В действителност това е всяка стойност
между 0 и 1.
[504]
Но ще го изобразя някак общо,
защото на практика би било
[506]
сложно чертането на 100
различни стълба.
[509]
Ако го направя, ще имаме един
стълб там, и един там.
[512]
Вероятността средната стойност на
нашата извадка да е 1, ще е много
[516]
малка, тогава ще имаме
налице още един стълб, който
[518]
изглежда така, такъв стълб,
но би ни отнело
[520]
цяла вечност да го изобразим.
[521]
Затова само ще покажа
приблизителна стойност,
[523]
с тази нормална крива там.
[527]
Така че извадковото разпределение
на средната стойност на дадена извадка –
[530]
ще я напиша тук.
[531]
Това е извадковото разпределение
[537]
на средната стойност на извадката.
[543]
Има някаква средна стойност тук.
[549]
Налице е една средна стойност, която
мога да обознача с
[552]
стълба мю с индекс x – и това е средната
стойност на извадковото разпределение.
[558]
Но от доста клипове знаем,
че това ще е
[561]
същото като средната стойност
на генералната съвкупност, от която
[566]
вземаме извадка, от която
идва всяка извадка, и от която
[570]
идва всеки от тези 100 резултата.
[571]
И това ще е равно
на mu,
[574]
което ще е равно на р.
[581]
Тази дисперсия тук,
дисперсията на това
[584]
разпределение – нека го покажа
така, или нека по-добре
[589]
покажем стандартното
отклонение на това
[590]
разпределение.
[592]
Стандартното отклонение на това
разпределение, това разстояние
[596]
тук, стандартното отклонение
на извадковото разпределение
[601]
на средната стойност –
вече го видяхме доста пъти –
[605]
ще бъде това стандартно отклонение –
[607]
ще е стандартното отклонение
[609]
на разпределението на
нашата генерална съвкупност.
[610]
Така че това стандартно
отклонение ще е онова
[613]
разстояние там.
[614]
И има някакво стандартно
отклонение, свързано с това
[616]
разпределение.
[617]
То ще е това стандартно
отклонение, разделено на
[620]
квадратен корен от размера
на нашата извадка.
[623]
В един от по-старите клипове видяхме
защо това, поне експериментално,
[626]
има смисъл, или защо
е логично.
[629]
И така, ще имаме
корен квадратен от 100.
[633]
А това ще разделим на 10.
[638]
Този елемент обаче
не го знаем какъв е.
[641]
Единственият начин да разберем
колко е това, е
[644]
да проведем проучване сред 100 милиона
души, което би било
[647]
невъзможно.
[648]
И за да пресметнем стандартното
отклонение от това, ще използваме
[653]
нашето извадково стандартно отклонение,
като най-добра оценка
[659]
на стандартното отклонение
на генералната съвкупност.
[663]
Така можем да кажем – и да не забравяме,
че това е една оценка.
[664]
Не можем да намерим точно число
тук само от една извадка.
[668]
Но можем да го пресметнем.
[670]
Защото за това стандартно отклонение
това е най-добрата ни оценка за това стандартно
[672]
отклонение, и ако го разделим
на 10, ще имаме най-добрата оценка
[676]
на стандартното
отклонение за
[678]
извадковото разпределение
на средната стойност.
[680]
Затова запомни, че това е
само една оценка.
[683]
И трябва всичко от тук нататък
трябва да се приема с известно съмнение.
[687]
Ще е приблизително
равно, по изчисления,
[693]
на 0,5.
[699]
И запомни, че всеки път, когато вземем
различна извадка от тук,
[702]
това число ще се промени.
[703]
Един вид това не е
нещо твърдо определено.
[705]
Зависи от нашата извадка.
[707]
Ще има известна промяна
в зависимост от
[709]
получените числа в нашата извадка.
[711]
Но резултатът ще е 0,50.
[713]
Това тук е s, това 0,50 делим на 10,
[719]
което е равно на 0,05.
[722]
И най-добрият ни оценка
на това стандартно отклонение е 0,05
[728]
или можем да го изразим като 5%.
[731]
Сега това, което искам да направя, е
да намеря интервал около
[734]
извадковата средна стойност, където
мога да съм уверен, като използвам
[740]
своите оценки, че всичко тук...
да съм напълно уверен,
[746]
че има 95% вероятност
истинската средна стойност
[753]
да е в рамките на две стандартни
отклонения – или да го кажем
[758]
така: има 95% вероятност
истинската средна стойност
[760]
да е в този интервал.
[761]
Нека напиша това.
[762]
Искам да намеря такъв интервал,
за който съм основателно уверен, че...
[783]
и използвам тези завъртяни
формулировки тук,
[787]
защото всичко се върти около факта, че
[790]
не знам със сигурност, че
стандартното отклонение
[792]
е 0,05%, само го оценявам.
[794]
Но съм основателно уверен, че има
95% вероятност
[808]
истинската средна стойност
на генералната съвкупност, която
[815]
е точно равна на дела на хората от
генералната съвкупност, които
[819]
ще гласуват за кандидат В,
което е делът от генералната съвкупност,
[823]
изразен чрез 1.
[825]
Трябва да си спомним, че
това е и в израза
[829]
mu е равно на р.
[831]
Има 95% възможност истинското
р да е в този интервал.
[841]
И всъщност, щом вече съм
минал 14 минути
[844]
в този клип, ще го прекъсна, ще спра
[846]
тук, и вероятно ще те накарам да мислиш
[849]
за него, въз основа на всичко,
което направихме до сега.
[852]
Намерихме извадковата средна стойност –
извинявам се, намерихме
[855]
извадковата средна стойност тук.
[857]
Намерихме оценка за...
и запомни, това
[862]
е само една извадка.
[862]
Не знаем истинската... това е
средната стойност на нашата извадка.
[865]
Не знаем истинската стойност
на извадковото разпределение, както и
[870]
не знаем истинското
стандартно отклонение
[873]
на извадковото разпределение.
[874]
Но успяхме да го изчислим
[876]
с извадковото стандартно отклонение.
[879]
И всичко, което имаме досега,
базирано на това, което видяхме
[882]
преди, на доверителни
интервали и подобни,
[884]
как можем да намерим такъв интервал,
че приблизително... казвам
[888]
приблизително, защото трябваше
да изчислим стандартното отклонение –
[891]
където има 95% вероятност
истинската средна стойност
[895]
на генералната съвкупност, или р,
делът от генералната съвкупност,
[897]
т.е. 1, да е в този интервал?
[899]
Ще направим това следващия път.
Most Recent Videos:
You can go back to the homepage right here: Homepage





