Margin of error 1 | Inferential statistics | Probability and Statistics | Khan Academy - YouTube

Channel: Khan Academy

[0]
Да кажем, че живея в страна със 100 милиона жители и
[3]
скоро там предстоят избори за президент.
[5]
В тези избори има двама кандидати.
[8]
Имаме кандидат А и кандидат В.
[16]
И има определени нагласи... да кажем, че в тази страна
[19]
всички участват в изборите и ще гласуват за единия от двамата –
[22]
всички участват в изборите и всички
[24]
ще гласуват или за кандидат А, или за кандидат В.
[27]
И има някакъв процент, и някаква ситуация,
[30]
при която р... нека го напиша тук –
[33]
може би 1 минус р процента... нека първо да е р.
[37]
Има вероятност р процента да гласуват за В... мога
[40]
да ги разменя, ако искам.
[41]
р процента ще гласуват за В, а останалите
[45]
хора ще гласуват за А, така че вероятно 1 минус р процента
[48]
ше гласуват за А.
[52]
И може би вече разпознаваш, че това е
[54]
едно разпределение на Бернули.
[55]
Мога да избера една от двете опции.
[60]
И тук стойностите, които определих, са, че
[62]
или се гласува за кандидат А, или за кандидат В.
[64]
Трудно се работи с такива стойности.
[66]
Не е възможно да се изчислят средната стойност между А и В и всичко
[68]
това – имаме букви, а не числа.
[70]
За да можем да боравим с израза математически,
[74]
ще кажем, че вземаме избирател, който ще гласува за А, и това е
[77]
равносилно на резултат 0, а избирател, който
[81]
ще гласува за В, е равносилен на резултат 1.
[85]
Ако пресмятаме това с разпределение на Бернули,
[89]
в клипа за разпределяния на Бернули научихме, че
[92]
средната стойност на това разпределение тук
[99]
ще е равна на р.
[100]
И доказателството на това как сме го намерили
[103]
е доста просто.
[103]
Средната стойност на това разпределение
[106]
всъщност не е стойност, в това разпределение,
[109]
ще представлява някакво място тук, което е равно на р.
[114]
Да кажем, че моята страна има 100 милиона жители.
[116]
Практически за мен е невъзможно
[119]
да отида и да попитам всички 100 милиона жители
[122]
за кого ще гласуват.
[124]
Така че няма да мога точно да определя какви
[127]
ще са тези параметри.
[128]
Каква е моята средна стойност, какво ще е р.
[131]
Но вместо да направя това, аз ще направя едно
[133]
произволно допитване.
[135]
Ще направя извадка от тази генерална съвкупност,
[139]
а след това ще направя оценка на това колко реално е р.
[142]
Понеже това ме интересува в действителност.
[144]
Интересува ме р.
[145]
Така че ще се опитам да изчисля р чрез една извадка,
[148]
след което ще помислим и по това колко добра е тази оценка.
[153]
На случаен принцип ще анкетирам извадка от 100 души.
[166]
И нека кажем, че имам следните резултати.
[169]
Нека кажем, че 57 души решават да гласуват за кандидат А.
[177]
Нека го напиша по този начин.
[180]
57 души казват, че ще гласуват за А, което
[185]
е равносилно да получим 57 резултата 0.
[189]
А останалите хора, още веднъж, изключително
[191]
мотивирани избиратели, никой не се колебае, останалите
[195]
43 души казват, че ще гласуват за В.
[199]
Или това е равносилно на 43 единици в извадката.
[205]
Като имаме тази извадка, каква е моята средна стойност на извадката
[210]
и дисперсията на извадката?
[212]
Средната ми стойност тук, това ще е само
[218]
средното от тези нули и единици. Имам 57 нули,
[222]
ще се получи 57 по 0 плюс моите 43 единици.
[227]
Значи сборът от моите резултати, който е 43 единици...
[231]
плюс 43 по 1, върху общия брой резултати, които
[235]
съм получил, върху 100.
[237]
И какво ми дава това?
[239]
Тук 57 пъти по 0 е 0.
[243]
43 пъти по 1, делено на 100 е 0,43.
[247]
Това е средната стойност на моята извадка, средната стойност само на 100
[251]
точки от данните, които всъщност получих.
[253]
А каква е дисперсията на извадката ми?
[258]
Дисперсията на извадката е равна на сбора от квадратите
[265]
на разстоянията от средната стойност, разделен на броя елементи минус 1.
[270]
Да не забравяме, че това е дисперсията на извадката, и искаме да получим
[273]
най-добрата оценка на истинската дисперсия в това разпределение.
[278]
А за да направим това, не разделяме на 100, а ще разделим
[280]
на 100 минус 1.
[281]
Научихме това преди много, много клипове.
[283]
И така, имам 57.
[287]
Това са 57 резултата 0.
[292]
Тук ще използваме същия жълт цвят –
[294]
57 резултата 0.
[296]
И всеки от тези резултати е на разстояние 0 минус 0,43
[301]
от средната стойност.
[303]
Всеки от тези резултати е 0.
[304]
Изваждаме 0,43, което е разликата на 0 и 0,43.
[308]
И ако искам разстоянието на квадрат, повдигам го на втора степен –
[311]
така изчисляваме дисперсията.
[312]
Имаме 57 от тези.
[313]
И после имаме 43 пъти, в които получавам единица в извадката –
[318]
43 пъти получих 1, и това 1 е равно на
[323]
1 минус 0,43 разстояние от средната стойност, защото това е тя,
[328]
и искам да повдигна на квадрат това разстояние.
[330]
И не искам да го разделям на n.
[332]
Не искам да го деля на 100 – спомни си, че се опитвам
[335]
да изчисля действителната средна стойност на генералната съвкупност.
[337]
За да може това да е най- добрата оценка.
[340]
Обясних защо преди много, много клипове –
[342]
разделихме на 100 минус 1, т.е. на 99.
[349]
Ще взема калкулатора, за да намерим
[351]
дисперсията на нашата извадка.
[353]
Изваждам калкулатора, и имаме... ще изчисля
[359]
числителя най-напред. Имам 57 по, 0 минус 0,43, на квадрат,
[372]
плюс, 43 пъти по 1 минус 0,43, на квадрат,
[387]
След това делим всичко това на 100 минус 1, т.е. на 99.
[393]
Делено на 99 е равно на 0,2475.
[399]
Така дисперсията на извадката е равна на 0,2475.
[406]
И ако искам да намеря извадковото стандартно отклонение,
[409]
намирам просто квадратния корен от това.
[410]
Извадковото стандартно отклонение е равно на квадратен корен
[413]
от дисперсията на извадката.
[415]
Така че намирам квадратния корен от тази стойност, която току що получих.
[419]
Получавам 0,497.
[422]
Нека всъщност закръгля това на 0,50.
[428]
Така стандартното отклонение на моята извадка е 0,50.
[435]
И сега като погледнеш това, може да кажеш: "Нашата най-добра
[438]
оценка на процента хора, които гласуват за А или В,
[442]
е това, което видяхме преди малко тук."
[443]
Най-добрият резултат или нашата най-добра оценка за средната стойност е това,
[447]
че 43% от хората ще гласуват за В, а всички
[450]
други ще гласуват за А.
[452]
Но интересният въпрос е:
[454]
колко добра е тази извадка?
[456]
Нека отидем на следващото ниво.
[458]
Нека се опитаме да помислим за един интервал от около 43%, за който
[462]
сме 95% основателно уверени, почти
[467]
95% сигурни, че истинската средна стойност е в този интервал.
[473]
Нека го изясня.
[474]
Изобразявам.
[475]
Когато вземаме средна стойност на извадката, ние я вземаме от
[479]
извадковото разпределение на извадковата средна стойност.
[482]
Нека го покажа.
[483]
Извадковото разпределение на извадковата средна стойност.
[487]
И понеже вземаме извадка от едно дискретно разпределение, това
[491]
всъщност ще е едно дискретно разпределение, но
[495]
то ще има 100 възможни стойности.
[498]
Това тук може да приеме 100 различни стойности.
[501]
В действителност това е всяка стойност между 0 и 1.
[504]
Но ще го изобразя някак общо, защото на практика би било
[506]
сложно чертането на 100 различни стълба.
[509]
Ако го направя, ще имаме един стълб там, и един там.
[512]
Вероятността средната стойност на нашата извадка да е 1, ще е много
[516]
малка, тогава ще имаме налице още един стълб, който
[518]
изглежда така, такъв стълб, но би ни отнело
[520]
цяла вечност да го изобразим.
[521]
Затова само ще покажа приблизителна стойност,
[523]
с тази нормална крива там.
[527]
Така че извадковото разпределение на средната стойност на дадена извадка –
[530]
ще я напиша тук.
[531]
Това е извадковото разпределение
[537]
на средната стойност на извадката.
[543]
Има някаква средна стойност тук.
[549]
Налице е една средна стойност, която мога да обознача с
[552]
стълба мю с индекс x – и това е средната стойност на извадковото разпределение.
[558]
Но от доста клипове знаем, че това ще е
[561]
същото като средната стойност на генералната съвкупност, от която
[566]
вземаме извадка, от която идва всяка извадка, и от която
[570]
идва всеки от тези 100 резултата.
[571]
И това ще е равно на mu,
[574]
което ще е равно на р.
[581]
Тази дисперсия тук, дисперсията на това
[584]
разпределение – нека го покажа така, или нека по-добре
[589]
покажем стандартното отклонение на това
[590]
разпределение.
[592]
Стандартното отклонение на това разпределение, това разстояние
[596]
тук, стандартното отклонение на извадковото разпределение
[601]
на средната стойност – вече го видяхме доста пъти –
[605]
ще бъде това стандартно отклонение –
[607]
ще е стандартното отклонение
[609]
на разпределението на нашата генерална съвкупност.
[610]
Така че това стандартно отклонение ще е онова
[613]
разстояние там.
[614]
И има някакво стандартно отклонение, свързано с това
[616]
разпределение.
[617]
То ще е това стандартно отклонение, разделено на
[620]
квадратен корен от размера на нашата извадка.
[623]
В един от по-старите клипове видяхме защо това, поне експериментално,
[626]
има смисъл, или защо е логично.
[629]
И така, ще имаме корен квадратен от 100.
[633]
А това ще разделим на 10.
[638]
Този елемент обаче не го знаем какъв е.
[641]
Единственият начин да разберем колко е това, е
[644]
да проведем проучване сред 100 милиона души, което би било
[647]
невъзможно.
[648]
И за да пресметнем стандартното отклонение от това, ще използваме
[653]
нашето извадково стандартно отклонение, като най-добра оценка
[659]
на стандартното отклонение на генералната съвкупност.
[663]
Така можем да кажем – и да не забравяме, че това е една оценка.
[664]
Не можем да намерим точно число тук само от една извадка.
[668]
Но можем да го пресметнем.
[670]
Защото за това стандартно отклонение това е най-добрата ни оценка за това стандартно
[672]
отклонение, и ако го разделим на 10, ще имаме най-добрата оценка
[676]
на стандартното отклонение за
[678]
извадковото разпределение на средната стойност.
[680]
Затова запомни, че това е само една оценка.
[683]
И трябва всичко от тук нататък трябва да се приема с известно съмнение.
[687]
Ще е приблизително равно, по изчисления,
[693]
на 0,5.
[699]
И запомни, че всеки път, когато вземем различна извадка от тук,
[702]
това число ще се промени.
[703]
Един вид това не е нещо твърдо определено.
[705]
Зависи от нашата извадка.
[707]
Ще има известна промяна в зависимост от
[709]
получените числа в нашата извадка.
[711]
Но резултатът ще е 0,50.
[713]
Това тук е s, това 0,50 делим на 10,
[719]
което е равно на 0,05.
[722]
И най-добрият ни оценка на това стандартно отклонение е 0,05
[728]
или можем да го изразим като 5%.
[731]
Сега това, което искам да направя, е да намеря интервал около
[734]
извадковата средна стойност, където мога да съм уверен, като използвам
[740]
своите оценки, че всичко тук... да съм напълно уверен,
[746]
че има 95% вероятност истинската средна стойност
[753]
да е в рамките на две стандартни отклонения – или да го кажем
[758]
така: има 95% вероятност истинската средна стойност
[760]
да е в този интервал.
[761]
Нека напиша това.
[762]
Искам да намеря такъв интервал, за който съм основателно уверен, че...
[783]
и използвам тези завъртяни формулировки тук,
[787]
защото всичко се върти около факта, че
[790]
не знам със сигурност, че стандартното отклонение
[792]
е 0,05%, само го оценявам.
[794]
Но съм основателно уверен, че има 95% вероятност
[808]
истинската средна стойност на генералната съвкупност, която
[815]
е точно равна на дела на хората от генералната съвкупност, които
[819]
ще гласуват за кандидат В, което е делът от генералната съвкупност,
[823]
изразен чрез 1.
[825]
Трябва да си спомним, че това е и в израза
[829]
mu е равно на р.
[831]
Има 95% възможност истинското р да е в този интервал.
[841]
И всъщност, щом вече съм минал 14 минути
[844]
в този клип, ще го прекъсна, ще спра
[846]
тук, и вероятно ще те накарам да мислиш
[849]
за него, въз основа на всичко, което направихме до сега.
[852]
Намерихме извадковата средна стойност – извинявам се, намерихме
[855]
извадковата средна стойност тук.
[857]
Намерихме оценка за... и запомни, това
[862]
е само една извадка.
[862]
Не знаем истинската... това е средната стойност на нашата извадка.
[865]
Не знаем истинската стойност на извадковото разпределение, както и
[870]
не знаем истинското стандартно отклонение
[873]
на извадковото разпределение.
[874]
Но успяхме да го изчислим
[876]
с извадковото стандартно отклонение.
[879]
И всичко, което имаме досега, базирано на това, което видяхме
[882]
преди, на доверителни интервали и подобни,
[884]
как можем да намерим такъв интервал, че приблизително... казвам
[888]
приблизително, защото трябваше да изчислим стандартното отклонение –
[891]
където има 95% вероятност истинската средна стойност
[895]
на генералната съвкупност, или р, делът от генералната съвкупност,
[897]
т.е. 1, да е в този интервал?
[899]
Ще направим това следващия път.