🔍

Margin of error 1 | Inferential statistics | Probability and Statistics | Khan Academy - YouTube

Channel: Khan Academy

[0]

Да кажем, че живея в страна със 100 милиона жители и

[3]

скоро там предстоят избори за президент.

[5]

В тези избори има двама кандидати.

[8]

Имаме кандидат А и кандидат В.

[16]

И има определени нагласи... да кажем, че в тази страна

[19]

всички участват в изборите и ще гласуват за единия от двамата –

[22]

всички участват в изборите и всички

[24]

ще гласуват или за кандидат А, или за кандидат В.

[27]

И има някакъв процент, и някаква ситуация,

[30]

при която р... нека го напиша тук –

[33]

може би 1 минус р процента... нека първо да е р.

[37]

Има вероятност р процента да гласуват за В... мога

[40]

да ги разменя, ако искам.

[41]

р процента ще гласуват за В, а останалите

[45]

хора ще гласуват за А, така че вероятно 1 минус р процента

[48]

ше гласуват за А.

[52]

И може би вече разпознаваш, че това е

[54]

едно разпределение на Бернули.

[55]

Мога да избера една от двете опции.

[60]

И тук стойностите, които определих, са, че

[62]

или се гласува за кандидат А, или за кандидат В.

[64]

Трудно се работи с такива стойности.

[66]

Не е възможно да се изчислят средната стойност между А и В и всичко

[68]

това – имаме букви, а не числа.

[70]

За да можем да боравим с израза математически,

[74]

ще кажем, че вземаме избирател, който ще гласува за А, и това е

[77]

равносилно на резултат 0, а избирател, който

[81]

ще гласува за В, е равносилен на резултат 1.

[85]

Ако пресмятаме това с разпределение на Бернули,

[89]

в клипа за разпределяния на Бернули научихме, че

[92]

средната стойност на това разпределение тук

[99]

ще е равна на р.

[100]

И доказателството на това как сме го намерили

[103]

е доста просто.

[103]

Средната стойност на това разпределение

[106]

всъщност не е стойност, в това разпределение,

[109]

ще представлява някакво място тук, което е равно на р.

[114]

Да кажем, че моята страна има 100 милиона жители.

[116]

Практически за мен е невъзможно

[119]

да отида и да попитам всички 100 милиона жители

[122]

за кого ще гласуват.

[124]

Така че няма да мога точно да определя какви

[127]

ще са тези параметри.

[128]

Каква е моята средна стойност, какво ще е р.

[131]

Но вместо да направя това, аз ще направя едно

[133]

произволно допитване.

[135]

Ще направя извадка от тази генерална съвкупност,

[139]

а след това ще направя оценка на това колко реално е р.

[142]

Понеже това ме интересува в действителност.

[144]

Интересува ме р.

[145]

Така че ще се опитам да изчисля р чрез една извадка,

[148]

след което ще помислим и по това колко добра е тази оценка.

[153]

На случаен принцип ще анкетирам извадка от 100 души.

[166]

И нека кажем, че имам следните резултати.

[169]

Нека кажем, че 57 души решават да гласуват за кандидат А.

[177]

Нека го напиша по този начин.

[180]

57 души казват, че ще гласуват за А, което

[185]

е равносилно да получим 57 резултата 0.

[189]

А останалите хора, още веднъж, изключително

[191]

мотивирани избиратели, никой не се колебае, останалите

[195]

43 души казват, че ще гласуват за В.

[199]

Или това е равносилно на 43 единици в извадката.

[205]

Като имаме тази извадка, каква е моята средна стойност на извадката

[210]

и дисперсията на извадката?

[212]

Средната ми стойност тук, това ще е само

[218]

средното от тези нули и единици. Имам 57 нули,

[222]

ще се получи 57 по 0 плюс моите 43 единици.

[227]

Значи сборът от моите резултати, който е 43 единици...

[231]

плюс 43 по 1, върху общия брой резултати, които

[235]

съм получил, върху 100.

[237]

И какво ми дава това?

[239]

Тук 57 пъти по 0 е 0.

[243]

43 пъти по 1, делено на 100 е 0,43.

[247]

Това е средната стойност на моята извадка, средната стойност само на 100

[251]

точки от данните, които всъщност получих.

[253]

А каква е дисперсията на извадката ми?

[258]

Дисперсията на извадката е равна на сбора от квадратите

[265]

на разстоянията от средната стойност, разделен на броя елементи минус 1.

[270]

Да не забравяме, че това е дисперсията на извадката, и искаме да получим

[273]

най-добрата оценка на истинската дисперсия в това разпределение.

[278]

А за да направим това, не разделяме на 100, а ще разделим

[280]

на 100 минус 1.

[281]

Научихме това преди много, много клипове.

[283]

И така, имам 57.

[287]

Това са 57 резултата 0.

[292]

Тук ще използваме същия жълт цвят –

[294]

57 резултата 0.

[296]

И всеки от тези резултати е на разстояние 0 минус 0,43

[301]

от средната стойност.

[303]

Всеки от тези резултати е 0.

[304]

Изваждаме 0,43, което е разликата на 0 и 0,43.

[308]

И ако искам разстоянието на квадрат, повдигам го на втора степен –

[311]

така изчисляваме дисперсията.

[312]

Имаме 57 от тези.

[313]

И после имаме 43 пъти, в които получавам единица в извадката –

[318]

43 пъти получих 1, и това 1 е равно на

[323]

1 минус 0,43 разстояние от средната стойност, защото това е тя,

[328]

и искам да повдигна на квадрат това разстояние.

[330]

И не искам да го разделям на n.

[332]

Не искам да го деля на 100 – спомни си, че се опитвам

[335]

да изчисля действителната средна стойност на генералната съвкупност.

[337]

За да може това да е най- добрата оценка.

[340]

Обясних защо преди много, много клипове –

[342]

разделихме на 100 минус 1, т.е. на 99.

[349]

Ще взема калкулатора, за да намерим

[351]

дисперсията на нашата извадка.

[353]

Изваждам калкулатора, и имаме... ще изчисля

[359]

числителя най-напред. Имам 57 по, 0 минус 0,43, на квадрат,

[372]

плюс, 43 пъти по 1 минус 0,43, на квадрат,

[387]

След това делим всичко това на 100 минус 1, т.е. на 99.

[393]

Делено на 99 е равно на 0,2475.

[399]

Така дисперсията на извадката е равна на 0,2475.

[406]

И ако искам да намеря извадковото стандартно отклонение,

[409]

намирам просто квадратния корен от това.

[410]

Извадковото стандартно отклонение е равно на квадратен корен

[413]

от дисперсията на извадката.

[415]

Така че намирам квадратния корен от тази стойност, която току що получих.

[419]

Получавам 0,497.

[422]

Нека всъщност закръгля това на 0,50.

[428]

Така стандартното отклонение на моята извадка е 0,50.

[435]

И сега като погледнеш това, може да кажеш: "Нашата най-добра

[438]

оценка на процента хора, които гласуват за А или В,

[442]

е това, което видяхме преди малко тук."

[443]

Най-добрият резултат или нашата най-добра оценка за средната стойност е това,

[447]

че 43% от хората ще гласуват за В, а всички

[450]

други ще гласуват за А.

[452]

Но интересният въпрос е:

[454]

колко добра е тази извадка?

[456]

Нека отидем на следващото ниво.

[458]

Нека се опитаме да помислим за един интервал от около 43%, за който

[462]

сме 95% основателно уверени, почти

[467]

95% сигурни, че истинската средна стойност е в този интервал.

[473]

Нека го изясня.

[474]

Изобразявам.

[475]

Когато вземаме средна стойност на извадката, ние я вземаме от

[479]

извадковото разпределение на извадковата средна стойност.

[482]

Нека го покажа.

[483]

Извадковото разпределение на извадковата средна стойност.

[487]

И понеже вземаме извадка от едно дискретно разпределение, това

[491]

всъщност ще е едно дискретно разпределение, но

[495]

то ще има 100 възможни стойности.

[498]

Това тук може да приеме 100 различни стойности.

[501]

В действителност това е всяка стойност между 0 и 1.

[504]

Но ще го изобразя някак общо, защото на практика би било

[506]

сложно чертането на 100 различни стълба.

[509]

Ако го направя, ще имаме един стълб там, и един там.

[512]

Вероятността средната стойност на нашата извадка да е 1, ще е много

[516]

малка, тогава ще имаме налице още един стълб, който

[518]

изглежда така, такъв стълб, но би ни отнело

[520]

цяла вечност да го изобразим.

[521]

Затова само ще покажа приблизителна стойност,

[523]

с тази нормална крива там.

[527]

Така че извадковото разпределение на средната стойност на дадена извадка –

[530]

ще я напиша тук.

[531]

Това е извадковото разпределение

[537]

на средната стойност на извадката.

[543]

Има някаква средна стойност тук.

[549]

Налице е една средна стойност, която мога да обознача с

[552]

стълба мю с индекс x – и това е средната стойност на извадковото разпределение.

[558]

Но от доста клипове знаем, че това ще е

[561]

същото като средната стойност на генералната съвкупност, от която

[566]

вземаме извадка, от която идва всяка извадка, и от която

[570]

идва всеки от тези 100 резултата.

[571]

И това ще е равно на mu,

[574]

което ще е равно на р.

[581]

Тази дисперсия тук, дисперсията на това

[584]

разпределение – нека го покажа така, или нека по-добре

[589]

покажем стандартното отклонение на това

[590]

разпределение.

[592]

Стандартното отклонение на това разпределение, това разстояние

[596]

тук, стандартното отклонение на извадковото разпределение

[601]

на средната стойност – вече го видяхме доста пъти –

[605]

ще бъде това стандартно отклонение –

[607]

ще е стандартното отклонение

[609]

на разпределението на нашата генерална съвкупност.

[610]

Така че това стандартно отклонение ще е онова

[613]

разстояние там.

[614]

И има някакво стандартно отклонение, свързано с това

[616]

разпределение.

[617]

То ще е това стандартно отклонение, разделено на

[620]

квадратен корен от размера на нашата извадка.

[623]

В един от по-старите клипове видяхме защо това, поне експериментално,

[626]

има смисъл, или защо е логично.

[629]

И така, ще имаме корен квадратен от 100.

[633]

А това ще разделим на 10.

[638]

Този елемент обаче не го знаем какъв е.

[641]

Единственият начин да разберем колко е това, е

[644]

да проведем проучване сред 100 милиона души, което би било

[647]

невъзможно.

[648]

И за да пресметнем стандартното отклонение от това, ще използваме

[653]

нашето извадково стандартно отклонение, като най-добра оценка

[659]

на стандартното отклонение на генералната съвкупност.

[663]

Така можем да кажем – и да не забравяме, че това е една оценка.

[664]

Не можем да намерим точно число тук само от една извадка.

[668]

Но можем да го пресметнем.

[670]

Защото за това стандартно отклонение това е най-добрата ни оценка за това стандартно

[672]

отклонение, и ако го разделим на 10, ще имаме най-добрата оценка

[676]

на стандартното отклонение за

[678]

извадковото разпределение на средната стойност.

[680]

Затова запомни, че това е само една оценка.

[683]

И трябва всичко от тук нататък трябва да се приема с известно съмнение.

[687]

Ще е приблизително равно, по изчисления,

[693]

на 0,5.

[699]

И запомни, че всеки път, когато вземем различна извадка от тук,

[702]

това число ще се промени.

[703]

Един вид това не е нещо твърдо определено.

[705]

Зависи от нашата извадка.

[707]

Ще има известна промяна в зависимост от

[709]

получените числа в нашата извадка.

[711]

Но резултатът ще е 0,50.

[713]

Това тук е s, това 0,50 делим на 10,

[719]

което е равно на 0,05.

[722]

И най-добрият ни оценка на това стандартно отклонение е 0,05

[728]

или можем да го изразим като 5%.

[731]

Сега това, което искам да направя, е да намеря интервал около

[734]

извадковата средна стойност, където мога да съм уверен, като използвам

[740]

своите оценки, че всичко тук... да съм напълно уверен,

[746]

че има 95% вероятност истинската средна стойност

[753]

да е в рамките на две стандартни отклонения – или да го кажем

[758]

така: има 95% вероятност истинската средна стойност

[760]

да е в този интервал.

[761]

Нека напиша това.

[762]

Искам да намеря такъв интервал, за който съм основателно уверен, че...

[783]

и използвам тези завъртяни формулировки тук,

[787]

защото всичко се върти около факта, че

[790]

не знам със сигурност, че стандартното отклонение

[792]

е 0,05%, само го оценявам.

[794]

Но съм основателно уверен, че има 95% вероятност

[808]

истинската средна стойност на генералната съвкупност, която

[815]

е точно равна на дела на хората от генералната съвкупност, които

[819]

ще гласуват за кандидат В, което е делът от генералната съвкупност,

[823]

изразен чрез 1.

[825]

Трябва да си спомним, че това е и в израза

[829]

mu е равно на р.

[831]

Има 95% възможност истинското р да е в този интервал.

[841]

И всъщност, щом вече съм минал 14 минути

[844]

в този клип, ще го прекъсна, ще спра

[846]

тук, и вероятно ще те накарам да мислиш

[849]

за него, въз основа на всичко, което направихме до сега.

[852]

Намерихме извадковата средна стойност – извинявам се, намерихме

[855]

извадковата средна стойност тук.

[857]

Намерихме оценка за... и запомни, това

[862]

е само една извадка.

[862]

Не знаем истинската... това е средната стойност на нашата извадка.

[865]

Не знаем истинската стойност на извадковото разпределение, както и

[870]

не знаем истинското стандартно отклонение

[873]

на извадковото разпределение.

[874]

Но успяхме да го изчислим

[876]

с извадковото стандартно отклонение.

[879]

И всичко, което имаме досега, базирано на това, което видяхме

[882]

преди, на доверителни интервали и подобни,

[884]

как можем да намерим такъв интервал, че приблизително... казвам

[888]

приблизително, защото трябваше да изчислим стандартното отклонение –

[891]

където има 95% вероятност истинската средна стойност

[895]

на генералната съвкупност, или р, делът от генералната съвкупност,

[897]

т.е. 1, да е в този интервал?

[899]

Ще направим това следващия път.

Most Recent Videos:

WE KILLED 6 HEROIC BOSSES! - YouTube

¿Quién inventó el dinero? - YouTube

Cuándo se inventó el dinero y cómo el dólar se convirtió en la principal moneda del mundo - YouTube

This Citizenship Program is Failing - YouTube

Candida Treatment Protocol w/ Dr. DiNezza - YouTube

$500M investor reacts to Real Estate Tik Toks 2 - YouTube

You can go back to the homepage right here: Homepage