🔍

Confidence intervals and margin of error | AP Statistics | Khan Academy - YouTube

Channel: Khan Academy

[0]

Дошло е време е за избори

[1]

и има балотаж между кандидат А

[4]

и кандидат В.

[6]

Ние сме анкетиращи.

[7]

Искаме да разберем

[8]

каква е вероятността кандидат А да спечели изборите.

[12]

В идеалния случай ще анкетираме цялата генерална съвкупност

[15]

от вероятни гласоподаватели ето тук.

[17]

Нека да кажем, че имаме 100 000 гласоподаватели

[19]

и искаме да попитаме всеки един за кого ще гласува.

[22]

Така бихме могли

[23]

да получим частта от генералната съвкупност,

[26]

която ще подкрепя кандидат А.

[35]

Но вероятно няма да бъде реалистично,

[36]

всъщност определено не е реалистично

[38]

да анкетираме всички 100 000 души.

[41]

Вместо това ще направим нещото,

[42]

което обикновено правим в статистиката,

[44]

т.е. ще направим извадка

[46]

и на база на нея статистически ще

[50]

оценим този параметър.

[52]

Нека да направим една извадка тук.

[55]

Това е размерът на извадката,

[57]

нека да бъде n = 100.

[60]

Изчисляваме дела от извадката

[63]

на поддръжниците на кандидат А.

[64]

От тези 100 души, нека кажем, че 54

[67]

ще подкрепят кандидат А.

[69]

Значи дела от извадката тук е 0,54.

[74]

И за да си подскажем,

[75]

че не винаги ще получаваме 0,54,

[78]

би могло да има ситуация,

[79]

в която сме анкетирали други 100 души

[81]

и сме получили различен дял от извадката.

[85]

Например 0,58.

[89]

И в статистиката вече имаме инструментите

[92]

да анализираме разпределението на възможните

[96]

дялове от извадките.

[98]

Говорихме за това,

[99]

когато се занимавахме с извадкови разпределения.

[101]

Може да имаме извадковото разпределение

[106]

на дела от извадката.

[114]

Това разпределение ще бъде специфично,

[117]

спрямо размера на извадката.

[119]

За

[121]

n равно на 100.

[124]

Можем да опишем

[125]

възможните дялове от извадката

[127]

и колко са вероятни с помощта на това извадково разпределение.

[131]

Нека го направя.

[132]

Ще изглежда горе-долу така.

[135]

Тъй като размерът на извадката

[136]

е толкова по-малък от генералната съвкупност,

[138]

т.е. много по-малък от 10%

[140]

можем да допуснем, че всеки анкетиран човек

[142]

представлява приблизително независим опит.

[145]

Ако направим допускането, че действителният дял

[148]

не е твърде близо до нула или едно,

[153]

то можем да твърдим, че това

[154]

извадково разпределение ще е относително близо до нормално разпределение.

[159]

Ще имаме нормално разпределение, с тази камбанковидна крива.

[162]

Също така знаем много за извадковото разпределение

[164]

на дела от извадката.

[165]

Вече знаем например,

[167]

и ако това е чуждо за теб, те каня да

[169]

погледнеш другите видеа по тази тема в Кан Академия,

[171]

че средната стойност на това извадково разпределение

[174]

ще бъде действителният дял на генералната съвкупност.

[178]

Също така знаем какво ще бъде стандартното отклонение

[180]

в този случай.

[181]

Е,

[182]

нека демонстрирам. Примерно това ще едно стандартно отклонение.

[184]

Това ще са две стандартни отклонения.

[185]

Това ще са три стандартни отклонения.

[188]

Това ще е едно стандартно отклонение, две стандартни отклонения,

[192]

три стандартни отклонения под средната стойност.

[194]

Това разстояние – нека го покажа в друг цвят –

[197]

това стандартно отклонение тук,

[200]

което обозначаваме като стандартното отклонение

[204]

на частта от извадката за това извадково разпределение,

[209]

ще намерим с формулата, която видяхме и по-рано.

[211]

То ще бъде равно на корен квадратен от р

[214]

умножено по едно минус р,

[216]

където р е частта от генералната съвкупност,

[219]

цялото върху размера на извадката.

[221]

Ето защо е специфично за n равно на 100.

[225]

И в този първи сценарии,

[227]

нека се фокусираме върху този тук,

[229]

когато направим извадка с размер n равно на 100

[232]

и получим дял от извадката 0,54,

[235]

тук може да получим много различни резултати.

[238]

Може би тук е 0,54.

[243]

Причината да работя с тази несигурност е,

[245]

че всъщност нямам представа какъв е истинският

[247]

параметър на генералната съвкупност,

[249]

какъв е действителният дял от генералната съвкупност.

[251]

Но нека ти задам малко по-лесен въпрос.

[255]

Каква е вероятността

[266]

частта от извадката 0,54

[270]

да е между

[273]

два пъти две стандартни отклонения

[278]

от р?

[280]

Спри видеото и помисли за това.

[283]

Е, това е същото като да кажа, че ако направя извадка

[285]

и пресметна частта от извадката ето тук,

[288]

каква ще бъде вероятността резултатът ми да бъде в рамките на

[289]

две стандартни отклонения от средната стойност?

[291]

Е, това на практика ще бъде

[294]

ето тази площ тук.

[296]

И ние знаем от изучаваните нормални криви,

[298]

че приблизително 95% от цялата площ

[301]

е в рамките на две стандартни отклонения.

[303]

Значи това е приблизително 95%.

[307]

95% от случаите, когато направя извадка с размер 100

[311]

и изчисля частта от извадката,

[314]

ще получа резултат,

[315]

който е в рамките на 2 стандартни отклонения.

[319]

Но ако използваме това твърдение,

[320]

можем да си изведем ново твърдение,

[322]

което ще бъде следствие на първото.

[327]

Можем да кажем, че:

[330]

Има

[332]

95% шанс

[338]

частта от генералната съвкупност р

[341]

да бъде в рамките

[344]

на две стандартни отклонения от р с шапка, (р с диакритичен знак)

[350]

което е равно на 0,54.

[353]

Сега си спри видеото.

[354]

Опитай се да осмислиш тези две еквивалентни твърдения.

[357]

Ако има 95% шанс частта от извадката

[360]

да бъде в рамките на две стандартни отклонения от действителната част,

[364]

то това е същото като да кажем, че има 95% шанс

[367]

действителният дял да е в рамките на две стандартни отклонения

[370]

от дела на извадката.

[373]

И това е много, много интересно,

[375]

защото ако можем да намерим тази стойност,

[379]

то ще можем да създадем

[381]

това, което наричаме доверителен интервал.

[383]

Сега, веднага можеш да забележиш проблем тук.

[386]

За да изчислим тази стойност,

[388]

стандартното отклонение на това разпределение,

[391]

ще трябва да знаем параметъра на генералната съвкупност.

[394]

Сега спри видеото

[395]

и помисли какво можем да направим вместо това.

[397]

Ако не знаем на колко е равно р тук,

[399]

ако не знаем дела от генералната съвкупност,

[401]

имаме ли нещо, което можем да използваме като приближение

[405]

на дела от генералната съвкупност?

[407]

Ами, да, имаме – вече изчислихме р-шапчица.

[410]

Изчислихме дела от извадката.

[412]

Сега можем да определим друга статистическа величина –

[414]

стандартната грешка

[416]

или по-точно стандартната грешка на дела от извадката.

[421]

Можем да я дефинираме

[425]

и понеже не знаем дела от генералната съвкупност,

[428]

ще използваме дела от извадката,

[429]

р-шапка, умножено по едно минус р-шапка,

[432]

цялото върху n.

[434]

в този случай, разбира се, n е равно на 100.

[436]

Това го знаем.

[437]

Оказва се,

[438]

и няма да го доказвам в това видео,

[440]

че това всъщност е неизместена оценка

[442]

за това тук.

[444]

Резултатът ще бъде равен на 0,54

[448]

умножено по едно минус 0,54,

[450]

значи 0,46,

[453]

цялото върху 100.

[456]

Имаме корен квадратен от 0,54

[461]

по 0,46

[464]

делено на 100,

[466]

затварям скобата, ентър.

[469]

Ако закръгля до стотните, ще се получи...

[472]

Всъщност дори ще закръгля до хилядните

[473]

и ще получа приблизително 5/100.

[476]

Това ще бъде,

[478]

това ще бъде приблизително 0,05.

[483]

Друг начин да кажем цялото това тук е,

[487]

че не знаем точната стойност тук,

[489]

но имаме нейно приближение.

[491]

И сега можем да кажем с

[495]

95% увереност, а това ще бъде

[499]

нашият доверителен интервал ето тук.

[502]

С 95% увереност между...

[508]

И искаме да отидем на две стандартни грешки

[511]

надолу от частта от извадката,

[513]

която сме изчислили.

[515]

Това ще бъде 0,54 минус два пъти 0,05,

[523]

което е 0,44.

[526]

Също така искаме да отидем на две стандартни грешки

[528]

над частта от извадката.

[530]

Това ще е тази стойност плюс 0,10 плюс 0,54.

[533]

И 0,64

[536]

от избирателите

[540]

подкрепят

[544]

кандидат А.

[545]

Този интервал тук,

[547]

от 0,44 до 0,64

[551]

ще бъде нашият доверителен интервал.

[553]

Доверителен

[555]

интервал.

[557]

И това ще се променя

[558]

и то не само началната и крайната точка,

[560]

но също така и дължината на

[562]

доверителния интервал,

[563]

ще се променя в зависимост от това

[565]

каква част от извадката сме получили

[568]

за тази извадка от 100 анкетирани.

[570]

Сродна на доверителния интервал концепция

[573]

ще бъде допустимата грешка.

[579]

За този конкретен случай,

[581]

за тази конкретна извадка

[583]

допустимата грешка,

[584]

тъй като ни интересува 95% увереност,

[587]

ще бъде две стандартни грешки.

[589]

Значи допустимата грешка тук е два пъти стандартната грешка,

[592]

т.е. ще бъде 0,1.

[596]

Значи ще отидем една допустима грешка

[599]

над частта от извадката ето тук

[602]

и една допустима грешка

[603]

под частта от извадката ето тук,

[605]

за да дефинираме доверителния интервал.

[607]

И както споменах, тази допустима грешка няма да е

[609]

една и съща всеки път като правим извадка.

[612]

В зависимост от частта от извадката

[614]

ще се определи и допустимата грешка,

[616]

защото тя се изчислява основно

[619]

чрез стандартната грешка.

[620]

Друга интерпретация на това е,

[623]

че когато методът, който използвахме,

[625]

за да получим този интервал,

[627]

този доверителен интервал,

[632]

го използваме още веднъж и още веднъж и т.н.

[635]

ще ни даде интервали,

[637]

които няма да бъдат еднакви.

[638]

Ще зависи от частта от извадката,

[641]

но ще създава интервали,

[642]

които включват в себе си действителния дял,

[644]

който в повечето случаи не знаем.

[647]

Ще включва действителния дял в 95% от случаите.

[652]

Ще поработим върху логиката зад това в бъдещи видеа.

[655]

Ще видим как интервалът се променя,

[656]

как допустимата грешка се променя.

[658]

Но като направиш това изчисление

[660]

много пъти,

[662]

в 95% от случаите

[665]

действителният дял ще се съдържа

[668]

в интервала, който се е получил.

[672]

Сега, друг интересен въпрос е

[674]

какво трябва да направим,

[676]

за да стесним тези интервали в общия случай.

[678]

Как ще го постигнем?

[680]

Е, ако искаме да намалим допустимата грешка,

[682]

най-добрият начин да го постигнем

[684]

е да увеличим този делител тук.

[688]

А това означава

[689]

да увеличим размера на извадката.

[691]

Затова едно от нещата, за които често ще чуеш да се говори

[693]

по време на избори е,

[696]

че размерът на извадката трябва да бъде по-голям,

[697]

за да се намали допустимата грешка.

[701]

Но ще оставим темата до тук

[701]

и ще те видя в следващото видео.

Most Recent Videos:

WE KILLED 6 HEROIC BOSSES! - YouTube

¿Quién inventó el dinero? - YouTube

Cuándo se inventó el dinero y cómo el dólar se convirtió en la principal moneda del mundo - YouTube

This Citizenship Program is Failing - YouTube

Candida Treatment Protocol w/ Dr. DiNezza - YouTube

$500M investor reacts to Real Estate Tik Toks 2 - YouTube

You can go back to the homepage right here: Homepage