Confidence intervals and margin of error | AP Statistics | Khan Academy - YouTube

Channel: Khan Academy

[0]
Дошло е време е за избори
[1]
и има балотаж между кандидат А
[4]
и кандидат В.
[6]
Ние сме анкетиращи.
[7]
Искаме да разберем
[8]
каква е вероятността кандидат А да спечели изборите.
[12]
В идеалния случай ще анкетираме цялата генерална съвкупност
[15]
от вероятни гласоподаватели ето тук.
[17]
Нека да кажем, че имаме 100 000 гласоподаватели
[19]
и искаме да попитаме всеки един за кого ще гласува.
[22]
Така бихме могли
[23]
да получим частта от генералната съвкупност,
[26]
която ще подкрепя кандидат А.
[35]
Но вероятно няма да бъде реалистично,
[36]
всъщност определено не е реалистично
[38]
да анкетираме всички 100 000 души.
[41]
Вместо това ще направим нещото,
[42]
което обикновено правим в статистиката,
[44]
т.е. ще направим извадка
[46]
и на база на нея статистически ще
[50]
оценим този параметър.
[52]
Нека да направим една извадка тук.
[55]
Това е размерът на извадката,
[57]
нека да бъде n = 100.
[60]
Изчисляваме дела от извадката
[63]
на поддръжниците на кандидат А.
[64]
От тези 100 души, нека кажем, че 54
[67]
ще подкрепят кандидат А.
[69]
Значи дела от извадката тук е 0,54.
[74]
И за да си подскажем,
[75]
че не винаги ще получаваме 0,54,
[78]
би могло да има ситуация,
[79]
в която сме анкетирали други 100 души
[81]
и сме получили различен дял от извадката.
[85]
Например 0,58.
[89]
И в статистиката вече имаме инструментите
[92]
да анализираме разпределението на възможните
[96]
дялове от извадките.
[98]
Говорихме за това,
[99]
когато се занимавахме с извадкови разпределения.
[101]
Може да имаме извадковото разпределение
[106]
на дела от извадката.
[114]
Това разпределение ще бъде специфично,
[117]
спрямо размера на извадката.
[119]
За
[121]
n равно на 100.
[124]
Можем да опишем
[125]
възможните дялове от извадката
[127]
и колко са вероятни с помощта на това извадково разпределение.
[131]
Нека го направя.
[132]
Ще изглежда горе-долу така.
[135]
Тъй като размерът на извадката
[136]
е толкова по-малък от генералната съвкупност,
[138]
т.е. много по-малък от 10%
[140]
можем да допуснем, че всеки анкетиран човек
[142]
представлява приблизително независим опит.
[145]
Ако направим допускането, че действителният дял
[148]
не е твърде близо до нула или едно,
[153]
то можем да твърдим, че това
[154]
извадково разпределение ще е относително близо до нормално разпределение.
[159]
Ще имаме нормално разпределение, с тази камбанковидна крива.
[162]
Също така знаем много за извадковото разпределение
[164]
на дела от извадката.
[165]
Вече знаем например,
[167]
и ако това е чуждо за теб, те каня да
[169]
погледнеш другите видеа по тази тема в Кан Академия,
[171]
че средната стойност на това извадково разпределение
[174]
ще бъде действителният дял на генералната съвкупност.
[178]
Също така знаем какво ще бъде стандартното отклонение
[180]
в този случай.
[181]
Е,
[182]
нека демонстрирам. Примерно това ще едно стандартно отклонение.
[184]
Това ще са две стандартни отклонения.
[185]
Това ще са три стандартни отклонения.
[188]
Това ще е едно стандартно отклонение, две стандартни отклонения,
[192]
три стандартни отклонения под средната стойност.
[194]
Това разстояние – нека го покажа в друг цвят –
[197]
това стандартно отклонение тук,
[200]
което обозначаваме като стандартното отклонение
[204]
на частта от извадката за това извадково разпределение,
[209]
ще намерим с формулата, която видяхме и по-рано.
[211]
То ще бъде равно на корен квадратен от р
[214]
умножено по едно минус р,
[216]
където р е частта от генералната съвкупност,
[219]
цялото върху размера на извадката.
[221]
Ето защо е специфично за n равно на 100.
[225]
И в този първи сценарии,
[227]
нека се фокусираме върху този тук,
[229]
когато направим извадка с размер n равно на 100
[232]
и получим дял от извадката 0,54,
[235]
тук може да получим много различни резултати.
[238]
Може би тук е 0,54.
[243]
Причината да работя с тази несигурност е,
[245]
че всъщност нямам представа какъв е истинският
[247]
параметър на генералната съвкупност,
[249]
какъв е действителният дял от генералната съвкупност.
[251]
Но нека ти задам малко по-лесен въпрос.
[255]
Каква е вероятността
[266]
частта от извадката 0,54
[270]
да е между
[273]
два пъти две стандартни отклонения
[278]
от р?
[280]
Спри видеото и помисли за това.
[283]
Е, това е същото като да кажа, че ако направя извадка
[285]
и пресметна частта от извадката ето тук,
[288]
каква ще бъде вероятността резултатът ми да бъде в рамките на
[289]
две стандартни отклонения от средната стойност?
[291]
Е, това на практика ще бъде
[294]
ето тази площ тук.
[296]
И ние знаем от изучаваните нормални криви,
[298]
че приблизително 95% от цялата площ
[301]
е в рамките на две стандартни отклонения.
[303]
Значи това е приблизително 95%.
[307]
95% от случаите, когато направя извадка с размер 100
[311]
и изчисля частта от извадката,
[314]
ще получа резултат,
[315]
който е в рамките на 2 стандартни отклонения.
[319]
Но ако използваме това твърдение,
[320]
можем да си изведем ново твърдение,
[322]
което ще бъде следствие на първото.
[327]
Можем да кажем, че:
[330]
Има
[332]
95% шанс
[338]
частта от генералната съвкупност р
[341]
да бъде в рамките
[344]
на две стандартни отклонения от р с шапка, (р с диакритичен знак)
[350]
което е равно на 0,54.
[353]
Сега си спри видеото.
[354]
Опитай се да осмислиш тези две еквивалентни твърдения.
[357]
Ако има 95% шанс частта от извадката
[360]
да бъде в рамките на две стандартни отклонения от действителната част,
[364]
то това е същото като да кажем, че има 95% шанс
[367]
действителният дял да е в рамките на две стандартни отклонения
[370]
от дела на извадката.
[373]
И това е много, много интересно,
[375]
защото ако можем да намерим тази стойност,
[379]
то ще можем да създадем
[381]
това, което наричаме доверителен интервал.
[383]
Сега, веднага можеш да забележиш проблем тук.
[386]
За да изчислим тази стойност,
[388]
стандартното отклонение на това разпределение,
[391]
ще трябва да знаем параметъра на генералната съвкупност.
[394]
Сега спри видеото
[395]
и помисли какво можем да направим вместо това.
[397]
Ако не знаем на колко е равно р тук,
[399]
ако не знаем дела от генералната съвкупност,
[401]
имаме ли нещо, което можем да използваме като приближение
[405]
на дела от генералната съвкупност?
[407]
Ами, да, имаме – вече изчислихме р-шапчица.
[410]
Изчислихме дела от извадката.
[412]
Сега можем да определим друга статистическа величина –
[414]
стандартната грешка
[416]
или по-точно стандартната грешка на дела от извадката.
[421]
Можем да я дефинираме
[425]
и понеже не знаем дела от генералната съвкупност,
[428]
ще използваме дела от извадката,
[429]
р-шапка, умножено по едно минус р-шапка,
[432]
цялото върху n.
[434]
в този случай, разбира се, n е равно на 100.
[436]
Това го знаем.
[437]
Оказва се,
[438]
и няма да го доказвам в това видео,
[440]
че това всъщност е неизместена оценка
[442]
за това тук.
[444]
Резултатът ще бъде равен на 0,54
[448]
умножено по едно минус 0,54,
[450]
значи 0,46,
[453]
цялото върху 100.
[456]
Имаме корен квадратен от 0,54
[461]
по 0,46
[464]
делено на 100,
[466]
затварям скобата, ентър.
[469]
Ако закръгля до стотните, ще се получи...
[472]
Всъщност дори ще закръгля до хилядните
[473]
и ще получа приблизително 5/100.
[476]
Това ще бъде,
[478]
това ще бъде приблизително 0,05.
[483]
Друг начин да кажем цялото това тук е,
[487]
че не знаем точната стойност тук,
[489]
но имаме нейно приближение.
[491]
И сега можем да кажем с
[495]
95% увереност, а това ще бъде
[499]
нашият доверителен интервал ето тук.
[502]
С 95% увереност между...
[508]
И искаме да отидем на две стандартни грешки
[511]
надолу от частта от извадката,
[513]
която сме изчислили.
[515]
Това ще бъде 0,54 минус два пъти 0,05,
[523]
което е 0,44.
[526]
Също така искаме да отидем на две стандартни грешки
[528]
над частта от извадката.
[530]
Това ще е тази стойност плюс 0,10 плюс 0,54.
[533]
И 0,64
[536]
от избирателите
[540]
подкрепят
[544]
кандидат А.
[545]
Този интервал тук,
[547]
от 0,44 до 0,64
[551]
ще бъде нашият доверителен интервал.
[553]
Доверителен
[555]
интервал.
[557]
И това ще се променя
[558]
и то не само началната и крайната точка,
[560]
но също така и дължината на
[562]
доверителния интервал,
[563]
ще се променя в зависимост от това
[565]
каква част от извадката сме получили
[568]
за тази извадка от 100 анкетирани.
[570]
Сродна на доверителния интервал концепция
[573]
ще бъде допустимата грешка.
[579]
За този конкретен случай,
[581]
за тази конкретна извадка
[583]
допустимата грешка,
[584]
тъй като ни интересува 95% увереност,
[587]
ще бъде две стандартни грешки.
[589]
Значи допустимата грешка тук е два пъти стандартната грешка,
[592]
т.е. ще бъде 0,1.
[596]
Значи ще отидем една допустима грешка
[599]
над частта от извадката ето тук
[602]
и една допустима грешка
[603]
под частта от извадката ето тук,
[605]
за да дефинираме доверителния интервал.
[607]
И както споменах, тази допустима грешка няма да е
[609]
една и съща всеки път като правим извадка.
[612]
В зависимост от частта от извадката
[614]
ще се определи и допустимата грешка,
[616]
защото тя се изчислява основно
[619]
чрез стандартната грешка.
[620]
Друга интерпретация на това е,
[623]
че когато методът, който използвахме,
[625]
за да получим този интервал,
[627]
този доверителен интервал,
[632]
го използваме още веднъж и още веднъж и т.н.
[635]
ще ни даде интервали,
[637]
които няма да бъдат еднакви.
[638]
Ще зависи от частта от извадката,
[641]
но ще създава интервали,
[642]
които включват в себе си действителния дял,
[644]
който в повечето случаи не знаем.
[647]
Ще включва действителния дял в 95% от случаите.
[652]
Ще поработим върху логиката зад това в бъдещи видеа.
[655]
Ще видим как интервалът се променя,
[656]
как допустимата грешка се променя.
[658]
Но като направиш това изчисление
[660]
много пъти,
[662]
в 95% от случаите
[665]
действителният дял ще се съдържа
[668]
в интервала, който се е получил.
[672]
Сега, друг интересен въпрос е
[674]
какво трябва да направим,
[676]
за да стесним тези интервали в общия случай.
[678]
Как ще го постигнем?
[680]
Е, ако искаме да намалим допустимата грешка,
[682]
най-добрият начин да го постигнем
[684]
е да увеличим този делител тук.
[688]
А това означава
[689]
да увеличим размера на извадката.
[691]
Затова едно от нещата, за които често ще чуеш да се говори
[693]
по време на избори е,
[696]
че размерът на извадката трябва да бъде по-голям,
[697]
за да се намали допустимата грешка.
[701]
Но ще оставим темата до тук
[701]
и ще те видя в следващото видео.