Confidence interval example | Inferential statistics | Probability and Statistics | Khan Academy - YouTube

Channel: Khan Academy

[0]
В един административен район се предоставя финансиране на учители
[3]
за инсталиране на мрежа от четири компютъра в техните класни стаи.
[8]
От 6250 учители в областта са избрани произволно 250,
[15]
като на всеки учител е зададен въпросът дали счита компютъра
[17]
за съществено важен елемент на преподаването.
[20]
Сред избраните, 142 учители мислели, че
[27]
компютрите са важен образователен елемент.
[33]
След това от нас искат да определим 99% доверителен интервал
[36]
за деля на учителите, смятащи
[40]
компютрите за съществен елемент в преподаването.
[42]
Нека само да помислим за цялата генерална съвкупност.
[44]
Не сме могли да анкетираме всички учители, цялата
[47]
генерална съвкупност, но някои от тях отговарят – ще ги определим като 1 –
[55]
че според тях това е добро средство.
[56]
Изказали са мнение, че компютрите са добро средство.
[59]
И ще означим с 0 случаят, когато
[62]
един учител казва, че не е добро.
[66]
Известен дял от всички учители мислят, че
[70]
това е добро средство.
[72]
Този дял е р.
[73]
Останалите от тях мислят, че е лошо средство за учене, 1 минус р.
[80]
Тук имаме разпределение на Бернули,
[83]
а знаем, че средната стойност на това разпределение, или
[85]
очакваната стойност на това разпределение
[88]
ще е всъщност р.
[90]
И фактически това ще бъде стойност, която не е 0, нито е 1,
[93]
т.е. не е реална стойност, която отразява отговора
[95]
на един учител, който е анкетиран.
[96]
Те не могат да кажат, че нещо е средно добро, или че не е добро.
[99]
Действително очакваната стойност е нещо междинно.
[102]
Това е р.
[104]
Ние правим извадка от 250 учители,
[110]
и получаваме, че според 142 от тях компютрите са
[113]
важен инструмент за преподаване.
[115]
И в нашето проучване имаме 250 участника, като получихме, че 142
[126]
са изказали добро мнение, и ще кажем, че това е 1.
[130]
Получихме 142 единици, или 142 пъти имаме 1 в разпределението.
[135]
А какво става в останалите случаи?
[138]
Други 108 са дали мнение, че компютрите не са хубаво нещо.
[141]
Така, 108 души казват, че не са добри, тях можем да представим като 0.
[147]
108 плюс 142 е 250.
[151]
И каква е извадковата средна стойност тук?
[155]
Имаме 1 път по 142, плюс 0 пъти по 108, разделено на
[166]
целия ни брой елементи в извадката, делено на 250.
[169]
Това е равно на 142 върху 250.
[172]
Това може да се разглежда като дял в извадката
[174]
на учителите, които считат компютрите
[176]
за добро средство за обучение.
[177]
Нека сега взема калкулатора, за да пресметна това.
[181]
Имаме 142, делено на 250, това е равно на 0,568.
[189]
Така че делът в извадката е 0,568.
[191]
Или 56,8%, може и по двата начина.
[193]
Така, 0,568.
[197]
Сега нека намерим и дисперсията на извадката, защото можем
[200]
по-късно да я използваме при определяне на доверителния интервал.
[204]
Дисперсията на извадката тук – пиша дисперсия на извадката –
[208]
ще вземем претеглената сума на квадратите на отклоненията
[213]
от средната стойност и ще разделим резултата на минус 1.
[216]
И така ще намерим най-добрата оценка на действителната дисперсия.
[219]
Така имаме 1 по... не, всъщност тук е обратно –
[225]
имаме 142 елемента, които са отдалечени на 1 минус 0,568 от
[233]
средната стойност на извадката, или сме на такова разстояние от
[239]
средната стойност на извадката 142 пъти,
[242]
и ще повдигнем на квадрат тези разстояния.
[243]
Плюс другите 108 пъти, когато имаме 0, така сме на 0 минус
[250]
0,568 разстояние от извадковата средна стойност.
[254]
След това ще разделим това на общия брой елементи минус 1.
[262]
Това минус 1 така нагласява нещата, за да не подценим нищо.
[267]
Така, 250 минус 1.
[270]
Пак ще използвам нашия калкулатор.
[274]
Така, имаме 100... ограждам всичко с кръгли скоби –
[280]
имам 142 по 1 минус 0,568, на квадрат,
[291]
плюс 108 по 0, минус – очевидно части от задачата могат
[300]
да се сметнат наум, но аз ще напиша всичко подробно,
[301]
минус 0,568 на квадрат, и всичко това
[310]
делено на 250 минус 1, което е 249.
[315]
Така дисперсията на извадката е... ще кажа 0,246.
[321]
Това е равно на... т.е. дисперсията на извадката е... ще я напиша тук –
[325]
дисперсията на извадката е равна на 0,246.
[332]
Ако намерим квадратния корен от това, тогава действителното
[336]
стандартно отклонение на извадката ще бъде... коренувам
[342]
полученото тук, и получаваме 0,496
[349]
е равно на 0.
[350]
Ще закръгля това на 0,50.
[354]
И това е стандартното отклонение на извадката.
[357]
Сега, този интервал, да го разгледаме така: вземаме
[361]
извадка от дадено извадково разпределение
[364]
на извадкова средна стойност.
[365]
Така че това изглежда като това тук, а това –
[368]
като показаното там.
[370]
И имаме някаква средна стойност.
[378]
Средната стойност на извадковото разпределение всъщност е равна на
[382]
тази средна стойност тук – ще бъде
[384]
същата средна стойност, която е равна на нашия дял
[387]
от генералната съвкупност.
[388]
Виждали сме това безброй пъти.
[390]
И стандартното отклонение на извадковото разпределение...
[400]
можем да разглеждаме това като едно стандартно отклонение.
[403]
И стандартното отклонение на извадковото разпределение,
[406]
нещо, което сме виждали много пъти, е равно на стандартното отклонение на...
[413]
ще използвам друг цвят тук –
[415]
е равно на стандартното отклонение на изходната генерална съвкупност,
[423]
разделено на корен квадратен от броя на елементите в извадката.
[430]
Имаме делено на 250.
[433]
Сега това тук не го знаем.
[436]
Не знаем действителното стандартно отклонение на
[440]
генералната съвкупност.
[441]
Но нашата най-добра оценка от това – и това е причината да го наричаме
[444]
доверителен интервал – уверени сме, че истинската средна стойност или реалният дял
[450]
от генералната съвкупност ще е в този интервал.
[452]
Уверени сме, но не сме 100% сигурни, защото
[455]
ще оценим това тук, и ако оценяваме това,
[458]
реално оценяваме това там.
[460]
И ако това може да се оцени, ще се оцени чрез
[463]
стандартното отклонение на извадката.
[469]
И тогава можем да кажем, че това ще е приблизително, или
[472]
освен ако не получим една напълно изместена извадка,
[475]
тогава всъщност може дори да не е приблизително, ако имахме
[477]
наистина странна извадка.
[479]
Но може би трябва да напишем "увереност във" –
[487]
уверени сме, че стандартното отклонение на нашето
[490]
извадково разпределение ще бъде приблизително... вместо това
[495]
можем да използваме стандартното отклонение на нашата извадка,
[499]
извадковото стандартно отклонение.
[501]
Така, 0,50 делено на корен квадратен от 250.
[507]
Колко ще получим?
[509]
Това ще е... имаме тази стойност тук,
[514]
и всъщност не е нужно да я закръглявам, делено на
[516]
корен квадратен от 250.
[521]
Получаваме 0,031.
[525]
Това тук е равно на 0,031.
[532]
Това е едно стандартно отклонение.
[534]
Търсим 99% доверителен интервал.
[537]
Начинът, по който разглеждам това, е... ако избера произволно един елемент
[545]
от извадковото разпределение, каква вероятност от 99%
[550]
имаме, или колко... нека помислим по този начин.
[553]
На колко стандартни отклонения от средната стойност трябва да бъдем,
[557]
за да можем да приемем, че имаме 99% увереност в това, че всеки елемент
[561]
от извадковото разпределение ще е в този интервал?
[565]
Друг начин да помислим за това, е на колко
[566]
стандартни отклонения трябва да сме отдалечени от средната стойност,
[569]
ще бъдем на разстояние определен брой стандартни отклонения
[571]
от средната стойност, така че всяка извадка, всяка средна стойност, която
[578]
вземаме от тук, всеки елемент от това разпределение да има
[583]
99% възможност да бъде плюс или минус толкова стандартни отклонения.
[587]
Това може да е от тук до тук.
[589]
И това е, което искаме.
[590]
Искаме 99% вероятност, че ако изберем един елемент от
[594]
извадковото разпределение на извадковата средна стойност,
[596]
той ще е в рамките на толкова
[597]
стандартни отклонения от действителната средна стойност.
[600]
И за да разберем резултата, нека погледнем нашата Z-таблица.
[603]
Искаме 99% доверителен интервал.
[606]
И друг начин, по който да разгледаме това, ако искаме 99% увереност,
[610]
ако погледнем само горната половина тук,
[615]
тази оранжева област трябва да е 0,475, защото ако това е 0,475, тогава
[621]
тази другата част ще бъде 0,475, и ще стигнем до...
[624]
о, извинявам се, искаме да получим до 99%, и затова
[627]
няма да е 0,475.
[630]
Ще трябва да отидем на 0,495 ако искаме 99% увереност.
[638]
Така че тази област трябва да е 0,495 тук, защото ако това е толкова,
[643]
и това тук ще е толкова.
[644]
И сборът им ще е 99% от цялата площ.
[648]
Ако това е 0,495, тази стойност от z-таблицата тук
[652]
ще трябва да е 0,5, защото цялата тази площ,
[656]
ако включим всичко това, ще е 0,5.
[658]
И ще имаме 0,5 плюс 0,495.
[661]
Което дава 0,995.
[671]
Правилно ли е?
[672]
0,995.
[676]
Поглеждаме нашата Z-таблица.
[678]
Къде имаме 0,995
[680]
в нашата z-таблица?
[681]
0,995
[685]
е доста близо, с малка грешка, ще се намира
[688]
ето тук – това е 0,9951.
[691]
Друг начин на представяне е, че 99... тази стойност тук
[697]
ни дава цялата площ до тук,
[700]
от нашата средна стойност.
[702]
И ако погледнем цялото разпределение по този начин, това тук
[707]
е средната стойност.
[709]
Това ни показва 2,5 стандартни отклонения над
[712]
средната стойност, така че са налице 2,5 стандартни отклонения над средната стойност.
[716]
А това е 2,5 пъти стандартното отклонение
[720]
на извадковото разпределение.
[721]
Ако погледнем цялата тази площ, цялата тази площ тук,
[726]
ако погледнем Z-таблицата, ще видим, че това е
[729]
0,9951, което ни казва че тази област тук само
[738]
ще е 0,4951, което ни казва, че тази област плюс
[744]
симетричната област на толкова стандартни отклонения под
[747]
средната стойност, ако ги съберем,
[748]
0,4951 по 2 ни дава 99,2.
[754]
И цялата тази площ тук е 99,992.
[759]
А ако погледнем областта 2,5 стандартни отклонения над и
[762]
под средната стойност... О, трябва да внимавам.
[767]
Това не е само 2,5, трябва да добавим
[769]
още една значеща цифра.
[770]
Това е 2,5, а следващата значеща цифра е дадена в тази колона.
[774]
Така че трябва да погледнем ето тук горе към втората и последната
[776]
колона, и трябва да добавим една осмица тук.
[779]
Това са 2,58 стандартни отклонения.
[786]
Имаме 2,5 тук, и после имаме следващата цифра 8 от колоната.
[791]
2,58 стандартни отклонения над и под стандартното
[795]
отклонение включва малко над 99% от общата вероятност.
[800]
Така има малко над 99% вероятност всяка извадкова средна стойност,
[804]
която избера от извадковото разпределение
[806]
на извадковата средна стойност да попадне в тази част
[809]
на стандартното отклонение.
[811]
И нека го представим така.
[812]
Има 99... всъщност това какво е – 99,2% вероятност, нали така?
[820]
Ако умножим тук по 2, получаваме 0,99... всъщност
[825]
получаваме 0,9902.
[827]
Така че ще кажем, че имаме около 99% вероятност за всяка извадка...
[838]
случайна извадкова средна стойност да е в рамките на 2,58 стандартни отклонения
[851]
от извадковата средна стойност,
[854]
средната стойност на извадковото разпределение
[860]
на тази средна стойност, което е точно равно на действителната
[862]
средна стойност на генералната съвкупност, която пък е равна на
[864]
дела от генералната съвкупност,
[865]
който е р.
[867]
А ние знаем каква е тази стойност тук.
[869]
Поне имаме прилична оценка за тази стойност.
[871]
Не знаем точно колко е това, но нашата най-добра оценка
[874]
за тази стойност е това тук.
[879]
И можем да преработим това, така че можем да кажем, че сме уверени,
[884]
защото действително използваме оценка, за да
[886]
получим тази стойност тук.
[888]
Уверени сме, че има 99% вероятност дадена произволна х,
[898]
произволна извадкова средна стойност, да е в рамките на... нека намерим
[903]
тази стойност тук с калкулатора.
[906]
Равно е на 2,58 по нашата най-добра оценка за стандартното
[913]
отклонение на извадковото разпределение, значи по 0,031,
[920]
е равно на 0,0... да закръглим това, защото
[924]
е много близо до 0,08 – това е в рамките на 0,08 от
[935]
дела в генералната съвкупност.
[938]
Или можем да кажем, че сме уверени в делът от генералната съвкупност
[941]
е в рамките на 0,08 от нашата извадкова средна стойност.
[945]
Това е абсолютно същото твърдение.
[949]
И ако търсим нашия доверителен интервал, действителното число,
[954]
което получихме за него там, нашата действителна извадкова
[956]
средна стойност, която получихме, беше 0,568.
[961]
И можем да заместим това, всъщност нека го направя.
[964]
Това тук го изтривам.
[966]
Изчиствам.
[967]
Мога да заместя това, защото всъщност действително направихме извадка.
[972]
И мога да заместя това с 0,568.
[977]
Така че можем да сме уверени, че има 99% вероятност
[980]
0,568 да е в рамките на 0,08 от дела в генералната съвкупност, което
[988]
е точно равно на средната стойност на генералната съвкупност, точно равна
[989]
на средната стойност за извадковото разпределение на
[991]
извадковата средна стойност, и т.н. и т.н.
[993]
За да стане по-ясно, можем да разменим тези двете.
[995]
Значението няма да се промени.
[996]
Ако това е в рамките на 0,08 от това, тогава това
[999]
е в рамките на 0,08 от това.
[1000]
Нека разменя това.
[1004]
Можем да сметнем, че р е в рамките на... нека разменя тези –
[1011]
в рамките на 0,568.
[1013]
Така формулирано звучи
[1015]
повече като доверителен интервал.
[1016]
Уверени сме, че има 99% вероятност р да е в рамките на
[1021]
0,08 от извадковата средна стойност 0,568.
[1026]
Така че какъв ще е нашият доверителен интервал?
[1027]
Той ще е 0,568 плюс или минус 0,08.
[1034]
И колко дава това?
[1035]
Ако добавим 0,08 към това тук, в горната част
[1040]
ще имаме 0,648.
[1045]
А в долния край на интервала... това е горната част,
[1048]
а това е долната.
[1049]
Ако извадим 8 от това, получаваме 0,488.
[1054]
Така сме 99% уверени, че действителният дял от генералната съвкупност
[1057]
е между тези две числа.
[1058]
И друг начин, по който действителният процент учители, които
[1061]
приемат компютрите като добра идея, е между...
[1065]
99% сме уверени... уверени сме, че има 99% вероятност
[1069]
действителният процент учители, които обичат компютрите,
[1071]
да е между 48,8% и 64,8%.
[1076]
Така отговорихме на първата част от въпроса.
[1079]
Втората част: как може да се промени допитването, така че да се стесни
[1082]
доверителният интервал, но със запазване
[1084]
на 99% доверителен интервал?
[1087]
Могат да се вземат повече извадки.
[1089]
Ако вземем повече извадки, отколкото са в нашата оценка на стандартното
[1094]
отклонение на това разпределение, то ще намалее, защото този
[1097]
знаменател ще е по-голям.
[1099]
Ако знаменателят е по-голям, тогава цялото това нещо ще бъде по-малко.
[1102]
Така че ако стандартните отклонения тук намалеят, тогава, когато
[1106]
броим стандартните отклонения, когато събираме или изваждаме
[1108]
в интервала, тази стойност ще намалее
[1111]
и ще стесни нашия интервал.
[1111]
Затова увеличаваме извадката.