Hypothesis test for difference of means | Probability and Statistics | Khan Academy - YouTube

Channel: Khan Academy

[0]
Миналия път намерихме 95%-ния доверителен интервал
[5]
за средната стойност на загуба на тегло между групата на диета без мазнини
[9]
и контролната група.
[10]
В този клип искам да направя тест за значимост,
[14]
за да проверя дали реално тези данни ще ни накарат да повярваме,
[18]
че диетата за отслабване е въобще ефективна.
[20]
За да направим това, нека установим нашите нулева и
[22]
алтернативна хипотези.
[24]
Нулевата ни хипотеза ще бъде, че тази
[29]
диета за отслабване е неефективна.
[31]
И ако диетата за отслабване е неефективна, това означава,
[36]
че средната стойност за генералната съвкупност на тази диета минус средната стойност за генералната съвкупност
[41]
на контролната ще е равна на 0.
[44]
Това твърдение е напълно равносилно на това, че
[49]
средната стойност на извадковото разпределение на групата на диета за отслабване
[55]
минус средната стойност на извадковото разпределение на
[60]
контролната група ще е равно на 0.
[62]
Това е така, видяхме много пъти.
[64]
Средната стойност на извадковото разпределение ще е равна на
[67]
средната стойност на генералната съвкупност.
[69]
Това е равно на това.
[71]
Това пък на това.
[72]
Или друг начин да го кажем е, ако помислим за средната стойност
[78]
на разпределението на разликата на извадковите средни стойности,
[81]
обърнахме внимание на това миналия път, че
[84]
тук ще е равно на 0.
[85]
Понеже това нещо тук е точно равно
[91]
на това тук.
[92]
Та това е нашата нулева хипотеза.
[94]
А нашата алтернативна хипотеза,
[99]
ще я напиша тук.
[102]
Тя всъщност е тази,
[104]
че диетата върши някаква работа.
[109]
И нека кажем, че тя всъщност има подобрение.
[111]
Това ще означава, че имаме по-голямо отслабване.
[114]
И ако имаме средната стойност на група 1, средната стойност на генералната съвкупност
[117]
на група едно минус средната стойност на генералната съвкупност за група две,
[120]
тази разлика трябва да е по-голяма от нула.
[123]
Така че това ще е едностранно разпределение.
[127]
Или друг начин, по който бихме го разглеждали, е този, когато средната стойност
[133]
на разликата от разпределенията, х1 минус х2
[137]
ще е по-голяма от нула.
[140]
Това са равносилни твърдения.
[141]
Защото знаем, че това е равно на това, което
[144]
е равно на това, което написах ето тук.
[147]
И сега, за да направим тест за значимост, трябва
[150]
да определим нивото на значимост.
[153]
Трябва да определим какво...
[155]
Това, което ще направим, е че ще приемем нашата
[157]
нулева хипотеза за вярна.
[159]
И с това предположение, че нулевата хипотеза
[163]
е вярна, ще видим каква е вероятността
[167]
да получим тези данни от извадката тук.
[170]
И ако тази вероятност е под някакъв праг,
[174]
ще отхвърлим нулевата хипотеза в полза на алтернативната хипотеза.
[179]
Този праг на вероятността, видяхме това
[181]
и преди, се нарича ниво на значимост, понякога
[183]
наречено алфа.
[184]
И тук, ще изберем ниво
[187]
на значимост 95%.
[191]
Или друг начин да го обсъдим, приемайки
[195]
нулевата хипотеза за вярна, искаме да няма повече от 5%
[198]
вероятност да се получи този резултат тук.
[201]
Или да няма повече от 5% вероятност неправилно да отхвърлим нулевата
[206]
хипотеза, когато всъщност тя е вярна.
[208]
Или това ще е грешка от първи род.
[209]
И ако има по-малко от 5% вероятност това да се случи,
[216]
ще отхвърлим нулевата хипотеза.
[219]
По-малко от 5% вероятност, когато сме допуснали, че е вярна нулевата хипотеза,
[222]
тогава ще отхвърлим нулевата хипотеза
[224]
в полза на алтернативната.
[225]
Нека помислим за това.
[226]
Имаме нулевата хипотеза.
[229]
Нека тук начертая едно разпределение.
[232]
Нулевата хипотеза казва, че средната стойност от разликите на
[241]
извадковите разпределения трябва да е равна на нула.
[246]
И в този случай каква ще е нашата критична област тук?
[251]
Нужен ни е резултат, така че ще тук ще ни трябва
[254]
критична Z-стойност.
[260]
Защото това не е нормализирано нормално разпределение.
[269]
Но има някаква критична стойност тук.
[275]
В статистиката най-трудното нещо е намирането на правилните думи.
[277]
Има една критическа стойност тук, че вероятността
[280]
да се намери извадка от това разпределение над тази стойност е само 5 %.
[290]
И трябва само да намерим каква е тази критична стойност.
[293]
Ако нашата стойност е по-голяма от тази критична стойност, тогава
[297]
можем да отхвърлим нулевата хипотеза.
[299]
Защото това означава, че вероятността да получим този резултат
[301]
е по-малка от 5%.
[302]
Бихме могли да отхвърлим нулевата хипотеза и да продължим
[305]
с алтернативаната хипотеза.
[308]
Пак да не забравяме, че можем да използваме Z-резултати,
[311]
и да приемем, че имаме нормално разпределение, защото размерът
[313]
на извадката е достатъчно голям за двете извадки.
[316]
Имаме извадки с размер 100.
[318]
И за да намерим търсеното, най-напред, ако само погледнем
[325]
едно нормализирано нормално разпределение като това, каква е
[333]
критичната Z-стойност?
[339]
Получаваме резултат над тази Z-стойност,
[342]
което има само 5% вероятност.
[344]
И това всъщност е кумулативна стойност.
[346]
Тази цялата област тук
[347]
ще има 95% вероятност.
[349]
Можем да погледнем Z-таблицата.
[350]
Търсим 95% процента.
[354]
Търсим в едностранния случай.
[357]
Нека потърсим 95%.
[359]
Това е най-близката стойност.
[360]
Искаме да избегнем по-голямата грешка да бъдем тук
[364]
от дясната страна.
[365]
Та нека кажем, че 95,05 си е доста добре.
[368]
Така тук имаме 1,65.
[371]
Така че тази критична Z-стойност е равна на 1,65.
[375]
Или друг начин да разглеждаме това е, когато това разстояние тук
[378]
ще е 1,65 стандартни отклонения.
[386]
Знам, че почеркът ми е наистина дребен.
[387]
Само казвам стандартното отклонение на това
[389]
разпределение.
[390]
И какво е стандартното отклонение на това
[392]
разпределение?
[392]
Всъщност го пресметнахме миналия път, но
[394]
и тук ще го изчислим.
[396]
Стандартното отклонение на нашето разпределение на разликата
[402]
от извадковите средни стойности ще е равно на корен квадратен
[407]
от дисперсията на нашата първа генерална съвкупност...
[411]
дисперсията на първата ни генерална съвкупност не я знаем.
[413]
Но можем да я изчислим чрез извадковото стандартно отклонение.
[417]
Ако вземем това извадково стандартно отклонение, 4,67
[421]
и го повдигнем на квадрат, получаваме дисперсията на извадката.
[423]
И това е дисперсията.
[425]
Това е нашата най-добра оценка за дисперсията
[430]
на генералната съвкупност.
[433]
И искаме да разделим това на размера на извадката.
[436]
И след това плюс най-добрата оценка за дисперсията
[440]
на генералната съвкупност за група две, която е 4,04 на квадрат.
[445]
Извадковото стандартно отклонение на група две на квадрат.
[448]
Това ни дава дисперсията, разделена на 100.
[451]
Направих това миналия път. Може би още се вижда в моя
[454]
калкулатор.
[457]
Да, още е в калкулатора.
[458]
Тази стойност тук горе.
[459]
4,67 на квадрат, делено на 100 плюс 4,04
[463]
на квадрат, делено на 100.
[464]
Така получихме 0,617.
[466]
Т.е. това тук ще е 0,617.
[478]
А това разстояние тук ще е
[482]
равно на 1,65 пъти по 0,617.
[485]
Нека го пресметнем на колко е равно.
[487]
И така, 0,617, умножено по 1,65.
[497]
Това дава 1,02.
[503]
Това разстояние тук е 1,02.
[508]
И това ни казва, че ако приемем, че диетата е неефективна,
[519]
има само 5% вероятност да наблюдаваме
[522]
разлика между средните стойности на тези две извадки, която
[528]
да е повече от 1,02.
[530]
Има само 5% вероятност за това.
[532]
Средната стойност, която всъщност получихме, е 1,91.
[538]
И това е тук някъде.
[540]
И определено спада към този критичен район.
[542]
Вероятността да получим това, приемайки, че нулевата
[547]
хипотеза е вярна, тази вероятност е по-малка от 5%.
[551]
Така имаме по-малка вероятност от нашето ниво на значимост.
[557]
Всъщност нека бъда много ясен.
[558]
Нивото на значимост, това алфа, трябва да е 5%.
[565]
Не 95 %.
[567]
Мисля, че може да съм го казвал.
[568]
Но там написах погрешното число.
[570]
Извадих го от едно случайно.
[572]
Вероятно съм го направил наум.
[573]
Но както и да е, нивото на значимост е 5%.
[575]
Вероятността, при условие, че е вярна нулевата хипотеза,
[580]
вероятността да получим резултата, който получихме,
[584]
вероятността да получим тази разлика, е по-малка от нашето
[586]
ниво на значителност.
[588]
Тя е по-малка от 5%.
[590]
Така, въз основа на правилата, които приемаме, да имаме
[592]
ниво на значимост 5%, ще отхвърлим нулевата хипотеза
[598]
в полза на алтернативата, че диетата всъщност помага да отслабнем повече.