Pearson's chi square test (goodness of fit) | Probability and Statistics | Khan Academy - YouTube

Channel: Khan Academy

[0]
Мисля да купя ресторант,
[2]
така че отивам и питам настоящия собственик
[4]
какво е разпределението на броя клиенти,
[6]
които има всеки ден.
[7]
И той казва, че вече е открил това.
[9]
Дава ми това разпределение ето тук, което казва,
[12]
че 10% от клиентите му идват в понеделник, 10% във вторник, 15% в сряда и така нататък.
[18]
В неделя е затворено.
[19]
Това са 100% от клиентите за една седмица.
[21]
Ако събереш това, ще получиш 100%.
[23]
Очевидно съм малко подозрителен,
[25]
така че решавам да видя колко добре това разпределение, което
[30]
той описва, съвпада с наблюдаваните данни.
[32]
Наблюдавам броя клиенти, които идват
[35]
през седмицата и получавам
[36]
това от моето наблюдение.
[38]
За да открия дали да приема, или да отхвърля
[42]
неговата хипотеза, аз ще
[44]
направя една проверка на хипотезите.
[47]
Ще формулирам нулевата хипотеза, че разпределението на собственика -
[57]
това нещо тук – е вярно.
[63]
После алтернативната хипотеза
[66]
ще е, че това не е вярно,
[69]
това не е правилното разпределение,
[71]
че не виждам логика да разчитам на това.
[75]
Това не е вярно – трябва да отхвърля
[77]
разпределението на собственика.
[79]
Искам да направя това с ниво на значимост от 5%.
[87]
Друг начин да си го представим:
[88]
ще пресметна една статистика на база тези данни, ето тук.
[92]
Това ще е статистика "ХИ-квадрат".
[94]
Друг начин да си го представим е, че тази статистика,
[97]
която ще пресметна, има приблизително
[99]
разпределение ХИ-квадрат.
[101]
При положение, че има разпределение ХИ-квадрат
[104]
с определен брой степени на свобода
[105]
и можем да я пресметнем, искам да видя
[108]
каква е вероятността да получа такъв резултат,
[111]
да получа подобен резултат или резултат, който е
[115]
с по-ниско ниво на значимост.
[117]
Ако вероятността да получа резултат като този или
[119]
нещо по-малко вероятно от това, е по-малка от 5%,
[123]
тогава ще отхвърля нулевата хипотеза, което означава,
[126]
че отхвърлям разпределението на собственика.
[130]
Ако не получа това, ако кажа,
[133]
че вероятността да получа статистика ХИ-квадрат, която
[136]
е толкова или по-голяма, е по-голяма от алфа,
[142]
от нивото ми на значимост, тогава няма да я отхвърля.
[144]
Ще си кажа, че нямам причина
[146]
да приема, че той лъже.
[148]
Нека направим това.
[149]
За да пресметна ХИ-квадрат, ще...
[152]
тук приемаме, че разпределението на собственика е вярно.
[161]
Приемам, че разпределението на собственика
[163]
е вярно, тогава какво ще е очакваната стойност на наблюденията?
[167]
Тук имаме стойноста процентите по дни,
[169]
но каква би била очакваната стойност на разпределението на наблюдеията?
[171]
Нека запиша това тук.
[172]
Очаквано.
[173]
Ще добавя още един ред, Очаквано.
[176]
За общия брой клиенти, които идват през тази седмица,
[179]
ще очакваме 10% от тях да дойдат в понеделник,
[181]
10% от общия брой клиенти тази седмица
[183]
ще дойдат във вторник, 15% ще дойдат в сряда.
[185]
За да открием какво е истинското число,
[188]
трябва да намерим общия брой клиенти.
[190]
Нека съберем тези числа.
[194]
Ще извадя калкулатора си.
[197]
Имаме 30 плюс 14, плюс 34, плюс 45, плюс 57, плюс 20.
[206]
Тук имаме общо 200 клиенти, които
[208]
са дошли в ресторанта тази седмица.
[210]
Нека запиша това.
[212]
Това е равно на – записах общия брой тук.
[217]
Игнорирай ето това.
[218]
Тази седмица има 200 клиенти.
[221]
Какъв е очакваният брой в понеделник?
[223]
В понеделник бихме очаквали 10% от 200-те
[226]
клиенти да дойдат.
[227]
Това ще е 20 клиенти, 10% по 200.
[231]
Във вторник – още 10%.
[232]
Тоест, щяхме да очакваме 20 клиенти.
[234]
Сряда, 15% от 200, това е 30 клиенти.
[239]
В четвъртък бихме очаквали 20% от 200 клиенти,
[243]
така че това ще е 40 клиенти.
[245]
В петък, 30% би било 60 клиенти.
[249]
А в събота отново 15%.
[250]
15% от 200 би било 30 клиенти.
[254]
Ако това разпределение е правилно,
[256]
това е реалният брой, който бих очаквал.
[260]
За да пресметнем ХИ-квадрат,
[263]
взимаме – нека ти покажа,
[266]
вместо да пиша "ХИ", ще
[268]
пиша главно Х на квадрат.
[270]
Понякога някои хора могат да пишат гръцката буква "хи".
[273]
Но ще запиша "Х на квадрат".
[275]
Нека го напиша така.
[276]
Това е нашият ХИ-квадрат,
[285]
но ще го запиша с главно Х, вместо с "хи",
[287]
понеже това ще има приблизително
[290]
разпределение ХИ-квадрат.
[292]
Не мога да приема, че това е точно,
[293]
така че тук се занимаваме с приблизителни изчисления.
[296]
Но е доста лесно да го изчислим.
[299]
За всеки от тези дни взимаме разликата
[301]
между наблюдаваните и очакваните проценти.
[303]
Това ще е 30 минус 20...
[308]
ще направя първото с различен цвят – на квадрат,
[312]
делено на очакваната стойност.
[314]
Взимаме квадрата
[316]
и можеш да намериш грешката между това, което
[318]
наблюдавахме и очаквахме, или разликата между това,
[321]
което наблюдавахме и очаквахме, и го нормализираме,
[324]
чрез очакваната стойност тук.
[325]
Но искаме да вземем сбора на всички тези числа.
[328]
Ще направя всички тях в жълто.
[330]
Плюс (14 минус 20) на квадрат върху 20, плюс (34 минус 30) на квадрат
[344]
върху 30 – ще продължа ето тук – плюс (45 минус 40) на квадрат
[354]
върху 40, плюс (57 минус 60) на квадрат върху 60,
[364]
а после, най-накрая, плюс (20 минус 30) на квадрат върху 30.
[372]
Просто взех наблюдаваната стойност минус очакваната,
[374]
на квадрат, върху очакваната.
[376]
Взех сбора на това и
[377]
той ни дава ХИ-квадрат.
[380]
Нека пресметнем на колко ще е равно това число.
[384]
Това ще е равно на – ще го направя тук,
[386]
за да не свърши мястото.
[387]
Ще го направим в нов цвят.
[389]
Ще го направим в оранжево.
[390]
Това ще е равно на...30 минус 20
[394]
е 10, на квадрат, което е 100, делено на 20, което е 5.
[400]
Може да не успея да направя всички наум.
[403]
Плюс, нека го запиша така,
[405]
за да виждаш какво правя.
[407]
Това тук е 100 върху 20 плюс – 14 минус 20
[413]
е 6 - на квадрат е +36.
[416]
Тоест, плюс 36 върху 20.
[419]
Плюс, 34 минус 30 е 4, на квадрат е 16.
[424]
Тоест, плюс 16 върху 30.
[427]
45 минус 40 е 5, на квадрат е 25.
[431]
Тоест, плюс 25 върху 40.
[434]
Разликата тук е 3, на квадрат е 9,
[438]
тоест, това е 9 върху 60.
[440]
Тук имаме разлика от 10, на квадрат е 100, тоест плюс 100 върху 30.
[447]
Това е равно на – ще извадя калкулатора си –
[449]
имаме 100 делено на 20
[456]
плюс 36 делено на 20,
[461]
плюс 16 делено на 30, плюс 25 делено на 40,
[469]
плюс 9 делено на 60, плюс 100 делено на 30, което ни дава 11,44.
[482]
Нека запиша това.
[483]
Това тук ще е 11,44.
[490]
Това е моят ХИ-квадрат или
[492]
можем да го наречем голямо главно Х на квадрат.
[493]
Понякога ще е записано като "ХИ-квадрат",
[496]
но тази статистика ще има приблизително
[499]
разпределение ХИ-квадрат.
[501]
Като казахме това, нека намерим,
[504]
ако приемем, че това има приблизително разпределение ХИ-квадрат,
[508]
каква е вероятността да получим толкова краен резултат или поне
[512]
по-малко краен, предполагам това е друг начин да си го представим.
[515]
Друг начин да го кажем е: "Това по-краен резултат ли е
[519]
от критичната стойност на ХИ-квадрат,
[522]
че има 5% шанс да получим толкова краен резултат?"
[525]
Нека го направим по този начин.
[526]
Нека намерим критичната стойност на ХИ-квадрат.
[528]
Ако това (изчисленото ХИ-квадрат) е по-голямо от това (критичната стойност),
[530]
тогава ще отхвърлим нулевата си хипотеза.
[533]
Нека намерим критичните стойности на ХИ-квадрат.
[536]
Имаме алфа от 5%.
[538]
Другото нещо, което трябва да открием,
[540]
са степените на свобода.
[543]
Степените на свобода, взимаме едно, две, три, четири,
[547]
пет, шест сбора, така че може да ти се иска
[549]
да кажеш, че степените на свобода са шест.
[551]
Но нещо, което трябва да осъзнаеш, е, че ако
[552]
имаш всички тези данни тук,
[555]
можеш да откриеш тази последна част информация,
[559]
така че всъщност имаш пет степени на свобода.
[561]
Когато имаш n точки информация
[564]
и измерваш наблюдаваната стойност срещу очакваната,
[566]
степените ти на свобода ще са n минус 1,
[569]
понеже можеш да откриеш n-тата точка информация, просто
[571]
въз основа на всичко друго, което имаш,
[572]
всичката останала информация.
[574]
Степените ти на свобода тук ще са 5.
[577]
Това е n минус 1.
[579]
Нивото ни на значимост е 5%.
[583]
Степените ни на свобода също ще са равни на 5.
[588]
Нека погледнем нашето ХИ-квадратно разпределение.
[591]
Имаме степен на свобода от 5.
[596]
Имаме ниво на значимост от 5%.
[599]
Тоест, критичната стойност на ХИ-квадрат тук е 11,07.
[603]
Нека използваме тази диаграма.
[605]
Имаме ХИ-квадратно разпределение
[607]
със степен на свобода от 5.
[608]
Това е разпределението тук в пурпурен цвят.
[612]
Интересува ни критичната стойност от 11,07.
[616]
Това ето тук.
[617]
Всъщност на това не можеш да я видиш.
[619]
Ако продължа да рисувам това нещо в пурпурния цвят
[621]
навсякъде тук, ако пурпурната линия просто продължи,
[626]
ще имаш 8.
[628]
Тук ще имаш 10.
[630]
Тук ще имаш 12.
[632]
11,07 е, може би, някъде тук.
[636]
Това ни казва, че вероятността
[638]
да получим резултат, поне толкова екстремен като 11,07, е 5%.
[650]
Можем да го запишем дори и тук.
[651]
Критичната стойност на ХИ-квадрат е равна на – току-що видяхме – 11,07.
[658]
Нека погледна диаграмата отново.
[660]
11,07.
[667]
Резултатът, който получихме за нашата статистика,
[669]
е дори по-малко вероятен от това.
[673]
Вероятността е по-малка от нивото ни на значимост.
[676]
Така че ще отхвърлим това.
[679]
Вероятността да получим –
[681]
нека го кажа така – 11,44 е
[686]
по-крайна от критичното ниво на ХИ-квадрата.
[691]
Така че е много не вероятно това разпределение да е вярно.
[695]
Така че ще отхвърлим това, което той ни казва.
[701]
Ще отхвърлим това разпределение.
[703]
Не пасва добре въз основа на това ниво на значимост.