🔍
Calculating correlation coefficient r | AP Statistics | Khan Academy - YouTube
Channel: Khan Academy
[0]
В това видео
[2]
ще пресметнем на ръка
[4]
коефициента на корелация за
група бивариантни данни.
[9]
Когато кажа бивариантни,
[11]
просто казвам, че за всяка "Х" точка информация
[14]
има корелация с "Y" точка информация.
[16]
Преди да пресметна коефициента
на корелация,
[19]
нека се уверим, че разбираме
[20]
другите статистически
данни, които са ни дали.
[23]
Приемаме, че това са извадките
[25]
за "Х" и съответстващата точка "Y"
[28]
от по-широката ни генерална съвкупност.
[30]
Имаме средна стойност за извадката за "Х"
[32]
и стандартното отклонение на извадката за "Х".
[34]
Средната стойност на извадката може много
[37]
лесно да бъде пресметната, тя ще е просто едно плюс две,
[40]
плюс две, плюс три, върху четири
[44]
и това е осем върху четири,
[46]
което е равно на две.
[49]
Стандартното отклонение на
извадката за "Х" –
[53]
виждали сме това преди,
[54]
така че това трябва да е
малък преговор –
[55]
ще е корен квадратен
[56]
от разстоянието от всяка
от тези точки
[59]
до средната стойност на
извадката на квадрат.
[62]
Тоест (едно минус две) на квадрат,
[65]
плюс (две минус две) на квадрат,
[68]
плюс (две минус две) на квадрат,
[70]
плюс (три минус две) на квадрат
[74]
и, след като говорим за стандартното отклонение
[76]
на извадка, всичко това е върху –
[78]
имаме четири точки информация,
[79]
така че едно по-малко от четири – всичко това върху три.
[84]
Това всъщност доста добре ни улеснява,
[86]
понеже това е нула, това е нула,
[89]
това е едно, това е едно,
[92]
така че получаваш корен квадратен
[94]
от 2/3, което е приблизително 0,816.
[101]
Това е.
[102]
Същото нещо е валидно за "Y".
[104]
Средната стойност на извадката за "Y",
[105]
ако просто събереш едно плюс две, плюс три,
[108]
плюс шест, върху четири – четири точки информация –
[112]
и това е 12 върху четири, което е равно на три;
[116]
и после ще пресметнеш по абсолютно същия начин
[118]
стандартното отклонение на извадката за "Y",
[120]
по който го направихме за "Х",
[121]
и ще получиш 2,160.
[125]
Като свършихме това, нека сега
[127]
помислим как пресмятаме
[129]
коефициента на корелация.
[132]
Ето тук имаме представяне
[135]
на формулата за коефициент на корелация
[139]
и отначало може да изглежда малко страшно,
[141]
докато не забележиш няколко неща.
[144]
Това ни казва, че за всички съответни "Х" и "Y"
[148]
намираш z стойността за "Х",
[151]
така че наричаме това Z с подчинено "х"
[154]
за това определено "Х",
[155]
тоест Z с подчинено "Х", с подчинено "I"
[158]
и можем да кажем, че това е Z стойността
[159]
за точно това "Y".
[160]
Един начин, по който можеш да си го представиш, е Z с подчинено "Y", с подчинено "I".
[165]
Това ти казва за всяка точка
[167]
да намериш разликата между нея и средната ѝ стойност,
[170]
а после да разделиш на стандартното отклонение на извадката.
[175]
Това е с колко стандартни отклонения на извадката
[177]
тя е отдалечена от средната си стойност
[180]
и това е Z стойността за тази "X" точка,
[183]
а това е Z стойността за съответната "Y" точка информация.
[186]
С колко стандартни отклонения на извадката тя е отдалечена
[188]
от средната стойност?
[191]
В реалния живот няма да имаш само четири двойки
[193]
и ще е много трудно да го направиш на ръка,
[195]
затова обикновено използваме софтуерни компютърни инструменти да го направят,
[198]
но е наистина ценно да го направим на ръка,
[200]
за да получим логическо разбиране за това, което става.
[204]
В тази ситуация в частност
[207]
R ще е равно на едно върху N минус едно.
[211]
Имаме четири двойки, така че това ще е 1/3
[214]
и това ще е умножено по сбора на продуктите
[217]
на Z стойностите.
[218]
При тази първа двойка ето тук
[221]
Z стойността ще бъде
[224]
едно минус колко далеч е тя от
[227]
средната стойност на извадка "X",
[230]
разделено на стандартното отклонение на извадката "Х" – 0,816.
[237]
Умножаваме това по едно,
[241]
като сега гледаме променливата "Y",
[242]
Z стойността за "Y", така че това е едно минус три,
[246]
едно минус три върху "Y" стандартни отклонения – 2,160 –
[255]
и просто продължаваме да правим това.
[256]
Ще го направя по този начин.
[257]
Следващото ще е две минус две,
[261]
върху 0,816 и оттук взех двойката,
[267]
и я изваждам от тази средна стойност на извадката
[270]
ето тук, умножено по, сега гледаме това две,
[274]
две, минус три, върху 2,160
[281]
и плюс – радвам се, че има само четири двойки тук –
[286]
две минус две, върху
[289]
0,816 по три минус три,
[298]
върху 2,160.
[301]
За последната двойка
ще имаш 3 – 2
[306]
върху 0,816
[308]
по шест минус три
[314]
върху 2,160.
[317]
Преди да извадя калкулатора,
[319]
нека видя дали мога да направя някои съкращения.
[322]
Две минус две, това ще е нула,
[324]
нула по колкото и да е се равнява на нула,
[325]
така че цялото това е нула.
[327]
Две минус две е нула,
[328]
три минус три е нула,
[329]
това ще е нула по нула,
[331]
така че цялото това нещо е нула.
[333]
Да видим, това ще е едно минус две,
[335]
което е –1,
[337]
едно минус три е –2,
[340]
така че R ще е 1/3
[343]
по отрицателно число, по отрицателно число, е положително
[347]
и това ще е две върху 0,816
[352]
по 2,160 и, после, три минус две е едно.
[358]
Шест минус три е три,
[360]
тоест, плюс три върху 0,816 по 2,160.
[367]
Това са еднакви знаменатели,
[369]
така че мога да запиша, че имам две върху това,
[371]
плюс три върху това...
[373]
Пет върху това...
[375]
Тоест, мога да препиша цялото това нещо,
[377]
пет върху 0,816 по 2,160.
[384]
Сега мога да извадя калкулатора,
[386]
за да пресметна това.
[388]
Имаме едно делено на три,
[390]
по пет, делено на 0,816, по 2,16.
[401]
Нулата няма да промени нищо,
[402]
но ще я запиша
[404]
и после ще затворя тази скоба,
[406]
и да видим колко ще получим.
[409]
Получаваме R...
и след като всичко друго
[411]
достига до мястото на хилядните,
[413]
просто ще закръгля до мястото на хилядните,
[414]
R е равно на 0,946.
[419]
R е приблизително 0,946.
[424]
Какво ни казва това?
[427]
Коефициентът на корелация е мярка за
[430]
това колко добре една линия може да опише връзката
[435]
между "Х" и "Y".
[437]
R винаги ще е по-голямо от
[440]
или равно на –1
[441]
и по-малко от или равно на 1.
[444]
Ако R е +1,
[446]
това означава, че взаимовръзката може напълно
[448]
да бъде описана от една линия с възходящ наклон.
[451]
Ако R е –1,
[453]
това означава, че взаимовръзката може напълно да бъде
[456]
описана от една линия с низходящ наклон.
[459]
Ако R е където и да е по средата, тогава
[460]
това няма да е толкова добре.
[462]
Ако R е нула, това означава, че една линия не описва
[465]
добре взаимовръзката.
[468]
При нашата ситуация тук,
[471]
при нашата ситуация тук
[473]
нашето R е доста близо до едно,
[477]
което означава, че една линия може да достигне доста близо
[481]
до описване на взаимовръзката
[482]
между всички "Х" и всички "Y".
[486]
Например ще опитвам да нарисувам на ръка
[489]
една линия тук
[492]
и се оказва, че нашата линия с най-малко квадратчета
[493]
винаги ще преминава през средната стойност
[495]
на "Х" и на "Y",
[497]
като средната стойност на "Х" е две,
[499]
средната стойност на "Y" е три,
[500]
а в бъдещи видеа ще изучим това по-задълбочено,
[503]
но, да видим, изглежда като
[505]
доста добра линия.
[507]
Нека я нарисувам ето тук.
[509]
Виждаш, че мога да начертая линия,
[512]
която доста приблизително я описва.
[514]
Не е перфектно.
[514]
Ако преминех през всяка точка,
[516]
тогава щях да имам R от едно,
[519]
но доста приблизително описва
[522]
какво се случва.
[524]
Следващото нещо, което искам да направя,
[525]
е да се фокусирам върху логиката.
[527]
Какво всъщност става тук с тези z стойности
[529]
и как произведението на съответстващите z стойности
[534]
ни дава това, за което точно говорих,
[536]
при което R от едно ще е силна, положителна взаимовръзка,
[541]
а R от –1 ще е
[542]
силна, отрицателна взаимовръзка?
[545]
Нека нарисувам средните стойности на извадката.
[548]
Средната стойност на извадката "Х" е две,
[550]
това е нашата Х ос тук,
[552]
тук "Х" е равно на две,
[555]
а нашата средна стойност на извадката "Y" е три.
[559]
Това е линията Y, която е равна на три.
[562]
Можем също да нарисуваме стандартните отклонения.
[566]
Нека видим, това е стандартното отклонение
[568]
за "Х", която е 0,816, така че
[571]
ако отида с 0,816 по-надолу от средната ни стойност,
[575]
ще стигна някъде тук,
[580]
така че това е едно стандартно отклонение под средната стойност.
[583]
Едно стандартно отклонение над средната стойност
[584]
ще ни постави някъде тук
[590]
и, ако направя същото нещо при Y,
[591]
едно стандартно отклонение над средната стойност, 2,160,
[595]
това ще е 5,160, така че ще това ще ни постави
[599]
някъде тук, и едно стандартно
[602]
отклонение под средната стойност,
[604]
нека видим къде ще отидем, ако вземем две,
[607]
отиваме до едно,
[610]
а после ще извадим още 0,160,
[612]
като това ще е някъде тук.
[617]
Например, за тази първа част,
[620]
едно запетайка едно.
[622]
Какво направихме?
[623]
Запитахме се с колко стандартни отклонения
[626]
това е под средната стойност?
[628]
Оказа се, че е –1 върху 0,816,
[633]
това имаме тук,
[634]
това бихме пресметнали,
[637]
и после, колко стандартни отклонения
[638]
за Y посоката,
[642]
като това е –2 върху 2,160.
[646]
Забележи, след като и двете от тях бяха отрицателни,
[649]
допринесоха за това R
[652]
да стане положителна стойност,
[655]
като един начин да си го представиш
[656]
е, че може да ни помогне да се доближим до единицата.
[660]
Ако и двете от тях имат отрицателна Z стойност,
[663]
това означава, че има положителна взаимовръзка
[665]
между променливите.
[667]
Когато едната е под средната стойност,
[668]
можеш да кажеш, че другата
[669]
е по същия начин под средната стойност.
[671]
Ако отидем до следващата точка информация,
[673]
(2; 2), ето тук, какво се случва?
[678]
"Х" променливата е точно на средната стойност
[682]
и затова цялото това нещо стана нула.
[685]
Z стойността на Х беше нула.
[688]
Това щеше да извади
[690]
малко от нашия коефициент на корелация.
[692]
Причината, поради която ще извади малко,
[694]
въпреки че не е отрицателна,
[696]
не допринася до сбора,
[698]
но ще делиш на малко по-голяма стойност,
[702]
като включваш тази допълнителна двойка.
[704]
Ако имаше точка информация, при която, да кажем, "Х" беше под средната стойност
[707]
и "Y" беше над средната стойност,
[709]
нещо такова,
[711]
ако това беше една от точките,
[713]
това щеше да е отрицателно,
[714]
понеже z стойността за "Y" щеше да е положителна,
[716]
а z стойността на "Х" щеше да е отрицателна,
[719]
така че, когато сложиш и сбора,
[722]
това щеше да извади част
[723]
от сбора и
[724]
щеше да намали още повече R резултата.
[727]
Подобно, нещо като това
[729]
би направило R резултата още по-нисък,
[732]
понеже щеше да имаш положителна z стойност за "Х"
[735]
и отрицателна z стойност за "Y",
[737]
така че произведението на положителна и отрицателна стойност
[739]
ще е отрицателен.
Most Recent Videos:
You can go back to the homepage right here: Homepage





