Sampling distribution of the sample mean | Probability and Statistics | Khan Academy - YouTube

Channel: Khan Academy

[0]
В последното видео учихме за това коя
[2]
е вероятно най-значимата идея в статистиката
[5]
и това е централната гранична теорема.
[6]
Причината това да е толкова акуратно е,
[7]
че можем да започнем с всяко разпределение, което
[9]
има добре дефинирана средна стойност и дисперсия...
[13]
написах стандартно отклонение тук
[14]
в последното видео, но трябваше да е средната стойност,
[16]
и, да кажем, че има определена дисперсия.
[18]
Мога да го запиша така или мога
[19]
да запиша стандартното отклонение тук.
[21]
Но, докато имаме добре дефинирана
[23]
средна стойност и стандартно отклонение, не ме
[25]
интересува как изглежда разпределението.
[27]
Мога да взема извадки – в последното видео от
[30]
размер четири – това означава, че буквално взимам четири
[35]
отделни случая на тази случайна променлива, това е един пример.
[38]
Взимам тяхната средна стойност и взимам предвид
[40]
тази средна стойност на извадката за първия ми опит
[42]
или, почти можеш да кажеш, за първата ми извадка.
[44]
Знам, че е много объркващо, понеже можеш да смяташ, че
[47]
една извадка, че една поредица е извадка
[49]
или можеш да смяташ, че всеки член на поредицата е извадка.
[52]
Това може да е малко объркващо.
[54]
Но имам тази първа средна стойност на извадката
[56]
и после продължавам да правя това отново и отново.
[57]
Във втората ми извадка размерът на извадката ми е четири.
[60]
Имам четири отделни случая на тази случайна променлива,
[62]
взимам средно аритметичното им, имам още една средна стойност на извадката.
[65]
Хубавото нещо на централната гранична теорема е,
[68]
че докато продължавам да нанасям честотното
[70]
разпределение на средните стойности на извадката ми,
[73]
тя започва да доближава нещо, което
[74]
приблизително е нормално разпределение.
[77]
И върши по-добра работа за приблизителното достигане
[79]
на това нормално разпределение, докато n нараства.
[82]
И, за да знаем част от терминологията,
[84]
тази честота на разпределението,
[88]
тук, където го поставих,
[90]
или ето тук горе, където започнах да поставям това,
[94]
се нарича – това е малко объркващо,
[97]
понеже много използвам думата извадка –
[99]
това се нарича емпирично разпределение на средната стойност
[111]
на извадката.
[112]
Нека анализираме малко това,
[113]
така че това дълго описание
[115]
на това разпределение да е малко по-логично.
[118]
Когато кажем, че е емпирично разпределение,
[121]
това ни казва, че то е произлязло
[123]
от – то е разпределение на някаква статистическа информация, която
[126]
в този случай е средната стойност на извадката
[128]
и го извличаме от извадките
[130]
на първоначалното разпределение.
[132]
Всяка от тези.
[133]
Това е първата ми извадка и размера на извадката е четири.
[136]
Използвам статистическата информация, средната стойност.
[138]
Можех да го направя с други неща,
[140]
можех да го направя с модата или размаха, или други статистически величини.
[144]
Но емпиричното разпределение на средната стойност на извадката
[148]
е най-често срещаното.
[149]
Вероятно е, според мен, най-доброто място,
[151]
откъдето да започнем да учим за централната гранична теорема,
[154]
и, дори, честно казано, за емпиричното разпределение.
[157]
Така се нарича.
[158]
Ще започна с малко история и ще
[159]
ти докажа това експериментално,
[161]
не математически, но мисля, че експерименталното
[164]
е по-задоволително за статистиката –
[166]
това ще има същата средна стойност
[172]
като оригиналното разпределение.
[174]
Като оригиналното разпределение тук.
[176]
Има същата средна стойност, но в следващото видео ще видим,
[179]
че това ще започне приблизително да наподобява
[181]
нормално разпределение, въпреки че оригиналното ми разпределение,
[184]
от което това е генерирано, е напълно не-нормално.
[187]
Нека започнем с това приложение тук.
[190]
Просто, за да дам необходимия кредит,
[193]
това е – мисля, че беше разработено в Университета Райс –
[195]
от onlinestatbook.com.
[203]
Това е тяхното приложение, което мисля е доста добро приложение,
[205]
понеже наистина ти помага да визуализираш какво е емпирично
[208]
разпределение на средната стойност на извадката.
[210]
Мога буквално да създам персонализирано разпределение.
[213]
Нека направя това малко налудничаво.
[215]
На теория можеш да направиш това с дискретна
[218]
или непрекъсната функция на плътност на вероятността.
[222]
Но тук можем да приемем една от 32 стойности
[225]
и просто ще групирам различните възможности,
[227]
за да получа тези 32 стойности.
[229]
Очевидно, това тук не е нормално разпределение.
[232]
Изглежда малко бимодално, но няма дълги опашки.
[235]
Но първо ще използвам симулация,
[237]
за да разбера по-добре какво е
[240]
емпиричното разпределение.
[242]
Ще взема – ще започнем с –
[244]
по пет едновременно.
[247]
Размера на извадката ми ще е пет.
[249]
Когато натисна "animated" (анимирано), това ще
[252]
вземе пет извадки от тази функция на
[255]
вероятностното разпределение.
[256]
Ще вземе пет извадки и ще
[258]
видиш, когато натисна "animated",
[259]
то ще вземе средно аритметичното от тях и ще го постави тук.
[262]
После ще го натисна отново
[263]
и то отново ще направи това.
[264]
Прави пет извадки от тук,
[266]
взима средно аритметичното от тях и го поставя тук.
[269]
Какво правя?
[271]
Натиснах – исках да изчистя това.
[274]
Нека направя това долното...
[276]
Нека направя това отново.
[277]
Ще взимам пет едновременно.
[279]
Взех пет извадки от тук и после то взе тяхната средна стойност
[283]
и постави средната стойност тук.
[284]
Нека направя това отново.
[285]
Пет извадки от тази функция на вероятностното
[288]
разпределение, поставих ги тук.
[290]
Продължавам да го правя.
[291]
Ще отнеме известно време.
[292]
Но можеш да видиш, че ги поставих тук.
[294]
Мога да направя това 1 000 пъти, ще отнеме много дълго време.
[297]
Да кажем, че исках да го направя 1 000 пъти.
[299]
За да е ясно, тази програма
[301]
генерира случайните числа.
[302]
Това не е като нагласена програма.
[304]
Тя ще генерира случайните числа според
[307]
тази функция на вероятностното разпределение.
[308]
Ще взима по пет наведнъж, ще намира средните им стойности
[311]
и ще поставя средните им стойности.
[312]
Ако натисна "10 000", тя ще направи това 10 000 пъти.
[315]
Ще взима пет числа от тук 10 000 пъти
[317]
и ще намира средните им стойности 10 000 пъти
[321]
и ще постави 10 000 средни стойности тук.
[322]
Нека направим това.
[325]
Ето.
[325]
Забележи, това вече изглежда доста
[327]
като нормално разпределение.
[329]
Както казах, оригиналната средна стойност на налудничавото ми разпределение
[332]
тук беше 14,41 и, след като направи 10 000 извадки – или 10 000
[338]
опита – средната ми стойност тук е 14,41.
[341]
Вече се доближавам доста до средната стойност там.
[343]
Може да забележиш, че стандартното ми отклонение е по-малко от това.
[345]
Ще говорим за това в едно бъдещо видео.
[347]
Асиметрията и ексцесът, те са неща,
[351]
които ни помагат да измерим колко нормално е едно разпределение.
[354]
Говорихме малко за това в миналото
[356]
и нека направя това малко по-различно, интересно е.
[361]
Това са доста прости концепции.
[363]
Асиметрията буквално ни казва – ако това е–
[365]
нека го направя в различен цвят –
[368]
ако това е перфектно нормално разпределение –
[371]
и очевидно рисунката ми е много далеч от перфектното –
[374]
ако това е перфектно разпределение,
[377]
то щеше да е напълно симетрично.
[379]
Ако имаш положителна асиметрия, това
[380]
означава, че имаш по-дълга дясна опашка, отколкото иначе щеше
[384]
да очакваш.
[384]
Понякога, с положителна асиметрия, може да изглежда подобно на това.
[387]
Щеше да има по-дълга опашка надясно.
[389]
Това би било положителна асиметрия,
[393]
което го прави малко по-малко от идеално
[395]
за положително разпределение.
[396]
Отрицателна асиметрия би изглеждала така,
[398]
ще има дълга опашка наляво.
[400]
Така че една отрицателна асиметрия би изглеждало така.
[403]
Това е отрицателна асиметрия.
[404]
Ако ти е трудно да го запомниш,
[406]
просто помни в коя посока отива опашката.
[407]
Тази опашка отива в отрицателна посока,
[409]
тази опашка отива в положителна посока.
[411]
Ако нещо няма асиметрия, това
[413]
означава, че е хубаво и симетрично около средната си стойност.
[416]
Ексцес, което звучи като доста изискана дума,
[418]
не е толкова изискана идея.
[423]
Отново ще нарисувам перфектно нормално разпределение.
[428]
Помни, няма едно нормално разпределение,
[430]
може да имаш различни средни стойности и
[431]
различни стандартни отклонения.
[434]
Да кажем, че това е перфектно нормално разпределение.
[436]
Ако имам положителен ексцес, ще
[441]
имам по-дебели опашки – нека
[444]
я нарисувам по-добре от това – ще имам по-дебели
[447]
опашки, но ще имам по-остър връх.
[450]
Не трябваше да го рисувам толкова остър,
[452]
нека го нарисувам така.
[453]
Ще имам по-дебели опашки и ще
[456]
имам по-остър връх, отколкото при нормално разпределение.
[459]
Това тук е положителен ексцес.
[461]
Нещо, което има положителен ексцес – в зависимост
[464]
от това колко положителен е – това ти казва, че е
[466]
малко по-остро, отколкото реално нормално разпределение.
[471]
Отрицателен ексцес има по-малки опашки,
[474]
но е по-гладко близо до средата.
[477]
То е като това.
[478]
Нещо като това ще има отрицателен ексцес.
[482]
Може би в бъдещи видеа
[484]
ще разгледаме това в подробности,
[487]
но в контекста на симулацията,
[489]
това просто ни казва колко нормално е това разпределение.
[492]
Когато нашият размер на извадката беше n равно на 5
[494]
и направихме 10 000 опита, доста се доближихме
[496]
до нормално разпределение.
[497]
Нека направим още 10 000 опита, просто, за да видим какво ще се случи.
[501]
Изглежда още повече като нормално разпределение.
[503]
Нашата средна стойност сега е точно същото число,
[504]
но все още имаме малко изкривяване
[506]
и малък ексцес.
[507]
Нека сега видим какво се случва, ако направим същото нещо с по-голям
[510]
размер на извадката.
[511]
Можем да ги направим едновременно.
[513]
Тук n е равно на 5.
[515]
Нека тук направим това при n равно на 25.
[517]
Нека изчистя тези.
[519]
Ще направя емпирично разпределение на средната стойност
[522]
на извадката.
[522]
Ще направя 10 000 опита – ще
[524]
направя един анимиран опит, просто, за да можеш да запомниш какво става.
[527]
Буквално взимам първите пет извадки от тук
[529]
и намирам средната им стойност.
[530]
Сега взимам 25 извадки от тук, намирам средната стойност
[535]
и я поставям тук долу.
[536]
Тук размерът на извадката е 25, тук е пет.
[539]
Ще го направя още веднъж.
[541]
Взимам пет, взимам средната стойност, поставям я.
[543]
Взимам 25, взимам средната стойност и после я поставям тук долу.
[547]
Това е извадка с по-голям размер.
[549]
Сега ще направя същото това нещо 10 000 пъти.
[555]
Помни, първото ни разпределение
[557]
беше просто това налудничаво, много не-нормално разпределение,
[561]
но след като направихме това –
[563]
оп, не исках
[564]
да го направя толкова голямо.
[567]
Скролвам малко нагоре.
[568]
Какво е интересното тук?
[569]
Имам предвид, и двете изглеждат долу-горе нормално,
[571]
но ако погледнеш асиметрията и ексцеса,
[573]
когато извадката ни е с по-голям размер, то е по-нормално.
[576]
Това има по-малка асиметрия, отколкото когато размерът на извадката беше само пет.
[580]
Това има и по-малък отрицателен ексцес,
[582]
отколкото когато размерът на извадката беше пет.
[584]
Това е по-нормално разпределение.
[587]
Едно нещо, което ще разгледаме по-нататък
[589]
в бъдещо видео, е не само, че това е по-нормално по форма,
[593]
но също приляга по-тясно около средната стойност.
[595]
Дори можеш да помислиш защо това е логично.
[598]
Когато размерът на извадката ти е по-голям, шансовете
[601]
да си доста далеч от средната стойност са доста ниски.
[603]
Понеже е много малка вероятността,
[605]
ако вземеш 25 или 100 извадки,
[607]
да получиш няколко неща много отдалечени оттук
[609]
или няколко неща много отдалечени оттук.
[610]
Много вероятно е да получиш умерено разсейване на нещата.
[612]
Тоест, логично е да е по-малко вероятно средната ти стойност – средната
[615]
стойност на извадката – да е по-далеч от средната стойност.
[617]
Ще говорим малко повече за това в бъдеще.
[620]
Но се надявам, че това те задоволява –
[621]
поне експериментално не съм
[623]
ти го доказал с математическа стойност, което се
[625]
надявам да направим в бъдеще.
[627]
Но се надявам, че поне експериментално те
[628]
задоволява, че централната гранична теорема
[630]
наистина се прилага към всяко разпределение.
[632]
Имам предвид, това е налудничаво разпределение.
[634]
Окуражавам те да използваш това приложение на onlinestatbook.com
[638]
и да експериментираш с други налудничави разпределения,
[640]
за да го повярваш.
[641]
Но интересните неща са, че ние
[643]
се доближаваме до нормално разпределение,
[645]
но когато размерът на извадката ми нараства,
[647]
това по-добре приляга на нормално разпределение.