Критичната вредност на тестот за хи квадрат. Услови и ограничувања за користење на Пирсон хи-квадрат тест

Квантитативното проучување на биолошките појави нужно бара создавање хипотези со кои ќе се објаснат овие појави. За да се тестира одредена хипотеза, се спроведуваат низа специјални експерименти и се споредуваат вистинските добиени податоци со оние теоретски очекувани според оваа хипотеза. Ако има случајност, ова може да биде доволна причина да се прифати хипотезата. Доколку експерименталните податоци не се согласуваат добро со теоретски очекуваните, се појавува голем сомнеж за точноста на предложената хипотеза.

Степенот до кој вистинските податоци одговараат на очекуваното (хипотетички) се мери со хи-квадрат тест:

- фактичка забележана вредност на карактеристиката во јас-тоа; теоретски очекуван број или знак (индикатор) за дадена група, к-број на групи на податоци.

Критериумот беше предложен од К. Пирсон во 1900 година и понекогаш се нарекува критериум Пирсон.

Задача.Меѓу 164 деца кои наследиле фактор од едниот родител и фактор од другиот, имало 46 деца со факторот, 50 со факторот, 68 со двајцата. Пресметајте ги очекуваните фреквенции за сооднос 1:2:1 помеѓу групите и утврдете го степенот на усогласеност на емпириските податоци користејќи го Пирсон тестот.

Решение:Односот на набљудуваните фреквенции е 46:68:50, теоретски се очекува 41:82:41.

Да го поставиме нивото на значајност на 0,05. Вредноста на табелата на критериумот Пирсон за ова ниво на значајност со број на степени на слобода еднакви се покажа дека е 5,99. Затоа, хипотезата за кореспонденцијата на експерименталните податоци со теоретските податоци може да се прифати, бидејќи, .

Забележете дека при пресметувањето на тестот хи-квадрат, ние повеќе не поставуваме услови за неопходна нормалност на распределбата. Тестот хи-квадрат може да се користи за какви било распределби што можеме слободно да ги избереме во нашите претпоставки. Постои одредена универзалност на овој критериум.

Друга примена на Пирсоновиот тест е да се спореди емпириската дистрибуција со Гаусовата нормална дистрибуција. Освен тоа, може да се класифицира како група критериуми за проверка на нормалноста на дистрибуцијата. Единственото ограничување е фактот дека вкупниот број на вредности (опции) при користење на овој критериум мора да биде доволно голем (најмалку 40), а бројот на вредности во одделни класи (интервали) мора да биде најмалку 5. Во спротивно, треба да се комбинираат соседните интервали. Бројот на степени на слобода при проверка на нормалноста на распределбата треба да се пресмета како:.

    1. Фишер критериум.

Овој параметарски тест се користи за тестирање на нултата хипотеза дека варијансите на нормално распределените популации се еднакви.

Или.

Со мали големини на примероци, употребата на студентскиот тест може да биде точна само ако варијансите се еднакви. Затоа, пред да се тестира еднаквоста на средствата на примерокот, неопходно е да се обезбеди валидност на користењето на Студент т тестот.

Каде Н 1 , Н 2 големини на примероци, 1 , 2 број на степени на слобода за овие примероци.

Кога користите табели, треба да обрнете внимание дека бројот на степени на слобода за примерок со поголема дисперзија е избран како број на колона на табелата, а за помала дисперзија како број на редот на табелата.

За нивото на значајност , ја наоѓаме вредноста на табелата од табелите за математичка статистика. Ако, тогаш хипотезата за еднаквост на варијансите се отфрли за избраното ниво на значајност.

Пример.Проучен е ефектот на кобалтот врз телесната тежина на зајаците. Експериментот беше спроведен на две групи животни: експериментални и контролни. Експерименталните субјекти добија додаток во исхраната во форма на воден раствор на кобалт хлорид. За време на експериментот, зголемувањето на телесната тежина беше во грамови:

Контрола

Министерство за образование и наука на Руската Федерација

Федерална агенција за образование на градот Иркутск

Бајкалскиот државен универзитет за економија и право

Катедра за информатика и кибернетика

Дистрибуција на хи-квадрат и нејзините апликации

Колмикова Ана Андреевна

студент од 2-ра година

група IS-09-1

Иркутск 2010 година

Вовед

1. Дистрибуција на хи-квадрат

Апликација

Заклучок

Библиографија

Вовед

Како се користат приодите, идеите и резултатите од теоријата на веројатност во нашите животи?

Основата е веројатност модел на реален феномен или процес, т.е. математички модел во кој објективните односи се изразуваат во однос на теоријата на веројатност. Веројатностите се користат првенствено за да се опишат несигурностите што мора да се земат предвид при донесување одлуки. Ова се однесува и на непожелните можности (ризици) и на привлечните („среќна шанса“). Понекогаш случајноста е намерно воведена во ситуација, на пример, при ждрепка, случаен избор на единици за контрола, спроведување лотарии или спроведување анкети на потрошувачи.

Теоријата на веројатност дозволува една веројатност да се користи за да се пресметаат други од интерес за истражувачот.

Веројатниот модел на феномен или процес е основата на математичката статистика. Користени се две паралелни серии на концепти - оние поврзани со теоријата (веројатен модел) и оние поврзани со практиката (примерок од резултатите од набљудувањето). На пример, теоретската веројатност одговара на фреквенцијата пронајдена од примерокот. Математичкото очекување (теоретска серија) одговара на примерокот аритметичка средина (практична серија). Како по правило, карактеристиките на примерокот се проценки на теоретските. Во исто време, количините поврзани со теоретската серија „се наоѓаат во главите на истражувачите“, се однесуваат на светот на идеите (според античкиот грчки филозоф Платон) и не се достапни за директно мерење. Истражувачите имаат само примерок податоци со кои се обидуваат да ги утврдат својствата на теоретски веројатностичен модел што ги интересира.

Зошто ни е потребен веројатен модел? Факт е дека само со негова помош можат да се пренесат својствата утврдени од анализата на конкретен примерок на други примероци, како и на целата таканаречена општа популација. Терминот „популација“ се користи кога се однесува на голема, но конечна збирка на единици што се проучуваат. На пример, за севкупноста на сите жители на Русија или севкупноста на сите потрошувачи на инстант кафе во Москва. Целта на маркетинг или социолошки истражувања е да се пренесат изјавите добиени од примерок од стотици или илјадници луѓе на популации од неколку милиони луѓе. Во контролата на квалитетот, серија производи делува како општа популација.

За да се пренесат заклучоците од примерок на поголема популација потребни се некои претпоставки за поврзаноста на карактеристиките на примерокот со карактеристиките на оваа поголема популација. Овие претпоставки се засноваат на соодветен веројатноствен модел.

Се разбира, можно е да се обработат податоци од примероци без користење на еден или друг веројатен модел. На пример, можете да пресметате примерок за аритметичка средина, да ја броите фреквенцијата на исполнување на одредени услови итн. Сепак, резултатите од пресметката ќе се однесуваат само на одреден примерок; пренесувањето на заклучоците добиени со нивна помош на која било друга популација е неточно. Оваа активност понекогаш се нарекува „анализа на податоци“. Во споредба со веројатностичко-статистички методи, анализата на податоците има ограничена образовна вредност.

Значи, употребата на веројатносни модели засновани на проценка и тестирање на хипотези со користење на карактеристики на примерокот е суштината на веројатностатистичките методи на одлучување.

Дистрибуција на хи-квадрат

Користејќи ја нормалната дистрибуција, дефинирани се три дистрибуции кои сега често се користат во статистичка обработка на податоци. Тоа се дистрибуциите на Пирсон („хи-квадрат“), Студент и Фишер.

Ќе се фокусираме на дистрибуцијата

(„чи – квадрат“). Оваа дистрибуција првпат ја проучувал астрономот Ф. Хелмерт во 1876 година. Во врска со Гаусовата теорија на грешки, тој ги проучувал збировите на квадрати од n независни стандардно нормално распределени случајни променливи. Карл Пирсон подоцна ја нарече оваа дистрибутивна функција „хи-квадрат“. И сега дистрибуцијата го носи неговото име.

Поради својата тесна поврзаност со нормалната распределба, распределбата χ2 игра важна улога во теоријата на веројатност и математичката статистика. Дистрибуцијата χ2, и многу други дистрибуции што се дефинирани со распределбата χ2 (на пример, Студентската распределба), ги опишуваат распределбите на примероците на различни функции од нормално распределените резултати од набљудувањето и се користат за конструирање интервали на доверба и статистички тестови.

Дистрибуција на Пирсон

(chi - квадрат) – распределба на случајна променлива, каде што X1, X2,..., Xn се нормални независни случајни променливи, а математичкото очекување на секоја од нив е нула, а стандардното отстапување е еден.

Збир на квадрати


распределени според закон

(„чи – квадрат“).

Во овој случај, бројот на термини, т.е. n се нарекува „број на степени на слобода“ на дистрибуцијата на хи-квадрат.Како што се зголемува бројот на степени на слобода, дистрибуцијата полека се приближува до нормалата.

Густината на оваа дистрибуција


Значи, распределбата на χ2 зависи од еден параметар n – бројот на степени на слобода.

Функцијата за распределба χ2 ја има формата:


ако χ2≥0. (2.7.)

Слика 1 покажува график на густината на веројатноста и функцијата на распределба χ2 за различни степени на слобода.

Слика 1Зависност на густината на веројатноста φ (x) во распределбата χ2 (chi – квадрат) за различни броеви на степени на слобода.

Моменти на дистрибуција на хи-квадрат:

Дистрибуцијата хи-квадрат се користи за проценка на варијансата (со користење на интервал на доверба), тестирање на хипотези за согласност, хомогеност, независност, првенствено за квалитативни (категоризирани) променливи кои земаат конечен број вредности и во многу други задачи на статистичка анализа на податоци .

2. „Хи-квадрат“ во проблеми на статистичка анализа на податоци

Статистичките методи за анализа на податоците се користат во речиси сите области на човековата активност. Тие се користат секогаш кога е неопходно да се добијат и оправдаат какви било судови за група (предмети или субјекти) со одредена внатрешна хетерогеност.

Современата фаза на развој на статистичките методи може да се смета од 1900 година, кога Англичанецот К. Пирсон го основал списанието „Биометрика“. Првата третина од дваесеттиот век. помина под знакот на параметарска статистика. Методите беа проучувани врз основа на анализа на податоци од параметарски семејства на распределби опишани со кривите на семејството Пирсон. Најпопуларна беше нормалната дистрибуција. За тестирање на хипотезите беа користени Пирсон, Студент и Фишер тестови. Беа предложени методот на максимална веројатност и анализа на варијансата и беа формулирани основните идеи за планирање на експериментот.

Дистрибуцијата хи-квадрат е една од најкористените во статистиката за тестирање на статистичките хипотези. Врз основа на дистрибуцијата на хи-квадрат, конструиран е еден од најмоќните тестови за доброто на вклопувањето - Пирсоновиот хи-квадрат тест.

Критериумот на согласност е критериумот за тестирање на хипотезата за претпоставениот закон на непозната распределба.

Тестот χ2 (хи-квадрат) се користи за тестирање на хипотезата за различни распределби. Ова е неговото достоинство.

Формулата за пресметка на критериумот е еднаква на

каде што m и m’ се емпириски и теоретски фреквенции, соодветно

дистрибуцијата за која станува збор;

n е бројот на степени на слобода.

За да провериме, треба да ги споредиме емпириските (набљудувани) и теоретските (пресметани под претпоставка за нормална дистрибуција) фреквенции.

Ако емпириските фреквенции целосно се совпаѓаат со пресметаните или очекуваните фреквенции, S (E – T) = 0 и х2 критериумот исто така ќе биде еднаков на нула. Ако S (E – T) не е еднакво на нула, тоа ќе укаже на несовпаѓање помеѓу пресметаните фреквенции и емпириските фреквенции од серијата. Во такви случаи, неопходно е да се оцени значајноста на критериумот χ2, кој теоретски може да варира од нула до бесконечност. Ова се прави со споредување на реално добиената вредност на χ2ф со неговата критична вредност (χ2st).Нултата хипотеза, односно претпоставката дека несовпаѓањето помеѓу емпириската и теоретската или очекуваните фреквенции е случајна, се побива ако χ2ф е поголема или еднаква на χ2-та за прифатеното ниво на значајност (а) и бројот на степени на слобода (n).

Хи-квадрат тестот е универзален метод за проверка на усогласеноста помеѓу резултатите од експериментот и користениот статистички модел.

Пирсон растојание X 2

Пјатницки А.М.

Руски државен медицински универзитет

Во 1900 година, Карл Пирсон предложи едноставен, универзален и ефикасен начин за тестирање на согласноста помеѓу предвидувањата на моделите и експерименталните податоци. „Хи-квадрат тест“ што тој го предложи е најважниот и најчесто користен статистички тест. Повеќето проблеми поврзани со проценка на непознати параметри на моделот и проверка на усогласеноста помеѓу моделот и експерименталните податоци може да се решат со негова помош.

Нека има априори („предекспериментален“) модел на предметот или процесот што се изучува (во статистиката тие зборуваат за „нултата хипотеза“ H 0) и резултатите од експериментот со овој објект. Неопходно е да се одлучи дали моделот е соодветен (дали одговара на реалноста)? Дали експерименталните резултати се во спротивност со нашите идеи за тоа како функционира реалноста, или со други зборови, треба да се одбие H0? Често оваа задача може да се сведе на споредување на набљудуваните (O i = Набљудувано) и очекувани според моделот (E i = Очекувани) просечни фреквенции на појава на одредени настани. Се верува дека набљудуваните фреквенции се добиени во серија N независни (!) набљудувања направени под постојани (!) услови. Како резултат на секое набљудување, еден од M настани е снимен. Овие настани не можат да се случат истовремено (тие се некомпатибилни во парови) и нужно се случува еден од нив (нивната комбинација формира сигурен настан). Севкупноста на сите набљудувања е сведена на табела (вектор) на фреквенции (O i )=(O 1 ,… O M ), која целосно ги опишува резултатите од експериментот. Вредноста O 2 =4 значи дека настанот број 2 се случил 4 пати. Збир на фреквенции O 1 +… O M =N. Важно е да се направи разлика помеѓу два случаи: N – фиксна, неслучајна, N – случајна променлива. За фиксен вкупен број на експерименти N, фреквенциите имаат полиномна распределба. Дозволете ни да ја илустрираме оваа општа шема со едноставен пример.

Користење на хи-квадрат тест за тестирање едноставни хипотези.

Нека моделот (нулта хипотеза H 0) е дека матрицата е праведна - сите лица се појавуваат подеднакво често со веројатност p i =1/6, i =, M=6. Беше спроведен експеримент во кој матрицата беше фрлена 60 пати (Н = 60 независни испитувања беа спроведени). Според моделот, очекуваме дека сите набљудувани фреквенции O i со појава 1,2,... 6 точки треба да бидат блиску до нивните просечни вредности · E i =Np i =60∙(1/6)=10. Според H 0, векторот на просечните фреквенции (E i )=(Np i )=(10, 10, 10, 10, 10, 10). (Хипотезите во кои просечните фреквенции се целосно познати пред почетокот на експериментот се нарекуваат едноставни.) Ако набљудуваниот вектор (O i ) бил еднаков на (34,0,0,0,0,0,26), тогаш тоа е веднаш јасно е дека моделот е неточен - коската не може да биде точна, бидејќи само 1 и 6 се вртеле 60 пати. Веројатноста за таков настан за правилна коцка е занемарлива: P = (2/6) 60 =2,4*10 -29. Сепак, појавата на такви очигледни несогласувања помеѓу моделот и искуството е исклучок. Нека векторот на набљудуваните фреквенции (O i) е еднаков на (5, 15, 6, 14, 4, 16). Дали ова е во согласност со H0? Значи, треба да споредиме два вектори на фреквенција (E i) и (O i). Во овој случај, векторот на очекуваните фреквенции (Ei) не е случаен, но векторот на набљудуваните фреквенции (Oi) е случаен - за време на следниот експеримент (во нова серија од 60 фрлања) ќе испадне дека е различен. Корисно е да се воведе геометриска интерпретација на проблемот и да се претпостави дека во фреквентниот простор (во овој случај 6-димензионален) се дадени две точки со координати (5, 15, 6, 14, 4, 16) и (10, 10, 10, 10, 10, 10). Дали се доволно оддалечени за да се смета дека ова е некомпатибилно со H 0? Со други зборови, ни треба:

  1. научи да ги мери растојанијата помеѓу фреквенциите (точки во фреквентниот простор),
  2. имаат критериум за тоа кое растојание треба да се смета за премногу („неверојатно“) големо, односно неконзистентно со H 0 .

Квадратот на обичното Евклидско растојание би бил еднаков на:

X 2 Евклид = С(O i -E i) 2 = (5-10) 2 +(15-10) 2 + (6-10) 2 +(14-10) 2 +(4-10) 2 +(16-10) 2

Во овој случај, површините X 2 Euclid = const се секогаш сфери ако ги поправиме вредностите на E i и го промениме O i. Карл Пирсон забележа дека употребата на Евклидово растојание во фреквенцискиот простор не треба да се користи. Така, не е точно да се претпостави дека точките (O = 1030 и E = 1000) и (O = 40 и E = 10) се на еднакви растојанија една од друга, иако во двата случаи разликата е O -E = 30. На крајот на краиштата, колку е поголема очекуваната фреквенција, толку поголеми отстапувања од неа треба да се сметаат за можни. Затоа, точките (O =1030 и E =1000) треба да се сметаат за „блиски“, а точките (O =40 и E =10) „далеку“ една од друга. Може да се покаже дека ако хипотезата H 0 е точна, тогаш флуктуациите на фреквенцијата O i во однос на E i се од редот на квадратниот корен(!) од E i. Затоа, Пирсон предложи, при пресметувањето на растојанието, да се квадратат не разликите (O i -E i), туку нормализираните разлики (O i -E i)/E i 1/2. Значи, еве ја формулата за пресметување на растојанието на Пирсон (тоа е всушност квадратот на растојанието):

X 2 Пирсон = С((O i -E i )/E i 1/2) 2 = С(O i -E i ) 2 /E i

Во нашиот пример:

X 2 Пирсон = (5-10) 2 /10+(15-10) 2 /10 +(6-10) 2 /10+(14-10) 2 /10+(4-10) 2 /10+( 16-10) 2 /10=15.4

За обична матрица, сите очекувани фреквенции E i се исти, но обично тие се различни, така што површините на кои растојанието на Пирсон е константно (X 2 Pearson =const) излегуваат дека се елипсоиди, а не сфери.

Сега кога е избрана формулата за пресметување на растојанијата, потребно е да се открие кои растојанија треба да се сметаат за „не премногу големи“ (во согласност со H 0). Така, на пример, што можеме да кажеме за растојанието што го пресметавме 15,4 ? Во колкав процент од случаите (или со колкава веројатност) би добиле растојание поголемо од 15,4 при спроведување на експерименти со обична матрица? Ако овој процент е мал (<0.05), то H 0 надо отвергнуть. Иными словами требуется найти распределение длярасстояния Пирсона. Если все ожидаемые частоты E i не слишком малы (≥5), и верна H 0 , то нормированные разности (O i - E i )/E i 1/2 приближенно эквивалентны стандартным гауссовским случайным величинам: (O i - E i )/E i 1/2 ≈N (0,1). Это, например, означает, что в 95% случаев| (O i - E i )/E i 1/2 | < 1.96 ≈ 2 (правило “двух сигм”).

Објаснување. Бројот на мерења O i што паѓа во табеларната ќелија со број i има биномна распределба со параметрите: m =Np i =E i,σ =(Np i (1-p i)) 1/2, каде N е бројот на мерења (N » 1), p i е веројатноста едно мерење да падне во дадена ќелија (се потсетиме дека мерењата се независни и се вршат под постојани услови). Ако p i е мал, тогаш: σ≈(Np i ) 1/2 =E i и биномната распределба е блиска до Поасон, во која просечниот број на набљудувања E i =λ, а стандардната девијација σ=λ 1/2 = Е и 1/2. За λ≥5, Поасоновата дистрибуција е блиску до нормалната N (m =E i =λ, σ=E i 1/2 =λ 1/2), а нормализираната вредност (O i - E i )/E i 1 /2 ≈ N (0,1).

Пирсон ја дефинираше случајната променлива χ 2 n – „хи-квадрат со n степени на слобода“, како збир од квадратите од n независни стандардни нормални случајни променливи:

χ 2 n = T 1 2 + T 2 2 + …+ T n 2 ,каде се сите T i = N(0,1) - n. О. Р. Со. В.

Ајде да се обидеме јасно да го разбереме значењето на оваа најважна случајна променлива во статистиката. За да го направите ова, на рамнината (со n = 2) или во просторот (со n = 3) претставуваме облак од точки чии координати се независни и имаат стандардна нормална дистрибуцијаf T (x) ~exp (-x 2 /2 ). На рамнина, според правилото „два сигма“, кое независно се применува на двете координати, 90% (0,95*0,95≈0,90) од точките се содржани во квадрат (-2

f χ 2 2 (a) = Сexp(-a/2) = 0,5exp(-a/2).

Со доволно голем број степени на слобода n (n > 30), дистрибуцијата на хи-квадрат се приближува до нормалата: N (m = n; σ = (2n) ½). Ова е последица на „теоремата на централната граница“: збирот на идентично распределени величини со конечна варијанса се приближува до нормалниот закон како што се зголемува бројот на членовите.

Во пракса, треба да запомните дека просечниот квадрат на растојанието е еднаков на m (χ 2 n) = n, а неговата варијанса е σ 2 (χ 2 n) = 2n. Од тука е лесно да се заклучи кои вредности на хи-квадрат треба да се сметаат за премали и преголеми: најголемиот дел од дистрибуцијата лежи во опсегот од n -2∙(2n) ½ до n +2∙(2n) ½.

Значи, растојанијата на Пирсон кои значително надминуваат n +2∙ (2n) ½ треба да се сметаат за неверојатно големи (неконзистентни со H 0). Ако резултатот е блиску до n +2∙(2n) ½, тогаш треба да користите табели во кои можете да дознаете точно во кој дел од случаите може да се појават такви и големи вредности на хи-квадрат.

Важно е да знаете како да ја изберете вистинската вредност за бројот на степени на слобода (скратено n.d.f.). Се чинеше природно да се претпостави дека n е едноставно еднаков на бројот на цифри: n =M. Во својата статија, Пирсон предложи исто толку. Во примерот со коцки, ова би значело дека n =6. Сепак, неколку години подоцна се покажа дека Пирсон згрешил. Бројот на степени на слобода е секогаш помал од бројот на цифри ако има врски помеѓу случајните променливи O i. За примерот со коцки, збирот O i е 60, а само 5 фреквенции можат да се променат независно, така што точната вредност е n = 6-1 = 5. За оваа вредност на n добиваме n +2∙(2n) ½ =5+2∙(10) ½ =11,3. Бидејќи 15.4>11.3, тогаш хипотезата H 0 - матрицата е точна, треба да се отфрли.

По разјаснувањето на грешката, требаше да се дополнат постоечките χ 2 табели, бидејќи првично го немаа случајот n = 1, бидејќи најмал број цифри = 2. Сега излегува дека може да има случаи кога Пирсоновото растојание има дистрибуција χ 2 n =1.

Пример. Со 100 фрлања парички, бројот на глави е O 1 = 65, а опашките O 2 = 35. Бројот на цифри е M = 2. Ако монетата е симетрична, тогаш очекуваните фреквенции се E 1 =50, E 2 =50.

X 2 Пирсон = С(O i -E i) 2 /E i = (65-50) 2 /50 + (35-50) 2 /50 = 2*225/50 = 9.

Добиената вредност треба да се спореди со оние што може да ги земе случајната променлива χ 2 n =1, дефинирана како квадрат од стандардната нормална вредност χ 2 n =1 =T 1 2 ≥ 9 ó T 1 ≥3 или T 1 ≤-3. Веројатноста за таков настан е многу мала P (χ 2 n =1 ≥9) = 0,006. Затоа, монетата не може да се смета за симетрична: H 0 треба да се отфрли. Фактот дека бројот на степени на слобода не може да биде еднаков на бројот на цифри е очигледно од фактот дека збирот на набљудуваните фреквенции е секогаш еднаков на збирот на очекуваните, на пример O 1 +O 2 =65+ 35 = Е 1 + Е 2 =50+50=100. Според тоа, случајните точки со координати O 1 и O 2 се наоѓаат на права линија: O 1 +O 2 =E 1 +E 2 =100 и растојанието до центарот излегува дека е помало отколку ако ова ограничување не постоело и биле лоцирани на целиот авион. Навистина, за две независни случајни променливи со математички очекувања E 1 =50, E 2 =50, збирот на нивните реализација не треба секогаш да биде еднаков на 100 - на пример, вредностите O 1 =60, O 2 =55 би биде прифатливо.

Објаснување. Да го споредиме резултатот од Пирсоновиот критериум на M = 2 со она што го дава формулата Moivre-Laplace кога се проценуваат случајни флуктуации во фреквенцијата на појавување на настан ν =K /N со веројатност p во серија N независни Бернули тестови ( К е бројот на успеси):

χ 2 n =1 = С(O i -E i) 2 /E i = (O 1 -E 1) 2 /E 1 + (O 2 -E 2) 2 /E 2 = (Nν -Np) 2 /(Np) + (N ( 1-ν )-N (1-p )) 2 /(N (1-p ))=

=(Nν-Np) 2 (1/p + 1/(1-p))/N=(Nν-Np) 2 /(Np(1-p))=((K-Np)/(Npq) ½ ) 2 = Т 2

Вредност T =(K -Np)/(Npq) ½ = (K -m (K))/σ(K) ≈N (0.1) со σ(K)=(Npq) ½ ≥3. Гледаме дека во овој случај Пирсоновиот резултат точно се совпаѓа со она што го дава нормалната апроксимација за биномната распределба.

Досега разгледавме едноставни хипотези за кои очекуваните просечни фреквенции E i се целосно однапред познати. За информации за тоа како да се избере точниот број на степени на слобода за сложени хипотези, видете подолу.

Користење на хи-квадрат тест за тестирање на сложени хипотези

Во примерите со обична матрица и монета, очекуваните фреквенции би можеле да се одредат пред(!) експериментот. Ваквите хипотези се нарекуваат „едноставни“. Во пракса, „комплексните хипотези“ се почести. Покрај тоа, за да се најдат очекуваните фреквенции E i, потребно е прво да се процени една или неколку количини (параметри на моделот), а тоа може да се направи само со помош на експериментални податоци. Како резултат на тоа, за „комплексни хипотези“ очекуваните фреквенции E i зависат од набљудуваните фреквенции O i и затоа самите стануваат случајни променливи, кои се разликуваат во зависност од резултатите од експериментот. Во процесот на избор на параметри, растојанието на Пирсон се намалува - параметрите се избираат така што ќе се подобри усогласеноста помеѓу моделот и експериментот. Затоа, бројот на степени на слобода треба да се намали.

Како да се проценат параметрите на моделот? Постојат многу различни методи за проценка - „метод на максимална веројатност“, „метод на моменти“, „метод на замена“. Сепак, не можете да користите дополнителни средства и да најдете проценки на параметрите со минимизирање на растојанието на Пирсон. Во пред-компјутерската ера, овој пристап ретко се користеше: тој е незгоден за рачни пресметки и, по правило, не може да се реши аналитички. При пресметување на компјутер, нумеричкото минимизирање обично е лесно да се изврши, а предноста на овој метод е неговата разновидност. Значи, според „методот на минимизирање на хи-квадрат“, ги избираме вредностите на непознатите параметри така што растојанието Пирсон станува најмало. (Патем, со проучување на промените на ова растојание со мали поместувања во однос на пронајдениот минимум, можете да ја процените мерката за точност на проценката: конструирајте интервали на доверба.) Откако ќе се најдат параметрите и самото ова минимално растојание, повторно неопходно да се одговори на прашањето дали е доволно мал.

Општиот редослед на дејства е како што следува:

  1. Избор на модел (хипотеза H 0).
  2. Избор на цифри и определување на векторот на набљудуваните фреквенции O i.
  3. Проценка на непознати параметри на моделот и изградба на интервали на доверба за нив (на пример, со пребарување на минималното Pearson растојание).
  4. Пресметка на очекувани фреквенции E i .
  5. Споредба на пронајдената вредност на Pearson растојанието X 2 со критичната вредност на chi-square χ 2 crit - најголемата, која сè уште се смета за веродостојна, компатибилна со H 0. Вредноста χ 2 crit ја наоѓаме од табелите со решавање на равенката

P (χ 2 n > χ 2 крит) = 1-α,

каде α е „ниво на значајност“ или „големина на критериумот“ или „големина на грешка од првиот тип“ (типична вредност α = 0,05).

Обично бројот на степени на слобода n се пресметува со помош на формулата

n = (број на цифри) – 1 – (број на параметри што треба да се проценат)

Ако X 2 > χ 2 крит, тогаш хипотезата H 0 се отфрла, во спротивно се прифаќа. Во α∙100% од случаите (односно, доста ретко), овој метод на проверка на H 0 ќе доведе до „грешка од првиот вид“: хипотезата H 0 ќе биде погрешно отфрлена.

Пример.При проучување на 10 серии од 100 семиња, бил изброен бројот на зеленооки заразени со мушичка. Примени податоци: O i =(16, 18, 11, 18, 21, 10, 20, 18, 17, 21);

Овде векторот на очекуваните фреквенции е однапред непознат. Ако податоците се хомогени и добиени за биномна дистрибуција, тогаш еден параметар е непознат: пропорцијата p на заразените семиња. Забележете дека во оригиналната табела всушност нема 10 туку 20 фреквенции кои задоволуваат 10 врски: 16+84=100, ... 21+79=100.

X 2 = (16-100p) 2 /100p +(84-100(1-p)) 2 /(100(1-p))+…+

(21-100p) 2 /100p +(79-100(1-p)) 2 /(100(1-p))

Комбинирајќи ги термините во парови (како во примерот со паричка), ја добиваме формата на пишување на критериумот Пирсон, кој обично се пишува веднаш:

X 2 = (16-100p) 2 /(100p(1-p))+…+ (21-100p) 2 /(100p(1-p)).

Сега, ако минималното Pearson растојание се користи како метод за проценка на p, тогаш потребно е да се најде p за кое X 2 =min. (Моделот се обидува, ако е можно, да се „прилагоди“ на експерименталните податоци.)

Пирсоновиот критериум е најуниверзален од сите употребени во статистиката. Може да се примени на униваријантни и мултиваријантни податоци, квантитативни и квалитативни карактеристики. Сепак, токму поради неговата сестраност, треба да се внимава да не се греши.

Важни точки

1.Избор на категории.

  • Ако распределбата е дискретна, тогаш обично нема произволност во изборот на цифри.
  • Ако дистрибуцијата е континуирана, тогаш самоволието е неизбежно. Може да се користат статистички еквивалентни блокови (сите О се исти, на пример =10). Сепак, должините на интервалите се различни. Кога правеле рачни пресметки, тие се обидувале интервалите да бидат исти. Дали интервалите при проучување на распределбата на униваријантна карактеристика треба да бидат еднакви? бр.
  • Цифрите мора да се комбинираат така што очекуваните (и не набљудувани!) фреквенции да не бидат премногу мали (≥5). Да потсетиме дека токму тие (E i) се во именителот при пресметувањето на X 2! При анализа на еднодимензионални карактеристики, дозволено е да се прекрши ова правило во двете екстремни цифри E 1 =E max =1. Ако бројот на цифри е голем и очекуваните фреквенции се блиски, тогаш X 2 е добра апроксимација на χ 2 дури и за E i =2.

Проценка на параметри. Употребата на „домашни“, неефикасни методи за проценка може да доведе до надуени вредности на растојанието на Пирсон.

Избор на вистинскиот број на степени на слобода. Ако проценките на параметрите се прават не од фреквенции, туку директно од податоците (на пример, аритметичката средина се зема како проценка на средната вредност), тогаш точниот број на степени на слобода n е непознат. Знаеме само дека ја задоволува нееднаквоста:

(број на цифри – 1 – број на параметри кои се оценуваат)< n < (число разрядов – 1)

Затоа, неопходно е да се споредат X 2 со критичните вредности на χ 2 crit пресметани низ овој опсег од n.

Како да се интерпретираат неверојатно мали хи-квадратни вредности?Дали монетата треба да се смета за симетрична ако по 10.000 фрлања, 5.000 пати слета на грбот? Претходно, многу статистичари веруваа дека и H 0 треба да се отфрли. Сега се предлага друг пристап: да се прифати H 0, но податоците и методологијата за нивна анализа да се подложат на дополнителна проверка. Постојат две можности: или премалото Pearson растојание значи дека зголемувањето на бројот на параметрите на моделот не било придружено со соодветно намалување на бројот на степени на слобода, или самите податоци биле фалсификувани (можеби ненамерно приспособени на очекуваниот резултат).

Пример.Двајца истражувачи А и Б го пресметале процентот на рецесивни хомозиготи аа во втората генерација на монохибриден крст АА * аа. Според законите на Мендел, оваа дропка е 0,25. Секој истражувач спроведе 5 експерименти, а во секој експеримент беа проучувани 100 организми.

Резултати А: 25, 24, 26, 25, 24. Заклучок на истражувачот: Законот на Мендел е вистинит(?).

Резултати Б: 29, 21, 23, 30, 19. Заклучок на истражувачот: Законот на Мендел не е праведен(?).

Сепак, законот на Мендел е од статистичка природа, а квантитативната анализа на резултатите ги менува заклучоците! Комбинирајќи пет експерименти во еден, доаѓаме до дистрибуција на хи-квадрат со 5 степени на слобода (се тестира едноставна хипотеза):

X 2 A = ((25-25) 2 +(24-25) 2 +(26-25) 2 +(25-25) 2 +(24-25) 2)/(100∙0,25∙0,75)=0,16

X 2 B = ((29-25) 2 +(21-25) 2 +(23-25) 2 +(30-25) 2 +(19-25) 2)/(100∙0,25∙0,75)=5,17

Просечна вредност m [χ 2 n =5 ]=5, стандардна девијација σ[χ 2 n =5 ]=(2∙5) 1/2 =3,2.

Затоа, без повикување на табелите, јасно е дека вредноста на X 2 B е типична, а вредноста на X 2 A е неверојатно мала. Според табелите P (χ 2 n =5<0.16)<0.0001.

Овој пример е адаптација на вистински случај што се случил во 1930-тите (видете го делото на Колмогоров „За друг доказ за законите на Мендел“). Интересно, истражувачот А бил поборник на генетиката, додека истражувачот Б бил против тоа.

Конфузија во нотација.Неопходно е да се разликува Пирсоновото растојание, кое бара дополнителни конвенции во неговото пресметување, од математичкиот концепт на хи-квадрат случајна променлива. Пирсоновото растојание под одредени услови има распределба блиску до хи-квадрат со n степени на слобода. Затоа, препорачливо е да НЕ се означува растојанието на Пирсон со симболот χ 2 n, туку да се користи слична но различна ознака X 2. .

Пирсоновиот критериум не е семоќен.Има бесконечен број на алтернативи за H 0 кои тој не може да ги земе предвид. Да претпоставиме дека ја тестирате хипотезата дека карактеристиката има униформа дистрибуција, имате 10 цифри и векторот на набљудуваните фреквенции е еднаков на (130,125,121,118,116,115,114,113,111,110). Пирсоновиот критериум не може да „забележи“ дека фреквенциите монотоно се намалуваат и H 0 нема да се отфрли. Ако беше дополнет со критериум за серија, тогаш да!

Во оваа статија ќе зборуваме за проучување на зависноста помеѓу знаците, или како што сакате - случајни вредности, променливи. Конкретно, ќе погледнеме како да воведеме мерка за зависност помеѓу карактеристиките користејќи го тестот Хи-квадрат и да го споредиме со коефициентот на корелација.

Зошто може да биде потребно ова? На пример, со цел да се разбере кои карактеристики се повеќе зависни од целната променлива кога се конструира кредитно бодување - одредување на веројатноста за неисполнување на обврските на клиентот. Или, како и во мојот случај, разберете кои индикатори треба да се користат за програмирање на робот за тргување.

Одделно, би сакал да забележам дека го користам јазикот C # за анализа на податоци. Можеби сето ова е веќе имплементирано во R или Python, но користењето на C# за мене ми овозможува детално да ја разберам темата, згора на тоа, тоа е мојот омилен програмски јазик.

Да почнеме со многу едноставен пример, креирајте четири колони во Excel користејќи генератор на случаен број:
X=RANDBETWEEN (-100.100)
Y =X*10+20
З =X*X
Т=RANDBETWEEN (-100.100)

Како што можете да видите, променливата Yлинеарно зависни од X; променлива Зквадратно зависни од X; променливи XИ Тнезависна. Овој избор го направив намерно, бидејќи ќе ја споредиме нашата мерка на зависност со коефициентот на корелација. Како што е познато, помеѓу две случајни променливи е еднаков модуло 1 ако „најтешкиот“ тип на зависност меѓу нив е линеарен. Постои нулта корелација помеѓу две независни случајни променливи, но еднаквоста на коефициентот на корелација на нула не подразбира независност. Следно ќе го видиме ова користејќи го примерот на променливи XИ З.

Зачувајте ја датотеката како data.csv и започнете со првите проценки. Прво, да го пресметаме коефициентот на корелација помеѓу вредностите. Јас не го вметнав кодот во статијата, тој е на мојот github. Ја добиваме корелацијата за сите можни парови:

Може да се види дека линеарно зависни XИ Yкоефициентот на корелација е 1. Но XИ Зтоа е еднакво на 0,01, иако ние ја поставивме зависноста експлицитно З=X*X. Јасно е дека ни треба мерка што подобро ја „чувствува“ зависноста. Но, пред да преминеме на тестот Хи-квадрат, да погледнеме што е матрица за непредвидени ситуации.

За да изградиме матрица за непредвидени ситуации, го делиме опсегот на променливи вредности во интервали (или категоризираме). Постојат многу начини да го направите ова, но не постои универзален начин. Некои од нив се поделени на интервали така што содржат ист број на променливи, други се поделени на интервали со еднаква должина. Јас лично сакам да ги комбинирам овие пристапи. Решив да го користам овој метод: го одземам резултатот на мат од променливата. очекувањата, а потоа поделете го резултатот со проценката на стандардното отстапување. Со други зборови, ја центрирам и нормализирам случајната променлива. Добиената вредност се множи со коефициент (во овој пример е 1), по што сè е заокружено до најблискиот цел број. Излезот е променлива од типот int, што е идентификатор на класата.

Значи, да ги земеме нашите знаци XИ З, ги категоризираме на начин опишан погоре, по што го пресметуваме бројот и веројатностите за појава на секоја класа и веројатноста за појава на парови карактеристики:

Ова е матрица по количина. Овде во линиите - бројот на појавувања на класите на променливите X, во колони - бројот на појавувања на класи на променливата З, во ќелиите - бројот на појавувања на парови класи истовремено. На пример, класата 0 се појавила 865 пати за променливата X, 823 пати за променлива Зи никогаш немало пар (0,0). Ајде да преминеме на веројатностите со делење на сите вредности со 3000 (вкупен број на набљудувања):

Добивме матрица за непредвидени состојби добиени по категоризацијата на карактеристиките. Сега е време да размислите за критериумот. По дефиниција, случајните променливи се независни ако сигма алгебрите генерирани од овие случајни променливи се независни. Независноста на сигма алгебрите подразбира парно независност на настаните од нив. Два настани се нарекуваат независни ако веројатноста за нивно заедничко појавување е еднаква на производот од веројатностите на овие настани: Пиј = Пи*Пј. Токму оваа формула ќе ја користиме за да го конструираме критериумот.

Нулта хипотеза: категоризирани знаци XИ Знезависна. Еквивалентно на тоа: распределбата на матрицата за непредвидени ситуации е одредена само со веројатноста за појава на класи на променливи (веројатности на редови и колони). Или ова: матричните ќелии се наоѓаат со производот на соодветните веројатности на редовите и колоните. Ќе ја користиме оваа формулација на нултата хипотеза за да го конструираме правилото за одлука: значајно несовпаѓање помеѓу ПијИ Пи*Пјќе биде основа за отфрлање на нултата хипотеза.

Нека е веројатноста класата 0 да се појави во променлива X. Нашиот вкупно nчасови во XИ мчасови во З. Излегува дека за да ја специфицираме дистрибуцијата на матрицата треба да ги знаеме овие nИ мверојатности. Но, всушност, ако знаеме n-1веројатност за X, тогаш последното се наоѓа со одземање на збирот на другите од 1. Така, за да ја најдеме распределбата на матрицата за непредвидени ситуации треба да знаеме l=(n-1)+(m-1)вредности. Или имаме л-димензионален параметарски простор, векторот од кој ни ја дава нашата посакувана дистрибуција. Статистиката Хи-квадрат ќе изгледа вака:

и, според Фишеровата теорема, имаат хи-квадрат дистрибуција со n*m-l-1=(n-1)(m-1)степени на слобода.

Да го поставиме нивото на значајност на 0,95 (или веројатноста за грешка од типот I е 0,05). Да ја најдеме квантилот на распределбата на Чи квадрат за дадено ниво на значајност и степени на слобода од примерот (n-1)(m-1)=4*3=12: 21.02606982. Самата Хи-квадрат статистика за променливите XИ Зизнесува 4088,006631. Јасно е дека хипотезата за независност не е прифатена. Удобно е да се разгледа односот на статистиката на хи-квадрат со вредноста на прагот - во овој случај тоа е еднакво на Chi2Coeff=194,4256186. Ако овој однос е помал од 1, тогаш се прифаќа хипотезата за независност, а ако е повеќе, тогаш не е. Ајде да го најдеме овој сооднос за сите пара карактеристики:

Еве Фактор 1И Фактор 2- имиња на функции
src_cnt1И src_cnt2- број на единствени вредности на почетните карактеристики
mod_cnt1И mod_cnt2- број на единствени вредности на карактеристики по категоризацијата
chi2- Хи-квадрат статистика
chi2max- праг на статистиката Хи-квадрат за ниво на значајност од 0,95
chi2Coeff- однос на статистиката на хи-квадрат со вредноста на прагот
кор- коефициент на корелација

Може да се види дека тие се независни (chi2coeff<1) получились следующие пары признаков - (X, Т), (Y, T) И ( З, Т), што е логично, бидејќи променливата Тсе генерира по случаен избор. Променливи XИ Ззависен, но помалку од линеарно зависен XИ Y, што е исто така логично.

Кодот на алатката што ги пресметува овие индикатори го објавив на github, каде што е и датотеката data.csv. Алатката зема csv-датотека како влез и ги пресметува зависностите помеѓу сите парови колони: PtProject.Dependency.exe data.csv

Употребата на овој критериум се заснова на употреба на таква мерка (статистички податоци) на несовпаѓање меѓу теоретските F(x)и емпириска дистрибуција F* n(x), што приближно го почитува законот за распределба χ 2 . Хипотеза H 0Конзистентноста на распределбите се проверува со анализа на дистрибуцијата на овие статистики. Примената на критериумот бара изградба на статистичка серија.

Значи, примерокот нека биде статистички претставен покрај бројот на цифри М. Набљудувана стапка на удари јас-ти ранг n i. Во согласност со законот за теоретска дистрибуција, очекуваната фреквенција на удари во јас-та категорија е F i. Разликата помеѓу набљудуваната и очекуваната фреквенција ќе биде ( n iF i). За да се најде севкупниот степен на несовпаѓање помеѓу F(x) И F* n (x) потребно е да се пресмета пондерираната сума на квадратни разлики кај сите цифри од статистичката серија

Вредност χ 2 со неограничено зголемување nима χ 2 дистрибуција (асимптотички распределена како χ 2). Оваа распределба зависи од бројот на степени на слобода к, т.е. бројот на независни вредности на поимите во изразот (3.7). Бројот на степени на слобода е еднаков на бројот yминус бројот на линеарни врски наметнати на примерокот. Една врска постои поради фактот што секоја фреквенција може да се пресмета од вкупниот број на фреквенции во останатите М- 1 цифра. Дополнително, ако параметрите за дистрибуција не се однапред познати, тогаш постои уште едно ограничување поради приспособување на дистрибуцијата на примерокот. Доколку примерокот определи Сдистрибутивни параметри, тогаш бројот на степени на слобода ќе биде k=M –S–1.

Подрачје за прифаќање хипотеза H 0се определува со условот χ 2 < χ 2 (к;а), каде што χ 2 (к;а)– критична точка на распределбата χ2 со ниво на значајност а. Веројатноста за грешка од типот I е а, веројатноста за грешка од типот II не може јасно да се дефинира, бидејќи има бескрајно голем број на различни начини на кои распределбите можеби не се совпаѓаат. Моќта на тестот зависи од бројот на цифри и големината на примерокот. Критериумот се препорачува да се применува кога n>200, употребата е дозволена кога n>40, токму под такви услови критериумот е валиден (по правило ја отфрла неточната нулта хипотеза).

Алгоритам за проверка по критериум

1. Конструирај хистограм користејќи метод на еднаква веројатност.

2. Врз основа на изгледот на хистограмот, поставете хипотеза

Х 0: ѓ(x) = ѓ 0(x),

Х 1: ѓ(x) ѓ 0(x),

Каде ѓ 0(x) - густина на веројатност на хипотетички закон за распределба (на пример, униформа, експоненцијална, нормална).

Коментар. Хипотезата за законот за експоненцијална распределба може да се постави ако сите броеви во примерокот се позитивни.


3. Пресметајте ја вредноста на критериумот користејќи ја формулата

,

каде е ударната фреквенција јас-ти интервал;

пи- теоретска веројатност за паѓање на случајна променлива јас- ти интервал под услов хипотезата Х 0 точно.

Формули за пресметка пиво случај на експоненцијални, униформни и нормални закони, тие се соодветно еднакви.

експоненцијален закон

. (3.8)

При што А 1 = 0, Bm= +.

Униформен закон

Нормален закон

. (3.10)

При што А 1 = -, B M = +.

Белешки. По пресметувањето на сите веројатности пипроверете дали референтната релација е задоволена

Функција Ф( X) - чудно. Ф(+) = 1.

4. Од табелата „Хи-квадрат“ во Додатокот, се избира вредноста, каде што е одреденото ниво на значајност (= 0,05 или = 0,01), и к- бројот на степени на слобода, определен со формулата

к= М- 1 - С.

Еве С- бројот на параметри од кои зависи избраната хипотеза Х 0закон за распределба. Вредности Сза униформниот закон е 2, за експоненцијалниот закон е 1, за нормалниот закон е 2.

5. Ако , тогаш хипотеза Х 0 отстапува. Во спротивно, нема причина да се одбие: со веројатност 1 е точно, а со веројатност е неточно, но вредноста е непозната.

Пример 3 . 1. Користејќи го критериумот 2, поставете и тестирајте хипотеза за законот за распределба на случајна променлива X, чии серии на варијации, табели со интервали и хистограми на дистрибуција се дадени во примерот 1.2. Нивото на значајност е 0,05.

Решение . Врз основа на изгледот на хистограмите, ја поставивме хипотезата дека случајната променлива Xдистрибуирани според нормалниот закон:

Х 0: ѓ(x) = Н(м,);

Х 1: ѓ(x) Н(м,).

Вредноста на критериумот се пресметува со формулата.