Критичната стойност на теста хи квадрат. Условия и ограничения за използване на хи-квадрат теста на Pearson

Количественото изследване на биологичните явления задължително изисква създаването на хипотези, с които да се обяснят тези явления. За да се тества конкретна хипотеза, се провеждат серия от специални експерименти и получените действителни данни се сравняват с теоретично очакваните според тази хипотеза. Ако има съвпадение, това може да е достатъчно основание да се приеме хипотезата. Ако експерименталните данни не съвпадат добре с теоретично очакваните, възниква голямо съмнение относно правилността на предложената хипотеза.

Степента, в която действителните данни съответстват на очакваните (хипотетични), се измерва чрез теста хи-квадрат:

- действително наблюдавана стойност на характеристиката в аз-че; теоретично очаквано число или знак (показател) за дадена група, к-брой групи данни.

Критерият е предложен от К. Пиърсън през 1900 г. и понякога се нарича критерий на Пиърсън.

Задача.Сред 164 деца, които са наследили фактор от единия родител и фактор от другия, имаше 46 деца с фактора, 50 с фактора, 68 с двамата. Изчислете очакваните честоти за съотношение 1:2:1 между групите и определете степента на съгласие на емпиричните данни, като използвате теста на Pearson.

Решение:Съотношението на наблюдаваните честоти е 46:68:50, теоретично очаквано 41:82:41.

Нека зададем нивото на значимост на 0,05. Табличната стойност на критерия Pearson за това ниво на значимост при равен брой степени на свобода се оказва 5,99. Следователно може да се приеме хипотезата за съответствието на експерименталните данни с теоретичните данни, тъй като, .

Обърнете внимание, че когато изчисляваме теста хи-квадрат, ние вече не задаваме условията за задължителната нормалност на разпределението. Тестът хи-квадрат може да се използва за всякакви разпределения, които сме свободни да избираме в нашите предположения. Има известна универсалност на този критерий.

Друго приложение на теста на Pearson е за сравняване на емпиричното разпределение с нормалното разпределение на Гаус. Освен това може да се класифицира като група критерии за проверка на нормалността на разпределението. Единственото ограничение е фактът, че общият брой стойности (опции) при използване на този критерий трябва да бъде достатъчно голям (поне 40), а броят на стойностите в отделните класове (интервали) трябва да бъде най-малко 5. В противен случай следва да се комбинират съседни интервали. Броят на степените на свобода при проверка на нормалността на разпределението трябва да се изчисли като:.

    1. Критерий на Фишер.

Този параметричен тест се използва за тестване на нулевата хипотеза, че дисперсиите на нормално разпределените популации са равни.

Или.

При малки размери на извадката използването на теста на Стюдънт може да бъде правилно само ако дисперсиите са равни. Следователно, преди да се тества равенството на извадковите средни стойности, е необходимо да се гарантира валидността на използването на теста на Student t.

Където н 1 , н 2 размери на извадката, 1 , 2 брой степени на свобода за тези проби.

Когато използвате таблици, трябва да обърнете внимание, че броят на степените на свобода за образец с по-голяма дисперсия е избран като номер на колона в таблицата, а за по-малка дисперсия като номер на ред в таблицата.

За нивото на значимост  намираме табличната стойност от таблиците на математическата статистика. Ако, тогава хипотезата за равенство на дисперсии се отхвърля за избраното ниво на значимост.

Пример.Изследван е ефектът на кобалта върху телесното тегло на зайци. Експериментът е проведен върху две групи животни: опитни и контролни. Експерименталните субекти получиха хранителна добавка под формата на воден разтвор на кобалтов хлорид. По време на експеримента наддаването на тегло беше в грамове:

контрол

Министерство на образованието и науката на Руската федерация

Федерална агенция за образование на град Иркутск

Байкалски държавен университет по икономика и право

Катедра "Информатика и кибернетика".

Хи-квадрат разпределение и неговите приложения

Колмикова Анна Андреевна

Студентка 2-ра година

група ИС-09-1

Иркутск 2010 г

Въведение

1. Хи-квадрат разпределение

Приложение

Заключение

Библиография

Въведение

Как се използват подходите, идеите и резултатите от теорията на вероятностите в живота ни?

Основата е вероятностен модел на реално явление или процес, т.е. математически модел, в който обективните връзки са изразени от гледна точка на теорията на вероятностите. Вероятностите се използват предимно за описание на несигурностите, които трябва да се вземат предвид при вземането на решения. Това се отнася както за нежелани възможности (рискове), така и за привлекателни („щастлив шанс”). Понякога произволността се въвежда умишлено в ситуация, например при теглене на жребий, произволен избор на единици за контрол, провеждане на лотарии или провеждане на потребителски проучвания.

Теорията на вероятностите позволява една вероятност да се използва за изчисляване на други, които представляват интерес за изследователя.

Вероятностният модел на явление или процес е в основата на математическата статистика. Използват се две паралелни серии от понятия – тези, свързани с теорията (вероятностен модел) и тези, свързани с практиката (извадка от резултатите от наблюдението). Например, теоретичната вероятност съответства на честотата, намерена от извадката. Математическото очакване (теоретична серия) съответства на средноаритметичното извадково (практическа серия). По правило характеристиките на извадката са оценки на теоретичните. В същото време количествата, свързани с теоретичните серии, „са в главите на изследователите“, се отнасят до света на идеите (според древногръцкия философ Платон) и не са достъпни за директно измерване. Изследователите разполагат само с примерни данни, с които се опитват да установят свойствата на теоретичен вероятностен модел, който ги интересува.

Защо се нуждаем от вероятностен модел? Факт е, че само с негова помощ свойствата, установени от анализа на конкретна проба, могат да бъдат пренесени върху други проби, както и върху цялата така наречена генерална съвкупност. Терминът "популация" се използва, когато се говори за голяма, но ограничена колекция от изследвани единици. Например за съвкупността от всички жители на Русия или за съвкупността от всички потребители на разтворимо кафе в Москва. Целта на маркетинговите или социологическите проучвания е да прехвърлят твърдения, получени от извадка от стотици или хиляди хора, към популации от няколко милиона души. При контрола на качеството партида от продукти действа като обща съвкупност.

За да се прехвърлят заключения от извадка към по-голяма популация, са необходими някои допускания относно връзката на характеристиките на извадката с характеристиките на тази по-голяма популация. Тези предположения се основават на подходящ вероятностен модел.

Разбира се, възможно е да се обработват примерни данни, без да се използва един или друг вероятностен модел. Например, можете да изчислите примерно средно аритметично, да преброите честотата на изпълнение на определени условия и т.н. Резултатите от изчислението обаче ще се отнасят само до конкретна извадка; прехвърлянето на заключенията, получени с тяхна помощ, към всяка друга популация е неправилно. Тази дейност понякога се нарича „анализ на данни“. В сравнение с вероятностно-статистическите методи, анализът на данни има ограничена образователна стойност.

Така че използването на вероятностни модели, базирани на оценка и тестване на хипотези, използвайки характеристики на извадка, е същността на вероятностно-статистическите методи за вземане на решения.

Хи-квадрат разпределение

С помощта на нормалното разпределение се дефинират три разпределения, които сега често се използват в статистическата обработка на данни. Това са разпределенията на Pearson („хи-квадрат“), Student и Fisher.

Ще се съсредоточим върху разпространението

(„чи – квадрат“). Това разпределение е изследвано за първи път от астронома Ф. Хелмерт през 1876 г. Във връзка с теорията на грешките на Гаус той изучава сумите от квадратите на n независими стандартно нормално разпределени случайни променливи. Карл Пиърсън по-късно нарече тази функция на разпределение „хи-квадрат“. И сега разпределението носи неговото име.

Поради тясната си връзка с нормалното разпределение, разпределението χ2 играе важна роля в теорията на вероятностите и математическата статистика. Разпределението χ2 и много други разпределения, които се определят от разпределението χ2 (например разпределението на Стюдънт), описват примерни разпределения на различни функции от нормално разпределени резултати от наблюдение и се използват за конструиране на доверителни интервали и статистически тестове.

Разпределение на Пиърсън

(chi - квадрат) – разпределение на случайна променлива, където X1, X2,..., Xn са нормални независими случайни променливи, като математическото очакване на всяка от тях е нула, а стандартното отклонение е единица.

Сбор на квадрати


разпределени по закон

(„чи – квадрат“).

В този случай броят на термините, т.е. n се нарича "брой степени на свобода" на разпределението хи-квадрат.С увеличаването на броя на степените на свобода разпределението бавно се доближава до нормалното.

Плътността на това разпределение


И така, разпределението на χ2 зависи от един параметър n – броя на степените на свобода.

Функцията на разпределение χ2 има формата:


ако χ2≥0. (2.7.)

Фигура 1 показва графика на плътността на вероятността и функцията на разпределение χ2 за различни степени на свобода.

Снимка 1Зависимост на плътността на вероятността φ (x) в разпределението χ2 (chi – квадрат) за различен брой степени на свобода.

Моменти на разпределението хи-квадрат:

Разпределението хи-квадрат се използва при оценяване на дисперсията (използване на доверителен интервал), тестване на хипотези за съгласие, хомогенност, независимост, предимно за качествени (категоризирани) променливи, които приемат краен брой стойности, и в много други задачи на анализ на статистически данни .

2. "Хи-квадрат" в задачите на статистическия анализ на данни

Статистическите методи за анализ на данни се използват в почти всички области на човешката дейност. Те се използват винаги, когато е необходимо да се получат и обосноват някакви преценки за група (обекти или субекти) с някаква вътрешна хетерогенност.

Съвременният етап на развитие на статистическите методи може да се брои от 1900 г., когато англичанинът К. Пиърсън основава списанието "Биометрика". Първата третина на ХХ век. премина под знака на параметричната статистика. Методите са изследвани въз основа на анализ на данни от параметрични семейства от разпределения, описани от криви на семейство Пиърсън. Най-популярното беше нормалното разпределение. За проверка на хипотезите са използвани тестовете на Pearson, Student и Fisher. Предложени са методът на максималната вероятност и дисперсионният анализ и са формулирани основните идеи за планиране на експеримента.

Разпределението хи-квадрат е едно от най-широко използваните в статистиката за тестване на статистически хипотези. Въз основа на разпределението хи-квадрат е конструиран един от най-мощните тестове за добро съответствие - хи-квадрат тестът на Пиърсън.

Критерият за съгласие е критерият за проверка на хипотезата за приетия закон на неизвестно разпределение.

Тестът χ2 (хи-квадрат) се използва за проверка на хипотезата за различни разпределения. Това е неговото достойнство.

Формулата за изчисление на критерия е равна на

където m и m’ са съответно емпирични и теоретични честоти

въпросното разпределение;

n е броят на степените на свобода.

За да проверим, трябва да сравним емпиричните (наблюдавани) и теоретичните (изчислени при предположението за нормално разпределение) честоти.

Ако емпиричните честоти напълно съвпадат с изчислените или очаквани честоти, S (E – T) = 0 и критерият χ2 също ще бъде равен на нула. Ако S (E – T) не е равно на нула, това ще означава несъответствие между изчислените честоти и емпиричните честоти на серията. В такива случаи е необходимо да се оцени значимостта на критерия χ2, който теоретично може да варира от нула до безкрайност. Това се прави чрез сравняване на действително получената стойност на χ2ф с неговата критична стойност (χ2st). Нулевата хипотеза, т.е. предположението, че несъответствието между емпиричните и теоретичните или очакваните честоти е случайно, се опровергава, ако χ2ф е по-голямо или равно на χ2st за приетото ниво на значимост (a) и броя на степените на свобода (n).

Тестът хи-квадрат е универсален метод за проверка на съответствието между резултатите от експеримента и използвания статистически модел.

Разстояние Пиърсън X 2

Пятницки А.М.

Руски държавен медицински университет

През 1900 г. Карл Пиърсън предлага прост, универсален и ефективен начин за тестване на съответствието между прогнозите на модела и експерименталните данни. „Хи-квадрат тестът“, който той предложи, е най-важният и най-често използван статистически тест. Повечето проблеми, свързани с оценката на неизвестните параметри на модела и проверката на съответствието между модела и експерименталните данни, могат да бъдат решени с негова помощ.

Нека има априори („предекспериментален“) модел на обекта или процеса, който се изучава (в статистиката те говорят за „нулевата хипотеза“ H 0) и резултатите от експеримент с този обект. Необходимо е да се реши дали моделът е адекватен (отговаря ли на реалността)? Експерименталните резултати противоречат ли на нашите идеи за това как работи реалността, или с други думи, трябва ли H0 да бъде отхвърлен? Често тази задача може да се сведе до сравняване на наблюдаваната (O i = Наблюдавана) и очакваната според модела (E i = Очаквана) средна честота на поява на определени събития. Смята се, че наблюдаваните честоти са получени в серия от N независими (!) наблюдения, направени при постоянни (!) условия. В резултат на всяко наблюдение се записва едно от М събития. Тези събития не могат да се случат едновременно (те са несъвместими по двойки) и задължително се случва едно от тях (комбинацията им образува надеждно събитие). Съвкупността от всички наблюдения се свежда до таблица (вектор) на честотите (O i )=(O 1 ,… O M ), която напълно описва резултатите от експеримента. Стойността O 2 =4 означава, че събитие номер 2 се е случило 4 пъти. Сума от честотите O 1 +… O M =N. Важно е да се прави разлика между два случая: N – фиксирана, неслучайна, N – случайна променлива. За фиксиран общ брой експерименти N, честотите имат полиномиално разпределение. Нека илюстрираме тази обща схема с прост пример.

Използване на теста хи-квадрат за тестване на прости хипотези.

Нека моделът (нулева хипотеза H 0) е, че зарът е справедлив - всички лица се появяват еднакво често с вероятност p i =1/6, i =, M=6. Проведен е експеримент, при който зарът е хвърлен 60 пъти (проведени са N = 60 независими опита). Според модела очакваме, че всички наблюдавани честоти O i на поява 1,2,... 6 точки трябва да бъдат близки до техните средни стойности E i =Np i =60∙(1/6)=10. Съгласно H 0, векторът на средните честоти (E i )=(Np i )=(10, 10, 10, 10, 10, 10). (Хипотези, при които средните честоти са напълно известни преди началото на експеримента, се наричат ​​прости.) Ако наблюдаваният вектор (O i ) е равен на (34,0,0,0,0,26), тогава той е незабавно ясно, че моделът е неправилен - костта не може да бъде правилна, тъй като само 1 и 6 са хвърлени 60 пъти за правилен зар е незначителна: P = (2/6) 60 =2,4*10 -29. Появата на такива явни разминавания между модела и опита обаче е изключение. Нека векторът на наблюдаваните честоти (O i ) е равен на (5, 15, 6, 14, 4, 16). Това съответства ли на H0? И така, трябва да сравним два честотни вектора (E i) и (O i). В този случай векторът на очакваните честоти (Ei) не е случаен, но векторът на наблюдаваните честоти (Oi) е случаен - по време на следващия експеримент (в нова серия от 60 хвърляния) той ще се окаже различен. Полезно е да се въведе геометрична интерпретация на проблема и да се приеме, че в честотното пространство (в този случай 6-измерно) са дадени две точки с координати (5, 15, 6, 14, 4, 16) и (10, 10, 10, 10, 10, 10 ). Дали са достатъчно далеч един от друг, за да се счита това за несъвместимо с H 0? С други думи, имаме нужда от:

  1. научете се да измервате разстояния между честотите (точки в честотното пространство),
  2. има критерий за това какво разстояние трябва да се счита за твърде („неправдоподобно“) голямо, тоест несъвместимо с H 0 .

Квадратът на обикновеното евклидово разстояние би бил равен на:

X 2 Евклид = С(O i -E i) 2 = (5-10) 2 +(15-10) 2 + (6-10) 2 +(14-10) 2 +(4-10) 2 +(16-10) 2

В този случай повърхностите X 2 Euclid = const винаги са сфери, ако фиксираме стойностите на E i и променим O i . Карл Пиърсън отбеляза, че не трябва да се използва използването на евклидово разстояние в честотното пространство. По този начин е неправилно да се приеме, че точките (O = 1030 и E = 1000) и (O = 40 и E = 10) са на равни разстояния една от друга, въпреки че и в двата случая разликата е O -E = 30. В крайна сметка, колкото по-висока е очакваната честота, толкова по-големи отклонения от нея трябва да се считат за възможни. Следователно точките (O =1030 и E =1000) трябва да се считат за „близки“, а точките (O =40 и E =10) за „далечни“ една от друга. Може да се покаже, че ако хипотезата H 0 е вярна, тогава флуктуациите на честотата O i спрямо E i са от порядъка на корен квадратен (!) от E i . Затова Пиърсън предложи, когато се изчислява разстоянието, да се повдигат на квадрат не разликите (O i -E i), а нормализираните разлики (O i -E i)/E i 1/2. Така че ето формулата за изчисляване на разстоянието на Пиърсън (това всъщност е квадрат на разстоянието):

X 2 Pearson = С((O i -E i )/E i 1/2) 2 = С(O i -E i ) 2 /E i

В нашия пример:

X 2 Pearson = (5-10) 2 /10+(15-10) 2 /10 +(6-10) 2 /10+(14-10) 2 /10+(4-10) 2 /10+( 16-10) 2 /10=15,4

За обикновен матрица всички очаквани честоти E i са еднакви, но обикновено са различни, така че повърхности, на които разстоянието на Пиърсън е постоянно (X 2 Pearson =const), се оказват елипсоиди, а не сфери.

Сега, когато формулата за изчисляване на разстоянията е избрана, е необходимо да разберем кои разстояния трябва да се считат за „не твърде големи“ (в съответствие с H 0), например, какво можем да кажем за разстоянието, което изчислихме 15.4 ? В какъв процент от случаите (или с каква вероятност) бихме получили разстояние, по-голямо от 15,4, когато провеждаме експерименти с обикновена матрица? Ако този процент е малък (<0.05), то H 0 надо отвергнуть. Иными словами требуется найти распределение длярасстояния Пирсона. Если все ожидаемые частоты E i не слишком малы (≥5), и верна H 0 , то нормированные разности (O i - E i )/E i 1/2 приближенно эквивалентны стандартным гауссовским случайным величинам: (O i - E i )/E i 1/2 ≈N (0,1). Это, например, означает, что в 95% случаев| (O i - E i )/E i 1/2 | < 1.96 ≈ 2 (правило “двух сигм”).

Обяснение. Броят на измерванията O i, попадащи в клетката на таблицата с номер i, има биномиално разпределение с параметрите: m =Np i =E i,σ =(Np i (1-p i)) 1/2, където N е числото от измерванията (N " 1), p i е вероятността едно измерване да попадне в дадена клетка (припомнете си, че измерванията са независими и се извършват при постоянни условия). Ако p i е малко, тогава: σ≈(Np i ) 1/2 =E i и биномиалното разпределение е близко до Поасон, при което средният брой наблюдения E i =λ и стандартното отклонение σ=λ 1/2 = E i 1/ 2. За λ≥5 разпределението на Поасон е близко до нормалното N (m =E i =λ, σ=E i 1/2 =λ 1/2), а нормализираната стойност (O i - E i )/E i 1 /2 ≈ N (0 ,1).

Пиърсън дефинира случайната променлива χ 2 n – „хи-квадрат с n степени на свобода“, като сумата от квадратите на n независими стандартни нормални случайни променливи:

χ 2 n = T 1 2 + T 2 2 + …+ T n 2 ,къде са всички T i = N(0,1) -н. О. Р. с. V.

Нека се опитаме да разберем ясно значението на тази най-важна случайна променлива в статистиката. За да направим това, в равнината (с n = 2) или в пространството (с n = 3) представяме облак от точки, чиито координати са независими и имат стандартно нормално разпределениеf T (x) ~exp (-x 2 /2 ). В равнина, съгласно правилото за „две сигми“, което се прилага независимо и за двете координати, 90% (0,95*0,95≈0,90) точки се съдържат в квадрат (-2

f χ 2 2 (a) = Сexp(-a/2) = 0,5exp(-a/2).

При достатъчно голям брой степени на свобода n (n > 30), разпределението хи-квадрат се доближава до нормалното: N (m = n; σ = (2n) ½). Това е следствие от „теоремата за централната граница“: сумата от идентично разпределени количества с крайна вариация се доближава до нормалния закон с увеличаване на броя на членовете.

На практика трябва да запомните, че средният квадрат на разстоянието е равен на m (χ 2 n) = n, а неговата дисперсия е σ 2 (χ 2 n) = 2n. От тук е лесно да се заключи кои стойности на хи-квадрат трябва да се считат за твърде малки и твърде големи: по-голямата част от разпределението е в диапазона от n -2∙(2n) ½ до n +2∙(2n) ½.

Така че разстоянията на Пиърсън, значително надвишаващи n +2∙ (2n) ½, трябва да се считат за неправдоподобно големи (несъвместими с H 0). Ако резултатът е близък до n +2∙(2n) ½, тогава трябва да използвате таблици, в които можете да разберете точно в каква част от случаите могат да се появят такива и големи стойности на хи-квадрат.

Важно е да знаете как да изберете правилната стойност за броя на степените на свобода (съкратено n.d.f.). Изглежда естествено да се приеме, че n е просто равно на броя на цифрите: n =M. В статията си Пиърсън предлага това. В примера със зара това би означавало, че n =6. Няколко години по-късно обаче се оказа, че Пиърсън греши. Броят на степените на свобода винаги е по-малък от броя на цифрите, ако има връзки между случайните променливи O i. За примера със зара, сумата O i е 60 и само 5 честоти могат да се променят независимо, така че правилната стойност е n = 6-1 = 5. За тази стойност на n получаваме n +2∙(2n) ½ =5+2∙(10) ½ =11,3. Тъй като 15.4>11.3, тогава хипотезата H 0 - зарът е правилен, трябва да бъде отхвърлена.

След изясняване на грешката съществуващите таблици χ 2 трябваше да бъдат допълнени, тъй като първоначално те нямаха случай n = 1, тъй като най-малкият брой цифри = 2. Сега се оказва, че може да има случаи, когато разстоянието на Пиърсън има разпределение χ 2 n =1.

Пример. При 100 хвърляния на монети броят на главите е O 1 = 65, а опашките O 2 = 35. Броят на цифрите е M = 2. Ако монетата е симетрична, тогава очакваните честоти са E 1 =50, E 2 =50.

X 2 Pearson = С(O i -E i) 2 /E i = (65-50) 2 /50 + (35-50) 2 /50 = 2*225/50 = 9.

Получената стойност трябва да се сравни с тези, които може да приеме случайната променлива χ 2 n =1, дефинирана като квадрат на стандартната нормална стойност χ 2 n =1 =T 1 2 ≥ 9 ó Т1 ≥3 или Т1 ≤-3. Вероятността за такова събитие е много ниска P (χ 2 n =1 ≥9) = 0,006. Следователно монетата не може да се счита за симетрична: H 0 трябва да се отхвърли. Фактът, че броят на степените на свобода не може да бъде равен на броя на цифрите, се вижда от факта, че сумата от наблюдаваните честоти винаги е равна на сумата от очакваните, например O 1 +O 2 =65+ 35 = E 1 +E 2 =50+50=100. Следователно произволни точки с координати O 1 и O 2 са разположени на права линия: O 1 +O 2 =E 1 +E 2 =100 и разстоянието до центъра се оказва по-малко, отколкото ако това ограничение не съществува и бяха разположени по цялата равнина. Наистина, за две независими случайни променливи с математически очаквания E 1 =50, E 2 =50, сумата от техните реализации не трябва винаги да е равна на 100 - например стойностите O 1 =60, O 2 =55 биха бъдете приемливи.

Обяснение. Нека сравним резултата от критерия на Pearson при M = 2 с това, което дава формулата на Moivre-Laplace при оценяване на случайни колебания в честотата на поява на събитие ν =K /N, имащо вероятност p в серия от N независими теста на Бернули ( K е броят на успехите):

χ 2 n =1 = С(O i -E i) 2 /E i = (O 1 -E 1) 2 /E 1 + (O 2 -E 2) 2 /E 2 = (Nν -Np) 2 /(Np) + (N ( 1-ν )-N (1-p )) 2 /(N (1-p ))=

=(Nν-Np) 2 (1/p + 1/(1-p))/N=(Nν-Np) 2 /(Np(1-p))=((K-Np)/(Npq) ½ ) 2 = T 2

Стойност T =(K -Np)/(Npq) ½ = (K -m (K))/σ(K) ≈N (0,1) със σ(K)=(Npq) ½ ≥3. Виждаме, че в този случай резултатът на Пиърсън съвпада точно с това, което дава нормалното приближение за биномиалното разпределение.

Досега разглеждахме прости хипотези, за които очакваните средни честоти E i са напълно известни предварително. За информация как да изберете правилния брой степени на свобода за сложни хипотези, вижте по-долу.

Използване на теста хи-квадрат за тестване на сложни хипотези

В примерите с обикновен зар и монета, очакваните честоти могат да бъдат определени преди (!) експеримента. Такива хипотези се наричат ​​„прости“. На практика "сложните хипотези" са по-често срещани. Освен това, за да се намерят очакваните честоти E i, е необходимо първо да се оценят една или няколко величини (параметри на модела) и това може да стане само с помощта на експериментални данни. В резултат на това за „сложни хипотези“ очакваните честоти E i се оказват зависещи от наблюдаваните честоти O i и следователно самите те стават случайни променливи, вариращи в зависимост от резултатите от експеримента. В процеса на избор на параметри разстоянието на Пиърсън намалява - параметрите се избират така, че да се подобри съответствието между модела и експеримента. Следователно броят на степените на свобода трябва да намалее.

Как да оценим параметрите на модела? Има много различни методи за оценка - „метод на максималната правдоподобност“, „метод на моментите“, „метод на заместване“. Въпреки това, не можете да използвате никакви допълнителни средства и да намерите оценки на параметрите чрез минимизиране на разстоянието на Pearson. В предкомпютърната ера този подход рядко се използва: той е неудобен за ръчни изчисления и като правило не може да бъде решен аналитично. Когато се изчислява на компютър, численото минимизиране обикновено е лесно за извършване и предимството на този метод е неговата гъвкавост. И така, според „метода за минимизиране на хи-квадрат“, ние избираме стойностите на неизвестните параметри, така че разстоянието на Пиърсън да стане най-малкото. (Между другото, като изучавате промените в това разстояние с малки измествания спрямо намерения минимум, можете да оцените мярката за точност на оценката: конструирайте доверителни интервали.) След като параметрите и самото това минимално разстояние са намерени, то е отново е необходимо да се отговори на въпроса дали е достатъчно малък.

Общата последователност от действия е следната:

  1. Избор на модел (хипотеза H 0).
  2. Избор на цифри и определяне на вектора на наблюдаваните честоти O i .
  3. Оценка на неизвестни параметри на модела и изграждане на доверителни интервали за тях (например чрез търсене на минималното разстояние на Пиърсън).
  4. Изчисляване на очакваните честоти E i .
  5. Сравнение на намерената стойност на разстоянието на Пиърсън X 2 с критичната стойност на хи-квадрат χ 2 crit - най-голямата, която все още се счита за правдоподобна, съвместима с H 0. Намираме стойността χ 2 crit от таблиците чрез решаване на уравнението

P (χ 2 n > χ 2 крит) = 1-α,

където α е „нивото на значимост“ или „размерът на критерия“ или „големината на грешката от първи тип“ (типична стойност α = 0,05).

Обикновено броят на степените на свобода n се изчислява по формулата

n = (брой цифри) – 1 – (брой параметри за оценка)

Ако X 2 > χ 2 crit, тогава хипотезата H 0 се отхвърля, в противен случай се приема. В α∙100% от случаите (т.е. доста рядко) този метод за проверка на H 0 ще доведе до „грешка от първи вид“: хипотезата H 0 ще бъде отхвърлена погрешно.

Пример.При изследване на 10 серии от 100 семена се преброява броят на заразените със зеленоока муха. Получени данни: O i =(16, 18, 11, 18, 21, 10, 20, 18, 17, 21);

Тук векторът на очакваните честоти е предварително неизвестен. Ако данните са хомогенни и получени за биномиално разпределение, тогава един параметър е неизвестен: делът p на заразените семена. Обърнете внимание, че в оригиналната таблица всъщност има не 10, а 20 честоти, които отговарят на 10 връзки: 16+84=100, ... 21+79=100.

X 2 = (16-100p) 2 /100p +(84-100(1-p)) 2 /(100(1-p))+...+

(21-100p) 2 /100p +(79-100(1-p)) 2 /(100(1-p))

Комбинирайки термини по двойки (както в примера с монета), получаваме формата на писане на критерия на Pearson, който обикновено се записва веднага:

X 2 = (16-100p) 2 /(100p(1-p))+…+ (21-100p) 2 /(100p(1-p)).

Сега, ако минималното разстояние на Пиърсън се използва като метод за оценка на p, тогава е необходимо да се намери p, за което X 2 = min. (Моделът се опитва, ако е възможно, да се „приспособи“ към експерименталните данни.)

Критерият на Пиърсън е най-универсалният от всички използвани в статистиката. Може да се прилага към едномерни и многовариантни данни, количествени и качествени характеристики. Въпреки това, именно поради неговата универсалност, трябва да се внимава да не се правят грешки.

Важни точки

1.Избор на категории.

  • Ако разпределението е дискретно, тогава обикновено няма произвол при избора на цифри.
  • Ако разпределението е непрекъснато, тогава произволът е неизбежен. Могат да се използват статистически еквивалентни блокове (всички O са еднакви, например =10). Дължините на интервалите обаче са различни. Когато правеха ръчни изчисления, те се опитаха да направят интервалите еднакви. Трябва ли интервалите при изследване на разпределението на едномерен признак да са равни? Не.
  • Цифрите трябва да се комбинират по такъв начин, че очакваните (неспазени!) честоти да не са твърде малки (≥5). Нека припомним, че именно те (E i) са в знаменателите при изчисляването на X 2! При анализиране на едномерни характеристики е позволено да се наруши това правило в двете крайни цифри E 1 =E max =1. Ако броят на цифрите е голям и очакваните честоти са близки, тогава X 2 е добро приближение на χ 2 дори за E i =2.

Оценка на параметъра. Използването на „домашно приготвени“, неефективни методи за оценка може да доведе до завишени стойности на разстоянието на Пиърсън.

Избор на правилния брой степени на свобода. Ако оценките на параметрите се правят не от честотите, а директно от данните (например средната аритметична стойност се приема като оценка на средната), тогава точният брой степени на свобода n е неизвестен. Знаем само, че то удовлетворява неравенството:

(брой цифри – 1 – брой параметри, които се оценяват)< n < (число разрядов – 1)

Следователно е необходимо да се сравни X 2 с критичните стойности на χ 2 crit, изчислени в този диапазон от n.

Как да тълкуваме неправдоподобно малки стойности на хи-квадрат?Трябва ли една монета да се счита за симетрична, ако след 10 000 хвърляния попадне върху герба 5000 пъти? Преди това много статистици смятаха, че H 0 също трябва да бъде отхвърлен. Сега се предлага друг подход: приемете H 0, но подложите на допълнителна проверка данните и методологията за техния анализ. Има две възможности: или твърде малко разстояние на Пиърсън означава, че увеличаването на броя на параметрите на модела не е придружено от правилно намаляване на броя на степените на свобода, или самите данни са били фалшифицирани (може би неволно коригирани към очаквания резултат).

Пример.Двама изследователи A и B изчисляват дела на рецесивните хомозиготи aa във второто поколение на монохибридно кръстосване AA * aa. Според законите на Мендел тази дроб е 0,25. Всеки изследовател проведе 5 експеримента, като във всеки експеримент бяха изследвани 100 организма.

Резултати A: 25, 24, 26, 25, 24. Заключението на изследователя: Законът на Мендел е верен (?).

Резултати B: 29, 21, 23, 30, 19. Заключение на изследователя: Законът на Мендел не е справедлив (?).

Законът на Мендел обаче е от статистическо естество и количественият анализ на резултатите обръща изводите! Комбинирайки пет експеримента в един, достигаме до разпределение хи-квадрат с 5 степени на свобода (тества се проста хипотеза):

X 2 A = ((25-25) 2 +(24-25) 2 +(26-25) 2 +(25-25) 2 +(24-25) 2)/(100∙0,25∙0,75)=0,16

X 2 B = ((29-25) 2 +(21-25) 2 +(23-25) 2 +(30-25) 2 +(19-25) 2)/(100∙0,25∙0,75)=5,17

Средна стойност m [χ 2 n =5 ]=5, стандартно отклонение σ[χ 2 n =5 ]=(2∙5) 1/2 =3,2.

Следователно, без справка с таблиците, е ясно, че стойността на X 2 B е типична, а стойността на X 2 A е неправдоподобно малка. Според таблици P (χ 2 n =5<0.16)<0.0001.

Този пример е адаптация на реален случай, случил се през 30-те години на миналия век (вижте работата на Колмогоров „За друго доказателство на законите на Мендел“). Интересното е, че изследовател А беше привърженик на генетиката, а изследовател Б беше против нея.

Объркване в нотацията.Необходимо е да се разграничи разстоянието на Пиърсън, което изисква допълнителни конвенции при изчисляването му, от математическата концепция за случайна променлива хи-квадрат. Разстоянието на Пиърсън при определени условия има разпределение, близко до хи-квадрат с n степени на свобода. Следователно е препоръчително да НЕ се обозначава разстоянието на Пиърсън със символа χ 2 n, а да се използва подобно, но различно обозначение X 2. .

Критерият на Пиърсън не е всемогъщ.Има безкраен брой алтернативи за H 0, които той не е в състояние да вземе предвид. Да предположим, че тествате хипотезата, че характеристиката има равномерно разпределение, имате 10 цифри и векторът на наблюдаваните честоти е равен на (130,125,121,118,116,115,114,113,111,110). Критерият на Pearson не може да „забележи“, че честотите монотонно намаляват и H 0 няма да бъде отхвърлен. Ако беше допълнен с критерий за серия, тогава да!

В тази статия ще говорим за изследване на зависимостта между признаци или както предпочитате - случайни стойности, променливи. По-специално, ще разгледаме как да въведем мярка за зависимост между характеристиките с помощта на теста Хи-квадрат и да я сравним с коефициента на корелация.

Защо това може да е необходимо? Например, за да се разбере кои характеристики са по-зависими от целевата променлива при конструиране на кредитен рейтинг - определяне на вероятността клиентът да не изпълни задълженията си. Или, както в моя случай, разберете какви индикатори трябва да се използват за програмиране на робот за търговия.

Отделно бих искал да отбележа, че използвам езика C# за анализ на данни. Може би всичко това вече е имплементирано в R или Python, но използването на C# за мен ми позволява да разбера темата в детайли, освен това това е любимият ми език за програмиране.

Нека започнем с много прост пример, създайте четири колони в Excel с помощта на генератор на произволни числа:
х=RANDBETWEEN(-100,100)
Y =х*10+20
З =х*х
T=RANDBETWEEN(-100,100)

Както можете да видите, променливата Yлинейно зависими от х; променлива Зквадратно зависими от х; променливи хИ Tнезависима. Направих този избор нарочно, защото ще сравним нашата мярка за зависимост с коефициента на корелация. Както е известно, между две случайни променливи тя е равна по модул 1, ако най-трудната зависимост между тях е линейна. Има нулева корелация между две независими случайни променливи, но равенството на коефициента на корелация на нула не означава независимост. След това ще видим това на примера на променливите хИ З.

Запазете файла като data.csv и започнете първите оценки. Първо, нека изчислим коефициента на корелация между стойностите. Не съм вмъкнал кода в статията; той е в моя github. Получаваме корелацията за всички възможни двойки:

Вижда се, че линейно зависими хИ Yкоефициентът на корелация е 1. Но хИ Зтя е равна на 0,01, въпреки че зависимостта е зададена изрично З=х*х. Ясно е, че имаме нужда от мярка, която „усеща“ по-добре пристрастяването. Но преди да преминем към теста Хи-квадрат, нека да разгледаме какво представлява матрицата на непредвидените обстоятелства.

За да изградим матрица за непредвидени обстоятелства, ние разделяме диапазона от променливи стойности на интервали (или категоризираме). Има много начини за такова разделяне, но няма универсален. Някои от тях са разделени на интервали, така че да съдържат еднакъв брой променливи, други са разделени на интервали с еднаква дължина. Аз лично обичам да комбинирам тези подходи. Реших да използвам този метод: изваждам резултата от мат от променливата. очаквания, след това разделете резултата на оценката на стандартното отклонение. С други думи, центрирам и нормализирам случайната променлива. Получената стойност се умножава по коефициент (в този пример е 1), след което всичко се закръгля до най-близкото цяло число. Резултатът е променлива от тип int, която е идентификаторът на класа.

Така че нека вземем нашите знаци хИ З, ние категоризираме по описания по-горе начин, след което изчисляваме броя и вероятностите за поява на всеки клас и вероятностите за поява на двойки характеристики:

Това е матрица по количество. Тук в редовете - броят на срещанията на класовете променливи х, в колони - броят на срещанията на класове на променливата З, в клетки - броят на появяванията на двойки класове едновременно. Например клас 0 се среща 865 пъти за променливата х, 823 пъти за променлива Зи никога не е имало двойка (0,0). Нека да преминем към вероятностите, като разделим всички стойности на 3000 (общ брой наблюдения):

Получихме матрица за непредвидени обстоятелства, получена след категоризиране на характеристиките. Сега е моментът да помислим за критерия. По дефиниция случайните променливи са независими, ако сигма алгебрите, генерирани от тези случайни променливи, са независими. Независимостта на сигма алгебрите предполага двойната независимост на събитията от тях. Две събития се наричат ​​независими, ако вероятността за тяхното съвместно възникване е равна на произведението на вероятностите за тези събития: Pij = Pi*Pj. Именно тази формула ще използваме, за да конструираме критерия.

Нулева хипотеза: категоризирани знаци хИ Знезависима. Еквивалентно на него: разпределението на матрицата на непредвидените обстоятелства се определя единствено от вероятностите за поява на класове променливи (вероятности на редове и колони). Или това: клетките на матрицата се намират чрез произведението на съответните вероятности на редовете и колоните. Ще използваме тази формулировка на нулевата хипотеза, за да конструираме правилото за вземане на решение: значително несъответствие между пижИ Пи*Пжще бъде основа за отхвърляне на нулевата хипотеза.

Нека е вероятността клас 0 да се появи в променлива х. Нашата обща сума нкласове при хИ мкласове при З. Оказва се, че за да зададем матричното разпределение, трябва да ги знаем нИ мвероятности. Но всъщност, ако знаем n-1вероятност за х, тогава последният се намира чрез изваждане на сбора на останалите от 1. Следователно, за да намерим разпределението на матрицата на непредвидените обстоятелства, трябва да знаем l=(n-1)+(m-1)стойности. Или имаме л-мерно параметрично пространство, векторът от който ни дава желаното разпределение. Хи-квадрат статистиката ще изглежда така:

и според теоремата на Фишър имат разпределение Хи-квадрат с n*m-l-1=(n-1)(m-1)степени на свобода.

Нека зададем нивото на значимост на 0,95 (или вероятността за грешка от тип I е 0,05). Нека намерим квантила на разпределението Хи квадрат за дадено ниво на значимост и степени на свобода от примера (n-1)(m-1)=4*3=12: 21.02606982. Самата хи-квадрат статистика за променливите хИ Зе равно на 4088.006631. Ясно е, че хипотезата за независимост не се приема. Удобно е да се вземе предвид съотношението на статистиката Хи-квадрат към праговата стойност - в този случай то е равно на Chi2Coeff=194.4256186. Ако това съотношение е по-малко от 1, тогава хипотезата за независимост се приема; ако е по-голямо, тогава не е така. Нека намерим това съотношение за всички двойки функции:

Тук Фактор1И Фактор 2- имена на функции
src_cnt1И src_cnt2- брой уникални стойности на първоначалните характеристики
mod_cnt1И mod_cnt2- брой уникални стойности на характеристиките след категоризиране
чи2- Хи-квадрат статистика
chi2max- прагова стойност на статистиката Хи-квадрат за ниво на значимост от 0,95
chi2Coeff- отношение на хи-квадрат статистиката към праговата стойност
кор- коефициент на корелация

Вижда се, че те са независими (chi2coeff<1) получились следующие пары признаков - (X,T), (Y,T) И ( Z,T), което е логично, тъй като променливата Tсе генерира на случаен принцип. Променливи хИ Ззависим, но по-малко от линейно зависим хИ Y, което също е логично.

Публикувах кода на помощната програма, която изчислява тези индикатори, в github, където има и файла data.csv. Помощната програма приема csv файл като вход и изчислява зависимостите между всички двойки колони: PtProject.Dependency.exe data.csv

Използването на този критерий се основава на използването на такава мярка (статистика) на несъответствието между теоретичните F(x)и емпирично разпределение F* n(x), което приблизително се подчинява на закона за разпределение χ 2 . Хипотеза H 0Съгласуваността на разпределенията се проверява чрез анализиране на разпределението на тези статистики. Прилагането на критерия изисква изграждането на статистически ред.

И така, нека извадката бъде представена статистически до броя на цифрите М. Наблюдаван коефициент на попадение аз-ти ранг n i. В съответствие с теоретичния закон за разпределение, очакваната честота на попадения в i-та категория е F i. Разликата между наблюдаваната и очакваната честота ще бъде ( n iF i). За да се намери общата степен на несъответствие между F(x) И F* n (x) е необходимо да се изчисли претеглената сума на квадратите на разликите между всички цифри на статистическата серия

Стойност χ 2 с неограничено увеличение нима χ 2 разпределение (асимптотично разпределено като χ 2). Това разпределение зависи от броя на степените на свобода к, т.е. броят на независимите стойности на термините в израз (3.7). Броят на степените на свобода е равен на броя гминус броя на линейните зависимости, наложени върху извадката. Една връзка съществува поради факта, че всяка честота може да бъде изчислена от съвкупността от честоти в останалите М– 1 цифри. Освен това, ако параметрите на разпределението не са известни предварително, тогава има друго ограничение поради приспособяването на разпределението към извадката. Ако пробата определи Спараметри на разпределение, тогава броят на степените на свобода ще бъде k=M –S–1.

Зона за приемане на хипотези H 0се определя от условието χ 2 < χ 2(k;a), където χ 2(k;a)– критична точка на разпределението χ2 с ниво на значимост а. Вероятността за грешка от тип I е а, вероятността от грешка тип II не може да бъде ясно дефинирана, тъй като има безкрайно голям брой различни начини, по които разпределенията може да не съвпадат. Силата на теста зависи от броя на цифрите и размера на извадката. Критерият се препоръчва да се прилага, когато н>200, употребата е разрешена, когато н>40, именно при такива условия критерият е валиден (като правило той отхвърля неправилната нулева хипотеза).

Алгоритъм за проверка по критерий

1. Конструирайте хистограма, като използвате равновероятностен метод.

2. Въз основа на вида на хистограмата изложете хипотеза

з 0: f(х) = f 0(х),

з 1: f(х) f 0(х),

Където f 0(х) - плътност на вероятността на хипотетичен закон за разпределение (например равномерно, експоненциално, нормално).

Коментирайте. Хипотезата за експоненциалния закон на разпределението може да бъде представена, ако всички числа в извадката са положителни.


3. Изчислете стойността на критерия по формулата

,

къде е честотата на попадение i-ти интервал;

пи- теоретична вероятност за попадане на случайна променлива i- ти интервал при условие, че хипотезата з 0вярно.

Формули за изчисление пипри експоненциален, равномерен и нормален закон те са съответно равни.

експоненциален закон

. (3.8)

При което А 1 = 0, Bm= +.

Единен закон

Нормален закон

. (3.10)

При което А 1 = -, B M = +.

Бележки. След изчисляване на всички вероятности пипроверете дали референтната връзка е изпълнена

Функция Ф( х) - странно. Ф(+) = 1.

4. От таблицата “Хи-квадрат” в Приложението се избира стойността, където е определеното ниво на значимост (= 0,05 или = 0,01), и к- броят на степените на свобода, определени по формулата

к= М- 1 - С.

Тук С- броя на параметрите, от които зависи избраната хипотеза з 0разпределителен закон. Стойности Сза единния закон е 2, за експоненциалния закон е 1, за нормалния закон е 2.

5. Ако , тогава хипотеза з 0 се отклонява. В противен случай няма причина да го отхвърлите: с вероятност 1 е вярно, а с вероятност е невярно, но стойността е неизвестна.

Пример3 . 1. Използвайки критерий 2, изложете и тествайте хипотеза за закона за разпределение на случайна променлива х, чиито вариационни серии, интервални таблици и хистограми на разпределение са дадени в пример 1.2. Нивото на значимост е 0,05.

Решение . Въз основа на появата на хистограми, ние изложихме хипотезата, че случайната променлива хразпределени по нормалния закон:

з 0: f(х) = н(м,);

з 1: f(х) н(м,).

Стойността на критерия се изчислява по формулата.