Thamani muhimu ya jaribio la mraba la chi. Masharti na vikwazo vya kutumia jaribio la Pearson chi-square

Utafiti wa kiasi wa matukio ya kibaolojia unahitaji kuundwa kwa hypotheses ambayo inaweza kuelezea matukio haya. Ili kupima hypothesis fulani, mfululizo wa majaribio maalum hufanywa na data halisi inayopatikana inalinganishwa na wale wanaotarajiwa kinadharia kulingana na hypothesis hii. Ikiwa kuna bahati mbaya, hii inaweza kuwa sababu ya kutosha ya kukubali hypothesis. Ikiwa data ya majaribio haikubaliani vizuri na yale yanayotarajiwa kinadharia, shaka kubwa hutokea juu ya usahihi wa hypothesis iliyopendekezwa.

Kiwango ambacho data halisi inalingana na inayotarajiwa (ya kubuni) hupimwa kwa jaribio la chi-mraba:

- thamani halisi iliyozingatiwa ya tabia katika i- kwamba; nambari inayotarajiwa kinadharia au ishara (kiashiria) kwa kikundi fulani, k- idadi ya vikundi vya data.

Kigezo hicho kilipendekezwa na K. Pearson mnamo 1900 na wakati mwingine huitwa kigezo cha Pearson.

Kazi. Kati ya watoto 164 ambao walirithi sababu kutoka kwa mzazi mmoja na sababu kutoka kwa mwingine, kulikuwa na watoto 46 wenye sababu hiyo, 50 na sababu hiyo, 68 na wote wawili. Kokotoa masafa yanayotarajiwa kwa uwiano wa 1:2:1 kati ya vikundi na ubaini kiwango cha makubaliano ya data ya majaribio kwa kutumia jaribio la Pearson.

Suluhisho: Uwiano wa masafa yaliyotazamwa ni 46:68:50, kinadharia inatarajiwa 41:82:41.

Wacha tuweke kiwango cha umuhimu hadi 0.05. Thamani ya jedwali ya kigezo cha Pearson cha kiwango hiki cha umuhimu na idadi ya digrii za uhuru sawa iligeuka kuwa 5.99. Kwa hivyo, nadharia juu ya mawasiliano ya data ya majaribio kwa data ya kinadharia inaweza kukubalika, kwani,.

Kumbuka kuwa wakati wa kukokotoa jaribio la chi-mraba, hatuweki tena masharti ya hali ya kawaida ya lazima ya usambazaji. Jaribio la chi-mraba linaweza kutumika kwa usambazaji wowote ambao tuna uhuru wa kuchagua katika mawazo yetu. Kuna baadhi ya universality ya kigezo hiki.

Utumizi mwingine wa jaribio la Pearson ni kulinganisha usambazaji wa majaribio na usambazaji wa kawaida wa Gaussian. Kwa kuongezea, inaweza kuainishwa kama kikundi cha vigezo vya kuangalia hali ya kawaida ya usambazaji. Kizuizi pekee ni ukweli kwamba jumla ya idadi ya maadili (chaguo) wakati wa kutumia kigezo hiki lazima iwe kubwa ya kutosha (angalau 40), na idadi ya maadili katika madarasa ya mtu binafsi (vipindi) lazima iwe angalau 5. Vinginevyo, vipindi vya karibu vinapaswa kuunganishwa. Idadi ya digrii za uhuru wakati wa kuangalia hali ya kawaida ya usambazaji inapaswa kuhesabiwa kama:.

    1. Kigezo cha wavuvi.

Jaribio hili la vigezo hutumika kujaribu nadharia potofu kwamba tofauti za idadi ya kawaida zinazosambazwa ni sawa.

Au.

Kwa saizi ndogo za sampuli, matumizi ya mtihani wa Mwanafunzi yanaweza kuwa sahihi ikiwa tu tofauti ni sawa. Kwa hivyo, kabla ya kupima usawa wa njia za sampuli, ni muhimu kuhakikisha uhalali wa kutumia jaribio la Mwanafunzi.

Wapi N 1 , N 2 saizi za sampuli, 1 , 2 idadi ya digrii za uhuru kwa sampuli hizi.

Unapotumia majedwali, unapaswa kuzingatia kwamba idadi ya digrii za uhuru kwa sampuli iliyo na mtawanyiko mkubwa huchaguliwa kama nambari ya safu wima ya jedwali, na kwa mtawanyiko mdogo kama nambari ya safu ya jedwali.

Kwa kiwango cha umuhimu , tunapata thamani ya jedwali kutoka kwa majedwali ya takwimu za hisabati. Ikiwa, basi nadharia ya usawa wa tofauti inakataliwa kwa kiwango cha umuhimu kilichochaguliwa.

Mfano. Athari za cobalt kwenye uzito wa mwili wa sungura zilisomwa. Jaribio lilifanywa kwa vikundi viwili vya wanyama: majaribio na udhibiti. Masomo ya majaribio yalipata ziada ya chakula kwa namna ya suluhisho la maji ya kloridi ya cobalt. Wakati wa jaribio, ongezeko la uzito lilikuwa katika gramu:

Udhibiti

Wizara ya Elimu na Sayansi ya Shirikisho la Urusi

Shirika la Shirikisho la Elimu la Jiji la Irkutsk

Chuo Kikuu cha Jimbo la Baikal cha Uchumi na Sheria

Idara ya Habari na Cybernetics

Usambazaji wa Chi-mraba na matumizi yake

Kolmykova Anna Andreevna

Mwanafunzi wa mwaka wa 2

kikundi IS-09-1

Irkutsk 2010

Utangulizi

1. Usambazaji wa Chi-mraba

Maombi

Hitimisho

Bibliografia

Utangulizi

Je, mbinu, mawazo na matokeo ya nadharia ya uwezekano hutumika vipi katika maisha yetu?

Msingi ni mfano wa uwezekano wa jambo halisi au mchakato, i.e. kielelezo cha hisabati ambamo mahusiano ya kimalengo yanaonyeshwa kwa mujibu wa nadharia ya uwezekano. Uwezekano hutumiwa kimsingi kuelezea kutokuwa na hakika ambayo lazima izingatiwe wakati wa kufanya maamuzi. Hii inarejelea fursa zisizohitajika (hatari) na zile za kuvutia ("nafasi ya bahati"). Wakati mwingine bahati nasibu huletwa kwa makusudi katika hali, kwa mfano, wakati wa kuchora kura, kuchagua kwa nasibu vitengo vya kudhibiti, kufanya bahati nasibu au kufanya uchunguzi wa watumiaji.

Nadharia ya uwezekano inaruhusu uwezekano mmoja kutumika kukokotoa wengine wa maslahi kwa mtafiti.

Mfano wa uwezekano wa jambo au mchakato ni msingi wa takwimu za hisabati. Msururu wa dhana mbili sambamba hutumiwa - zile zinazohusiana na nadharia (mfano wa uwezekano) na zile zinazohusiana na mazoezi (sampuli za matokeo ya uchunguzi). Kwa mfano, uwezekano wa kinadharia unalingana na mzunguko unaopatikana kutoka kwa sampuli. Matarajio ya hisabati (msururu wa kinadharia) inalingana na wastani wa sampuli ya hesabu (msururu wa vitendo). Kama sheria, sifa za sampuli ni makadirio ya zile za kinadharia. Wakati huo huo, kiasi kinachohusiana na mfululizo wa kinadharia "ziko katika vichwa vya watafiti", vinahusiana na ulimwengu wa mawazo (kulingana na mwanafalsafa wa kale wa Kigiriki Plato), na haipatikani kwa kipimo cha moja kwa moja. Watafiti wana data ya sampuli pekee ambayo hujaribu kubaini sifa za kielelezo cha uwezekano wa kinadharia ambacho kinawavutia.

Kwa nini tunahitaji mfano wa uwezekano? Ukweli ni kwamba kwa msaada wake tu mali iliyoanzishwa kutoka kwa uchambuzi wa sampuli maalum inaweza kuhamishiwa kwa sampuli zingine, na pia kwa watu wote wanaoitwa jumla. Neno "idadi ya watu" hutumiwa wakati wa kurejelea mkusanyiko mkubwa lakini wenye kikomo wa vitengo vinavyosomwa. Kwa mfano, kuhusu jumla ya wakazi wote wa Urusi au jumla ya watumiaji wote wa kahawa ya papo hapo huko Moscow. Lengo la tafiti za uuzaji au za kisosholojia ni kuhamisha taarifa zilizopatikana kutoka kwa sampuli ya mamia au maelfu ya watu hadi kwa idadi ya watu milioni kadhaa. Katika udhibiti wa ubora, kundi la bidhaa hufanya kama idadi ya watu kwa ujumla.

Ili kuhamisha mahitimisho kutoka kwa sampuli hadi kwa idadi kubwa zaidi kunahitaji mawazo fulani kuhusu uhusiano wa sifa za sampuli na sifa za idadi hii kubwa zaidi. Mawazo haya yanatokana na modeli inayofaa ya uwezekano.

Kwa kweli, inawezekana kusindika data ya sampuli bila kutumia mfano mmoja au mwingine wa uwezekano. Kwa mfano, unaweza kuhesabu sampuli ya maana ya hesabu, kuhesabu mzunguko wa utimilifu wa hali fulani, nk. Walakini, matokeo ya hesabu yatahusiana tu na sampuli maalum; kuhamisha hitimisho zilizopatikana kwa msaada wao kwa idadi nyingine yoyote sio sahihi. Shughuli hii wakati mwingine huitwa "uchambuzi wa data." Ikilinganishwa na mbinu za takwimu za uwezekano, uchambuzi wa data una thamani ndogo ya elimu.

Kwa hivyo, utumiaji wa mifano ya uwezekano kulingana na ukadiriaji na upimaji wa dhahania kwa kutumia sifa za sampuli ndio kiini cha mbinu za takwimu za uwezekano wa kufanya maamuzi.

Usambazaji wa Chi-mraba

Kwa kutumia usambazaji wa kawaida, mgawanyo tatu hufafanuliwa ambao sasa hutumiwa mara nyingi katika usindikaji wa takwimu. Hizi ni mgawanyo wa Pearson ("chi-squared"), Mwanafunzi na Fisher.

Tutazingatia usambazaji

("chi - mraba"). Usambazaji huu ulichunguzwa kwa mara ya kwanza na mwanaastronomia F. Helmert mwaka wa 1876. Kuhusiana na nadharia ya makosa ya Gaussian, alisoma hesabu za miraba ya n vigeu visivyo vya kawaida vilivyosambazwa kwa kawaida. Baadaye Karl Pearson alitaja chaguo hili la kukokotoa la usambazaji kuwa "chi-mraba." Na sasa usambazaji una jina lake.

Kwa sababu ya uhusiano wake wa karibu na usambazaji wa kawaida, usambazaji wa χ2 una jukumu muhimu katika nadharia ya uwezekano na takwimu za hisabati. Usambazaji wa χ2, na ugawaji mwingine mwingi ambao unafafanuliwa na usambazaji wa χ2 (kwa mfano, usambazaji wa Wanafunzi), hufafanua ugawaji wa sampuli za kazi mbalimbali kutoka kwa matokeo ya uchunguzi yanayosambazwa kwa kawaida na hutumiwa kuunda vipindi vya kujiamini na majaribio ya takwimu.

Usambazaji wa Pearson

(chi - mraba) - usambazaji wa kutofautiana kwa random, ambapo X1, X2, ..., Xn ni vigezo vya kawaida vya kujitegemea vya random, na matarajio ya hisabati ya kila mmoja wao ni sifuri, na kupotoka kwa kawaida ni moja.

Jumla ya mraba


kusambazwa kwa mujibu wa sheria

("chi - mraba").

Katika kesi hii, idadi ya masharti, i.e. n inaitwa "idadi ya digrii za uhuru" ya usambazaji wa chi-mraba. Kadiri idadi ya digrii za uhuru inavyoongezeka, usambazaji polepole unakaribia kawaida.

Msongamano wa usambazaji huu


Kwa hivyo, usambazaji wa χ2 inategemea parameter moja n - idadi ya digrii za uhuru.

Kitendakazi cha usambazaji χ2 kina fomu:


ikiwa χ2≥0. (2.7.)

Kielelezo cha 1 kinaonyesha grafu ya uzito wa uwezekano na chaguo za kukokotoa χ2 za usambaaji kwa viwango tofauti vya uhuru.

Picha 1 Utegemezi wa msongamano wa uwezekano φ (x) katika usambazaji χ2 (chi - mraba) kwa idadi tofauti ya digrii za uhuru.

Nyakati za usambazaji wa chi-mraba:

Usambazaji wa chi-mraba hutumika katika kukadiria tofauti (kwa kutumia muda wa kujiamini), kupima nadharia za makubaliano, usawa, uhuru, hasa kwa vigeu vya ubora (vilivyoainishwa) ambavyo huchukua idadi fulani ya thamani, na katika kazi nyingine nyingi za uchanganuzi wa data ya takwimu. .

2. "Chi-mraba" katika matatizo ya uchambuzi wa takwimu za takwimu

Mbinu za takwimu za uchambuzi wa data hutumiwa katika karibu maeneo yote ya shughuli za binadamu. Zinatumika wakati wowote inapohitajika kupata na kuhalalisha hukumu zozote kuhusu kikundi (vitu au masomo) yenye tofauti tofauti za ndani.

Hatua ya kisasa ya maendeleo ya mbinu za takwimu inaweza kuhesabiwa kutoka 1900, wakati Mwingereza K. Pearson alianzisha jarida "Biometrika". Theluthi ya kwanza ya karne ya ishirini. kupita chini ya ishara ya takwimu parametric. Mbinu zilichunguzwa kulingana na uchanganuzi wa data kutoka kwa familia za parametric za usambazaji zilizoelezewa na curves za familia ya Pearson. Maarufu zaidi ilikuwa usambazaji wa kawaida. Ili kujaribu nadharia, majaribio ya Pearson, Mwanafunzi na Fisher yalitumiwa. Mbinu ya juu zaidi ya uwezekano na uchanganuzi wa tofauti zilipendekezwa, na mawazo ya msingi ya upangaji wa majaribio yaliundwa.

Usambazaji wa chi-mraba ni mojawapo ya inayotumika sana katika takwimu kwa ajili ya majaribio ya nadharia tete za takwimu. Kulingana na usambazaji wa chi-mraba, mojawapo ya majaribio ya nguvu zaidi ya wema hutengenezwa - jaribio la Pearson chi-square.

Kigezo cha makubaliano ni kigezo cha kupima hypothesis kuhusu sheria inayodhaniwa ya usambazaji usiojulikana.

Jaribio la χ2 (chi-mraba) hutumika kujaribu nadharia tete ya usambazaji mbalimbali. Hii ni heshima yake.

Fomula ya hesabu ya kigezo ni sawa na

ambapo m na m’ ni masafa ya majaribio na ya kinadharia, mtawalia

usambazaji unaohusika;

n ni idadi ya digrii za uhuru.

Ili kuangalia, tunahitaji kulinganisha majaribio (yanayozingatiwa) na ya kinadharia (yaliyohesabiwa chini ya dhana ya usambazaji wa kawaida) masafa.

Ikiwa masafa ya majaribio yanapatana kabisa na masafa yaliyokokotolewa au yanayotarajiwa, S (E - T) = 0 na kigezo cha χ2 pia kitakuwa sawa na sifuri. Ikiwa S (E - T) si sawa na sifuri, hii itaonyesha utofauti kati ya masafa yaliyokokotolewa na masafa ya majaribio ya mfululizo. Katika hali hiyo, ni muhimu kutathmini umuhimu wa kigezo cha χ2, ambacho kinadharia kinaweza kutofautiana kutoka sifuri hadi infinity. Hii inafanywa kwa kulinganisha thamani halisi iliyopatikana ya χ2ф na thamani yake muhimu (χ2st). Dhana potofu, yaani dhana kwamba tofauti kati ya masafa ya majaribio na ya kinadharia au inayotarajiwa ni ya nasibu, inakanushwa ikiwa χ2ф ni kubwa kuliko au sawa na χ2 kwa kiwango cha umuhimu kinachokubalika (a) na idadi ya digrii za uhuru (n).

Jaribio la chi-square ni mbinu ya jumla ya kukagua makubaliano kati ya matokeo ya jaribio na muundo wa takwimu uliotumika.

Umbali wa Pearson X 2

Pyatnitsky A.M.

Chuo Kikuu cha Matibabu cha Jimbo la Urusi

Mnamo 1900, Karl Pearson alipendekeza njia rahisi, ya ulimwengu wote na nzuri ya kujaribu makubaliano kati ya utabiri wa mfano na data ya majaribio. "Jaribio la chi-square" alilopendekeza ndilo jaribio la takwimu muhimu zaidi na linalotumiwa sana. Shida nyingi zinazohusiana na kukadiria vigezo vya mfano visivyojulikana na kuangalia makubaliano kati ya mfano na data ya majaribio inaweza kutatuliwa kwa msaada wake.

Hebu kuwe na priori ("majaribio ya awali") ya kitu au mchakato unaosomwa (katika takwimu wanazungumzia "dhahania isiyo na maana" H 0), na matokeo ya jaribio na kitu hiki. Inahitajika kuamua ikiwa mfano huo ni wa kutosha (unalingana na ukweli)? Je, matokeo ya majaribio yanakinzana na mawazo yetu kuhusu jinsi uhalisia unavyofanya kazi, au kwa maneno mengine, je, H0 inapaswa kukataliwa? Mara nyingi kazi hii inaweza kupunguzwa kwa kulinganisha iliyozingatiwa (O i = Imezingatiwa) na inayotarajiwa kulingana na mfano (E i = Inatarajiwa) masafa ya wastani ya tukio la matukio fulani. Inaaminika kuwa masafa yaliyozingatiwa yalipatikana katika mfululizo wa uchunguzi wa N wa kujitegemea (!) uliofanywa chini ya hali ya mara kwa mara (!). Kama matokeo ya kila uchunguzi, moja ya matukio ya M hurekodiwa. Matukio haya hayawezi kutokea wakati huo huo (hayaendani katika jozi) na moja yao hutokea (mchanganyiko wao huunda tukio la kuaminika). Jumla ya uchunguzi wote umepunguzwa kwa jedwali (vekta) ya masafa (O i )=(O 1 ,… O M ), ambayo inaelezea kabisa matokeo ya jaribio. Thamani O 2 =4 inamaanisha kuwa nambari ya tukio 2 ilitokea mara 4. Jumla ya masafa O 1 +… O M =N. Ni muhimu kutofautisha kati ya kesi mbili: N - fasta, isiyo ya nasibu, N - kutofautiana kwa nasibu. Kwa jumla ya idadi isiyobadilika ya majaribio N, masafa yana usambazaji wa polinomia. Wacha tuonyeshe mpango huu wa jumla kwa mfano rahisi.

Kwa kutumia jaribio la chi-mraba kujaribu dhahania rahisi.

Hebu mfano (null hypothesis H 0) iwe kwamba kufa ni sawa - nyuso zote zionekane kwa usawa mara nyingi na uwezekano p i =1/6, i =, M=6. Jaribio lilifanyika ambapo kifo kilitupwa mara 60 (N = majaribio 60 ya kujitegemea yalifanyika). Kulingana na mfano huo, tunatarajia kwamba masafa yote yaliyozingatiwa O i ya tukio 1,2,... pointi 6 zinapaswa kuwa karibu na maadili yao ya wastani E i =Np i =60∙(1/6)=10. Kulingana na H 0, vekta ya masafa ya wastani (E i )=(Np i )=(10, 10, 10, 10, 10, 10). (Hypotheses ambayo masafa ya wastani yanajulikana kabisa kabla ya kuanza kwa jaribio huitwa rahisi.) Ikiwa vector iliyozingatiwa (O i ) ilikuwa sawa na (34,0,0,0,0,26), basi ni mara moja. wazi kwamba mfano huo si sahihi - mfupa hauwezi kuwa sahihi, kwa kuwa 1 tu na 6 zilipigwa mara 60. Uwezekano wa tukio hilo kwa kete sahihi ni ndogo: P = (2/6) 60 = 2.4 * 10 -29. Walakini, kuonekana kwa tofauti za wazi kati ya mfano na uzoefu ni ubaguzi. Hebu vector ya masafa yaliyozingatiwa (O i) iwe sawa na (5, 15, 6, 14, 4, 16). Je, hii inalingana na H0? Kwa hiyo, tunahitaji kulinganisha vectors mbili za mzunguko (E i) na (O i). Katika kesi hii, vekta ya masafa yanayotarajiwa (Ei) sio nasibu, lakini vekta ya masafa yaliyozingatiwa (Oi) ni ya nasibu - wakati wa jaribio linalofuata (katika safu mpya ya 60) itageuka kuwa tofauti. Ni muhimu kuanzisha tafsiri ya kijiometri ya tatizo na kudhani kuwa katika nafasi ya mzunguko (katika kesi hii 6-dimensional) pointi mbili hupewa na kuratibu (5, 15, 6, 14, 4, 16) na (10, 10, 10, 10, 10, 10). Je, ziko mbali vya kutosha kufikiria hii haiendani na H 0 ? Kwa maneno mengine, tunahitaji:

  1. jifunze kupima umbali kati ya masafa (pointi katika nafasi ya masafa),
  2. kuwa na kigezo cha umbali gani unapaswa kuzingatiwa pia ("implausibly") kubwa, yaani, haiendani na H 0 .

Mraba wa umbali wa kawaida wa Euclidean utakuwa sawa na:

X 2 Euclid = S(O i -E i) 2 = (5-10) 2 +(15-10) 2 + (6-10) 2 +(14-10) 2 +(4-10) 2 +(16-10) 2

Katika kesi hii, nyuso X 2 Euclid = const daima ni nyanja ikiwa tutarekebisha maadili ya E i na kubadilisha O i . Karl Pearson alibainisha kuwa matumizi ya umbali wa Euclidean katika nafasi ya masafa haipaswi kutumiwa. Kwa hivyo, si sahihi kudhani kwamba pointi (O = 1030 na E = 1000) na (O = 40 na E = 10) ziko katika umbali sawa kutoka kwa kila mmoja, ingawa katika hali zote mbili tofauti ni O -E = 30. Baada ya yote, juu ya mzunguko unaotarajiwa, kupotoka zaidi kutoka kwake kunapaswa kuzingatiwa iwezekanavyo. Kwa hiyo, pointi (O = 1030 na E = 1000) zinapaswa kuchukuliwa "karibu", na pointi (O = 40 na E = 10) "mbali" kutoka kwa kila mmoja. Inaweza kuonyeshwa kwamba ikiwa dhana H 0 ni kweli, basi mabadiliko ya mara kwa mara O i jamaa na E i ni ya mpangilio wa mzizi wa mraba(!) wa E i . Kwa hiyo, Pearson alipendekeza, wakati wa kuhesabu umbali, ili mraba sio tofauti (O i -E i), lakini tofauti za kawaida (O i -E i) / E i 1/2. Kwa hivyo hapa kuna fomula ya kuhesabu umbali wa Pearson (kwa kweli ni mraba wa umbali):

X 2 Pearson = S((O i -E i )/E i 1/2) 2 = S(O i -E i ) 2 /E i

Katika mfano wetu:

X 2 Pearson = (5-10) 2 /10+(15-10) 2 /10 +(6-10) 2 /10+(14-10) 2 /10+(4-10) 2 /10+( 16-10) 2 /10=15.4

Kwa kufa mara kwa mara, masafa yote yanayotarajiwa E i ni sawa, lakini kwa kawaida huwa tofauti, kwa hivyo nyuso ambazo umbali wa Pearson ni mara kwa mara (X 2 Pearson =const) hugeuka kuwa ellipsoids, si tufe.

Sasa kwa kuwa formula ya kuhesabu umbali imechaguliwa, ni muhimu kujua ni umbali gani unapaswa kuzingatiwa "sio kubwa sana" (sawa na H 0) Kwa hiyo, kwa mfano, tunaweza kusema nini kuhusu umbali tuliohesabu 15.4 ? Ni katika asilimia ngapi ya matukio (au kwa uwezekano gani) tutapata umbali mkubwa zaidi ya 15.4 tunapofanya majaribio na kufa kwa kawaida? Ikiwa asilimia hii ni ndogo (<0.05), то H 0 надо отвергнуть. Иными словами требуется найти распределение длярасстояния Пирсона. Если все ожидаемые частоты E i не слишком малы (≥5), и верна H 0 , то нормированные разности (O i - E i )/E i 1/2 приближенно эквивалентны стандартным гауссовским случайным величинам: (O i - E i )/E i 1/2 ≈N (0,1). Это, например, означает, что в 95% случаев| (O i - E i )/E i 1/2 | < 1.96 ≈ 2 (правило “двух сигм”).

Maelezo. Idadi ya vipimo O i inayoanguka kwenye seli ya jedwali yenye nambari i ina usambazaji wa binomial na vigezo: m =Np i =E i,σ =(Np i (1-p i)) 1/2, ambapo N ni nambari. ya vipimo (N " 1), p i ni uwezekano wa kipimo kimoja kuanguka kwenye seli fulani (kumbuka kwamba vipimo vinajitegemea na hufanyika chini ya hali ya mara kwa mara). Ikiwa p i ni ndogo, basi: σ≈(Np i ) 1/2 =E i na usambazaji wa binomial uko karibu na Poisson, ambapo wastani wa idadi ya uchunguzi E i =λ, na kupotoka kwa kawaida σ=λ 1/2 = E i 1/2. Kwa λ≥5, usambazaji wa Poisson uko karibu na N kawaida (m =E i =λ, σ=E i 1/2 =λ 1/2), na thamani ya kawaida (O i - E i )/E i 1 /2 ≈ N (0 ,1).

Pearson alifafanua kigezo cha nasibu χ 2 n – “chi-mraba chenye viwango vya n vya uhuru”, kama jumla ya miraba ya n vigeu vya kawaida vya nasibu vinavyojitegemea:

χ 2 n = T 1 2 + T 2 2 + …+ T n 2 , kila mtu yuko wapi T i = N(0,1) - n. O. R. Na. V.

Wacha tujaribu kuelewa wazi maana ya utofauti huu muhimu zaidi wa takwimu katika takwimu. Ili kufanya hivyo, kwenye ndege (na n = 2) au katika nafasi (na n = 3) tunawasilisha wingu la pointi ambazo kuratibu zake ni huru na kuwa na usambazaji wa kawaida wa T (x) ~ exp (-x 2 / 2). ) Kwenye ndege, kulingana na sheria ya "sigma mbili", ambayo inatumika kwa uhuru kwa kuratibu zote mbili, 90% (0.95 * 0.95≈0.90) ya pointi ziko ndani ya mraba (-2).

f χ 2 2 (a) = Сexp(-a/2) = 0.5exp(-a/2).

Kwa idadi kubwa ya kutosha ya digrii za uhuru n (n > 30), usambazaji wa chi-mraba unakaribia kawaida: N (m = n; σ = (2n) ½). Haya ni matokeo ya "nadharia ya kikomo cha kati": jumla ya idadi iliyosambazwa sawa na tofauti ya kikomo inakaribia sheria ya kawaida kadri idadi ya maneno inavyoongezeka.

Katika mazoezi, unahitaji kukumbuka kuwa mraba wa wastani wa umbali ni sawa na m (χ 2 n) = n, na tofauti yake ni σ 2 (χ 2 n) = 2n. Kuanzia hapa ni rahisi kuhitimisha ni thamani zipi za chi-mraba zinazopaswa kuzingatiwa kuwa ndogo sana na kubwa sana: usambazaji mwingi uko katika safu kutoka n -2∙(2n) ½ hadi n +2∙(2n) ½.

Kwa hivyo, umbali wa Pearson unaozidi kwa kiasi kikubwa n +2∙ (2n) ½ unapaswa kuzingatiwa kuwa ni mkubwa sana (hauendani na H 0). Ikiwa matokeo yanakaribia n +2∙(2n) ½, basi unapaswa kutumia majedwali ambayo unaweza kujua haswa katika idadi gani ya kesi kama hizo na maadili makubwa ya chi-mraba yanaweza kuonekana.

Ni muhimu kujua jinsi ya kuchagua thamani sahihi kwa idadi ya digrii za uhuru (kifupi n.d.f.). Ilionekana kawaida kudhani kuwa n ilikuwa sawa na idadi ya nambari: n =M. Katika makala yake, Pearson alipendekeza hivyo. Katika mfano wa kete, hii itamaanisha kuwa n =6. Walakini, miaka kadhaa baadaye ilionyeshwa kuwa Pearson alikosea. Idadi ya digrii za uhuru daima huwa chini ya idadi ya tarakimu ikiwa kuna miunganisho kati ya viambajengo vya nasibu O i. Kwa mfano wa kete, jumla ya O i ni 60, na masafa 5 tu yanaweza kubadilishwa kwa kujitegemea, kwa hivyo thamani sahihi ni n = 6-1 = 5. Kwa thamani hii ya n tunapata n +2∙(2n) ½ =5+2∙(10) ½ =11.3. Tangu 15.4> 11.3, basi hypothesis H 0 - kufa ni sahihi, inapaswa kukataliwa.

Baada ya kufafanua kosa, meza zilizopo χ 2 zilipaswa kuongezwa, kwa kuwa mwanzoni hawakuwa na kesi n = 1, kwa kuwa idadi ndogo ya tarakimu = 2. Sasa inageuka kuwa kunaweza kuwa na matukio wakati umbali wa Pearson una usambazaji χ 2 n =1.

Mfano. Kwa sarafu 100 za sarafu, idadi ya vichwa ni O 1 = 65, na mikia O 2 = 35. Idadi ya tarakimu ni M = 2. Ikiwa sarafu ni ya ulinganifu, basi masafa yanayotarajiwa ni E 1 =50, E 2 =50.

X 2 Pearson = S(O i -E i) 2 /E i = (65-50) 2 /50 + (35-50) 2 /50 = 2*225/50 = 9.

Thamani inayotokana inapaswa kulinganishwa na zile ambazo ubadilishaji nasibu χ 2 n =1 unaweza kuchukua, unaofafanuliwa kama mraba wa thamani ya kawaida ya kawaida χ 2 n =1 =T 1 2 ≥ 9 ó T 1 ≥3 au T 1 ≤-3. Uwezekano wa tukio hilo ni chini sana P (χ 2 n =1 ≥9) = 0.006. Kwa hiyo, sarafu haiwezi kuchukuliwa kuwa ya ulinganifu: H 0 inapaswa kukataliwa. Ukweli kwamba idadi ya digrii za uhuru haiwezi kuwa sawa na idadi ya tarakimu ni dhahiri kutokana na ukweli kwamba jumla ya masafa yaliyozingatiwa daima ni sawa na jumla ya wale wanaotarajiwa, kwa mfano O 1 +O 2 =65+ 35 = E 1 +E 2 =50+50=100. Kwa hiyo, pointi za random na kuratibu O 1 na O 2 ziko kwenye mstari wa moja kwa moja: O 1 + O 2 = E 1 + E 2 = 100 na umbali wa kituo unageuka kuwa chini kuliko ikiwa kizuizi hiki hakikuwepo na walikuwa kwenye ndege nzima. Kwa kweli, kwa anuwai mbili za nasibu zilizo na matarajio ya hesabu E 1 = 50, E 2 = 50, jumla ya utambuzi wao haipaswi kuwa sawa na 100 - kwa mfano, maadili O 1 = 60, O 2 = 55 ingekuwa. kukubalika.

Maelezo. Wacha tulinganishe matokeo ya kigezo cha Pearson kwa M = 2 na kile formula ya Moivre-Laplace inatoa wakati wa kukadiria mabadiliko ya nasibu katika mzunguko wa kutokea kwa tukio ν =K /N kuwa na uwezekano wa p katika safu ya majaribio ya N huru ya Bernoulli ( K ni idadi ya mafanikio):

χ 2 n =1 = S(O i -E i) 2 /E i = (O 1 -E 1) 2 /E 1 + (O 2 -E 2) 2 /E 2 = (Nν -Np) 2 /(Np) + (N ( 1-ν )-N (1-p )) 2 /(N (1-p ))=

=(Nν-Np) 2 (1/p + 1/(1-p))/N=(Nν-Np) 2 /(Np(1-p))=((K-Np)/(Npq) ½ ) 2 = T 2

Thamani T =(K -Np)/(Npq) ½ = (K -m (K))/σ(K) ≈N (0.1) pamoja na σ(K)=(Npq) ½ ≥3. Tunaona kwamba katika kesi hii matokeo ya Pearson yanalingana kabisa na kile ukadiriaji wa kawaida hutoa kwa usambazaji wa binomial.

Kufikia sasa tumezingatia nadharia rahisi ambazo masafa ya wastani ya E i yanajulikana mapema. Kwa habari juu ya jinsi ya kuchagua idadi sahihi ya digrii za uhuru kwa nadharia ngumu, tazama hapa chini.

Kwa kutumia jaribio la chi-mraba kujaribu dhahania changamano

Katika mifano iliyo na sarafu na sarafu ya kawaida, masafa yanayotarajiwa yanaweza kubainishwa kabla ya(!) jaribio. Dhana kama hizo huitwa "rahisi". Katika mazoezi, "hypotheses tata" ni ya kawaida zaidi. Zaidi ya hayo, ili kupata masafa yanayotarajiwa E i ni muhimu kwanza kukadiria idadi moja au kadhaa (vigezo vya mfano), na hii inaweza kufanyika tu kwa kutumia data ya majaribio. Kama matokeo, kwa "dhahania ngumu" masafa yanayotarajiwa E i hubadilika kutegemea masafa yaliyozingatiwa O i na kwa hivyo yenyewe huwa anuwai ya nasibu, tofauti kulingana na matokeo ya jaribio. Katika mchakato wa kuchagua vigezo, umbali wa Pearson hupungua - vigezo vinachaguliwa ili kuboresha makubaliano kati ya mfano na majaribio. Kwa hiyo, idadi ya digrii za uhuru inapaswa kupungua.

Jinsi ya kukadiria vigezo vya mfano? Kuna njia nyingi tofauti za kukadiria - "njia ya uwezekano wa juu", "mbinu ya wakati", "mbinu ya uingizwaji". Hata hivyo, huwezi kutumia fedha zozote za ziada na kupata makadirio ya vigezo kwa kupunguza umbali wa Pearson. Katika enzi ya kabla ya kompyuta, mbinu hii haikutumiwa sana: haifai kwa mahesabu ya mwongozo na, kama sheria, haiwezi kutatuliwa kwa uchambuzi. Wakati wa kuhesabu kwenye kompyuta, upunguzaji wa nambari kawaida ni rahisi kutekeleza, na faida ya njia hii ni utofauti wake. Kwa hivyo, kulingana na "njia ya upunguzaji wa chi-mraba," tunachagua maadili ya vigezo visivyojulikana ili umbali wa Pearson uwe mdogo zaidi. (Kwa njia, kwa kusoma mabadiliko katika umbali huu na uhamishaji mdogo unaohusiana na kiwango cha chini kilichopatikana, unaweza kukadiria kipimo cha usahihi wa makadirio: jenga vipindi vya kujiamini.) Baada ya vigezo na umbali huu wa chini yenyewe umepatikana, ni. tena muhimu kujibu swali la ikiwa ni ndogo ya kutosha.

Mlolongo wa jumla wa vitendo ni kama ifuatavyo.

  1. Uchaguzi wa mfano (hypothesis H 0).
  2. Uteuzi wa tarakimu na uamuzi wa vector ya masafa yaliyozingatiwa O i.
  3. Ukadiriaji wa vigezo vya mfano visivyojulikana na ujenzi wa vipindi vya kujiamini kwao (kwa mfano, kwa kutafuta umbali wa chini wa Pearson).
  4. Uhesabuji wa masafa yanayotarajiwa E i.
  5. Ulinganisho wa thamani iliyopatikana ya umbali wa Pearson X 2 na thamani muhimu ya chi-mraba χ 2 crit - kubwa zaidi, ambayo bado inachukuliwa kuwa ya kuaminika, inayolingana na H 0. Tunapata thamani χ 2 crit kutoka kwa meza kwa kutatua equation

P (χ 2 n > χ 2 kihakiki)=1-α,

ambapo α ni "kiwango cha umuhimu" au "ukubwa wa kigezo" au "ukubwa wa hitilafu ya aina ya kwanza" (thamani ya kawaida α = 0.05).

Kawaida idadi ya digrii za uhuru n huhesabiwa kwa kutumia fomula

n = (idadi ya tarakimu) - 1 - (idadi ya vigezo vinavyokadiriwa)

Ikiwa X 2 > χ 2 crit, basi hypothesis H 0 inakataliwa, vinginevyo inakubaliwa. Katika α∙100% ya kesi (hiyo ni mara chache sana), njia hii ya kuangalia H 0 itasababisha "kosa la aina ya kwanza": hypothesis H 0 itakataliwa kimakosa.

Mfano. Wakati wa kusoma safu 10 za mbegu 100, idadi ya walioambukizwa na nzi wenye macho ya kijani ilihesabiwa. Data iliyopokelewa: O i =(16, 18, 11, 18, 21, 10, 20, 18, 17, 21);

Hapa vekta ya masafa yanayotarajiwa haijulikani mapema. Ikiwa data ni homogeneous na kupatikana kwa usambazaji wa binomial, basi parameter moja haijulikani: uwiano p wa mbegu zilizoambukizwa. Kumbuka kuwa katika jedwali la asili hakuna masafa 10 lakini 20 ambayo yanakidhi viunganisho 10: 16+84=100, ... 21+79=100.

X 2 = (16-100p) 2 /100p +(84-100(1-p)) 2 /(100(1-p))+…+

(21-100p) 2 /100p +(79-100(1-p)) 2 /(100(1-p))

Kuchanganya maneno katika jozi (kama katika mfano na sarafu), tunapata fomu ya kuandika kigezo cha Pearson, ambacho kawaida huandikwa mara moja:

X 2 = (16-100p) 2 /(100p(1-p))+…+ (21-100p) 2 /(100p(1-p)).

Sasa, ikiwa umbali wa chini wa Pearson unatumika kama njia ya kukadiria p, basi ni muhimu kupata p ambayo X 2 =min. (Mfano hujaribu, ikiwezekana, "kurekebisha" kwa data ya majaribio.)

Kigezo cha Pearson ndicho kinachotumika ulimwenguni kote katika takwimu. Inaweza kutumika kwa data isiyo ya kawaida na ya multivariate, vipengele vya kiasi na ubora. Walakini, haswa kwa sababu ya utofauti wake, mtu anapaswa kuwa mwangalifu asifanye makosa.

Pointi muhimu

1.Uteuzi wa kategoria.

  • Ikiwa usambazaji ni tofauti, basi kwa kawaida hakuna kiholela katika uchaguzi wa tarakimu.
  • Ikiwa usambazaji unaendelea, basi uholela hauepukiki. Vitalu vinavyolingana kitakwimu vinaweza kutumika (zote O ni sawa, kwa mfano =10). Hata hivyo, urefu wa vipindi ni tofauti. Wakati wa kufanya mahesabu ya mwongozo, walijaribu kufanya vipindi sawa. Vipindi wakati wa kusoma usambazaji wa sifa isiyo ya kawaida inapaswa kuwa sawa? Hapana.
  • Nambari lazima ziunganishwe kwa njia ambayo masafa yanayotarajiwa (hayajazingatiwa!) sio ndogo sana (≥5). Tukumbuke kwamba ni wao (E i) walio katika madhehebu wakati wa kukokotoa X 2! Wakati wa kuchambua sifa za mwelekeo mmoja, inaruhusiwa kukiuka sheria hii katika tarakimu mbili kali E 1 = E max =1. Ikiwa idadi ya tarakimu ni kubwa na masafa yanayotarajiwa yanakaribia, basi X 2 ni makadirio mazuri ya χ 2 hata kwa E i =2.

Makadirio ya Parameta. Matumizi ya mbinu za "zinazotengenezwa nyumbani", mbinu zisizofaa za kukadiria zinaweza kusababisha viwango vya umbali vya Pearson vilivyopanda.

Kuchagua idadi sahihi ya digrii za uhuru. Ikiwa makadirio ya parameta hayajafanywa kutoka kwa masafa, lakini moja kwa moja kutoka kwa data (kwa mfano, maana ya hesabu inachukuliwa kama makadirio ya wastani), basi idadi kamili ya digrii za uhuru n haijulikani. Tunajua tu kwamba inakidhi ukosefu wa usawa:

(idadi ya tarakimu - 1 - idadi ya vigezo vinavyotathminiwa)< n < (число разрядов – 1)

Kwa hivyo, inahitajika kulinganisha X 2 na maadili muhimu ya χ 2 crit iliyohesabiwa katika safu hii ya n.

Jinsi ya kutafsiri maadili madogo ya mraba ya chi? Je! sarafu inapaswa kuzingatiwa kuwa ya ulinganifu ikiwa, baada ya kurusha 10,000, inatua kwenye nembo mara 5,000? Hapo awali, wanatakwimu wengi waliamini kuwa H 0 inapaswa pia kukataliwa. Sasa mbinu nyingine inapendekezwa: kukubali H 0, lakini somo data na mbinu ya uchambuzi wao kwa uthibitishaji wa ziada. Kuna uwezekano mbili: ama umbali mdogo sana wa Pearson inamaanisha kuwa kuongeza idadi ya vigezo vya mfano hakuambatana na kupungua kwa idadi ya digrii za uhuru, au data yenyewe ilidanganywa (labda kubadilishwa bila kukusudia kwa matokeo yaliyotarajiwa).

Mfano. Watafiti wawili A na B walikokotoa uwiano wa homozigoti recessive aa katika kizazi cha pili cha AA * aa msalaba mseto. Kulingana na sheria za Mendel, sehemu hii ni 0.25. Kila mtafiti alifanya majaribio 5, na viumbe 100 vilichunguzwa katika kila jaribio.

Matokeo A: 25, 24, 26, 25, 24. Hitimisho la mtafiti: Sheria ya Mendel ni kweli(?).

Matokeo B: 29, 21, 23, 30, 19. Hitimisho la mtafiti: Sheria ya Mendel si ya haki(?).

Hata hivyo, sheria ya Mendel ni ya kitakwimu, na uchanganuzi wa kiasi wa matokeo unageuza hitimisho! Kwa kuchanganya majaribio matano na kuwa moja, tunafika kwenye usambazaji wa chi-mraba na digrii 5 za uhuru (dhahania rahisi inajaribiwa):

X 2 A = ((25-25) 2 +(24-25) 2 +(26-25) 2 +(25-25) 2 +(24-25) 2)/(100∙0.25∙0.75)=0.16

X 2 B = ((29-25) 2 +(21-25) 2 +(23-25) 2 +(30-25) 2 +(19-25) 2)/(100∙0.25∙0.75)=5.17

Thamani ya wastani m [χ 2 n =5 ]=5, mkengeuko wa kawaida σ[χ 2 n =5 ]=(2∙5) 1/2 =3.2.

Kwa hiyo, bila kutaja meza, ni wazi kwamba thamani ya X 2 B ni ya kawaida, na thamani ya X 2 A ni ndogo sana. Kulingana na jedwali P (χ 2 n =5<0.16)<0.0001.

Mfano huu ni marekebisho ya kesi halisi iliyotokea katika miaka ya 1930 (angalia kazi ya Kolmogorov "Katika Uthibitisho Mwingine wa Sheria za Mendel"). Inashangaza, Mtafiti A alikuwa mtetezi wa genetics, wakati Mtafiti B alikuwa dhidi yake.

Kuchanganyikiwa katika nukuu. Ni muhimu kutofautisha umbali wa Pearson, ambao unahitaji kanuni za ziada katika hesabu yake, kutoka kwa dhana ya hisabati ya kutofautiana kwa nasibu ya chi-mraba. Umbali wa Pearson chini ya hali fulani una usambazaji karibu na chi-mraba na digrii n za uhuru. Kwa hiyo, ni vyema SI kuashiria umbali wa Pearson kwa ishara χ 2 n, lakini kutumia nukuu sawa lakini tofauti X 2. .

Kigezo cha Pearson sio muweza wa yote. Kuna idadi isiyo na kikomo ya njia mbadala za H 0 ambazo hawezi kuzingatia. Tuseme unajaribu nadharia kwamba kipengele hicho kilikuwa na usambazaji sawa, una nambari 10 na vekta ya masafa yaliyotazamwa ni sawa na (130,125,121,118,116,115,114,113,111,110). Kigezo cha Pearson hakiwezi "kutambua" kwamba masafa yanapungua mara moja na H 0 haitakataliwa. Ikiwa iliongezewa na kigezo cha mfululizo, basi ndiyo!

Katika makala hii tutazungumza juu ya utafiti wa utegemezi kati ya ishara, au unavyopendelea - maadili ya nasibu, vigezo. Hasa, tutaangalia jinsi ya kutambulisha kipimo cha utegemezi kati ya sifa kwa kutumia jaribio la Chi-square na kulinganisha na mgawo wa uunganisho.

Kwa nini hii inaweza kuhitajika? Kwa mfano, ili kuelewa ni vipengele vipi vinategemea zaidi tofauti inayolengwa wakati wa kuunda alama za mikopo - kubainisha uwezekano wa chaguo-msingi wa mteja. Au, kama ilivyo katika kesi yangu, kuelewa ni viashiria gani vinahitajika kutumika kupanga roboti ya biashara.

Kando, ningependa kutambua kuwa mimi hutumia lugha ya C # kwa uchambuzi wa data. Labda yote haya tayari yametekelezwa katika R au Python, lakini kutumia C # kwangu huniruhusu kuelewa mada kwa undani, zaidi ya hayo, ni lugha yangu ya programu ninayopenda.

Wacha tuanze na mfano rahisi sana, tengeneza safu wima nne kwenye Excel kwa kutumia jenereta ya nambari nasibu:
X=RADBETWEEN(-100,100)
Y =X*10+20
Z =X*X
T=RADBETWEEN(-100,100)

Kama unaweza kuona, kutofautiana Y kulingana na mstari X; kutofautiana Z tegemezi mara nne X; vigezo X Na T kujitegemea. Nilifanya chaguo hili kwa makusudi, kwa sababu tutalinganisha kipimo chetu cha utegemezi na mgawo wa uunganisho. Kama inavyojulikana, kati ya viambishi viwili vya nasibu ni sawa modulo 1 ikiwa aina "ngumu zaidi" ya utegemezi kati yao ni ya mstari. Kuna uhusiano wa sifuri kati ya anuwai mbili huru za nasibu, lakini usawa wa mgawo wa uunganisho hadi sifuri haimaanishi uhuru. Ifuatayo tutaona hii kwa kutumia mfano wa vigezo X Na Z.

Hifadhi faili kama data.csv na uanze makadirio ya kwanza. Kwanza, hebu tuhesabu mgawo wa uunganisho kati ya maadili. Sikuingiza nambari kwenye kifungu; iko kwenye github yangu. Tunapata uunganisho wa jozi zote zinazowezekana:

Inaweza kuonekana kuwa tegemezi linearly X Na Y mgawo wa uwiano ni 1. Lakini X Na Z ni sawa na 0.01, ingawa tuliweka utegemezi kwa uwazi Z=X*X. Kwa wazi, tunahitaji kipimo ambacho "huhisi" uraibu bora. Lakini kabla ya kuendelea na jaribio la Chi-square, hebu tuangalie matrix ya dharura ni nini.

Ili kuunda matrix ya dharura, tunagawanya anuwai ya thamani tofauti katika vipindi (au kuainisha). Kuna njia nyingi za kufanya hivyo, lakini hakuna njia ya ulimwengu wote. Baadhi yao hugawanywa katika vipindi ili wawe na idadi sawa ya vigezo, wengine wamegawanywa katika vipindi vya urefu sawa. Binafsi napenda kuchanganya mbinu hizi. Niliamua kutumia njia hii: Ninatoa alama ya mkeka kutoka kwa kutofautisha. matarajio, kisha ugawanye matokeo kwa makadirio ya mchepuko wa kawaida. Kwa maneno mengine, mimi huweka katikati na kurekebisha kutofautisha bila mpangilio. Thamani inayotokana inazidishwa na mgawo (katika mfano huu ni 1), baada ya hapo kila kitu kinazungushwa kwa nambari nzima iliyo karibu. Matokeo ni tofauti ya aina int, ambayo ni kitambulisho cha darasa.

Basi tuchukue ishara zetu X Na Z, tunagawanya kwa njia iliyoelezwa hapo juu, baada ya hapo tunahesabu idadi na uwezekano wa kuonekana kwa kila darasa na uwezekano wa kuonekana kwa jozi za vipengele:

Hii ni matrix kwa wingi. Hapa katika mistari - idadi ya matukio ya madarasa ya kutofautiana X, katika safu - idadi ya matukio ya madarasa ya kutofautiana Z, katika seli - idadi ya kuonekana kwa jozi za madarasa wakati huo huo. Kwa mfano, darasa la 0 lilitokea mara 865 kwa kutofautisha X, mara 823 kwa mabadiliko Z na hakukuwa na jozi (0,0). Wacha tuendelee kwa uwezekano kwa kugawa maadili yote na 3000 (jumla ya idadi ya uchunguzi):

Tulipata matrix ya dharura iliyopatikana baada ya kuainisha vipengele. Sasa ni wakati wa kufikiria juu ya kigezo. Kwa ufafanuzi, viambishi nasibu vinajitegemea ikiwa aljebra za sigma zinazozalishwa na vigeu hivi vya nasibu ni huru. Uhuru wa aljebra za sigma unamaanisha uhuru wa matukio kutoka kwa pande mbili. Matukio mawili yanaitwa huru ikiwa uwezekano wa tukio lao la pamoja ni sawa na bidhaa ya uwezekano wa matukio haya: Pij = Pi*Pj. Ni fomula hii tutakayotumia kujenga kigezo.

Dhana potofu: ishara zilizoainishwa X Na Z kujitegemea. Sawa nayo: usambazaji wa matrix ya dharura imeainishwa tu na uwezekano wa kutokea kwa madarasa ya anuwai (uwezekano wa safu na safu wima). Au hii: seli za matrix zinapatikana kwa bidhaa ya uwezekano unaolingana wa safu na safu. Tutatumia uundaji huu wa dhana potofu kuunda kanuni ya uamuzi: tofauti kubwa kati ya Pij Na Pi*Up itakuwa msingi wa kukataa dhana potofu.

Wacha iwe uwezekano wa darasa la 0 kuonekana kwa kutofautisha X. Jumla yetu n madarasa katika X Na m madarasa katika Z. Inatokea kwamba ili kutaja usambazaji wa matrix tunahitaji kujua haya n Na m uwezekano. Lakini kwa kweli, ikiwa tunajua n-1 uwezekano kwa X, kisha mwisho hupatikana kwa kutoa jumla ya wengine kutoka 1. Kwa hivyo, ili kupata usambazaji wa matrix ya dharura tunahitaji kujua l=(n-1)+(m-1) maadili. Au tunayo l-nafasi ya parametric ya dimensional, vekta ambayo inatupa usambazaji wetu unaotaka. Takwimu za Chi-square itaonekana kama hii:

na, kulingana na nadharia ya Fisher, kuwa na usambazaji wa Chi-mraba na n*m-l-1=(n-1)(m-1) digrii za uhuru.

Wacha tuweke kiwango cha umuhimu hadi 0.95 (au uwezekano wa kosa la aina I ni 0.05). Wacha tupate quantile ya usambazaji wa mraba wa Chi kwa kiwango fulani cha umuhimu na digrii za uhuru kutoka kwa mfano. (n-1)(m-1)=4*3=12: 21.02606982. Takwimu ya Chi-mraba yenyewe kwa vigeu X Na Z sawa na 4088.006631. Ni wazi kwamba dhana ya uhuru haikubaliki. Ni rahisi kuzingatia uwiano wa takwimu ya Chi-mraba kwa thamani ya kizingiti - katika kesi hii ni sawa na Chi2Coeff=194.4256186. Ikiwa uwiano huu ni chini ya 1, basi dhana ya uhuru inakubaliwa; ikiwa ni zaidi, basi sivyo. Wacha tupate uwiano huu kwa jozi zote za vipengele:

Hapa Sababu1 Na Sababu2- majina ya vipengele
src_cnt1 Na src_cnt2- idadi ya maadili ya kipekee ya huduma za awali
mod_cnt1 Na mod_cnt2- idadi ya maadili ya kipekee baada ya kuainisha
chi2- Takwimu za Chi-mraba
chi2 max- thamani ya kiwango cha juu cha takwimu ya Chi-square kwa kiwango cha umuhimu cha 0.95
chi2Coeff- uwiano wa takwimu ya Chi-mraba kwa thamani ya kiwango cha juu
kor- mgawo wa uwiano

Inaweza kuonekana kuwa wanajitegemea (chi2coeff<1) получились следующие пары признаков - (X,T), (Y,T) Na ( Z,T), ambayo ni ya kimantiki, tangu kutofautiana T inazalishwa bila mpangilio. Vigezo X Na Z tegemezi, lakini chini ya tegemezi la mstari X Na Y, ambayo pia ni ya kimantiki.

Nilichapisha msimbo wa matumizi ambayo huhesabu viashiria hivi kwenye github, ambapo faili ya data.csv pia iko. Huduma huchukua faili ya csv kama ingizo na kukokotoa utegemezi kati ya jozi zote za safu wima: PtProject.Dependency.exe data.csv

Matumizi ya kigezo hiki yanatokana na matumizi ya kipimo (takwimu) cha tofauti kati ya nadharia. F(x) na usambazaji wa majaribio F* n(x), ambayo takriban inatii sheria ya usambazaji χ 2 . Nadharia H 0 Uthabiti wa mgawanyo unaangaliwa kwa kuchambua usambazaji wa takwimu hizi. Utumiaji wa kigezo unahitaji ujenzi wa mfululizo wa takwimu.

Kwa hivyo, acha sampuli iwasilishwe kwa takwimu karibu na idadi ya tarakimu M. Kiwango cha hit kilichozingatiwa i- cheo cha th n i. Kwa mujibu wa sheria ya usambazaji wa kinadharia, marudio yanayotarajiwa ya hits katika i- kategoria ni F i. Tofauti kati ya masafa yanayotazamwa na yanayotarajiwa itakuwa ( n iF i) Ili kupata kiwango cha jumla cha tofauti kati ya F(x) Na F* n (x) inahitajika kukokotoa jumla iliyopimwa ya tofauti za mraba katika tarakimu zote za mfululizo wa takwimu

Thamani χ 2 na ukuzaji usio na kikomo n ina usambazaji χ 2 (imesambazwa bila dalili kama χ 2). Usambazaji huu unategemea idadi ya digrii za uhuru k, i.e. idadi ya maadili huru ya maneno katika kujieleza (3.7). Idadi ya digrii za uhuru ni sawa na nambari y ondoa idadi ya uhusiano wa mstari uliowekwa kwenye sampuli. Uunganisho mmoja upo kutokana na ukweli kwamba mzunguko wowote unaweza kuhesabiwa kutoka kwa jumla ya masafa katika iliyobaki M- tarakimu 1. Kwa kuongeza, ikiwa vigezo vya usambazaji havijulikani mapema, basi kuna upungufu mwingine kutokana na kufaa usambazaji kwa sampuli. Ikiwa sampuli itaamua S vigezo vya usambazaji, basi idadi ya digrii za uhuru itakuwa k=M –S–1.

Eneo la Kukubalika la Hypothesis H 0 imedhamiriwa na hali χ 2 < χ 2(k;a), wapi χ 2(k;a)- sehemu muhimu ya usambazaji χ2 yenye kiwango cha umuhimu a. Uwezekano wa aina ya kosa la I ni a, uwezekano wa kosa la aina ya II hauwezi kufafanuliwa kwa uwazi, kwa sababu kuna idadi kubwa sana ya njia tofauti ambazo ugawaji hauwezi kuendana. Nguvu ya mtihani inategemea idadi ya tarakimu na ukubwa wa sampuli. Kigezo kinapendekezwa kutumika wakati n>200, matumizi yanaruhusiwa lini n> 40, ni chini ya hali hiyo kwamba kigezo ni halali (kama sheria, inakataa hypothesis isiyo sahihi).

Algorithm ya kuangalia kwa kigezo

1. Tengeneza histogram kwa kutumia mbinu sawa ya uwezekano.

2. Kulingana na kuonekana kwa histogram, kuweka mbele hypothesis

H 0: f(x) = f 0(x),

H 1: f(x) f 0(x),

Wapi f 0(x) - wiani wa uwezekano wa sheria ya usambazaji dhahania (kwa mfano, sare, kielelezo, kawaida).

Maoni. Dhana kuhusu sheria ya usambazaji kielelezo inaweza kuwekwa mbele ikiwa nambari zote kwenye sampuli ni chanya.


3. Kokotoa thamani ya kigezo kwa kutumia fomula

,

iko wapi masafa ya kugonga i muda wa -th;

pi- uwezekano wa kinadharia wa kutofautiana nasibu kuangukia i- th muda mradi hypothesis H 0 kweli.

Fomula za kuhesabu pi katika kesi ya kielelezo, sare na sheria za kawaida, wao ni mtiririko sawa.

sheria ya kielelezo

. (3.8)

Ambapo A 1 = 0, Bm= +.

Sheria ya sare

Sheria ya Kawaida

. (3.10)

Ambapo A 1 = -, B M = +.

Vidokezo. Baada ya kuhesabu uwezekano wote pi angalia ikiwa uhusiano wa marejeleo umeridhika

Kazi Ф( X) - isiyo ya kawaida. Ф(+) = 1.

4. Kutoka kwa jedwali la "Chi-square" katika Kiambatisho, thamani imechaguliwa, ambapo ni kiwango maalum cha umuhimu (= 0.05 au = 0.01), na k- idadi ya digrii za uhuru, imedhamiriwa na formula

k= M- 1 - S.

Hapa S- idadi ya vigezo ambayo hypothesis iliyochaguliwa inategemea H 0 sheria ya usambazaji. Maadili S kwa sheria ya umoja ni 2, kwa sheria ya kielelezo ni 1, kwa sheria ya kawaida ni 2.

5. Ikiwa , basi hypothesis H 0 inapotoka. Vinginevyo, hakuna sababu ya kukataa: kwa uwezekano 1, ni kweli, na kwa uwezekano, ni uongo, lakini thamani haijulikani.

Mfano3 . 1. Kwa kutumia kigezo cha 2, weka mbele na ujaribu nadharia tete kuhusu sheria ya usambazaji wa kigezo cha nasibu. X, mfululizo wa tofauti, meza za muda na histograms za usambazaji ambazo zimetolewa kwa mfano 1.2. Kiwango cha umuhimu ni 0.05.

Suluhisho . Kulingana na kuonekana kwa histograms, tunaweka dhana kwamba kutofautiana kwa nasibu X kusambazwa kulingana na sheria ya kawaida:

H 0: f(x) = N(m,);

H 1: f(x) N(m,).

Thamani ya kigezo huhesabiwa kwa kutumia fomula.