Bruke chi square-testen. MS EXCEL-funksjoner bruker CH2-distribusjonen

Kjikvadrattesten er en universell metode for å sjekke samsvar mellom resultatene av et eksperiment og den statistiske modellen som brukes.

Pearson avstand X 2

Pyatnitsky A.M.

Russian State Medical University

I 1900 foreslo Karl Pearson en enkel, universell og effektiv måte å teste samsvaret mellom modellprediksjoner og eksperimentelle data. "Kikvadrattesten" han foreslo er den viktigste og mest brukte statistiske testen. De fleste problemer knyttet til å estimere ukjente modellparametere og sjekke samsvaret mellom modellen og eksperimentelle data kan løses ved hjelp av den.

La det være en a priori ("pre-eksperimentell") modell av objektet eller prosessen som studeres (i statistikk snakker de om "nullhypotesen" H 0), og resultatene av et eksperiment med dette objektet. Det er nødvendig å ta stilling til om modellen er tilstrekkelig (tilsvarer den virkeligheten)? Motsier de eksperimentelle resultatene våre ideer om hvordan virkeligheten fungerer, eller med andre ord, bør H0 forkastes? Ofte kan denne oppgaven reduseres til å sammenligne de observerte (O i = Observert) og forventede i henhold til modellen (E i = Expected) gjennomsnittlige frekvenser for forekomst av visse hendelser. Det antas at de observerte frekvensene ble oppnådd i en serie med N uavhengige (!) observasjoner gjort under konstante (!) forhold. Som et resultat av hver observasjon registreres en av M hendelser. Disse hendelsene kan ikke forekomme samtidig (de er uforenlige i par) og en av dem oppstår nødvendigvis (kombinasjonen deres danner en pålitelig hendelse). Totaliteten av alle observasjoner er redusert til en tabell (vektor) av frekvenser (O i )=(O 1 ,... O M ), som fullstendig beskriver resultatene av eksperimentet. Verdien O 2 =4 betyr at hendelse nummer 2 skjedde 4 ganger. Sum av frekvenser O 1 +… O M =N. Det er viktig å skille mellom to tilfeller: N – fast, ikke-tilfeldig, N – tilfeldig variabel. For et fast totalt antall eksperimenter N har frekvensene en polynomfordeling. La oss illustrere dette generelle opplegget med et enkelt eksempel.

Bruke kjikvadrattesten for å teste enkle hypoteser.

La modellen (nullhypotesen H 0) være at terningen er rettferdig - alle flater vises like ofte med sannsynlighet p i =1/6, i =, M=6. Et eksperiment ble utført der terningen ble kastet 60 ganger (N = 60 uavhengige forsøk ble utført). I følge modellen forventer vi at alle observerte frekvenser O i av forekomst 1,2,... 6 poeng skal være nær deres gjennomsnittsverdier E i =Np i =60∙(1/6)=10. I følge H 0 er vektoren av gjennomsnittlige frekvenser (E i )=(Npi )=(10, 10, 10, 10, 10, 10). (Hypoteser der gjennomsnittsfrekvensene er fullstendig kjent før starten av eksperimentet kalles enkle.) Hvis den observerte vektoren (O i ) var lik (34,0,0,0,0,26), så er det umiddelbart klart at modellen er feil - bein kan ikke være riktig, siden bare 1 og 6 ble kastet 60 ganger. Sannsynligheten for en slik hendelse for en riktig terning er ubetydelig: P = (2/6) 60 =2,4*10 -29. Tilsynekomsten av slike åpenbare avvik mellom modell og erfaring er imidlertid et unntak. La vektoren av observerte frekvenser (O i ) være lik (5, 15, 6, 14, 4, 16). Stemmer dette med H0? Så vi må sammenligne to frekvensvektorer (E i) og (O i). I dette tilfellet er vektoren av forventede frekvenser (Ei) ikke tilfeldig, men vektoren av observerte frekvenser (Oi) er tilfeldig - under neste eksperiment (i en ny serie på 60 kast) vil det vise seg å være annerledes. Det er nyttig å introdusere en geometrisk tolkning av problemet og anta at i frekvensrom (i dette tilfellet 6-dimensjonalt) er det gitt to punkter med koordinater (5, 15, 6, 14, 4, 16) og (10, 10, 10, 10, 10, 10). Er de langt nok fra hverandre til å anse dette som uforenlig med H 0? Vi trenger med andre ord:

  1. lære å måle avstander mellom frekvenser (punkter i frekvensrommet),
  2. ha et kriterium for hvilken avstand som skal anses for (“usannsynlig”) stor, det vil si inkonsistent med H 0 .

Kvadraten på den vanlige euklidiske avstanden vil være lik:

X 2 Euklid = S(O i -E i) 2 = (5-10) 2 +(15-10) 2 + (6-10) 2 +(14-10) 2 +(4-10) 2 +(16-10) 2

I dette tilfellet er overflatene X 2 Euclid = const alltid sfærer hvis vi fikserer verdiene til E i og endrer O i . Karl Pearson bemerket at bruk av euklidisk avstand i frekvensrom ikke bør brukes. Dermed er det feil å anta at punktene (O = 1030 og E = 1000) og (O = 40 og E = 10) er i like avstand fra hverandre, selv om forskjellen i begge tilfeller er O -E = 30. Tross alt, jo høyere forventet frekvens, desto større avvik fra den bør anses som mulig. Derfor bør punktene (O =1030 og E =1000) betraktes som "nære", og punktene (O =40 og E =10) "langt" fra hverandre. Det kan vises at hvis hypotesen H 0 er sann, så er frekvensfluktuasjonene O i i forhold til E i størrelsesorden kvadratroten(!) av E i . Derfor foreslo Pearson, når man beregner avstanden, å kvadrere ikke forskjellene (O i -E i), men de normaliserte forskjellene (O i -E i)/E i 1/2. Så her er formelen for å beregne Pearson-avstanden (det er faktisk kvadratet på avstanden):

X 2 Pearson = S((Oi-Ei)/Ei 1/2) 2 = S(Oi-Ei)2/Ei

I vårt eksempel:

X 2 Pearson = (5-10) 2 /10+(15-10) 2 /10 +(6-10) 2 /10+(14-10) 2 /10+(4-10) 2 /10+( 16-10) 2 /10=15,4

For en vanlig terning er alle forventede frekvenser E i like, men vanligvis er de forskjellige, så overflater der Pearson-avstanden er konstant (X 2 Pearson =const) viser seg å være ellipsoider, ikke kuler.

Nå som formelen for beregning av avstandene er valgt, er det nødvendig å finne ut hvilke avstander som skal anses som "ikke for store" (i samsvar med H 0, så hva kan vi for eksempel si om avstanden vi beregnet 15,4). ? I hvor mange prosent av tilfellene (eller med hvilken sannsynlighet) vil vi få en avstand større enn 15,4 når vi utfører eksperimenter med en vanlig terning? Hvis denne prosentandelen er liten (<0.05), то H 0 надо отвергнуть. Иными словами требуется найти распределение длярасстояния Пирсона. Если все ожидаемые частоты E i не слишком малы (≥5), и верна H 0 , то нормированные разности (O i - E i )/E i 1/2 приближенно эквивалентны стандартным гауссовским случайным величинам: (O i - E i )/E i 1/2 ≈N (0,1). Это, например, означает, что в 95% случаев| (O i - E i )/E i 1/2 | < 1.96 ≈ 2 (правило “двух сигм”).

Forklaring. Antall målinger O i som faller inn i tabellcellen med nummer i har en binomialfordeling med parametrene: m =Np i =E i,σ =(Np i (1-pi)) 1/2, hvor N er tallet av målinger (N " 1), er p i sannsynligheten for at en måling faller inn i en gitt celle (husk at målingene er uavhengige og utføres under konstante forhold). Hvis p i er liten, da: σ≈(Np i ) 1/2 =E i og binomialfordelingen er nær Poisson, der gjennomsnittlig antall observasjoner E i =λ, og standardavviket σ=λ 1/2 = E i 1/2. For λ≥5 er Poisson-fordelingen nær normal N (m =E i =λ, σ=E i 1/2 =λ 1/2), og den normaliserte verdien (O i - E i )/E i 1 /2 ≈ N (0,1).

Pearson definerte den tilfeldige variabelen χ 2 n - "chi-kvadrat med n frihetsgrader", som summen av kvadratene av n uavhengige standard normale tilfeldige variabler:

χ 2 n = T 1 2 + T 2 2 + …+ T n 2 , Hvor er alle sammen Ti = N(0,1) - n. O. R. Med. V.

La oss prøve å forstå betydningen av denne viktigste tilfeldige variabelen i statistikk. For å gjøre dette, på planet (med n = 2) eller i rommet (med n = 3) presenterer vi en sky av punkter hvis koordinater er uavhengige og har en standard normalfordelingf T (x) ~exp (-x 2 /2 ). På et plan, i henhold til "to sigma"-regelen, som brukes uavhengig av begge koordinatene, er 90 % (0,95*0,95≈0,90) av punktene inneholdt i en firkant (-2)

f χ 2 2 (a) = Сexp(-a/2) = 0,5exp(-a/2).

Med et tilstrekkelig stort antall frihetsgrader n (n > 30), nærmer kjikvadratfordelingen seg normal: N (m = n; σ = (2n) ½). Dette er en konsekvens av "sentralgrensesetningen": summen av identisk fordelte størrelser med endelig varians nærmer seg normalloven etter hvert som antall ledd øker.

I praksis må du huske at den gjennomsnittlige kvadratet av avstanden er lik m (χ 2 n) = n, og dens varians er σ 2 (χ 2 n) = 2n. Herfra er det lett å konkludere hvilke kjikvadratverdier som bør anses for små og for store: det meste av fordelingen ligger i området fra n -2∙(2n) ½ til n +2∙(2n) ½.

Så Pearson-avstander som betydelig overstiger n +2∙ (2n) ½ bør betraktes som usannsynlig store (inkonsistent med H 0). Hvis resultatet er nær n +2∙(2n) ½, bør du bruke tabeller der du kan finne ut nøyaktig i hvilken andel av tilfellene slike og store kjikvadratverdier kan vises.

Det er viktig å vite hvordan man velger riktig verdi for antall frihetsgrader (forkortet n.d.f.). Det virket naturlig å anta at n ganske enkelt var lik antall sifre: n =M. I artikkelen sin antydet Pearson det samme. I terningeksemplet vil dette bety at n =6. Men flere år senere ble det vist at Pearson tok feil. Antall frihetsgrader er alltid mindre enn antall sifre hvis det er sammenhenger mellom de tilfeldige variablene O i. For terningeksemplet er summen O i 60, og bare 5 frekvenser kan endres uavhengig, så riktig verdi er n = 6-1 = 5. For denne verdien av n får vi n +2∙(2n) ½ =5+2∙(10) ½ =11,3. Siden 15.4>11.3, så bør hypotesen H 0 - terningen er riktig, forkastes.

Etter å ha avklart feilen, måtte de eksisterende χ 2-tabellene suppleres, siden de i utgangspunktet ikke hadde tilfellet n = 1, siden det minste antall sifre = 2. Nå viser det seg at det kan være tilfeller når Pearson-avstanden har fordelingen χ 2 n =1.

Eksempel. Med 100 myntkast er antall hoder O 1 = 65, og haler O 2 = 35. Antall siffer er M = 2. Hvis mynten er symmetrisk, er de forventede frekvensene E 1 = 50, E 2 = 50.

X 2 Pearson = S(Oi -Ei)2/Ei = (65-50) 2/50 + (35-50) 2/50 = 2*225/50 = 9.

Den resulterende verdien bør sammenlignes med de som den tilfeldige variabelen χ 2 n =1 kan ta, definert som kvadratet av standard normalverdien χ 2 n =1 =T 1 2 ≥ 9 ó T 1 ≥3 eller T 1 ≤-3. Sannsynligheten for en slik hendelse er svært lav P (χ 2 n =1 ≥9) = 0,006. Derfor kan mynten ikke betraktes som symmetrisk: H 0 bør avvises. At antallet frihetsgrader ikke kan være lik antall sifre, fremgår av at summen av de observerte frekvensene alltid er lik summen av de forventede, for eksempel O 1 +O 2 =65+ 35 = E1+E2=50+50=100. Derfor er tilfeldige punkter med koordinater O 1 og O 2 plassert på en rett linje: O 1 +O 2 =E 1 +E 2 =100 og avstanden til sentrum viser seg å være mindre enn om denne begrensningen ikke eksisterte og de var plassert på hele flyet. Faktisk, for to uavhengige tilfeldige variabler med matematiske forventninger E 1 = 50, E 2 = 50, bør summen av deres realiseringer ikke alltid være lik 100 - for eksempel vil verdiene O 1 = 60, O 2 = 55 være akseptabelt.

Forklaring. La oss sammenligne resultatet av Pearson-kriteriet ved M = 2 med det Moivre-Laplace-formelen gir når man estimerer tilfeldige fluktuasjoner i frekvensen av forekomst av en hendelse ν =K /N som har en sannsynlighet p i en serie med N uavhengige Bernoulli-tester ( K er antall suksesser):

χ 2 n = 1 = S(O i -E i) 2 /E i = (O 1 -E 1) 2 /E 1 + (O 2 -E 2) 2 /E 2 = (Nν -Np) 2 /(Np) + (N ( 1-ν )-N (1-p )) 2 /(N (1-p ))=

=(Nν-Np) 2 (1/p + 1/(1-p))/N=(Nν-Np) 2 /(Np(1-p))=((K-Np)/(Npq) ½ ) 2 = T 2

Verdi T =(K -Np)/(Npq) ½ = (K -m (K))/σ(K) ≈N (0,1) med σ(K)=(Npq) ½ ≥3. Vi ser at i dette tilfellet er Pearsons resultat nøyaktig sammenfallende med det som oppnås ved å bruke normal tilnærming for binomialfordelingen.

Så langt har vi vurdert enkle hypoteser der de forventede gjennomsnittlige frekvensene E i er fullstendig kjent på forhånd. For informasjon om hvordan du velger riktig antall frihetsgrader for komplekse hypoteser, se nedenfor.

Bruke kjikvadrattesten for å teste komplekse hypoteser

I eksemplene med vanlig terning og mynt kunne de forventede frekvensene bestemmes før(!) eksperimentet. Slike hypoteser kalles "enkle". I praksis er «komplekse hypoteser» mer vanlig. Dessuten, for å finne de forventede frekvensene E i er det nødvendig å først estimere en eller flere størrelser (modellparametere), og dette kan bare gjøres ved å bruke eksperimentelle data. Som et resultat, for "komplekse hypoteser" viser de forventede frekvensene E i å avhenge av de observerte frekvensene O i og blir derfor selv tilfeldige variabler, som varierer avhengig av resultatene av eksperimentet. I prosessen med å velge parametere reduseres Pearson-avstanden - parametrene velges for å forbedre samsvaret mellom modellen og eksperimentet. Derfor bør antallet frihetsgrader reduseres.

Hvordan estimere modellparametere? Det er mange forskjellige estimeringsmetoder - "maksimal sannsynlighetsmetode", "metode for øyeblikk", "substitusjonsmetode". Du kan imidlertid ikke bruke noen ekstra midler og finne parameterestimater ved å minimere Pearson-avstanden. I pre-datamaskinen ble denne tilnærmingen sjelden brukt: den er upraktisk for manuelle beregninger og kan som regel ikke løses analytisk. Når du regner på en datamaskin, er numerisk minimering vanligvis enkel å utføre, og fordelen med denne metoden er dens allsidighet. Så, i henhold til "chi-square minimeringsmetoden", velger vi verdiene til de ukjente parameterne slik at Pearson-avstanden blir den minste. (Forresten, ved å studere endringer i denne avstanden med små forskyvninger i forhold til det funnet minimum, kan du estimere nøyaktighetsmålet for estimatet: konstruer konfidensintervaller.) Etter at parametrene og selve minimumsavstanden er funnet, er det igjen nødvendig for å svare på spørsmålet om den er liten nok.

Den generelle sekvensen av handlinger er som følger:

  1. Modellvalg (hypotese H 0).
  2. Utvalg av biter og bestemmelse av vektoren for observerte frekvenser O i.
  3. Estimering av ukjente modellparametere og konstruksjon av konfidensintervaller for dem (for eksempel ved å søke etter minimum Pearson-avstand).
  4. Beregning av forventede frekvenser E i.
  5. Sammenligning av den funnet verdien av Pearson-avstanden X 2 med den kritiske verdien av kjikvadrat χ 2 crit - den største, som fortsatt anses som plausibel, kompatibel med H 0. Vi finner verdien χ 2 crit fra tabellene ved å løse ligningen

P (χ 2 n > χ 2 crit)=1-α,

hvor α er "signifikansnivået" eller "størrelsen på kriteriet" eller "størrelsen på den første typefeilen" (typisk verdi α = 0,05).

Vanligvis beregnes antall frihetsgrader n ved hjelp av formelen

n = (antall siffer) – 1 – (antall parametere som skal estimeres)

Hvis X 2 > χ 2 crit, så forkastes hypotesen H 0, ellers aksepteres den. I α∙100% av tilfellene (det vil si ganske sjelden), vil denne metoden for å kontrollere H 0 føre til en "feil av den første typen": hypotesen H 0 vil bli forkastet feilaktig.

Eksempel. Ved studering av 10 serier med 100 frø ble antallet grønnøyde flueinfiserte talt. Data mottatt: Oi =(16, 18, 11, 18, 21, 10, 20, 18, 17, 21);

Her er vektoren av forventede frekvenser ukjent på forhånd. Hvis dataene er homogene og innhentet for en binomial fordeling, er én parameter ukjent: andelen p av infiserte frø. Merk at i den opprinnelige tabellen er det faktisk ikke 10, men 20 frekvenser som tilfredsstiller 10 tilkoblinger: 16+84=100, ... 21+79=100.

X 2 = (16-100p) 2 /100p +(84-100(1-p)) 2 /(100(1-p))+…+

(21-100p) 2 /100p +(79-100(1-p)) 2 /(100(1-p))

Ved å kombinere termer i par (som i eksemplet med en mynt), får vi formen for å skrive Pearson-kriteriet, som vanligvis skrives umiddelbart:

X 2 = (16-100p) 2 /(100p(1-p))+…+ (21-100p) 2 /(100p(1-p)).

Nå, hvis minimum Pearson-avstand brukes som en metode for å estimere p, så er det nødvendig å finne en p som X 2 =min. (Modellen prøver, hvis mulig, å "justere" til de eksperimentelle dataene.)

Pearson-kriteriet er det mest universelle av alle som brukes i statistikk. Den kan brukes på univariate og multivariate data, kvantitative og kvalitative funksjoner. Men nettopp på grunn av dens allsidighet bør man være forsiktig med å gjøre feil.

Viktige poeng

1.Utvalg av kategorier.

  • Hvis fordelingen er diskret, er det vanligvis ingen vilkårlighet i valg av sifre.
  • Hvis distribusjonen er kontinuerlig, er vilkårlighet uunngåelig. Statistisk ekvivalente blokker kan brukes (alle O er like, for eksempel =10). Lengden på intervallene er imidlertid forskjellige. Ved manuelle beregninger prøvde de å gjøre intervallene like. Bør intervallene når man studerer fordelingen av en univariat egenskap være like? Nei.
  • Sifrene må kombineres slik at de forventede (og ikke observerte!) frekvensene ikke er for små (≥5). La oss huske at det er de (E i) som er i nevnerne ved beregning av X 2! Ved analyse av endimensjonale egenskaper er det tillatt å bryte denne regelen i de to ekstreme sifrene E 1 =E max =1. Hvis antallet sifre er stort og de forventede frekvensene er nære, så er X 2 en god tilnærming til χ 2 selv for E i =2.

Parameterestimat. Bruk av "hjemmelagde", ineffektive estimeringsmetoder kan føre til oppblåste Pearson-avstandsverdier.

Velge riktig antall frihetsgrader. Hvis parameterestimater ikke gjøres fra frekvenser, men direkte fra dataene (for eksempel tas det aritmetiske gjennomsnittet som et estimat av gjennomsnittet), så er det nøyaktige antallet frihetsgrader n ukjent. Vi vet bare at det tilfredsstiller ulikheten:

(antall sifre – 1 – antall parametere som evalueres)< n < (число разрядов – 1)

Derfor er det nødvendig å sammenligne X 2 med de kritiske verdiene til χ 2 crit beregnet i hele dette området av n.

Hvordan tolke usannsynlig små kjikvadratverdier? Bør en mynt betraktes som symmetrisk hvis den etter 10 000 kast lander på våpenskjoldet 5 000 ganger? Tidligere mente mange statistikere at også H 0 burde avvises. Nå foreslås en annen tilnærming: godta H 0, men utsett dataene og metodikken for deres analyse for ytterligere verifisering. Det er to muligheter: enten en for liten Pearson-avstand betyr at økning av antall modellparametere ikke ble ledsaget av en skikkelig nedgang i antall frihetsgrader, eller selve dataene ble forfalsket (kanskje utilsiktet justert til det forventede resultatet).

Eksempel. To forskere A og B beregnet andelen av recessive homozygoter aa i andre generasjon av et AA * aa monohybrid kryss. I følge Mendels lover er denne brøken 0,25. Hver forsker utførte 5 eksperimenter, og 100 organismer ble studert i hvert eksperiment.

Resultater A: 25, 24, 26, 25, 24. Forskerkonklusjon: Mendels lov er sann(?).

Resultater B: 29, 21, 23, 30, 19. Forskerkonklusjon: Mendels lov er ikke rettferdig(?).

Men Mendels lov er av statistisk karakter, og kvantitativ analyse av resultatene snur konklusjonene! Ved å kombinere fem eksperimenter til ett, kommer vi til en kjikvadratfordeling med 5 frihetsgrader (en enkel hypotese testes):

X 2 A = ((25-25) 2 +(24-25) 2 +(26-25) 2 +(25-25) 2 +(24-25) 2)/(100∙0.25∙0.75)=0.16

X 2 B = ((29-25) 2 +(21-25) 2 +(23-25) 2 +(30-25) 2 +(19-25) 2)/(100∙0,25∙0,75)=5,17

Gjennomsnittsverdi m [χ 2 n =5 ]=5, standardavvik σ[χ 2 n =5 ]=(2∙5) 1/2 =3,2.

Derfor, uten referanse til tabellene, er det klart at verdien av X 2 B er typisk, og verdien av X 2 A er usannsynlig liten. I følge tabellene P (χ 2 n =5<0.16)<0.0001.

Dette eksemplet er en tilpasning av en reell sak som skjedde på 1930-tallet (se Kolmogorovs verk "On Another Proof of Mendels Laws"). Interessant nok var forsker A en talsmann for genetikk, mens forsker B var imot det.

Forvirring i notasjon. Det er nødvendig å skille Pearson-avstanden, som krever tilleggskonvensjoner i beregningen, fra det matematiske konseptet med en kjikvadrat tilfeldig variabel. Pearson-avstanden under visse forhold har en fordeling nær chi-kvadrat med n frihetsgrader. Derfor anbefales det IKKE å angi Pearson-avstanden med symbolet χ 2 n, men å bruke en lignende, men annen notasjon X 2. .

Pearson-kriteriet er ikke allmektig. Det finnes et uendelig antall alternativer for H 0 som han ikke klarer å ta hensyn til. Anta at du tester hypotesen om at funksjonen hadde en jevn fordeling, du har 10 sifre og vektoren av observerte frekvenser er lik (130,125,121,118,116,115,114,113,111,110). Pearson-kriteriet kan ikke "merke" at frekvensene er monotont avtagende og H 0 vil ikke bli avvist. Hvis det ble supplert med et seriekriterium, så ja!

Bruken av dette kriteriet er basert på bruken av et slikt mål (statistikk) for avviket mellom det teoretiske F(x) og empirisk distribusjon F* n(x), som tilnærmet følger fordelingsloven χ 2 . Hypotese H 0 Konsistensen av fordelingene kontrolleres ved å analysere fordelingen av denne statistikken. Anvendelse av kriteriet krever konstruksjon av en statistisk serie.

Så la prøven presenteres statistisk ved siden av antall sifre M. Observert trefffrekvens Jeg- rang n i. I samsvar med den teoretiske distribusjonsloven er forventet trefffrekvens inn Jeg-kategorien er F i. Forskjellen mellom observert og forventet frekvens vil være ( n iF i). For å finne den generelle graden av avvik mellom F(x) Og F* n (x) det er nødvendig å beregne den vektede summen av kvadrerte forskjeller over alle sifrene i den statistiske serien

Verdi χ 2 med ubegrenset forstørrelse n har en χ 2-fordeling (asymptotisk fordelt som χ 2). Denne fordelingen avhenger av antall frihetsgrader k, dvs. antall uavhengige verdier av begrepene i uttrykket (3.7). Antall frihetsgrader er lik antallet y minus antall lineære relasjoner som er pålagt prøven. En sammenheng eksisterer på grunn av det faktum at enhver frekvens kan beregnes fra totalen av frekvenser i de resterende M–1 siffer. I tillegg, hvis distribusjonsparametrene ikke er kjent på forhånd, er det en annen begrensning på grunn av tilpasning av distribusjonen til prøven. Hvis prøven bestemmer S distribusjonsparametere, så blir antallet frihetsgrader k=M –S–1.

Hypotese Aksept Area H 0 bestemmes av betingelsen χ 2 < χ 2(k;a), hvor χ 2(k;a)– kritisk punkt for χ2-fordelingen med signifikansnivå en. Sannsynligheten for en type I feil er en, sannsynligheten for en type II feil kan ikke defineres klart, fordi det er et uendelig stort antall forskjellige måter som distribusjoner kanskje ikke samsvarer med. Kraften til testen avhenger av antall sifre og prøvestørrelse. Kriteriet anbefales brukt når n>200, bruk er tillatt når n>40, er det under slike forhold at kriteriet er gyldig (som regel forkaster det den uriktige nullhypotesen).

Algoritme for kontroll etter kriterium

1. Konstruer et histogram ved å bruke en lik sannsynlighetsmetode.

2. Sett frem en hypotese basert på utseendet til histogrammet

H 0: f(x) = f 0(x),

H 1: f(x) f 0(x),

Hvor f 0(x) - sannsynlighetstetthet for en hypotetisk distribusjonslov (for eksempel uniform, eksponentiell, normal).

Kommentar. Hypotesen om eksponentialfordelingsloven kan settes frem dersom alle tallene i utvalget er positive.


3. Beregn verdien av kriteriet ved hjelp av formelen

,

hvor er trefffrekvensen Jeg-th intervall;

pi- teoretisk sannsynlighet for at en tilfeldig variabel faller inn i Jeg- th intervall forutsatt at hypotesen H 0sant.

Formler for beregning pi når det gjelder eksponentielle, ensartede og normale lover, er de henholdsvis like.

eksponentiell lov

. (3.8)

Hvori EN 1 = 0, Bm= +.

Ensartet lov

Normal lov

. (3.10)

Hvori EN 1 = -, B M = +.

Notater. Etter å ha beregnet alle sannsynlighetene pi sjekk om referanserelasjonen er oppfylt

Funksjon Ф( X) - merkelig. Ф(+) = 1.

4. Fra «Chi-square»-tabellen i vedlegget er verdien valgt, hvor er det spesifiserte signifikansnivået (= 0,05 eller = 0,01), og k- antall frihetsgrader, bestemt av formelen

k= M- 1 - S.

Her S- antall parametere som den valgte hypotesen avhenger av H 0fordelingsloven. Verdier S for den ensartede loven er det 2, for den eksponentielle loven er det 1, for normalloven er det 2.

5. Hvis , så hypotese H 0avviker. Ellers er det ingen grunn til å avvise det: med sannsynlighet 1 er det sant, og med sannsynlighet er det usant, men verdien er ukjent.

Eksempel 3 . 1. Ved å bruke kriterium 2, fremlegg og test en hypotese om fordelingsloven til en stokastisk variabel X, hvis variasjonsserier, intervalltabeller og distribusjonshistogrammer er gitt i eksempel 1.2. Signifikansnivået er 0,05.

Løsning . Basert på utseendet til histogrammer legger vi frem hypotesen om at den tilfeldige variabelen X fordelt etter normalloven:

H 0: f(x) = N(m,);

H 1: f(x) N(m,).

Verdien av kriteriet beregnes ved hjelp av formelen.

Beskrivelse av kriteriet

Formålet med kriteriet

Pearsons kjikvadrattest

Forelesningsmateriell

Emne 6. Identifisere forskjeller i fordelingen av en egenskap

Pearson-kriterium: formålet med kriteriet, dets beskrivelse, anvendelsesområde, beregningsalgoritme.

Kolmogorov-Smirnov-kriterium for å sammenligne resultatene av kvantitative målinger: formålet med kriteriet, dets beskrivelse, anvendelsesområde, beregningsalgoritme.

Når du studerer dette emnet, er det nødvendig å ta hensyn til at begge kriteriene er ikke-parametriske, de opererer med frekvenser. Vær spesielt oppmerksom på beslutningsreglene for de vurderte kriteriene: disse reglene kan være motsatte. Vennligst se nøye gjennom begrensningene i anvendelsen av kriteriene.

Etter å ha studert forelesningsmaterialet, svar på testspørsmålene og skriv ned svarene i notatene dine.

Pearson kjikvadrattest kan løse flere problemer, inkludert å sammenligne distribusjoner.

χ 2-testen brukes til to formål;

1) for sammenligning empirisk fordeling av karakteristikken med teoretisk - uniform, normal eller på annen måte;

2) for sammenligning to, tre eller flere empiriske fordelinger av samme egenskap, det vil si for å kontrollere deres homogenitet;

3) å vurdere stokastisk (sannsynlig) uavhengighet i et system av tilfeldige hendelser, etc.

χ 2-kriteriet svarer på spørsmålet om ulike verdier av en karakteristikk forekommer med lik frekvens i empiriske og teoretiske fordelinger eller i to eller flere empiriske fordelinger.

Fordelen med metoden er at den lar en sammenligne fordelingen av funksjoner presentert på en hvilken som helst skala, med utgangspunkt i navneskalaen. I det enkleste tilfellet med en alternativ fordeling ("ja - nei", "tillot en defekt - tillot ikke en defekt", "løste problemet - løste ikke problemet", etc.), kan vi allerede bruke χ 2 kriterium.

1. Prøvestørrelsen skal være stor nok: N>30. Når N<30 критерий χ 2 дает весьма приближенные значения. Точность крите­рия повышается при больших N.

2. Den teoretiske frekvensen for hver tabellcelle bør ikke være mindre enn 5: f ≥ 5 . Dette betyr at hvis antall sifre er forhåndsbestemt og ikke kan endres, kan vi ikke bruke χ 2-metoden , uten å samle et visst minimum antall observasjoner. Hvis vi for eksempel ønsker å teste våre forutsetninger om at frekvensen av samtaler til Trusts telefontjeneste er ujevnt fordelt over 7 dager i uken, så trenger vi 5-7 = 35 samtaler. Således, hvis antall sifre (k) gitt på forhånd, som i dette tilfellet, er minimum antall observasjoner (N min) bestemt av formelen: .



3. De valgte kategoriene må "øse ut" hele fordelingen, det vil si dekke hele spekteret av variasjon av egenskaper. I dette tilfellet må grupperingen i kategorier være den samme i alle sammenlignede distribusjoner.

4. Det er nødvendig å foreta en "kontinuitetskorreksjon" når man sammenligner fordelinger av funksjoner som kun tar 2 verdier. Når du foretar en korreksjon, synker verdien av χ 2 (se eksempel med kontinuitetskorreksjon).

5. Kategoriene må være ikke-overlappende: Hvis en observasjon er tilordnet en kategori, kan den ikke lenger tilordnes noen annen kategori. Summen av observasjoner etter rangering skal alltid være lik det totale antallet observasjoner.

Algoritme for beregning av χ 2-kriteriet

1. Lag en tabell over gjensidig konjugering av funksjonsverdier av følgende type (i hovedsak er dette en todimensjonal variasjonsserie der frekvensene for forekomst av felles funksjonsverdier er indikert) - tabell 19. Tabellen inneholder betingede frekvenser, som vi vil betegne i generell form som f ij. For eksempel antall graderinger av en egenskap X er lik 3 (k=3), antall graderinger av karakteristikken er lik 4 (m=4); Deretter Jeg varierer fra 1 til k, og j varierer fra 1 til m.

Tabell 19

x i y j x 1 x 2 x 3
kl 1 f 11 f 21 f 31 f –1
kl 2 f 12 f 22 f 32 f –2
klokken 3 f 13 f 23 f 33 f –3
klokken 4 f 14 f 24 f 34 f –4
f 1– f 2– f 3– N

2. Deretter forvandler vi den opprinnelige tabellen over gjensidig beredskap til en tabell i følgende form (tabell 20), for enkelhets skyld for beregninger, og plasserer kolonnene med betingede frekvenser under hverandre: Skriv inn navnene på kategoriene i tabellen (kolonne 1 og 2) og de tilsvarende empiriske frekvensene (3. kolonne ).

Tabell 20

x i y j f ij f ij * f ij – f ij * (f ij – f ij *) 2 (f ij – f ij *) 2 / f ij *
1 2 3 4 5 6 7
x 1 kl 1 f 11 f 11*
x 1 kl 2 f 12 f 12*
x 1 klokken 3 f 13 f 13*
x 1 klokken 4 f 14 f 14*
x 2 kl 1 f 21 f 21 *
x 2 kl 2 f 22 f 22 *
x 2 klokken 3 f 23 f 23 *
x 2 klokken 4 f 24 f 24 *
x 3 kl 1 f 31 f 31 *
x 3 kl 2 f 32 f 32 *
x 3 klokken 3 f 33 f 33 *
x 3 klokken 4 f 34 f 34*
∑=………….

3. Ved siden av hver empirisk frekvens, skriv ned den teoretiske frekvensen (4. kolonne), som beregnes ved hjelp av følgende formel (de totale frekvensene i den tilsvarende linjen multipliseres med den totale frekvensen i den tilsvarende kolonnen og divideres med det totale antallet av observasjoner):

5. Bestem antall frihetsgrader ved å bruke formelen: ν=(k-1)(m-1) , Hvor k- antall attributtsiffer X, m - antall sifre i tegnet .

Hvis ν=1, gjør en korreksjon for "kontinuitet" og skriv den i kolonne 5a.

Kontinuitetskorreksjonen består i å trekke ytterligere 0,5 fra differansen mellom de betingede og teoretiske frekvensene. Da vil kolonneoverskriftene i tabellen vår se slik ut (tabell 21):

Tabell 21

X f ij f ij * f ij – f ij * f ij – f ij * – 0,5 (f ij – f ij * – 0,5) 2 (f ij – f ij * – 0,5) 2 / f ij *
1 2 3 4 5 5a 6 7

6. Kvaddra de resulterende forskjellene og skriv dem inn i den 6. kolonnen.

7. Del de resulterende kvadratiske forskjellene med den teoretiske frekvensen og skriv resultatene i den 7. kolonnen.

8. Summer verdiene i den 7. kolonnen. Den resulterende mengden er betegnet som χ 2 em.

9. Beslutningsregel:

Den beregnede verdien av kriteriet må sammenlignes med den kritiske (eller tabulerte) verdien. Den kritiske verdien avhenger av antall frihetsgrader i henhold til tabellen over kritiske verdier til Pearson χ 2-kriteriet (se vedlegg 1.6).

Hvis χ 2 calc ≥ χ 2-tabellen, så er avvikene mellom fordelingene statistisk signifikante, eller egenskapene endres konsekvent, eller forholdet mellom egenskapene er statistisk signifikante.

Hvis χ 2 beregnes< χ 2 табл, то расхождения между рас­пределениями статистически недостоверны, или признаки изменяются несогласованно, или связи между признаками нет.

Hvis den oppnådde verdien av χ 2-kriteriet er større enn den kritiske verdien, konkluderer vi med at det er en statistisk sammenheng mellom den studerte risikofaktoren og utfallet på passende signifikansnivå.

Eksempel på beregning av Pearson kjikvadrattest

La oss bestemme den statistiske signifikansen av påvirkningen av røykefaktoren på forekomsten av arteriell hypertensjon ved å bruke tabellen diskutert ovenfor:

1. Beregn de forventede verdiene for hver celle:

2. Finn verdien av Pearson kjikvadrattest:

χ 2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

3. Antall frihetsgrader f = (2-1)*(2-1) = 1. Ved hjelp av tabellen finner vi den kritiske verdien av Pearson kjikvadrattest, som på signifikansnivået p=0,05 og antall frihetsgrader 1 er 3.841.

4. Vi sammenligner den oppnådde verdien av kjikvadrattesten med den kritiske: 4,396 > 3,841, derfor er avhengigheten av forekomsten av arteriell hypertensjon på tilstedeværelsen av røyking statistisk signifikant. Signifikansnivået til dette forholdet tilsvarer s<0.05.

Pearson chi-square-testen beregnes også ved hjelp av formelen

Men for en 2x2-tabell oppnås mer nøyaktige resultater av Yates-korreksjonskriteriet

Hvis At N(0) akseptert,

Når akseptert H(1)

Når antallet observasjoner er lite og tabellcellene inneholder en frekvens mindre enn 5, er kjikvadrattesten ikke anvendelig og brukes til å teste hypoteser Fishers eksakte test . Prosedyren for å beregne dette kriteriet er ganske arbeidskrevende, og i dette tilfellet er det bedre å bruke datastatistiske analyseprogrammer.

Ved å bruke beredskapstabellen kan du beregne forbindelsen mellom to kvalitative egenskaper - dette er Yule-assosiasjonskoeffisienten Q (analogt med korrelasjonskoeffisienten)

Q ligger i området fra 0 til 1. En koeffisient nær én indikerer en sterk sammenheng mellom egenskapene. Hvis den er lik null, er det ingen sammenheng .

phi-kvadratkoeffisienten (φ 2) brukes på samme måte

REVISJONSOPPGAVE

Tabellen beskriver forholdet mellom mutasjonsfrekvensen i grupper av Drosophila med og uten fôring



Beredskapstabellanalyse

For å analysere beredskapstabellen fremsettes en H 0-hypotese, dvs. fraværet av påvirkning av karakteristikken som studeres på resultatet av studien. For dette beregnes den forventede frekvensen og en forventningstabell konstrueres.

Ventebord

grupper Chilo-avlinger Total
Ga mutasjoner Ga ikke mutasjoner
Faktisk frekvens Forventet frekvens Faktisk frekvens Forventet frekvens
Med fôring
Uten mating
Total

Metode nr. 1

Bestem ventefrekvensen:

2756 – X ;

2. 3561 – 3124

Hvis antallet observasjoner i grupper er lite, ved bruk av X 2, ved sammenligning av faktiske og forventede frekvenser med diskrete fordelinger, er det knyttet noe unøyaktighet For å redusere unøyaktigheten, brukes Yates-korreksjonen.

Chi-kvadrat test.

Kji-kvadrat-testen, i motsetning til z-testen, brukes til å sammenligne et hvilket som helst antall grupper.

Innledende data: beredskapstabell.

Et eksempel på en beredskapstabell med en minimumsdimensjon på 2*2 er gitt nedenfor. A, B, C, D – såkalte reelle frekvenser.

Tegn 1 Tegn 2 Total
Gruppe 1 EN B A+B
Gruppe 2 C D C+D
Total A+C B+D A+B+C+D

Beregningen av kriteriet er basert på en sammenligning av reelle frekvenser og forventede frekvenser, som er beregnet under forutsetning av at det ikke er gjensidig påvirkning av de sammenlignede egenskapene på hverandre. Således, hvis de faktiske og forventede frekvensene er nær nok til hverandre, er det ingen påvirkning, og det betyr at egenskapene vil bli fordelt omtrent likt på tvers av gruppene.

De første dataene for å bruke denne metoden må legges inn i en beredskapstabell, hvis kolonner og rader indikerer variantverdiene til egenskapene som studeres. Tallene i denne tabellen vil bli kalt reelle eller eksperimentelle frekvenser. Deretter er det nødvendig å beregne de forventede frekvensene basert på antakelsen om at gruppene som sammenlignes er absolutt like i fordelingen av egenskaper. I dette tilfellet må proporsjonene for den totale raden eller "total"-kolonnen opprettholdes i alle rader og kolonner. Basert på dette bestemmes de forventede frekvensene (se eksempel).

Deretter beregnes kriterieverdien som summen over alle cellene i beredskapstabellen av forholdet mellom kvadratet av forskjellen mellom den faktiske frekvensen og den forventede frekvensen til den forventede frekvensen:

hvor er den virkelige frekvensen i cellen; - forventet frekvens i cellen.

, Hvor N = A+ B + C + D.

Når du regner med den grunnleggende formelen for tabell 2*2 ( kun for dette bordet ), er det også nødvendig å bruke Yates-korreksjonen for kontinuitet:

.

Kriteriets kritiske verdi bestemmes ut fra tabellen (se vedlegg) under hensyntagen til antall frihetsgrader og betydningsnivå. Signifikansnivået er tatt som standard: 0,05; 0,01 eller 0,001. Antall frihetsgrader er definert som produktet av antall rader og kolonner i beredskapstabellen, hver redusert med én:

,

Hvor r– antall linjer (antall graderinger av en karakteristikk), Med– antall kolonner (antall graderinger av en annen egenskap). Denne kritiske verdien kan bestemmes i et Microsoft Excel-regneark ved å bruke funksjonen =x2rev( a, f), hvor du i stedet for a må angi signifikansnivået, og i stedet for f– antall frihetsgrader.

Hvis verdien av kjikvadrattesten er større enn den kritiske verdien, forkastes hypotesen om egenskapenes uavhengighet og de kan betraktes som avhengige på det valgte signifikansnivået.

Denne metoden har en begrensning i anvendelighet: de forventede frekvensene må være 5 eller mer (for en 2*2-tabell). For en vilkårlig tabell er denne begrensningen mindre streng: alle forventede frekvenser må være 1 eller høyere, og andelen celler med forventede frekvenser mindre enn 5 må ikke overstige 20 %.

Fra en beredskapstabell med store dimensjoner er det mulig å "isolere" tabeller med mindre dimensjoner og beregne verdien av kriteriet c 2 for dem. Dette vil i praksis være flere sammenligninger som ligner på de som er beskrevet for studentens t-test. I dette tilfellet er det også nødvendig å bruke en korreksjon for flere sammenligninger avhengig av antallet.

For å teste en hypotese ved å bruke kriterium c 2 i Microsoft Excel-regneark, kan du bruke følgende funksjon:

HI2TEST(faktisk_intervall; forventet_intervall).

Her er faktisk_intervall den opprinnelige beredskapstabellen med reelle frekvenser (bare celler med selve frekvensene er indikert uten overskrifter og "total"); forventet_intervall – rekke forventede frekvenser. Derfor må de forventede frekvensene beregnes uavhengig.

Eksempel:

Et utbrudd av en smittsom sykdom har skjedd i en bestemt by. Det er en antagelse om at kilden til forurensning var drikkevann. De bestemte seg for å teste denne antagelsen ved å bruke en utvalgsundersøkelse av bybefolkningen, ifølge hvilken det var nødvendig å fastslå om mengden vann som drikkes påvirker antall tilfeller.

Kildedataene vises i følgende tabell:

La oss beregne de forventede frekvensene. Andelen må forbli den samme innenfor tabellen. La oss derfor beregne, for eksempel, hvilken andel linjene utgjør i det totale antallet, og vi får en koeffisient for hver linje. Den samme andelen skal vises i hver celle i den tilsvarende raden, derfor, for å beregne forventet frekvens i cellen, multipliserer vi koeffisienten med totalen i den tilsvarende kolonnen.

Antall frihetsgrader er (3-1)*(2-1)=2. Kritisk kriterieverdi .

Forsøksverdien er større enn den kritiske verdien (61,5>13,816), dvs. hypotesen om at det ikke er noen effekt av drikkevannsmengden på sykelighet forkastes med en feilsannsynlighet på mindre enn 0,001. Dermed kan det hevdes at det var vann som ble kilden til sykdommen.

Begge de beskrevne kriteriene har begrensninger som vanligvis ikke oppfylles dersom antallet observasjoner er lite eller individuelle karakteristikker er sjeldne. Bruk i dette tilfellet Fishers eksakte test . Den er basert på å søke gjennom alle mulige alternativer for å fylle ut beredskapstabellen for et gitt antall grupper. Derfor er manuell beregning ganske komplisert. For å beregne det kan du bruke statistiske applikasjonspakker.

Z-testen er en analog av studentens test, men brukes til å sammenligne kvalitative egenskaper. Kriteriets eksperimentelle verdi beregnes som forholdet mellom forskjellen i proporsjoner og gjennomsnittsfeilen i forskjellen i proporsjoner.

De kritiske verdiene til z-kriteriet er lik de tilsvarende punktene i den normaliserte normalfordelingen: , , .



Kjikvadrattesten brukes til å sammenligne et hvilket som helst antall grupper i henhold til verdiene av kvalitative egenskaper. Kildedataene skal presenteres i form av en beredskapstabell. Kriteriets eksperimentelle verdi beregnes som summen over alle cellene i beredskapstabellen av forholdet mellom kvadratet av differansen mellom den faktiske frekvensen og den forventede frekvensen og den forventede frekvensen. Forventede frekvenser beregnes under forutsetning av at egenskapene som sammenlignes er like i alle grupper. Kritiske verdier bestemmes fra kjikvadratfordelingstabeller.

LITTERATUR.

Glanz S. – Kapittel 5.

Rebrova O.Yu. – Kapittel 10,11.

Lakin G.F. - Med. 120-123

Spørsmål til egentesting av elever.

1. I hvilke tilfeller kan z-kriteriet brukes?

2. Hva er grunnlaget for å beregne forsøksverdien til z-kriteriet?

3. Hvordan finne den kritiske verdien av z-kriteriet?

4. I hvilke tilfeller kan kriteriet c 2 anvendes?

5. Hva er grunnlaget for å beregne forsøksverdien til kriteriet c 2?

6. Hvordan finne den kritiske verdien av kriteriet c 2?

7. Hva annet kan brukes for å sammenligne kvalitetsegenskaper dersom kriteriene z og c 2 ikke kan anvendes på grunn av restriksjoner?

Oppgaver.