Menggunakan ujian khi kuasa dua. MS EXCEL berfungsi menggunakan taburan CH2

Ujian khi kuasa dua ialah kaedah universal untuk menyemak persetujuan antara keputusan eksperimen dan model statistik yang digunakan.

Jarak Pearson X 2

Pyatnitsky A.M.

Universiti Perubatan Negeri Rusia

Pada tahun 1900, Karl Pearson mencadangkan cara yang mudah, universal dan berkesan untuk menguji persetujuan antara ramalan model dan data eksperimen. "Ujian khi kuasa dua" yang dicadangkannya adalah ujian statistik yang paling penting dan paling biasa digunakan. Kebanyakan masalah yang berkaitan dengan menganggar parameter model yang tidak diketahui dan menyemak persetujuan antara model dan data eksperimen boleh diselesaikan dengan bantuannya.

Biarkan terdapat model apriori ("pra-eksperimen") bagi objek atau proses yang sedang dikaji (dalam statistik mereka bercakap tentang "hipotesis nol" H 0), dan keputusan eksperimen dengan objek ini. Adalah perlu untuk memutuskan sama ada model itu mencukupi (adakah ia sesuai dengan realiti)? Adakah keputusan eksperimen bercanggah dengan idea kami tentang cara realiti berfungsi, atau dengan kata lain, adakah H0 harus ditolak? Selalunya tugas ini boleh dikurangkan untuk membandingkan frekuensi purata kejadian yang diperhatikan (O i = Observed) dan dijangka mengikut model (E i = Expected). Adalah dipercayai bahawa frekuensi yang diperhatikan diperolehi dalam satu siri pemerhatian bebas N (!) yang dibuat dalam keadaan malar (!). Hasil daripada setiap pemerhatian, satu daripada peristiwa M direkodkan. Peristiwa ini tidak boleh berlaku serentak (ia tidak serasi secara berpasangan) dan satu daripadanya semestinya berlaku (gabungan mereka membentuk peristiwa yang boleh dipercayai). Keseluruhan semua cerapan dikurangkan kepada jadual (vektor) frekuensi (O i )=(O 1 ,… O M ), yang menerangkan sepenuhnya keputusan eksperimen. Nilai O 2 =4 bermakna peristiwa nombor 2 berlaku 4 kali. Jumlah frekuensi O 1 +… O M =N. Adalah penting untuk membezakan antara dua kes: N – tetap, bukan rawak, N – pembolehubah rawak. Untuk jumlah tetap eksperimen N, frekuensi mempunyai taburan polinomial. Mari kita gambarkan skema umum ini dengan contoh mudah.

Menggunakan ujian khi kuasa dua untuk menguji hipotesis mudah.

Biarkan model (hipotesis nol H 0) adalah bahawa dadu adalah saksama - semua muka muncul sama kerap dengan kebarangkalian p i =1/6, i =, M=6. Satu eksperimen telah dijalankan di mana dadu dibaling 60 kali (N = 60 ujian bebas telah dijalankan). Mengikut model, kami menjangkakan bahawa semua frekuensi yang diperhatikan O i kejadian 1,2,... 6 mata sepatutnya hampir dengan nilai puratanya E i =Np i =60∙(1/6)=10. Menurut H 0, vektor frekuensi purata (E i )=(Np i )=(10, 10, 10, 10, 10, 10). (Hipotesis di mana frekuensi purata diketahui sepenuhnya sebelum permulaan eksperimen dipanggil mudah.) Jika vektor yang diperhatikan (O i ) adalah sama dengan (34,0,0,0,0,26), maka ia adalah serta-merta jelas bahawa model itu salah - tulang tidak boleh betul, kerana hanya 1 dan 6 dilempar 60 kali Kebarangkalian kejadian sedemikian untuk dadu yang betul boleh diabaikan: P = (2/6) 60 =2.4*10 -29. Walau bagaimanapun, kemunculan percanggahan yang jelas antara model dan pengalaman adalah pengecualian. Biarkan vektor frekuensi yang diperhatikan (O i ) sama dengan (5, 15, 6, 14, 4, 16). Adakah ini konsisten dengan H0? Jadi, kita perlu membandingkan dua vektor frekuensi (E i) dan (O i). Dalam kes ini, vektor frekuensi jangkaan (Ei) tidak rawak, tetapi vektor frekuensi yang diperhatikan (Oi) adalah rawak - semasa eksperimen seterusnya (dalam siri baharu 60 lontaran) ia akan berubah menjadi berbeza. Adalah berguna untuk memperkenalkan tafsiran geometri masalah dan menganggap bahawa dalam ruang frekuensi (dalam kes ini 6-dimensi) dua titik diberikan dengan koordinat (5, 15, 6, 14, 4, 16) dan (10, 10, 10, 10, 10, 10). Adakah jaraknya cukup jauh untuk menganggap ini tidak serasi dengan H 0 ? Dengan kata lain, kita memerlukan:

  1. belajar untuk mengukur jarak antara frekuensi (titik dalam ruang frekuensi),
  2. mempunyai kriteria untuk jarak yang harus dipertimbangkan terlalu besar ("tidak masuk akal"), iaitu, tidak konsisten dengan H 0 .

Kuadrat jarak Euclidean biasa adalah sama dengan:

X 2 Euclid = S(O i -E i) 2 = (5-10) 2 +(15-10) 2 + (6-10) 2 +(14-10) 2 +(4-10) 2 +(16-10) 2

Dalam kes ini, permukaan X 2 Euclid = const sentiasa sfera jika kita menetapkan nilai E i dan menukar O i . Karl Pearson menyatakan bahawa penggunaan jarak Euclidean dalam ruang frekuensi tidak boleh digunakan. Oleh itu, adalah tidak betul untuk mengandaikan bahawa titik (O = 1030 dan E = 1000) dan (O = 40 dan E = 10) berada pada jarak yang sama antara satu sama lain, walaupun dalam kedua-dua kes perbezaannya ialah O -E = 30. Lagipun, semakin tinggi frekuensi yang dijangkakan, semakin besar penyimpangan daripadanya harus dipertimbangkan mungkin. Oleh itu, mata (O =1030 dan E =1000) harus dianggap "dekat", dan mata (O =40 dan E =10) "jauh" antara satu sama lain. Ia boleh ditunjukkan bahawa jika hipotesis H 0 adalah benar, maka turun naik kekerapan O i relatif kepada E i adalah daripada susunan punca kuasa dua(!) E i . Oleh itu, Pearson mencadangkan, apabila mengira jarak, untuk mengkuadratkan bukan perbezaan (O i -E i), tetapi perbezaan ternormal (O i -E i)/E i 1/2. Jadi inilah formula untuk mengira jarak Pearson (ia sebenarnya kuasa dua jarak):

X 2 Pearson = S((O i -E i )/E i 1/2) 2 = S(O i -E i ) 2 /E i

Dalam contoh kami:

X 2 Pearson = (5-10) 2 /10+(15-10) 2 /10 +(6-10) 2 /10+(14-10) 2 /10+(4-10) 2 /10+( 16-10) 2 /10=15.4

Untuk acuan biasa, semua frekuensi dijangka E i adalah sama, tetapi biasanya ia berbeza, jadi permukaan yang jarak Pearson adalah malar (X 2 Pearson =const) bertukar menjadi elips, bukan sfera.

Sekarang bahawa formula untuk mengira jarak telah dipilih, adalah perlu untuk mengetahui jarak mana yang harus dianggap "tidak terlalu besar" (selaras dengan H 0 Jadi, sebagai contoh, apa yang boleh kita katakan tentang jarak yang kita hitung 15.4). ? Dalam peratusan kes (atau berapa kebarangkalian) kita akan mendapat jarak yang lebih besar daripada 15.4 apabila menjalankan eksperimen dengan dadu biasa? Jika peratusan ini kecil (<0.05), то H 0 надо отвергнуть. Иными словами требуется найти распределение длярасстояния Пирсона. Если все ожидаемые частоты E i не слишком малы (≥5), и верна H 0 , то нормированные разности (O i - E i )/E i 1/2 приближенно эквивалентны стандартным гауссовским случайным величинам: (O i - E i )/E i 1/2 ≈N (0,1). Это, например, означает, что в 95% случаев| (O i - E i )/E i 1/2 | < 1.96 ≈ 2 (правило “двух сигм”).

Penjelasan. Bilangan ukuran O i jatuh ke dalam sel jadual dengan nombor i mempunyai taburan binomial dengan parameter: m =Np i =E i,σ =(Np i (1-p i)) 1/2, di mana N ialah nombor bagi ukuran (N " 1), p i ialah kebarangkalian untuk satu ukuran jatuh ke dalam sel tertentu (ingat bahawa pengukuran adalah bebas dan dijalankan dalam keadaan malar). Jika p i kecil, maka: σ≈(Np i ) 1/2 =E i dan taburan binomial hampir dengan Poisson, di mana purata bilangan cerapan E i =λ, dan sisihan piawai σ=λ 1/2 = E i 1/2. Untuk λ≥5, taburan Poisson adalah hampir dengan N normal (m =E i =λ, σ=E i 1/2 =λ 1/2), dan nilai ternormal (O i - E i )/E i 1 /2 ≈ N (0 ,1).

Pearson mentakrifkan pembolehubah rawak χ 2 n – “khi kuasa dua dengan n darjah kebebasan”, sebagai hasil tambah kuasa dua n pembolehubah rawak biasa piawai bebas:

χ 2 n = T 1 2 + T 2 2 + …+ T n 2 , mana semua orang T i = N(0,1) - n. O. R. Dengan. V.

Mari cuba memahami dengan jelas maksud pembolehubah rawak yang paling penting ini dalam statistik. Untuk melakukan ini, pada satah (dengan n = 2) atau di angkasa (dengan n = 3) kami membentangkan awan titik yang koordinatnya bebas dan mempunyai taburan normal piawaif T (x) ~exp (-x 2/2 ). Pada satah, mengikut peraturan "dua sigma", yang digunakan secara bebas pada kedua-dua koordinat, 90% (0.95*0.95≈0.90) mata terkandung dalam segi empat sama (-2).

f χ 2 2 (a) = Сexp(-a/2) = 0.5exp(-a/2).

Dengan bilangan darjah kebebasan n (n > 30) yang cukup besar, taburan khi kuasa dua menghampiri normal: N (m = n; σ = (2n) ½). Ini adalah akibat daripada "teorem had pusat": jumlah kuantiti teragih sama dengan varians terhingga menghampiri hukum biasa apabila bilangan sebutan bertambah.

Dalam amalan, anda perlu ingat bahawa kuasa dua purata jarak adalah sama dengan m (χ 2 n) = n, dan variansnya ialah σ 2 (χ 2 n) = 2n. Dari sini adalah mudah untuk membuat kesimpulan nilai khi kuasa dua yang harus dianggap terlalu kecil dan terlalu besar: kebanyakan taburan terletak dalam julat dari n -2∙(2n) ½ hingga n +2∙(2n) ½.

Jadi, jarak Pearson dengan ketara melebihi n +2∙ (2n) ½ harus dianggap tidak munasabah besar (tidak konsisten dengan H 0). Jika hasilnya hampir dengan n +2∙(2n) ½, maka anda harus menggunakan jadual di mana anda boleh mengetahui dengan tepat dalam bahagian mana kes seperti itu dan nilai khi kuasa dua besar boleh muncul.

Adalah penting untuk mengetahui cara memilih nilai yang betul untuk bilangan darjah kebebasan (disingkat n.d.f.). Nampaknya wajar untuk mengandaikan bahawa n adalah sama dengan bilangan digit: n =M. Dalam artikelnya, Pearson mencadangkan sebanyak itu. Dalam contoh dadu, ini bermakna n =6. Walau bagaimanapun, beberapa tahun kemudian ditunjukkan bahawa Pearson tersilap. Bilangan darjah kebebasan sentiasa kurang daripada bilangan digit jika terdapat hubungan antara pembolehubah rawak O i. Untuk contoh dadu, jumlah O i ialah 60, dan hanya 5 frekuensi boleh ditukar secara bebas, jadi nilai yang betul ialah n = 6-1 = 5. Untuk nilai n ini kita dapat n +2∙(2n) ½ =5+2∙(10) ½ =11.3. Sejak 15.4>11.3, maka hipotesis H 0 - die adalah betul, harus ditolak.

Selepas menjelaskan ralat, jadual χ 2 yang sedia ada perlu ditambah, kerana pada mulanya mereka tidak mempunyai kes n = 1, kerana bilangan digit terkecil = 2. Kini ternyata mungkin terdapat kes apabila jarak Pearson mempunyai taburan χ 2 n =1.

Contoh. Dengan 100 lambungan syiling, bilangan kepala ialah O 1 = 65, dan ekor O 2 = 35. Bilangan digit ialah M = 2. Jika syiling adalah simetri, maka frekuensi yang dijangkakan ialah E 1 =50, E 2 =50.

X 2 Pearson = S(O i -E i) 2 /E i = (65-50) 2 /50 + (35-50) 2 /50 = 2*225/50 = 9.

Nilai yang terhasil hendaklah dibandingkan dengan yang boleh diambil oleh pembolehubah rawak χ 2 n =1, ditakrifkan sebagai kuasa dua nilai normal piawai χ 2 n =1 =T 1 2 ≥ 9 ó T 1 ≥3 atau T 1 ≤-3. Kebarangkalian kejadian sedemikian adalah sangat kecil P (χ 2 n =1 ≥9) = 0.006. Oleh itu, syiling tidak boleh dianggap simetri: H 0 harus ditolak. Hakikat bahawa bilangan darjah kebebasan tidak boleh sama dengan bilangan digit adalah jelas daripada fakta bahawa jumlah frekuensi yang diperhatikan sentiasa sama dengan jumlah yang dijangka, contohnya O 1 +O 2 =65+ 35 = E 1 +E 2 =50+50=100. Oleh itu, titik rawak dengan koordinat O 1 dan O 2 terletak pada garis lurus: O 1 +O 2 =E 1 +E 2 =100 dan jarak ke pusat ternyata kurang daripada jika sekatan ini tidak wujud dan mereka terletak di seluruh pesawat. Sesungguhnya, untuk dua pembolehubah rawak bebas dengan jangkaan matematik E 1 =50, E 2 =50, jumlah realisasinya tidak semestinya sama dengan 100 - contohnya, nilai O 1 =60, O 2 =55 akan boleh diterima.

Penjelasan. Mari kita bandingkan keputusan kriteria Pearson pada M = 2 dengan apa yang diberikan oleh formula Moivre-Laplace apabila menganggar turun naik rawak dalam kekerapan kejadian ν =K /N mempunyai kebarangkalian p dalam siri N ujian Bernoulli bebas ( K ialah bilangan kejayaan):

χ 2 n =1 = S(O i -E i) 2 /E i = (O 1 -E 1) 2 /E 1 + (O 2 -E 2) 2 /E 2 = (Nν -Np) 2 /(Np) + (N ( 1-ν )-N (1-p )) 2 /(N (1-p ))=

=(Nν-Np) 2 (1/p + 1/(1-p))/N=(Nν-Np) 2 /(Np(1-p))=((K-Np)/(Npq) ½ ) 2 = T 2

Nilai T =(K -Np)/(Npq) ½ = (K -m (K))/σ(K) ≈N (0.1) dengan σ(K)=(Npq) ½ ≥3. Kami melihat bahawa dalam kes ini keputusan Pearson betul-betul bertepatan dengan apa yang diberikan anggaran biasa untuk taburan binomial.

Setakat ini kami telah mempertimbangkan hipotesis mudah yang mana frekuensi purata jangkaan E i diketahui sepenuhnya terlebih dahulu. Untuk mendapatkan maklumat tentang cara memilih bilangan darjah kebebasan yang betul untuk hipotesis kompleks, lihat di bawah.

Menggunakan ujian khi kuasa dua untuk menguji hipotesis kompleks

Dalam contoh dengan die dan syiling biasa, frekuensi yang dijangkakan boleh ditentukan sebelum(!) percubaan. Hipotesis sedemikian dipanggil "mudah". Dalam amalan, "hipotesis kompleks" adalah lebih biasa. Selain itu, untuk mencari frekuensi dijangka E i adalah perlu untuk menganggarkan satu atau beberapa kuantiti (parameter model), dan ini hanya boleh dilakukan menggunakan data eksperimen. Akibatnya, untuk "hipotesis kompleks" frekuensi jangkaan E i ternyata bergantung pada frekuensi yang diperhatikan O i dan oleh itu sendiri menjadi pembolehubah rawak, berbeza-beza bergantung pada keputusan eksperimen. Dalam proses memilih parameter, jarak Pearson berkurangan - parameter dipilih untuk meningkatkan persetujuan antara model dan eksperimen. Oleh itu, bilangan darjah kebebasan harus berkurangan.

Bagaimana untuk menganggarkan parameter model? Terdapat banyak kaedah anggaran yang berbeza - "kaedah kemungkinan maksimum", "kaedah momen", "kaedah penggantian". Walau bagaimanapun, anda tidak boleh menggunakan sebarang dana tambahan dan mencari anggaran parameter dengan meminimumkan jarak Pearson. Dalam era pra-komputer, pendekatan ini jarang digunakan: ia menyusahkan untuk pengiraan manual dan, sebagai peraturan, tidak dapat diselesaikan secara analitik. Apabila mengira pada komputer, pengecilan berangka biasanya mudah dilakukan, dan kelebihan kaedah ini adalah serba boleh. Jadi, mengikut "kaedah pengecilan chi-square," kami memilih nilai parameter yang tidak diketahui supaya jarak Pearson menjadi yang terkecil. (Dengan cara ini, dengan mengkaji perubahan dalam jarak ini dengan anjakan kecil berbanding dengan minimum yang ditemui, anda boleh menganggarkan ukuran ketepatan anggaran: membina selang keyakinan.) Selepas parameter dan jarak minimum ini sendiri ditemui, ia adalah sekali lagi perlu untuk menjawab soalan sama ada ia cukup kecil.

Urutan umum tindakan adalah seperti berikut:

  1. Pemilihan model (hipotesis H 0).
  2. Pemilihan bit dan penentuan vektor frekuensi yang diperhatikan O i .
  3. Anggaran parameter model yang tidak diketahui dan pembinaan selang keyakinan untuk mereka (contohnya, dengan mencari jarak Pearson minimum).
  4. Pengiraan frekuensi jangkaan E i .
  5. Perbandingan nilai ditemui jarak Pearson X 2 dengan nilai kritikal khi kuasa dua χ 2 crit - yang terbesar, yang masih dianggap munasabah, serasi dengan H 0. Kami mencari nilai χ 2 crit daripada jadual dengan menyelesaikan persamaan

P (χ 2 n > χ 2 crit) = 1-α,

dengan α ialah "tahap keertian" atau "saiz kriteria" atau "magnitud ralat jenis pertama" (nilai biasa α = 0.05).

Biasanya bilangan darjah kebebasan n dikira menggunakan formula

n = (bilangan digit) – 1 – (bilangan parameter untuk dianggarkan)

Jika X 2 > χ 2 crit, maka hipotesis H 0 ditolak, jika tidak, ia diterima. Dalam α∙100% kes (iaitu, agak jarang), kaedah menyemak H 0 ini akan membawa kepada "ralat jenis pertama": hipotesis H 0 akan ditolak secara salah.

Contoh. Apabila mengkaji 10 siri 100 biji, bilangan yang dijangkiti lalat mata hijau dikira. Data diterima: O i =(16, 18, 11, 18, 21, 10, 20, 18, 17, 21);

Di sini vektor frekuensi dijangka tidak diketahui terlebih dahulu. Jika data adalah homogen dan diperolehi untuk taburan binomial, maka satu parameter tidak diketahui: perkadaran p benih yang dijangkiti. Perhatikan bahawa dalam jadual asal sebenarnya bukan 10 tetapi 20 frekuensi yang memenuhi 10 sambungan: 16+84=100, ... 21+79=100.

X 2 = (16-100p) 2 /100p +(84-100(1-p)) 2 /(100(1-p))+…+

(21-100p) 2 /100p +(79-100(1-p)) 2 /(100(1-p))

Menggabungkan istilah secara berpasangan (seperti dalam contoh dengan syiling), kami memperoleh bentuk penulisan kriteria Pearson, yang biasanya ditulis dengan serta-merta:

X 2 = (16-100p) 2 /(100p(1-p))+…+ (21-100p) 2 /(100p(1-p)).

Sekarang, jika jarak Pearson minimum digunakan sebagai kaedah untuk menganggar p, maka perlu mencari p yang X 2 =min. (Model cuba, jika boleh, untuk "melaraskan" kepada data percubaan.)

Kriteria Pearson adalah yang paling universal daripada semua yang digunakan dalam statistik. Ia boleh digunakan untuk data univariate dan multivariate, ciri kuantitatif dan kualitatif. Walau bagaimanapun, tepat kerana serba boleh, seseorang harus berhati-hati untuk tidak membuat kesilapan.

Perkara penting

1.Pemilihan kategori.

  • Jika pengedaran adalah diskret, maka biasanya tidak ada kesewenang-wenangan dalam pilihan digit.
  • Jika pengedaran berterusan, maka sewenang-wenangnya tidak dapat dielakkan. Blok yang setara secara statistik boleh digunakan (semua O adalah sama, contohnya =10). Walau bagaimanapun, panjang selang adalah berbeza. Apabila melakukan pengiraan manual, mereka cuba membuat selang masa yang sama. Sekiranya selang semasa mengkaji taburan sifat univariat adalah sama? Tidak.
  • Digit mesti digabungkan supaya frekuensi yang dijangka (dan tidak diperhatikan!) tidak terlalu kecil (≥5). Mari kita ingat bahawa ia adalah mereka (E i) yang berada dalam penyebut apabila mengira X 2! Apabila menganalisis ciri satu dimensi, ia dibenarkan melanggar peraturan ini dalam dua digit ekstrem E 1 =E maks =1. Jika bilangan digit adalah besar dan frekuensi jangkaan adalah hampir, maka X 2 ialah anggaran yang baik bagi χ 2 walaupun untuk E i =2.

Anggaran Parameter. Penggunaan kaedah anggaran "buatan sendiri", yang tidak berkesan boleh membawa kepada nilai jarak Pearson yang melambung.

Memilih bilangan darjah kebebasan yang betul. Jika anggaran parameter dibuat bukan daripada frekuensi, tetapi terus daripada data (contohnya, min aritmetik diambil sebagai anggaran min), maka bilangan sebenar darjah kebebasan n tidak diketahui. Kami hanya tahu bahawa ia memenuhi ketidaksamaan:

(bilangan digit – 1 – bilangan parameter yang sedang dinilai)< n < (число разрядов – 1)

Oleh itu, adalah perlu untuk membandingkan X 2 dengan nilai kritikal χ 2 crit yang dikira sepanjang julat n ini.

Bagaimana untuk mentafsir nilai khi kuasa dua yang tidak munasabah? Patutkah syiling dianggap simetri jika, selepas 10,000 lambungan, ia mendarat pada lambang 5,000 kali? Sebelum ini, ramai ahli statistik percaya bahawa H 0 juga harus ditolak. Sekarang pendekatan lain dicadangkan: terima H 0, tetapi tundukkan data dan metodologi untuk analisisnya kepada pengesahan tambahan. Terdapat dua kemungkinan: sama ada jarak Pearson yang terlalu kecil bermakna peningkatan bilangan parameter model tidak disertai dengan penurunan yang betul dalam bilangan darjah kebebasan, atau data itu sendiri telah dipalsukan (mungkin diselaraskan secara tidak sengaja kepada hasil yang dijangkakan).

Contoh. Dua penyelidik A dan B mengira perkadaran homozigot resesif aa dalam generasi kedua silang AA * aa monohibrid. Mengikut undang-undang Mendel, pecahan ini ialah 0.25. Setiap penyelidik menjalankan 5 eksperimen, dan 100 organisma dikaji dalam setiap eksperimen.

Keputusan A: 25, 24, 26, 25, 24. Kesimpulan penyelidik: Hukum Mendel adalah benar(?).

Keputusan B: 29, 21, 23, 30, 19. Kesimpulan penyelidik: Hukum Mendel tidak adil(?).

Walau bagaimanapun, undang-undang Mendel adalah bersifat statistik, dan analisis kuantitatif keputusan membalikkan kesimpulan! Menggabungkan lima eksperimen menjadi satu, kami tiba di taburan khi kuasa dua dengan 5 darjah kebebasan (hipotesis mudah diuji):

X 2 A = ((25-25) 2 +(24-25) 2 +(26-25) 2 +(25-25) 2 +(24-25) 2)/(100∙0.25∙0.75)=0.16

X 2 B = ((29-25) 2 +(21-25) 2 +(23-25) 2 +(30-25) 2 +(19-25) 2)/(100∙0.25∙0.75)=5.17

Nilai purata m [χ 2 n =5 ]=5, sisihan piawai σ[χ 2 n =5 ]=(2∙5) 1/2 =3.2.

Oleh itu, tanpa merujuk kepada jadual, adalah jelas bahawa nilai X 2 B adalah tipikal, dan nilai X 2 A adalah sangat kecil. Mengikut jadual P (χ 2 n =5<0.16)<0.0001.

Contoh ini ialah penyesuaian kes sebenar yang berlaku pada tahun 1930-an (lihat karya Kolmogorov "On Another Proof of Mendel's Laws"). Menariknya, Penyelidik A adalah penyokong genetik, manakala Penyelidik B menentangnya.

Kekeliruan dalam tatatanda. Adalah perlu untuk membezakan jarak Pearson, yang memerlukan konvensyen tambahan dalam pengiraannya, daripada konsep matematik pembolehubah rawak khi kuasa dua. Jarak Pearson dalam keadaan tertentu mempunyai taburan yang hampir dengan khi kuasa dua dengan n darjah kebebasan. Oleh itu, adalah dinasihatkan untuk TIDAK menyatakan jarak Pearson dengan simbol χ 2 n, tetapi menggunakan tatatanda yang serupa tetapi berbeza X 2. .

Kriteria Pearson bukanlah yang maha kuasa. Terdapat bilangan alternatif yang tidak terhingga untuk H 0 yang dia tidak dapat mengambil kira. Katakan anda sedang menguji hipotesis bahawa ciri tersebut mempunyai taburan seragam, anda mempunyai 10 digit dan vektor frekuensi yang diperhatikan adalah sama dengan (130,125,121,118,116,115,114,113,111,110). Kriteria Pearson tidak boleh "perasan" bahawa frekuensi menurun secara monoton dan H 0 tidak akan ditolak. Jika ia ditambah dengan kriteria siri, maka ya!

Penggunaan kriteria ini adalah berdasarkan penggunaan ukuran (statistik) percanggahan antara teori F(x) dan pengedaran empirikal F* n(x), yang lebih kurang mematuhi undang-undang pengedaran χ 2 . Hipotesis H 0 Ketekalan pengagihan disemak dengan menganalisis taburan statistik ini. Penggunaan kriteria memerlukan pembinaan siri statistik.

Jadi, biarkan sampel dibentangkan secara statistik bersebelahan dengan bilangan digit M. Kadar pukulan yang diperhatikan saya- pangkat ke n i. Selaras dengan undang-undang pengedaran teori, kekerapan jangkaan pukulan masuk i-kategori ke- F i. Perbezaan antara kekerapan yang diperhatikan dan dijangkakan ialah ( n iF i). Untuk mencari tahap keseluruhan percanggahan antara F(x) Dan F* n (x) adalah perlu untuk mengira jumlah wajaran perbezaan kuasa dua merentas semua digit siri statistik

Nilai χ 2 dengan pembesaran tanpa had n mempunyai taburan χ 2 (taburan asymptotically sebagai χ 2). Pengagihan ini bergantung kepada bilangan darjah kebebasan k, iaitu bilangan nilai bebas bagi istilah dalam ungkapan (3.7). Bilangan darjah kebebasan adalah sama dengan bilangan y tolak bilangan hubungan linear yang dikenakan ke atas sampel. Satu sambungan wujud kerana fakta bahawa sebarang frekuensi boleh dikira daripada jumlah frekuensi dalam baki M–1 digit. Di samping itu, jika parameter pengedaran tidak diketahui terlebih dahulu, maka terdapat had lain kerana pemasangan pengedaran kepada sampel. Jika sampel menentukan S parameter taburan, maka bilangan darjah kebebasan akan menjadi k=M –S–1.

Kawasan Penerimaan Hipotesis H 0 ditentukan oleh keadaan χ 2 < χ 2(k;a), di mana χ 2(k;a)– titik kritikal taburan χ2 dengan aras keertian a. Kebarangkalian ralat jenis I ialah a, kebarangkalian ralat jenis II tidak dapat ditakrifkan dengan jelas, kerana terdapat sejumlah besar cara berbeza yang mungkin tidak sepadan dengan pengagihan. Kuasa ujian bergantung pada bilangan digit dan saiz sampel. Kriteria disyorkan untuk digunakan apabila n>200, penggunaan dibenarkan apabila n>40, dalam keadaan sedemikian kriteria itu sah (sebagai peraturan, ia menolak hipotesis nol yang salah).

Algoritma untuk menyemak mengikut kriteria

1. Bina histogram menggunakan kaedah kebarangkalian sama.

2. Berdasarkan rupa histogram, kemukakan satu hipotesis

H 0: f(x) = f 0(x),

H 1: f(x) f 0(x),

di mana f 0(x) - ketumpatan kebarangkalian hukum taburan hipotetikal (contohnya, seragam, eksponen, normal).

Komen. Hipotesis tentang hukum taburan eksponen boleh dikemukakan jika semua nombor dalam sampel adalah positif.


3. Kira nilai kriteria menggunakan formula

,

di manakah kekerapan pukulan i-selang ke-;

pi- kebarangkalian teori pembolehubah rawak jatuh ke dalam i- selang ke- dengan syarat bahawa hipotesis H 0benar.

Formula untuk pengiraan pi dalam kes undang-undang eksponen, seragam dan biasa, mereka masing-masing adalah sama.

undang-undang eksponen

. (3.8)

Di mana A 1 = 0, Bm= +.

Undang-undang seragam

Undang-undang Biasa

. (3.10)

Di mana A 1 = -, B M = +.

Nota. Selepas mengira semua kebarangkalian pi semak sama ada hubungan rujukan itu berpuas hati

Fungsi Ф( X) - ganjil. Ф(+) = 1.

4. Daripada jadual "Chi-square" dalam Lampiran, nilai dipilih, di mana tahap keertian yang ditentukan (= 0.05 atau = 0.01), dan k- bilangan darjah kebebasan, ditentukan oleh formula

k= M- 1 - S.

Di sini S- bilangan parameter yang bergantung kepada hipotesis yang dipilih H 0undang pengagihan. Nilai S untuk undang-undang seragam ialah 2, untuk undang-undang eksponen ialah 1, untuk undang-undang biasa ialah 2.

5. Jika , maka hipotesis H 0menyimpang. Jika tidak, tiada sebab untuk menolaknya: dengan kebarangkalian 1, ia adalah benar, dan dengan kebarangkalian, ia adalah palsu, tetapi nilainya tidak diketahui.

Contoh3 . 1. Dengan menggunakan kriteria 2, kemukakan dan uji satu hipotesis tentang hukum taburan pembolehubah rawak X, siri variasi, jadual selang dan histogram taburan yang diberikan dalam contoh 1.2. Tahap keertian ialah 0.05.

Penyelesaian . Berdasarkan rupa histogram, kami mengemukakan hipotesis bahawa pembolehubah rawak X diedarkan mengikut hukum biasa:

H 0: f(x) = N(m,);

H 1: f(x) N(m,).

Nilai kriteria dikira menggunakan formula.

Penerangan tentang kriteria

Tujuan kriteria

Ujian khi kuasa dua Pearson

Bahan kuliah

Topik 6. Mengenal pasti perbezaan taburan sesuatu sifat

Kriteria Pearson: tujuan kriteria, penerangannya, skop aplikasi, algoritma pengiraan.

Kriteria Kolmogorov-Smirnov untuk membandingkan hasil pengukuran kuantitatif: tujuan kriteria, penerangannya, skop aplikasi, algoritma pengiraan.

Apabila mengkaji topik ini, adalah perlu untuk mengambil kira bahawa kedua-dua kriteria adalah bukan parametrik ia beroperasi dengan frekuensi. Beri perhatian khusus kepada peraturan keputusan untuk kriteria yang dipertimbangkan: peraturan ini mungkin bertentangan. Sila semak dengan teliti batasan dalam penggunaan kriteria.

Selepas mempelajari bahan kuliah, jawab soalan ujian dan tulis jawapan dalam nota anda.

Ujian khi kuasa dua Pearson boleh menyelesaikan beberapa masalah, termasuk membandingkan taburan.

Ujian χ 2 digunakan untuk dua tujuan;

1) untuk perbandingan empirikal taburan ciri dengan teori - seragam, biasa atau sebaliknya;

2) untuk perbandingan dua, tiga atau lebih empirikal pengedaran ciri yang sama, iaitu, untuk memeriksa kehomogenan mereka;

3) untuk menilai kebebasan stokastik (kebarangkalian) dalam sistem peristiwa rawak, dsb.

Kriteria χ 2 menjawab persoalan sama ada nilai yang berbeza bagi sesuatu ciri berlaku dengan kekerapan yang sama dalam taburan empirikal dan teori atau dalam dua atau lebih taburan empirikal.

Kelebihan kaedah ini ialah ia membolehkan seseorang membandingkan taburan ciri yang dibentangkan pada mana-mana skala, bermula dari skala nama. Dalam kes paling mudah bagi pengedaran alternatif ("ya - tidak", "membenarkan kecacatan - tidak membenarkan kecacatan", "menyelesaikan masalah - tidak menyelesaikan masalah", dll.), kita sudah boleh menggunakan χ 2 kriteria.

1. Saiz sampel hendaklah cukup besar: N>30. Apabila N<30 критерий χ 2 дает весьма приближенные значения. Точность крите­рия повышается при больших N.

2. Kekerapan teori bagi setiap sel jadual tidak boleh kurang daripada 5: f ≥ 5 . Ini bermakna jika bilangan digit telah ditetapkan dan tidak boleh diubah, maka kita tidak boleh menggunakan kaedah χ 2 , tanpa mengumpul bilangan pemerhatian minimum tertentu. Jika, sebagai contoh, kami ingin menguji andaian kami bahawa kekerapan panggilan ke perkhidmatan telefon Amanah diagihkan secara tidak sekata sepanjang 7 hari dalam seminggu, maka kami memerlukan 5-7 = 35 panggilan. Oleh itu, jika bilangan digit (k) diberikan terlebih dahulu, seperti dalam kes ini, bilangan pemerhatian minimum (N min) ditentukan oleh formula: .



3. Kategori yang dipilih mesti "mengambil" keseluruhan pengedaran, iaitu meliputi keseluruhan julat kebolehubahan ciri. Dalam kes ini, pengelompokan ke dalam kategori mestilah sama dalam semua pengedaran yang dibandingkan.

4. Adalah perlu untuk membuat "pembetulan kesinambungan" apabila membandingkan taburan ciri yang mengambil hanya 2 nilai. Apabila membuat pembetulan, nilai χ 2 berkurangan (lihat contoh dengan pembetulan kesinambungan).

5. Kategori mestilah tidak bertindih: jika pemerhatian diberikan kepada satu kategori, maka ia tidak lagi boleh diberikan kepada mana-mana kategori lain. Jumlah pemerhatian mengikut pangkat mestilah sentiasa sama dengan jumlah pemerhatian.

Algoritma untuk mengira kriteria χ 2

1. Buat jadual konjugasi bersama nilai ciri jenis berikut (pada asasnya, ini adalah siri variasi dua dimensi di mana frekuensi kejadian nilai ciri bersama ditunjukkan) - jadual 19. Jadual mengandungi frekuensi bersyarat, yang akan kami nyatakan dalam bentuk umum sebagai f ij. Contohnya, bilangan penggredan sesuatu ciri X sama dengan 3 (k=3), bilangan penggredan ciri di sama dengan 4 (m=4); Kemudian i berbeza dari 1 hingga k, dan j berbeza dari 1 hingga m.

Jadual 19

x i y j x 1 x 2 x 3
pada pukul 1 f 11 f 21 f 31 f –1
pukul 2 f 12 f 22 f 32 f –2
pukul 3 f 13 f 23 f 33 f –3
pukul 4 f 14 f 24 f 34 f –4
f 1– f 2– f 3– N

2. Seterusnya, untuk kemudahan pengiraan, kami menukar jadual asal kontingensi bersama menjadi jadual dalam bentuk berikut (Jadual 20), meletakkan lajur dengan frekuensi bersyarat satu di bawah yang lain: Masukkan ke dalam jadual nama kategori (lajur 1 dan 2) dan frekuensi empirikal yang sepadan (lajur ke-3 ).

Jadual 20

x i y j f ij f ij * f ij – f ij * (f ij – f ij *) 2 (f ij – f ij *) 2 / f ij *
1 2 3 4 5 6 7
x 1 pada pukul 1 f 11 f 11*
x 1 pukul 2 f 12 f 12*
x 1 pukul 3 f 13 f 13*
x 1 pukul 4 f 14 f 14*
x 2 pada pukul 1 f 21 f 21 *
x 2 pukul 2 f 22 f 22 *
x 2 pukul 3 f 23 f 23 *
x 2 pukul 4 f 24 f 24 *
x 3 pada pukul 1 f 31 f 31 *
x 3 pukul 2 f 32 f 32 *
x 3 pukul 3 f 33 f 33 *
x 3 pukul 4 f 34 f 34*
∑=………….

3. Di sebelah setiap kekerapan empirikal, tuliskan kekerapan teori (lajur ke-4), yang dikira menggunakan formula berikut (jumlah frekuensi dalam baris yang sepadan didarab dengan jumlah kekerapan dalam lajur yang sepadan dan dibahagikan dengan jumlah bilangan pemerhatian):

5. Tentukan bilangan darjah kebebasan menggunakan formula: ν=(k-1)(m-1) , di mana k- bilangan digit atribut X, m - bilangan digit tanda di.

Jika ν=1, buat pembetulan untuk “kesinambungan” dan tulis dalam lajur 5a.

Pembetulan kesinambungan terdiri daripada menolak 0.5 lagi daripada perbezaan antara frekuensi bersyarat dan teori. Kemudian tajuk lajur dalam jadual kami akan kelihatan seperti ini (Jadual 21):

Jadual 21

X di f ij f ij * f ij – f ij * f ij – f ij * – 0.5 (f ij – f ij * – 0.5) 2 (f ij – f ij * – 0.5) 2 / f ij *
1 2 3 4 5 5a 6 7

6. Kuadratkan perbezaan yang terhasil dan masukkannya dalam lajur ke-6.

7. Bahagikan perbezaan kuasa dua yang terhasil dengan kekerapan teori dan tulis keputusan dalam lajur ke-7.

8. Jumlahkan nilai lajur ke-7. Jumlah yang terhasil ditetapkan sebagai χ 2 em.

9. Peraturan keputusan:

Nilai pengiraan kriteria mesti dibandingkan dengan nilai kritikal (atau jadual). Nilai kritikal bergantung kepada bilangan darjah kebebasan mengikut jadual nilai kritikal bagi kriteria Pearson χ 2 (lihat Lampiran 1.6).

Jika χ 2 calc ≥ χ 2 jadual, maka percanggahan antara taburan adalah signifikan secara statistik, atau ciri berubah secara konsisten, atau hubungan antara ciri adalah signifikan secara statistik.

Jika χ 2 dikira< χ 2 табл, то расхождения между рас­пределениями статистически недостоверны, или признаки изменяются несогласованно, или связи между признаками нет.

Jika nilai yang diperolehi bagi kriteria χ 2 adalah lebih besar daripada nilai kritikal, kami membuat kesimpulan bahawa terdapat hubungan statistik antara faktor risiko yang dikaji dan hasil pada tahap kepentingan yang sesuai.

Contoh pengiraan ujian khi kuasa dua Pearson

Mari kita tentukan kepentingan statistik pengaruh faktor merokok terhadap kejadian hipertensi arteri menggunakan jadual yang dibincangkan di atas:

1. Kira nilai yang dijangkakan untuk setiap sel:

2. Cari nilai ujian khi kuasa dua Pearson:

χ 2 = (40-33.6) 2 /33.6 + (30-36.4) 2 /36.4 + (32-38.4) 2 /38.4 + (48-41.6) 2 /41.6 = 4.396.

3. Bilangan darjah kebebasan f = (2-1)*(2-1) = 1. Dengan menggunakan jadual, kita dapati nilai kritikal bagi ujian khi kuasa dua Pearson, yang pada aras keertian p=0.05 dan bilangan darjah kebebasan 1 ialah 3.841.

4. Kami membandingkan nilai yang diperolehi bagi ujian khi kuasa dua dengan yang kritikal: 4.396 > 3.841, oleh itu, pergantungan kejadian hipertensi arteri terhadap kehadiran merokok adalah signifikan secara statistik. Tahap kepentingan hubungan ini sepadan dengan p<0.05.

Juga, ujian khi kuasa dua Pearson dikira menggunakan formula

Tetapi untuk jadual 2x2, keputusan yang lebih tepat diperolehi oleh kriteria pembetulan Yates

Jika Itu N(0) diterima,

Bila diterima H(1)

Apabila bilangan pemerhatian adalah kecil dan sel jadual mengandungi frekuensi kurang daripada 5, ujian khi kuasa dua tidak boleh digunakan dan digunakan untuk menguji hipotesis Ujian tepat Fisher . Prosedur untuk mengira kriteria ini agak intensif buruh, dan dalam kes ini lebih baik menggunakan program analisis statistik komputer.

Menggunakan jadual kontingensi, anda boleh mengira ukuran sambungan antara dua ciri kualitatif - ini ialah pekali persatuan Yule Q (analogi dengan pekali korelasi)

Q terletak dalam julat dari 0 hingga 1. Pekali yang hampir dengan satu menunjukkan hubungan yang kuat antara ciri-ciri. Jika ia sama dengan sifar, tiada sambungan .

Pekali phi-square (φ 2) digunakan sama

TUGASAN PENANDA ARAS

Jadual menerangkan hubungan antara kekerapan mutasi dalam kumpulan Drosophila dengan dan tanpa makan



Analisis jadual kontingensi

Untuk menganalisis jadual kontingensi, hipotesis H 0 dikemukakan, iaitu, ketiadaan pengaruh ciri yang dikaji ke atas hasil kajian Untuk ini, kekerapan jangkaan dikira dan jadual jangkaan dibina.

Meja menunggu

kumpulan tanaman cili Jumlah
Memberi mutasi Tidak memberikan mutasi
Kekerapan sebenar Kekerapan yang dijangkakan Kekerapan sebenar Kekerapan yang dijangkakan
Dengan memberi makan
Tanpa memberi makan
Jumlah

Kaedah No 1

Tentukan kekerapan menunggu:

2756 – X ;

2. 3561 – 3124

Jika bilangan pemerhatian dalam kumpulan adalah kecil, apabila menggunakan X 2, dalam hal membandingkan frekuensi sebenar dan jangkaan dengan taburan diskret, beberapa ketidaktepatan dikaitkan Untuk mengurangkan ketidaktepatan, pembetulan Yates digunakan.

Ujian khi kuasa dua.

Ujian khi kuasa dua, tidak seperti ujian z, digunakan untuk membandingkan sebarang bilangan kumpulan.

Data awal: jadual kontingensi.

Contoh jadual kontingensi dengan dimensi minimum 2*2 diberikan di bawah. A, B, C, D – frekuensi sebenar yang dipanggil.

Tanda 1 Tanda 2 Jumlah
Kumpulan 1 A B A+B
Kumpulan 2 C D C+D
Jumlah A+C B+D A+B+C+D

Pengiraan kriteria adalah berdasarkan perbandingan frekuensi sebenar dan frekuensi dijangka, yang dikira di bawah andaian bahawa tidak ada pengaruh bersama ciri-ciri yang dibandingkan antara satu sama lain. Oleh itu, jika frekuensi sebenar dan jangkaan cukup hampir antara satu sama lain, maka tidak ada pengaruh dan ini bermakna ciri-ciri akan diagihkan secara lebih kurang sama merentas kumpulan.

Data awal untuk menggunakan kaedah ini mesti dimasukkan ke dalam jadual kontingensi, lajur dan baris yang menunjukkan nilai varian ciri yang sedang dikaji. Nombor dalam jadual ini akan dipanggil frekuensi sebenar atau eksperimen. Seterusnya, adalah perlu untuk mengira frekuensi jangkaan berdasarkan andaian bahawa kumpulan yang dibandingkan adalah sama rata dalam pengagihan ciri. Dalam kes ini, perkadaran untuk jumlah baris atau lajur "jumlah" mesti dikekalkan dalam mana-mana baris dan lajur. Berdasarkan ini, frekuensi jangkaan ditentukan (lihat contoh).

Kemudian nilai kriteria dikira sebagai jumlah ke atas semua sel jadual kontingensi nisbah kuasa dua perbezaan antara kekerapan sebenar dan kekerapan dijangka kepada kekerapan dijangka:

di manakah kekerapan sebenar dalam sel; - kekerapan dijangka dalam sel.

, Di mana N = A+ B + C + D.

Apabila mengira menggunakan formula asas untuk jadual 2*2 ( hanya untuk meja ini ), ia juga perlu menggunakan pembetulan Yates untuk kesinambungan:

.

Nilai kritikal kriteria ditentukan dari jadual (lihat lampiran) dengan mengambil kira bilangan darjah kebebasan dan tahap keertian. Tahap keertian diambil sebagai standard: 0.05; 0.01 atau 0.001. Bilangan darjah kebebasan ditakrifkan sebagai hasil darab bilangan baris dan lajur jadual kontingensi, setiap satu dikurangkan dengan satu:

,

di mana r– bilangan baris (bilangan penggredan satu ciri), Dengan– bilangan lajur (bilangan penggredan ciri lain). Nilai kritikal ini boleh ditentukan dalam hamparan Microsoft Excel menggunakan fungsi =x2rev( a, f), di mana bukannya a anda perlu memasukkan tahap keertian, dan bukannya f– bilangan darjah kebebasan.

Sekiranya nilai ujian khi kuasa dua lebih besar daripada nilai kritikal, maka hipotesis tentang kebebasan ciri-ciri tersebut ditolak dan ia boleh dianggap bergantung pada aras keertian yang dipilih.

Kaedah ini mempunyai had dalam kebolehgunaan: frekuensi yang dijangkakan mestilah 5 atau lebih (untuk jadual 2*2). Untuk jadual sewenang-wenangnya, sekatan ini kurang ketat: semua frekuensi jangkaan mestilah 1 atau lebih besar, dan perkadaran sel dengan frekuensi jangkaan kurang daripada 5 tidak boleh melebihi 20%.

Daripada jadual kontingensi dimensi tinggi, anda boleh "mengasingkan" jadual dimensi yang lebih kecil dan mengira nilai kriteria c 2 untuknya. Ini secara berkesan akan menjadi berbilang perbandingan yang serupa dengan yang diterangkan untuk ujian t Pelajar. Dalam kes ini, ia juga perlu menggunakan pembetulan untuk berbilang perbandingan bergantung pada bilangannya.

Untuk menguji hipotesis menggunakan kriteria c 2 dalam hamparan Microsoft Excel, anda boleh menggunakan fungsi berikut:

HI2TEST(selang_sebenar; jangka_selang).

Di sini actual_interval ialah jadual kontingensi asal dengan frekuensi sebenar (hanya sel dengan frekuensi itu sendiri ditunjukkan tanpa tajuk dan "jumlah"); jangkaan_selang – pelbagai frekuensi dijangka. Oleh itu, frekuensi yang dijangkakan mesti dikira secara bebas.

Contoh:

Wabak penyakit berjangkit telah berlaku di bandar tertentu. Terdapat andaian bahawa punca pencemaran adalah air minuman. Mereka memutuskan untuk menguji andaian ini menggunakan tinjauan sampel penduduk bandar, yang menurutnya adalah perlu untuk menentukan sama ada jumlah air yang diminum mempengaruhi bilangan kes.

Data awal ditunjukkan dalam jadual berikut:

Mari kita mengira frekuensi yang dijangkakan. Perkadaran mesti kekal sama dalam jadual. Oleh itu, mari kita hitung, sebagai contoh, bahagian yang membentuk garisan dalam jumlah nombor, dan kita akan mendapat pekali untuk setiap baris. Perkadaran yang sama harus muncul dalam setiap sel baris yang sepadan, oleh itu, untuk mengira kekerapan yang dijangkakan dalam sel, kami mendarabkan pekali dengan jumlah dalam lajur yang sepadan.

Bilangan darjah kebebasan ialah (3-1)*(2-1)=2. Nilai Kriteria Kritikal .

Nilai eksperimen adalah lebih besar daripada nilai kritikal (61.5>13.816), iaitu. hipotesis bahawa tiada kesan jumlah air yang diminum terhadap morbiditi ditolak dengan kebarangkalian ralat kurang daripada 0.001. Oleh itu, boleh dikatakan bahawa air yang menjadi punca penyakit itu.

Kedua-dua kriteria yang diterangkan mempunyai had yang biasanya tidak dipenuhi jika bilangan cerapan adalah kecil atau penggredan ciri individu jarang berlaku. Dalam kes ini gunakan Ujian tepat Fisher . Ia berdasarkan pencarian melalui semua pilihan yang mungkin untuk mengisi jadual kontingensi untuk bilangan kumpulan tertentu. Oleh itu, pengiraan manual agak rumit. Untuk mengiranya, anda boleh menggunakan pakej aplikasi statistik.

Ujian z ialah analog daripada ujian Pelajar, tetapi digunakan untuk membandingkan ciri kualitatif. Nilai eksperimen bagi kriteria dikira sebagai nisbah perbezaan perkadaran kepada ralat purata dalam perbezaan perkadaran.

Nilai kritikal bagi kriteria z adalah sama dengan titik yang sepadan dengan taburan normal ternormal: , , .



Ujian khi kuasa dua digunakan untuk membandingkan sebarang bilangan kumpulan mengikut nilai ciri kualitatif. Data sumber mesti dibentangkan dalam bentuk jadual kontingensi. Nilai eksperimen bagi kriteria dikira sebagai jumlah ke atas semua sel jadual kontingensi nisbah kuasa dua perbezaan antara kekerapan sebenar dan kekerapan dijangka kepada kekerapan dijangka. Kekerapan jangkaan dikira di bawah andaian bahawa ciri yang dibandingkan adalah sama dalam semua kumpulan. Nilai kritikal ditentukan daripada jadual taburan khi kuasa dua.

KESUSASTERAAN.

Glanz S. – Bab 5.

Rebrova O.Yu. – Bab 10,11.

Lakin G.F. - Dengan. 120-123

Soalan untuk ujian kendiri pelajar.

1. Dalam kes apakah kriteria z boleh digunakan?

2. Apakah asas untuk mengira nilai eksperimen bagi kriteria z?

3. Bagaimana untuk mencari nilai kritikal bagi kriteria z?

4. Dalam kes apakah kriteria c 2 boleh digunakan?

5. Apakah asas untuk mengira nilai eksperimen bagi kriteria c 2?

6. Bagaimana untuk mencari nilai kritikal bagi kriteria c 2?

7. Apakah lagi yang boleh digunakan untuk membandingkan ciri kualiti jika kriteria z dan c 2 tidak dapat digunakan kerana sekatan?

Tugasan.