Ki kare testinin kullanılması. CH2 dağıtımını kullanan MS EXCEL işlevleri

Ki-kare testi, bir deneyin sonuçları ile kullanılan istatistiksel model arasındaki uyumu kontrol etmek için kullanılan evrensel bir yöntemdir.

Pearson mesafesi X 2

Pyatnitsky A.M.

Rusya Devlet Tıp Üniversitesi

1900 yılında Karl Pearson, model tahminleri ile deneysel veriler arasındaki uyumu test etmek için basit, evrensel ve etkili bir yol önerdi. Önerdiği “ki-kare testi” istatistiksel testlerin en önemlisi ve en sık kullanılanıdır. Bilinmeyen model parametrelerinin tahmin edilmesi ve model ile deneysel veriler arasındaki uyumun kontrol edilmesiyle ilgili sorunların çoğu onun yardımıyla çözülebilir.

İncelenen nesnenin veya sürecin a priori (“deney öncesi”) bir modeli (istatistikte “sıfır hipotezi” H 0'dan söz edilir) ve bu nesneyle yapılan bir deneyin sonuçları olsun. Modelin yeterli olup olmadığına (gerçeğe uygun mu) karar vermek gerekiyor? Deneysel sonuçlar gerçekliğin nasıl çalıştığına dair fikirlerimizle çelişiyor mu, başka bir deyişle H0 reddedilmeli mi? Çoğunlukla bu görev, belirli olayların meydana gelme sıklıklarının modele (E i = Beklenen) göre gözlemlenen (O i = Gözlenen) ve beklenenin karşılaştırılmasına indirgenebilir. Gözlemlenen frekansların, sabit (!) koşullar altında yapılan bir dizi bağımsız (!) gözlemden elde edildiğine inanılmaktadır. Her gözlem sonucunda M olayından biri kaydedilir. Bu olaylar aynı anda gerçekleşemez (çiftler halinde uyumsuzdurlar) ve mutlaka biri meydana gelir (bunların birleşimi güvenilir bir olay oluşturur). Tüm gözlemlerin toplamı, deneyin sonuçlarını tamamen açıklayan (O i )=(O 1 ,… O M ) frekanslarının bir tablosuna (vektörüne) indirgenir. O 2 =4 değeri 2 numaralı olayın 4 kez meydana geldiği anlamına gelir. Frekansların toplamı O 1 +… O M =N. İki durumu birbirinden ayırmak önemlidir: N – sabit, rastgele olmayan, N – rastgele değişken. Sabit toplam deney sayısı N için, frekanslar bir polinom dağılımına sahiptir. Bu genel şemayı basit bir örnekle açıklayalım.

Basit hipotezleri test etmek için ki-kare testinin kullanılması.

Model (sıfır hipotezi H 0) zarın adil olduğunu varsayalım - p i =1/6, i =, M=6 olasılığıyla tüm yüzler eşit sıklıkta görünür. Zarın 60 kez atıldığı bir deney yapıldı (N = 60 bağımsız deneme yapıldı). Modele göre, 1,2,... 6 noktalarında gözlenen tüm O i frekanslarının ortalama değerlerine E i =Np i =60∙(1/6)=10 yakın olmasını bekliyoruz. H 0'a göre ortalama frekansların vektörü (E i )=(Np i )=(10, 10, 10, 10, 10, 10). (Deneyin başlangıcından önce ortalama frekansların tamamen bilindiği hipotezlere basit denir.) Gözlemlenen vektör (O i ) (34,0,0,0,0,26)'ya eşitse, o zaman hemen modelin yanlış olduğu açıktır - yalnızca 1 ve 6 60 kez atıldığı için kemik doğru olamaz Doğru zar için böyle bir olayın olasılığı ihmal edilebilir: P = (2/6) 60 =2,4*10 -29. Ancak model ile deneyim arasında bu kadar bariz farklılıkların ortaya çıkması bir istisnadır. Gözlemlenen frekansların vektörü (Oi), (5, 15, 6, 14, 4, 16)'ya eşit olsun. Bu H0 ile tutarlı mı? Bu nedenle iki frekans vektörünü (E i) ve (O i) karşılaştırmamız gerekir. Bu durumda, beklenen frekansların vektörü (Ei) rastgele değildir, ancak gözlemlenen frekansların vektörü (Oi) rastgeledir - bir sonraki deney sırasında (60 atışlık yeni bir seride) farklı olduğu ortaya çıkacaktır. Sorunun geometrik bir yorumunu ortaya koymak ve frekans uzayında (bu durumda 6 boyutlu) iki noktanın (5, 15, 6, 14, 4, 16) ve (10, 10, 10, 10, 10, 10). Bunun H 0 ile uyumsuz olduğunu düşünecek kadar birbirlerinden uzaktalar mı? Başka bir deyişle ihtiyacımız var:

  1. Frekanslar arasındaki mesafeleri (frekans uzayındaki noktalar) ölçmeyi öğrenin,
  2. Hangi mesafenin çok (“inanılmaz derecede”) büyük, yani H 0 ile tutarsız sayılması gerektiğine dair bir kriterimiz var.

Sıradan Öklid mesafesinin karesi şuna eşit olacaktır:

X 2 Öklid = S(O ben -E i) 2 = (5-10) 2 +(15-10) 2 + (6-10) 2 +(14-10) 2 +(4-10) 2 +(16-10) 2

Bu durumda, E i değerlerini sabitleyip O i değiştirirsek, X 2 Öklid = const yüzeyleri her zaman küre olur. Karl Pearson, frekans uzayında Öklid mesafesinin kullanılmaması gerektiğini kaydetti. Bu nedenle, her iki durumda da fark O -E = 30 olmasına rağmen (O = 1030 ve E = 1000) ve (O = 40 ve E = 10) noktalarının birbirine eşit uzaklıkta olduğunu varsaymak yanlıştır. Sonuçta, beklenen frekans ne kadar yüksek olursa, bundan daha büyük sapmaların da mümkün olduğu düşünülmelidir. Bu nedenle (O =1030 ve E =1000) noktaları birbirine “yakın”, (O =40 ve E =10) noktaları ise “uzak” kabul edilmelidir. Eğer H 0 hipotezi doğruysa, o zaman E i'ye göre O i frekans dalgalanmalarının E i'nin karekökü(!) mertebesinde olduğu gösterilebilir. Bu nedenle Pearson, mesafeyi hesaplarken farkların (O i -E i) değil, normalleştirilmiş farkların (O i -E i)/E i 1/2'nin karesini almayı önerdi. İşte Pearson mesafesini hesaplamak için kullanılan formül: (aslında mesafenin karesidir):

X 2 Pearson = S((O i -E ben )/E ben 1/2) 2 = S(O i -E i ) 2 /E i

Örneğimizde:

X 2 Pearson = (5-10) 2 /10+(15-10) 2 /10 +(6-10) 2 /10+(14-10) 2 /10+(4-10) 2 /10+( 16-10) 2 /10=15,4

Düzenli bir kalıp için, beklenen tüm Ei frekansları aynıdır, ancak genellikle farklıdırlar, dolayısıyla Pearson mesafesinin sabit olduğu (X 2 Pearson = sabit) yüzeylerin küre değil elipsoid olduğu ortaya çıkar.

Artık mesafeleri hesaplamak için kullanılan formül seçildiğine göre, hangi mesafelerin “çok büyük” sayılmaması gerektiğini (H 0 ile tutarlı) bulmak gerekir. Peki, örneğin 15.4 olarak hesapladığımız mesafe hakkında ne söyleyebiliriz? ? Normal bir kalıpla deneyler yaparken, vakaların yüzde kaçında (veya hangi olasılıkla) 15,4'ten daha büyük bir mesafe elde ederiz? Bu yüzde küçükse (<0.05), то H 0 надо отвергнуть. Иными словами требуется найти распределение длярасстояния Пирсона. Если все ожидаемые частоты E i не слишком малы (≥5), и верна H 0 , то нормированные разности (O i - E i )/E i 1/2 приближенно эквивалентны стандартным гауссовским случайным величинам: (O i - E i )/E i 1/2 ≈N (0,1). Это, например, означает, что в 95% случаев| (O i - E i )/E i 1/2 | < 1.96 ≈ 2 (правило “двух сигм”).

Açıklama. Tablo hücresine i sayısıyla düşen O i ölçümlerinin sayısı, şu parametrelerle binom dağılıma sahiptir: m =Np i =E i,σ =(Np i (1-p i)) 1/2, burada N sayıdır ölçüm sayısı (N » 1), pi, bir ölçümün belirli bir hücreye düşme olasılığıdır (ölçümlerin bağımsız olduğunu ve sabit koşullar altında gerçekleştirildiğini hatırlayın). Eğer p i küçükse, o zaman: σ≈(Np i ) 1/2 =E i ve binom dağılımı Poisson'a yakındır, burada ortalama gözlem sayısı E i =λ ve standart sapma σ=λ 1/2 = E ben 1/2. λ≥5 için Poisson dağılımı normal N'ye yakındır (m =E i =λ, σ=E i 1/2 =λ 1/2) ve normalleştirilmiş değer (O i - E i )/E i 1 /2 ≈ N(0 ,1).

Pearson rastgele değişken χ 2 n - “n serbestlik derecesine sahip ki-kare”yi n bağımsız standart normal rastgele değişkenin karelerinin toplamı olarak tanımladı:

χ 2 n = T 1 2 + T 2 2 + …+ T n 2 , herkes nerede T ben = N(0,1) - N. O. R. İle. V.

İstatistiklerdeki bu en önemli rastgele değişkenin anlamını net bir şekilde anlamaya çalışalım. Bunu yapmak için, düzlemde (n = 2 ile) veya uzayda (n = 3 ile) koordinatları bağımsız ve standart normal dağılıma sahip olan bir nokta bulutu sunuyoruzf T (x) ~exp (-x 2 /2) ). Bir düzlemde, her iki koordinata da bağımsız olarak uygulanan “iki sigma” kuralına göre, noktaların %90'ı (0,95*0,95≈0,90) bir karenin (-2) içinde bulunur.

f χ 2 2 (a) = Сexp(-a/2) = 0,5exp(-a/2).

Yeterince fazla sayıda serbestlik derecesi n (n > 30) ile ki-kare dağılımı normale yaklaşır: N (m = n; σ = (2n) ½). Bu, “merkezi limit teoreminin” bir sonucudur: sonlu varyansa sahip, aynı şekilde dağılmış büyüklüklerin toplamı, terim sayısı arttıkça normal yasaya yaklaşır.

Pratikte, mesafenin ortalama karesinin m (χ 2 n) = n'ye eşit olduğunu ve varyansının σ 2 (χ 2 n) = 2n olduğunu hatırlamanız gerekir. Buradan hangi ki-kare değerlerinin çok küçük ve çok büyük sayılması gerektiği sonucuna varmak kolaydır: dağılımın çoğu n -2∙(2n) ½ ila n +2∙(2n) ½ aralığındadır.

Bu nedenle, n +2∙ (2n) ½'yi önemli ölçüde aşan Pearson mesafelerinin inanılmaz derecede büyük olduğu kabul edilmelidir (H 0 ile tutarsızdır). Sonuç n +2∙(2n) ½'ye yakınsa, bu tür ve büyük ki-kare değerlerinin tam olarak hangi oranda görünebileceğini bulabileceğiniz tabloları kullanmalısınız.

Serbestlik derecesi sayısı (kısaltılmış n.d.f.) için doğru değerin nasıl seçileceğini bilmek önemlidir. N'nin basamak sayısına eşit olduğunu varsaymak doğal görünüyordu: n =M. Pearson makalesinde bunu önerdi. Zar örneğinde bu, n =6 anlamına gelir. Ancak birkaç yıl sonra Pearson'un yanıldığı ortaya çıktı. O i rastgele değişkenleri arasında bağlantılar varsa, serbestlik derecesi sayısı her zaman basamak sayısından azdır. Zar örneği için, O i toplamı 60'tır ve yalnızca 5 frekans bağımsız olarak değiştirilebilir, dolayısıyla doğru değer n = 6-1 = 5'tir. Bu n değeri için n +2∙(2n) ½ =5+2∙(10) ½ =11,3 elde ederiz. 15.4>11.3 olduğundan H 0 - zarın doğru olduğu hipotezi reddedilmelidir.

Hatayı açıklığa kavuşturduktan sonra, en küçük rakam sayısı = 2 olduğundan başlangıçta n = 1 durumunu içermediklerinden mevcut χ 2 tablolarının desteklenmesi gerekiyordu. Şimdi Pearson mesafesinin χ 2 n =1 dağılımına sahip olduğu durumların olabileceği ortaya çıktı.

Örnek. 100 yazı tura atıldığında tura sayısı O 1 = 65, yazı tura sayısı O 2 = 35 olur. Rakam sayısı M = 2'dir. Madeni para simetrikse beklenen frekanslar E 1 =50, E 2 =50 olur.

X 2 Pearson = S(O i -E i) 2 /E i = (65-50) 2 /50 + (35-50) 2 /50 = 2*225/50 = 9.

Ortaya çıkan değer, standart normal değer χ 2 n =1 =T 1 2 ≥ 9'un karesi olarak tanımlanan rastgele değişken χ 2 n =1'in alabileceği değerlerle karşılaştırılmalıdır. ó T 1 ≥3 veya T 1 ≤-3. Böyle bir olayın olasılığı çok düşüktür P (χ 2 n =1 ≥9) = 0,006. Bu nedenle madeni paranın simetrik olduğu düşünülemez: H 0 reddedilmelidir. Serbestlik derecesi sayısının basamak sayısına eşit olamayacağı gerçeği, gözlenen frekansların toplamının her zaman beklenenlerin toplamına eşit olmasından açıkça anlaşılmaktadır, örneğin O 1 +O 2 =65+ 35 = E 1 +E 2 =50+50=100. Bu nedenle, O 1 ve O 2 koordinatlarına sahip rastgele noktalar düz bir çizgi üzerinde bulunur: O 1 +O 2 =E 1 +E 2 =100 ve merkeze olan mesafe, bu kısıtlamanın olmadığı duruma göre daha az olur ve uçağın tamamında bulunuyorlardı. Aslında, matematiksel beklentileri E 1 =50, E 2 =50 olan iki bağımsız rastgele değişken için bunların gerçekleşmelerinin toplamı her zaman 100'e eşit olmamalıdır - örneğin, O 1 =60, O 2 =55 değerleri kabul edilebilir olsun.

Açıklama. Pearson kriterinin M = 2'deki sonucunu, N bağımsız Bernoulli testlerinden oluşan bir dizide p olasılığına sahip ν =K /N olayının meydana gelme sıklığındaki rastgele dalgalanmaları tahmin ederken Moivre-Laplace formülünün verdiği sonuçla karşılaştıralım ( K, başarıların sayısıdır):

χ 2 n =1 = S(O ben -E i) 2 /E ben = (O 1 -E 1) 2 /E 1 + (O 2 -E 2) 2 /E 2 = (Nν -Np) 2 /(Np) + (N ( 1-ν )-N (1-p)) 2 /(N (1-p ))=

=(Nν-Np) 2 (1/p + 1/(1-p))/N=(Nν-Np) 2 /(Np(1-p))=((K-Np)/(Npq) ½ ) 2 = T2

Değer T =(K -Np)/(Npq) ½ = (K -m (K))/σ(K) ≈N (0,1), σ(K)=(Npq) ½ ≥3. Bu durumda Pearson sonucunun, binom dağılımı için normal yaklaşım kullanılarak elde edilen sonuçla tam olarak örtüştüğünü görüyoruz.

Şu ana kadar beklenen ortalama Ei frekanslarının tamamen önceden bilindiği basit hipotezleri değerlendirdik. Karmaşık hipotezler için doğru sayıda serbestlik derecesinin nasıl seçileceğine ilişkin bilgi için aşağıya bakın.

Karmaşık hipotezleri test etmek için ki-kare testini kullanma

Düzenli zar ve madeni paranın kullanıldığı örneklerde beklenen frekanslar deney öncesinde(!) belirlenebilmektedir. Bu tür hipotezlere “basit” denir. Uygulamada “karmaşık hipotezler” daha yaygındır. Ayrıca beklenen Ei frekanslarını bulmak için öncelikle bir veya birkaç miktarın (model parametreleri) tahmin edilmesi gerekir ve bu yalnızca deneysel veriler kullanılarak yapılabilir. Sonuç olarak, "karmaşık hipotezler" için beklenen Ei frekanslarının, gözlemlenen Oi frekanslarına bağlı olduğu ve dolayısıyla deneyin sonuçlarına bağlı olarak değişen rastgele değişkenler haline geldiği ortaya çıkar. Parametrelerin seçilmesi sürecinde Pearson mesafesi azalır; parametreler, model ile deney arasındaki uyumu iyileştirecek şekilde seçilir. Bu nedenle serbestlik derecesi sayısının azalması gerekir.

Model parametreleri nasıl tahmin edilir? Pek çok farklı tahmin yöntemi vardır; “maksimum olabilirlik yöntemi”, “momentler yöntemi”, “ikame yöntemi”. Ancak Pearson mesafesini en aza indirerek herhangi bir ek fon kullanamaz ve parametre tahminleri bulamazsınız. Bilgisayar öncesi dönemde bu yaklaşım nadiren kullanılıyordu: manuel hesaplamalar için uygun değildir ve kural olarak analitik olarak çözülemez. Bilgisayarda hesaplama yaparken sayısal minimizasyonun gerçekleştirilmesi genellikle kolaydır ve bu yöntemin avantajı çok yönlülüğüdür. Yani "ki-kare minimizasyon yöntemine" göre bilinmeyen parametrelerin değerlerini Pearson mesafesi en küçük olacak şekilde seçiyoruz. (Bu arada, bulunan minimuma göre küçük yer değiştirmelerle bu mesafedeki değişiklikleri inceleyerek, tahminin doğruluğunun ölçüsünü tahmin edebilirsiniz: güven aralıkları oluşturun.) Parametreler ve bu minimum mesafenin kendisi bulunduktan sonra, Yeterince küçük mü sorusunun cevabını bir kez daha vermek gerekiyor.

Genel eylem sırası aşağıdaki gibidir:

  1. Model seçimi (hipotez H 0).
  2. Bitlerin seçimi ve gözlemlenen Oi frekanslarının vektörünün belirlenmesi.
  3. Bilinmeyen model parametrelerinin tahmini ve bunlar için güven aralıklarının oluşturulması (örneğin, minimum Pearson mesafesini arayarak).
  4. Beklenen frekansların hesaplanması E i .
  5. Pearson mesafesi X 2'nin bulunan değerinin, ki-kare χ 2 kritik değeri ile karşılaştırılması - hala makul kabul edilen en büyüğü, H 0 ile uyumludur. Denklemi çözerek tablolardan χ 2 kritik değerini buluyoruz

P (χ 2 n > χ 2 kritik)=1-α,

burada α, “önem düzeyi” veya “kriterin boyutu” veya “ilk tip hatanın büyüklüğü”dür (tipik değer α = 0,05).

Genellikle serbestlik derecesi sayısı n aşağıdaki formül kullanılarak hesaplanır

n = (hane sayısı) – 1 – (tahmin edilecek parametre sayısı)

X 2 > χ 2 kritiği ise H 0 hipotezi reddedilir, aksi halde kabul edilir. Vakaların α∙%100'ünde (yani oldukça nadiren), H 0'ı kontrol etmenin bu yöntemi "birinci tür hataya" yol açacaktır: H 0 hipotezi hatalı bir şekilde reddedilecektir.

Örnek. 100 tohumluk 10 seri incelenirken yeşil gözlü sinekle enfekte olanların sayısı sayıldı. Alınan veriler: O ben =(16, 18, 11, 18, 21, 10, 20, 18, 17, 21);

Burada beklenen frekansların vektörü önceden bilinmemektedir. Veriler homojense ve binom dağılımı için elde edilmişse, o zaman bir parametre bilinmiyor: enfekte tohumların oranı p. Orijinal tabloda aslında 10 bağlantıyı karşılayan 10 değil 20 frekans bulunduğunu unutmayın: 16+84=100, ... 21+79=100.

X 2 = (16-100p) 2 /100p +(84-100(1-p)) 2 /(100(1-p))+…+

(21-100p) 2 /100p +(79-100(1-p)) 2 /(100(1-p))

Terimleri çiftler halinde birleştirerek (örnekte madeni parayla olduğu gibi), genellikle hemen yazılan Pearson kriteri yazma biçimini elde ederiz:

X 2 = (16-100p) 2 /(100p(1-p))+…+ (21-100p) 2 /(100p(1-p)).

Şimdi, eğer p'yi tahmin etmek için minimum Pearson mesafesi bir yöntem olarak kullanılıyorsa, o zaman X 2 = min olan bir p bulmak gerekir. (Model mümkünse deneysel verilere "ayarlamaya" çalışır.)

Pearson kriteri istatistikte kullanılanların en evrenselidir. Tek değişkenli ve çok değişkenli verilere, niceliksel ve niteliksel özelliklere uygulanabilir. Ancak tam da çok yönlülüğü nedeniyle hata yapmamaya dikkat edilmelidir.

Önemli noktalar

1.Kategori seçimi.

  • Dağıtım ayrıksa, rakam seçiminde genellikle keyfilik olmaz.
  • Dağıtım sürekli ise keyfilik kaçınılmazdır. İstatistiksel olarak eşdeğer bloklar kullanılabilir (tüm O'lar aynıdır, örneğin =10). Ancak aralıkların uzunlukları farklıdır. Manuel hesaplamalar yaparken aralıkları aynı yapmaya çalıştılar. Tek değişkenli bir özelliğin dağılımını incelerken aralıklar eşit mi olmalı? HAYIR.
  • Beklenen (ve gözlemlenmeyen!) frekansların çok küçük olmaması (≥5) için rakamlar birleştirilmelidir. X 2'yi hesaplarken paydalarda bulunanların (E i) olduğunu hatırlayalım! Tek boyutlu özellikleri analiz ederken, bu kuralın iki uç rakam olan E 1 =E max =1'de ihlal edilmesine izin verilir. Eğer basamak sayısı büyükse ve beklenen frekanslar birbirine yakınsa, o zaman X 2, E i =2 için bile χ 2'ye iyi bir yaklaşımdır.

Parametre Tahmini. "Ev yapımı", verimsiz tahmin yöntemlerinin kullanılması Pearson mesafe değerlerinin şişirilmesine yol açabilir.

Doğru sayıda serbestlik derecesinin seçilmesi. Parametre tahminleri frekanslardan değil doğrudan verilerden yapılıyorsa (örneğin, aritmetik ortalama ortalamanın tahmini olarak alınır), o zaman n serbestlik derecesinin tam sayısı bilinmemektedir. Sadece eşitsizliği karşıladığını biliyoruz:

(basamak sayısı – 1 – değerlendirilen parametre sayısı)< n < (число разрядов – 1)

Bu nedenle, X2'yi bu n aralığı boyunca hesaplanan kritik χ2 kritik değerleriyle karşılaştırmak gerekir.

İnanılmaz derecede küçük ki-kare değerleri nasıl yorumlanır? Bir madeni para 10.000 kez atıldıktan sonra 5.000 kez armanın üzerine düşüyorsa simetrik mi kabul edilmeli? Daha önce birçok istatistikçi H 0'ın da reddedilmesi gerektiğine inanıyordu. Şimdi başka bir yaklaşım öneriliyor: H 0'ı kabul edin, ancak verileri ve bunların analizine yönelik metodolojiyi ek doğrulamaya tabi tutun. İki olasılık vardır: ya çok küçük bir Pearson mesafesi, model parametrelerinin sayısındaki artışın serbestlik derecesi sayısında uygun bir azalmaya eşlik etmediği ya da verilerin kendisinin tahrif edildiği (belki de kasıtsız olarak beklenen sonuca göre ayarlandığı) anlamına gelir.

Örnek.İki araştırmacı A ve B, bir AA * aa monohibrit çaprazının ikinci neslindeki resesif homozigot aa oranını hesapladı. Mendel kanunlarına göre bu kesir 0,25'tir. Her araştırmacı 5 deney gerçekleştirdi ve her deneyde 100 organizma incelendi.

Sonuçlar A: 25, 24, 26, 25, 24. Araştırmacının sonucu: Mendel yasası doğrudur(?).

Sonuçlar B: 29, 21, 23, 30, 19. Araştırmacının sonucu: Mendel yasası adil değil(?).

Ancak Mendel yasası doğası gereği istatistikseldir ve sonuçların niceliksel analizi sonuçları tersine çevirir! Beş deneyi bir deneyde birleştirerek 5 serbestlik derecesine sahip bir ki-kare dağılımına ulaşıyoruz (basit bir hipotez test edilmiştir):

X 2 A = ((25-25) 2 +(24-25) 2 +(26-25) 2 +(25-25) 2 +(24-25) 2)/(100∙0,25∙0,75)=0,16

X 2 B = ((29-25) 2 +(21-25) 2 +(23-25) 2 +(30-25) 2 +(19-25) 2)/(100∙0,25∙0,75)=5,17

Ortalama değer m [χ 2 n =5 ]=5, standart sapma σ[χ 2 n =5 ]=(2∙5) 1/2 =3,2.

Bu nedenle, tablolara atıfta bulunmadan, X 2 B değerinin tipik olduğu ve X 2 A değerinin inanılmaz derecede küçük olduğu açıktır. Tablolara göre P (χ 2 n =5<0.16)<0.0001.

Bu örnek, 1930'larda meydana gelen gerçek bir vakanın uyarlamasıdır (bkz. Kolmogorov'un "Mendel Kanunlarının Başka Bir Kanıtı Üzerine" adlı çalışması). İlginç bir şekilde, Araştırmacı A genetiğin savunucusuydu, Araştırmacı B ise buna karşıydı.

Notasyonda karışıklık. Hesaplanmasında ek kurallar gerektiren Pearson mesafesini ki-kare rastgele değişkeninin matematiksel kavramından ayırmak gerekir. Belirli koşullar altında Pearson mesafesi, n serbestlik derecesine sahip ki-kare'ye yakın bir dağılıma sahiptir. Bu nedenle, Pearson uzaklığının χ 2 n sembolüyle GÖSTERİLMESİ DEĞİL, benzer ancak farklı bir X 2 gösteriminin kullanılması tavsiye edilir.

Pearson kriteri her şeye kadir değildir. H 0 için hesaba katamayacağı sonsuz sayıda alternatif vardır. Özelliğin düzgün bir dağılıma sahip olduğu, 10 basamağınız olduğu ve gözlemlenen frekansların vektörünün (130,125,121,118,116,115,114,113,111,110) değerine eşit olduğu hipotezini test ettiğinizi varsayalım. Pearson kriteri frekansların monoton bir şekilde azaldığını ve H 0'ın reddedilmeyeceğini "fark edemez". Bir seri kriteri ile desteklenmişse evet!

Bu kriterin kullanımı, teorik değerler arasındaki tutarsızlığın böyle bir ölçüsünün (istatistik) kullanılmasına dayanmaktadır. F(x) ve ampirik dağılım F* n(x) dağıtım yasasına yaklaşık olarak uyan χ 2 . Hipotez H 0 Bu istatistiklerin dağılımları analiz edilerek dağılımların tutarlılığı kontrol edilir. Kriterin uygulanması bir istatistiksel serinin oluşturulmasını gerektirir.

O halde örneklemin basamak sayısının yanında istatistiksel olarak sunulmasına izin verin. M. Gözlemlenen isabet oranı Ben- sıra n ben. Teorik dağıtım yasasına uygun olarak, beklenen isabet sıklığı Ben-inci kategori F ben. Gözlemlenen ve beklenen frekans arasındaki fark ( n benF ben). arasındaki genel farkın derecesini bulmak için F(x) Ve F* n (x) istatistiksel serinin tüm basamaklarındaki kare farkların ağırlıklı toplamını hesaplamak gerekir

Değer χ 2 sınırsız büyütme ile Nχ 2 dağılımına sahiptir (χ 2 olarak asimptotik olarak dağıtılır). Bu dağılım serbestlik derecesi sayısına bağlıdır k yani ifadesindeki terimlerin bağımsız değerlerinin sayısı (3.7). Serbestlik derecesi sayısı sayıya eşittir sen eksi numuneye uygulanan doğrusal ilişkilerin sayısı. Geriye kalan frekansların toplamından herhangi bir frekansın hesaplanabilmesi nedeniyle tek bir bağlantı mevcuttur. M–1 hane. Ayrıca dağılım parametreleri önceden bilinmiyorsa dağılımın örneğe uydurulmasından kaynaklanan başka bir sınırlama söz konusudur. Örnek belirlerse S dağılım parametreleri, o zaman serbestlik derecesi sayısı olacaktır k=M –S–1.

Hipotez Kabul Alanı H 0χ koşuluyla belirlenir 2 < χ 2(k;a), nerede χ 2(k;a)– χ2 dağılımının anlamlılık düzeyi ile kritik noktası A. Tip I hatanın olasılığı A, II. tip hatanın olasılığı açıkça tanımlanamaz çünkü dağılımların eşleşmeyebileceği sonsuz sayıda farklı yol vardır. Testin gücü basamak sayısına ve örneklem büyüklüğüne bağlıdır. Kriterin aşağıdaki durumlarda uygulanması tavsiye edilir: N>200, şu durumlarda kullanıma izin verilir: N>40, kriterin geçerli olduğu koşullar altındadır (kural olarak yanlış sıfır hipotezini reddeder).

Kriterlere göre kontrol algoritması

1. Eşit olasılık yöntemini kullanarak bir histogram oluşturun.

2. Histogramın görünümüne dayanarak bir hipotez ileri sürün

H 0: F(X) = F 0(X),

H 1: F(X) F 0(X),

Nerede F 0(X) - varsayımsal bir dağılım yasasının olasılık yoğunluğu (örneğin, tek biçimli, üstel, normal).

Yorum. Örneklemdeki tüm sayıların pozitif olması durumunda üstel dağılım yasasına ilişkin hipotez ileri sürülebilir.


3. Formülü kullanarak kriterin değerini hesaplayın

,

isabet sıklığı nerede Ben-inci aralık;

pi- rastgele bir değişkenin teorik olasılığı Ben- hipotezin sağlanması koşuluyla inci aralık H 0 doğru.

Hesaplama formülleri piüstel, tekdüze ve normal yasalar durumunda bunlar sırasıyla eşittir.

üstel yasa

. (3.8)

Aynı zamanda A 1 = 0, BM= +.

Tek tip hukuk

Normal Hukuk

. (3.10)

Aynı zamanda A 1 = -, BM = +.

Notlar. Tüm olasılıkları hesapladıktan sonra pi referans ilişkisinin sağlanıp sağlanmadığını kontrol edin

Fonksiyon Ф( X) - garip. F(+) = 1.

4. Ekteki “Ki-kare” tablosundan belirtilen anlamlılık düzeyi (= 0,05 veya = 0,01) olan değer seçilir ve k- formülle belirlenen serbestlik derecesi sayısı

k= M- 1 - S.

Burada S- seçilen hipotezin bağlı olduğu parametrelerin sayısı H 0dağıtım kanunu. Değerler S tekdüze yasa için 2, üstel yasa için 1, normal yasa için 2'dir.

5. Eğer öyleyse hipotez H 0 sapma. Aksi takdirde reddetmek için bir neden yoktur: 1 olasılıkla doğrudur, olasılıkla yanlıştır, ancak değer bilinmemektedir.

Örnek3 . 1. Kriter 2'yi kullanarak rastgele bir değişkenin dağılım yasasına ilişkin bir hipotez ileri sürün ve test edin XÖrnek 1.2'de varyasyon serileri, aralık tabloları ve dağılım histogramları verilmiştir. Anlamlılık düzeyi 0,05'tir.

Çözüm . Histogramların görünümüne dayanarak rastgele değişkenin X normal yasaya göre dağıtılır:

H 0: F(X) = N(M,);

H 1: F(X) N(M,).

Kriterin değeri formül kullanılarak hesaplanır.

Kriterin açıklaması

Kriterin amacı

Pearson'un ki-kare testi

Ders materyalleri

Konu 6. Bir özelliğin dağılımındaki farklılıkları belirleme

Pearson kriteri: kriterin amacı, tanımı, uygulama kapsamı, hesaplama algoritması.

Kantitatif ölçümlerin sonuçlarını karşılaştırmak için Kolmogorov-Smirnov kriteri: kriterin amacı, tanımı, uygulama kapsamı, hesaplama algoritması.

Bu konuyu incelerken her iki kriterin de parametrik olmadığını, frekanslarla çalıştığını dikkate almak gerekir. Dikkate alınan kriterler için karar kurallarına özellikle dikkat edin: bu kurallar zıt olabilir. Lütfen kriterlerin uygulanmasındaki sınırlamaları dikkatlice inceleyin.

Ders materyalini inceledikten sonra test sorularını cevaplayın ve cevapları notlarınıza yazın.

Pearson ki-kare testi, dağılımların karşılaştırılması da dahil olmak üzere birçok sorunu çözebilir.

χ 2 testi iki amaç için kullanılır;

1) karşılaştırma için ampiriközelliğin dağılımı teorik - tekdüze, normal veya başka türlü;

2) karşılaştırma için iki, üç veya daha fazla ampirik aynı özelliğin dağılımları, yani homojenliklerinin kontrol edilmesi;

3) rastgele olaylar vb. bir sistemdeki stokastik (olasılıksal) bağımsızlığı değerlendirmek.

χ 2 kriteri, bir özelliğin farklı değerlerinin ampirik ve teorik dağılımlarda eşit sıklıkta mı yoksa iki veya daha fazla ampirik dağılımda mı ortaya çıktığı sorusunu yanıtlar.

Yöntemin avantajı, isimler ölçeğinden başlayarak herhangi bir ölçekte sunulan özelliklerin dağılımlarının karşılaştırılmasına olanak sağlamasıdır. Alternatif dağıtımın en basit durumunda ("evet - hayır", "kusurlara izin verildi - kusurlara izin vermedi", "sorunu çözdü - sorunu çözmedi" vb.), χ 2 kriterini zaten uygulayabiliriz. .

1. Örneklem büyüklüğü yeterince büyük olmalıdır: N>30. Ne zaman N<30 критерий χ 2 дает весьма приближенные значения. Точность крите­рия повышается при больших N.

2. Her tablo hücresi için teorik frekans 5'ten az olmamalıdır: f ≥ 5 . Bu, eğer rakam sayısı önceden belirlenmişse ve değiştirilemiyorsa χ 2 yöntemini uygulayamayacağımız anlamına gelir. , belirli bir minimum gözlem sayısını biriktirmeden. Örneğin, Trust telefon hizmetine yapılan aramaların sıklığının haftanın 7 günü boyunca eşit olmayan bir şekilde dağıldığı yönündeki varsayımlarımızı test etmek istiyorsak, o zaman 5-7 = 35 aramaya ihtiyacımız olacaktır. Böylece, eğer basamak sayısı (k)önceden verilmiştir, bu durumda olduğu gibi minimum gözlem sayısı (N dk) aşağıdaki formülle belirlenir: .



3. Seçilen kategoriler tüm dağılımı "kapsamalı", yani özelliklerin değişkenlik aralığının tamamını kapsamalıdır. Bu durumda, kategorilere göre gruplandırmanın karşılaştırılan tüm dağılımlarda aynı olması gerekir.

4. Sadece 2 değer alan özelliklerin dağılımlarını karşılaştırırken “süreklilik düzeltmesi” yapmak gerekir. Bir düzeltme yaparken χ 2'nin değeri azalır (süreklilik düzeltmeli örneğe bakın).

5. Kategoriler örtüşmemelidir: Bir gözlem bir kategoriye atanmışsa artık başka bir kategoriye atanamaz. Sıralamaya göre gözlemlerin toplamı her zaman toplam gözlem sayısına eşit olmalıdır.

χ 2 kriterini hesaplamak için algoritma

1. Aşağıdaki türdeki özellik değerlerinin karşılıklı eşlenikliği tablosunu oluşturun (esasen bu, ortak özellik değerlerinin ortaya çıkma sıklıklarının belirtildiği iki boyutlu bir varyasyon serisidir) - tablo 19. Tablo şunları içerir: genel biçimde f ij olarak göstereceğimiz koşullu frekanslar. Örneğin, bir özelliğin derecelendirme sayısı X 3'e (k=3) eşittir, özelliğin derecelendirme sayısı en 4'e eşittir (m=4); Daha sonra Ben 1'den k'ye kadar değişir ve J 1 ile m arasında değişmektedir.

Tablo 19

x ben y j x 1 x 2 x 3
1'de f11 f21 f31 f –1
saat 2'de f12 f22 f32 f-2
3'te f13 f23 f33 f –3
4'te f14 f 24 f34 f –4
f 1– f2– f3– N

2. Daha sonra, hesaplamaların kolaylığı için, orijinal karşılıklı olasılık tablosunu aşağıdaki biçimde bir tabloya dönüştürüyoruz (Tablo 20), koşullu frekanslara sahip sütunları birbirinin altına yerleştirerek: Tabloya kategorilerin adlarını girin (sütun 1 ve 2) ve karşılık gelen ampirik frekanslar (3. sütun).

Tablo 20

x ben y j f ij f ij * f ij – f ij * (f ij – f ij *) 2 (f ij – f ij *) 2 / f ij *
1 2 3 4 5 6 7
x 1 1'de f11 f11*
x 1 saat 2'de f12 f12*
x 1 3'te f13 f13*
x 1 4'te f14 f 14*
x 2 1'de f21 f 21 *
x 2 saat 2'de f22 f 22 *
x 2 3'te f23 f 23 *
x 2 4'te f 24 f 24 *
x 3 1'de f31 f 31 *
x 3 saat 2'de f32 f 32 *
x 3 3'te f33 f 33 *
x 3 4'te f34 f34*
∑=………….

3. Her ampirik frekansın yanına, aşağıdaki formül kullanılarak hesaplanan teorik frekansı (4. sütun) yazın (ilgili satırdaki toplam frekanslar, ilgili sütundaki toplam frekansla çarpılır ve toplam frekans sayısına bölünür). gözlemler):

5. Aşağıdaki formülü kullanarak serbestlik derecesi sayısını belirleyin: ν=(k-1)(m-1) , Nerede k- nitelik basamaklarının sayısı X, m - işaretin basamak sayısı en.

ν=1 ise “süreklilik” için bir düzeltme yapın ve bunu 5a sütununa yazın.

Süreklilik düzeltmesi, koşullu ve teorik frekanslar arasındaki farktan 0,5'lik bir değer daha çıkarılmasından oluşur. Daha sonra tablomuzdaki sütun başlıkları şu şekilde görünecektir (Tablo 21):

Tablo 21

X en f ij f ij * f ij – f ij * f ij – f ij * – 0,5 (f ij – f ij * – 0,5) 2 (f ij – f ij * – 0,5) 2 / f ij *
1 2 3 4 5 5a 6 7

6. Ortaya çıkan farkların karesini alın ve bunları 6. sütuna girin.

7. Ortaya çıkan farkların karelerini teorik frekansa bölün ve sonuçları 7. sütuna yazın.

8. 7. sütunun değerlerini toplayın. Ortaya çıkan miktar χ 2 em olarak belirlenir.

9. Karar kuralı:

Kriterin hesaplanan değeri kritik (veya tablolanmış) değerle karşılaştırılmalıdır. Kritik değer, Pearson χ 2 kriterinin kritik değerler tablosuna göre serbestlik derecesi sayısına bağlıdır (bkz. Ek 1.6).

χ 2 calc ≥ χ 2 tablosu ise, dağılımlar arasındaki farklılıklar istatistiksel olarak anlamlıdır veya özellikler tutarlı bir şekilde değişmektedir veya özellikler arasındaki ilişki istatistiksel olarak anlamlıdır.

χ 2 hesaplanırsa< χ 2 табл, то расхождения между рас­пределениями статистически недостоверны, или признаки изменяются несогласованно, или связи между признаками нет.

χ 2 kriterinin elde edilen değeri kritik değerden büyükse, çalışılan risk faktörü ile sonuç arasında uygun anlamlılık düzeyinde istatistiksel bir ilişki olduğu sonucuna varırız.

Pearson ki-kare testinin hesaplanmasına örnek

Yukarıda tartışılan tabloyu kullanarak sigara içme faktörünün arteriyel hipertansiyon insidansı üzerindeki etkisinin istatistiksel önemini belirleyelim:

1. Her hücre için beklenen değerleri hesaplayın:

2. Pearson ki-kare testinin değerini bulun:

χ 2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

3. Serbestlik derecesi sayısı f = (2-1)*(2-1) = 1. Tabloyu kullanarak Pearson ki-kare testinin anlamlılık düzeyinde p=0,05 olan kritik değerini ve 1 serbestlik derecesi sayısı 3,841'dir.

4. Ki-kare testinin elde edilen değerini kritik değerle karşılaştırıyoruz: 4.396> 3.841, bu nedenle arteriyel hipertansiyon görülme sıklığının sigara içme varlığına bağımlılığı istatistiksel olarak anlamlıdır. Bu ilişkinin anlamlılık düzeyi p'ye karşılık gelir.<0.05.

Ayrıca Pearson ki-kare testi şu formül kullanılarak hesaplanır:

Ancak 2x2'lik bir tablo için Yates düzeltme kriteri ile daha doğru sonuçlar elde edilir.

Eğer O N(0) kabul edildi,

Durumunda kabul edildi H(1)

Gözlem sayısının az olduğu ve tablo hücrelerinin frekansının 5'ten az olduğu durumlarda ki-kare testi uygulanamaz ve hipotezleri test etmek için kullanılır. Fisher'in kesin testi . Bu kriteri hesaplama prosedürü oldukça emek yoğundur ve bu durumda bilgisayar istatistiksel analiz programlarını kullanmak daha iyidir.

Olasılık tablosunu kullanarak iki niteliksel özellik arasındaki bağlantının ölçüsünü hesaplayabilirsiniz - bu Yule ilişkilendirme katsayısıdır Q (korelasyon katsayısına benzer)

Q 0 ila 1 aralığındadır. Bire yakın bir katsayı, özellikler arasında güçlü bir bağlantı olduğunu gösterir. Sıfıra eşitse bağlantı yoktur .

Pi-kare katsayısı (φ 2) benzer şekilde kullanılır

KARŞILAŞTIRMA GÖREVİ

Tablo, Drosophila gruplarında beslenmeli ve beslenmesiz mutasyon sıklığı arasındaki ilişkiyi açıklamaktadır.



Acil durum tablosu analizi

Olasılık tablosunu analiz etmek için bir H 0 hipotezi ileri sürülür, yani incelenen özelliğin çalışmanın sonucu üzerinde etkisinin olmaması bunun için beklenen frekans hesaplanır ve bir beklenti tablosu oluşturulur.

Bekleme masası

gruplar Chilo bitkileri Toplam
Mutasyonlar verdi Mutasyon vermedi
Gerçek frekans Beklenen sıklık Gerçek frekans Beklenen sıklık
Besleme ile
Beslemeden
toplam

Yöntem No.1

Bekleme sıklığını belirleyin:

2756 – X ;

2. 3561 – 3124

Gruplardaki gözlemlerin sayısı azsa, X 2 kullanıldığında, ayrık dağılımlar için gerçek ve beklenen frekansların karşılaştırılması durumunda, bazı yanlışlıklar ilişkilendirilir. Yanlışlığı azaltmak için Yates düzeltmesi kullanılır.

Ki-kare testi.

Ki-kare testi, z testinden farklı olarak herhangi sayıda grubu karşılaştırmak için kullanılır.

Başlangıç ​​verileri: beklenmedik durum tablosu.

Minimum boyutu 2*2 olan bir acil durum tablosu örneği aşağıda verilmiştir. A, B, C, D – gerçek frekanslar olarak adlandırılır.

İşaret 1 İşaret 2 Toplam
Grup 1 A B A+B
Grup 2 C D C+D
Toplam A+C B+G A+B+C+D

Kriterin hesaplanması, karşılaştırılan özelliklerin birbirleri üzerinde karşılıklı etkisinin olmadığı varsayımıyla hesaplanan gerçek frekanslar ile beklenen frekansların karşılaştırılmasına dayanmaktadır. Dolayısıyla, eğer gerçek ve beklenen frekanslar birbirine yeterince yakınsa, hiçbir etki olmaz ve bu, özelliklerin gruplar arasında yaklaşık olarak eşit şekilde dağıtılacağı anlamına gelir.

Bu yöntemin uygulanmasına yönelik ilk veriler, sütunları ve satırları incelenen özelliklerin değişken değerlerini gösteren bir beklenmedik durum tablosuna girilmelidir. Bu tablodaki sayılara gerçek veya deneysel frekanslar adı verilecektir. Daha sonra, karşılaştırılan grupların özellik dağılımında kesinlikle eşit olduğu varsayımına dayanarak beklenen frekansların hesaplanması gerekir. Bu durumda, toplam satır veya sütun "toplam" oranları herhangi bir satır ve sütunda korunmalıdır. Buna dayanarak beklenen frekanslar belirlenir (örneğe bakın).

Daha sonra kriterin değeri, gerçek frekans ile beklenen frekans arasındaki farkın karesinin beklenen frekansa oranının beklenmedik durum tablosunun tüm hücreleri üzerinden toplamı olarak hesaplanır:

hücredeki gerçek frekans nerede; - hücrede beklenen frekans.

, Nerede N = A+ B + C + D.

Tablo 2*2 için temel formülü kullanarak hesaplama yaparken ( sadece bu tablo için ), süreklilik için Yates düzeltmesinin uygulanması da gereklidir:

.

Kriterin kritik değeri, serbestlik derecesi sayısı ve önem düzeyi dikkate alınarak tablodan (eke bakınız) belirlenir. Anlamlılık düzeyi standart olarak alınmıştır: 0,05; 0,01 veya 0,001. Serbestlik derecesi sayısı, beklenmedik durum tablosundaki satır ve sütun sayısının her biri bir azaltılarak çarpımı olarak tanımlanır:

,

Nerede R– çizgi sayısı (bir özelliğin geçiş sayısı), İle– sütun sayısı (başka bir özelliğin derecelendirme sayısı). Bu kritik değer bir Microsoft Excel tablosunda =x2rev( fonksiyonu kullanılarak belirlenebilir. a, f), burada a yerine önem düzeyini girmeniz gerekir ve bunun yerine F– serbestlik derecesi sayısı.

Ki-kare testinin değeri kritik değerden büyükse, özelliklerin bağımsızlığına ilişkin hipotez reddedilir ve seçilen anlamlılık düzeyinde bağımlı kabul edilebilir.

Bu yöntemin uygulanabilirliği sınırlıdır: Beklenen frekanslar 5 veya daha fazla olmalıdır (2*2'lik bir tablo için). Rastgele bir tablo için bu kısıtlama daha az katıdır: beklenen tüm frekanslar 1 veya daha büyük olmalı ve beklenen frekansları 5'in altında olan hücrelerin oranı %20'yi aşmamalıdır.

Yüksek boyutlu bir olasılık tablosundan, daha küçük boyutlu tabloları "izole edebilir" ve bunlar için c 2 kriterinin değerini hesaplayabilirsiniz. Bunlar, Öğrenci t testi için açıklananlara benzer şekilde çoklu karşılaştırmalar olacaktır. Bu durumda çoklu karşılaştırmalar için de sayılarına göre düzeltme uygulanması gerekmektedir.

Microsoft Excel elektronik tablolarında c 2 kriterini kullanarak bir hipotezi test etmek için aşağıdaki işlevi kullanabilirsiniz:

HI2TEST(gerçek_aralık; beklenen_aralık).

Burada,real_interval, gerçek frekanslara sahip orijinal beklenmedik durum tablosudur (yalnızca frekansların kendilerine sahip hücreler, başlıklar olmadan ve "toplam" olarak gösterilir); beklenen_interval – beklenen frekansların dizisi. Bu nedenle beklenen frekansların bağımsız olarak hesaplanması gerekir.

Örnek:

Belirli bir şehirde bulaşıcı bir hastalık salgını meydana geldi. Kirliliğin kaynağının içme suyu olduğu varsayılmaktadır. Bu varsayımı, kentsel nüfusa yönelik örnek bir anket kullanarak test etmeye karar verdiler; buna göre, içilen su miktarının vaka sayısını etkileyip etkilemediğini belirlemek gerekliydi.

Başlangıç ​​verileri aşağıdaki tabloda gösterilmektedir:

Beklenen frekansları hesaplayalım. Tablodaki oran aynı kalmalıdır. Bu nedenle örneğin satırların toplam sayı içindeki payını hesaplayalım ve her satır için bir katsayı elde edelim. İlgili satırın her hücresinde aynı oran görünmelidir, bu nedenle hücrede beklenen frekansı hesaplamak için katsayıyı karşılık gelen sütundaki toplamla çarparız.

Serbestlik derecesi sayısı (3-1)*(2-1)=2'dir. Kritik Kriter Değeri .

Deneysel değer kritik değerden (61.5>13.816) daha büyüktür; İçilen su miktarının morbiditeye etkisi olmadığı hipotezi 0,001'den küçük hata olasılığı ile reddedilmektedir. Dolayısıyla hastalığın kaynağının su olduğu iddia edilebilir.

Tanımlanan her iki kriterin de, gözlem sayısının az olması veya özelliklerin bireysel derecelendirilmesinin nadir olması durumunda genellikle karşılanmayan sınırlamaları vardır. Bu durumda kullanın Fisher'in kesin testi . Belirli sayıda grup için acil durum tablosunu doldurmak için olası tüm seçeneklerin araştırılmasına dayanmaktadır. Bu nedenle manuel hesaplama oldukça karmaşıktır. Hesaplamak için istatistiksel uygulama paketlerini kullanabilirsiniz.

Z testi, Öğrenci testinin bir benzeridir ancak niteliksel özellikleri karşılaştırmak için kullanılır. Kriterin deneysel değeri, orantısal farkın orantısal farktaki ortalama hataya oranı olarak hesaplanır.

Z kriterinin kritik değerleri, normalleştirilmiş normal dağılımın karşılık gelen noktalarına eşittir: , , .



Ki-kare testi, herhangi bir sayıdaki grubu niteliksel özelliklerin değerlerine göre karşılaştırmak için kullanılır. Kaynak veriler bir beklenmedik durum tablosu şeklinde sunulmalıdır. Kriterin deneysel değeri, gerçek frekans ile beklenen frekans arasındaki farkın karesinin beklenen frekansa oranının beklenmedik durum tablosunun tüm hücreleri üzerinden toplamı olarak hesaplanır. Beklenen frekanslar, karşılaştırılan özelliklerin tüm gruplarda eşit olduğu varsayımıyla hesaplanır. Kritik değerler ki-kare dağılım tablolarından belirlenir.

EDEBİYAT.

Glanz S. – Bölüm 5.

Rebrova O.Yu. – Bölüm 10,11.

Lakin G.F. - İle. 120-123

Öğrencilerin kendilerini test etmeleri için sorular.

1. Z kriteri hangi durumlarda kullanılabilir?

2. Z kriterinin deneysel değerini hesaplamanın temeli nedir?

3. Z kriterinin kritik değeri nasıl bulunur?

4. c 2 kriteri hangi durumlarda uygulanabilir?

5. c 2 kriterinin deneysel değerini hesaplamanın temeli nedir?

6. c 2 kriterinin kritik değeri nasıl bulunur?

7. Kısıtlamalar nedeniyle z ve c2 kriterleri uygulanamıyorsa, kalite özelliklerini karşılaştırmak için başka ne kullanılabilir?

Görevler.