باستخدام اختبار مربع كاي. يعمل MS EXCEL باستخدام توزيع CH2

يعد اختبار مربع كاي طريقة عالمية للتحقق من التوافق بين نتائج التجربة والنموذج الإحصائي المستخدم.

مسافة بيرسون × 2

بياتنيتسكي أ.م.

الجامعة الطبية الحكومية الروسية

في عام 1900، اقترح كارل بيرسون طريقة بسيطة وعالمية وفعالة لاختبار التوافق بين تنبؤات النماذج والبيانات التجريبية. يعد "اختبار مربع كاي" الذي اقترحه هو الاختبار الإحصائي الأكثر أهمية والأكثر استخدامًا. يمكن حل معظم المشكلات المتعلقة بتقدير معلمات النموذج غير المعروفة والتحقق من التوافق بين النموذج والبيانات التجريبية بمساعدته.

يجب أن يكون هناك نموذج مسبق ("ما قبل التجريبي") للكائن أو العملية قيد الدراسة (في الإحصائيات يتحدثون عن "الفرضية الصفرية" H 0)، ونتائج التجربة مع هذا الكائن. من الضروري تحديد ما إذا كان النموذج مناسبًا (هل يتوافق مع الواقع)؟ هل تتعارض النتائج التجريبية مع أفكارنا حول كيفية عمل الواقع، أو بمعنى آخر، هل يجب رفض H0؟ في كثير من الأحيان يمكن اختزال هذه المهمة إلى مقارنة التكرارات المرصودة (O i = المرصودة) والمتوقعة وفقًا للنموذج (E i = المتوقع) لمتوسط ​​تكرارات حدوث أحداث معينة. من المعتقد أنه تم الحصول على الترددات المرصودة في سلسلة من الملاحظات المستقلة (!) التي تم إجراؤها في ظل ظروف ثابتة (!). ونتيجة لكل ملاحظة، يتم تسجيل أحد الأحداث M. لا يمكن أن تحدث هذه الأحداث في وقت واحد (فهي غير متوافقة في أزواج) ويجب أن يحدث أحدها بالضرورة (يشكل مجموعها حدثًا موثوقًا). يتم تقليل مجمل جميع الملاحظات إلى جدول (متجه) للترددات (O i )=(O 1 ,… O M )، والذي يصف نتائج التجربة بشكل كامل. القيمة O 2 = 4 تعني أن الحدث رقم 2 حدث 4 مرات. مجموع الترددات O 1 +… O M = N. ومن المهم التمييز بين حالتين: N – ثابت، غير عشوائي، N – متغير عشوائي. بالنسبة لعدد إجمالي ثابت من التجارب N، يكون للترددات توزيع متعدد الحدود. دعونا نوضح هذا المخطط العام بمثال بسيط.

استخدام اختبار مربع كاي لاختبار الفرضيات البسيطة.

دع النموذج (الفرضية الصفرية H 0) يكون أن النرد عادل - تظهر جميع الوجوه بشكل متساوٍ في كثير من الأحيان مع احتمال p i = 1/6، i =، M = 6. تم إجراء تجربة تم فيها إلقاء النرد 60 مرة (العدد = 60 أجريت تجربة مستقلة). حسب النموذج نتوقع أن جميع الترددات المرصودة O i ذات الحدوث 1,2,...6 نقاط يجب أن تكون قريبة من متوسط ​​قيمها E i =Np i =60∙(1/6)=10. وفقًا لـ H 0، فإن متجه متوسط ​​الترددات (E i )=(Np i )=(10، 10، 10، 10، 10، 10). (الفرضيات التي يكون متوسط ​​الترددات فيها معروفًا تمامًا قبل بدء التجربة تسمى بسيطة.) إذا كان المتجه المرصود (O i ) يساوي (34,0,0,0,0,26)، فإنه على الفور من الواضح أن النموذج غير صحيح - فالعظم لا يمكن أن يكون صحيحًا، حيث تم رمي 1 و6 فقط 60 مرة. احتمال حدوث مثل هذا الحدث للنرد الصحيح لا يكاد يذكر: P = (2/6) 60 =2.4*10 -29. ومع ذلك، فإن ظهور مثل هذه التناقضات الواضحة بين النموذج والتجربة هو استثناء. ليكن متجه الترددات المرصودة (O i ) يساوي (5، 15، 6، 14، 4، 16). هل هذا يتوافق مع H0؟ لذلك، نحن بحاجة إلى مقارنة متجهي التردد (E i) و (O i). في هذه الحالة، فإن ناقل الترددات المتوقعة (Ei) ليس عشوائيًا، لكن ناقل الترددات المرصودة (Oi) عشوائي - خلال التجربة التالية (في سلسلة جديدة من 60 رمية) سيكون مختلفًا. من المفيد تقديم تفسير هندسي للمشكلة وافتراض أنه في الفضاء الترددي (في هذه الحالة سداسي الأبعاد) يتم إعطاء نقطتين بإحداثيات (5، 15، 6، 14، 4، 16) و (10، 10، 10، 10، 10، 10). هل هما بعيدان بما يكفي لاعتبار هذا غير متوافق مع H 0 ؟ بمعنى آخر نحتاج إلى:

  1. تعلم قياس المسافات بين الترددات (النقاط في الفضاء الترددي)،
  2. لديها معيار للمسافة التي ينبغي اعتبارها كبيرة جدًا ("بشكل غير معقول")، أي أنها غير متسقة مع H 0 .

مربع المسافة الإقليدية العادية سيكون مساوياً لـ:

×2 إقليدس = س(O i -E i) 2 = (5-10) 2 +(15-10) 2 + (6-10) 2 +(14-10) 2 +(4-10) 2 +(16-10) 2

في هذه الحالة، تكون الأسطح X 2 Euclid = const دائمًا مجالات إذا ثبتنا قيم E i وغيرنا O i . وأشار كارل بيرسون إلى أنه لا ينبغي استخدام المسافة الإقليدية في الفضاء الترددي. وبالتالي، فمن غير الصحيح افتراض أن النقطتين (O = 1030 و E = 1000) و (O = 40 و E = 10) تقعان على مسافات متساوية من بعضها البعض، على الرغم من أن الفرق في كلتا الحالتين هو O -E = 30. بعد كل شيء، كلما ارتفع التردد المتوقع، كلما زادت الانحرافات عنه. ولذلك، ينبغي اعتبار النقطتين (O = 1030 و E = 1000) "قريبة"، والنقطتين (O = 40 و E = 10) "بعيدتين" عن بعضهما البعض. يمكن إثبات أنه إذا كانت الفرضية H 0 صحيحة، فإن تقلبات التردد O i بالنسبة إلى E i تكون في حدود الجذر التربيعي (!) لـ E i . لذلك، اقترح بيرسون، عند حساب المسافة، عدم تربيع الاختلافات (O i -E i)، ولكن الاختلافات الطبيعية (O i -E i)/E i 1/2. إذن، هذه هي الصيغة لحساب مسافة بيرسون (وهي في الواقع مربع المسافة):

× 2 بيرسون = س((O i -E i )/E i 1/2) 2 = س(O i -E i ) 2 /E i

في مثالنا:

× 2 بيرسون = (5-10) 2 /10+(15-10) 2 /10 +(6-10) 2 /10+(14-10) 2 /10+(4-10) 2 /10+( 16-10) 2 /10=15.4

بالنسبة إلى قالب منتظم، تكون جميع الترددات المتوقعة E i هي نفسها، ولكنها عادة ما تكون مختلفة، وبالتالي فإن الأسطح التي تكون مسافة بيرسون عليها ثابتة (X 2 Pearson =const) يتبين أنها أشكال إهليلجية وليست كروية.

الآن بعد أن تم اختيار صيغة حساب المسافات، من الضروري معرفة المسافات التي يجب اعتبارها "ليست كبيرة جدًا" (متوافقة مع H 0)، فماذا يمكننا أن نقول على سبيل المثال عن المسافة التي حسبناها 15.4 ؟ في أي نسبة من الحالات (أو بأي احتمال) سنحصل على مسافة أكبر من 15.4 عند إجراء تجارب باستخدام حجر نرد عادي؟ إذا كانت هذه النسبة قليلة (<0.05), то H 0 надо отвергнуть. Иными словами требуется найти распределение длярасстояния Пирсона. Если все ожидаемые частоты E i не слишком малы (≥5), и верна H 0 , то нормированные разности (O i - E i )/E i 1/2 приближенно эквивалентны стандартным гауссовским случайным величинам: (O i - E i )/E i 1/2 ≈N (0,1). Это, например, означает, что в 95% случаев| (O i - E i )/E i 1/2 | < 1.96 ≈ 2 (правило “двух сигм”).

توضيح. عدد القياسات O i التي تقع في خلية الجدول ذات الرقم i له توزيع ذو الحدين مع المعلمات: m =Np i =E i,σ =(Np i (1-p i)) 1/2، حيث N هو الرقم من القياسات (N " 1)، p i هو احتمال سقوط قياس واحد في خلية معينة (تذكر أن القياسات مستقلة ويتم إجراؤها في ظل ظروف ثابتة). إذا كانت p i صغيرة، إذن: σ≈(Np i ) 1/2 =E i والتوزيع ذو الحدين قريب من بواسون، حيث يكون متوسط ​​عدد الملاحظات E i = lect، والانحراف المعياري σ= lect 1/2 = ه ط 1/ 2. بالنسبة لـ lect≥5، يكون توزيع Poisson قريبًا من N الطبيعي (m =E i =lect, σ=E i 1/2 = lect 1/2)، والقيمة المعيارية (O i - E i )/E i 1 /2 ≈ ن (0 ,1).

عرّف بيرسون المتغير العشوائي χ 2 n - "مربع كاي بدرجات حرية n"، كمجموع مربعات n من المتغيرات العشوائية العادية القياسية المستقلة:

χ 2 n = T 1 2 + T 2 2 + …+ T n 2 ,اين الجميع تي = ن(0,1) -ن. يا. ر. مع. الخامس.

دعونا نحاول أن نفهم بوضوح معنى هذا المتغير العشوائي الأكثر أهمية في الإحصائيات. للقيام بذلك، على المستوى (مع n = 2) أو في الفضاء (مع n = 3) نقدم سحابة من النقاط التي تكون إحداثياتها مستقلة ولها توزيع عادي قياسيf T (x) ~exp (-x 2 /2 ). على المستوى، وفقًا لقاعدة "two sigma"، والتي يتم تطبيقها بشكل مستقل على كلا الإحداثيات، يتم تضمين 90% (0.95*0.95≈0.90) من النقاط داخل المربع (-2

f χ 2 2 (a) = Сexp(-a/2) = 0.5exp(-a/2).

مع وجود عدد كبير بما فيه الكفاية من درجات الحرية n (n > 30)، يقترب توزيع مربع كاي من الوضع الطبيعي: N (m = n; σ = (2n) ½). وهذا نتيجة لـ "نظرية الحد المركزي": مجموع الكميات الموزعة بشكل متماثل مع التباين المحدود يقترب من القانون الطبيعي مع زيادة عدد الحدود.

في الممارسة العملية، عليك أن تتذكر أن متوسط ​​مربع المسافة يساوي m (χ 2 n) = n، وتباينه هو σ 2 (χ 2 n) = 2n. من هنا يسهل استنتاج قيم مربع كاي التي يجب اعتبارها صغيرة جدًا وكبيرة جدًا: يقع معظم التوزيع في النطاق من n -2∙(2n) ½ إلى n +2∙(2n) ½.

لذلك، فإن مسافات بيرسون التي تتجاوز بشكل ملحوظ n +2∙ (2n) ½ ينبغي اعتبارها كبيرة بشكل غير معقول (غير متسقة مع H 0). إذا كانت النتيجة قريبة من n +2∙(2n) ½، فيجب عليك استخدام الجداول التي يمكنك من خلالها معرفة بالضبط نسبة الحالات التي يمكن أن تظهر فيها قيم مربع كاي الكبيرة.

من المهم معرفة كيفية اختيار القيمة الصحيحة لعدد درجات الحرية (مختصر n.d.f.). بدا من الطبيعي أن نفترض أن n يساوي ببساطة عدد الأرقام: n =M. في مقالته، اقترح بيرسون نفس الشيء. في مثال النرد، هذا يعني أن n =6. ومع ذلك، بعد عدة سنوات تبين أن بيرسون كان مخطئا. يكون عدد درجات الحرية دائما أقل من عدد الأرقام إذا كان هناك اتصالات بين المتغيرات العشوائية O i. بالنسبة لمثال النرد، مجموع O i هو 60، ويمكن تغيير 5 ترددات فقط بشكل مستقل، وبالتالي فإن القيمة الصحيحة هي n = 6-1 = 5. للحصول على قيمة n هذه نحصل على n +2∙(2n) ½ =5+2∙(10) ½ =11.3. بما أن 15.4>11.3، فيجب رفض الفرضية H 0 - النرد صحيح.

بعد توضيح الخطأ، كان لا بد من استكمال الجداول χ 2 الموجودة، لأنها لم تكن تحتوي في البداية على الحالة n = 1، لأن أصغر عدد من الأرقام = 2. الآن اتضح أنه قد تكون هناك حالات عندما يكون لمسافة بيرسون التوزيع χ 2 n =1.

مثال. عند رمي 100 عملة معدنية، يكون عدد الصور هو O 1 = 65، وعدد الكتابة هو O 2 = 35. وعدد الأرقام هو M = 2. إذا كانت العملة متناظرة فإن التكرارات المتوقعة هي E 1 = 50، E 2 = 50.

× 2 بيرسون = س(O i -E i) 2 /E i = (65-50) 2 /50 + (35-50) 2 /50 = 2*225/50 = 9.

يجب مقارنة القيمة الناتجة مع تلك التي يمكن أن يأخذها المتغير العشوائي χ 2 n =1، وتعرف بأنها مربع القيمة العادية القياسية χ 2 n =1 =T 1 2 ≥ 9 ó T 1 ≥3 أو T 1 ≥-3. احتمال مثل هذا الحدث صغير جدًا P (χ 2 n =1 ≥9) = 0.006. لذلك، لا يمكن اعتبار العملة متماثلة: يجب رفض H 0. وحقيقة أن عدد درجات الحرية لا يمكن أن يساوي عدد الأرقام يتجلى من حقيقة أن مجموع التكرارات المرصودة يساوي دائمًا مجموع التكرارات المتوقعة، على سبيل المثال O 1 +O 2 =65+ 35 = ه 1 + ه 2 = 50 + 50 = 100. لذلك فإن النقاط العشوائية ذات الإحداثيات O 1 و O 2 تقع على خط مستقيم: O 1 + O 2 = E 1 + E 2 = 100 وتبين أن المسافة إلى المركز أقل مما لو لم يكن هذا القيد موجودًا و كانوا موجودين على متن الطائرة بأكملها. في الواقع، بالنسبة لمتغيرين عشوائيين مستقلين لهما توقعات رياضية E 1 = 50، E 2 = 50، لا ينبغي أن يكون مجموع إدراكهما دائمًا مساويًا لـ 100 - على سبيل المثال، القيم O 1 = 60، O 2 = 55 ستكون يكون مقبولا.

توضيح. دعونا نقارن نتيجة معيار بيرسون عند M = 2 مع ما تعطيه صيغة Moivre-Laplace عند تقدير التقلبات العشوائية في تكرار حدوث حدث ν =K /N له احتمال p في سلسلة من اختبارات برنولي المستقلة N ( K هو عدد النجاحات):

χ 2 ن =1 = س(O i -E i) 2 /E i = (O 1 -E 1) 2 /E 1 + (O 2 -E 2) 2 /E 2 = (Nν -Np) 2 /(Np) + (N ( 1-ν )-ن (1-ع )) 2 /(ن (1-ف ))=

=(Nν-Np) 2 (1/p + 1/(1-p))/N=(Nν-Np) 2 /(Np(1-p))=((K-Np)/(Npq) ½ ) 2 = ت 2

القيمة T =(K -Np)/(Npq) ½ = (K -m (K))/σ(K) ≈N (0.1) مع σ(K)=(Npq) ½ ≥3. نرى أنه في هذه الحالة تتطابق نتيجة بيرسون تمامًا مع ما يعطيه التقريب الطبيعي للتوزيع ذي الحدين.

لقد نظرنا حتى الآن في فرضيات بسيطة يكون متوسط ​​الترددات المتوقعة E i معروفًا لها مسبقًا. للحصول على معلومات حول كيفية اختيار العدد الصحيح من درجات الحرية للفرضيات المعقدة، انظر أدناه.

استخدام اختبار مربع كاي لاختبار الفرضيات المعقدة

في الأمثلة التي تحتوي على قالب عادي وعملة معدنية، يمكن تحديد التكرارات المتوقعة قبل (!) التجربة. تسمى هذه الفرضيات "بسيطة". ومن الناحية العملية، تعد "الفرضيات المعقدة" أكثر شيوعًا. علاوة على ذلك، من أجل العثور على الترددات المتوقعة E i، من الضروري أولاً تقدير كمية واحدة أو عدة كميات (معلمات النموذج)، ولا يمكن القيام بذلك إلا باستخدام البيانات التجريبية. ونتيجة لذلك، بالنسبة لـ "الفرضيات المعقدة"، فإن الترددات المتوقعة E i تعتمد على الترددات المرصودة O i وبالتالي تصبح نفسها متغيرات عشوائية، تختلف اعتمادًا على نتائج التجربة. في عملية اختيار المعلمات، تنخفض مسافة بيرسون - يتم اختيار المعلمات لتحسين التوافق بين النموذج والتجربة. ولذلك، ينبغي أن ينخفض ​​عدد درجات الحرية.

كيفية تقدير معلمات النموذج؟ هناك العديد من طرق التقدير المختلفة - "طريقة الاحتمالية القصوى"، "طريقة العزوم"، "طريقة الاستبدال". ومع ذلك، لا يمكنك استخدام أي أموال إضافية والعثور على تقديرات المعلمات عن طريق تقليل مسافة بيرسون. في عصر ما قبل الكمبيوتر، نادرًا ما تم استخدام هذا النهج: فهو غير مناسب للحسابات اليدوية، وكقاعدة عامة، لا يمكن حله تحليليًا. عند إجراء العمليات الحسابية على الكمبيوتر، عادة ما يكون من السهل إجراء التصغير العددي، وميزة هذه الطريقة هي تنوعها. لذلك، وفقاً لطريقة تصغير مربع كاي، نقوم باختيار قيم المعلمات غير المعروفة بحيث تصبح مسافة بيرسون هي الأصغر. (بالمناسبة، من خلال دراسة التغيرات في هذه المسافة مع الإزاحات الصغيرة بالنسبة إلى الحد الأدنى الذي تم العثور عليه، يمكنك تقدير مقياس دقة التقدير: إنشاء فترات الثقة.) بعد العثور على المعلمات وهذه المسافة الدنيا نفسها، يتم من الضروري مرة أخرى للإجابة على سؤال ما إذا كانت صغيرة بما فيه الكفاية.

التسلسل العام للإجراءات هو كما يلي:

  1. اختيار النموذج (الفرضية H0).
  2. اختيار البتات وتحديد متجه الترددات المرصودة O i .
  3. تقدير معلمات النموذج غير المعروفة وبناء فترات الثقة لها (على سبيل المثال، من خلال البحث عن الحد الأدنى لمسافة بيرسون).
  4. حساب الترددات المتوقعة E i .
  5. مقارنة القيمة التي تم العثور عليها لمسافة بيرسون X 2 مع القيمة الحرجة لمربع كاي χ 2 Crit - وهي الأكبر، والتي لا تزال تعتبر معقولة ومتوافقة مع H 0. نجد القيمة χ 2 Crit من الجداول عن طريق حل المعادلة

P (χ 2 n > χ 2 Crit)=1-α،

حيث α هو "مستوى الأهمية" أو "حجم المعيار" أو "حجم الخطأ من النوع الأول" (القيمة النموذجية α = 0.05).

عادة يتم حساب عدد درجات الحرية n باستخدام الصيغة

n = (عدد الأرقام) – 1 – (عدد المعلمات المقرر تقديرها)

إذا كان X 2 > χ 2 Crit، فإن الفرضية H 0 مرفوضة، وإلا فهي مقبولة. في α∙100% من الحالات (أي نادرًا جدًا)، ستؤدي طريقة التحقق من H 0 إلى "خطأ من النوع الأول": سيتم رفض الفرضية H 0 بشكل خاطئ.

مثال.عند دراسة 10 سلاسل من 100 بذرة، تم حساب عدد الذبابة ذات العيون الخضراء المصابة. البيانات المستلمة: O i =(16, 18, 11, 18, 21, 10, 20, 18, 17, 21);

هنا ناقل الترددات المتوقعة غير معروف مسبقًا. إذا كانت البيانات متجانسة وتم الحصول عليها لتوزيع ذي الحدين، فإن معلمة واحدة غير معروفة: نسبة p من البذور المصابة. لاحظ أنه في الجدول الأصلي لا يوجد في الواقع 10 ترددات بل 20 ترددًا تلبي 10 اتصالات: 16+84=100، ... 21+79=100.

X 2 = (16-100ع) 2 /100ع +(84-100(1-ع)) 2 /(100(1-ع))+…+

(21-100ع) 2 /100ع +(79-100(1-ع)) 2 /(100(1-ع))

وبجمع المصطلحات في أزواج (كما في مثال العملة المعدنية)، نحصل على شكل كتابة معيار بيرسون، والذي عادة ما يُكتب على الفور:

X 2 = (16-100ب) 2 /(100ب(1-ع))+…+ (21-100ب) 2 /(100ب(1-ع)).

الآن، إذا تم استخدام الحد الأدنى لمسافة بيرسون كطريقة لتقدير p، فمن الضروري العثور على p حيث X 2 =min. (يحاول النموذج، إن أمكن، "التكيف" مع البيانات التجريبية.)

يعد معيار بيرسون هو الأكثر استخدامًا في مجال الإحصاء. ويمكن تطبيقه على البيانات أحادية المتغير ومتعددة المتغيرات والميزات الكمية والنوعية. ومع ذلك، وبسبب تعدد استخداماته على وجه التحديد، ينبغي للمرء أن يكون حريصًا على عدم ارتكاب الأخطاء.

نقاط مهمة

1. اختيار الفئات.

  • إذا كان التوزيع منفصلا، فلا يوجد عادة تعسف في اختيار الأرقام.
  • إذا كان التوزيع مستمرا، فإن التعسف أمر لا مفر منه. يمكن استخدام الكتل المكافئة إحصائيًا (كل O هي نفسها، على سبيل المثال =10). ومع ذلك، فإن أطوال الفواصل الزمنية مختلفة. عند إجراء الحسابات اليدوية، حاولوا جعل الفترات الزمنية نفسها. هل يجب أن تكون الفواصل الزمنية عند دراسة توزيع السمة أحادية المتغير متساوية؟ لا.
  • يجب دمج الأرقام بحيث لا تكون الترددات المتوقعة (غير الملحوظة!) صغيرة جدًا (≥5). دعونا نتذكر أنهم (E i) هم الموجودون في المقامات عند حساب X 2! عند تحليل الخصائص أحادية البعد، يجوز انتهاك هذه القاعدة في الرقمين المتطرفين E 1 = E max = 1. إذا كان عدد الأرقام كبيرا والترددات المتوقعة قريبة، فإن X 2 هو تقريب جيد لـ χ 2 حتى بالنسبة لـ E i =2.

تقدير المعلمة. يمكن أن يؤدي استخدام طرق تقدير "محلية الصنع" وغير فعالة إلى تضخيم قيم مسافة بيرسون.

اختيار العدد الصحيح من درجات الحرية. إذا لم يتم إجراء تقديرات المعلمات من الترددات، ولكن مباشرة من البيانات (على سبيل المثال، يتم أخذ الوسط الحسابي كتقدير للمتوسط)، فإن العدد الدقيق لدرجات الحرية n غير معروف. نحن نعلم فقط أنه يرضي عدم المساواة:

(عدد الأرقام – 1 – عدد المعلمات التي يتم تقييمها)< n < (число разрядов – 1)

لذلك، من الضروري مقارنة X 2 مع القيم الحرجة لـ χ 2 Crit المحسوبة عبر هذا النطاق من n.

كيفية تفسير قيم مربع كاي الصغيرة بشكل غير معقول؟هل ينبغي اعتبار العملة متناظرة إذا سقطت على شعار النبالة 5000 مرة بعد 10000 رمية؟ في السابق، كان العديد من الإحصائيين يعتقدون أنه يجب أيضًا رفض H 0. والآن يُقترح نهج آخر: قبول H 0، ولكن إخضاع البيانات ومنهجية تحليلها للتحقق الإضافي. هناك احتمالان: إما أن مسافة بيرسون صغيرة جدًا تعني أن زيادة عدد معلمات النموذج لم تكن مصحوبة بانخفاض مناسب في عدد درجات الحرية، أو أن البيانات نفسها تم تزويرها (ربما تم تعديلها عن غير قصد وفقًا للنتيجة المتوقعة).

مثال.قام باحثان A وB بحساب نسبة متماثلات الزيجوت المتنحية aa في الجيل الثاني من هجين أحادي AA * aa. وفقا لقوانين مندل، هذا الكسر هو 0.25. أجرى كل باحث 5 تجارب، وتمت دراسة 100 كائن حي في كل تجربة.

النتائج أ: 25، 24، 26، 25، 24. استنتاج الباحث: قانون مندل صحيح (؟).

النتائج ب: 29، 21، 23، 30، 19. استنتاج الباحث: قانون مندل غير عادل (؟).

إلا أن قانون مندل ذو طبيعة إحصائية، والتحليل الكمي للنتائج يعكس النتائج! من خلال الجمع بين خمس تجارب في تجربة واحدة، نصل إلى توزيع مربع كاي مع 5 درجات حرية (تم اختبار فرضية بسيطة):

× 2 أ = ((25-25) 2 +(24-25) 2 +(26-25) 2 +(25-25) 2 +(24-25) 2)/(100∙0.25∙0.75)=0.16

× 2 ب = ((29-25) 2 +(21-25) 2 +(23-25) 2 +(30-25) 2 +(19-25) 2)/(100∙0.25∙0.75)=5.17

متوسط ​​القيمة m [χ 2 n =5 ]=5، الانحراف المعياري σ[χ 2 n =5 ]=(2∙5) 1/2 =3.2.

لذلك، دون الرجوع إلى الجداول، من الواضح أن قيمة X 2 B هي قيمة نموذجية، وقيمة X 2 A صغيرة بشكل غير معقول. حسب الجداول P (χ 2 n =5<0.16)<0.0001.

هذا المثال هو تعديل لحالة حقيقية حدثت في ثلاثينيات القرن العشرين (انظر عمل كولموجوروف "حول دليل آخر لقوانين مندل"). ومن المثير للاهتمام أن الباحث "أ" كان مؤيدًا لعلم الوراثة، وكان الباحث "ب" ضده.

ارتباك في التدوين.ومن الضروري التمييز بين مسافة بيرسون، التي تتطلب اصطلاحات إضافية في حسابها، من المفهوم الرياضي للمتغير العشوائي لمربع كاي. مسافة بيرسون في ظل ظروف معينة لها توزيع قريب من مربع كاي مع درجات حرية n. ولذلك، فمن المستحسن عدم الإشارة إلى مسافة بيرسون بالرمز χ 2 n، ولكن استخدام رمز مشابه ولكن مختلف X 2. .

معيار بيرسون ليس كلي القدرة.هناك عدد لا نهائي من البدائل لـ H0 التي لا يستطيع أن يأخذها بعين الاعتبار. لنفترض أنك تختبر الفرضية القائلة بأن الميزة لها توزيع موحد، لديك 10 أرقام ومتجه الترددات المرصودة يساوي (130،125،121،118،116،115،114،113،111،110). لا يمكن لمعيار بيرسون أن "يلاحظ" أن الترددات تتناقص بشكل رتيب ولن يتم رفض H 0. إذا تم استكماله بمعيار سلسلة، فنعم!

يعتمد استخدام هذا المعيار على استخدام مثل هذا المقياس (الإحصائيات) للتناقض بين النظرية و(خ)والتوزيع التجريبي و * ن (خ)، والذي يطيع تقريبًا قانون التوزيع χ 2 . فرضية ح 0يتم التحقق من اتساق التوزيعات من خلال تحليل توزيع هذه الإحصائيات. ويتطلب تطبيق المحك بناء سلسلة إحصائية.

لذا، لنعرض العينة إحصائياً بجانب عدد الأرقام م. معدل الضربات الملحوظة أنا-المرتبة الرابعة ن ط. وفقا لقانون التوزيع النظري، فإن التكرار المتوقع للضربات في أنا-الفئة هي واو. الفرق بين التكرار الملاحظ والمتوقع سيكون ( ن طواو). للعثور على الدرجة الإجمالية للتناقض بين و(خ) و و * ن (خ) من الضروري حساب المجموع المرجح للفروق التربيعية عبر جميع أرقام السلسلة الإحصائية

القيمة χ 2 مع التكبير غير محدود نلديه توزيع χ 2 (موزع بشكل غير مقارب كـ χ 2). ويعتمد هذا التوزيع على عدد درجات الحرية ك، أي. عدد القيم المستقلة للمصطلحات في التعبير (3.7). عدد درجات الحرية يساوي العدد ذناقص عدد العلاقات الخطية المفروضة على العينة. يوجد اتصال واحد لأنه يمكن حساب أي تردد من مجموع الترددات المتبقية م-1 أرقام. بالإضافة إلى ذلك، إذا لم تكن معلمات التوزيع معروفة مسبقًا، فهناك قيد آخر بسبب ملاءمة التوزيع للعينة. إذا حددت العينة سمعلمات التوزيع، فإن عدد درجات الحرية سيكون ك=م –S–1.

منطقة قبول الفرضية ح 0يتم تحديده بواسطة الشرط χ 2 < χ 2(ك؛أ)، حيث χ 2(ك؛أ)- النقطة الحرجة لتوزيع χ2 مع مستوى الأهمية أ. احتمال الخطأ من النوع الأول هو أ، لا يمكن تحديد احتمال الخطأ من النوع الثاني بوضوح، نظرًا لوجود عدد لا نهائي من الطرق المختلفة التي قد لا تتطابق فيها التوزيعات. تعتمد قوة الاختبار على عدد الأرقام وحجم العينة. يوصى بتطبيق المعيار عندما ن> 200، يُسمح بالاستخدام عندما ن>40، في ظل هذه الظروف يكون المعيار صالحًا (كقاعدة عامة، فهو يرفض فرضية العدم غير الصحيحة).

خوارزمية للتحقق حسب المعيار

1. قم بإنشاء رسم بياني باستخدام طريقة الاحتمال المتساوي.

2. بناء على مظهر الرسم البياني، طرح فرضية

ح 0: F(س) = F 0(س),

ح 1: F(س) F 0(س),

أين F 0(س) - الكثافة الاحتمالية لقانون التوزيع الافتراضي (على سبيل المثال، موحد، أسي، عادي).

تعليق. يمكن طرح فرضية قانون التوزيع الأسي إذا كانت جميع الأرقام في العينة موجبة.


3. احسب قيمة المعيار باستخدام الصيغة

,

أين هو تردد الضربة أنا-الفاصل الزمني؛

باي- الاحتمال النظري لوقوع متغير عشوائي أنا- الفاصل الزمني بشرط أن تكون الفرضية ح 0 صحيح.

صيغ للحساب بايوفي حالة القوانين الأسية والموحدة والعادية، فهي متساوية على التوالي.

القانون الأسي

. (3.8)

حيث أ 1 = 0, بي ام= +.

قانون موحد

القانون العادي

. (3.10)

حيث أ 1 = -، ب م = +.

ملحوظات. بعد حساب كل الاحتمالات بايتحقق مما إذا كانت العلاقة المرجعية راضية

الدالة ف( X) - غريب. ه(+) = 1.

4. من جدول "مربع كاي" في الملحق، يتم تحديد القيمة، حيث يكون مستوى الأهمية المحدد (= 0.05 أو = 0.01)، و ك- عدد درجات الحرية التي تحددها الصيغة

ك= م- 1 - س.

هنا س- عدد العوامل التي تعتمد عليها الفرضية المختارة ح 0 قانون التوزيع قيم سبالنسبة للقانون الموحد هو 2، بالنسبة للقانون الأسي هو 1، بالنسبة للقانون العادي هو 2.

5. إذا، إذن الفرضية ح 0 ينحرف. وإلا فلا سبب لرفضه: مع الاحتمال 1 يكون صحيحًا، ومع الاحتمال يكون خطأ، لكن القيمة غير معروفة.

مثال3 . 1. باستخدام المعيار الثاني، طرح واختبار فرضية حول قانون توزيع المتغير العشوائي X، سلسلة الاختلاف والجداول الفاصلة والرسوم البيانية للتوزيع الواردة في المثال 1.2. مستوى الأهمية هو 0.05.

حل . وبالاعتماد على مظهر الرسوم البيانية، طرحنا فرضية المتغير العشوائي Xموزعة حسب القانون العادي:

ح 0: F(س) = ن(م,);

ح 1: F(س) ن(م,).

يتم حساب قيمة المعيار باستخدام الصيغة.

وصف المعيار

الغرض من المعيار

اختبار بيرسون لمربع كاي

مواد المحاضرة

الموضوع 6. تحديد الاختلافات في توزيع السمة

معيار بيرسون: الغرض من المعيار، وصفه، نطاق التطبيق، خوارزمية الحساب.

معيار كولموجوروف-سميرنوف لمقارنة نتائج القياسات الكمية: الغرض من المعيار، وصفه، نطاق التطبيق، خوارزمية الحساب.

عند دراسة هذا الموضوع، لا بد من الأخذ بعين الاعتبار أن كلا المعيارين غير معلميين؛ انتبه بشكل خاص لقواعد القرار الخاصة بالمعايير المدروسة: قد تكون هذه القواعد معاكسة. يرجى مراجعة القيود المفروضة على تطبيق المعايير بعناية.

بعد دراسة مادة المحاضرة، أجب عن أسئلة الاختبار وقم بتدوين الإجابات في ملاحظاتك.

يمكن أن يحل اختبار بيرسون كاي تربيع العديد من المشاكل، بما في ذلك مقارنة التوزيعات.

يتم استخدام اختبار χ 2 لغرضين؛

1) للمقارنة تجريبيتوزيع الخاصية مع نظري -موحدة أو عادية أو غير ذلك؛

2) للمقارنة اثنان أو ثلاثة أو أكثر تجريبيةتوزيعات لها نفس الخاصية، أي التحقق من تجانسها؛

3) لتقييم الاستقلال العشوائي (الاحتمالي) في نظام الأحداث العشوائية، وما إلى ذلك.

يجيب معيار χ 2 على سؤال ما إذا كانت القيم المختلفة للخاصية تحدث بتكرار متساوٍ في التوزيعات التجريبية والنظرية أو في توزيعين تجريبيين أو أكثر.

وميزة هذه الطريقة هي أنها تسمح للمرء بمقارنة توزيعات الميزات المقدمة على أي مقياس، بدءاً من مقياس الأسماء. في أبسط حالة للتوزيع البديل ("نعم - لا"، "سمح بوجود عيب - لم يسمح بوجود عيب"، "حل المشكلة - لم يحل المشكلة"، وما إلى ذلك)، يمكننا بالفعل تطبيق χ 2 معيار.

1. يجب أن يكون حجم العينة كبيرًا بدرجة كافية: N>30. عندما ن<30 критерий χ 2 дает весьма приближенные значения. Точность крите­рия повышается при больших N.

2. يجب ألا يقل التردد النظري لكل خلية جدول عن 5: f ≥ 5 . هذا يعني أنه إذا كان عدد الأرقام محددًا مسبقًا ولا يمكن تغييره، فلا يمكننا تطبيق طريقة χ 2 , دون تجميع حد أدنى معين من الملاحظات. على سبيل المثال، إذا أردنا اختبار افتراضاتنا بأن تكرار المكالمات إلى خدمة هاتف Trust يتم توزيعه بشكل غير متساو على مدار 7 أيام في الأسبوع، فسنحتاج إلى 5-7 = 35 مكالمة. وهكذا، إذا كان عدد الأرقام (ك)يتم تقديمها مسبقًا، كما في هذه الحالة، يتم تحديد الحد الأدنى لعدد الملاحظات (N min) بواسطة الصيغة: .



3. يجب أن "تستخرج" الفئات المحددة التوزيع بأكمله، أي أن تغطي النطاق الكامل لتنوع الخصائص. وفي هذه الحالة، يجب أن يكون التجميع في فئات هو نفسه في جميع التوزيعات المقارنة.

4. من الضروري إجراء "تصحيح الاستمرارية" عند مقارنة توزيعات الميزات التي تأخذ قيمتين فقط. عند إجراء التصحيح، تنخفض قيمة χ 2 (انظر المثال مع تصحيح الاستمرارية).

5. يجب أن تكون الفئات غير متداخلة: إذا تم تخصيص ملاحظة لفئة واحدة، فلا يمكن إسنادها إلى أي فئة أخرى. يجب أن يكون مجموع الملاحظات حسب الرتبة دائمًا مساويًا لإجمالي عدد الملاحظات.

خوارزمية لحساب معيار χ 2

1. قم بإنشاء جدول الاقتران المتبادل لقيم الميزات من النوع التالي (في الأساس، هذه سلسلة تباين ثنائية الأبعاد يُشار فيها إلى تكرارات حدوث قيم الميزات المشتركة) - الجدول 19. يحتوي الجدول على الترددات الشرطية، والتي سنشير إليها بعبارات عامة بالرمز f ij. على سبيل المثال، عدد تدرجات الخاصية Xيساوي 3 (k=3)، عدد تدرجات الخاصية فييساوي 4 (م=4)؛ ثم أنايختلف من 1 إلى ك، و ييختلف من 1 إلى م.

الجدول 19

س ط ي ي × 1 × 2 × 3
في 1 و 11 ص 21 ص 31 و -1
في 2 و 12 ص 22 ص 32 و -2
على الساعة 3 و 13 ص 23 ص 33 و -3
في 4 و 14 و 24 ص 34 و -4
و 1– و 2- و 3- ن

2. بعد ذلك، ولتسهيل الحسابات، نقوم بتحويل جدول الاحتمالات المتبادلة الأصلي إلى جدول بالشكل التالي (جدول 20)، مع وضع الأعمدة ذات التكرارات الشرطية واحدا تلو الآخر: أدخل في الجدول أسماء الفئات (العمودان 1 و 2) والتكرارات التجريبية المقابلة (العمود الثالث).

الجدول 20

× ط ذ ي و ي و إي * و ي – و ي * (و ي – و ي *) 2 (و ج – و ج *) 2 / و ج *
1 2 3 4 5 6 7
× 1 في 1 و 11 و11*
× 1 في 2 و 12 و12*
× 1 على الساعة 3 و 13 و 13*
× 1 في 4 و 14 و14*
× 2 في 1 ص 21 ص 21 *
× 2 في 2 ص 22 ص 22 *
× 2 على الساعة 3 ص 23 ص 23 *
× 2 في 4 و 24 و 24 *
× 3 في 1 ص 31 ص 31 *
× 3 في 2 ص 32 ص 32 *
× 3 على الساعة 3 ص 33 ص 33 *
× 3 في 4 ص 34 ص 34*
∑=………….

3. بجانب كل تكرار تجريبي، اكتب التكرار النظري (العمود الرابع)، والذي يتم حسابه باستخدام الصيغة التالية (إجمالي التكرارات في السطر المقابل مضروبًا في التكرار الإجمالي في العمود المقابل ومقسمًا على إجمالي عدد التكرارات الملاحظات):

5. تحديد عدد درجات الحرية باستخدام الصيغة: ν=(ك-1)(م-1) , أين ك-عدد أرقام السمات X، م - عدد أرقام العلامة في.

إذا كانت ν=1، قم بتصحيح "الاستمرارية" واكتبها في العمود 5أ.

يتكون تصحيح الاستمرارية من طرح 0.5 أخرى من الفرق بين الترددات الشرطية والنظرية. ثم ستبدو عناوين الأعمدة في جدولنا كما يلي (الجدول 21):

الجدول 21

X في و ي و إي * و ي – و ي * و ي – و ي * – 0.5 (و ي – و ي * – 0.5) 2 (و ج – و ج * – 0.5) 2 / و ج *
1 2 3 4 5 5 أ 6 7

6. قم بتربيع الاختلافات الناتجة وأدخلها في العمود السادس.

7. اقسم فروق المربعات الناتجة على التكرار النظري واكتب النتائج في العمود السابع.

8. اجمع قيم العمود السابع. يتم تعيين المبلغ الناتج على أنه χ 2 em.

9. قاعدة القرار:

يجب مقارنة القيمة المحسوبة للمعيار بالقيمة الحرجة (أو المجدولة). تعتمد القيمة الحرجة على عدد درجات الحرية حسب جدول القيم الحرجة لمعيار بيرسون χ 2 (انظر الملحق 1.6).

إذا كان جدول χ 2 calc ≥ χ 2، فإن التناقضات بين التوزيعات تكون ذات دلالة إحصائية، أو تتغير الخصائص باستمرار، أو تكون العلاقة بين الخصائص ذات دلالة إحصائية.

إذا تم حساب χ 2< χ 2 табл, то расхождения между рас­пределениями статистически недостоверны, или признаки изменяются несогласованно, или связи между признаками нет.

إذا كانت القيمة التي تم الحصول عليها للمعيار χ 2 أكبر من القيمة الحرجة، فإننا نستنتج أن هناك علاقة إحصائية بين عامل الخطر المدروس والنتيجة عند مستوى الأهمية المناسب.

مثال لحساب اختبار بيرسون كاي تربيع

دعونا نحدد الدلالة الإحصائية لتأثير عامل التدخين على حدوث ارتفاع ضغط الدم الشرياني باستخدام الجدول الذي تمت مناقشته أعلاه:

1. احسب القيم المتوقعة لكل خلية:

2. أوجد قيمة اختبار بيرسون لمربع كاي:

χ 2 = (40-33.6) 2 /33.6 + (30-36.4) 2 /36.4 + (32-38.4) 2 /38.4 + (48-41.6) 2 /41.6 = 4.396.

3. عدد درجات الحرية f = (2-1)*(2-1) = 1. باستخدام الجدول، نجد القيمة الحرجة لاختبار بيرسون كاي تربيع، والتي عند مستوى الأهمية p=0.05 و عدد درجات الحرية 1 هو 3.841.

4. قمنا بمقارنة القيمة التي تم الحصول عليها لاختبار مربع كاي مع القيمة الحرجة: 4.396 > 3.841، وبالتالي فإن اعتماد حدوث ارتفاع ضغط الدم الشرياني على وجود التدخين له دلالة إحصائية. مستوى أهمية هذه العلاقة يتوافق مع ص<0.05.

أيضًا، يتم حساب اختبار بيرسون كاي تربيع باستخدام الصيغة

ولكن بالنسبة لجدول 2x2، يتم الحصول على نتائج أكثر دقة من خلال معيار تصحيح ييتس

لو الذي - التي ن(0)قبلت،

متى قبلت ح(1)

عندما يكون عدد المشاهدات صغيرا وتحتوي خلايا الجدول على تردد أقل من 5 لا ينطبق اختبار مربع كاي ويستخدم لاختبار الفرضيات اختبار فيشر الدقيق . إن إجراء حساب هذا المعيار يتطلب عمالة كثيفة، وفي هذه الحالة يكون من الأفضل استخدام برامج التحليل الإحصائي بالكمبيوتر.

باستخدام جدول الاحتمالات، يمكنك حساب مقياس الارتباط بين خاصيتين نوعيتين - وهذا هو معامل ارتباط Yule س (مماثل لمعامل الارتباط)

سيقع في النطاق من 0 إلى 1. يشير المعامل القريب من الواحد إلى وجود علاقة قوية بين الخصائص. إذا كان يساوي الصفر، فلا يوجد اتصال .

يتم استخدام معامل فاي مربع (φ 2) بالمثل

مهمة مرجعية

يصف الجدول العلاقة بين تكرار الطفرة في مجموعات ذبابة الفاكهة مع وبدون التغذية



تحليل جدول الطوارئ

ولتحليل جدول الاحتمالات تم طرح فرضية H0، أي عدم تأثير الخاصية محل الدراسة على نتيجة الدراسة، ولهذا تم حساب التكرار المتوقع وبناء جدول التوقعات.

طاولة الإنتظار

مجموعات محاصيل التشيلو المجموع
أعطى الطفرات لم يعط الطفرات
التردد الفعلي التردد المتوقع التردد الفعلي التردد المتوقع
مع التغذية
بدون تغذية
المجموع

الطريقة رقم 1

تحديد تردد الانتظار:

2756 - العاشر ;

2. 3561 – 3124

إذا كان عدد الملاحظات في المجموعات صغيرا، عند استخدام X 2، في حالة مقارنة الترددات الفعلية والمتوقعة للتوزيعات المنفصلة، ​​يرتبط بعض عدم الدقة لتقليل عدم الدقة، يتم استخدام تصحيح ييتس.

اختبار مربع كاي.

يتم استخدام اختبار مربع كاي، على عكس اختبار z، لمقارنة أي عدد من المجموعات.

البيانات الأولية: جدول الطوارئ.

فيما يلي مثال لجدول طوارئ بأبعاد لا تقل عن 2*2. A، B، C، D - ما يسمى بالترددات الحقيقية.

التوقيع 1 التوقيع 2 المجموع
مجموعة 1 أ ب أ+ب
المجموعة 2 ج د ج+د
المجموع أ+ج ب+د أ+ب+ج+د

ويعتمد حساب المحك على مقارنة التكرارات الحقيقية والتكرارات المتوقعة، والتي يتم حسابها على افتراض عدم وجود تأثير متبادل للخصائص المقارنة على بعضها البعض. وبالتالي، إذا كانت التكرارات الفعلية والمتوقعة قريبة بدرجة كافية من بعضها البعض، فلن يكون هناك أي تأثير، وهذا يعني أنه سيتم توزيع الخصائص بالتساوي تقريبًا عبر المجموعات.

ويجب إدخال البيانات الأولية لتطبيق هذه الطريقة في جدول الاحتمالات، الذي تشير أعمدته وصفوفه إلى القيم المتغيرة للخصائص قيد الدراسة. سيتم تسمية الأرقام الموجودة في هذا الجدول بالتكرارات الحقيقية أو التجريبية. بعد ذلك، من الضروري حساب التكرارات المتوقعة على أساس افتراض أن المجموعات التي تتم مقارنتها متساوية تمامًا في توزيع الخصائص. وفي هذه الحالة يجب الحفاظ على نسب الصف أو العمود الإجمالي "الإجمالي" في أي صف وعمود. وعلى هذا يتم تحديد التكرارات المتوقعة (أنظر المثال).

ثم يتم حساب قيمة المعيار على أنها مجموع جميع خلايا جدول الاحتمالات لنسبة مربع الفرق بين التكرار الفعلي والتكرار المتوقع إلى التكرار المتوقع:

أين هو التردد الحقيقي في الخلية؟ - التردد المتوقع في الخلية .

، أين ن = أ+ ب + ج + د.

عند الحساب باستخدام الصيغة الأساسية للجدول 2*2 ( فقط لهذا الجدول )، فمن الضروري أيضًا تطبيق تصحيح ييتس للاستمرارية:

.

يتم تحديد القيمة الحرجة للمعيار من الجدول (انظر الملحق) مع مراعاة عدد درجات الحرية ومستوى الأهمية. يتم أخذ مستوى الأهمية كمعيار: 0.05؛ 0.01 أو 0.001. يتم تعريف عدد درجات الحرية على أنه حاصل ضرب عدد الصفوف والأعمدة في جدول الاحتمالات، ويتم تخفيض كل منها بمقدار واحد:

,

أين ص- عدد الخطوط (عدد تدرجات الخاصية الواحدة)، مع- عدد الأعمدة (عدد تدرجات خاصية أخرى). يمكن تحديد هذه القيمة الحرجة في جدول بيانات Microsoft Excel باستخدام الدالة =x2rev( أ، و)، حيث تحتاج بدلاً من ذلك إلى إدخال مستوى الأهمية، وبدلاً من ذلك F– عدد درجات الحرية .

إذا كانت قيمة اختبار مربع كاي أكبر من القيمة الحرجة، فسيتم رفض الفرضية المتعلقة باستقلالية الخصائص ويمكن اعتبارها معتمدة على مستوى الأهمية المحدد.

هذه الطريقة لها قيود في قابلية التطبيق: يجب أن تكون التكرارات المتوقعة 5 أو أكثر (لجدول 2*2). بالنسبة لجدول عشوائي، يكون هذا القيد أقل صرامة: يجب أن تكون جميع التكرارات المتوقعة 1 أو أكثر، ويجب ألا تتجاوز نسبة الخلايا ذات الترددات المتوقعة الأقل من 5 20%.

ومن جدول الاحتمالات عالي الأبعاد، يمكنك "عزل" الجداول ذات الأبعاد الأصغر وحساب قيمة المعيار ج2 لها. ستكون هذه بشكل فعال مقارنات متعددة مشابهة لتلك الموصوفة في اختبار الطالب. وفي هذه الحالة، من الضروري أيضًا تطبيق تصحيح للمقارنات المتعددة حسب عددها.

لاختبار فرضية باستخدام المعيار ج 2 في جداول بيانات Microsoft Excel، يمكنك استخدام الوظيفة التالية:

HI2TEST (actual_interval؛ المتوقع_interval).

هنا act_interval هو جدول الاحتمالات الأصلي بترددات حقيقية (يتم الإشارة فقط إلى الخلايا ذات الترددات نفسها بدون عناوين و"الإجمالي")؛ المتوقع_الفاصل – مجموعة من الترددات المتوقعة. ولذلك، يجب حساب التكرارات المتوقعة بشكل مستقل.

مثال:

حدث تفشي مرض معد في مدينة معينة. وهناك افتراض بأن مصدر التلوث هو مياه الشرب. وقرروا اختبار هذا الافتراض باستخدام مسح عينة من سكان الحضر، والذي بموجبه كان من الضروري تحديد ما إذا كانت كمية المياه التي يتم شربها تؤثر على عدد الحالات.

وتظهر بيانات المصدر في الجدول التالي:

دعونا نحسب التكرارات المتوقعة. يجب أن تظل النسبة كما هي داخل الجدول. لذلك، دعونا نحسب، على سبيل المثال، ما هي حصة الخطوط في العدد الإجمالي، وسنحصل على معامل لكل سطر. يجب أن تظهر نفس النسبة في كل خلية من الصف المقابل، لذلك لحساب التكرار المتوقع في الخلية، نضرب المعامل في الإجمالي في العمود المقابل.

عدد درجات الحرية هو (3-1)*(2-1)=2. قيمة المعيار الحاسم .

القيمة التجريبية أكبر من القيمة الحرجة (61.5>13.816)، أي. تم رفض الفرضية القائلة بعدم وجود تأثير لكمية الماء المشرب على الإصابة بالمرض مع احتمال خطأ أقل من 0.001. وبالتالي يمكن القول أن الماء هو مصدر المرض.

يحتوي كلا المعيارين الموصوفين على قيود لا يتم الوفاء بها عادةً إذا كان عدد الملاحظات صغيرًا أو كانت التدرجات الفردية للخصائص نادرة. في هذه الحالة استخدم اختبار فيشر الدقيق . ويعتمد على البحث في جميع الخيارات الممكنة لملء جدول الطوارئ لعدد معين من المجموعات. ولذلك، فإن الحساب اليدوي معقد للغاية. ولحسابه، يمكنك استخدام حزم التطبيقات الإحصائية.

يعد اختبار z مشابهًا لاختبار الطالب، ولكنه يستخدم لمقارنة الخصائص النوعية. يتم حساب القيمة التجريبية للمعيار على أنها نسبة الفرق في النسب إلى متوسط ​​الخطأ في الفرق في النسب.

القيم الحرجة للمعيار z تساوي النقاط المقابلة للتوزيع الطبيعي الطبيعي: , , .



يستخدم اختبار مربع كاي لمقارنة أي عدد من المجموعات حسب قيم الخصائص النوعية. ويجب تقديم البيانات المصدرية في شكل جدول طوارئ. يتم حساب القيمة التجريبية للمعيار على أنها مجموع جميع خلايا جدول الاحتمالات لنسبة مربع الفرق بين التكرار الفعلي والتكرار المتوقع إلى التكرار المتوقع. يتم حساب التكرارات المتوقعة على افتراض أن الخصائص التي تتم مقارنتها متساوية في جميع المجموعات. يتم تحديد القيم الحرجة من جداول توزيع مربع كاي.

الأدب.

غلانز س. – الفصل 5.

ريبروفا أو يو. - الفصل 10،11.

لاكين ج.ف. - مع. 120-123

أسئلة للاختبار الذاتي للطلاب.

1. في أي الحالات يمكن استخدام المعيار z؟

2. ما هو أساس حساب القيمة التجريبية للمعيار z؟

3. كيفية العثور على القيمة الحرجة للمعيار z؟

4. في أي الحالات يمكن تطبيق المعيار ج2؟

5. ما هو أساس حساب القيمة التجريبية للمعيار ج2؟

6. كيف تجد القيمة الحرجة للمعيار ج2؟

7. ما الذي يمكن استخدامه أيضًا لمقارنة خصائص الجودة إذا كان لا يمكن تطبيق المعايير z وc 2 بسبب القيود؟

مهام.