تحديد أهمية النتائج فيما بينها. الموثوقية والأهمية الإحصائية

تعد الموثوقية الإحصائية أمرًا ضروريًا في ممارسة الحساب الخاصة بلجنة الاتصالات الفيدرالية (FCC). وقد لوحظ في وقت سابق أنه من نفسه سكانيمكن اختيار عينات متعددة:

إذا تم اختيارهم بشكل صحيح، فإن متوسط ​​مؤشراتهم ومؤشرات عامة السكان يختلفون قليلاً عن بعضهم البعض في حجم الخطأ التمثيلي، مع مراعاة الموثوقية المقبولة؛

إذا تم اختيارهم من مجموعات سكانية مختلفة، فإن الفرق بينهم يتبين أنه كبير. الإحصائيات تدور حول مقارنة العينات؛

إذا كانوا يختلفون بشكل طفيف، وغير مبدئي، وغير مهم، أي أنهم ينتمون فعليًا إلى نفس عامة السكان، فإن الفرق بينهم يسمى غير موثوق إحصائيًا.

موثوقة إحصائيا اختلاف العينة هو عينة تختلف بشكل كبير وجوهري، أي أنها تنتمي إلى مجموعات سكانية عامة مختلفة.

في لجنة الاتصالات الفيدرالية (FCC)، فإن تقييم الأهمية الإحصائية لاختلافات العينات يعني حل مجموعة ما مشاكل عملية. على سبيل المثال، إدخال طرق تدريس جديدة، وبرامج، ومجموعات من التمارين، والاختبارات، تمارين السيطرةيرتبط باختباراتهم التجريبية، والتي يجب أن تظهر أن مجموعة الاختبار تختلف اختلافًا جوهريًا عن المجموعة الضابطة. لذلك خاص أساليب إحصائية، تسمى معايير الأهمية الإحصائية، مما يسمح باكتشاف وجود أو عدم وجود فروق ذات دلالة إحصائية بين العينات.

تنقسم جميع المعايير إلى مجموعتين: حدودي وغير حدودي. تتطلب المعايير البارامترية وجود قانون التوزيع الطبيعي، أي. وهذا يعني التحديد الإلزامي للمؤشرات الرئيسية للقانون العادي - المتوسط القيمة الحسابيةوالانحراف المعياري s. المعايير البارامترية هي الأكثر دقة وصحة. تعتمد الاختبارات اللامعلمية على اختلافات الترتيب (الترتيبية) بين عناصر العينة.

فيما يلي المعايير الرئيسية للأهمية الإحصائية المستخدمة في ممارسة لجنة الاتصالات الفيدرالية: اختبار الطالب واختبار فيشر.

اختبار الطالب رسمي على اسم العالم الإنجليزي ك. جوسيت (طالب - اسم مستعار) الذي اكتشف هذه الطريقة. اختبار الطالب هو بارامتري ويستخدم للمقارنة المؤشرات المطلقةعينات. قد تختلف العينات في الحجم.

اختبار الطالب ر يتم تعريفه مثل هذا.

1. ابحث عن اختبار الطالب باستخدام الصيغة التالية:


أين هي المتوسطات الحسابية للعينات المقارنة؟ t 1, t 2 - تم تحديد أخطاء التمثيل بناءً على مؤشرات العينات المقارنة.

2. أظهرت الممارسة في لجنة الاتصالات الفيدرالية (FCC) أنه بالنسبة للعمل الرياضي يكفي قبول موثوقية الحساب P = 0.95.

لحساب الموثوقية: P = 0.95 (a = 0.05)، مع عدد درجات الحرية

k = n 1 + n 2 - 2 من الجدول الموجود في الملحق 4 نجد قيمة القيمة الحدية للمعيار ( ر غرام).

3. بناء على خصائص قانون التوزيع الطبيعي، يقارن معيار الطالب بين t وt gr.

نستخلص الاستنتاجات:

إذا t t gr، فإن الفرق بين العينات المقارنة يكون ذو دلالة إحصائية؛

إذا t t gr، فإن الفرق غير مهم إحصائيا.

بالنسبة للباحثين في مجال FCS، فإن تقييم الأهمية الإحصائية هو الخطوة الأولى في حل مشكلة محددة: ما إذا كانت العينات المقارنة تختلف بشكل أساسي أو غير أساسي عن بعضها البعض. والخطوة التالية هي تقييم هذا الاختلاف مع نقطة تربويةالرؤية، والتي تحددها ظروف المشكلة.

دعونا نفكر في تطبيق اختبار الطالب باستخدام مثال محدد.

مثال 2.14. تم تقييم مجموعة من 18 شخصًا لمعدل ضربات القلب (نبضة في الدقيقة) قبل الحادي عشر وبعده ذ طتسخين.

تقييم فعالية عملية الاحماء على أساس معدل ضربات القلب. يتم عرض البيانات والحسابات الأولية في الجدول. 2.30 و 2.31.

الجدول 2.30

معالجة مؤشرات معدل ضربات القلب قبل الإحماء


وتزامنت الأخطاء لكلا المجموعتين، حيث أن أحجام العينة متساوية (تتم دراسة نفس المجموعة). ظروف مختلفة)، والمتوسط انحرافات معياريةبلغت s x = s y = 3 نبضة/دقيقة. دعنا ننتقل إلى تحديد معيار الطالب:

قمنا بتعيين موثوقية الحساب: P = 0.95.

عدد درجات الحرية ك 1 = ن 1 + ن 2 - 2 = 18 + 18-2 = 34. ومن الجدول في الملحق 4 نجد ر غرام= 2,02.

الاستدلال الإحصائي. بما أن t = 11.62، والحد t gr = 2.02، إذن 11.62 > 2.02، أي. t > t gr، وبالتالي فإن الفرق بين العينات له دلالة إحصائية.

الاستنتاج التربوي. وقد وجد أنه من حيث معدل ضربات القلب فإن الفرق بين حالة المجموعة قبل وبعد الإحماء له دلالة إحصائية، أي. هامة وأساسية. لذلك، بناء على مؤشر معدل ضربات القلب، يمكننا أن نستنتج أن عملية الاحماء فعالة.

معيار فيشرهو حدودي. يتم استخدامه عند مقارنة معدلات تشتت العينة. وهذا يعني عادة المقارنة من حيث استقرار الأداء الرياضي أو استقرار المؤشرات الوظيفية والفنية في الممارسة العملية الثقافة الجسديةوالرياضة. يمكن أن تكون العينات بأحجام مختلفة.

يتم تعريف معيار فيشر في التسلسل التالي.

1. أوجد معيار فيشر F باستخدام الصيغة


حيث هي تباينات العينات المقارنة.

تنص شروط معيار فيشر على ذلك في بسط الصيغة F هناك تشتت كبير، أي. الرقم F دائمًا أكبر من واحد.

قمنا بتعيين موثوقية الحساب: P = 0.95 - ونحدد عدد درجات الحرية لكلا العينتين: k 1 = n 1 - 1، k 2 = n 2 - 1.

باستخدام الجدول الموجود في الملحق 4، نجد القيمة الحدية للمعيار F غرام.

مقارنة معايير F وF غراميسمح لنا بصياغة الاستنتاجات:

إذا كان F > F gr، فإن الفرق بين العينات يكون ذو دلالة إحصائية؛

إذا ف< F гр, то различие между выборками статически недо­стоверно.

دعونا نعطي مثالا محددا.

مثال 2.15. دعونا نحلل مجموعتين من لاعبي كرة اليد: × ط (ن 1= 16 شخصًا) و y i (ع 2 = 18 شخصًا). تمت دراسة هذه المجموعات من الرياضيين لمعرفة وقت (أوقات) الإقلاع عند رمي الكرة داخل المرمى.

هل مؤشرات التنافر من نفس النوع؟

يتم عرض البيانات الأولية والحسابات الأساسية في الجدول. 2.32 و 2.33.

الجدول 2.32

معالجة مؤشرات التنافر للمجموعة الأولى للاعبي كرة اليد


دعونا نحدد معيار فيشر:





ووفقا للبيانات الواردة في جدول الملحق 6 نجد Fgr: Fgr = 2.4

دعونا ننتبه إلى حقيقة أنه في جدول الملحق 6 يتم إدراج أعداد درجات الحرية لكل من التشتت الأكبر والأصغر عند الاقتراب أعداد كبيرةيصبح أكثر خشونة. وبالتالي، فإن عدد درجات حرية التشتت الأكبر يتبع بالترتيب التالي: 8، 9، 10، 11، 12، 14، 16، 20، 24، وما إلى ذلك، والأصغر - 28، 29، 30، 40 ، 50، إلخ. د.

ويفسر ذلك حقيقة أنه مع زيادة حجم العينة، تقل الاختلافات في اختبار F ومن الممكن استخدام قيم جدولية قريبة من البيانات الأصلية. لذلك، في المثال 2.15 =17 غائبة ويمكننا أن نأخذ القيمة الأقرب إليها k = 16، والتي نحصل منها على Fgr = 2.4.

الاستدلال الإحصائي. وبما أن اختبار فيشر F= 2.5 > F= 2.4، فإن العينات يمكن تمييزها إحصائياً.

الاستنتاج التربوي. تختلف قيم زمن (أوقات) الإقلاع عند رمي الكرة داخل المرمى للاعبي كرة اليد من كلا المجموعتين بشكل كبير. ينبغي اعتبار هذه المجموعات مختلفة.

يجب أن يكشف المزيد من البحث عن سبب هذا الاختلاف.

مثال 2.20.(على الثبات الإحصائي للعينة ). هل تحسنت مؤهلات لاعب كرة القدم إذا كانت المدة (الفترات) من إعطاء الإشارة إلى ركل الكرة في بداية التدريب هي x i وفي نهايته y i .

وترد في الجدول البيانات الأولية والحسابات الأساسية. 2.40 و 2.41.

الجدول 2.40

معالجة المؤشرات الزمنية من إعطاء الإشارة إلى ضرب الكرة في بداية الحصة التدريبية


دعونا نحدد الفرق بين مجموعات المؤشرات باستخدام معيار الطالب:

مع الموثوقية P = 0.95 ودرجات الحرية k = n 1 + n 2 - 2 = 22 + 22 - 2 = 42، باستخدام الجدول الموجود في الملحق 4 نجد ر غرام= 2.02. بما أن ر = 8.3 > ر غرام= 2.02 - الفرق ذو دلالة إحصائية.

دعونا نحدد الفرق بين مجموعات المؤشرات باستخدام معيار فيشر:


وفقًا للجدول الوارد في الملحق 2، مع الموثوقية P = 0.95 ودرجات الحرية k = 22-1 = 21، فإن القيمة F gr = 21. وبما أن F = 1.53< F гр = = 2,1, различие в рассеивании исходных данных статистически недостоверно.

الاستدلال الإحصائي. ووفقا للمتوسط ​​الحسابي، فإن الفرق بين مجموعات المؤشرات له دلالة إحصائية. من حيث التشتت (التشتت)، فإن الفرق بين مجموعات المؤشرات غير موثوق به إحصائيا.

الاستنتاج التربوي.لقد تحسنت مؤهلات لاعب كرة القدم بشكل ملحوظ، ولكن ينبغي الاهتمام باستقرار شهادته.

التحضير للعمل

قبل هذا العمل المختبريبالانضباط " علم القياس الرياضي» لجميع الطلاب مجموعة الدراسةمن الضروري تشكيل فرق عمل مكونة من 3-4 طلاب في كل منها، لإكمال مهمة العمل لجميع الأعمال المختبرية بشكل مشترك.

استعدادا للعمل اقرأ الأقسام ذات الصلة من الأدبيات الموصى بها (انظر القسم 6 من البيانات تعليمات منهجية) وملاحظات المحاضرة. دراسة القسمين 1 و 2 لهذا العمل المختبري وكذلك مهمة العمل الخاصة به (القسم 4).

إعداد نموذج التقريرعلى أوراق قياسية من ورق الكتابة بحجم A4 واملأها بالمواد اللازمة للعمل.

يجب أن يحتوي التقرير على :

صفحة عنوان الكتابمع الإشارة إلى القسم (UC و TR) والمجموعة الدراسية والاسم الأخير والاسم الأول والعائلي للطالب ورقم وعنوان العمل المخبري وتاريخ الانتهاء منه وكذلك الاسم الأخير، درجة أكاديميةوالمسمى الأكاديمي ومنصب المعلم الذي يقبل الوظيفة؛

الهدف من العمل؛

الصيغ مع القيم العدديةوشرح النتائج المتوسطة والنهائية للعمليات الحسابية؛

جداول القيم المقاسة والمحسوبة.

المواد الرسومية التي تتطلبها المهمة؛

استنتاجات موجزةبناءً على نتائج كل مرحلة من مراحل مهمة العمل وبشكل عام على العمل المنجز.

يتم رسم جميع الرسوم البيانية والجداول بعناية باستخدام أدوات الرسم. يجب أن تتوافق الرموز الرسومية والحروفية التقليدية مع معايير GOST. يُسمح بإعداد تقرير باستخدام تكنولوجيا الكمبيوتر.

مهمة العمل

قبل إجراء جميع القياسات، يجب على كل عضو في الفريق دراسة قواعد الاستخدام لعبة رياضيةالسهام الواردة في الملحق 7، وهي ضرورية لتنفيذ المراحل التالية من البحث.

المرحلة الأولى من البحث"دراسة نتائج إصابة هدف لعبة السهام الرياضية من قبل كل عضو في الفريق لتحقيق الالتزام القانون العاديالتوزيعات حسب المعيار χ 2بيرسون و معيار الثلاثةسيجما"

1. قياس (اختبار) سرعتك (الشخصية) وتنسيق الإجراءات، من خلال رمي السهام 30-40 مرة على هدف دائري في لعبة السهام الرياضية.

2. نتائج القياسات (الاختبارات) × ط(بالنظارات) رتبوا على الشكل سلسلة الاختلافوأدخل في الجدول 4.1 (الأعمدة، افعل كل شيء الحسابات اللازمة، املأ الجداول اللازمة واستخلص الاستنتاجات المناسبة فيما يتعلق بمدى امتثال المستلمة التوزيع التجريبيقانون التوزيع الطبيعي، قياسًا على الحسابات والجداول والاستنتاجات المماثلة للمثال 2.12، الواردة في القسم 2 من هذه الإرشادات في الصفحات 7 -10.

الجدول 4.1

مطابقة سرعة وتنسيق تصرفات الأشخاص مع قانون التوزيع الطبيعي

لا. مدور
المجموع

ثانيا – مرحلة البحث

""تقييم متوسطات مؤشرات عموم السكان للضربات على هدف لعبة السهام الرياضية لجميع طلاب مجموعة الدراسة بناء على نتائج قياسات أفراد الفريق الواحد""

تقييم متوسط ​​مؤشرات السرعة وتنسيق الإجراءات لجميع الطلاب في مجموعة الدراسة (حسب قائمة مجموعة الدراسة في مجلة الفصل) بناءً على نتائج إصابة هدف لعبة السهام الرياضية لجميع أعضاء الفريق، التي تم الحصول عليها في المرحلة الأولى من البحث في هذا العمل المختبري.

1. توثيق نتائج قياسات السرعة وتنسيق الإجراءات عند رمي السهام على هدف دائري في اللعبة الرياضية رمي السهام لجميع أعضاء فريقك (2 - 4 أشخاص)، الذين يمثلون عينة من نتائج القياس من عامة السكان (نتائج القياس لجميع الطلاب في مجموعة دراسية - على سبيل المثال، 15 شخصا)، وإدخالهم في العمودين الثاني والثالث الجدول 4.2.

الجدول 4.2

معالجة مؤشرات السرعة وتنسيق الإجراءات

أعضاء اللواء

لا.
المجموع

في الجدول 4.2 أدناه ينبغي أن يكون مفهوما , متوسط ​​الدرجات المتطابقة (انظر نتائج الحساب في الجدول 4.1) أعضاء فريقك ( , تم الحصول عليها في المرحلة الأولى من البحث. تجدر الإشارة إلى أنه، عادة، يحتوي الجدول 4.2 على القيمة المتوسطة المحسوبة لنتائج القياس التي حصل عليها أحد أعضاء الفريق في المرحلة الأولى من البحث ، منذ احتمال أن نتائج القياس مختلف الأعضاءسوف تتزامن الألوية صغيرة جدًا. ثم، كقاعدة عامة، القيم في العمود الجدول 4.2 لكل صف - يساوي 1، أ في السطر "المجموع "الأعمدة" مكتوبة عدد أعضاء فريقك.

2. قم بإجراء جميع الحسابات اللازمة لملء الجدول 4.2، بالإضافة إلى الحسابات والاستنتاجات الأخرى المشابهة لحسابات واستنتاجات المثال 2.13 الواردة في القسم الثاني من هذا التطوير المنهجيفي الصفحات 13-14. وينبغي أن يوضع في الاعتبار عند حساب خطأ التمثيل "م" من الضروري استخدام الصيغة 2.4 الواردة في الصفحة 13 من هذا التطوير المنهجي، حيث أن العينة صغيرة (n، وعدد عناصر عموم السكان N معروف، ويساوي عدد الطلاب في مجموعة الدراسة، وفقا لقائمة مجلة مجموعة الدراسة.

ثالثا – مرحلة البحث

تقييم فعالية الإحماء حسب مؤشر "السرعة وتنسيق الإجراءات" من قبل كل عضو في الفريق باستخدام اختبار الطالب

لتقييم فعالية عملية الاحماء لرمي السهام على هدف اللعبة الرياضية "السهام"، التي يتم إجراؤها في المرحلة الأولى من البحث في هذا العمل المختبري، من قبل كل عضو في الفريق حسب مؤشر "السرعة و تنسيق الإجراءات"، باستخدام معيار الطالب - معيار حدودي للموثوقية الإحصائية لقانون التوزيع التجريبي لقانون التوزيع الطبيعي.

… المجموع

2. الفروق و RMS نتائج قياسات مؤشر "السرعة وتنسيق الإجراءات" بناءً على نتائج عملية الإحماء، الواردة في الجدول 4.3، (انظر الحسابات المشابهة الواردة مباشرة بعد الجدول 2.30 من المثال 2.14 في الصفحة 16 من هذا التطوير المنهجي).

3. كل عضو في فريق العمل قياس (اختبار) سرعتك (الشخصية) وتنسيق الإجراءات بعد الإحماء،

… المجموع

5. إجراء الحسابات المتوسطة الفروق و RMS ,نتائج قياسات مؤشر "السرعة وتنسيق الإجراءات" بعد الإحماء، الواردة في الجدول 4.4، قم بتدوين نتائج القياس الإجمالية بناءً على نتائج عملية الإحماء (انظر الحسابات المشابهة الواردة مباشرة بعد الجدول 2.31 من المثال 2.14 في الصفحة 17 من هذا التطوير المنهجي).

6. قم بإجراء جميع الحسابات والاستنتاجات اللازمة المشابهة لحسابات واستنتاجات المثال 2.14 الواردة في القسم الثاني من هذا التطوير المنهجي في الصفحات 16-17. وينبغي أن يوضع في الاعتبار عند حساب خطأ التمثيل "م" من الضروري استخدام الصيغة 2.1 الواردة في الصفحة 12 من هذا التطوير المنهجي، حيث أن العينة هي n وعدد العناصر في المجتمع N ( غير معروف.

رابعا – مرحلة البحث

تقييم توحيد (استقرار) مؤشرات "سرعة وتنسيق الإجراءات" لاثنين من أعضاء الفريق باستخدام معيار فيشر

قم بتقييم توحيد (استقرار) مؤشرات "السرعة وتنسيق الإجراءات" لاثنين من أعضاء الفريق باستخدام معيار فيشر، بناءً على نتائج القياس التي تم الحصول عليها في المرحلة الثالثة من البحث في هذا العمل المختبري.

للقيام بذلك عليك القيام بما يلي.

باستخدام بيانات الجدولين 4.3 و4.4، تم الحصول على نتائج حساب التباينات من هذه الجداول في المرحلة الثالثة من البحث، وكذلك طريقة حساب وتطبيق معيار فيشر لتقييم التجانس (الثبات) الأداء الرياضيالواردة في المثال 2.15 في الصفحات 18-19 من هذا التطوير المنهجي، استخلاص الاستنتاجات الإحصائية والتربوية المناسبة.

الخامس – مرحلة البحث

تقييم مجموعات المؤشرات "سرعة وتنسيق الإجراءات" لأحد أعضاء الفريق قبل وبعد الإحماء

في جداول نتائج الحسابات الإحصائية في الدورات الدراسية ورسائل الدبلوم والماجستير في علم النفس، يوجد دائمًا المؤشر "p".

على سبيل المثال، وفقا ل أهداف البحثتم حساب الفروق في مستوى المعنى في الحياة بين الفتيان والفتيات في سن المراهقة.

متوسط ​​القيمة

اختبار مان ويتني يو

مستوى الأهمية الإحصائية (ع)

الأولاد (20 شخصًا)

فتيات

(5 أشخاص)

الأهداف

28,9

35,2

17,5

0,027*

عملية

30,1

32,0

38,5

0,435

نتيجة

25,2

29,0

29,5

0,164

موضع التحكم - "أنا"

20,3

23,6

0,067

مركز التحكم - "الحياة"

30,4

33,8

27,5

0,126

حياة هادفة

98,9

111,2

0,103

* - فروق ذات دلالة إحصائية (ص0,05)

يُظهر العمود الأيمن قيمة "p" ومن خلال قيمته يمكن تحديد ما إذا كانت الاختلافات في معنى الحياة في المستقبل بين الأولاد والبنات كبيرة أم لا. القاعدة بسيطة:

  • إذا كان مستوى الدلالة الإحصائية "p" أقل من أو يساوي 0.05، فإننا نستنتج أن الاختلافات ذات دلالة إحصائية. في الجدول أدناه، تعتبر الاختلافات بين الأولاد والبنات كبيرة فيما يتعلق بمؤشر "الأهداف" - معنى الحياة في المستقبل. وبالنسبة للفتيات، فإن هذا الرقم أعلى بكثير من الناحية الإحصائية عنه لدى الأولاد.
  • إذا كان مستوى الدلالة الإحصائية "p" أكبر من 0.05، فإنه يستنتج أن الاختلافات ليست كبيرة. في الجدول أدناه، فإن الاختلافات بين الأولاد والبنات ليست ذات أهمية بالنسبة لجميع المؤشرات الأخرى، باستثناء المؤشر الأول.

من أين يأتي مستوى الأهمية الإحصائية "p"؟

يتم حساب مستوى الأهمية الإحصائية برنامج إحصائيجنبا إلى جنب مع الحساب المعيار الإحصائي. في هذه البرامج، يمكنك أيضًا تعيين حد حرج لمستوى الأهمية الإحصائية وسيتم تسليط الضوء على المؤشرات المقابلة بواسطة البرنامج.

على سبيل المثال، في برنامج STATISTICA، عند حساب الارتباطات، يمكنك تعيين الحد "p"، على سبيل المثال، 0.05، وسيتم تمييز جميع العلاقات ذات الأهمية الإحصائية باللون الأحمر.

إذا تم حساب المعيار الإحصائي يدويًا، فسيتم تحديد مستوى الأهمية "p" من خلال مقارنة قيمة المعيار الناتج مع القيمة الحرجة.

ماذا يظهر مستوى الدلالة الإحصائية "p"؟

جميع الحسابات الإحصائية تقريبية. يحدد مستوى هذا التقريب "p". يتم كتابة مستوى الأهمية كما الكسور العشريةعلى سبيل المثال 0.023 أو 0.965. إذا ضربنا هذا الرقم بـ 100، نحصل على المؤشر p كنسبة مئوية: 2.3% و96.5%. تعكس هذه النسب احتمالية كون افتراضاتنا حول العلاقة بين العدوان والقلق، على سبيل المثال، خاطئة.

إنه، معامل الارتباطتم الحصول على 0.58 بين العدوان والقلق عند مستوى دلالة إحصائية قدره 0.05 أو احتمال خطأ قدره 5٪. ماذا يعني حقا هذا؟

الارتباط الذي حددناه يعني أنه لوحظ في عينتنا النمط التالي: كلما زادت العدوانية، زاد القلق. أي أنه إذا أخذنا مراهقين، وكان أحدهما يعاني من قلق أعلى من الآخر، فعند معرفة الارتباط الإيجابي، يمكننا القول أن هذا المراهق سيكون لديه أيضًا عدوانية أعلى. ولكن بما أن كل شيء في الإحصائيات تقريبي، فمن خلال ذكر ذلك، فإننا نعترف بأننا قد نكون مخطئين، واحتمال الخطأ هو 5٪. وهذا يعني أنه من خلال إجراء 20 مقارنة من هذا القبيل في هذه المجموعة من المراهقين، يمكننا أن نرتكب خطأ واحدا في التنبؤ بمستوى العدوانية، ومعرفة القلق.

أي مستوى من الأهمية الإحصائية أفضل: 0.01 أو 0.05

يعكس مستوى الأهمية الإحصائية احتمالية الخطأ. ولذلك، فإن النتيجة عند p=0.01 أكثر دقة منها عند p=0.05.

في البحوث النفسيةقبلت اثنين المستويات المسموح بهاالأهمية الإحصائية للنتائج:

ع = 0.01 - موثوقية عالية للنتيجة تحليل مقارنأو تحليل العلاقات؛

ع = 0.05 - دقة كافية.

آمل أن تساعدك هذه المقالة في كتابة ورقة بحثية في علم النفس بنفسك. إذا كنت بحاجة إلى مساعدة، يرجى الاتصال بنا (جميع أنواع العمل في علم النفس؛ الحسابات الإحصائية).

قبل جمع البيانات ودراستها، يقرر علماء النفس التجريبي عادةً كيفية تحليل البيانات إحصائيًا. في كثير من الأحيان يحدد الباحث مستوى الأهمية المحدد على أنه القيمة الإحصائية، أعلى ( أو أقل) الذي يحتوي على قيم تسمح لنا بدراسة تأثير العوامل بشكل غير عشوائي. عادة ما يمثل الباحثون هذا المستوى في شكل تعبير احتمالي.

في كثير التجارب النفسيةيمكن التعبير عنها كـ " المستوى 0.05" أو " المستوى 0.01" وهذا يعني أن النتائج العشوائية لن تحدث إلا مع التردد 0.05 (1 مرات)أو 0.01 (1 في 100 مرة). نتائج تحليل احصائيالبيانات التي تلبي معيارًا محددًا مسبقًا ( سواء كان 0.05 أو 0.01 أو حتى 0.001)، يشار إليها أدناه على أنها ذات دلالة إحصائية.

تجدر الإشارة إلى أن النتيجة قد لا تكون ذات دلالة إحصائية، ولكنها لا تزال ذات أهمية. في كثير من الأحيان، خاصة في الدراسات أو التجارب الأولية التي تشمل عددًا صغيرًا من الأشخاص أو مع عدد محدود من الملاحظات، قد لا تصل النتائج إلى مستوى الدلالة الإحصائية، ولكنها تشير إلى أن مزيد من البحوثمع تحكم أكثر دقة و أكثرالملاحظات سوف تكتسب قدرا أكبر من الموثوقية. وفي الوقت نفسه، يجب على المجرب أن يكون حذرًا للغاية في رغبته في تغيير ظروف التجربة بشكل هادف من أجل تحقيقها نتيجة مرغوبةبأي ثمن.

في مثال آخر لخطة 2x2 جي استخدم نوعين من المواضيع ونوعين من المهام لدراسة تأثير المعرفة المتخصصة على حفظ المعلومات.

في دراسته جي درس حفظ الارقام وقطع الشطرنج ( المتغير أ) الأطفال في الكراسي ريكارو يونغ سبورتوالكبار( المتغير ب)، أي وفقًا لخطة 2x2. كان عمر الأطفال 10 سنوات ويجيدون لعبة الشطرنج، بينما كان الكبار حديثي العهد باللعبة. في المهمة الأولى، كان عليك أن تتذكر موقع القطع على اللوحة، كما قد يكون أثناء لعبة عادية، واستعادتها بعد إزالة القطع. جزء آخر من هذه المهمة يتطلب حفظ سلسلة قياسية من الأرقام، كما يحدث عادة في تحديد معدل الذكاء.

يتحول، معرفة تخصصية، مثل تعلم لعب الشطرنج، تجعل من السهل تذكر المعلومات المتعلقة بهذا المجال، ولكن لها تأثير ضئيل على تذكر الأرقام. الكبار الذين ليس لديهم خبرة كبيرة في الحكمة أقدم لعبة، يتذكرون عددًا أقل من الأرقام، لكنهم أكثر نجاحًا في حفظ الأرقام.

في نص التقرير جي يوفر التحليل الإحصائي الذي يتحقق رياضيا من صحة النتائج المقدمة.

يعد التصميم 2x2 هو أبسط تصميمات العوامل. زيادة عدد العوامل أو مستويات العوامل الفردية يزيد بشكل كبير من تعقيد هذه الخطط.

ميزة مدفوعة.ميزة الأهمية الإحصائية متاحة فقط في خطط محددة. تحقق مما إذا كان في .

يمكنك معرفة ما إذا كانت هناك فروق ذات دلالة إحصائية في الإجابات الواردة من مجموعات مختلفةالمستجيبين لأسئلة الاستطلاع. لاستخدام ميزة الدلالة الإحصائية في SurveyMonkey، يجب عليك:

  • قم بتمكين ميزة الدلالة الإحصائية عند إضافة قاعدة مقارنة لسؤال في الاستطلاع الخاص بك. حدد مجموعات من المجيبين للمقارنة لفرز نتائج الاستطلاع إلى مجموعات للمقارنة البصرية.
  • افحص الجداول التي تحتوي على بيانات عن أسئلة المسح الخاص بك للتعرف على مدى وجود إحصائية فروق ذات دلالة إحصائيةفي الردود الواردة من مجموعات مختلفةالمستجيبين.

عرض الأهمية الإحصائية

باتباع الخطوات أدناه، يمكنك إنشاء استطلاع يتم عرضه دلالة إحصائية.

1. قم بإضافة أسئلة مغلقة إلى الاستبيان الخاص بك

من أجل عرض الأهمية الإحصائية عند تحليل النتائج، ستحتاج إلى تطبيق قاعدة المقارنة على أي سؤال في الاستطلاع الخاص بك.

يمكنك تطبيق قاعدة المقارنة وحساب الأهمية الإحصائية في الردود إذا كنت تستخدم أحد الإجراءات التالية في تصميم الاستطلاع الخاص بك: الأنواع التاليةأسئلة:

من الضروري التأكد من إمكانية تقسيم خيارات الإجابة المقترحة إلى مجموعات كاملة. سيتم استخدام خيارات الاستجابة التي تحددها للمقارنة عندما تقوم بإنشاء قاعدة مقارنة لتنظيم البيانات في الجداول الترافقية خلال الاستطلاع.

2. اجمع الإجابات

بمجرد الانتهاء من الاستبيان الخاص بك، قم بإنشاء أداة تجميع لإرساله. هناك عدة طرق.

يجب أن تتلقى 30 ردًا على الأقل لكل خيار استجابة تخطط لاستخدامه في قاعدة المقارنة الخاصة بك لتنشيط وعرض الأهمية الإحصائية.

مثال المسح

تريد معرفة ما إذا كان الرجال راضون بشكل ملحوظ عن منتجاتك أكثر من النساء.

  1. أضف سؤالين متعددي الاختيارات إلى الاستبيان الخاص بك:
    ما هو جنسك؟ (الذكور الإناث)
    هل أنت راضٍ أم غير راضٍ عن منتجنا؟ (راضي، غير راض)
  2. تأكد من أن 30 مشاركًا على الأقل يختارون "ذكر" لسؤال الجنس وأن 30 مشاركًا على الأقل يختارون "أنثى" كجنسهم.
  3. أضف قاعدة مقارنة إلى السؤال "ما هو جنسك؟" وحدد كلا خياري الإجابة كمجموعاتك.
  4. استخدم جدول البيانات الموجود أسفل مخطط الأسئلة "هل أنت راضٍ أم غير راضٍ عن منتجنا؟" لمعرفة ما إذا كانت أي خيارات استجابة تظهر فرقًا ذا دلالة إحصائية

ما هو الفرق ذو دلالة إحصائية؟

ويعني الفرق ذو دلالة إحصائية أن التحليل الإحصائي قد حدد وجود فروق ذات دلالة إحصائية بين استجابات مجموعة واحدة من المستجيبين واستجابات مجموعة أخرى. تعني الأهمية الإحصائية أن الأرقام التي تم الحصول عليها مختلفة بشكل كبير. هذه المعرفة سوف تساعدك كثيرا في تحليل البيانات. ومع ذلك، عليك تحديد أهمية النتائج التي تم الحصول عليها. أنت من يقرر كيفية تفسير نتائج الاستطلاع وما هي الإجراءات التي ينبغي اتخاذها بناءً عليها.

على سبيل المثال، تتلقى شكاوى من العملاء الإناث أكثر من العملاء الذكور. كيف يمكننا تحديد ما إذا كان هذا الاختلاف حقيقيًا وما إذا كان يجب اتخاذ إجراء بشأنه؟ واحد من طرق رائعةللتحقق من ملاحظاتك، عليك إجراء استطلاع يوضح لك ما إذا كان المشترون الذكور أكثر رضاً عن منتجك أم لا. باستخدام الصيغة الإحصائيةستمنحك وظيفة الأهمية الإحصائية التي نقدمها القدرة على تحديد ما إذا كان منتجك يجذب الرجال بالفعل أكثر من النساء. سيسمح لك ذلك باتخاذ الإجراءات بناءً على الحقائق بدلاً من التخمين.

فرق كبير إحصائيا

إذا تم تمييز نتائجك في جدول البيانات، فهذا يعني أن مجموعتي المستجيبين تختلفان بشكل كبير عن بعضهما البعض. ولا يعني مصطلح "مهم" أن الأرقام الناتجة لها أي أهمية أو أهمية خاصة، بل يعني فقط وجود فرق إحصائي بينها.

لا يوجد فرق ذو دلالة إحصائية

إذا لم يتم تمييز نتائجك في جدول البيانات المقابل، فهذا يعني أنه على الرغم من ذلك الفرق المحتملوفي الشكلين محل المقارنة، لا يوجد فرق إحصائي بينهما.

توضح الإجابات التي لا تحتوي على فروق ذات دلالة إحصائية أنه لا يوجد فرق كبير بين العنصرين اللذين تتم مقارنتهما بالنظر إلى حجم العينة التي تستخدمها، ولكن هذا لا يعني بالضرورة أنها ليست ذات دلالة إحصائية. ربما من خلال زيادة حجم العينة، ستتمكن من تحديد فرق ذي دلالة إحصائية.

حجم العينة

إذا كان حجم العينة لديك صغيرًا جدًا، فلن تكون هناك سوى اختلافات كبيرة جدًا بين المجموعتين. إذا كان لديك حجم عينة كبير جدًا، فسيتم اعتبار الاختلافات الصغيرة والكبيرة بمثابة اختلافات كبيرة.

ومع ذلك، فإن مجرد وجود رقمين مختلفين إحصائيًا لا يعني أن الفرق بين النتائج يحدث أي فرق بالنسبة لك. أهمية عملية. سيتعين عليك أن تقرر بنفسك ما هي الاختلافات ذات المغزى بالنسبة للاستطلاع الخاص بك.

حساب الدلالة الإحصائية

نقوم بحساب الأهمية الإحصائية باستخدام مستوى ثقة قياسي يبلغ 95%. إذا تم عرض خيار الإجابة على أنه ذو دلالة إحصائية، فهذا يعني أنه عن طريق الصدفة وحدها أو بسبب خطأ في أخذ العينات، هناك احتمال أقل من 5٪ لحدوث الفرق بين المجموعتين (يظهر غالبًا على النحو التالي: p<0,05).

لحساب فروق ذات دلالة إحصائية بين المجموعات، نستخدم الصيغ التالية:

معامل

وصف

a1نسبة المشاركين من المجموعة الأولى الذين أجابوا على السؤال بطريقة معينة مضروبة في حجم عينة هذه المجموعة.
ب1نسبة المشاركين من المجموعة الثانية الذين أجابوا على السؤال بطريقة معينة مضروبة في حجم عينة هذه المجموعة.
نسبة العينة المجمعة (ع)الجمع بين حصتين من المجموعتين.
الخطأ القياسي (SE)مؤشر يوضح مدى اختلاف حصتك عن الحصة الفعلية. القيمة الأقل تعني أن الكسر قريب من الكسر الفعلي، والقيمة الأعلى تعني أن الكسر يختلف بشكل كبير عن الكسر الفعلي.
إحصائية الاختبار (ر)اختبار الإحصائية. عدد الانحرافات المعيارية التي تختلف بها قيمة معينة عن المتوسط.
دلالة إحصائيةإذا كانت القيمة المطلقة لإحصائية الاختبار أكبر من 1.96* انحرافات معيارية عن المتوسط، فإنها تعتبر فرقًا ذا دلالة إحصائية.

*1.96 هي القيمة المستخدمة لمستوى الثقة 95% لأن 95% من النطاق الذي تعالجه دالة التوزيع t الخاصة بالطالب يقع ضمن 1.96 انحراف معياري عن المتوسط.

مثال للحساب

بالاستمرار في المثال المستخدم أعلاه، دعنا نكتشف ما إذا كانت نسبة الرجال الذين يقولون إنهم راضون عن منتجك أعلى بكثير من نسبة النساء.

لنفترض أن 1000 رجل و1000 امرأة شاركوا في الاستطلاع الذي أجريته، وكانت نتيجة الاستطلاع أن 70% من الرجال و65% من النساء يقولون إنهم راضون عن منتجك. هل مستوى 70% أعلى بكثير من مستوى 65%؟

استبدل البيانات التالية من الاستطلاع في الصيغ المعطاة:

  • P1 (% من الرجال الراضين عن المنتج) = 0.7
  • P2 (% من النساء الراضيات عن المنتج) = 0.65
  • n1 (عدد الرجال الذين شملهم الاستطلاع) = 1000
  • n2 (عدد النساء اللاتي تمت مقابلتهن) = 1000

وبما أن القيمة المطلقة لإحصائية الاختبار أكبر من 1.96، فهذا يعني أن الفرق بين الرجال والنساء كبير. بالمقارنة مع النساء، من المرجح أن يكون الرجال راضين عن منتجك.

إخفاء الأهمية الإحصائية

كيفية إخفاء الأهمية الإحصائية لجميع الأسئلة

  1. انقر فوق السهم لأسفل الموجود على يمين قاعدة المقارنة في الشريط الجانبي الأيسر.
  2. حدد عنصر تحرير القاعدة.
  3. قم بتعطيل الميزة إظهار الأهمية الإحصائيةباستخدام التبديل.
  4. انقر فوق الزر يتقدم.

لإخفاء الأهمية الإحصائية لسؤال واحد، عليك القيام بما يلي:

  1. انقر فوق الزر نغمفوق الرسم البياني لهذه المسألة.
  2. افتح علامة التبويب خيارات العرض.
  3. قم بإلغاء تحديد المربع المجاور لـ دلالة إحصائية.
  4. انقر فوق الزر يحفظ.

يتم تمكين خيار العرض تلقائيًا عند تمكين عرض الأهمية الإحصائية. إذا قمت بإلغاء تحديد خيار العرض هذا، فسيتم أيضًا تعطيل عرض الأهمية الإحصائية.

قم بتشغيل ميزة الدلالة الإحصائية عند إضافة قاعدة مقارنة لسؤال في الاستطلاع الخاص بك. قم بفحص جداول البيانات الخاصة بأسئلة الاستطلاع الخاص بك لتحديد ما إذا كانت هناك فروق ذات دلالة إحصائية في الإجابات الواردة من مجموعات مختلفة من المجيبين.

مستوى الأهمية - هذا هو الاحتمال الذي اعتبرنا أن الاختلافات كبيرة، لكنها في الواقع عشوائية.

عندما نشير إلى أن الفروق دالة عند مستوى دلالة 5%، أو متى ر< 0,05 ، فإننا نعني أن احتمال عدم موثوقيتها هو 0.05.

عندما نشير إلى أن الفروق دالة عند مستوى دلالة 1%، أو متى ر< 0,01 ، فإننا نعني أن احتمال عدم موثوقيتها هو 0.01.

إذا ترجمنا كل هذا إلى لغة أكثر رسمية، فإن مستوى الأهمية هو احتمال رفض الفرضية الصفرية، في حين أنها صحيحة.

خطأ،تتكون منالواحدما كنامرفوضفرضية العدمفي حين أنه صحيح، فإنه يسمى خطأ من النوع 1.(انظر الجدول 1)

طاولة 1. الفرضيات الصفرية والبديلة وشروط الاختبار الممكنة.

يُشار عادةً إلى احتمال حدوث مثل هذا الخطأ على أنه α. في الجوهر، يجب أن نشير بين قوسين وليس ص < 0.05 أو ص < 0.01، و α < 0.05 أو ألفا < 0,01.

إذا كان احتمال الخطأ α ، ثم احتمال القرار الصحيح: 1-α. كلما كان α أصغر، زاد احتمال اتخاذ القرار الصحيح.

تاريخيًا، من المقبول عمومًا في علم النفس أن أدنى مستوى للأهمية الإحصائية هو مستوى 5% (p<0.05): يكفي مستوى 1% (p<0.01) والأعلى هو مستوى 0.1% (p<0.001). لذلك، تحتوي جداول القيم الحرجة عادةً على قيم المعايير المقابلة لمستويات الأهمية الإحصائية p<0.05 وp<0.01، وأحيانًا - p<0.001. بالنسبة لبعض المعايير، تشير الجداول إلى مستوى الأهمية الدقيق لقيمها التجريبية المختلفة. على سبيل المثال، بالنسبة إلى φ*=1.56 p=O.06.

ومع ذلك، حتى يصل مستوى الدلالة الإحصائية إلى p = 0.05، لا يزال ليس لدينا الحق في رفض فرضية العدم. وسوف نلتزم بالقاعدة التالية لرفض فرضية عدم وجود فروق (Ho) وقبول فرضية الأهمية الإحصائية للفروق (H1).

قاعدة رفض Ho وقبول h1

إذا كانت القيمة التجريبية للاختبار تساوي أو أكبر من القيمة الحرجة المقابلة لـ p<0.05، فسيتم رفض H 0، ولكن لا يمكننا قبول H 1 بشكل مؤكد.

إذا كانت القيمة التجريبية للمعيار مساوية للقيمة الحرجة المقابلة لـ p≥0.01 أو تتجاوزها، فسيتم رفض H 0 ويتم قبول H 1.

الاستثناءات : اختبار علامة G واختبار ويلكوكسون T واختبار مان ويتني U. يتم إنشاء علاقات عكسية بالنسبة لهم.

أرز. 4. مثال على "محور الأهمية" لمعيار روزنباوم Q.

تم تحديد القيم الحرجة للمعيار على أنها Q o و o5 و Q 0.01، والقيمة التجريبية للمعيار هي Q em. وهي محاطة بقطع ناقص.

على يمين القيمة الحرجة Q 0.01 تمتد "منطقة الأهمية" - وهذا يشمل القيم التجريبية التي تتجاوز Q 0.01 وبالتالي فهي مهمة بالتأكيد.

على يسار القيمة الحرجة Q 0.05، تمتد "منطقة الأهمية" - وهذا يشمل قيم Q التجريبية التي تقل عن Q 0.05، وبالتالي فهي غير ذات أهمية بالتأكيد.

نحن نرى ذلك س 0,05 =6; س 0,01 =9; س م. =8;

تقع القيمة التجريبية للمعيار في المنطقة بين Q 0.05 و Q 0.01. هذه منطقة "عدم اليقين": يمكننا بالفعل رفض الفرضية حول عدم موثوقية الاختلافات (H 0)، لكننا لا نستطيع بعد قبول الفرضية حول موثوقيتها (H 1).

ومع ذلك، من الناحية العملية، يمكن للباحث اعتبار تلك الاختلافات التي لا تقع في منطقة الأهمية موثوقة، معلنًا أنها يمكن الاعتماد عليها عند البحث. < 0.05، أو من خلال الإشارة إلى المستوى الدقيق لأهمية قيمة المعيار التجريبي التي تم الحصول عليها، على سبيل المثال: p=0.02. باستخدام الجداول القياسية الموجودة في جميع الكتب المدرسية حول الأساليب الرياضية، يمكن القيام بذلك فيما يتعلق بمعايير كروسكال-واليس H، χ 2 ص فريدمان، بايجز إل، فيشر φ* .

يتم تحديد مستوى الأهمية الإحصائية، أو قيم الاختبار الحرجة، بشكل مختلف عند اختبار الفرضيات الإحصائية الاتجاهية وغير الاتجاهية.

مع الفرضية الإحصائية الاتجاهية، يتم استخدام اختبار ذو طرف واحد، مع فرضية غير اتجاهية، يتم استخدام اختبار ذو طرفين. يعد الاختبار ثنائي الذيل أكثر صرامة لأنه يختبر الاختلافات في كلا الاتجاهين، وبالتالي القيمة التجريبية للاختبار التي كانت تتوافق سابقًا مع مستوى الأهمية p < 0.05، يتوافق الآن فقط مع المستوى p < 0,10.

لن نضطر إلى أن نقرر بأنفسنا في كل مرة ما إذا كان سيستخدم معيارًا أحادي الجانب أم ثنائيًا. يتم اختيار جداول القيم الحرجة للمعايير بحيث تتوافق الفرضيات الاتجاهية مع معيار أحادي الجانب، والفرضيات غير الاتجاهية تتوافق مع معيار ثنائي الجانب، والقيم المعطاة تلبي المتطلبات التي تنطبق على كل واحد منهم. ويحتاج الباحث فقط إلى التأكد من تطابق فرضياته في المعنى والشكل مع الفرضيات المقترحة في وصف كل معيار من المعايير.