ما هي سلسلة البيانات الفاصلة؟ بناء سلسلة التباين الفاصل للبيانات الكمية المستمرة

إحصائيات الرياضيات- فرع من الرياضيات مخصص للأساليب الرياضية لمعالجة وتنظيم واستخدام البيانات الإحصائية للاستنتاجات العلمية والعملية.

3.1. المفاهيم الأساسية للإحصاء الرياضي

في المشاكل الطبية والبيولوجية، غالبا ما يكون من الضروري دراسة توزيع خاصية معينة لعدد كبير جدا من الأفراد. هذه السمة لها معاني مختلفة لمختلف الأفراد، لذلك فهي متغير عشوائي. على سبيل المثال، أي دواء علاجي له فعالية مختلفة عند تطبيقه على مرضى مختلفين. ومع ذلك، من أجل الحصول على فكرة عن فعالية هذا الدواء، ليست هناك حاجة لتطبيقه الجميعمريض. من الممكن تتبع نتائج استخدام الدواء لمجموعة صغيرة نسبيًا من المرضى، واستنادًا إلى البيانات التي تم الحصول عليها، تحديد السمات الأساسية (الفعالية، وموانع الاستعمال) لعملية العلاج.

سكان- مجموعة من العناصر المتجانسة تتميز ببعض الصفات المراد دراستها. هذه العلامة مستمرمتغير عشوائي مع كثافة التوزيع و (خ).

على سبيل المثال، إذا كنا مهتمين بانتشار مرض ما في منطقة معينة، فإن إجمالي عدد السكان هو إجمالي سكان المنطقة. إذا أردنا معرفة مدى قابلية الرجال والنساء للإصابة بهذا المرض بشكل منفصل، فيجب علينا أن نأخذ في الاعتبار مجموعتين سكانيتين عامتين.

لدراسة خصائص عامة السكان، يتم اختيار جزء معين من عناصره.

عينة- جزء من عامة السكان المختارين للفحص (العلاج).

إذا لم يسبب هذا أي ارتباك، فسيتم استدعاء العينة باسم مجموعة من الكائنات،المختارة للمسح، و مجمل

قيمالخاصية المدروسة التي تم الحصول عليها أثناء الفحص. يمكن تمثيل هذه القيم بعدة طرق.

سلسلة إحصائية بسيطة -قيم الخاصية محل الدراسة، مسجلة بالترتيب الذي تم الحصول عليها به.

ويرد في الجدول مثال لسلسلة إحصائية بسيطة تم الحصول عليها عن طريق قياس سرعة الموجة السطحية (م/ث) في جلد الجبهة لدى 20 مريضًا. 3.1.

الجدول 3.1.سلسلة إحصائية بسيطة

تعتبر السلسلة الإحصائية البسيطة هي الطريقة الرئيسية والأكثر اكتمالا لتسجيل نتائج الاستطلاع. يمكن أن تحتوي على مئات العناصر. من الصعب جدًا إلقاء نظرة على مثل هذا المجمل بنظرة واحدة. ولذلك، عادة ما يتم تقسيم العينات الكبيرة إلى مجموعات. وللقيام بذلك يتم تقسيم مساحة التغير في الخاصية إلى عدة (N) فتراتعرض متساوٍ وحساب التكرارات النسبية (n/n) للسمة التي تقع ضمن هذه الفواصل الزمنية. عرض كل فاصل هو:

الحدود الفاصلة لها المعاني التالية:

إذا كان أي عنصر عينة هو الحد بين فترتين متجاورتين، فسيتم تصنيفه على أنه غادرفاصلة. تسمى البيانات المجمعة بهذه الطريقة سلسلة إحصائية الفاصلة.

هو جدول يوضح فترات قيم السمات والتكرارات النسبية لحدوث السمة خلال هذه الفواصل الزمنية.

في حالتنا، يمكننا تكوين، على سبيل المثال، السلسلة الإحصائية الفاصلة التالية (N = 5، د= 4)، الجدول. 3.2.

الجدول 3.2.السلسلة الإحصائية الفاصلة

وهنا تتضمن الفترة 28-32 قيمتين تساوي 28 (الجدول 3.1)، وتتضمن الفترة 32-36 القيم 32 و33 و34 و35.

يمكن تصوير سلسلة إحصائية فاصلة بيانيا. للقيام بذلك، يتم رسم فترات من قيم السمات على طول محور الإحداثي السيني وعلى كل منها، كما هو الحال على القاعدة، يتم بناء مستطيل بارتفاع يساوي التردد النسبي. يسمى الرسم البياني الشريطي الناتج الرسم البياني.

أرز. 3.1.شريط الرسم البياني

في الرسم البياني، تظهر الأنماط الإحصائية لتوزيع الخاصية بوضوح تام.

مع حجم عينة كبير (عدة آلاف) وعرض أعمدة صغير، يكون شكل الرسم البياني قريبًا من شكل الرسم البياني كثافة التوزيعلافتة.

يمكن تحديد عدد أعمدة الرسم البياني باستخدام الصيغة التالية:

يعد إنشاء الرسم البياني يدويًا عملية طويلة. ولذلك، تم تطوير برامج الكمبيوتر لبنائها تلقائيا.

3.2. الخصائص الرقمية للسلاسل الإحصائية

تستخدم العديد من الإجراءات الإحصائية تقديرات العينات لتوقعات السكان وتباينهم (أو MSE).

متوسط ​​العينة(X) هو الوسط الحسابي لجميع عناصر السلسلة الإحصائية البسيطة:

على سبيل المثال لدينا X= 37.05 (م/ث).

متوسط ​​العينة هوالأفضلتقدير المتوسط ​​العامم.

تباين العينة 2يساوي مجموع مربعات انحرافات العناصر عن متوسط ​​العينة مقسومًا على ن- 1:

في مثالنا، s 2 = 25.2 (م/ث) 2.

يرجى ملاحظة أنه عند حساب تباين العينة، فإن مقام الصيغة ليس حجم العينة n، بل n-1. ويرجع ذلك إلى أنه عند حساب الانحرافات في الصيغة (3.3)، بدلاً من التوقع الرياضي المجهول، يتم استخدام تقديرها - متوسط ​​العينة.

تباين العينة هو الأفضلتقدير التباين العام (σ 2).

الانحراف المعياري للعينة(ق) هو الجذر التربيعي لتباين العينة:

على سبيل المثال لدينا س= 5.02 (م/ث).

انتقائي معدل الجذر التربيعيالانحراف هو أفضل تقدير للانحراف المعياري العام (σ).

مع زيادة غير محدودة في حجم العينة، تميل جميع خصائص العينة إلى الخصائص المقابلة لعامة السكان.

تُستخدم صيغ الكمبيوتر لحساب خصائص العينة. في Excel، تؤدي هذه الحسابات الدالات الإحصائية AVERAGE وVARIANCE. الانحراف المعياري

3.3. التقييم الفاصل

جميع خصائص العينة المتغيرات العشوائية.وهذا يعني أنه بالنسبة لعينة أخرى من نفس الحجم، فإن قيم خصائص العينة ستكون مختلفة. وبالتالي انتقائية

الخصائص هي فقط التقديراتالخصائص ذات الصلة للسكان.

يتم تعويض عيوب التقييم الانتقائي من خلال تقدير الفاصل الزمني،يمثل الفاصل الرقميداخلها مع احتمال معين بحث وتطويرتم العثور على القيمة الحقيقية للمعلمة المقدرة.

يترك U r - بعض معلمات المجتمع العام (المتوسط ​​العام، التباين العام، وما إلى ذلك).

تقدير الفاصل الزمنيالمعلمة U r تسمى الفاصل الزمني (ش 1، ش 2)،استيفاء الشرط:

ف (ش < Ur < U2) = Рд. (3.5)

احتمالا بحث وتطويرمُسَمًّى احتمال الثقة.

احتمال الثقة Pد - احتمال أن تكون القيمة الحقيقية للكمية المقدرة داخلالفاصل الزمني المحدد.

في هذه الحالة، الفاصل الزمني (ش 1، ش 2)مُسَمًّى فاصل الثقةللمعلمة التي يتم تقديرها.

في كثير من الأحيان، بدلا من احتمال الثقة، يتم استخدام القيمة المرتبطة α = 1 - Р d، وهو ما يسمى مستوى الدلالة او الاهميه.

مستوى الأهميةهو احتمال أن تكون القيمة الحقيقية للمعلمة المقدرة الخارجفاصل الثقة.

في بعض الأحيان يتم التعبير عن α وP d كنسب مئوية، على سبيل المثال، 5% بدلاً من 0.05 و95% بدلاً من 0.95.

في تقدير الفاصل الزمني، حدد أولاً ما هو مناسب احتمال الثقة(عادةً 0.95 أو 0.99)، ثم ابحث عن نطاق القيم المناسب للمعلمة التي يتم تقديرها.

دعونا نلاحظ بعض الخصائص العامة لتقديرات الفاصل الزمني.

1. كلما انخفض مستوى الأهمية (كلما زادت بحث وتطوير)،كلما كان تقدير الفاصل الزمني أوسع. لذلك، إذا كان مستوى دلالة 0.05 فإن التقدير الفاصل للمتوسط ​​العام هو 34.7< م< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < م< 40,25.

2. كلما كان حجم العينة أكبر ن،كلما كان تقدير الفاصل الزمني أضيق مع مستوى الأهمية المحدد. لنفترض مثلا أن 5 هي النسبة المئوية المقدرة للمتوسط ​​العام (β = 0.05) الذي تم الحصول عليه من عينة مكونة من 20 عنصرا، ثم 34.7< م< 39,4.

وبزيادة حجم العينة إلى 80، نحصل على تقدير أكثر دقة عند نفس مستوى الأهمية: 35.5< م< 38,6.

بشكل عام، يتطلب بناء تقديرات الثقة الموثوقة معرفة القانون الذي يتم بموجبه توزيع الخاصية العشوائية المقدرة على السكان. دعونا نلقي نظرة على كيفية إنشاء تقدير الفاصل الزمني المتوسط ​​العامالخصائص التي يتم توزيعها بين السكان حسب طبيعيقانون.

3.4. التقدير الفتري للمتوسط ​​العام لقانون التوزيع الطبيعي

يعتمد إنشاء تقدير فاصل للمتوسط ​​العام M للسكان الذين لديهم قانون التوزيع الطبيعي على الخاصية التالية. لحجم العينات نسلوك

يطيع توزيع الطالب بعدد درجات الحرية ν = ن- 1.

هنا X- متوسط ​​العينة، و س- الانحراف المعياري الانتقائي.

باستخدام جداول توزيع الطلاب أو ما يماثلها على الكمبيوتر، يمكنك العثور على قيمة حدية بحيث تحمل عدم المساواة التالية، مع احتمالية ثقة معينة:

يتوافق هذا عدم المساواة مع عدم المساواة لـ M:

أين ε - نصف عرض فاصل الثقة.

وبالتالي، يتم بناء فاصل الثقة لـ M بالتسلسل التالي.

1. حدد احتمالية الثقة Р d (عادةً 0.95 أو 0.99) ومن أجلها، باستخدام جدول توزيع الطلاب، ابحث عن المعلمة t

2. احسب نصف عرض فاصل الثقة ε:

3. احصل على تقدير فاصل للمتوسط ​​العام مع احتمالية الثقة المحددة:

باختصار هو مكتوب مثل هذا:

وقد تم تطوير إجراءات الكمبيوتر للعثور على تقديرات الفاصل الزمني.

دعونا نشرح كيفية استخدام جدول توزيع الطلاب. يحتوي هذا الجدول على "مدخلين": العمود الأيسر، ويسمى عدد درجات الحرية ν = ن- 1، والخط العلوي هو مستوى الأهمية α. عند تقاطع الصف والعمود المقابلين، ابحث عن معامل الطالب ر.

دعونا نطبق هذه الطريقة على عينتنا. يتم عرض جزء من جدول توزيع الطلاب أدناه.

الجدول 3.3. جزء من جدول توزيع الطلاب

سلسلة إحصائية بسيطة لعينة مكونة من 20 شخصا = 20، ν = 19) معروضة في الجدول. 3.1. بالنسبة لهذه السلسلة، تعطي الحسابات باستخدام الصيغ (3.1-3.3) ما يلي: X= 37,05; س= 5,02.

دعنا نختار α = 0.05 (Р d = 0.95). عند تقاطع الصف "19" والعمود "0.05" نجد ر= 2,09.

دعونا نحسب دقة التقدير باستخدام الصيغة (3.6): ε = 2.09?5.02/l /20 = 2.34.

دعونا ننشئ تقديرًا بفاصل زمني: مع احتمال 95%، يحقق المتوسط ​​العام المجهول المتباينة:

37,05 - 2,34 < م< 37,05 + 2,34, или م= 37.05 ± 2.34 (م/ث)، ر د = 0.95.

3.5. طرق اختبار الفرضيات الإحصائية

الفرضيات الإحصائية

قبل صياغة ما هي الفرضية الإحصائية، فكر في المثال التالي.

لمقارنة طريقتين لعلاج مرض معين، تم اختيار مجموعتين من المرضى تضم كل منهما 20 شخصًا وعلاجهم باستخدام هاتين الطريقتين. لكل مريض تم تسجيله عدد الإجراءات،وبعد ذلك تم تحقيق تأثير إيجابي. وبناء على هذه البيانات، تم العثور على متوسط ​​العينة (X)، وتباينات العينة لكل مجموعة (ق 2)وعينة الانحرافات المعيارية (س).

النتائج معروضة في الجدول. 3.4.

الجدول 3.4

عدد الإجراءات المطلوبة للحصول على تأثير إيجابي هو متغير عشوائي، وجميع المعلومات عنه موجودة حاليًا في العينة المعطاة.

من الطاولة ويبين الشكل 4.3 أن متوسط ​​العينة في المجموعة الأولى أقل منه في المجموعة الثانية. هل هذا يعني أن نفس العلاقة تنطبق على المتوسطات العامة: M1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает الاختبار الإحصائي للفرضيات.

الفرضية الإحصائية- إنه افتراض حول خصائص السكان.

سننظر في الفرضيات حول الخصائص اثنينعامة السكان.

إذا كان لدى السكان مشهورة ومتطابقةتوزيع القيمة التي يتم تقديرها، والافتراضات تتعلق بالقيم بعض المعلمةمن هذا التوزيع، ثم يتم استدعاء الفرضيات حدودي.على سبيل المثال، يتم أخذ عينات من السكان مع القانون العاديالتوزيع والتباين المتساوي. بحاجة لمعرفة ذلك هل هم نفس الشيءالمتوسط ​​العام لهؤلاء السكان.

إذا لم يكن هناك شيء معروف عن قوانين توزيع عموم السكان، فسيتم استدعاء الفرضيات حول خصائصهم غير معلمية.على سبيل المثال، هل هم نفس الشيءقوانين توزيع المجموعات السكانية التي يتم سحب العينات منها.

الفرضيات الصفرية والبديلة.

مهمة اختبار الفرضيات. مستوى الأهمية

دعونا نتعرف على المصطلحات المستخدمة عند اختبار الفرضيات.

ح0 - فرضية العدم (فرضية المتشكك) هي فرضية حول عدم وجود اختلافاتبين العينات المقارنة ويعتقد المتشكك أن الاختلافات بين تقديرات العينة التي تم الحصول عليها من نتائج البحث عشوائية؛

ح 1- الفرضية البديلة (فرضية المتفائل) وهي فرضية حول وجود فروق بين العينات المقارنة. يعتقد المتفائل أن الاختلافات بين تقديرات العينة ناتجة عن أسباب موضوعية وتتوافق مع الاختلافات في عموم السكان.

لا يكون اختبار الفرضيات الإحصائية ممكنًا إلا عندما يكون من الممكن بناء بعضها مقاس(المعيار)، قانون التوزيع في حالة العدالة ح 0مشهور. ثم لهذه الكمية يمكننا تحديدها فاصل الثقة،حيث مع احتمال معين بحث وتطويريسقط معناها. يسمى هذا الفاصل المجال الحيوي.إذا وقعت قيمة المحك ضمن المنطقة الحرجة فإن الفرضية مقبولة ن 0.وبخلاف ذلك يتم قبول الفرضية H1.

في الأبحاث الطبية، يتم استخدام P d = 0.95 أو P d = 0.99. تتوافق هذه القيم مستويات الأهميةα = 0.05 أو α = 0.01.

عند اختبار الفرضيات الإحصائيةمستوى الدلالة او الاهميه(α) هو احتمال رفض الفرضية الصفرية عندما تكون صحيحة.

يرجى ملاحظة أن إجراء اختبار الفرضيات يهدف في جوهره إلى تحقيق ذلك كشف الاختلافاتوعدم تأكيد غيابهم. عندما تتجاوز قيمة المعيار المنطقة الحرجة، يمكننا أن نقول بقلب نقي لـ”المتشكك” – حسنًا، ماذا تريد أيضًا؟! إذا لم تكن هناك فروق، فمع احتمال 95٪ (أو 99٪)، ستكون القيمة المحسوبة ضمن الحدود المحددة. لكن لا!..

حسنًا، إذا كانت قيمة المعيار تقع في المنطقة الحرجة، فلا يوجد سبب للاعتقاد بأن الفرضية H 0 صحيحة. يشير هذا على الأرجح إلى أحد السببين المحتملين.

1. أحجام العينات ليست كبيرة بما يكفي لاكتشاف الاختلافات. ومن المرجح أن التجارب المستمرة ستحقق النجاح.

2. هناك اختلافات. لكنها صغيرة جدًا لدرجة أنه ليس لها أي أهمية عملية. في هذه الحالة، الاستمرار في التجارب لا معنى له.

دعنا ننتقل إلى النظر في بعض الفرضيات الإحصائية المستخدمة في الأبحاث الطبية.

3.6. اختبار الفرضيات حول مساواة التباينات، معيار فيشر F

في بعض الدراسات السريرية، لم يتم إثبات التأثير الإيجابي كثيرًا ضخامةمن المعلمة قيد الدراسة، كم منها الاستقرار،الحد من تقلباتها. وفي هذه الحالة يطرح السؤال حول مقارنة تباينين ​​عامين بناء على نتائج مسح العينة. يمكن حل هذه المشكلة باستخدام اختبار فيشر.

صياغة المشكلة

القانون العاديتوزيعات. أحجام العينات -

ن 1و ن2,أ فروق العينةمتساوي س1 و س22 الفروق العامة.

فرضيات قابلة للاختبار:

ح 0- الفروق العامة هي نفسها؛

ح 1- الفروق العامة مختلفة.

يظهر إذا تم استخلاص العينات من السكان القانون العاديالتوزيع، إذا كانت الفرضية صحيحة ح 0نسبة تباينات العينة تتبع توزيع فيشر. لذلك، كمعيار للتحقق من العدالة ح 0يتم أخذ القيمة تحسب بواسطة الصيغة:

أين s 1 و s 2 عبارة عن فروق عينة.

تخضع هذه النسبة لتوزيع فيشر مع عدد درجات حرية البسط ν 1 = ن 1- 1 وعدد درجات حرية المقام ν 2 = n 2 - 1. تم العثور على حدود المنطقة الحرجة باستخدام جداول توزيع فيشر أو باستخدام وظيفة الكمبيوتر BRASPOBR.

على سبيل المثال الموضح في الجدول. 3.4 نحصل على: ν 1 = ν 2 = 20 - 1 = 19؛ F= 2.16/4.05 = 0.53. عند α = 0.05، تكون حدود المنطقة الحرجة على التوالي: = 0.40، = 2.53.

وتقع قيمة المحك ضمن المنطقة الحرجة وبالتالي يتم قبول الفرضية ح 0:انحرافات العينة العامة هي نفسها.

3.7. اختبار الفرضيات المتعلقة بمساواة الوسائل، معيار الطالب

مهمة المقارنة متوسطتنشأ مجموعتان عامتان عندما تكون الأهمية العملية على وجه التحديد ضخامةالخاصية التي تتم دراستها. على سبيل المثال، عند مقارنة مدة العلاج بطريقتين مختلفتين أو عدد المضاعفات الناجمة عن استخدامها. في هذه الحالة، يمكنك استخدام اختبار الطالب.

صياغة المشكلة

تم الحصول على عينتين (X 1) و (X 2) تم استخلاصهما من عامة السكان القانون العاديالتوزيع و نفس الفروق.أحجام العينات - ن 1 و ن 2، وسائل العينةتساوي X 1 و X 2، و فروق العينة- ق 1 2 و ق 2 2على التوالى. بحاجة للمقارنة المتوسطات العامة.

فرضيات قابلة للاختبار:

ح 0- المتوسطات العامة هي نفسها؛

ح 1- المتوسطات العامة مختلفة.

وتبين أنه إذا كانت الفرضية صحيحة ح 0قيمة t المحسوبة بالصيغة:

موزعة حسب قانون الطالب بعدد درجات الحرية ν = ν 1 + + ν2 - 2.

هنا حيث ν 1 = ن 1 - 1 - عدد درجات الحرية للعينة الأولى؛ ن 2 = ن 2 – 1 – عدد درجات الحرية للعينة الثانية .

تم العثور على حدود المنطقة الحرجة باستخدام جداول التوزيع t أو باستخدام وظيفة الكمبيوتر STUDRIST. توزيع الطلاب متماثل حول الصفر، وبالتالي فإن الحدود اليسرى واليمنى للمنطقة الحرجة متطابقة في الحجم ومتعاكسة في الإشارة: - و

على سبيل المثال الموضح في الجدول. 3.4 نحصل على:

ν 1 = ν 2 = 20 - 1 = 19؛ ν = 38، ر= -2.51. عند α = 0.05 = 2.02.

تتجاوز قيمة المحك الحد الأيسر للمنطقة الحرجة لذلك نقبل الفرضية ح 1:المتوسطات العامة مختلفة.وفي الوقت نفسه متوسط ​​عدد السكان العينة الأولىأقل.

إمكانية تطبيق اختبار الطالب

اختبار الطالب لا ينطبق إلا على عينات من طبيعيالمجمعات مع الفروق العامة متطابقة.إذا تم انتهاك أحد الشروط على الأقل، فإن قابلية تطبيق المعيار تكون موضع شك. عادة ما يتم تجاهل متطلبات الحياة الطبيعية لعامة السكان، نقلاً عن نظرية الحد المركزي.في الواقع، يمكن اعتبار الفرق بين متوسطات العينة في البسط (3.10) موزعًا بشكل طبيعي لـ ν > 30. ولكن لا يمكن التحقق من مسألة مساواة التباينات، ولا يمكن الاعتماد على الإشارات إلى حقيقة أن اختبار فيشر لم يكشف عن الاختلافات داخل الحساب. ومع ذلك، يُستخدم اختبار t على نطاق واسع للكشف عن الاختلافات في متوسطات السكان، على الرغم من عدم وجود أدلة كافية.

أدناه تمت مناقشته معيار غير بارامتري,والذي يتم استخدامه بنجاح لنفس الأغراض والذي لا يتطلب أي شيء الحياة الطبيعية,لا المساواة في الفروق.

3.8. مقارنة غير بارامترية لعينتين: معيار مان ويتني

تم تصميم الاختبارات اللامعلمية لاكتشاف الاختلافات في قوانين التوزيع بين مجموعتين من السكان. المعايير الحساسة للاختلافات بشكل عام متوسط،تسمى المعايير يحولالمعايير الحساسة للاختلافات بشكل عام التشتت,تسمى المعايير حجم.يشير اختبار مان ويتني إلى المعايير يحولويستخدم للكشف عن الاختلافات في متوسطات مجموعتين من السكان، والتي يتم تقديم عينات منها مقياس الترتيب.وتوضع الخصائص المقاسة على هذا المقياس بترتيب تصاعدي، ثم يتم ترقيمها بالأعداد الصحيحة 1، 2... وتسمى هذه الأرقام صفوف.يتم تعيين كميات متساوية مراتب متساوية. ليست قيمة السمة نفسها هي التي تهم، ولكن فقط مكان ترتيبيوالتي تصنف ضمن الكميات الأخرى.

في الجدول 3.5. يتم عرض المجموعة الأولى من الجدول 3.4 بشكل موسع (السطر 1)، ومرتبة (السطر 2)، ثم يتم استبدال مراتب القيم المتطابقة بالمتوسطات الحسابية. على سبيل المثال، تم إعطاء العنصرين 4 و4 في الصف الأول الرتبتين 2 و3، ثم تم استبدالهما بنفس القيمة وهي 2.5.

الجدول 3.5

صياغة المشكلة

عينات مستقلة (× 1)و (× 2)المستخرجة من عامة السكان مع قوانين التوزيع غير معروفة. أحجام العينات ن 1و ن 2على التوالى. يتم عرض قيم عناصر العينة في مقياس الترتيب.ومن الضروري التحقق مما إذا كانت هذه المجموعات العامة تختلف عن بعضها البعض؟

فرضيات قابلة للاختبار:

ح 0- العينات تنتمي إلى نفس عامة السكان؛ ح 1- العينات تنتمي إلى مجموعات سكانية مختلفة.

ولاختبار مثل هذه الفرضيات تم استخدام اختبار (/- مان-ويتني).

أولاً يتم تجميع عينة مجمعة (X) من العينتين وترتيب عناصرها. ثم يتم إيجاد مجموع الرتب المقابلة لعناصر العينة الأولى. وهذا المبلغ هو المعيار لاختبار الفرضيات.

ش= مجموع مراتب العينة الأولى. (3.11)

بالنسبة للعينات المستقلة التي يزيد حجمها عن 20، تكون القيمة شيطيع التوزيع الطبيعي الذي يساوي التوقع الرياضي والانحراف المعياري له:

ولذلك، تم العثور على حدود المنطقة الحرجة وفقا لجداول التوزيع الطبيعي.

على سبيل المثال الموضح في الجدول. 3.4 نحصل على: ν 1 = ν 2 = 20 - 1 = 19، ش= 339، μ = 410، σ = 37. بالنسبة لـ α = 0.05 نحصل على: اليسار = 338 واليمين = 482.

تتجاوز قيمة المعيار الحد الأيسر للمنطقة الحرجة، وبالتالي يتم قبول الفرضية H 1: لدى عامة السكان قوانين توزيع مختلفة. وفي الوقت نفسه متوسط ​​عدد السكان العينة الأولىأقل.

عند بناء سلسلة التوزيع الفتري، يتم حل ثلاثة أسئلة:

  • 1. كم عدد الفواصل الزمنية التي يجب أن أتناولها؟
  • 2. ما هو طول الفترات؟
  • 3. ما هو الإجراء الخاص بإدراج الوحدات السكانية ضمن حدود الفترات؟
  • 1. عدد الفواصل الزمنيةيمكن تحديدها بواسطة صيغة ستورجيس:

2. طول الفاصل الزمني، أو خطوة الفاصل، يتم تحديده عادةً بواسطة الصيغة

أين ص-نطاق الاختلاف.

3. ترتيب إدراج الوحدات السكانية ضمن حدود الفاصل الزمني

قد تكون مختلفة، ولكن عند إنشاء سلسلة فاصلة، يجب تحديد التوزيع بدقة.

على سبيل المثال، هذا: [)، حيث يتم تضمين الوحدات السكانية في الحدود السفلية، ولكن لا يتم تضمينها في الحدود العليا، ولكن يتم نقلها إلى الفاصل الزمني التالي. الاستثناء من هذه القاعدة هو الفاصل الزمني الأخير، الذي يتضمن الحد الأعلى له الرقم الأخير من السلسلة المرتبة.

الحدود الفاصلة هي:

  • مغلق - بقيمتين متطرفتين للسمة؛
  • مفتوح - بقيمة متطرفة واحدة للسمة (قبلكذا وكذا عدد أو زيادةعدد كذا وكذا).

من أجل استيعاب المادة النظرية، نقدم معلومات اساسيةللحلول مهمة نهاية إلى نهاية.

توجد بيانات مشروطة عن متوسط ​​​​عدد مديري المبيعات، وكمية السلع المماثلة التي يبيعونها، وسعر السوق الفردي لهذا المنتج، وكذلك حجم مبيعات 30 شركة في إحدى مناطق الاتحاد الروسي في الأول ربع السنة المشمولة بالتقرير (الجدول 2.1).

الجدول 2.1

المعلومات الأولية لمهمة شاملة

رقم

المديرين،

السعر ألف روبل

حجم المبيعات مليون روبل.

رقم

المديرين،

كمية البضائع المباعة، جهاز كمبيوتر شخصى.

السعر ألف روبل

حجم المبيعات مليون روبل.

بناءً على المعلومات الأولية، بالإضافة إلى المعلومات الإضافية، سنقوم بإعداد المهام الفردية. ثم سنقدم منهجية حلها والحلول نفسها.

مهمة شاملة. المهمة 2.1

باستخدام البيانات الأولية من الجدول. 2.1 مطلوببناء سلسلة منفصلة لتوزيع الشركات حسب كمية السلع المباعة (الجدول 2.2).

حل:

الجدول 2.2

سلسلة منفصلة لتوزيع الشركات حسب كمية البضائع المباعة في إحدى مناطق الاتحاد الروسي في الربع الأول من السنة المشمولة بالتقرير

مهمة شاملة. المهمة 2.2

مطلوبقم ببناء سلسلة مرتبة من 30 شركة وفقًا لمتوسط ​​عدد المديرين.

حل:

15; 17; 18; 20; 20; 20; 22; 22; 24; 25; 25; 25; 27; 27; 27; 28; 29; 30; 32; 32; 33; 33; 33; 34; 35; 35; 38; 39; 39; 45.

مهمة شاملة. المهمة 2.3

باستخدام البيانات الأولية من الجدول. 2.1, مطلوب:

  • 1. قم ببناء سلسلة فاصلة لتوزيع الشركات حسب عدد المديرين.
  • 2. حساب تكرارات سلسلة توزيع الشركات.
  • 3. استخلاص النتائج.

حل:

دعونا نحسب باستخدام صيغة Sturgess (2.5) عدد الفواصل الزمنية:

وبالتالي، فإننا نأخذ 6 فترات (مجموعات).

طول الفاصل الزمني، أو خطوة الفاصلة، احسب باستخدام الصيغة

ملحوظة.ويكون ترتيب إدراج الوحدات السكانية في حدود الفترة كما يلي: I)، حيث يتم تضمين الوحدات السكانية في الحدود السفلية، ولكن لا يتم تضمينها في الحدود العليا، بل يتم نقلها إلى الفترة التالية. الاستثناء من هذه القاعدة هو الفاصل الزمني الأخير I ]، والذي يتضمن الحد الأعلى له الرقم الأخير من السلسلة المرتبة.

نقوم ببناء سلسلة فاصلة (الجدول 2.3).

سلسلة الفاصل الزمني لتوزيع الشركات ومتوسط ​​​​عدد المديرين في إحدى مناطق الاتحاد الروسي في الربع الأول من السنة المشمولة بالتقرير

خاتمة.أكبر مجموعة من الشركات هي المجموعة التي يبلغ متوسط ​​عدد مديريها 25-30 شخصًا، والتي تضم 8 شركات (27٪)؛ أصغر مجموعة يبلغ متوسط ​​عدد مديريها 40-45 شخصًا تضم ​​شركة واحدة فقط (3٪).

باستخدام البيانات الأولية من الجدول. 2.1، بالإضافة إلى سلسلة فاصلة لتوزيع الشركات حسب عدد المديرين (الجدول 2.3)، مطلوببناء مجموعة تحليلية للعلاقة بين عدد المديرين وحجم مبيعات الشركات، وبناءً عليها، استخلاص استنتاج حول وجود (أو غياب) العلاقة بين هذه الخصائص.

حل:

يعتمد التجميع التحليلي على خصائص العامل. في مشكلتنا، العامل المميز (x) هو عدد المديرين، والخاصية الناتجة (y) هي حجم المبيعات (الجدول 2.4).

دعونا نبني الآن التجمع التحليلي(الجدول 2.5).

خاتمة.استنادا إلى بيانات المجموعة التحليلية التي تم إنشاؤها، يمكننا القول أنه مع زيادة عدد مديري المبيعات، يزداد متوسط ​​حجم مبيعات الشركة في المجموعة أيضا، مما يدل على وجود اتصال مباشر بين هذه الخصائص.

الجدول 2.4

الجدول المساعد لبناء المجموعة التحليلية

عدد المديرين، الأشخاص،

رقم الشركة

حجم المبيعات، مليون روبل، ص

" = 59 ف = 9.97

أنا-™ 4 -يو.22

74'25 1PY1

U4 = 7 = 10,61

في = ’ =10,31 30

الجدول 2.5

اعتماد حجم المبيعات على عدد مديري الشركات في إحدى مناطق الاتحاد الروسي في الربع الأول من السنة المشمولة بالتقرير

أسئلة التحكم
  • 1. ما هو جوهر الملاحظة الإحصائية؟
  • 2. تسمية مراحل الملاحظة الإحصائية.
  • 3. ما هي الأشكال التنظيمية للملاحظة الإحصائية؟
  • 4. تسمية أنواع الملاحظة الإحصائية.
  • 5. ما هو الملخص الإحصائي؟
  • 6. تسمية أنواع التقارير الإحصائية.
  • 7. ما هو التجميع الإحصائي؟
  • 8. قم بتسمية أنواع المجموعات الإحصائية.
  • 9. ما هي سلسلة التوزيع؟
  • 10. قم بتسمية العناصر الهيكلية لصف التوزيع.
  • 11. ما هو الإجراء الخاص ببناء سلسلة التوزيع؟

وجود بيانات المراقبة الإحصائية المتاحة التي تميز ظاهرة معينة، أولا وقبل كل شيء، من الضروري تنظيمها، أي. إعطاء طابع منهجي

إحصائي إنجليزي. قال UJReichman مجازيًا عن المجموعات المضطربة أن مواجهة كتلة من البيانات غير المعممة تعادل الموقف الذي يتم فيه إلقاء شخص في غابة بدون بوصلة. ما هو تنظيم البيانات الإحصائية في شكل سلسلة التوزيع؟

يتم ترتيب سلسلة التوزيعات الإحصائية المجاميع الإحصائية (الجدول 17). أبسط نوع من سلسلة التوزيع الإحصائي هو سلسلة مرتبة، أي. سلسلة من الأرقام بترتيب تصاعدي أو تنازلي، مع اختلاف خصائصها. مثل هذه السلسلة لا تسمح لنا بالحكم على الأنماط المتأصلة في البيانات الموزعة: ما هي القيمة التي تم تجميع غالبية المؤشرات فيها، وما هي الانحرافات الموجودة عن هذه القيمة؛ وكذلك صورة التوزيع العام. لهذا الغرض، يتم تجميع البيانات، مما يوضح عدد مرات حدوث الملاحظات الفردية في العدد الإجمالي (المخطط 1 أ 1).

. الجدول 17

. منظر عام لسلسلة التوزيع الإحصائي

. المخطط 1. المخطط الإحصائيسلسلة التوزيع

يسمى توزيع الوحدات السكانية حسب الخصائص التي ليس لها تعبير كمي سلسلة منسوبة(على سبيل المثال، توزيع المؤسسات حسب منطقة إنتاجها)

تسمى سلسلة توزيع الوحدات السكانية حسب الخصائص بتعبير كمي سلسلة الاختلاف. وفي مثل هذه المتسلسلة تكون قيمة الخاصية (الخيارات) بترتيب تصاعدي أو تنازلي

في سلسلة التوزيع المتغير، يتم التمييز بين عنصرين: المتغيرات والتكرار . خيار- هذا معنى منفصل لخصائص التجميع تكرار- رقم يوضح عدد مرات حدوث كل خيار

في الإحصاء الرياضي، يتم حساب عنصر آخر من سلسلة التباين - جزئيا. يتم تعريف الأخير على أنه نسبة تكرار الحالات في فترة زمنية معينة إلى المجموع الإجمالي للترددات؛ ويتم تحديد الجزء في كسور الوحدة، النسبة المئوية (٪) في جزء في المليون (٪ o)

وبالتالي، فإن سلسلة توزيع التباين هي سلسلة يتم فيها ترتيب الخيارات بترتيب تصاعدي أو تنازلي، مع الإشارة إلى تردداتها أو تردداتها. سلسلة التباين منفصلة (فواصل) وفترات أخرى (مستمرة).

. سلسلة الاختلاف المنفصلة- هذه هي سلاسل التوزيع التي يمكن أن يأخذ فيها المتغير كقيمة خاصية كمية قيمة معينة فقط. تختلف الخيارات عن بعضها البعض بوحدة واحدة أو أكثر

وبالتالي، لا يمكن التعبير عن عدد الأجزاء التي ينتجها عامل معين في كل نوبة عمل إلا برقم واحد محدد (6، 10، 12، إلخ). مثال على سلسلة التباين المنفصلة يمكن أن يكون توزيع العمال حسب عدد الأجزاء المنتجة (الجدول 18 18).

. الجدول 18

. توزيع سلسلة منفصلة _

. سلسلة التباين الفاصلة (المستمرة).- سلسلة التوزيع هذه التي يتم فيها إعطاء قيمة الخيارات في شكل فترات، أي. يمكن أن تختلف قيم الميزات عن بعضها البعض بمقدار صغير بشكل تعسفي. عند إنشاء سلسلة تباين لخصائص المتغير NEP، من المستحيل الإشارة إلى كل قيمة للمتغير، لذلك يتم توزيع السكان على فترات زمنية. هذا الأخير يمكن أن يكون متساويا أو غير متساو. يشار إلى الترددات أو الترددات لكل منها (الجدول 1 9 19).

في سلسلة التوزيع الفاصلة ذات الفترات غير المتساوية، يتم حساب الخصائص الرياضية مثل كثافة التوزيع وكثافة التوزيع النسبية على فترة زمنية معينة. يتم تحديد الخاصية الأولى بنسبة التردد إلى قيمة نفس الفاصل الزمني، والثانية - بنسبة التردد إلى قيمة نفس الفاصل الزمني. في المثال أعلاه، كثافة التوزيع في الفترة الأولى ستكون 3: 5 = 0.6، والكثافة النسبية في هذه الفترة هي 7.5: 5 = 1.55%.

. الجدول 19

. سلسلة التوزيع الفاصلة _

يتم إنشاء سلسلة تباين منفصلة لخصائص منفصلة.

من أجل بناء سلسلة تباين منفصلة، ​​تحتاج إلى تنفيذ الخطوات التالية: 1) ترتيب وحدات الملاحظة بترتيب تصاعدي للقيمة المدروسة للخاصية،

2) تحديد جميع القيم الممكنة للسمة x i وترتيبها تصاعديًا،

قيمة السمة، أنا .

تردد قيمة السمة وتدل F أنا . مجموع كل ترددات السلسلة يساوي عدد العناصر في المجتمع قيد الدراسة.

مثال 1 .

قائمة الدرجات التي حصل عليها الطلاب في الامتحانات: 3؛ 4؛ 3؛ 5؛ 4؛ 2؛ 2؛ 4؛ 4؛ 3؛ 5؛ 2؛ 4؛ 5؛ 4؛ 3؛ 4؛ 3؛ 3؛ 4؛ 4؛ 2؛ 2؛ 5؛ 5؛ 4؛ 5؛ 2؛ 3؛ 4؛ 4؛ 3؛ 4؛ 5؛ 2؛ 5؛ 5؛ 4؛ 3؛ 3؛ 4؛ 2؛ 4؛ 4؛ 5؛ 4؛ 3؛ 5؛ 3؛ 5؛ 4؛ 4؛ 5؛ 4؛ 4؛ 5؛ 4؛ 5؛ 5؛ 5.

هنا هو الرقم X - درجةهو متغير عشوائي منفصل، وقائمة التقديرات الناتجة هيبيانات إحصائية (يمكن ملاحظتها). .

    ترتيب وحدات المراقبة تصاعدياً لقيمة الخاصية المدروسة:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) حدد جميع القيم الممكنة للسمة x i، ورتبها بترتيب تصاعدي:

في هذا المثال، يمكن تقسيم كافة التقديرات إلى أربع مجموعات بالقيم التالية: 2؛ 3؛ 4؛ 5.

تسمى قيمة المتغير العشوائي المقابل لمجموعة معينة من البيانات المرصودة قيمة السمة، الخيار (الخيار) وتعيين x أنا .

يتم استدعاء الرقم الذي يوضح عدد المرات التي تحدث فيها القيمة المقابلة للخاصية في عدد من الملاحظات تردد قيمة السمة وتدل F أنا .

على سبيل المثال لدينا

النتيجة 2 تحدث - 8 مرات،

النتيجة 3 تحدث - 12 مرة،

النتيجة 4 تحدث - 23 مرة،

النتيجة 5 تحدث - 17 مرة.

هناك 60 تقييما في المجموع.

4) اكتب البيانات المستلمة في جدول من صفين (أعمدة) - x i و f i.

وبناء على هذه البيانات، فمن الممكن بناء سلسلة تباين منفصلة

سلسلة الاختلاف المنفصلة – هذا جدول يتم فيه الإشارة إلى القيم الحدوثية للخاصية محل الدراسة كقيم فردية بترتيب تصاعدي وتكراراتها

  1. بناء سلسلة الاختلاف الفاصل

بالإضافة إلى السلسلة المتغيرة المنفصلة، ​​غالبًا ما تتم مواجهة طريقة لتجميع البيانات مثل سلسلة متباينة الفاصل الزمني.

يتم إنشاء سلسلة فاصلة إذا:

    العلامة لها طبيعة التغيير المستمر.

    كان هناك الكثير من القيم المنفصلة (أكثر من 10)

    ترددات القيم المنفصلة صغيرة جدًا (لا تتجاوز 1-3 مع عدد كبير نسبيًا من وحدات المراقبة)؛

    العديد من القيم المنفصلة لميزة لها نفس الترددات.

سلسلة تباين الفاصل الزمني هي طريقة لتجميع البيانات على شكل جدول يحتوي على عمودين (قيم الخاصية على شكل فاصل من القيم وتكرار كل فاصل زمني).

على عكس السلسلة المنفصلة، ​​لا يتم تمثيل القيم المميزة للسلسلة الفاصلة بقيم فردية، بل بفاصل من القيم ("من - إلى").

يُطلق على الرقم الذي يوضح عدد وحدات المراقبة الموجودة في كل فترة زمنية محددة تردد قيمة السمة وتدل F أنا . مجموع كل ترددات السلسلة يساوي عدد العناصر (وحدات المراقبة) في المجتمع قيد الدراسة.

إذا كانت الوحدة لها قيمة مميزة تساوي الحد الأعلى للفاصل الزمني، فيجب تعيينها للفاصل الزمني التالي.

على سبيل المثال، سوف يقع الطفل الذي يبلغ ارتفاعه 100 سم في الفترة الثانية، وليس في الفترة الأولى؛ والطفل الذي يبلغ ارتفاعه 130 سم سيقع في الفترة الأخيرة وليس في الفترة الثالثة.

واستناداً إلى هذه البيانات، يمكن بناء سلسلة تباين الفاصل الزمني.

لكل فاصل حد أدنى (xn)، حد أعلى (xw) وعرض فاصل ( أنا).

حدود الفاصل الزمني هي قيمة السمة التي تقع على حدود فترتين.

ارتفاع الأطفال (سم)

ارتفاع الأطفال (سم)

كمية من الاطفال

أكثر من 130

إذا كان للفاصل الزمني حد علوي وسفلي، فإنه يطلق عليه فاصل مغلق. إذا كان للفاصل الزمني حد أدنى أو حد أعلى فقط، فهو - الفاصل الزمني المفتوح.يمكن فتح الفاصل الزمني الأول أو الأخير فقط. في المثال أعلاه، الفاصل الزمني الأخير مفتوح.

عرض الفاصل الزمني (أنا) – الفرق بين الحدين الأعلى والأدنى.

أنا = س ن - س في

من المفترض أن يكون عرض الفترة المفتوحة هو نفس عرض الفترة المغلقة المجاورة.

ارتفاع الأطفال (سم)

كمية من الاطفال

عرض الفاصل الزمني (ط)

للحسابات 130+20=150

20 (لأن عرض الفترة المغلقة المجاورة هو 20)

يتم تقسيم جميع السلاسل الفاصلة إلى سلاسل فترات ذات فترات متساوية وسلاسل فترات ذات فترات غير متساوية . في الصفوف المتباعدة ذات الفواصل الزمنية المتساوية، يكون عرض جميع الفواصل الزمنية هو نفسه. في سلسلة الفترات ذات الفواصل غير المتساوية، يختلف عرض الفترات.

في المثال قيد النظر - سلسلة فواصل زمنية ذات فترات غير متساوية.

العمل المختبري رقم 1

حسب الإحصائيات الرياضية

الموضوع: المعالجة الأولية للبيانات التجريبية

3. سجل بالنقاط. 1

5. أسئلة الاختبار.. 2

6. منهجية أداء العمل المخبري.. 3

الهدف من العمل

اكتساب مهارات المعالجة الأولية للبيانات التجريبية باستخدام أساليب الإحصاء الرياضي.

استنادا إلى مجمل البيانات التجريبية، أكمل المهام التالية:

التمرين 1.بناء سلسلة توزيع التباين الفاصل.

المهمة 2.أنشئ رسمًا بيانيًا لترددات سلسلة تباين الفاصل الزمني.

المهمة 3.إنشاء دالة توزيع تجريبية ورسم رسم بياني.

أ) الوضع والوسيط.

ب) اللحظات الأولية المشروطة؛

ج) متوسط ​​العينة؛

د) تباين العينة، تصحيح تباين السكان، تصحيح الانحراف المعياري؛

ه) معامل الاختلاف.

و) عدم التماثل.

ز) التفرطح.

المهمة 5.تحديد حدود القيم الحقيقية للخصائص العددية للمتغير العشوائي محل الدراسة بثبات معين.

المهمة 6.التفسير المبني على المحتوى لنتائج المعالجة الأولية وفقا لشروط المهمة.

يسجل في النقاط

المهام 1-56 نقاط

المهمة 62 نقطة

الدفاع عن العمل المختبري(مقابلة شفهية حول أسئلة الاختبار والعمل المخبري) - 2 نقطة

يجب تقديم العمل كتابيًا على أوراق مقاس A4 ويتضمن:

1) صفحة العنوان (الملحق 1)

2) البيانات الأولية.

3) تقديم العمل حسب العينة المحددة .

4) نتائج الحساب (يتم إجراؤها يدويًا و/أو باستخدام MS Excel) بالترتيب المحدد.

5) الاستنتاجات - تفسير هادف لنتائج المعالجة الأولية وفقًا لشروط المهمة.

6) المقابلة الشفهية حول أسئلة العمل والرقابة.



5. أسئلة الاختبار


منهجية أداء العمل المختبري

المهمة 1. إنشاء سلسلة توزيع تباينية بفاصل زمني

من أجل تقديم البيانات الإحصائية في شكل سلسلة متغيرة مع خيارات متباعدة بشكل متساو، من الضروري:

1. في جدول البيانات الأصلي، ابحث عن القيم الأصغر والأكبر.

2. تحديد نطاق الاختلاف :

3. تحديد طول الفاصل الزمني h، إذا كانت العينة تحتوي على ما يصل إلى 1000 بيانات، استخدم الصيغة: حيث n - حجم العينة - كمية البيانات في العينة؛ لإجراء العمليات الحسابية تأخذ LGN).

يتم تقريب النسبة المحسوبة إلى قيمة عددية مريحة .

4. لتحديد بداية الفترة الأولى لعدد زوجي من الفترات، يوصى بأخذ القيمة؛ ولعدد فردي من الفترات.

5. اكتب فترات التجميع ورتبها بترتيب تصاعدي للحدود

, ,………., ,

أين هو الحد الأدنى للفاصل الزمني الأول. يتم أخذ رقم مناسب لا يزيد عن , ويجب ألا يقل الحد الأعلى للفاصل الزمني الأخير عن . يوصى بأن تحتوي الفترات على القيم الأولية للمتغير العشوائي وأن يتم فصلها عنها 5 إلى 20فترات.

6. قم بتدوين البيانات الأولية على فترات التجميع، أي. احسب من الجدول المصدر عدد قيم المتغيرات العشوائية التي تقع ضمن الفواصل الزمنية المحددة. إذا تطابقت بعض القيم مع حدود الفترات، ثم تُنسب إما إلى الفترة السابقة فقط أو إلى الفترة اللاحقة فقط.

ملاحظة 1.لا يجب أن تكون الفترات متساوية في الطول. في المناطق التي تكون فيها القيم أكثر كثافة، يكون من الملائم أكثر أخذ فترات زمنية أصغر وقصيرة، وحيث توجد فترات زمنية أقل تكرارًا، يتم استخدام فترات أكبر.

ملاحظة 2إذا تم الحصول على قيم "صفر" أو قيم ترددية صغيرة لبعض القيم، فمن الضروري إعادة تجميع البيانات، وتوسيع الفواصل الزمنية (زيادة الخطوة).