قيمة الخاصية في سلسلة التباين. سلسلة التوزيع التبايني والإحصائي

نتيجة لإتقان هذا الفصل يجب على الطالب أن: يعرف

  • مؤشرات التباين وعلاقتها؛
  • القوانين الأساسية لتوزيع الخصائص؛
  • جوهر معايير الموافقة؛ تكون قادرة على
  • حساب مؤشرات التباين ومعايير جودة الملاءمة؛
  • تحديد خصائص التوزيع.
  • تقييم الخصائص العددية الرئيسية لسلسلة التوزيع الإحصائي؛

ملك

  • طرق التحليل الإحصائي لسلسلة التوزيع.
  • أساسيات تحليل التباين.
  • تقنيات للتحقق من سلسلة التوزيع الإحصائي للامتثال للقوانين الأساسية للتوزيع.

مؤشرات التباين

في الدراسة الإحصائية لخصائص المجموعات الإحصائية المختلفة، من المهم جدًا دراسة التباين في خاصية الوحدات الإحصائية الفردية للسكان، وكذلك طبيعة توزيع الوحدات وفقًا لهذه الخاصية. تفاوت -وهي اختلافات في القيم الفردية للخاصية بين وحدات السكان محل الدراسة. دراسة التباين لها أهمية عملية كبيرة. ومن خلال درجة التباين، يمكن الحكم على حدود تباين إحدى الخصائص، وتجانس المجتمع لخاصية معينة، ونموذجية المتوسط، والعلاقة بين العوامل التي تحدد التباين. تُستخدم مؤشرات التباين لتوصيف وتنظيم المجموعات الإحصائية.

تمثل نتائج ملخص وتجميع مواد المراقبة الإحصائية، المقدمة في شكل سلسلة توزيع إحصائية، توزيعًا منظمًا لوحدات السكان قيد الدراسة إلى مجموعات وفقًا لمعايير التجميع (المتغيرة). إذا تم أخذ خاصية نوعية كأساس للتجميع، فسيتم استدعاء سلسلة التوزيع هذه عزوي(التوزيع حسب المهنة والجنس واللون وما إلى ذلك). إذا تم بناء سلسلة التوزيع على أساس كمي، تسمى هذه السلسلة متغير(التوزيع حسب الطول والوزن والراتب وما إلى ذلك). إن بناء سلسلة تباين يعني تنظيم التوزيع الكمي للوحدات السكانية حسب القيم المميزة، وحساب عدد الوحدات السكانية بهذه القيم (التكرار)، وترتيب النتائج في جدول.

بدلاً من تكرار المتغير، من الممكن استخدام نسبته إلى الحجم الإجمالي للملاحظات، وهو ما يسمى التردد (التردد النسبي).

هناك نوعان من سلسلة التباين: منفصلة وفاصلة. سلسلة منفصلة- هذه سلسلة متغيرة، يعتمد بنائها على خصائص ذات تغير متقطع (خصائص منفصلة). يشمل الأخير عدد الموظفين في المؤسسة وفئة التعريفة وعدد الأطفال في الأسرة وما إلى ذلك. تمثل سلسلة التباين المنفصلة جدولًا يتكون من عمودين. يشير العمود الأول إلى القيمة المحددة للسمة، ويشير العمود الثاني إلى عدد الوحدات في المجتمع بقيمة محددة للسمة. إذا كانت الخاصية لها تغيير مستمر (مبلغ الدخل، ومدة الخدمة، وتكلفة الأصول الثابتة للمؤسسة، وما إلى ذلك، والتي يمكن أن تأخذ أي قيم ضمن حدود معينة)، فمن الممكن بناء هذه الخاصية سلسلة الاختلافات الفاصلة.عند إنشاء سلسلة تباين الفاصل الزمني، يحتوي الجدول أيضًا على عمودين. يشير الأول إلى قيمة السمة في الفاصل الزمني "من - إلى" (الخيارات)، ويشير الثاني إلى عدد الوحدات المضمنة في الفاصل الزمني (التكرار). التردد (تكرار التكرار) - عدد التكرارات لمتغير معين من قيم السمات. يمكن أن تكون الفترات مغلقة أو مفتوحة. الفترات المغلقة محدودة من كلا الجانبين، أي. لها حدود سفلية ("من") وحدود عليا ("إلى"). الفترات المفتوحة لها حد واحد: إما العلوي أو السفلي. إذا تم ترتيب الخيارات بترتيب تصاعدي أو تنازلي، فسيتم استدعاء الصفوف مرتبة.

بالنسبة لسلسلة التباين، هناك نوعان من خيارات استجابة التردد: التردد المتراكم والتردد المتراكم. يوضح التكرار المتراكم عدد الملاحظات التي أخذت فيها قيمة الخاصية قيمًا أقل من القيمة المحددة. يتم تحديد التردد التراكمي من خلال جمع القيم التكرارية لخاصية معينة لمجموعة معينة مع جميع ترددات المجموعات السابقة. يميز التردد المتراكم نسبة وحدات المراقبة التي لا تتجاوز قيم خصائصها الحد الأعلى للمجموعة المحددة. وبالتالي، فإن التكرار المتراكم يوضح نسبة الخيارات في المجموع التي لا تزيد قيمتها عن القيمة المعطاة. التردد والتردد والكثافة المطلقة والنسبية والتكرار المتراكم والتردد هي خصائص حجم المتغير.

تتم دراسة التباينات في خصائص الوحدات الإحصائية للسكان وكذلك طبيعة التوزيع باستخدام مؤشرات وخصائص سلسلة التباين والتي تشمل متوسط ​​مستوى السلسلة، متوسط ​​الانحراف الخطي، الانحراف المعياري، التشتت ، معاملات التذبذب، الاختلاف، عدم التماثل، التفرطح، الخ.

يتم استخدام القيم المتوسطة لوصف مركز التوزيع. المتوسط ​​هو خاصية إحصائية عامة يتم من خلالها تحديد المستوى النموذجي للخاصية التي يمتلكها أفراد المجتمع قيد الدراسة. ومع ذلك، قد تكون هناك حالات مصادفة للوسائل الحسابية مع أنماط توزيع مختلفة، لذلك، كخصائص إحصائية لسلسلة التباين، يتم حساب ما يسمى بالوسائل الهيكلية - الوضع، والوسيط، وكذلك الكميات، التي تقسم سلسلة التوزيع إلى متساوية أجزاء (الربعيات، العشريات، النسب المئوية، الخ).

موضة -هذه هي قيمة الخاصية التي تحدث في سلسلة التوزيع أكثر من قيمها الأخرى. بالنسبة للسلسلة المنفصلة، ​​هذا هو الخيار ذو التردد الأعلى. في سلسلة تباين الفاصل الزمني، من أجل تحديد الوضع، من الضروري أولاً تحديد الفاصل الزمني الذي يقع فيه، ما يسمى بالفاصل المشروط. في سلسلة متغيرة بفواصل زمنية متساوية، يتم تحديد الفاصل الزمني المشروط بأعلى تردد، في سلسلة بفواصل زمنية غير متساوية - ولكن بأعلى كثافة توزيع. يتم بعد ذلك استخدام الصيغة لتحديد الوضع في الصفوف على فترات زمنية متساوية

حيث Mo هي قيمة الموضة؛ xMo - الحد الأدنى للفاصل الزمني المشروط؛ ح-عرض الفاصل الزمني المشروط؛ / مو - تردد الفاصل الزمني. / Mo j هو تردد الفاصل الزمني الأولي؛ / Mo+1 هو تكرار الفاصل الزمني بعد الوسائط، وبالنسبة لسلسلة ذات فترات زمنية غير متساوية في صيغة الحساب هذه، بدلاً من الترددات / Mo، / Mo، / Mo، يجب استخدام كثافات التوزيع عقل 0 _| , عقل 0> أومو+"

إذا كان هناك وضع واحد، فإن التوزيع الاحتمالي للمتغير العشوائي يسمى أحادي الواسطة؛ إذا كان هناك أكثر من وضع واحد، فإنه يسمى متعدد الوسائط (متعدد الوسائط، متعدد الوسائط)، في حالة وضعين - ثنائي الوسائط. وكقاعدة عامة، تشير تعدد الوسائط إلى أن التوزيع قيد الدراسة لا يخضع لقانون التوزيع الطبيعي. تتميز المجموعات المتجانسة، كقاعدة عامة، بتوزيعات أحادية الرأس. يشير Multivertex أيضًا إلى عدم تجانس السكان قيد الدراسة. إن ظهور رأسين أو أكثر يجعل من الضروري إعادة تجميع البيانات من أجل تحديد مجموعات أكثر تجانساً.

في سلسلة تباين الفاصل الزمني، يمكن تحديد الوضع بيانيًا باستخدام الرسم البياني. للقيام بذلك، ارسم خطين متقاطعين من النقاط العليا لأعلى عمود في الرسم البياني إلى النقاط العليا في عمودين متجاورين. ثم، من نقطة تقاطعهما، يتم إنزال عمودي على محور الإحداثي السيني. قيمة الميزة على المحور السيني المقابل للخط المتعامد هي الوضع. في كثير من الحالات، عند وصف مجموعة سكانية كمؤشر معمم، يتم إعطاء الأفضلية للوضع بدلاً من المتوسط ​​الحسابي.

الوسيط -هذه هي القيمة المركزية للسمة التي يمتلكها العضو المركزي في سلسلة التوزيع المرتبة. في السلسلة المنفصلة، ​​للعثور على قيمة الوسيط، يتم تحديد رقمه التسلسلي أولاً. للقيام بذلك، إذا كان عدد الوحدات فرديًا، تتم إضافة وحدة واحدة إلى مجموع جميع التكرارات، ويتم تقسيم الرقم على اثنين. إذا كان هناك عدد زوجي من الوحدات في صف واحد، فسيكون هناك وحدتان متوسطتان، لذلك في هذه الحالة يتم تعريف الوسيط على أنه متوسط ​​قيم الوحدتين الوسيطتين. وبالتالي، فإن الوسيط في سلسلة التباين المنفصلة هو القيمة التي تقسم السلسلة إلى جزأين يحتويان على نفس عدد الخيارات.

في سلسلة الفترات، بعد تحديد الرقم التسلسلي للوسيط، يتم العثور على الفاصل الزمني المتوسط ​​باستخدام التكرارات المتراكمة (الترددات)، ثم باستخدام صيغة حساب الوسيط، يتم تحديد قيمة الوسيط نفسه:

حيث Me هي القيمة المتوسطة؛ × أنا -الحد الأدنى للفاصل الزمني المتوسط؛ ح-عرض الفاصل الزمني المتوسط؛ - مجموع ترددات سلسلة التوزيع؛ /D - التكرار المتراكم للفاصل الزمني المتوسط؛ / أنا - تردد الفاصل الزمني المتوسط.

يمكن العثور على الوسيط بيانياً باستخدام التراكم. للقيام بذلك، على مقياس الترددات المتراكمة (الترددات) من التراكم، من النقطة المقابلة للرقم الترتيبي للوسيط، يتم رسم خط مستقيم بالتوازي مع محور الإحداثي السيني حتى يتقاطع مع التراكم. بعد ذلك، من نقطة تقاطع الخط المشار إليه مع التراكم، يتم تخفيض عمودي على محور الإحداثي السيني. قيمة السمة على المحور السيني المقابل للإحداثي المرسوم (المتعامد) هي الوسيط.

يتميز الوسيط بالخصائص التالية.

  • 1. لا يعتمد على قيم السمات الموجودة على جانبيه.
  • 2. لها خاصية التصغير، مما يعني أن مجموع الانحرافات المطلقة لقيم السمات عن الوسيط يمثل قيمة دنيا مقارنة بانحراف قيم السمات عن أي قيمة أخرى.
  • 3. عند الجمع بين توزيعين بمتوسطات معروفة، من المستحيل التنبؤ مسبقًا بقيمة متوسط ​​التوزيع الجديد.

تُستخدم خصائص الوسيط هذه على نطاق واسع عند تصميم موقع نقاط الخدمة العامة - المدارس والعيادات ومحطات الوقود ومضخات المياه وما إلى ذلك. على سبيل المثال، إذا كان من المخطط بناء عيادة في مبنى معين من المدينة، فسيكون من الأفضل تحديد موقعها في نقطة في المبنى لا تقلل من طول المبنى إلى النصف، بل عدد السكان.

تشير نسبة الوضع والوسيط والمتوسط ​​الحسابي إلى طبيعة توزيع الخاصية في المجموع وتسمح لنا بتقييم تماثل التوزيع. لو x Me ثم هناك عدم تناسق في الجانب الأيمن من السلسلة. مع التوزيع الطبيعي X -انا - مو.

قرر K. Pearson، استنادًا إلى محاذاة أنواع مختلفة من المنحنيات، أنه بالنسبة للتوزيعات غير المتماثلة إلى حد ما، تكون العلاقات التقريبية التالية بين المتوسط ​​الحسابي والوسيط والوضع صالحة:

حيث Me هي القيمة المتوسطة؛ مو - معنى الموضة؛ حساب x - قيمة الوسط الحسابي.

إذا كانت هناك حاجة لدراسة بنية سلسلة التباين بمزيد من التفصيل، فاحسب القيم المميزة المشابهة للوسيط. تقسم هذه القيم المميزة جميع وحدات التوزيع إلى أعداد متساوية، وتسمى الكميات أو التدرجات. يتم تقسيم الكميات إلى ربعيات، عشرية، نسب مئوية، الخ.

تقسم الربعات السكان إلى أربعة أجزاء متساوية. يتم حساب الربع الأول بشكل مشابه للوسيط باستخدام صيغة حساب الربع الأول، بعد تحديد الفاصل الربع سنوي الأول مسبقًا:

حيث Qi هي قيمة الربع الأول؛ سس^-الحد الأدنى لنطاق الربع الأول؛ ح- عرض فترة الربع الأول؛ /، - ترددات السلسلة الفاصلة؛

التكرار التراكمي في الفترة التي تسبق الفاصل الربعي الأول؛ Jq ( - تردد الفاصل الربعي الأول.

ويبين الربع الأول أن 25% من الوحدات السكانية أقل من قيمتها، و75% أكثر. الربع الثاني يساوي الوسيط، أي. س2=أنا.

على سبيل القياس، يتم حساب الربع الثالث، بعد العثور على الفاصل الزمني الربع سنوي الثالث لأول مرة:

أين هو الحد الأدنى لنطاق الربع الثالث؛ ح- عرض الفاصل الربعي الثالث؛ /، - ترددات السلسلة الفاصلة؛ /X" -التردد المتراكم في الفترة السابقة

ز

الفاصل الربعي الثالث؛ Jq هو تكرار الفاصل الربيعي الثالث.

ويبين الربع الثالث أن 75% من الوحدات السكانية أقل من قيمتها، و25% أكثر.

الفرق بين الربعين الثالث والأول هو المدى الربيعي:

حيث Aq هي قيمة المدى الربيعي؛ س 3 -القيمة الربعية الثالثة؛ Q هي قيمة الربع الأول.

العشريات تقسم السكان إلى 10 أجزاء متساوية. العشري هو قيمة إحدى الخصائص في سلسلة التوزيع التي تتوافق مع أعشار حجم السكان. وقياساً على الأرباع، يظهر العُشر الأول أن 10% من الوحدات السكانية أقل من قيمتها، و90% أكبر، ويكشف العُشر التاسع أن 90% من الوحدات السكانية أقل من قيمتها، و10% أقل من قيمتها. أكبر. نسبة العشرية التاسعة والأولى، أي. يستخدم المعامل العشري على نطاق واسع في دراسة تمايز الدخل لقياس نسبة مستويات الدخل لـ 10٪ الأكثر ثراء و 10٪ من السكان الأقل ثراءً. تقسم النسب المئوية السكان المصنفين إلى 100 جزء متساوٍ. يشبه حساب النسب المئوية ومعناها وتطبيقها العشيرية.

يمكن تحديد الربعيات والعشريات والخصائص الهيكلية الأخرى بيانياً عن طريق القياس مع الوسيط باستخدام التراكمات.

لقياس حجم التباين يتم استخدام المؤشرات التالية: مدى التباين، متوسط ​​الانحراف الخطي، الانحراف المعياري، التشتت. يعتمد حجم نطاق التباين كليًا على عشوائية توزيع الأعضاء المتطرفين في السلسلة. يعد هذا المؤشر مهمًا في الحالات التي يكون فيها من المهم معرفة مدى التقلبات في قيم الخاصية:

أين ص-قيمة نطاق الاختلاف. x max - الحد الأقصى لقيمة السمة؛ س تي تي -الحد الأدنى لقيمة السمة.

عند حساب نطاق التباين، لا تؤخذ في الاعتبار قيمة الغالبية العظمى من أعضاء السلسلة، بينما يرتبط التباين بكل قيمة لعضو السلسلة. المؤشرات التي هي متوسطات يتم الحصول عليها من انحرافات القيم الفردية للخاصية عن متوسط ​​قيمتها لا تحتوي على هذا العيب: متوسط ​​الانحراف الخطي والانحراف المعياري. هناك علاقة مباشرة بين الانحرافات الفردية عن المتوسط ​​وتباين سمة معينة. كلما كان التقلب أقوى، كلما زاد الحجم المطلق للانحرافات عن المتوسط.

متوسط ​​الانحراف الخطي هو الوسط الحسابي للقيم المطلقة لانحرافات الخيارات الفردية عن قيمتها المتوسطة.

متوسط ​​الانحراف الخطي للبيانات غير المجمعة

حيث /pr هي قيمة متوسط ​​الانحراف الخطي؛ x، - هي قيمة السمة؛ X - ع -عدد الوحدات في السكان.

متوسط ​​الانحراف الخطي للسلسلة المجمعة

حيث / vz - قيمة متوسط ​​الانحراف الخطي؛ x، هي قيمة السمة؛ X -متوسط ​​قيمة الخاصية للمجتمع الذي تتم دراسته؛ / - عدد الوحدات السكانية في مجموعة منفصلة.

وفي هذه الحالة يتم تجاهل علامات الانحرافات، وإلا فإن مجموع الانحرافات سيكون مساوياً للصفر. يتم حساب متوسط ​​الانحراف الخطي، اعتمادًا على تجميع البيانات التي تم تحليلها، باستخدام صيغ مختلفة: للبيانات المجمعة وغير المجمعة. نظرًا لاتفاقيته، يتم استخدام متوسط ​​الانحراف الخطي، بشكل منفصل عن مؤشرات التباين الأخرى، في الممارسة العملية نادرًا نسبيًا (على وجه الخصوص، لوصف الوفاء بالالتزامات التعاقدية فيما يتعلق بتوحيد التسليم؛ في تحليل دوران التجارة الخارجية، التكوين للموظفين وإيقاع الإنتاج وجودة المنتج مع مراعاة الميزات التكنولوجية للإنتاج وما إلى ذلك).

يميز الانحراف المعياري مدى انحراف القيم الفردية للخاصية التي تتم دراستها في المتوسط ​​عن متوسط ​​قيمة السكان، ويتم التعبير عنه بوحدات قياس الخاصية التي تتم دراستها. الانحراف المعياري، كونه أحد المقاييس الرئيسية للتباين، يستخدم على نطاق واسع في تقييم حدود تباين خاصية ما في مجتمع متجانس، وفي تحديد القيم الإحداثية لمنحنى التوزيع الطبيعي، وكذلك في الحسابات المتعلقة تنظيم مراقبة العينة وتحديد دقة خصائص العينة. يتم حساب الانحراف المعياري للبيانات غير المجمعة باستخدام الخوارزمية التالية: يتم تربيع كل انحراف عن الوسط، ويتم جمع جميع المربعات، وبعد ذلك يتم قسمة مجموع المربعات على عدد حدود السلسلة ويتم استخراج الجذر التربيعي من حاصل:

حيث Iip هي قيمة الانحراف المعياري؛ XJ-قيمة السمة؛ X- متوسط ​​قيمة الخاصية بالنسبة للمجتمع الذي تتم دراسته؛ ع -عدد الوحدات في السكان.

بالنسبة للبيانات المجمعة التي تم تحليلها، يتم حساب الانحراف المعياري للبيانات باستخدام الصيغة المرجحة

أين - قيمة الانحراف المعياري XJ-قيمة السمة؛ X -متوسط ​​قيمة الخاصية للمجتمع الذي تتم دراسته؛ و س -عدد الوحدات السكانية في مجموعة معينة.

ويسمى التعبير الموجود تحت الجذر في كلتا الحالتين بالتباين. وبالتالي، يتم حساب التشتت على أنه متوسط ​​مربع انحرافات قيم السمات عن قيمتها المتوسطة. بالنسبة لقيم السمات غير المرجحة (البسيطة)، يتم تحديد التباين على النحو التالي:

للقيم المميزة المرجحة

هناك أيضًا طريقة مبسطة خاصة لحساب التباين: بشكل عام

للقيم المميزة غير الموزونة (البسيطة). للقيم المميزة المرجحة
باستخدام الطريقة الصفرية

حيث 2 هي قيمة التشتت؛ x، - هي قيمة السمة؛ X -متوسط ​​قيمة الخاصية، ح-قيمة الفاصل الزمني للمجموعة, ر 1 -الوزن (أ=

للتشتت تعبيره الخاص في الإحصائيات وهو أحد أهم مؤشرات التباين. ويتم قياسها بالوحدات المقابلة لمربع وحدات قياس الخاصية محل الدراسة.

التشتت لديه الخصائص التالية.

  • 1. تباين القيمة الثابتة هو صفر.
  • 2. تخفيض جميع قيم الخاصية بنفس القيمة A لا يغير قيمة التشتت. وهذا يعني أنه لا يمكن حساب متوسط ​​مربع الانحرافات من قيم معينة لخاصية معينة، ولكن من انحرافاتها عن عدد ثابت ما.
  • 3. تقليل أي قيم مميزة في كمرات يقلل من التشتت بواسطة كمرتين، والانحراف المعياري موجود كمرات، أي. يمكن تقسيم جميع قيم السمة على رقم ثابت (على سبيل المثال، على قيمة الفاصل الزمني للسلسلة)، ويمكن حساب الانحراف المعياري، ثم ضربه في رقم ثابت.
  • 4. إذا قمنا بحساب متوسط ​​مربع الانحرافات عن أي قيمة ويختلف بدرجة أو بأخرى عن الوسط الحسابي، فسيكون دائمًا أكبر من متوسط ​​مربع الانحرافات المحسوبة من الوسط الحسابي. سيكون متوسط ​​مربع الانحرافات أكبر بمقدار معين جدًا - بمربع الفرق بين المتوسط ​​وهذه القيمة المأخوذة تقليديًا.

يتمثل تباين الخاصية البديلة في وجود أو عدم وجود الخاصية المدروسة في وحدات من السكان. من الناحية الكمية، يتم التعبير عن تباين السمة البديلة بقيمتين: يُشار إلى وجود وحدة من الخاصية المدروسة بالواحد (1)، ويشار إلى غيابها بالصفر (0). يُشار إلى نسبة الوحدات التي تمتلك الخاصية محل الدراسة بالرمز P، ويرمز لنسبة الوحدات التي لا تمتلك هذه الخاصية بالرمز P ز.وبالتالي فإن تباين صفة بديلة يساوي حاصل ضرب نسبة الوحدات التي تمتلك هذه الخاصية (P) في نسبة الوحدات التي لا تمتلك هذه الخاصية (ز).ويتحقق أكبر تباين في عدد السكان في الحالات التي يكون فيها جزء من السكان، يشكل 50% من الحجم الإجمالي للسكان، يتمتع بهذه الخاصية، وجزء آخر من السكان، يساوي أيضًا 50%، لا يتمتع بهذه الخاصية، ويصل التشتت إلى قيمة قصوى تبلغ 0.25، t .e. ف = 0.5، ز= 1 - ف = 1 - 0.5 = 0.5 و س 2 = 0.5 0.5 = 0.25. الحد الأدنى لهذا المؤشر هو صفر، وهو ما يتوافق مع الحالة التي لا يوجد فيها اختلاف في المجموع. التطبيق العملي لتباين الخاصية البديلة هو بناء فترات الثقة عند إجراء ملاحظات العينة.

كلما كان التباين والانحراف المعياري أصغر، كلما كان المجتمع أكثر تجانسًا وكان المتوسط ​​أكثر نموذجية. في ممارسة الإحصاء، غالبًا ما تكون هناك حاجة لمقارنة الاختلافات في الخصائص المختلفة. على سبيل المثال، من المثير للاهتمام مقارنة الاختلافات في عمر العمال ومؤهلاتهم، ومدة الخدمة والأجور، والتكلفة والأرباح، وطول الخدمة وإنتاجية العمل، وما إلى ذلك. بالنسبة لمثل هذه المقارنات، فإن مؤشرات التباين المطلق للخصائص غير مناسبة: فمن المستحيل مقارنة تقلب خبرة العمل، المعبر عنها بالسنوات، مع تباين الأجور، المعبر عنها بالروبل. لإجراء مثل هذه المقارنات، وكذلك مقارنات تباين نفس الخاصية في العديد من المجموعات السكانية بوسائل حسابية مختلفة، يتم استخدام مؤشرات التباين - معامل التذبذب، ومعامل التباين الخطي ومعامل التباين، والتي توضح المقياس من تقلبات القيم المتطرفة حول المتوسط.

معامل التذبذب:

أين في آر -قيمة معامل التذبذب ر- قيمة نطاق الاختلاف؛ X -

معامل التباين الخطي".

أين Vj-قيمة المعامل الخطي للاختلاف. أنا -قيمة متوسط ​​الانحراف الخطي. X -متوسط ​​قيمة الخاصية للمجتمع محل الدراسة.

معامل الاختلاف:

أين الخامس أ -معامل قيمة الاختلاف. أ هي قيمة الانحراف المعياري؛ X -متوسط ​​قيمة الخاصية للمجتمع محل الدراسة.

معامل التذبذب هو النسبة المئوية لمدى التباين إلى متوسط ​​قيمة الخاصية محل الدراسة، ومعامل التباين الخطي هو نسبة متوسط ​​الانحراف الخطي إلى متوسط ​​قيمة الخاصية محل الدراسة، ويعبر عنه بـ نسبة مئوية. معامل الاختلاف هو نسبة الانحراف المعياري إلى متوسط ​​قيمة الخاصية محل الدراسة. كقيمة نسبية، يتم التعبير عنها كنسبة مئوية، يتم استخدام معامل التباين لمقارنة درجة التباين في الخصائص المختلفة. باستخدام معامل الاختلاف، يتم تقييم تجانس السكان الإحصائيين. وإذا كان معامل التباين أقل من 33% فإن المجتمع محل الدراسة متجانس والتباين ضعيف. إذا كان معامل التباين أكثر من 33%، فإن المجتمع قيد الدراسة غير متجانس، والتباين قوي، والقيمة المتوسطة غير نمطية ولا يمكن استخدامها كمؤشر عام لهذه السكان. بالإضافة إلى ذلك، يتم استخدام معاملات الاختلاف لمقارنة تباين سمة واحدة في مجموعات سكانية مختلفة. على سبيل المثال، لتقييم التباين في مدة خدمة العمال في مؤسستين. كلما ارتفعت قيمة المعامل، كلما كان التباين في الخاصية أكثر أهمية.

واستنادًا إلى الربعيات المحسوبة، من الممكن أيضًا حساب المؤشر النسبي للتغير ربع السنوي باستخدام الصيغة

حيث س 2 و

يتم تحديد النطاق الربيعي بواسطة الصيغة

يتم استخدام الانحراف الربعي بدلاً من نطاق التباين لتجنب العيوب المرتبطة باستخدام القيم المتطرفة:

بالنسبة لسلسلة تباين الفترات غير المتكافئة، يتم حساب كثافة التوزيع أيضًا. يتم تعريفه على أنه حاصل قسمة التردد أو التردد المقابل على قيمة الفاصل الزمني. في سلسلة الفواصل غير المتساوية، يتم استخدام كثافات التوزيع المطلقة والنسبية. كثافة التوزيع المطلقة هي التكرار لكل وحدة طول الفاصل الزمني. كثافة التوزيع النسبية هي التكرار لكل وحدة طول الفاصل الزمني.

كل ما سبق ينطبق على سلسلة التوزيع التي يوصف قانون توزيعها جيدًا بقانون التوزيع الطبيعي أو يكون قريبًا منه.

متغيرتسمى سلسلة التوزيع المبنية على أساس كمي. قيم الخصائص الكمية في الوحدات الفردية من السكان ليست ثابتة وتختلف أكثر أو أقل عن بعضها البعض.

تفاوت- التقلب والتغير في قيمة الخاصية بين وحدات السكان. يتم استدعاء القيم العددية الفردية للخاصية الموجودة في السكان قيد الدراسة خياراتقيم. إن عدم كفاية القيمة المتوسطة لتوصيف السكان بالكامل يجبرنا على استكمال القيم المتوسطة بمؤشرات تسمح لنا بتقييم نموذجية هذه المتوسطات من خلال قياس التباين (التباين) للخاصية قيد الدراسة.

يرجع وجود التباين إلى تأثير عدد كبير من العوامل على تكوين مستوى السمة. تعمل هذه العوامل بقوة غير متساوية وفي اتجاهات مختلفة. تُستخدم مؤشرات التباين لوصف مقياس تباين السمات.

أهداف الدراسة الإحصائية للتباين:

  • 1) دراسة طبيعة ودرجة تباين الخصائص في الوحدات الفردية من السكان؛
  • 2) تحديد دور العوامل الفردية أو مجموعاتها في تباين خصائص معينة للسكان.

في الإحصاء يتم استخدام طرق خاصة لدراسة التباين، تعتمد على استخدام نظام المؤشرات، معوالتي يتم من خلالها قياس التباين.

البحث عن الاختلاف مهم. يعد قياس الاختلافات ضروريًا عند إجراء مراقبة العينات وتحليل الارتباط والتباين وما إلى ذلك. إرمولايف أو.يو. الإحصاء الرياضي لعلماء النفس: كتاب مدرسي [نص]/ O.Yu. إرمولايف. - م: دار نشر فلينت التابعة لمعهد موسكو النفسي والاجتماعي، 2012. - 335 ص.

من خلال درجة التباين يمكن الحكم على تجانس السكان واستقرار القيم الفردية للخصائص ونموذجية المتوسط. وعلى أساسها يتم تطوير مؤشرات قرب العلاقة بين الخصائص ومؤشرات تقييم دقة ملاحظة العينة.

ويفرق بين اختلاف المكان واختلاف الزمان.

يُفهم التباين في الفضاء على أنه تقلب قيم السمات بين الوحدات السكانية التي تمثل المناطق الفردية. يشير التغير الزمني إلى التغيرات في قيم الخاصية خلال فترات زمنية مختلفة.

لدراسة الاختلاف في صفوف التوزيع، يتم ترتيب جميع متغيرات قيم السمات بترتيب تصاعدي أو تنازلي. تسمى هذه العملية ترتيب السلسلة.

أبسط علامات الاختلاف هي الحد الأدنى والحد الأقصى- أصغر وأكبر قيمة للسمة في المجموع. يُطلق على عدد التكرارات للمتغيرات الفردية لقيم الميزة اسم تردد التكرار (fi). من الملائم استبدال الترددات بالترددات - wi. التردد هو مؤشر نسبي للتكرار، والذي يمكن التعبير عنه بأجزاء من الوحدة أو كنسبة مئوية ويسمح لك بمقارنة سلسلة التباين بأعداد مختلفة من الملاحظات. يتم التعبير عنها بالصيغة:

حيث Xmax، Xmin هي القيم القصوى والدنيا للخاصية في المجموع؛ ن - عدد المجموعات.

لقياس تباين السمات، يتم استخدام مؤشرات مطلقة ونسبية مختلفة. تشمل المؤشرات المطلقة للتباين نطاق التباين ومتوسط ​​الانحراف الخطي والتشتت والانحراف المعياري. تشمل المؤشرات النسبية للتذبذب معامل التذبذب، والانحراف الخطي النسبي، ومعامل الاختلاف.

مثال على العثور على سلسلة الاختلاف

يمارس.لهذه العينة:

  • أ) العثور على سلسلة الاختلاف؛
  • ب) بناء وظيفة التوزيع.

رقم=42. عناصر العينة:

1 5 1 8 1 3 9 4 7 3 7 8 7 3 2 3 5 3 8 3 5 2 8 3 7 9 5 8 8 1 2 2 5 1 6 1 7 6 7 7 6 2

حل.

  • أ) بناء سلسلة التباين المرتبة:
    • 1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 4 5 5 5 5 5 6 6 6 7 7 7 7 7 7 7 8 8 8 8 8 8 9 9
  • ب) بناء سلسلة الاختلاف المنفصلة.

لنحسب عدد المجموعات في سلسلة التباين باستخدام صيغة Sturgess:

لنأخذ عدد المجموعات ليكون 7.

وبمعرفة عدد المجموعات نحسب حجم الفاصل الزمني:

لتسهيل إنشاء الجدول، سنأخذ عدد المجموعات يساوي 8، وسيكون الفاصل الزمني 1.

أرز. 1 حجم مبيعات البضائع من قبل المتجر لفترة زمنية معينة

مفهوم سلسلة الاختلافالخطوة الأولى في تنظيم مواد المراقبة الإحصائية هي حساب عدد الوحدات التي لها خاصية معينة. ومن خلال ترتيب الوحدات تصاعديًا أو تنازليًا لخصائصها الكمية وحساب عدد الوحدات ذات القيمة المحددة للخاصية، نحصل على سلسلة تباين. تصف سلسلة التباين توزيع وحدات مجموعة إحصائية معينة وفقًا لبعض الخصائص الكمية.

تتكون سلسلة التباين من عمودين، العمود الأيسر يحتوي على قيم الخاصية المتغيرة، تسمى المتغيرات ويرمز لها بـ (x)، والعمود الأيمن يحتوي على أرقام مطلقة توضح عدد مرات حدوث كل متغير. تسمى المؤشرات الموجودة في هذا العمود بالترددات ويتم تحديدها بالرمز (f).

يمكن عرض سلسلة التباين بشكل تخطيطي في شكل جدول 5.1:

الجدول 5.1

نوع سلسلة الاختلاف

الخيارات (خ)

الترددات (و)

في العمود الأيمن، يمكن أيضًا استخدام المؤشرات النسبية التي تحدد حصة تكرار الخيارات الفردية في المجموع الإجمالي للترددات. تسمى هذه المؤشرات النسبية بالترددات ويتم الإشارة إليها تقليديًا بـ ، على سبيل المثال. . مجموع كل الترددات يساوي واحد. يمكن أيضًا التعبير عن التكرارات كنسب مئوية، ومن ثم سيكون مجموعها مساويًا لـ 100%.

علامات مختلفة قد تكون ذات طبيعة مختلفة. يتم التعبير عن متغيرات بعض الخصائص بأعداد صحيحة، على سبيل المثال، عدد الغرف في الشقة، وعدد الكتب المنشورة، وما إلى ذلك. وتسمى هذه العلامات متقطعة أو منفصلة. يمكن لمتغيرات الخصائص الأخرى أن تأخذ أي قيم ضمن حدود معينة، مثل إنجاز المهام المخططة والأجور وما إلى ذلك. وتسمى هذه الخصائص مستمرة.

سلسلة الاختلاف المنفصلةإذا تم التعبير عن متغيرات سلسلة التباين في شكل كميات منفصلة، ​​فإن سلسلة التباين هذه تسمى منفصلة؛ ويتم عرض مظهرها في الجدول. 5.2:

الجدول 5.2

توزيع الطلاب حسب درجات الامتحانات

التقييمات (x)

عدد الطلاب (و)

في المائة من الإجمالي ()

يتم تصوير طبيعة التوزيع في سلسلة منفصلة بيانياً في شكل مضلع التوزيع، الشكل 5.1.

أرز. 5.1. توزيع الطلاب حسب الدرجات التي حصلوا عليها في الامتحان.

سلسلة الاختلافات الفاصلة.بالنسبة للخصائص المستمرة، يتم إنشاء سلسلة الاختلاف كسلسلة فاصلة، أي. ويتم التعبير عن قيم الخاصية فيها على شكل فترات "من وإلى". في هذه الحالة، يُطلق على القيمة الدنيا للخاصية في مثل هذا الفاصل الزمني اسم الحد الأدنى للفاصل الزمني، ويسمى الحد الأقصى الحد الأعلى للفاصل الزمني.

يتم إنشاء سلسلة تباين الفترات لكل من الخصائص المتقطعة (المنفصلة) وتلك التي تختلف عبر نطاق كبير. يمكن أن تكون صفوف الفواصل الزمنية ذات فواصل زمنية متساوية أو غير متساوية. في الممارسة الاقتصادية، يتم استخدام معظم الفترات غير المتساوية، والتي تتزايد أو تتناقص تدريجيا. وتنشأ هذه الحاجة خاصة في الحالات التي يحدث فيها تقلب الخاصية بشكل غير متساو وفي حدود كبيرة.

دعونا نفكر في نوع سلسلة الفواصل الزمنية ذات الفواصل الزمنية المتساوية، الجدول. 5.3:

الجدول 5.3

توزيع العمال حسب الإنتاج

الإخراج، ر. (X)

عدد العمال (و)

التردد التراكمي (f')

يتم تصوير سلسلة التوزيع الفاصلة بيانياً في شكل رسم بياني، الشكل 5.2.

الشكل 5.2. توزيع العمال حسب الإنتاج

التردد المتراكم (التراكمي).ومن الناحية العملية، هناك حاجة لتحويل سلسلة التوزيع إلى سلسلة تراكمية,بنيت وفقا للترددات المتراكمة. وبمساعدتهم، يمكنك تحديد المتوسطات الهيكلية التي تسهل تحليل بيانات سلسلة التوزيع.

يتم تحديد التكرارات التراكمية عن طريق الإضافة المتتابعة إلى ترددات (أو ترددات) المجموعة الأولى هذه المؤشرات للمجموعات اللاحقة من سلسلة التوزيع. يتم استخدام التراكمات و ogives لتوضيح سلسلة التوزيع. ولبنائها، يتم تحديد قيم الخاصية المنفصلة (أو نهايات الفترات) على محور الإحداثي، ويتم تحديد المجاميع التراكمية للترددات (المتراكمة) على المحور الإحداثي، الشكل 5.3.

أرز. 5.3. التوزيع التراكمي للعمال حسب الإنتاج

إذا انقلبت موازين الترددات والخيارات، أي. يعكس محور الإحداثي الترددات المتراكمة، ويظهر المحور الإحداثي قيم المتغيرات، ثم سيطلق على المنحنى الذي يميز التغير في الترددات من مجموعة إلى أخرى اسم توزيع التوزيع، الشكل 5.4.

أرز. 5.4. أوجيفا توزيع العمال حسب الإنتاج

توفر سلاسل التباين ذات الفواصل الزمنية المتساوية أحد أهم متطلبات سلاسل التوزيع الإحصائية، مما يضمن قابليتها للمقارنة في الزمان والمكان.

كثافة التوزيع.ومع ذلك، فإن ترددات الفترات غير المتساوية الفردية في السلسلة المسماة لا يمكن مقارنتها بشكل مباشر. في مثل هذه الحالات، لضمان المقارنة اللازمة، يتم حساب كثافة التوزيع، أي. تحديد عدد الوحدات في كل مجموعة لكل وحدة قيمة المجال.

عند إنشاء رسم بياني لتوزيع سلسلة التباين بفواصل غير متساوية، يتم تحديد ارتفاع المستطيلات بما يتناسب ليس مع الترددات، ولكن مع مؤشرات الكثافة لتوزيع قيم الخاصية التي تتم دراستها في المقابلة فترات.

إن إعداد سلسلة التباين وتمثيلها الرسومي هو الخطوة الأولى في معالجة البيانات الأولية والمرحلة الأولى في تحليل السكان قيد الدراسة. الخطوة التالية في تحليل سلسلة التباين هي تحديد المؤشرات العامة الرئيسية، والتي تسمى خصائص السلسلة. ويجب أن تعطي هذه الخصائص فكرة عن متوسط ​​قيمة الخاصية بين الوحدات السكانية.

متوسط ​​القيمة. القيمة المتوسطة هي صفة معممة للصفة التي تتم دراستها في المجتمع محل الدراسة، وتعكس مستواها النموذجي لكل وحدة من السكان في ظل ظروف محددة من المكان والزمان.

تتم تسمية القيمة المتوسطة دائمًا ولها نفس البعد الذي تتميز به الوحدات الفردية من السكان.

قبل حساب القيم المتوسطة، من الضروري تجميع وحدات السكان قيد الدراسة، وتحديد المجموعات المتجانسة نوعيا.

ويسمى المتوسط ​​المحسوب للسكان ككل المتوسط ​​العام، ولكل مجموعة - متوسطات المجموعة.

هناك نوعان من المتوسطات: القوة (الوسط الحسابي، الوسط التوافقي، الوسط الهندسي، الوسط التربيعي)؛ الهيكلية (الوضع، الوسيط، الربعيات، العشريات).

يعتمد اختيار المتوسط ​​للحساب على الغرض.

أنواع متوسطات القدرة وطرق حسابها.في ممارسة المعالجة الإحصائية للمواد التي تم جمعها، تنشأ مشاكل مختلفة، والتي يتطلب حلها متوسطات مختلفة.

تستمد الإحصائيات الرياضية متوسطات مختلفة من صيغ متوسط ​​القدرة:

أين القيمة المتوسطة؟ x - الخيارات الفردية (قيم الميزات)؛ z – الأس (مع z = 1 – الوسط الحسابي، z = 0 الوسط الهندسي، z = - 1 – الوسط التوافقي، z = 2 – الوسط المربع).

ومع ذلك، فإن مسألة نوع المتوسط ​​الذي ينبغي تطبيقه في كل حالة على حدة يتم حلها من خلال تحليل محدد للسكان قيد الدراسة.

النوع الأكثر شيوعًا للمتوسط ​​في الإحصائيات هو يعني حسابي. يتم حسابه في الحالات التي يتشكل فيها حجم الخاصية المتوسطة كمجموع قيمها للوحدات الفردية للمجتمع الإحصائي قيد الدراسة.

اعتماداً على طبيعة البيانات المصدرية، يتم تحديد الوسط الحسابي بعدة طرق:

إذا كانت البيانات غير مجمعة، فسيتم إجراء الحساب باستخدام صيغة المتوسط ​​البسيط

حساب الوسط الحسابي في سلسلة منفصلةيحدث وفقا للصيغة 3.4.

حساب الوسط الحسابي في سلسلة زمنية.في سلسلة تباين الفاصل الزمني، حيث يتم تقليديًا اعتبار قيمة الخاصية في كل مجموعة هي منتصف الفاصل الزمني، قد يختلف المتوسط ​​الحسابي عن المتوسط ​​المحسوب من البيانات غير المجمعة. علاوة على ذلك، كلما زاد الفاصل الزمني في المجموعات، زادت الانحرافات المحتملة للمتوسط ​​المحسوب من البيانات المجمعة عن المتوسط ​​المحسوب من البيانات غير المجمعة.

عند حساب المتوسط ​​عبر سلسلة تباين الفاصل الزمني، لإجراء الحسابات اللازمة، ينتقل المرء من الفواصل الزمنية إلى نقاط المنتصف. ومن ثم يتم حساب المتوسط ​​باستخدام صيغة المتوسط ​​الحسابي المرجح.

خصائص الوسط الحسابي.للوسط الحسابي بعض الخصائص التي تجعل من الممكن تبسيط العمليات الحسابية؛

1. الوسط الحسابي للأعداد الثابتة يساوي هذا العدد الثابت.

إذا س = أ. ثم .

2. إذا تم تغيير أوزان جميع الخيارات بشكل متناسب، أي. زيادة أو نقصان بنفس العدد من المرات فإن الوسط الحسابي للمتسلسلة الجديدة لن يتغير.

إذا تم تخفيض جميع الأوزان f بمقدار k مرات، إذن .

3. مجموع الانحرافات الإيجابية والسلبية للخيارات الفردية عن المتوسط، مضروبا في الأوزان، يساوي صفر، أي.

إذا، ثم. من هنا.

إذا تم تقليل أو زيادة جميع الخيارات بأي رقم، فإن الوسط الحسابي للمتسلسلة الجديدة سوف ينقص أو يزيد بنفس المقدار.

دعونا نقلل جميع الخيارات سعلى أ، أي. س´ = سأ.

ثم

ويمكن الحصول على المتوسط ​​الحسابي للسلسلة الأصلية عن طريق إضافة إلى المتوسط ​​المخفض الرقم الذي سبق طرحه من الخيارات أ، أي. .

5. إذا تم تقليل أو زيادة جميع الخيارات كمرات، فإن الوسط الحسابي للمتسلسلة الجديدة سينقص أو يزيد بنفس المقدار، أي. V كمرة واحدة.

فليكن بعد ذلك .

وبالتالي، أي. للحصول على متوسط ​​السلسلة الأصلية، يجب زيادة المتوسط ​​الحسابي للسلسلة الجديدة (مع خيارات مخفضة) بمقدار كمرة واحدة.

الوسط التوافقي.الوسط التوافقي هو مقلوب الوسط الحسابي. يتم استخدامه عندما لا تحتوي المعلومات الإحصائية على ترددات للمتغيرات الفردية للسكان، ولكن يتم تقديمها كمنتج لها (M = xf). سيتم حساب المتوسط ​​التوافقي باستخدام الصيغة 3.5

التطبيق العملي للوسط التوافقي هو حساب بعض المؤشرات، وعلى وجه الخصوص، الرقم القياسي للأسعار.

المتوسط ​​الهندسي.عند استخدام الوسط الهندسي، فإن القيم الفردية للخاصية هي، كقاعدة عامة، قيم نسبية للديناميكيات، مبنية في شكل قيم متسلسلة، كنسبة إلى المستوى السابق لكل مستوى في سلسلة من الديناميكيات. وهكذا فإن المتوسط ​​يميز متوسط ​​معدل النمو.

تُستخدم القيمة المتوسطة الهندسية أيضًا لتحديد القيمة المتساوية البعد من القيم القصوى والدنيا للخاصية. على سبيل المثال، تقوم شركة التأمين بإبرام عقود لتوفير خدمات التأمين على السيارات. اعتمادًا على الحدث المؤمن عليه، يمكن أن يتراوح مبلغ التأمين من 10000 إلى 100000 دولار سنويًا. سيكون متوسط ​​مبلغ مدفوعات التأمين بالدولار الأمريكي.

المتوسط ​​الهندسي هو كمية تستخدم كمتوسط ​​للنسب أو في سلسلة التوزيع المقدمة في شكل تقدم هندسي عندما يكون z = 0. وهذا المتوسط ​​مناسب للاستخدام عندما لا يتم الاهتمام بالاختلافات المطلقة، ولكن إلى نسب اثنين أرقام.

صيغ الحساب هي كما يلي

أين يتم حساب متوسط ​​متغيرات الخاصية؟ - منتج الخيارات؛ و- تواتر الخيارات.

ويستخدم الوسط الهندسي في حساب متوسط ​​معدلات النمو السنوية.

يعني مربع.تُستخدم صيغة المربع المتوسط ​​لقياس درجة تقلب القيم الفردية للخاصية حول الوسط الحسابي في سلسلة التوزيع. وبالتالي، عند حساب مؤشرات التباين، يتم حساب المتوسط ​​من الانحرافات التربيعية للقيم الفردية للخاصية من الوسط الحسابي.

يتم حساب قيمة الجذر التربيعي المتوسط ​​باستخدام الصيغة

في البحوث الاقتصادية، يُستخدم المربع المتوسط ​​المعدل على نطاق واسع في حساب مؤشرات تباين إحدى الخصائص، مثل التشتت والانحراف المعياري.

حكم الأغلبية.توجد العلاقة التالية بين متوسطات القدرة - كلما زاد الأس، زادت قيمة المتوسط، الجدول 5.4:

الجدول 5.4

العلاقة بين المتوسطات

قيمة ض

العلاقة بين المتوسطات

وتسمى هذه العلاقة بقاعدة الأغلبية.

المتوسطات الهيكلية.لتوصيف هيكل السكان، يتم استخدام مؤشرات خاصة، والتي يمكن أن تسمى المتوسطات الهيكلية. وتشمل هذه المؤشرات الوضع والوسيط والرباعيات والعشريات.

موضة.الوضع (Mo) هو القيمة الأكثر تكرارًا للخاصية بين الوحدات السكانية. الوضع هو قيمة السمة التي تتوافق مع النقطة القصوى لمنحنى التوزيع النظري.

تُستخدم الموضة على نطاق واسع في الممارسة التجارية عند دراسة طلب المستهلكين (عند تحديد مقاسات الملابس والأحذية التي عليها طلب واسع)، وتسجيل الأسعار. قد يكون هناك عدة تعديلات في المجموع.

حساب الوضع في سلسلة منفصلة.في سلسلة منفصلة، ​​الوضع هو المتغير ذو التردد الأعلى. دعونا نفكر في العثور على وضع في سلسلة منفصلة.

حساب الوضع في سلسلة الفاصلة.في سلسلة تباين الفاصل الزمني، يعتبر الوضع تقريبًا هو المتغير المركزي للفاصل المشروط، أي. الفاصل الزمني الذي يحتوي على أعلى تردد (التردد). خلال الفاصل الزمني، تحتاج إلى العثور على قيمة السمة التي تمثل الوضع. بالنسبة لسلسلة الفاصل الزمني، سيتم تحديد الوضع بواسطة الصيغة

أين هو الحد الأدنى للفاصل المشروط؛ - قيمة الفاصل الزمني المشروط؛ - التردد المقابل للفاصل الوسائطي؛ - التردد الذي يسبق الفاصل الوسائطي؛ - تردد الفاصل الزمني الذي يلي الفترة المشروطة.

متوسط.الوسيط () هو قيمة سمة الوحدة الوسطى من السلسلة المرتبة. السلسلة المرتبة هي سلسلة تُكتب فيها قيم السمات بترتيب تصاعدي أو تنازلي. أو الوسيط هو القيمة التي تقسم عدد سلسلة التباين المرتبة إلى جزأين متساويين: جزء واحد له قيمة الخاصية المتغيرة أقل من خيار المتوسط، والآخر له قيمة أكبر.

للعثور على الوسيط، حدد أولًا رقمه الترتيبي. للقيام بذلك، إذا كان عدد الوحدات فرديًا، تتم إضافة وحدة واحدة إلى مجموع جميع التكرارات ويتم تقسيم كل شيء على اثنين. مع عدد زوجي من الوحدات، يتم العثور على الوسيط كقيمة سمة الوحدة، ويتم تحديد الرقم التسلسلي لها من خلال مجموع الترددات مقسومًا على اثنين. بمعرفة الرقم التسلسلي للوسيط، من السهل العثور على قيمته باستخدام الترددات المتراكمة.

حساب الوسيط في سلسلة منفصلة.ومن خلال مسح العينة تم الحصول على بيانات توزيع الأسر حسب عدد الأطفال، جدول. 5.5. لتحديد الوسيط، نحدد أولًا رقمه الترتيبي

في هذه العائلات عدد الأطفال يساوي 2، وبالتالي = 2. وهكذا، في 50٪ من الأسر لا يتجاوز عدد الأطفال 2.

- التردد المتراكم الذي يسبق الفاصل الزمني المتوسط؛

من ناحية، هذه خاصية إيجابية للغاية لأن وفي هذه الحالة، يؤخذ في الاعتبار تأثير جميع الأسباب التي تؤثر على جميع وحدات السكان قيد الدراسة. من ناحية أخرى، حتى ملاحظة واحدة مدرجة في البيانات المصدر عن طريق الصدفة يمكن أن تشوه بشكل كبير فكرة مستوى تطور السمة قيد الدراسة في السكان قيد النظر (خاصة في السلاسل القصيرة).

الرباعيات والأعشارية.من خلال القياس مع إيجاد الوسيط في سلسلة التباين، يمكنك العثور على قيمة خاصية لأي وحدة من السلسلة المرتبة. لذلك، على وجه الخصوص، يمكنك العثور على قيمة السمة للوحدات التي تقسم السلسلة إلى 4 أجزاء متساوية، إلى 10، وما إلى ذلك.

الربعيات.تسمى الخيارات التي تقسم السلسلة المرتبة إلى أربعة أجزاء متساوية بالربيعات.

في هذه الحالة، يميزون: الربع الأدنى (أو الأول) (Q1) - قيمة السمة لوحدة من السلسلة المرتبة، وتقسيم السكان بنسبة ¼ إلى ¾ والربيع العلوي (أو الثالث) ( Q3) - قيمة السمة لوحدة السلسلة المرتبة، بتقسيم السكان بنسبة ¾ إلى ¼.

– ترددات الفواصل الربعية (السفلى والعليا)

يتم تحديد الفواصل الزمنية التي تحتوي على Q1 وQ3 بواسطة الترددات المتراكمة (أو الترددات).

العشريات.بالإضافة إلى الأرباع، يتم حساب العشريات - الخيارات التي تقسم السلسلة المرتبة إلى 10 أجزاء متساوية.

تم تحديدها بواسطة D، العشري الأول D1 يقسم السلسلة بنسبة 1/10 و9/10، والثاني D2 - 2/10 و8/10، إلخ. يتم حسابها وفقًا لنفس مخطط الوسيط والربيع.

ينتمي كل من الوسيط والربيع والعشائر إلى ما يسمى بالإحصائيات الترتيبية، والتي تُفهم على أنها خيار يحتل مكانًا ترتيبيًا معينًا في السلسلة المرتبة.

تسمح لك طريقة التجميع أيضًا بالقياس تفاوت(التقلب والتقلب) من العلامات. عندما يكون عدد الوحدات في مجتمع ما صغيرًا نسبيًا، يتم قياس التباين بناءً على العدد المصنف للوحدات التي يتكون منها المجتمع. السلسلة تسمى مرتبة,إذا تم ترتيب الوحدات بترتيب تصاعدي (تنازلي) للخاصية.

ومع ذلك، تعتبر السلاسل المرتبة مؤشرة تمامًا عندما تكون هناك حاجة إلى خاصية مقارنة للتباين. بالإضافة إلى ذلك، يتعين علينا في كثير من الحالات أن نتعامل مع مجموعات إحصائية تتكون من عدد كبير من الوحدات، والتي يصعب عمليًا تمثيلها في شكل سلسلة محددة. في هذا الصدد، من أجل التعرف العام الأولي على البيانات الإحصائية وخاصة لتسهيل دراسة التباين في الخصائص، عادة ما يتم دمج الظواهر والعمليات قيد الدراسة في مجموعات، ويتم عرض نتائج التجميع في شكل جداول جماعية.

إذا كان جدول المجموعة يحتوي على عمودين فقط - مجموعات حسب الخاصية المحددة (الخيارات) وعدد المجموعات (التكرار أو التكرار)، فإنه يسمى بالقرب من التوزيع.

نطاق التوزيع -أبسط نوع من التجميع الهيكلي وفقًا لخاصية واحدة، ويتم عرضه في جدول مجموعات يحتوي على عمودين يحتويان على متغيرات وتكرارات الخاصية. في كثير من الحالات، مع مثل هذا التجمع الهيكلي، أي. ومع تجميع سلسلة التوزيع، تبدأ دراسة المادة الإحصائية الأولية.

يمكن تحويل التجميع الهيكلي في شكل سلسلة توزيع إلى تجميع هيكلي حقيقي إذا كانت المجموعات المختارة تتميز ليس فقط بالتكرارات، ولكن أيضًا بمؤشرات إحصائية أخرى. الغرض الرئيسي من سلسلة التوزيع هو دراسة تباين الخصائص. تم تطوير نظرية سلسلة التوزيع بالتفصيل عن طريق الإحصاء الرياضي.

وتنقسم سلسلة التوزيع إلى عزوي(التجميع وفقًا للخصائص المنسوبة، على سبيل المثال تقسيم السكان حسب الجنس، والجنسية، والحالة الاجتماعية، وما إلى ذلك) و متغير(التجميع حسب الخصائص الكمية).

سلسلة الاختلافهو جدول مجموعات يحتوي على عمودين: تجميع الوحدات حسب خاصية كمية واحدة وعدد الوحدات في كل مجموعة. عادة ما تكون الفواصل الزمنية في سلسلة التباين متساوية ومغلقة. سلسلة الاختلاف هي المجموعة التالية للسكان الروس حسب متوسط ​​​​نصيب الفرد من الدخل النقدي (الجدول 3.10).

الجدول 3.10

توزيع سكان روسيا حسب متوسط ​​دخل الفرد في الفترة 2004-2009.

المجموعات السكانية حسب متوسط ​​دخل الفرد النقدي، فرك/شهر

عدد السكان في المجموعة، % من الإجمالي

8 000,1-10 000,0

10 000,1-15 000,0

15 000,1-25 000,0

أكثر من 25,000.0

مجموع السكان

تنقسم سلسلة التباين بدورها إلى منفصلة وفاصلة. منفصلةتجمع سلسلة التباين بين متغيرات الخصائص المنفصلة التي تختلف ضمن حدود ضيقة. مثال على سلسلة التباين المنفصلة هو توزيع الأسر الروسية حسب عدد الأطفال الذين لديهم.

فاصلةتجمع سلسلة التباين بين متغيرات الخصائص المستمرة أو الخصائص المنفصلة التي تختلف على نطاق واسع. الفاصل الزمني هو سلسلة التباين لتوزيع السكان الروس حسب متوسط ​​​​نصيب الفرد من الدخل النقدي.

لا يتم استخدام سلسلة التباين المنفصلة في كثير من الأحيان في الممارسة العملية. وفي الوقت نفسه، تجميعها ليس بالأمر الصعب، حيث يتم تحديد تكوين المجموعات من خلال المتغيرات المحددة التي تمتلكها بالفعل خصائص التجميع المدروسة.

تعد سلسلة الاختلافات الفاصلة أكثر انتشارًا. عند تجميعها، ينشأ سؤال صعب حول عدد المجموعات، وكذلك حجم الفواصل الزمنية التي ينبغي تحديدها.

تم توضيح مبادئ حل هذه المشكلة في الفصل الخاص بمنهجية بناء المجموعات الإحصائية (انظر الفقرة 3.3).

تعد سلسلة التباين وسيلة لانهيار أو ضغط المعلومات المتنوعة في شكل مضغوط؛ ومن الممكن إصدار حكم واضح إلى حد ما حول طبيعة التباين، ودراسة الاختلافات في خصائص الظواهر المضمنة في المجموعة قيد الدراسة. لكن الأهمية الأكثر أهمية لسلسلة التباين هي أنه على أساسها يتم حساب الخصائص العامة الخاصة للتباين (انظر الفصل 7).

مكان خاص في التحليل الإحصائي ينتمي إلى تحديد المستوى المتوسط ​​​​للخاصية أو الظاهرة قيد الدراسة. يتم قياس المستوى المتوسط ​​للسمة من خلال القيم المتوسطة.

تميز القيمة المتوسطة المستوى الكمي العام للخاصية التي تتم دراستها وهي خاصية جماعية للسكان الإحصائيين. إنه يسوي ويضعف الانحرافات العشوائية للملاحظات الفردية في اتجاه أو آخر ويسلط الضوء على الخاصية النموذجية الرئيسية للخاصية التي تتم دراستها.

تستخدم المتوسطات على نطاق واسع:

1. تقييم الحالة الصحية للسكان: خصائص النمو البدني (الطول، الوزن، محيط الصدر، وما إلى ذلك)، وتحديد مدى انتشار الأمراض المختلفة ومدتها، وتحليل المؤشرات الديموغرافية (الحركة الحيوية للسكان، متوسط ​​العمر المتوقع، التكاثر السكاني، متوسط ​​حجم السكان وما إلى ذلك).

2. دراسة أنشطة المؤسسات الطبية والعاملين في المجال الطبي وتقييم جودة عملهم، وتخطيط وتحديد احتياجات السكان لمختلف أنواع الرعاية الطبية (متوسط ​​عدد الطلبات أو الزيارات لكل مقيم في السنة، متوسط ​​مدة الإقامة المريض في المستشفى، متوسط ​​مدة فحص المريض، متوسط ​​توفر الأطباء، الأسرة، وما إلى ذلك).

3. توصيف الحالة الصحية والوبائية (متوسط ​​محتوى غبار الهواء في الورشة، متوسط ​​المساحة للشخص الواحد، متوسط ​​استهلاك البروتينات والدهون والكربوهيدرات، وما إلى ذلك).

4. تحديد المؤشرات الطبية والفسيولوجية في الظروف الطبيعية والمرضية، عند معالجة البيانات المخبرية، للتحقق من موثوقية نتائج دراسة العينة في الدراسات الاجتماعية والصحية والسريرية والتجريبية.

يتم حساب القيم المتوسطة على أساس سلسلة التباين. سلسلة الاختلافعبارة عن مجموعة إحصائية متجانسة نوعيًا، حيث تميز وحداتها الفردية الاختلافات الكمية في الخاصية أو الظاهرة قيد الدراسة.

يمكن أن يكون التباين الكمي من نوعين: متقطع (منفصل) ومستمر.

يتم التعبير عن السمة المتقطعة (المنفصلة) فقط كعدد صحيح ولا يمكن أن تحتوي على أي قيم وسيطة (على سبيل المثال، عدد الزيارات، عدد سكان الموقع، عدد الأطفال في الأسرة، شدة المرض بالنقاط ، إلخ.).

يمكن أن تأخذ العلامة المستمرة أي قيم ضمن حدود معينة، بما في ذلك القيم الكسرية، ويتم التعبير عنها تقريبًا (على سبيل المثال، الوزن - بالنسبة للبالغين يمكن أن يقتصر على الكيلوجرامات، وبالنسبة للأطفال حديثي الولادة - جرام؛ الطول وضغط الدم والوقت قضى رؤية المريض، وما إلى ذلك).



تسمى القيمة الرقمية لكل خاصية أو ظاهرة فردية مدرجة في سلسلة التباين متغيرًا ويتم تحديدها بالحرف V . توجد رموز أخرى أيضًا في الأدبيات الرياضية، على سبيل المثال س أو ذ.

تسمى سلسلة التباين، حيث تتم الإشارة إلى كل خيار مرة واحدة، بالبسيطة.وتستخدم هذه السلسلة في معظم المشاكل الإحصائية في حالة معالجة البيانات الحاسوبية.

مع زيادة عدد الملاحظات، تميل قيم المتغيرات المتكررة إلى الحدوث. في هذه الحالة يتم إنشاؤه سلسلة الاختلافات المجمعةحيث يشار إلى عدد التكرارات (التكرار يشار إليه بالحرف " ص »).

سلسلة الاختلافات المرتبةيتكون من خيارات مرتبة ترتيبًا تصاعديًا أو تنازليًا. يمكن تجميع كل من السلاسل البسيطة والمجمعة بالترتيب.

سلسلة الاختلافات الفاصلةتم تجميعها لتبسيط الحسابات اللاحقة التي يتم إجراؤها دون استخدام جهاز كمبيوتر، مع عدد كبير جدًا من وحدات المراقبة (أكثر من 1000).

سلسلة التباين المستمريتضمن قيم الخيارات، والتي يمكن أن تكون أي قيمة.

إذا تم إعطاء قيم الخاصية (المتغيرات) في سلسلة تباين في شكل أرقام فردية محددة، فإن هذه السلسلة تسمى منفصلة.

الخصائص العامة لقيم الخاصية المنعكسة في سلسلة التباين هي القيم المتوسطة. ومن أكثرها استعمالاً: الوسط الحسابي م،موضة شهروالوسيط أنا.كل من هذه الخصائص فريدة من نوعها. لا يمكنهم استبدال بعضهم البعض ويمثلون معًا فقط ميزات سلسلة التباين بشكل كامل وفي شكل مكثف.

موضة (شهر) قم بتسمية قيمة الخيارات الأكثر تكرارًا.

متوسط (أنا) - هذه هي قيمة الخيار الذي يقسم سلسلة التباينات المرتبة إلى النصف (يوجد على كل جانب من الوسيط نصف الخيار). في حالات نادرة، عندما تكون هناك سلسلة تباين متماثلة، يكون المنوال والوسيط متساويين ويتزامنان مع قيمة الوسط الحسابي.

السمة الأكثر شيوعًا لقيم الخيارات هي يعني حسابيقيمة( م ). في الأدب الرياضي يشار إليه .

المتوسط ​​الحسابي (م، ) هي خاصية كمية عامة لخاصية معينة من الظواهر التي تتم دراستها، والتي تشكل مجموعة إحصائية متجانسة نوعيا. هناك متوسطات حسابية بسيطة ومرجحة. يتم حساب المتوسط ​​الحسابي البسيط لسلسلة تباينات بسيطة عن طريق جمع كافة الخيارات وتقسيم هذا المجموع على إجمالي عدد الخيارات المضمنة في سلسلة التباينات هذه. يتم إجراء الحسابات وفقًا للصيغة:

,

أين: م - الوسط الحسابي البسيط؛

Σ V - خيار المبلغ؛

ن- عدد الملاحظات.

في سلسلة التباين المجمعة، يتم تحديد المتوسط ​​الحسابي المرجح. صيغة حسابها:

,

أين: م - المتوسط ​​الحسابي المرجح.

Σ نائب الرئيس - مجموع منتجات المتغير حسب تكراراتها؛

ن- عدد الملاحظات.

ومع وجود عدد كبير من الملاحظات، في حالة الحسابات اليدوية، يمكن استخدام طريقة العزوم.

يتميز الوسط الحسابي بالخصائص التالية:

· مجموع الانحرافات عن المتوسط ​​( Σ د ) يساوي الصفر (انظر الجدول 15)؛

· عند ضرب (قسمة) جميع الخيارات في نفس العامل (المقسوم عليه)، يتم ضرب (قسمة) الوسط الحسابي على نفس العامل (المقسوم عليه)؛

· إذا قمت بإضافة (طرح) نفس الرقم إلى جميع الخيارات، فإن الوسط الحسابي يزيد (ينقص) بنفس الرقم.

إن المتوسطات الحسابية، المأخوذة من تلقاء نفسها، دون الأخذ في الاعتبار تباين السلسلة التي تم حسابها منها، قد لا تعكس بشكل كامل خصائص سلسلة التباين، خاصة عندما تكون المقارنة مع المتوسطات الأخرى ضرورية. يمكن الحصول على المتوسطات المتقاربة في القيمة من سلسلة بدرجات متفاوتة من التشتت. وكلما كانت الخيارات الفردية أقرب إلى بعضها البعض من حيث خصائصها الكمية، كلما كانت أقل التشتت (التذبذب والتقلب)سلسلة، وأكثر نموذجية متوسطها.

المعلمات الرئيسية التي تسمح لنا بتقييم تباين السمة هي:

· نِطَاق؛

· السعة.

· الانحراف المعياري.

· معامل الاختلاف.

يمكن الحكم على تباين السمة تقريبًا من خلال نطاق وسعة سلسلة التباين. يشير النطاق إلى خيارات الحد الأقصى (V max) والحد الأدنى (V min) في السلسلة. السعة (A m) هي الفرق بين هذه الخيارات: A m = V max - V min.

المقياس الرئيسي المقبول عمومًا لتباين سلسلة التباين هو تشتت (د ). لكن المعلمة الأكثر استخدامًا هي المعلمة الأكثر ملاءمة التي يتم حسابها على أساس التشتت - الانحراف المعياري ( σ ). ويأخذ في الاعتبار حجم الانحراف ( د ) لكل سلسلة متغيرة من وسطها الحسابي ( د=الخامس - م ).

وبما أن الانحرافات عن المتوسط ​​يمكن أن تكون إيجابية وسلبية، فإنها عند جمعها تعطي القيمة "0" (S د = 0). لتجنب ذلك، قيم الانحراف ( د) مرفوعة إلى القوة الثانية ومتوسطها. وبالتالي، فإن تشتت سلسلة التباين هو متوسط ​​مربع انحرافات المتغير عن المتوسط ​​الحسابي ويتم حسابه بواسطة الصيغة:

.

إنها أهم خاصية للتباين وتستخدم لحساب العديد من المعايير الإحصائية.

وبما أن التشتت يتم التعبير عنه كمربع الانحرافات، فلا يمكن استخدام قيمته بالمقارنة مع الوسط الحسابي. لهذه الأغراض يتم استخدامه الانحراف المعياريوالتي يشار إليها بعلامة "سيجما" ( σ ). وهو يصف متوسط ​​الانحراف لجميع متغيرات سلسلة التباين عن قيمة المتوسط ​​الحسابي في نفس وحدات القيمة المتوسطة نفسها، بحيث يمكن استخدامها معًا.

يتم تحديد الانحراف المعياري بواسطة الصيغة:

يتم تطبيق الصيغة المحددة عندما يكون عدد الملاحظات ( ن ) أكثر من 30. مع عدد أقل ن سيكون لقيمة الانحراف المعياري خطأ مرتبط بالإزاحة الرياضية ( ن - 1). وفي هذا الصدد، يمكن الحصول على نتيجة أكثر دقة من خلال مراعاة هذا التحيز في صيغة حساب الانحراف المعياري:

الانحراف المعياري (ق ) هو تقدير للانحراف المعياري للمتغير العشوائي Xنسبة إلى توقعاتها الرياضية المبنية على تقدير غير متحيز لتباينها.

بالقيم ن > 30 انحراف معياري ( σ ) والانحراف المعياري ( ق ) سيكون هو نفسه ( σ = ق ). لذلك، في معظم الأدلة العملية، تعتبر هذه المعايير ذات معاني مختلفة.في Excel، يمكن حساب الانحراف المعياري باستخدام الدالة =STDEV(range). ومن أجل حساب الانحراف المعياري، تحتاج إلى إنشاء صيغة مناسبة.

يتيح لك متوسط ​​المربع أو الانحراف المعياري تحديد مدى اختلاف قيم الخاصية عن القيمة المتوسطة. لنفترض أن هناك مدينتين لهما نفس متوسط ​​درجة الحرارة اليومية في الصيف. تقع إحدى هاتين المدينتين على الساحل والأخرى على القارة. ومن المعروف أنه في المدن الواقعة على الساحل تكون الاختلافات في درجات الحرارة أثناء النهار أقل منها في المدن الواقعة في الداخل. ولذلك فإن الانحراف المعياري لدرجات الحرارة أثناء النهار للمدينة الساحلية سيكون أقل منه للمدينة الثانية. من الناحية العملية، هذا يعني أن متوسط ​​درجة حرارة الهواء في كل يوم محدد في مدينة تقع في القارة سيختلف عن المتوسط ​​أكثر من المتوسط ​​في مدينة على الساحل. بالإضافة إلى ذلك، يسمح لك الانحراف المعياري بتقييم انحرافات درجة الحرارة المحتملة عن المتوسط ​​بمستوى الاحتمال المطلوب.

وفقا لنظرية الاحتمالات، في الظواهر التي تخضع لقانون التوزيع الطبيعي، هناك علاقة صارمة بين قيم الوسط الحسابي والانحراف المعياري والخيارات ( قاعدة ثلاثة سيجما). على سبيل المثال، 68.3% من قيم الخاصية المتغيرة تقع ضمن M ± 1 σ ، 95.5% - ضمن M ± 2 σ و 99.7% - ضمن M ± 3 σ .

تتيح لنا قيمة الانحراف المعياري الحكم على طبيعة تجانس سلسلة التباين ومجموعة الدراسة. إذا كانت قيمة الانحراف المعياري صغيرة، فهذا يدل على تجانس مرتفع إلى حد ما للظاهرة قيد الدراسة. يجب اعتبار الوسط الحسابي في هذه الحالة مميزًا تمامًا لسلسلة تباين معينة. ومع ذلك، فإن قيمة سيجما الصغيرة جدًا تجعل المرء يفكر في اختيار مصطنع للملاحظات. مع سيجما كبيرة جدًا، يميز الوسط الحسابي سلسلة التباين بدرجة أقل، مما يشير إلى تباين كبير في الخاصية أو الظاهرة قيد الدراسة أو عدم تجانس المجموعة قيد الدراسة. ومع ذلك، فإن مقارنة قيمة الانحراف المعياري ممكنة فقط بالنسبة للميزات ذات البعد نفسه. وبالفعل، إذا قارنا تنوع أوزان الأطفال حديثي الولادة والبالغين، فسنحصل دائمًا على قيم سيجما أعلى عند البالغين.

يمكن إجراء مقارنة بين تنوع الميزات ذات الأبعاد المختلفة باستخدام معامل الاختلاف. ويعبر عن التنوع كنسبة مئوية من المتوسط، مما يسمح بإجراء مقارنات بين السمات المختلفة. يُشار إلى معامل الاختلاف في الأدبيات الطبية بالعلامة " مع "، وفي الرياضيات" ضد"ويحسب بالصيغة:

.

تشير قيم معامل التباين الأقل من 10% إلى تشتت صغير، من 10 إلى 20% - حول المتوسط، أكثر من 20% - حول تشتت قوي حول الوسط الحسابي.

عادة ما يتم حساب المتوسط ​​الحسابي بناءً على بيانات من عينة سكانية. ومع تكرار الدراسات، وتحت تأثير الظواهر العشوائية، قد يتغير الوسط الحسابي. ويرجع ذلك إلى حقيقة أنه، كقاعدة عامة، تتم دراسة جزء فقط من وحدات المراقبة المحتملة، أي مجتمع العينة. يمكن الحصول على معلومات حول جميع الوحدات الممكنة التي تمثل الظاهرة قيد الدراسة من خلال دراسة المجتمع بأكمله، وهو أمر ليس ممكنًا دائمًا. وفي الوقت نفسه، ولأغراض تعميم البيانات التجريبية، فإن قيمة المتوسط ​​في عموم السكان مثيرة للاهتمام. ولذلك، ومن أجل صياغة استنتاج عام حول الظاهرة محل الدراسة، يجب نقل النتائج التي تم الحصول عليها على أساس مجتمع العينة إلى عامة السكان باستخدام الأساليب الإحصائية.

لتحديد درجة الاتفاق بين عينة الدراسة وعامة السكان، من الضروري تقدير حجم الخطأ الذي ينشأ حتماً أثناء ملاحظة العينة. هذا الخطأ يسمى " خطأ التمثيل"أو"متوسط ​​خطأ الوسط الحسابي." وهو في الواقع الفرق بين المتوسطات التي تم الحصول عليها من الملاحظة الإحصائية الانتقائية والقيم المماثلة التي يمكن الحصول عليها من دراسة مستمرة لنفس الكائن، أي. عند دراسة عامة السكان. وبما أن متوسط ​​العينة هو متغير عشوائي، يتم تنفيذ هذا التنبؤ بمستوى احتمال مقبول للباحث. وفي الأبحاث الطبية تصل إلى 95% على الأقل.

لا يمكن الخلط بين خطأ التمثيل وأخطاء التسجيل أو أخطاء الانتباه (الزلات، وسوء التقدير، والأخطاء المطبعية، وما إلى ذلك)، والتي ينبغي التقليل منها عن طريق الأساليب والأدوات المناسبة المستخدمة أثناء التجربة.

ويعتمد حجم خطأ التمثيل على كل من حجم العينة وتنوع السمة. كلما زاد عدد الملاحظات، كلما اقتربت العينة من المجتمع وقل الخطأ. كلما زاد متغير الإشارة، كلما زاد الخطأ الإحصائي.

عمليًا، لتحديد خطأ التمثيل في سلسلة التباين، يتم استخدام الصيغة التالية:

,

أين: م - خطأ في التمثيل؛

σ - الانحراف المعياري؛

ن– عدد الملاحظات في العينة .

توضح الصيغة أن حجم الخطأ المتوسط ​​يتناسب طرديا مع الانحراف المعياري، أي تباين الخاصية قيد الدراسة، ويتناسب عكسيا مع الجذر التربيعي لعدد الملاحظات.

عند إجراء تحليل إحصائي يعتمد على حساب القيم النسبية، ليس من الضروري إنشاء سلسلة تباين. في هذه الحالة، يمكن تحديد متوسط ​​الخطأ للمؤشرات النسبية باستخدام صيغة مبسطة:

,

أين: ر- قيمة المؤشر النسبي، معبراً عنها كنسبة مئوية، جزء في المليون، وما إلى ذلك؛

س- مقلوب P ويعبر عنه بـ (1-P)، (100-P)، (1000-P)، وما إلى ذلك، حسب الأساس الذي يتم على أساسه حساب المؤشر؛

ن– عدد الملاحظات في مجتمع العينة.

ومع ذلك، لا يمكن تطبيق الصيغة المحددة لحساب خطأ التمثيل للقيم النسبية إلا عندما تكون قيمة المؤشر أقل من قاعدته. وفي عدد من حالات حساب المؤشرات المكثفة، لا يتم استيفاء هذا الشرط، ويمكن التعبير عن المؤشر بعدد يزيد عن 100% أو 1000%. في مثل هذه الحالة، يتم إنشاء سلسلة تباين ويتم حساب خطأ التمثيل باستخدام صيغة القيم المتوسطة بناءً على الانحراف المعياري.

يتم التنبؤ بقيمة الوسط الحسابي في المجتمع من خلال الإشارة إلى قيمتين – الحد الأدنى والحد الأقصى. تسمى هذه القيم القصوى للانحرافات المحتملة، والتي قد تتقلب ضمنها القيمة المتوسطة المرغوبة للسكان، " حدود الثقة».

أثبتت مسلمات نظرية الاحتمالات أنه مع التوزيع الطبيعي للخاصية باحتمال 99.7%، فإن القيم القصوى لانحرافات المتوسط ​​لن تكون أكبر من قيمة ثلاثة أضعاف الخطأ التمثيلي ( م ± 3 م ); بنسبة 95.5% - ما لا يزيد عن ضعف متوسط ​​الخطأ لمتوسط ​​القيمة ( م ± 2 م ); في 68.3% – لا يوجد أكثر من خطأ متوسط ​​واحد ( م ± 1 م ) (الشكل 9).

ف٪

أرز. 9. الكثافة الاحتمالية للتوزيع الطبيعي.

لاحظ أن العبارة أعلاه تنطبق فقط على الميزة التي تخضع لقانون التوزيع الغوسي العادي.

ترتبط معظم الدراسات التجريبية، بما في ذلك في مجال الطب، بالقياسات التي يمكن أن تأخذ نتائجها أي قيمة تقريبًا في فترة زمنية معينة، لذلك، كقاعدة عامة، يتم وصفها بنموذج للمتغيرات العشوائية المستمرة. وفي هذا الصدد، تأخذ معظم الأساليب الإحصائية بعين الاعتبار التوزيعات المستمرة. أحد هذه التوزيعات، والذي له دور أساسي في الإحصاء الرياضي، هو التوزيع الطبيعي أو الغوسي.

ويرجع ذلك إلى عدد من الأسباب.

1. أولا وقبل كل شيء، يمكن وصف العديد من الملاحظات التجريبية بنجاح باستخدام التوزيع الطبيعي. تجدر الإشارة على الفور إلى أنه لا توجد توزيعات للبيانات التجريبية طبيعية تمامًا، حيث يتراوح المتغير العشوائي الموزع بشكل طبيعي من إلى، وهو ما لم يتم مواجهته مطلقًا في الممارسة العملية. ومع ذلك، فإن التوزيع الطبيعي غالبًا ما يعمل بشكل تقريبي.

سواء تم قياس الوزن والطول والمعلمات الفسيولوجية الأخرى لجسم الإنسان، فإن النتائج تتأثر دائمًا بعدد كبير جدًا من العوامل العشوائية (الأسباب الطبيعية وأخطاء القياس).

علاوة على ذلك، كقاعدة عامة، فإن تأثير كل من هذه العوامل غير مهم. تظهر التجربة أن النتائج في مثل هذه الحالات سيتم توزيعها بشكل طبيعي تقريبًا.

2. العديد من التوزيعات المرتبطة بالعينة العشوائية تصبح طبيعية مع زيادة حجم الأخيرة.

3. التوزيع الطبيعي مناسب تمامًا كتقريب للتوزيعات المستمرة الأخرى (على سبيل المثال، المنحرفة).

4. يحتوي التوزيع الطبيعي على عدد من الخصائص الرياضية الملائمة، والتي تضمن إلى حد كبير استخدامه على نطاق واسع في الإحصاء.

وفي الوقت نفسه، تجدر الإشارة إلى أنه يوجد في البيانات الطبية العديد من التوزيعات التجريبية التي لا يمكن وصفها بنموذج التوزيع الطبيعي. ولهذا الغرض، طورت الإحصائيات أساليب يطلق عليها عادة "اللابارامترية".

يجب أن يتم اختيار الطريقة الإحصائية المناسبة لمعالجة البيانات من تجربة معينة اعتمادًا على ما إذا كانت البيانات التي تم الحصول عليها تنتمي إلى قانون التوزيع الطبيعي. يتم اختبار فرضية خضوع الإشارة لقانون التوزيع الطبيعي باستخدام الرسم البياني للتوزيع التكراري (الرسم البياني)، بالإضافة إلى عدد من المعايير الإحصائية. فيما بينها: معيار عدم التماثل ( );

ب معيار اختبار التفرطح ( );

ز اختبار شابيرو-ويلكس ( ) .

يتم إجراء تحليل لطبيعة توزيع البيانات (ويسمى أيضًا اختبار التوزيع الطبيعي) لكل معلمة. للحكم بثقة على ما إذا كان توزيع المعلمة يتوافق مع القانون الطبيعي، يلزم وجود عدد كبير بما فيه الكفاية من وحدات المراقبة (30 قيمة على الأقل).

بالنسبة للتوزيع الطبيعي، تأخذ معايير الانحراف والتفرطح القيمة 0. إذا تم إزاحة التوزيع إلى اليمين معيار عدم التماثل ( > 0 (عدم التماثل الإيجابي)، مع معيار عدم التماثل ( < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормального закона معيار اختبار التفرطح ( =0. في معيار اختبار التفرطح ( > 0 يكون منحنى التوزيع أكثر وضوحًا إذا معيار اختبار التفرطح ( < 0 пик более сглаженный, чем функция нормального распределения.

للتحقق من الحالة الطبيعية باستخدام معيار شابيرو-ويلكس، من الضروري إيجاد قيمة هذا المعيار باستخدام الجداول الإحصائية عند مستوى الأهمية المطلوب وحسب عدد وحدات المراقبة (درجات الحرية). الملحق 1. يتم رفض فرضية الحالة الطبيعية عند القيم الصغيرة لهذا المعيار، كقاعدة عامة، عند ث <0,8.