Що таке інтервальний ряд даних. Побудова інтервального варіаційного ряду для безперервних кількісних даних

Математична статистика- розділ математики, присвячений математичним методам обробки, систематизації та використання статистичних даних для наукових та практичних висновків.

3.1. ОСНОВНІ ПОНЯТТЯ МАТЕМАТИЧНОЇ СТАТИСТИКИ

У медико-біологічних завданнях часто доводиться досліджувати розподіл тієї чи іншої ознаки для великої кількості індивідуумів. У різних індивідуумів ця ознака має різне значення, тому вона є випадковою величиною. Наприклад, будь-який лікувальний препарат має різну ефективність при його застосуванні до різних пацієнтів. Однак для того, щоб скласти уявлення про ефективність даного препарату, немає необхідності застосовувати його до всімхворим. Можна простежити результати застосування препарату до порівняно невеликої групи хворих та на підставі отриманих даних виявити суттєві риси (ефективність, протипоказання) процесу лікування.

Генеральна сукупність- Підлягає вивченню сукупність однорідних елементів, що характеризуються певною ознакою. Ця ознака є безперервнийвипадковою величиною із щільністю розподілу f(x).

Наприклад, якщо нас цікавить поширеність будь-якого захворювання в деякому регіоні, то генеральна сукупність – все населення регіону. Якщо ж ми хочемо з'ясувати схильність до цього захворювання чоловіків і жінок окремо, слід розглядати дві генеральні сукупності.

Для вивчення властивостей генеральної сукупності забирають деяку частину її елементів.

Вибірка- частина генеральної сукупності, яка обирається для обстеження (лікування).

Якщо це не викликає непорозумінь, то вибіркою називають як сукупність об'єктів,відібраних для обстеження, так і сукупність

значеньдосліджуваного ознаки, отриманих під час обстеження. Ці значення можуть бути декількома способами.

Простий статистичний ряд -значення досліджуваного ознаки, записані у порядку, де вони були отримані.

Приклад простого статистичного ряду, отриманого при вимірюванні швидкості поверхневої хвилі (м/с) у шкірі чола у 20 пацієнтів наведено у табл. 3.1.

Таблиця 3.1.Простий статистичний ряд

Простий статистичний ряд - основний і найповніший спосіб запису результатів обстеження. Він може містити сотні елементів. Окинути таку сукупність одним поглядом дуже важко. Тому великі вибірки зазвичай розбиваються на групи. Для цього область зміни ознаки розбивають на декілька (N) інтерваліврівної ширини та підраховують відносні частоти (n/n) попадання ознаки в ці інтервали. Ширина кожного інтервалу дорівнює:

Межі інтервалів мають такі значення:

Якщо якийсь елемент вибірки є межею між двома сусідніми інтервалами, його відносять до лівомуінтервалу. Згруповані таким чином дані називають інтервальним статистичним рядом.

- це таблиця, в якій наведено інтервали значень ознаки та відносні частоти влучення ознаки в ці інтервали.

У нашому випадку можна утворити, наприклад, такий інтервальний статистичний ряд (N = 5, d= 4), табл. 3.2.

Таблиця 3.2.Інтервальний статистичний ряд

Тут до інтервалу 28-32 віднесено два значення, рівні 28 (табл. 3.1), а до інтервалу 32-36 - значення 32, 33, 34 і 35.

Інтервальний статистичний ряд можна зобразити графічно. Для цього по осі абсцис відкладають інтервали значень ознаки і на кожному з них, як на підставі, будують прямокутник з висотою, що дорівнює відносній частоті. Отримана стовпцева діаграма називається гістограмою.

Мал. 3.1.Гістограма

На гістограмі статистичні закономірності розподілу ознаки проглядаються досить чітко.

При великому обсязі вибірки (кілька тисяч) та малій ширині стовпців форма гістограми близька до форми графіка густини розподілуознаки.

Число стовпців гістограми можна вибрати за такою формулою:

Побудова гістограми вручну – процес довгий. Тому розроблені комп'ютерні програми їх автоматичного побудови.

3.2. ЧИСЛОВІ ХАРАКТЕРИСТИКИ СТАТИСТИЧНОГО РЯДУ

Багато статистичних процедур використовують вибіркові оцінки для математичного очікування та дисперсії (або СКО) генеральної сукупності.

Вибіркове середнє(Х) - це середнє арифметичне всіх елементів простого статистичного ряду:

Для нашого прикладу Х= 37,05 (м/с).

Вибіркове середнє - ценайкращаоцінка генерального середньогоМ.

Вибіркова дисперсія s 2дорівнює сумі квадратів відхилень елементів від вибіркового середнього, поділеної на n- 1:

У прикладі s 2 = 25,2 (м/с) 2 .

Зверніть увагу, що при обчисленні вибіркової дисперсії у знаменнику формули стоїть не обсяг вибірки n, а n-1. Це з тим, що з обчисленні відхилень у формулі (3.3) замість невідомого математичного очікування використовується його оцінка - вибіркове середнє.

Вибіркова дисперсія – це найкращаоцінка генеральної дисперсії (? 2).

Вибіркове середньоквадратичне відхилення(s) - це квадратний корінь із вибіркової дисперсії:

Для нашого прикладу s= 5,02 (м/с).

Вибіркове середньоквадратичневідхилення – це найкраща оцінка генерального СКО (σ).

При необмеженому збільшенні обсягу вибірки всі вибіркові характеристики прагнуть відповідним характеристикам генеральної сукупності.

Для обчислення вибіркових показників застосовують комп'ютерні формули. У додатку Excel ці обчислення виконують статистичні функції СРЗНАЧ, ДИСП. СТАНДОТКЛОН.

3.3. ІНТЕРВАЛЬНА ОЦІНКА

Всі вибіркові характеристики є випадковими величинами.Це означає, що для іншої вибірки того ж обсягу значення вибіркових характеристик вийдуть іншими. Таким чином, вибіркові

характеристики є лише оцінкамивідповідних показників генеральної сукупності.

Недоліки вибіркового оцінювання компенсує інтервальна оцінка,представляюча числовий інтервал,всередині якого із заданою ймовірністю Р дзнаходиться справжнє значення параметра, що оцінюється.

Нехай U r – деякий параметр генеральної сукупності (генеральна середня, генеральна дисперсія тощо).

Інтервальною оцінкоюпараметра U r називається інтервал (U 1 , U 2),що задовольняє умові:

P(U < Ur < U2) = Рд. (3.5)

Ймовірність Р дназивається довірчою ймовірністю.

Довірча ймовірність Рд - ймовірність того, що справжнє значення оцінюваної величини знаходиться всерединівказаного інтервалу.

При цьому інтервал (U 1, U 2)називається довірчим інтерваломдля параметра, що оцінюється.

Часто замість довірчої ймовірності використовують зв'язану з нею величину α = 1 – Р д, яка називається рівнем значимості.

Рівень значущості- це ймовірність того, що справжнє значення параметра, що оцінюється, знаходиться за межамидовірчого інтервалу.

Іноді α і Р д виражають у відсотках, наприклад, 5% замість 0,05 та 95% замість 0,95.

При інтервальному оцінюванні спочатку вибирають відповідну довірчу ймовірність(зазвичай 0,95 або 0,99), а потім знаходять відповідний інтервал значень параметра, що оцінюється.

Зазначимо деякі загальні властивості інтервальних оцінок.

1. Чим нижчий рівень значущості (чим більше Р д),тим ширше інтервальна оцінка. Так, якщо за рівня значимості 0,05 інтервальна оцінка генерального середнього становить 34,7< М< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < М< 40,25.

2. Чим більший обсяг вибірки n,Тим більше що інтервальна оцінка з обраним рівнем значимості. Нехай, наприклад, 5 - процентна оцінка генеральної середньої (β=0,05), отримана на вибірку з 20 елементів, тоді 34,7< М< 39,4.

Збільшивши обсяг вибірки до 80, ми при тому рівні значимості отримаємо більш точну оцінку: 35,5< М< 38,6.

У випадку побудова надійних довірчих оцінок вимагає знання закону, яким оцінюваний випадковий ознака розподілено у генеральній сукупності. Розглянемо, як будується інтервальна оцінка генерального середньогоознаки, яка розподілена в генеральній сукупності за нормальномузакону.

3.4. ІНТЕРВАЛЬНА ОЦІНКА ГЕНЕРАЛЬНОГО СЕРЕДНЬОГО ДЛЯ НОРМАЛЬНОГО ЗАКОНУ РОЗПОДІЛУ

Побудова інтервальної оцінки генерального середнього М для генеральної сукупності з нормальним законом розподілу ґрунтується на наступній властивості. Для вибірки обсягу nставлення

підпорядковується розподілу Стьюдента з числом ступенів свободи = n- 1.

Тут Х- вибіркове середнє, а s- Вибіркове СКО.

Використовуючи таблиці розподілу Стьюдента або їх комп'ютерний аналог, можна знайти таке граничне значення, що з заданою довірчою ймовірністю виконується нерівність:

Цій нерівності відповідає нерівність для М:

де ε - напівширина довірчого інтервалу.

Таким чином, побудова довірчого інтервалу М проводиться в наступній послідовності.

1. Вибирають довірчу ймовірність Р д (зазвичай 0,95 або 0,99) і для неї за таблицею розподілу Стьюдента знаходять параметр t

2. Розраховують напівширину довірчого інтервалу ε:

3. Отримують інтервальну оцінку генерального середнього з обраною довірчою ймовірністю:

Коротко це записується так:

Для знаходження інтервальних оцінок розроблено комп'ютерні процедури.

Пояснимо, як скористатися таблицею розподілу Стьюдента. Ця таблиця має два «входи»: лівий стовпець, який називається числом ступенів свободи ν = n- 1, і верхній рядок – рівень значущості α. На перетині відповідного рядка та стовпця знаходять коефіцієнт Стьюдента t.

Застосуємо цей метод до нашої вибірки. Фрагмент таблиці розподілу Стьюдента наведено нижче.

Таблиця 3.3. Фрагмент таблиці розподілу Стьюдента

Простий статистичний ряд для вибірки із 20 осіб (n= 20, =19) представлений в табл. 3.1. Для цього ряду розрахунки за формулами (3.1-3.3) дають: Х= 37,05; s= 5,02.

Виберемо α = 0,05 (Р д = 0,95). На перетині рядка «19» та стовпця «0,05» знайдемо t= 2,09.

Обчислимо точність оцінки за формулою (3.6): ε = 2,09?5,02/λ/20 = 2,34.

Побудуємо інтервальну оцінку: з ймовірністю 95% невідоме генеральне середнє задовольняє нерівність:

37,05 - 2,34 < М< 37,05 + 2,34, или М= 37,05 ± 2,34 (м/с), Р д = 0,95.

3.5. МЕТОДИ ПЕРЕВІРКИ СТАТИСТИЧНИХ ГІПОТЕЗ

Статистичні гіпотези

Перш ніж сформулювати, що таке статистична гіпотеза, розглянемо такий приклад.

Для порівняння двох методик лікування деякого захворювання було відібрано дві групи пацієнтів по 20 осіб, лікування яких проводилось за цими методиками. Для кожного пацієнта фіксувалося кількість процедур,після якого досягався позитивний ефект. За цими даними кожної групи знаходилися вибіркові середні (Х), вибіркові дисперсії (s 2)та вибіркові СКО (s).

Результати представлені у табл. 3.4.

Таблиця 3.4

Кількість процедур, необхідне отримання позитивного ефекту, - випадкова величина, вся інформація про яку на даний момент міститься в наведеній вибірці.

З табл. 3.4 видно, що вибіркове середнє у першій групі менше, ніж у другій. Чи означає це, що й для генеральних середніх має місце таке саме співвідношення: М 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает статистична перевірка гіпотез.

Статистична гіпотеза- це припущення щодо властивостей генеральних сукупностей.

Ми розглядатимемо гіпотези про властивості двохгенеральних сукупностей.

Якщо генеральні сукупності мають відомі, однаковірозподілу оцінюваної величини, а припущення стосуються величин деякого параметрацього розподілу, то гіпотези називаються параметричними.Наприклад, вибірки вилучені з генеральних сукупностей нормальним закономрозподілу та однаковою дисперсією. Потрібно з'ясувати, чи однаковігенеральні середні ці сукупності.

Якщо про закони розподілу генеральних сукупностей нічого не відомо, то гіпотези про їхні властивості називають непараметричними.Наприклад, чи однаковізакони розподілу генеральних сукупностей, у тому числі вилучені вибірки.

Нульова та альтернативна гіпотези.

Завдання перевірки гіпотез. Рівень значущості

Познайомимося з термінологією, що застосовується під час перевірки гіпотез.

Н 0 – нульова гіпотеза (гіпотеза скептика) – це гіпотеза про відсутність відмінностейміж порівнюваними вибірками. Скептик вважає, що різницю між вибірковими оцінками, отриманими за результатами досліджень, - випадкові;

Н 1- Альтернативна гіпотеза (гіпотеза оптиміста) - це гіпотеза про наявність відмінностей між порівнюваними вибірками. Оптиміст вважає, що різницю між вибірковими оцінками викликані об'єктивними причинами і відповідають відмінностям генеральних сукупностей.

Перевірка статистичних гіпотез здійсненна лише тоді, коли з елементів порівнюваних вибірок можна скласти деяку величину(критерій), закон розподілу якої у разі справедливості Н 0відомий. Тоді для цієї величини можна вказати довірчий інтервал,в який із заданою ймовірністю Р дпопадає її значення. Цей інтервал називають критичною областю.Якщо значення критерію потрапляє у критичну область, то приймається гіпотеза Н0.В іншому випадку приймається гіпотеза Н1.

У медичних дослідженнях використовують Р д = 0,95 або Р д = 0,99. Цим значенням відповідають рівні значущостіα = 0,05 або α = 0,01.

Під час перевірки статистичних гіпотезрівнем значимості(α) називається ймовірність відхилення нульової гіпотези, коли вона вірна.

Зверніть увагу на те, що за своєю суттю процедура перевірки гіпотез спрямована на виявлення відмінностей,а не на підтвердження їхньої відсутності. При виході значення критерію межі критичної області ми можемо з чистим серцем сказати «скептику» - ну що, Ви ще хочете?! Якби відмінностей не було, то з ймовірністю 95% (або 99%) розрахункове значення було б у зазначених межах. Адже ні!..

Ну а якщо значення критерію потрапляє в критичну область, то немає підстав вважати, що гіпотеза Н 0 вірна. Це, швидше за все, вказує на одну із двох можливих причин.

1. Обсяги вибірок недостатньо великі, щоб виявити наявні відмінності. Цілком ймовірно, що продовження експериментів принесе успіх.

2. Відмінності є. Але вони настільки малі, що немає практичного значення. І тут продовження експериментів немає сенсу.

Перейдемо до розгляду деяких статистичних гіпотез, які у медичних дослідженнях.

3.6. ПЕРЕВІРКА ГІПОТЕЗ ПРО РІВНІСТЬ ДИСПЕРСІЙ, F-КРИТЕРІЙ ФІШЕРА

У деяких клінічних дослідженнях про позитивний ефект свідчить не так величинадосліджуваного параметра, скільки його стабілізація,зменшення його коливань. І тут виникає питання порівняння двох генеральних дисперсій за результатами вибіркового обстеження. Це завдання може бути вирішено за допомогою критерію Фішера.

Постановка задачі

нормальним закономрозподілу. Обсяги вибірок -

n 1і n 2 ,а вибіркові дисперсіїрівні s 1 та s 2 2 генеральні дисперсії.

Перевірені гіпотези:

Н 0- генеральні дисперсії однакові;

Н 1- генеральні дисперсії різні.

Показано, якщо вибірки вилучені з генеральних сукупностей нормальним закономрозподілу, то за справедливості гіпотези Н 0Відношення вибіркових дисперсій підпорядковується розподілу Фішера. Тому як критерій для перевірки справедливості Н 0береться величина F,обчислювана за формулою:

де s 1 та s 2 - вибіркові дисперсії.

Це відношення підпорядковується розподілу Фішера з числом ступенів свободи чисельника ν 1 = n 1- 1 та числом ступенів свободи знаменника ν 2 = n 2 - 1. Кордони критичної області знаходяться за таблицями розподілу Фішера або за допомогою комп'ютерної функції БРАСПОБР.

Наприклад, поданого у табл. 3.4, отримаємо: 1 = 2 = 20 - 1 = 19; F= 2,16/4,05 = 0,53. При α = 0,05 межі критичної області рівні відповідно: = 0,40 = 2,53.

Значення критерію потрапило у критичну область, тому приймається гіпотеза Н 0:генеральні дисперсії вибірок однакові.

3.7. ПЕРЕВІРКА ГІПОТЕЗ ЩОДО РІВНОСТІ СЕРЕДНІХ, t-КРИТЕРІЙ СТЬЮДЕНТА

Завдання порівняння середніхдвох генеральних сукупностей виникає, коли практичне значення має саме величинадосліджуваного ознаки. Наприклад, коли порівнюються терміни лікування двома різними методами або кількість ускладнень, що виникають при їх застосуванні. І тут можна використовувати t-критерій Стьюдента.

Постановка задачі

Отримано дві вибірки (Х 1 ) і (Х 2 ), вилучені з генеральних сукупностей нормальним закономрозподілу та однаковими дисперсіями.Обсяги вибірок - n 1 і n 2 вибіркові середнірівні Х1 і Х2, а вибіркові дисперсії- s 1 2 та s 2 2відповідно. Потрібно порівняти між собою генеральні середні.

Перевірені гіпотези:

Н 0- генеральні середні однакові;

Н 1- генеральні середні різні.

Показано, що у разі справедливості гіпотези Н 0величина t, що обчислюється за формулою:

розподілено згідно із законом Стьюдента з числом ступенів свободи ν = ν 1 + + ν2 - 2.

Тут де ν 1 = n 1 - 1 - число ступенів свободи першої вибірки; ν 2 = n 2 – 1 – число ступенів свободи для другої вибірки.

Межі критичної області знаходять за таблицями t-розподілу або за допомогою комп'ютерної функції СТЬЮДРАСПОБР. Розподіл Стьюдента симетрично щодо нуля, тому ліва і права межі критичної області однакові за модулем і протилежні за знаком: -і

Наприклад, поданого у табл. 3.4, отримаємо:

ν 1 = ν 2 = 20 - 1 = 19; ν = 38, t= -2,51. При α = 0,05 = 2,02.

Значення критерію виходить за лівий кордон критичної області, тому приймаємо гіпотезу Н 1:генеральні середні різні.При цьому середня генеральна сукупність першої вибіркиМЕНШЕ.

Застосовність t-критерію Стьюдента

Критерій Стьюдента застосовний тільки до вибірок з нормальнихсукупностей з однаковими генеральними дисперсіями.Якщо хоча б одну з умов порушено, то застосовність критерію сумнівна. Вимога нормальності генеральної сукупності зазвичай ігнорують, посилаючись на центральну граничну теорему.Дійсно, різниця вибіркових середніх, що стоїть у чисельнику (3.10), може вважатися нормально розподіленою при ν > 30. Але питання про рівність дисперсій перевірці не підлягає, і посилання на те, що критерій Фішера не виявив відмінностей, брати до уваги не можна. Проте t-критерій досить широко застосовується виявлення відмінностей у середніх значеннях генеральних сукупностей, хоча й без достатніх підстав.

Нижче розглядається непараметричний критерій,який з успіхом використовують для цих же цілей і який не вимагає жодного нормальності,ні рівності дисперсій

3.8. НЕПАРАМЕТРИЧНЕ ПОРІВНЯННЯ ДВОХ ВИБІРОК: КРИТЕРІЙ МАННА-УИТНІ

Непараметричні критерії призначені виявлення відмінностей у законах розподілу двох генеральних сукупностей. Критерії, які чутливі до відмінностей генеральних середніх,називають критеріями зсуву.Критерії, які чутливі до відмінностей генеральних дисперсій,називають критеріями масштабу.Критерій Манна-Уітні відноситься до критеріїв зсувуі використовується для виявлення відмінностей у середніх значеннях двох генеральних сукупностей, вибірки з яких представлені в ранговій шкалі.Виміряні ознаки розташовуються на цій шкалі в порядку зростання, а потім нумеруються цілими числами 1, 2... Ці числа називаються рангами.Рівним величинам надають однакові ранги. Значення має сама величина ознаки, а лише порядкове місце,що вона займає серед інших величин.

У табл. 3.5. перша група з таблиці 3.4 представлена ​​в розгорнутому вигляді (рядок 1), піддана ранжируванню (стоку 2), а потім ранги однакових величин замінені середньоарифметичними значеннями. Наприклад, елементи 4 і 4, що стоять у першому рядку, отримали ранги 2 і 3, які замінені на однакові значення 2,5.

Таблиця 3.5

Постановка задачі

Незалежні вибірки (Х 1)і (Х 2)вилучені з генеральних сукупностей із невідомими законами розподілу. Обсяги вибірок n 1і n 2відповідно. Значення елементів вибірок представлені в ранговій шкалі.Потрібно перевірити, чи різняться ці генеральні сукупності між собою?

Перевірені гіпотези:

Н 0- вибірки належать до однієї генеральної сукупності; Н 1- вибірки належать до різних генеральних сукупностей.

Для перевірки таких гіпотез застосовується (/- критерій Манна-Уітні).

Спочатку двох вибірок складається об'єднана вибірка (X), елементи якої ранжируются. Потім перебуває сума рангів, відповідних елементам першої вибірки. Ця сума є критерієм для перевірки гіпотез.

U= Сумі рангів першої вибірки. (3.11)

Для незалежних вибірок, обсяги яких більші за 20, величина Uпідпорядковується нормальному розподілу, математичне очікування та СКО якого рівні:

Тому межі критичної області перебувають у таблицях нормального розподілу.

Наприклад, поданого у табл. 3.4, отримаємо: ν 1 = ν 2 = 20 - 1 = 19, U= 339, μ = 410, σ = 37. Для α = 0,05 отримаємо: і лев = 338, і прав = 482.

Значення критерію виходить за ліву межу критичної області, тому приймається гіпотеза Н1: генеральні сукупності мають різні закони розподілу. При цьому середня генеральна сукупність першої вибіркиМЕНШЕ.

При побудові інтервального ряду розподілу вирішуються три питання:

  • 1. Скільки потрібно взяти інтервалів?
  • 2. Яка довжина інтервалів?
  • 3. Який порядок включення одиниць сукупності до меж інтервалів?
  • 1. Кількість інтервалівможна визначити за формулі Стер-джеса:

2. Довжина інтервалу, або крок інтервалузазвичай визначається за формулою

де R -розмах варіації.

3. Порядок включення одиниць сукупності до меж інтервалу

може бути різним, але при побудові інтервального ряду розподілу обов'язково суворо визначено.

Наприклад, такий: [), у якому одиниці сукупності в нижні межі включаються, а верхні - не включаються, а переносяться у наступний інтервал. Виняток у цьому правилі становить останній інтервал, верхня межа якого включає останнє число ранжованого ряду.

Межі інтервалів бувають:

  • закриті - із двома крайніми значеннями ознаки;
  • відкриті - з одним крайнім значенням ознаки (дотакого числа чи згоритакого числа).

З метою засвоєння теоретичного матеріалу введемо вихідну інформаціюдля вирішення наскрізного завдання.

Є умовні дані щодо середньооблікової чисельності менеджерів з продажу, кількості проданого ними одноякісного товару, індивідуальної ринкової ціни цей товар, і навіть обсягу продажів 30 фірм у одному з регіонів РФ у I кварталі звітного року (табл. 2.1).

Таблиця 2.1

Вихідна інформація для наскрізного завдання

Чисельність

менеджерів,

Ціна, тис. руб.

Обсяг продажів, млн руб.

Чисельність

менеджерів,

Кількість проданого товару, прим.

Ціна, тис. руб.

Обсяг продажів, млн руб.

На основі вихідної інформації, і навіть додаткової зробимо постановку окремих завдань. Потім представимо методику їх вирішення та самі рішення.

Наскрізне завдання. Завдання 2.1

Використовуючи вихідні дані табл. 2.1, потрібнопобудувати дискретний ряд розподілу фірм щодо кількості проданого товару (табл. 2.2).

Рішення:

Таблиця 2.2

Дискретний ряд розподілу фірм за кількістю проданого товару в одному з регіонів РФ у I кварталі звітного року

Наскрізне завдання. Завдання 2.2

потрібнопобудувати ранжований ряд 30 фірм за середньообліковою чисельністю менеджерів.

Рішення:

15; 17; 18; 20; 20; 20; 22; 22; 24; 25; 25; 25; 27; 27; 27; 28; 29; 30; 32; 32; 33; 33; 33; 34; 35; 35; 38; 39; 39; 45.

Наскрізне завдання. Завдання 2.3

Використовуючи вихідні дані табл. 2.1, потрібно:

  • 1. Побудувати інтервальний ряд розподілу фірм за чисельністю менеджерів.
  • 2. Розрахувати частоти низки розподілу фірм.
  • 3. Зробити висновки.

Рішення:

Розрахуємо за формулою Стерджес (2.5) кількість інтервалів:

Таким чином, беремо 6 інтервалів (груп).

Довжина інтервалу, або крок інтервалу, розрахуємо за формулою

Примітка.Порядок включення одиниць сукупності до меж інтервалу такий: I), при якому одиниці сукупності в нижні межі включаються, а у верхні - не включаються, а переносяться в наступний інтервал. Виняток у цьому правилі становить останній інтервал I], верхня межа якого включає останнє число ранжованого ряду.

Будуємо інтервальний ряд (табл. 2.3).

Інтервальний ряд розподілу фірм та середньооблікової чисельності менеджерів в одному з регіонів РФ у I кварталі звітного року

Висновок.Найбільш численною групою фірм є група з середньообліковою чисельністю менеджерів 25-30 осіб, яка включає 8 фірм (27%); у найменшу групу з середньообліковою чисельністю менеджерів 40-45 людина входить лише одна фірма (3%).

Використовуючи вихідні дані табл. 2.1, і навіть інтервальний ряд розподілу фірм за чисельністю менеджерів (табл. 2.3), потрібнопобудувати аналітичну угруповання залежності між чисельністю менеджерів та обсягом продажів фірм і на підставі її зробити висновок про наявність (або відсутність) зв'язку між зазначеними ознаками.

Рішення:

Аналітичне угруповання будується за факторною ознакою. У нашій задачі факторною ознакою (х) є чисельність менеджерів, а результативною ознакою (у) – обсяг продажу (табл. 2.4).

Побудуємо тепер аналітичне угруповання(Табл. 2.5).

Висновок.На підставі даних побудованого аналітичного угруповання можна сказати, що зі збільшенням чисельності менеджерів з продажу середній у групі обсяг продажів фірми також збільшується, що свідчить про наявність прямого зв'язку між зазначеними ознаками.

Таблиця 2.4

Допоміжна таблиця для побудови аналітичного угруповання

Чисельність менеджерів, чол.,

Номер фірми

Обсяг продажів, млн руб., у

» = 59 f = 9,97

Я-™ 4 -Ю.22

74 ’25 1ПЙ1

У4 = 7 = 10,61

у = ’ =10,31 30

Таблиця 2.5

Залежність обсягів продажу від чисельності менеджерів фірм в одному з регіонів РФ у I кварталі звітного року

КОНТРОЛЬНІ ПИТАННЯ
  • 1. У чому суть статистичного спостереження?
  • 2. Назвіть етапи статистичного спостереження.
  • 3. Якими є організаційні форми статистичного спостереження?
  • 4. Назвіть види статистичного спостереження.
  • 5. Що таке статистичне зведення?
  • 6. Назвіть типи статистичних зведень.
  • 7. Що таке статистичне угруповання?
  • 8. Назвіть типи статистичних угруповань.
  • 9. Що таке низка розподілу?
  • 10. Назвіть конструктивні елементи розподілу.
  • 11. Який порядок побудови низки розподілів?

Маючи в своєму розпорядженні дані статистичного спостереження, що характеризують те чи інше явище, насамперед необхідно їх упорядкувати, тобто. надати характеру системності

Англійська статистика. УДжРейхман із приводу невпорядкованих сукупностей образно сказав, що зіткнутися з масою неузагальнених даних рівнозначно ситуації, коли людину кидають у лісовій гущавині без компасу. Що ж являє собою систематизація статистичних даних у вигляді рядів розподілу?

Статистичний ряд розподілу – це впорядковані статистичні сукупності (табл. 17). Найпростішим видом статистичного ряду розподілу ранжованого ряду, тобто. ряд чисел, що знаходиться в порядку зростання ч або падіння, варіюючи ознаки. Такий ряд не дозволяє судити про закономірності, закладені в розподілених даних: у якої величини групується більшість показників, які є відхиленнями від цієї величини; як загальна картина розподілу. З цією метою групують дані, показуючи, як часто зустрічаються окремі спостереження в їхньому числі (Схема 1а 1).

. Таблиця 17

. Загальний вигляд статистичних рядів розподілу

. Схема 1. Схемастатистичнихрядів розподілу

Розподіл одиниць сукупності за ознаками, що не мають кількісного виразу, називається атрибутивним рядом(Наприклад, розподіл підприємств за їх виробничим напрямом)

Ряди розподілу одиниць сукупності за ознаками, мають кількісний вираз, називаються варіаційними рядами. У таких рядах значення ознаки (варіанти) перебувають у порядку зростання чи спадання

У варіаційному ряді розподілу розрізняють два елементи: варіанти та частота . Варіанту- це окреме значення групувальної ознаки частота- Число, яке показує, скільки разів зустрічається кожен варіант

У математичній статистиці обчислюється ще один елемент варіаційного ряду - частина. Остання визначається як відношення частоти випадків даного інтервалу до загальної суми частот частість визначається у частках одиниці, відсотках (%) у промілі (% о)

Таким чином, варіаційний ряд розподілу - це такий ряд, в якому варіанти розташовані в порядку зростання або зменшення, вказані частоти або частоти. Варіаційні ряди бувають дискретні (переривні) та ін. Інтервальні (безперервного).

. Дискретні варіаційні ряди- це такі ряди розподілу, в яких варіанти як величина кількісної ознаки може набувати лише певного значення. Варіанти різняться між собою однією чи кілька одиниць

Так, кількість вироблених деталей за зміну конкретним робітником може виражатися лише одним певним числом (6, 10, 12 тощо). Прикладом дискретного варіаційного ряду може бути розподіл працівників за кількістю вироблених деталей (табл 18 18).

. Таблиця 18

. Дискретний ряд розподілу _

. Інтервальні (безперервні) варіаційні ряди- такі ряди розподілу, у яких значення варіанти дано як інтервалів, тобто. Значення ознак можуть відрізнятися один від одного на скільки завгодно малу величину. При побудові варіаційного ряду неп перервної ознаки неможливо вказати кожне значення варіанти, тому сукупність розподіляється за інтервалами. Останні можуть бути рівними і нерівними. Для кожного з них зазначаються частоти або частоти (табл. 1999).

В інтервальних рядах розподілу з нерівними інтервалами обчислюють такі математичні характеристики, як густина розподілу і відносна густина розподілу на даному інтервалі. Перша характеристика визначилася відношенням частоти до величини того ж інтервалу, друга - відношенням частоти до величини того ж інтервалу. Для наведеного вище прикладу щільність розподілу першому інтервалі складе 3: 5 = 0,6, а відносна щільність цьому інтервалі - 7,5:5 = 1,55%.

. Таблиця 19

. Інтервальний ряд розподілу _

Дискретний варіаційний ряд будується для дискретних ознак.

Для того, щоб побудувати дискретний варіаційний ряд, потрібно виконати наступні дії: 1) упорядкувати одиниці спостереження за зростанням досліджуваного значення ознаки,

2) визначити всі можливі значення ознаки x i, упорядкувати їх за зростанням,

значенням ознаки, i .

частота значення ознаки і позначають f i . Сума всіх частот ряду дорівнює кількості елементів у сукупності, що вивчається.

Приклад 1 .

Список оцінок, отриманих студентами на іспитах: 3; 4; 3; 5; 4; 2; 2; 4; 4; 3; 5; 2; 4; 5; 4; 3; 4; 3; 3; 4; 4; 2; 2; 5; 5; 4; 5; 2; 3; 4; 4; 3; 4; 5; 2; 5; 5; 4; 3; 3; 4; 2; 4; 4; 5; 4; 3; 5; 3; 5; 4; 4; 5; 4; 4; 5; 4; 5; 5; 5.

Тут число Х - Оцінкає дискретною випадковою величиною, а одержаний список оцінок -статистичні (спостерігаються) дані .

    упорядкувати одиниці спостереження щодо зростання досліджуваного значення ознаки:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) визначити всі можливі значення ознаки x i, упорядкувати їх за зростанням:

У цьому прикладі всі оцінки можна розділити чотирма групи з такими значеннями: 2; 3; 4; 5.

Значення випадкової величини, що відповідає окремій групі даних, що спостерігаються, називають значенням ознаки, варіантом (варіантою) і визначають x i .

Число, яке показує, скільки разів зустрічається відповідне значення ознаки в ряді спостережень називають частота значення ознаки і позначають f i .

Для нашого прикладу

оцінка 2 зустрічається - 8 разів,

оцінка 3 зустрічається - 12 разів,

оцінка 4 зустрічається - 23 рази,

оцінка 5 зустрічається – 17 разів.

Усього 60 оцінок.

4) записати отримані дані в таблицю з двох рядків (стовпців) - x i і f i.

З цих даних можна побудувати дискретний варіаційний ряд

Дискретний варіаційний ряд - це таблиця, в якій вказані значення, що вивчається ознаки як окремі значення за зростанням та їх частоти

  1. Побудова інтервального варіаційного ряду

Крім дискретного варіаційного ряду, часто зустрічається такий спосіб групування даних, як інтервальний варіаційний ряд.

Інтервальний ряд будується якщо:

    ознака має безперервний характер зміни;

    дискретних значень вийшло дуже багато (більше 10)

    частоти дискретних значень дуже малі (не перевищують 1-3 за відносно більшої кількості одиниць спостереження);

    багато дискретних значень ознаки з однаковими частотами.

Інтервальний варіаційний ряд – це спосіб угруповання даних як таблиці, що має дві графи (значення ознаки як інтервалу значень і частота кожного інтервалу).

На відміну від дискретного ряду значення ознаки інтервального ряду представлені окремими значеннями, а інтервалом значень («від - до»).

Число, яке показує, скільки одиниць спостереження потрапило до кожного виділеного інтервалу, називається частота значення ознаки і позначають f i . Сума всіх частот ряду дорівнює кількості елементів (одиниць спостереження) в сукупності, що вивчається.

Якщо одиниця має значення ознаки, що дорівнює величині верхньої межі інтервалу, то її слід відносити до наступного інтервалу.

Наприклад, дитина зі зростанням 100 см потрапить у другий інтервал, а не в перший; а дитина зі зростом 130 см потрапить в останній інтервал, а не в третій.

З цих даних можна побудувати інтервальний варіаційний ряд.

У кожного інтервалу є нижня межа (х н), верхня межа (х в) та ширина інтервалу ( i).

Кордон інтервалу – це значення ознаки, що лежить межі двох інтервалів.

зростання дітей (см)

зростання дітей (см)

кількість дітей

більше 130

Якщо інтервал має верхню і нижню межу, він називається закритий інтервал. Якщо інтервал має лише нижній або тільки верхній кордон, то це – відкритий інтервал.Відкритим може бути тільки перший або останній інтервал. У наведеному прикладі останній інтервал – відкритий.

Ширина інтервалу (i) - Різниця між верхнім і нижнім кордоном.

i = х н - х в

Ширина відкритого інтервалу приймається такою самою, як ширина сусіднього закритого інтервалу.

зростання дітей (см)

кількість дітей

Ширина інтервалу (i)

для розрахунків 130 +20 = 150

20 (бо ширина сусіднього закритого інтервалу – 20)

Усі інтервальні ряди поділяються на інтервальні ряди з рівними інтервалами та інтервальні ряди з нерівними інтервалами . У інтервальних рядах із рівними інтервалами ширина всіх інтервалів однакова. В інтервальних рядах із нерівними інтервалами ширина інтервалів різна.

У прикладі - інтервальний ряд з нерівними інтервалами.

Лабораторна робота №1

За математичною статистикою

Тема: Первинна обробка експериментальних даних

3. Оцінка у балах. 1

5. Контрольні питання.

6. Методика виконання лабораторної роботи.

Мета роботи

Набуття навичок первинної обробки емпіричних даних методами математичної статистики.

На основі сукупності дослідних даних виконати такі завдання:

Завдання 1.Побудувати інтервальний варіаційний ряд розподілу.

Завдання 2.Побудувати гістограму частот інтервального варіаційного ряду.

Завдання 3.Скласти емпіричну функцію розподілу та побудувати графік.

а) моду та медіану;

б) умовні початкові моменти;

в) вибіркову середню;

г) вибіркову дисперсію, виправлену дисперсію генеральної сукупності, виправлене середнє квадратичне відхилення;

д) коефіцієнт варіації;

е) асиметрію;

ж) ексцес;

Завдання 5.Визначити межі істинних значень числових характеристик, випадкової величини, що вивчається, із заданою надійністю.

Завдання 6.Змістовна інтерпретація результатів первинної обробки за умовою завдання.

Оцінка в балах

Завдання 1-56 балів

Завдання 62 бали

Захист лабораторної роботи(Усна співбесіда з контрольних питань та лабораторної роботи) - 2 бали

Робота здається у письмовій формі на аркушах формату А4 та включає:

1) Титульний лист (Додаток 1)

2) Вихідні дані.

3) Подання роботи за вказаним зразком.

4) Результати розрахунків (виконані вручну та/або за допомогою MS Excel) у зазначеному порядку.

5) Висновки – змістовна інтерпретація результатів первинної обробки за умовою завдання.

6) Усна співбесіда з роботи та контрольних питань.



5. Контрольні питання


Методика виконання лабораторної роботи

Завдання 1. Побудувати інтервальний варіаційний ряд розподілу

Для того, щоб статистичні дані подати у вигляді варіаційного ряду з рівновіддаленими варіантами необхідно:

1.У вихідній таблиці даних знайти найменше та найбільше значення.

2.Визначити розмах варіювання :

3. Визначити довжину інтервалу h, якщо у вибірці до 1000 даних використовують формулу: , де n - обсяг вибірки - кількість даних у вибірці; для обчислень беруть lgn).

Обчислене ставлення округляють до зручного цілого значення .

4. Визначити початок першого інтервалу для парного числа інтервалів рекомендують брати величину; а для непарного числа інтервалів.

5. Записати інтервали угруповань і розташувати їх у порядку зростання кордонів

, ,………., ,

де – нижня межа першого інтервалу. Забереться зручне число не більше, верхня межа останнього інтервалу повинна бути не меншою. Рекомендується, щоб інтервали містили у собі вихідні значення випадкової величини та виділяти від 5 до 20інтервалів.

6. Записати вихідні дані щодо інтервалів угруповань, тобто. підрахувати за вихідною таблицею число значень випадкової величини, які у зазначені інтервали. Якщо деякі значення збігаються з межами інтервалів, то їх відносять або до попереднього, або тільки до наступного інтервалу.

Зауваження 1.Інтервали необов'язково брати рівними за довжиною. На ділянках, де значення розташовуються густіше, зручніше брати дрібніші короткі інтервали, а там де рідше - більші.

Примітка 2.Якщо деяких значень отримані “нульові”, чи малі значення частот , необхідно перегрупувати дані, укрупнюючи інтервали (збільшуючи крок ).