Генеральна сукупність та вибірка основні поняття. Генеральна сукупність та вибірковий метод

У попередньому розділі нас цікавила розподіл ознаки у певній сукупності елементів. Сукупність, яка поєднує всі елементи, що має цю ознаку, називається генеральною. Якщо ознака людська (національність, освіта, коефіцієнт IQ тощо), то генеральна сукупність - все людство. Це дуже велика сукупність, тобто кількість елементів у сукупності n велика. Число елементів називається обсягом сукупності. Сукупності можуть бути кінцевими та нескінченними. Генеральна сукупність - всі люди хоч і дуже велика, але, звичайно, кінцева. Генеральна сукупність – усі зірки, напевно, нескінченно.

Якщо дослідник проводить вимір деякої безперервної випадкової величини X, кожен результат виміру вважатимуться елементом деякої гіпотетичної необмеженої генеральної сукупності. У цій генеральній сукупності незліченну кількість результатів розподілено за ймовірністю під впливом похибок у приладах, неуважності експериментатора, випадкових перешкод у самому явищі та ін.

Якщо ми проведемо n повторних вимірів випадкової величини Х, тобто отримаємо n конкретних різних чисельних значень, цей результат експерименту вважатимуться вибіркою обсягу n з гіпотетичної генеральної сукупності результатів одиничних вимірів.

Природно вважати, що дійсним значенням величини, що вимірюється, є середнє арифметичне від результатів. Ця функція від n результатів вимірювань називається статистикою, і вона сама є випадковою величиною, що має деякий розподіл, що називається вибірковим розподілом. Визначення вибіркового розподілу тієї чи іншої статистики - найважливіше завдання статистичного аналізу. Зрозуміло, що це розподіл залежить від обсягу вибірки n і зажадав від розподілу випадкової величини Х гіпотетичної генеральної сукупності. Вибірковий розподіл статистики є розподілом Х q в нескінченній сукупності всіх можливих вибірок обсягу n з вихідної генеральної сукупності.

Можна проводити вимірювання та дискретної випадкової величини.

Нехай вимір випадкової величини Х є киданням правильної однорідної трикутної піраміди, на гранях якої написані числа 1, 2, 3, 4. Дискретна, випадкова величина Х має простий рівномірний розподіл:

Експеримент можна робити необмежену кількість разів. Гіпотетичною теоретичною генеральною сукупністю є нескінченна сукупність, в якій є однакові частки (по 0.25) чотирьох різних елементів, позначених цифрами 1, 2, 3, 4. Серія n повторних кидань піраміди або одночасне кидання n однакових пірамід можна розглядати як вибір n цієї генеральної сукупності. В результаті експерименту маємо n чисел. Можна запровадити деякі функції цих величин, які називаються статистиками, можуть бути пов'язані з певними параметрами генерального розподілу.

Найважливішими числовими характеристиками розподілів є ймовірності Р i , математичне очікування М, дисперсія D. Статистиками для ймовірностей Р i є відносні частоти, де n i - Частота результату i (i = 1,2,3,4) у вибірці. Математичного очікування М відповідає статистика

яка називається вибірковим середнім. Вибіркова дисперсія

відповідає генеральній дисперсії D.

Відносна частота будь-якої події (i=1,2,3,4) у серіях з n повторних випробувань (або вибірках обсягу n з генеральної сукупності) матиме біномне розподіл.

У цього розподілу математичне очікування дорівнює 0.25 (не залежить від n), а середнє квадратичне відхилення одно (швидко зменшується зі зростанням n). Розподіл є вибірковим розподілом статистики, відносна частота будь-якого з чотирьох можливих результатів одиничного кидання піраміди в повторних n випробуваннях. Якби ми вибрали з нескінченної, генеральної сукупності, в якій чотири різні елементи (i=1,2,3,4) мають рівні частки по 0.25, всі можливі вибірки обсягом n (їх число також нескінченно), то отримали б так звану математичну вибірку обсягу n. У цій вибірці кожен із елементів (i=1,2,3,4) розподілено за біноміальним законом.

Допустимо, ми виконали кидання цієї піраміди, і число двійки випало 3 рази (). Ми можемо знайти можливість цього результату, використовуючи вибірковий розподіл. Вона дорівнює

Наш результат виявився вельми малоймовірним; у серії із двадцяти чотирьох кратних кидань він зустрічається приблизно один раз. У біології такий результат зазвичай вважається практично неможливим. В цьому випадку у нас з'явиться сумнів: є піраміда правильною і однорідною, чи справедливо при одному киданні рівність, чи правильний розподіл і, отже, вибірковий розподіл.

Щоб вирішити сумнів, треба виконати ще один раз чотириразове кидання. Якщо знову з'явиться результат, то ймовірність двох результатів дуже мала. Зрозуміло, що ми отримали практично неможливий результат. Тому вихідний розподіл неправильний. Очевидно, що, якщо другий результат виявиться ще малоймовірнішим, то є ще більше підстав розібратися з цією "правильною" пірамідою. Якщо ж результат повторного експерименту буде і тоді можна вважати, що піраміда правильна, а перший результат (), теж вірний, але просто малоймовірний.

Нам можна було і не займатися перевіркою правильності та однорідності піраміди, а вважати апріорі піраміду правильною та однорідною, і, отже, правильним вибірковий розподіл. Далі слід з'ясувати, що дає знання вибіркового розподілу на дослідження генеральної сукупності. Але оскільки встановлення вибіркового розподілу є основним завданням статистичного дослідження, докладний опис експериментів із пірамідою можна вважати виправданим.

Вважатимемо, що вибірковий розподіл правильний. Тоді експериментальні значення відносної частоти різних серіях по n кидань піраміди будуть групуватися близько значення 0.25, що є центром вибіркового розподілу і точним значенням оцінюваної ймовірності. І тут кажуть, що відносна частота є незміщеною оцінкою. Оскільки, вибіркова дисперсія прагнути до нуля зі зростанням n, то експериментальні значення відносної частоти дедалі більше групуватимуться біля математичного очікування вибіркового розподілу зі зростанням обсягу вибірки. Тому є спроможною оцінкою ймовірності.

Якби піраміда виявилася направильною та неоднорідною, то вибіркові розподіли для різних (i=1,2,3,4) мали б відмінні математичні очікування (різні) та дисперсії.

Зазначимо, що отримані тут біномні вибіркові розподіли при великих n() добре апроксимуються нормальним розподілом з параметрами і, що значно спрощує розрахунки.

Продовжимо випадковий експеримент - кидання правильної, однорідної, трикутної піраміди. Випадкова величина Х, пов'язана з цим досвідом, має розподіл. Математичне очікування тут одно

Проведемо n кидань, що еквівалентно випадковій вибірці обсягу n з гіпотетичної, нескінченної, генеральної сукупності, що містить рівні частки (0.25) чотирьох різних елементів. Отримаємо n вибіркових значень випадкової величини Х(). Виберемо статистику, яка є вибірковим середнім. Величина сама є випадковою величиною, що має деякий розподіл, що залежить від обсягу вибірки та розподілу вихідної, випадкової величини Х. Величина є усередненою сумою n однакових випадкових величин (тобто з однаковим розподілом). Зрозуміло, що

Тому статистика є незміщеною оцінкою математичного очікування. Вона є також заможною оцінкою, оскільки

Таким чином, теоретичний вибірковий розподіл має також математичне очікування, що й у вихідного розподілу дисперсія зменшена в n разів.

Нагадаємо, що дорівнює

Математична, абстрактна нескінченна вибірка, пов'язана з вибіркою обсягу n з генеральної сукупності та з введеною статистикою міститиме в нашому випадку елементів. Наприклад, якщо в математичній вибірці будуть елементи зі значеннями статистики. Усього елементів буде 13. Частка крайніх елементів у математичній вибірці буде мінімальною, оскільки результати і мають ймовірності рівні. Серед безлічі елементарних наслідків чотирьох кратного кидання піраміди є лише по одному сприятливому і. При наближенні статистик до середніх значень ймовірності зростатимуть. Наприклад, значення реалізуватиметься при елементарних наслідках, і т. д. Відповідно зросте і частка елемента 1.5 в математичній вибірці.

Середнє значення матиме максимальну ймовірність. Зі зростанням n експериментальні результати будуть групуватися близько середнього значення. Та обставина, що середнє вибіркового середнього дорівнює середньому початковій сукупності часто використовується у статистиці.

Якщо виконати розрахунки ймовірностей у вибірковому розподілі, то можна переконатися, що вже при такому невеликому значенні n вибірковий розподіл буде виглядати як нормальний. Воно буде симетричним, у якому значення буде медіаною, модою та математичним очікуванням. Зі зростанням n воно добре апроксимується відповідним нормальним навіть, якщо вихідний розподіл прямокутний. Якщо ж вихідний розподіл є нормальним, то розподіл є розподілом Стьюдента за будь-якого n.

Для оцінки генеральної дисперсії необхідно вибрати складнішу статистику, яка дає незміщену та заможну оцінку. У вибірковому розподілі для S 2 математичне очікування рівне, а дисперсія. При більших обсягах вибірок вибірковий розподіл вважатимуться нормальним. При малих n і нормальному вихідному розподілі вибірковий розподіл S 2 буде ч 2 _розподіл.

Вище ми спробували представити перші кроки дослідника, який намагається провести простий статистичний аналіз повторних експериментів із правильною однорідною трикутною призмою (тетраедром). У цьому випадку нам відомий вихідний розподіл. Можна в принципі теоретично отримати і вибіркові розподіли відносної частоти, вибіркової середньої та вибіркової дисперсії в залежності від числа повторних дослідів n. При великих n всі ці вибіркові розподіли наближатимуться до відповідних нормальних розподілів, оскільки вони є законами розподілу сум незалежних випадкових величин (центральна гранична теорема). Таким чином, нам відомі очікувані результати.

Повторні експерименти чи вибірки дадуть оцінки параметрів вибіркових розподілів. Ми стверджували, що експериментальні оцінки будуть правильними. Ми не виконували ці експерименти і навіть не наводили результатів дослідів, отриманих іншими дослідниками. Можна наголосити, що з визначенні законів розподілів теоретичні методи використовуються частіше, ніж прямі експерименти.

Це наука, яка, ґрунтуючись на методах теорії ймовірностей, займається систематизацією та опрацюванням статистичних даних для отримання наукових та практичних висновків.

Статистичними даними називаються відомості про кількість об'єктів, які мають ті чи інші ознаки .

Група об'єктів, об'єднаних за деякою якісною чи кількісною ознакою, називається статистичною сукупністю . Об'єкти, що входять у сукупність, називаються її елементами, які загальне число - її обсягом.

Генеральною сукупністюназивається безліч всіх можливих спостережень, які могли б бути зроблені при даному реальному комплексі умов або більш строго: Генеральною сукупністю називається випадкова величина x і пов'язане з нею імовірнісне простір (W, Á, Р).

Розподіл випадкової величини x називають розподілом генеральної сукупності(Кажуть, наприклад, про нормально розподілену або просто нормальну генеральну сукупність).

Наприклад, якщо проводиться ряд незалежних вимірів випадкової величини x,то генеральна сукупність теоретично нескінченна (тобто. генеральна сукупність – абстрактне, умовно – математичне поняття); якщо ж перевіряється кількість дефектних виробів партії з N виробів, то цю партію розглядають як кінцеву генеральну сукупність обсягу N.

У разі соціально-економічних досліджень генеральною сукупністю обсягу N може бути населення якогось міста, регіону або країни, а ознаками, що вимірюються - доходи, витрати або обсяг заощаджень окремо взятої людини. Якщо якась ознака має якісний характер (наприклад, стать, національність, соціальне становище, рід діяльності тощо), але належить до кінцевої множини варіантів, то він може бути також закодований числом (як це часто роблять в анкетах).

Якщо кількість об'єктів N досить велика, провести суцільне обстеження важко, інколи ж фізично неможливо (наприклад, перевірити якість всіх патронів). Тоді випадково відбирають з усієї генеральної сукупності обмежену кількість об'єктів і піддають їх вивченню.

Вибірковою сукупністю чи просто вибіркоюобсягу n називається послідовність х 1 , х 2 , …, х n незалежних однаково розподілених випадкових величин, розподіл кожної з яких збігається із розподілом випадкової величини x.

Наприклад, результати n перших вимірів випадкової величини xприйнято розглядати як вибірку обсягу n із нескінченної генеральної сукупності. Отримані дані називають спостереженнями випадкової величини x, а також кажуть, що випадкова величина x "набуває значення" х 1, х 2, …, х n.


Основне завдання математичної статистики - зробити науково обґрунтовані висновки про розподіл однієї чи більше невідомих випадкових величин або їх взаємозв'язок між собою. Метод, що полягає в тому, що на підставі властивостей та характеристик вибірки робляться висновки про числові характеристики та закон розподілу випадкової величини (генеральної сукупності) називається вибірковим способом.

Для того щоб характеристики випадкової величини, отримані вибірковим методом, були об'єктивні, необхідно, щоб вибірка була репрезентативної, тобто. досить добре уявляла досліджувану величину. З закону високих чисел можна стверджувати, що вибірка буде репрезентативною, якщо її здійснити випадково, тобто. всі об'єкти генеральної сукупності мають однакову можливість потрапити у вибірку. І тому існують різні види відбору вибірки.

1. Простимвипадковим відбором називається відбір, у якому об'єкти витягуються по одному з усієї генеральної сукупності.

2. Стратифікований (розшарований)) відбір у тому, що вихідна генеральна сукупність обсягу N поділяється на підмножини (страти) N 1 , N 2 ,…,N k , отже N 1 + N 2 +…+ N k = N. Коли страти визначено, з кожного з них витягується проста випадкова вибірка обсягу n 1 , n 2 , …, n k . Приватним випадком стратифікованого відбору є типовий відбір, у якому об'єкти відбирають з усього генеральної сукупності, та якщо з кожної типової її частини.

Комбінований відбірпоєднує у собі відразу кілька видів відбору, що утворюють різні фази вибіркового обстеження. Існують інші методи організації вибірки.

Вибірка називається повторної , якщо відібраний об'єкт перед вибором наступного повертається генеральну сукупність. Вибірка називається безповторний , якщо відібраний об'єкт у генеральну сукупність не повертається. Для кінцевої генеральної сукупності випадковий відбір без повернення призводить кожному кроку до залежності окремих спостережень, випадковий рівноможливий вибір із поверненням - до незалежності спостережень. Насправді зазвичай мають справу з безповторними вибірками. Тим не менш, коли обсяг генеральної сукупності N у багато разів більший, ніж обсяг вибірки n (наприклад, у сотні або тисячі разів), залежність спостережень можна знехтувати.

Таким чином, випадкова вибірка х 1, х 2, …, х n - це результат послідовних і незалежних спостережень над випадковою величиною ξ, що представляє генеральну сукупність, і всі елементи вибірки теж мають розподілі, що вихідна випадкова величина x.

Функцію розподілу F x (х) та інші числові характеристики випадкової величини x називатимемо теоретичними, на відміну від вибіркових характеристик , що визначаються за результатами спостережень

Нехай вибірка х 1 , х 2 , ..., х до є результат незалежних спостережень випадкової величини x, причому х 1 спостерігалося n 1 раз, х 2 - n 2 рази, ..., х до - n до разів, так що n i = n - обсяг вибірки. Число n i , що показує скільки разів з'явилося значення х i в n спостереженнях, називається частотою даного значення, а відношення n i /n = w i - відносною частотою. Очевидно, що числа w i раціональні та .

Статистична сукупність, розташована у порядку зростання ознаки, називається варіаційним рядом . Його члени позначають x (1) , x (2), … x (n) і називають варіантами . Варіаційний ряд називається дискретнимякщо його члени приймають конкретні ізольовані значення. Статистичним розподілом вибірки дискретної випадкової величини xназивається перелік варіант та відповідних їм відносних частот w i. Отримана таблиця називається статистичним поряд.

X (1) x (2) ... x k(k)
ω 1 ω 2 ... ω k

Найбільше та найменше значення варіаційного ряду позначають x min та x max та називають крайніми членами варіаційного ряду.

Якщо вивчається безперервна випадкова величина, то угруповання полягає в розбитті інтервалу значень, що спостерігаються на k часткових інтервалів рівної довжини h, і підрахунку числа попадань спостережень в ці інтервали. Отримані числа приймають за частоти n i (для деякої нової вже дискретної випадкової величини). В якості нових значень варіант xi зазвичай беруться середини інтервалів (або в таблиці вказуються самі інтервали). Відповідно до формули Стерждеса рекомендована кількість інтервалів розбиття k » 1 + log 2 n, А довжини часткових інтервалів дорівнюють h = (x max - x min) / k. Передбачається, що весь інтервал має вигляд .

Графічно статистичні ряди можуть бути представлені у вигляді полігону, гістограми або графіка накопичених частот.

Полігоном частотназивають ламану лінію, відрізки якої з'єднують точки (x1, n1), (x2, n2), …, (xk, nk). Полігоном відносних частот називають ламану, відрізки якої з'єднують точки (x 1 , w 1), (x 2 w 2), …, (x k , w k). Полігони зазвичай служать зображення вибірки у разі дискретних випадкових величин (рис. 7.1.1).

Мал. 7.1

.1.

Гістограмою відносних частотназивається ступінчаста фігура, що складається з прямокутників, основою яких є часткові інтервали довжиною h , а висоти

рівні w i/h.

Гістограма зазвичай служить зображення вибірки у разі безперервних випадкових величин. Площа гістограми дорівнює одиниці (рис. 7.1.2). Якщо гістограмі відносних частот з'єднати середини верхніх сторін прямокутників, то отримана ломана утворює полігон відносних частот. Тому гістограму можна розглядати як графік емпіричної (вибіркової) щільності розподілу fn(x). Якщо теоретичного розподілу існує кінцева щільність, то емпірична щільність є деяким наближенням теоретичної.

Графіком накопичених частотназивається фігура, що будується аналогічно гістограмі з тією різницею, що для розрахунку висот прямокутників беруться не прості, а накопичені відносні частоти, тобто. величини. Ці величини не зменшуються, і графік накопичених частот має вигляд ступінчастої "сходи" (від 0 до 1).

Графік накопичених частот практично застосовуються наближення теоретичної функції розподілу.

Завдання.Аналізується вибірка зі 100 малих підприємств регіону. Мета обстеження - вимірювання коефіцієнта співвідношення позикових та власних коштів (х i) на кожному i-му підприємстві. Результати представлені у таблиці 7.1.1.

ТаблицяКоефіцієнти співвідношень позикових та власних коштів підприємств.

5,56 5,45 5,48 5,45 5,39 5,37 5,46 5,59 5,61 5,31
5,46 5,61 5,11 5,41 5.31 5,57 5,33 5,11 5,54 5,43
5,34 5,53 5,46 5,41 5,48 5,39 5,11 5,42 5,48 5,49
5,36 5,40 5,45 5,49 5,68 5,51 5,50 5,68 5,21 5,38
5,58 5,47 5,46 5,19 5,60 5,63 5,48 5,27 5,22 5,37
5,33 5,49 5,50 5,54 5,40 5.58 5,42 5,29 5,05 5,79
5,79 5,65 5,70 5,71 5,85 5,44 5,47 5,48 5,47 5,55
5,67 5,71 5,73 5,05 5,35 5,72 5,49 5,61 5,57 5,69
5,54 5,39 5,32 5,21 5,73 5,59 5,38 5,25 5,26 5,81
5,27 5,64 5,20 5,23 5,33 5,37 5,24 5,55 5,60 5,51

Побудувати гістограму та графік накопичених частот.

Рішення. Побудуємо групований ряд спостережень:

1. Визначимо у вибірці х min = 5,05 та x max = 5,85;

2. Розіб'ємо весь діапазон на k рівних інтервалів: k » 1 + log 2100 = 7,62; k = 8, звідси довжина інтервалу

Таблиця 7.1.2.Згрупований ряд спостережень

Номер інтервалу Інтервали Середини інтервалів х i w i f n (x)
5,05-5,15 5,1 0,05 0,05 0,5
5,15-5,25 5,2 0,08 0,13 0,8
5,25-5,35 5,3 0,12 0,25 1,2
5,35-5,45 5,4 0,20 0,45 2,0
5,45-5,55 5,5 0,26 0,71 2,6
5,55-5,65 5,6 0,15 0,86 1,5
5,65-5,75 5,7 0,10 0,96 1,0
5,75-5,85 5,8 0,04 1,00 0,4

На рис. 7.1.3 та 7.1.4, побудованих за даними таблиці 7.1.2, представлені гістограма та графік накопичених частот. Криві відповідають щільності та функції нормального розподілу, "підібраного" до даних.

Отже, розподіл вибірки є наближенням розподілу генеральної сукупності.

Весь масив особин певної категорії називається генеральною сукупністю. Обсяг генеральної сукупності визначається завданнями дослідження.

Якщо вивчається якийсь вид диких тварин чи рослин, то генеральною сукупністю будуть усі особини цього виду. У разі обсяг генеральної сукупності буде дуже великий і за розрахунках він приймається за нескінченно велику величину.

Якщо вивчається дія якого-небудь агента на рослини та тварин певної категорії, то генеральною сукупністю будуть усі рослини та тварини тієї категорії (виду, статі, віку, господарського призначення), до якої належали піддослідні об'єкти. Це вже не дуже багато особин, але ще недоступне для суцільного вивчення.

Не завжди обсяг генеральної сукупності недоступний для суцільного дослідження. Іноді вивчаються невеликі сукупності, наприклад, визначається середній надій або середній настриг вовни у групи тварин, закріплених за певним працівником. У таких випадках генеральною сукупністю буде зовсім невелика кількість особин, які досліджуються. Невелика генеральна сукупність зустрічається також при дослідженні рослин або тварин, що є в якійсь колекції, з метою характеристики певної групи цієї колекції.

Характеристики групових властивостей (і т. д.), які стосуються всієї генеральної сукупності, називаються генеральними параметрами.

Вибірка - група об'єктів, що відрізняються трьома особливостями:

1 це частина генеральної сукупності;

2 відібрана у випадковому порядку, певним чином;

3 досліджувана для характеристики всієї генеральної сукупності.

Щоб за вибіркою можна було отримати досить точну характеристику всієї генеральної сукупності, необхідно організувати правильний відбір об'єктів з генеральної сукупності.

Теорією та практикою розроблено кілька систем відбору особин у вибірку. В основу цих систем покладено прагнення забезпечити максимальну можливість вибору будь-якого об'єкта з генеральної сукупності. Тенденційність, упередженість при відборі об'єктів для вибіркового дослідження перешкоджають отриманню правильних загальних висновків, роблять результати вибіркового дослідження непоказовими для всієї генеральної сукупності, тобто нерепрезентативними.

Для отримання правильної, неспотвореної характеристики всієї генеральної сукупності необхідно прагнути забезпечити можливість добору будь-якого об'єкта з будь-якої частини генеральної сукупності. Ця основна вимога повинна виконуватися тим суворіше, чим більш мінливий ознака, що вивчається. Цілком зрозуміло, що при різноманітності, що наближається до нуля, наприклад, у разі вивчення кольору волосся або пір'я деяких видів, будь-який спосіб відбору вибірки дасть репрезентативні результати.

У різних дослідженнях застосовуються такі способи відбору об'єктів вибірку.

4 Випадковий повторний відбір, при якому об'єкти вивчення відбираються з генеральної сукупності без попереднього обліку розвитку у них ознаки, що вивчається, тобто у випадковому (для даної ознаки) порядку; після відбору кожен об'єкт вивчається і потім повертається у свою генеральну сукупність, отже будь-який об'єкт може потрапити повторно вибірку. Такий спосіб відбору рівносильний відбору з нескінченно великої генеральної сукупності, котрого розроблені основні показники взаємовідносин між вибірковими та генеральними величинами.

5 Випадковий безповторний відбір, у якому об'єкти, відібрані, як й у попередньому способі, випадково, не повертаються у генеральну сукупність і можуть повторно потрапити у вибірку. Це найпоширеніший спосіб організації вибірки; він рівносильний відбору з великої, але обмеженої генеральної сукупності, що враховується щодо генеральних показників по выборочным.

6 Механічний відбір, у якому виробляється відбір об'єктів із окремих частин генеральної сукупності, причому ці частини попередньо намічаються механічно по квадратам дослідного поля, по випадковим групам тварин, взятих із різних ареалів популяції тощо. буд. Зазвичай намічається стільки таких частин, скільки передбачається взяти об'єктів вивчення, тому число елементів буває дорівнює чисельності вибірки. Механічний відбір іноді здійснюється вибором для вивчення особин через певне число, наприклад при пропусканні тварин через розкол і відборі кожного десятого, сотого і т. д., або при взятті укосу через кожні 100 або 200 м, або відборі одного об'єкта через котрі 10, що зустрілися, 100 і т. д. екземплярів для дослідження всієї популяції.

8 Серійний (гніздовий) відбір, у якому генеральна сукупність розбивається на частини – серії, деякі з них досліджуються повністю. Застосовується цей спосіб успішно у випадках, коли досліджувані об'єкти досить рівномірно розподілені у певному обсязі чи певної території. Наприклад, для дослідження зараженості повітря чи води мікроорганізмами беруть проби, які піддаються суцільному дослідженню. У деяких випадках гніздовим способом можуть бути обстежені сільськогосподарські об'єкти. При вивченні виходів м'яса та інших продуктів переробки м'ясної породи худоби у вибірку можна взяти всіх тварин цієї породи, що надійшли на два-три м'ясокомбінати. При вивченні величини яйця у колгоспному птахівництві можна у кількох колгоспах провести вивчення цієї ознаки у всього поголів'я курей.

Характеристики групових властивостей (μ, sі т. д.), отримані для вибірки, називаються вибірковими показниками.

Репрезентативність

Безпосереднє вивчення групи відібраних об'єктів дає насамперед первинний матеріал і характеристику самої вибірки.

Усі вибіркові дані та зведені показники мають значення як первинні факти, розкриті дослідженням і підлягають ретельному розгляду, аналізу та зіставленню з результатами інших робіт. Але цим не обмежується процес отримання інформації, закладений у первинних матеріалах дослідження.

Та обставина, що об'єкти відбиралися у вибірку спеціальними прийомами й у достатній кількості, робить результати вивчення вибірки показовими як для самої вибірки, але й у всій генеральної сукупності, з якої взята ця вибірка.

Вибірка за певних умов стає більш менш точним відображенням всієї генеральної сукупності. Ця властивість вибірки називається репрезентативністю, що означає представництво з певною точністю та надійністю.

Як і будь-яка властивість, репрезентативність вибіркових даних може бути виражена достатньою або недостатньою мірою. У першому випадку у вибірці виходять достовірні оцінки генеральних параметрів, у другому недостовірні. Важливо пам'ятати, що отримання недостовірних оцінок не применшує значення вибіркових показників характеристики самої вибірки. Отримання достовірних оцінок розширює сферу застосування досягнень, отриманих при вибірковому дослідженні.

Генеральна сукупність- сукупність всіх об'єктів (одиниць), щодо яких вчений має намір робити висновки щодо конкретної проблеми. Генеральна сукупність складається із усіх об'єктів, які підлягають вивченню. Склад генеральної сукупності залежить від цілей дослідження. Іноді генеральна сукупність — це населення певного регіону (наприклад, коли вивчається ставлення потенційних виборців до кандидата), найчастіше задається кілька критеріїв, визначальних об'єкт дослідження. Наприклад, жінки 18-29 років, які використовують крем для рук певних марок не рідше одного разу на тиждень, і мають дохід не нижче $150 на одного члена сім'ї.

Вибірка- безліч випадків (випробуваних, об'єктів, подій, зразків), за допомогою певної процедури обраних із генеральної сукупності для участі у дослідженні.

  1. Обсяг вибірки;
  2. Залежні та незалежні вибірки;
  3. Репрезентативність:
    1. приклад нерепрезентативної вибірки;
  4. Види плану побудови груп із вибірок;
  5. Стратегії побудови груп:
    1. Рандомізація;
    2. Попарний відбір;
    3. Стратометричний відбір;
    4. Наближене моделювання.

Обсяг вибірки- Число випадків, включених у вибіркову сукупність. Зі статистичних міркувань рекомендується, щоб кількість випадків становила не менше 30-35.

Залежні та незалежні вибірки

При порівнянні двох (і більше) вибірок важливим параметром є їхня залежність. Якщо можна встановити гомоморфну ​​пару (тобто, коли одному випадку з вибірки X відповідає один і тільки один випадок з вибірки Y і навпаки) для кожного випадку у двох вибірках (і ця основа взаємозв'язку є важливою для вимірюваної на вибірках ознаки), такі вибірки називаються залежними. Приклади залежних вибірок: пари близнюків, два виміри будь-якої ознаки до і після експериментального впливу, чоловіки та дружини тощо.

Якщо такий взаємозв'язок між вибірками відсутня, то ці вибірки вважаються незалежними, наприклад: чоловіки і жінки, психологи і математики.

Відповідно, залежні вибірки мають однаковий обсяг, а обсяг незалежних може відрізнятися.

Порівняння вибірок здійснюється за допомогою різних статистичних критеріїв:

  • t-критерій Стьюдента;
  • T-критерій Вілкоксону;
  • U-критерій Манна-Уітні;
  • Критерій знаків та ін.

Репрезентативність

Вибірка може розглядатися як репрезентативна або нерепрезентативна.

Приклад нерепрезентативної вибірки

У США одним із найвідоміших історичних прикладів нерепрезентативної вибірки вважається випадок, що стався під час президентських виборів у 1936 році Журнал «Літрері Дайджест», який успішно прогнозував події кількох попередніх виборів, помилився у своїх прогнозах, розіславши десять мільйонів пробних бюлетенів своїм передплатникам, людям, обраним за телефонними книгами всієї країни, та людям із реєстраційних списків автомобілів. У 25 % бюлетенів, що повернулися (майже 2,5 мільйона) голоси були розподілені наступним чином:

57% віддавали перевагу кандидату-республіканцю Альфу Лендону

40 % обрали чинного на той час президента-демократа Франкліна Рузвельта

На дійсних виборах, як відомо, переміг Рузвельт, набравши більше 60% голосів. Помилка «Літрері Дайджест» полягала в наступному: бажаючи збільшити репрезентативність вибірки, оскільки їм було відомо, що більшість їх передплатників вважають себе республіканцями, вони розширили вибірку за рахунок людей, вибраних з телефонних книг та реєстраційних списків. Однак вони не врахували сучасних їм реалій і насправді набрали ще більше республіканців: під час Великої депресії мати телефони та автомобілі могли собі дозволити в основному представники середнього та верхнього класу (тобто більшість республіканців, а не демократів).

Види плану побудови груп із вибірок

Виділяють кілька основних видів плану побудови груп:

  1. Дослідження з експериментальною та контрольною групами, які ставляться у різні умови;
  2. Дослідження з експериментальною та контрольною групами із залученням стратегії попарного відбору;
  3. Дослідження з використанням лише однієї групи – експериментальної;
  4. Дослідження з використанням змішаного (факторного) плану – всі групи ставляться у різні умови.

Стратегії побудови груп

Відбір груп для їхньої участі в психологічному експерименті здійснюється за допомогою різних стратегій, які потрібні для того, щоб забезпечити максимально можливе дотримання внутрішньої та зовнішньої валідності:

  1. Рандомізація (випадковий відбір);
  2. Попарний відбір;
  3. Стратометричний відбір;
  4. наближене моделювання;
  5. Залучення реальних груп.

Рандомізація

Рандомізація, або випадковий вибір, використовується для створення простих випадкових вибірок. Використання такої вибірки ґрунтується на припущенні, що кожен член популяції з рівною ймовірністю може потрапити у вибірку. Наприклад, щоб зробити випадкову вибірку зі 100 студентів ВНЗ, можна скласти папірці з іменами всіх студентів ВНЗ у капелюх, а потім дістати з нього 100 папірців - це буде випадковим відбором

Попарний відбір

Попарний відбір - стратегія побудови груп вибірки, у якому групи піддослідних складаються з суб'єктів, еквівалентних за значними експерименту побічним параметрам. Дана стратегія ефективна для експериментів з використанням експериментальних та контрольних груп з кращим варіантом - залученням близнюкових пар (моно-і дизиготних), оскільки дозволяє створити.

Стратометричний відбір

Стратометричний відбір – рандомізація з виділенням страт (або кластерів). При цьому способі формування вибірки генеральна сукупність ділиться на групи (страти), які мають певні характеристики (стаття, вік, політичні переваги, освіту, рівень доходів та ін), і відбираються піддослідні з відповідними характеристиками.

Наближене моделювання

Наближене моделювання - складання обмежених вибірок та узагальнення висновків про цю вибірку більш широку популяцію. Наприклад, за участю у дослідженні студентів 2-го курсу університету дані цього дослідження поширюються на «людей віком від 17 до 21 року». Допустимість подібних узагальнень вкрай обмежена.

Отже, закономірності, яким підпорядковується досліджувана випадкова величина, фізично повністю зумовлюються реальним комплексом умов її спостереження (або експерименту), а математично задаються відповідним ймовірнісним простором або, що те саме, відповідним законом розподілу ймовірностей. Однак при проведенні статистичних досліджень дещо зручнішою виявляється інша термінологія, пов'язана з поняттям генеральної сукупності.

Генеральною сукупністю називають сукупність всіх мислимих спостережень (чи всіх подумки можливих об'єктів типу, що цікавить нас, з яких «знімаються» спостереження), які могли б бути зроблені при даному реальному комплексі умов. Оскільки у визначенні йдеться про всі подумки можливі спостереження (або об'єкти), то поняття генеральної сукупності є поняття умовно-математичне, абстрактне і його не слід змішувати з реальними сукупностями, що підлягають статистичному дослідженню. Так, обстеживши навіть всі підприємства підгалузі з точки зору реєстрації значень техніко-економічних показників, що характеризують їх, ми можемо розглядати обстежену сукупність лише як представника гіпотетично можливої ​​більш широкої сукупності підприємств, які могли б функціонувати в рамках того ж самого реального комплексу умов

У практичній роботі зручніше вибір пов'язувати з об'єктами спостереження, ніж із характеристиками цих об'єктів. Ми відбираємо вивчення машини, геологічні проби, людей, але з значення характеристик машин, проб, людей. З іншого боку, в математичній теорії об'єкти та сукупність їх характеристик не розрізняються та двоїстість введеного визначення зникає.

Як бачимо, математичне поняття «генеральна сукупність» фізично повністю обумовлюється, так само як і поняття «імовірнісний простір», «випадкова величина» та «закон розподілу ймовірностей», відповідним реальним комплексом умов, а тому всі ці чотири математичні поняття можна вважати у певному сенсі синонімами. Генеральна сукупність називається кінцевою чи нескінченною залежно від цього, кінцева чи нескінченна сукупність всіх мислимих спостережень.

З визначення слід, що безперервні генеральні сукупності (що з спостережень ознак безперервної природи) завжди нескінченні. Дискретні ж генеральні сукупності може бути як нескінченними, і кінцевими. Скажімо, якщо аналізується партія з N виробів на сортність (див. приклад п. 4.1.3), коли кожен виріб може бути віднесено до одного з чотирьох сортів, досліджуваною випадковою величиною є номер сорту випадково витягнутого з партії виробу, а безліч можливих значень випадкової величини складається відповідно з чотирьох точок (1, 2, 3 і 4), то, очевидно, генеральна сукупність буде кінцевою (всього N мислимих спостережень).

Поняття нескінченної генеральної сукупності є математична абстракція, як і уявлення про те, що вимір випадкової величини можна повторити нескінченну кількість разів. Приблизно нескінченну генеральну сукупність можна тлумачити як граничний випадок кінцевої, коли кількість об'єктів, що породжуються цим реальним комплексом умов, необмежено зростає. Тож якщо у щойно наведеному прикладі замість партій виробів розглядати безперервне масове виробництво тих самих виробів, ми й дійдемо поняття нескінченної генеральної сукупності. Практично ж така видозміна рівносильна вимогі

Вибірка з цієї генеральної сукупності - це результати обмеженого ряду спостережень випадкової величини. Вибірку можна розглядати як якийсь емпіричний аналог генеральної сукупності, те, з чим ми найчастіше на практиці маємо справу, оскільки обстеження всієї генеральної сукупності буває або дуже трудомістким (у разі великих N), або принципово неможливо (у разі нескінченних генеральних сукупностей).

Число спостережень, що утворюють вибірку, називають обсягом вибірки.

Якщо обсяг вибірки великий і при цьому ми маємо справу з одновимірною безперервною величиною (або з одновимірною дискретною, кількість можливих значень якої досить велика, скажімо більше 10), то часто зручніше, з точки зору спрощення подальшої статистичної обробки результатів спостережень, перейти до так званих «групованим» вибірковим даним. Цей перехід здійснюється зазвичай так:

а) відзначаються найменше та найбільше значення у вибірці;

б) весь обстежений діапазон розбивається на кілька рівних інтервалів групування; при цьому кількість інтервалів s не повинна бути меншою за 8-10 і більше 20-25: вибір кількості інтервалів істотно залежить від обсягу вибірки для зразкової орієнтації у виборі 5 можна користуватися наближеною формулою

яку слід сприймати швидше як оцінку знизу для s (особливо при великих

в) відзначаються крайні точки кожного з інтервалів у порядку зростання, а також їх середини

г) підраховуються числа вибіркових даних, що потрапили до кожного з інтервалів: (очевидно, ); вибіркові дані, що потрапили на межі інтервалів, або рівномірно розподіляються по двох сусідніх інтервалах, або призначаються відносити їх тільки до одного з них, наприклад до лівого.

Залежно від конкретного змісту завдання до цієї схеми групування можуть бути внесені деякі видозміни (наприклад, у деяких випадках доцільно відмовитися від вимоги рівної довжини інтервалів групування).

У всіх подальших міркуваннях, що використовують вибіркові дані, виходитимемо з щойно описаної системи позначень.

Нагадаємо, що сутність статистичних методів полягає в тому, щоб по деякій частині генеральної сукупності (тобто за вибіркою) виносити судження про її властивості загалом.

Одне з найважливіших питань, від успішного вирішення якого залежить достовірність одержуваних результаті статистичної обробки даних висновків, є питання репрезентативності вибірки, тобто. питання повноти і адекватності уявлення нею цікавлять нас властивостей аналізованої генеральної сукупності. У практичній роботі одна і та ж група об'єктів, взятих для вивчення, може розглядатися як вибірка з різних генеральних сукупностей. Так, групу сімей, навмання відібраних з кооперативних будинків однієї з житлово-експлуатаційних контор (ЖЕК) одного з районів міста для докладного соціологічного обстеження, можна розглядати і як вибірку з генеральної сукупності сімей (з кооперативною формою житла) цієї ЖЕК, і як вибірку з генеральної сукупності сімей даного району, як вибірку з генеральної сукупності всіх сімей міста, і, нарешті, як вибірку з генеральної сукупності всіх сімей міста, що у кооперативних будинках. Змістовна інтерпретація результатів апробації істотно залежить від того, представником якоїсь генеральної сукупності ми розглядаємо відібрану групу сімей, для якої генеральної сукупності цю вибірку можна вважати представницькою (репрезентативною). Відповідь це питання залежить від багатьох чинників. У наведеному вище прикладі, зокрема, від наявності або відсутності спеціального (може бути, прихованого) фактора, що визначає приналежність сім'ї до даної ЖЕК або району в цілому (таким фактором може бути, наприклад, середньодушовий дохід сім'ї, географічне розташування району в місті, « вік» району тощо).