Општа популација и примерок основни концепти. Популација и метод на земање примероци

Во претходниот дел, бевме заинтересирани за дистрибуција на карактеристика во одреден сет на елементи. Множеството што ги обединува сите елементи што ја имаат оваа карактеристика се нарекува општо. Ако карактеристиката е човечка (националност, образование, коефициент на интелигенција, итн.), тогаш општата популација е целата популација на земјата. Ова е многу голема колекција, односно бројот на елементи во збирката n е голем. Бројот на елементи се нарекува волумен на населението. Колекциите можат да бидат конечни или бесконечни. Општата популација - сите луѓе, иако многу голема, е, природно, конечна. Општата популација е сите ѕвезди, веројатно бесконечно.

Ако истражувачот мери некоја континуирана случајна променлива X, тогаш секој резултат од мерењето може да се смета за елемент на некоја хипотетичка неограничена популација. Кај оваа општа популација, безброј резултати се распределени според веројатноста под влијание на грешки во инструментите, невнимание на експериментаторот, случајно мешање во самиот феномен итн.

Ако извршиме n повторени мерења на случајна променлива X, односно добиеме n специфични различни нумерички вредности, тогаш овој експериментален резултат може да се смета за примерок од волуменот n од хипотетичка општа популација на резултати од единечни мерења.

Природно е да се претпостави дека вистинската вредност на измерената величина е аритметичката средина на резултатите. Оваа функција на n резултати од мерењето се нарекува статистика, а самата таа е случајна променлива која има одредена дистрибуција наречена дистрибуција на примерок. Определувањето на дистрибуцијата на примероци на одредена статистика е најважната задача на статистичката анализа. Јасно е дека оваа дистрибуција зависи од големината на примерокот n и од распределбата на случајната променлива X од хипотетичката популација. Дистрибуцијата на примероци на статистика е распределба на X q во бесконечната популација на сите можни примероци со големина n од првобитната популација.

Може да измерите и дискретна случајна променлива.

Нека мерењето на случајната променлива X е фрлање на правилна хомогена триаголна пирамида, на чии страни се запишани броевите 1, 2, 3, 4. Дискретната, случајна променлива X има едноставна рамномерна распределба:

Експериментот може да се изврши неограничен број пати. Хипотетичко теоретско население е бесконечна популација во која има еднакви удели (по 0,25) од четири различни елементи, означени со броевите 1, 2, 3, 4. Серија од n повторено фрлање на пирамида или истовремено фрлање на n идентични пирамидите може да се сметаат како примерок од волуменот n од оваа општа популација. Како резултат на експериментот, имаме n броеви. Можно е да се воведат некои функции на овие количини, кои се нарекуваат статистика, тие можат да се поврзат со одредени параметри на општата дистрибуција.

Најважните нумерички карактеристики на распределбите се веројатностите P i, математичкото очекување M, варијансата D. Статистиката за веројатностите P i се релативни фреквенции, каде што n i е фреквенцијата на резултатот i (i = 1,2,3,4) во примерокот . Математичкото очекување М одговара на статистиката

што се нарекува примерна средина. Примерок варијанса

одговара на општата варијанса D.

Релативната фреквенција на кој било настан (i=1,2,3,4) во серија од n повторени испитувања (или во примероци со големина n од популацијата) ќе има биномна дистрибуција.

Оваа дистрибуција има математичко очекување еднакво на 0,25 (не зависи од n), и стандардна девијација еднаква на (брзо се намалува како што n се зголемува). Дистрибуцијата е статистика за дистрибуција на примероци, релативната фреквенција на кој било од четирите можни исходи од едно фрлање на пирамидата во n повторени испитувања. Ако одбереме од бесконечна општа популација, во која четири различни елементи (i = 1,2,3,4) имаат еднакви удели од 0,25, сите можни примероци со големина n (нивниот број е исто така бесконечен), ќе ги добиеме таканаречената математичка големина на примерокот n. Во овој примерок, секој од елементите (i=1,2,3,4) е распределен според биномниот закон.

Да речеме дека ја фрливме оваа пирамида, а бројот два се појави 3 пати (). Можеме да ја најдеме веројатноста за овој исход користејќи ја дистрибуцијата на примероци. Тоа е еднакво

Нашиот резултат беше многу неверојатен; во серија од дваесет и четири повеќекратни фрлања се случува приближно еднаш. Во биологијата, таков резултат обично се смета за практично невозможен. Во овој случај, ќе се сомневаме: дали пирамидата е точна и хомогена, дали е валидна еднаквоста во едно фрлање, дали е точна распределбата и, според тоа, распределбата на примерокот.

За да го решите сомнежот, треба повторно да го фрлите четири пати. Ако резултатот се појави повторно, веројатноста за два резултати со е многу мала. Јасно е дека добивме речиси целосно невозможен резултат. Затоа, оригиналната дистрибуција е неточна. Очигледно, ако вториот резултат се покаже дека е уште поневеројатен, тогаш има уште повеќе причина да се справиме со оваа „точна“ пирамида. Ако резултатот од повторениот експеримент е и, тогаш можеме да претпоставиме дека пирамидата е точна, а првиот резултат () е исто така точен, но едноставно неверојатен.

Не можевме да се мачиме да ја провериме исправноста и хомогеноста на пирамидата, но сметаме дека априори пирамидата е точна и хомогена и, според тоа, точна дистрибуција на примероци. Следно, треба да откриеме какво знаење за дистрибуцијата на примероци обезбедува за проучување на општата популација. Но, бидејќи утврдувањето на дистрибуцијата на примероци е главната цел на статистичкото истражување, деталниот опис на експериментите со пирамидата може да се смета за оправдан.

Претпоставуваме дека распределбата на примерокот е точна. Тогаш експерименталните вредности на релативната фреквенција во различни серии од n фрлања на пирамидата ќе се групираат околу вредноста од 0,25, што е центар на дистрибуцијата на земање примероци и точната вредност на проценетата веројатност. Во овој случај, се вели дека релативната фреквенција е непристрасна проценка. Бидејќи дисперзијата на примерокот се стреми кон нула како што се зголемува n, експерименталните вредности на релативната фреквенција ќе бидат сè поблиску групирани околу математичкото очекување на дистрибуцијата на примерокот како што се зголемува големината на примерокот. Затоа, тоа е конзистентна проценка на веројатноста.

Доколку се покаже дека пирамидата е насочена и хетерогена, тогаш распределбата на примерокот за различни (i = 1,2,3,4) би имала различни математички очекувања (различни) и варијанси.

Забележете дека биномните распределби на примероци добиени овде за големи n() се добро приближени со нормалната дистрибуција со параметри и, што во голема мера ги поедноставува пресметките.

Да го продолжиме случајниот експеримент - фрлање правилна, униформа, триаголна пирамида. Случајната променлива X поврзана со овој експеримент има дистрибуција. Овде е математичкото очекување

Дозволете ни да извршиме n фрлања, што е еквивалентно на случаен примерок со големина n од хипотетичка, бесконечна популација која содржи еднакви удели (0,25) од четири различни елементи. Добиваме n примероци вредности на случајната променлива X (). Ајде да избереме статистика што ја претставува просечната вредност на примерокот. Самата вредност е случајна променлива која има распределба во зависност од големината на примерокот и распределбата на оригиналната случајна променлива X. Вредноста е просечниот збир на n идентични случајни променливи (односно, со иста распределба). Јасно е дека

Според тоа, статистиката е непристрасна проценка на математичкото очекување. Тоа е исто така валидна проценка бидејќи

Така, теоретската дистрибуција на примерок го има истото математичко очекување како и оригиналната дистрибуција; варијансата е намалена за n пати.

Потсетиме дека тоа е еднакво на

Математички, апстрактен бесконечен примерок поврзан со примерок со големина n од општата популација и со внесената статистика ќе содржи, во нашиот случај, елементи. На пример, ако, тогаш математичкиот примерок ќе содржи елементи со статистички вредности. Ќе има вкупно 13 елементи. Меѓу многуте елементарни исходи од четири пати фрлање на пирамидата, има само по еден поволен. Како што статистиката се приближува до просечните вредности, веројатностите ќе се зголемуваат. На пример, вредноста ќе се реализира со елементарни исходи итн. Според тоа, учеството на елементот 1.5 во математичкиот примерок ќе се зголеми.

Просечната вредност ќе има максимална веројатност. Како што n се зголемува, експерименталните резултати ќе се групираат поблиску околу просечната вредност. Фактот дека средната вредност на примерокот е еднаква на оригиналната средна популација често се користи во статистиката.

Ако извршите пресметки на веројатноста во распределбата на примерокот c, можете да бидете сигурни дека дури и со толку мала вредност од n, распределбата на примерокот ќе изгледа како нормална. Тој ќе биде симетричен, во кој вредноста ќе биде медијаната, режимот и математичкото очекување. Како што се зголемува n, тоа е добро приближно со соодветната нормална, дури и ако оригиналната распределба е правоаголна. Ако оригиналната дистрибуција е нормална, тогаш распределбата е студентска распределба за кое било n.

За да се процени општата варијанса, неопходно е да се избере посложена статистика која обезбедува непристрасна и конзистентна проценка. Во распределбата на примерокот за S 2 математичкото очекување е еднакво на и варијансата. Со големи димензии на примерокот, дистрибуцијата на земање мостри може да се смета за нормална. За мала n и нормална почетна дистрибуција, распределбата на примерокот за S 2 ќе биде h 2 _дистрибуција.

Погоре се обидовме да ги претставиме првите чекори на истражувач кој се обидува да спроведе едноставна статистичка анализа на повторени експерименти со правилна униформа триаголна призма (тетраедар). Во овој случај, ја знаеме оригиналната дистрибуција. Можно е, во принцип, теоретски да се добијат распределби на примероци на релативната фреквенција, средната вредност на примерокот и варијансата на примерокот во зависност од бројот на повторени експерименти n. За големи n, сите овие распределби на примероци ќе се приближат до соодветните нормални распределби, бидејќи тие ги претставуваат законите за распределба на збирови на независни случајни променливи (теорема на централната граница). Значи ги знаеме очекуваните резултати.

Повторените експерименти или примероци ќе обезбедат проценки на параметрите на распределбата на примерокот. Тврдевме дека експерименталните проценки ќе бидат точни. Ние не ги направивме овие експерименти и не ги презентиравме ни експерименталните резултати добиени од други истражувачи. Може да се нагласи дека при определување на законите за дистрибуција, почесто се користат теоретски методи отколку директни експерименти.

Ова е наука која врз основа на методите на теоријата на веројатност се занимава со систематизација и обработка на статистичките податоци за да се добијат научни и практични заклучоци.

Статистички податоци се однесува на информации за бројот на предмети кои имаат одредени карактеристики .

Се нарекува група предмети обединети според некоја квалитативна или квантитативна карактеристика статистичка севкупност . Предметите вклучени во збирката се нарекуваат нејзини елементи, а нивниот вкупен број е негов волумен.

Општа популацијае збир на сите замисливо можни набљудувања што би можеле да се направат под даден реален сет на услови или построго: општата популација е случајната променлива x и поврзаниот простор на веројатност (W, Á, P).

Се вика распределбата на случајна променлива x распределба на населението(зборуваат, на пример, за нормално распределено или едноставно нормално население).

На пример, ако се направат голем број независни мерења на случајна променлива x,тогаш општата популација е теоретски бесконечна (т.е. општата популација е апстрактен, конвенционално математички концепт); ако се провери бројот на неисправни производи во серија од N производи, тогаш оваа серија се смета како конечна општа популација со волумен N.

Во случај на социо-економски истражувања, општата популација од волуменот N може да биде население на град, регион или земја, а измерените карактеристики може да бидат приходи, расходи или износот на заштедите на поединечно лице. Ако некој атрибут е од квалитативна природа (на пример, пол, националност, социјален статус, занимање, итн.), но припаѓа на конечен сет на опции, тогаш може да се шифрира и како број (како што често се прави во прашалниците ).

Ако бројот на предмети N е доволно голем, тогаш е тешко, а понекогаш и физички невозможно да се спроведе сеопфатно истражување (на пример, проверете го квалитетот на сите касети). Потоа, ограничен број на предмети по случаен избор се избираат од целата популација и се предмет на проучување.

Примерна популација или едноставно земање мостриод волуменот n е низа x 1 , x 2 , ..., x n од независни идентично распределени случајни променливи, распределбата на секоја од нив се совпаѓа со распределбата на случајната променлива x.

На пример, резултатите од првите n мерења на случајна променлива xВообичаено е да се смета како примерок со големина n од бесконечна популација. Добиените податоци се нарекуваат набљудувања на случајна променлива x, а исто така велат дека случајната променлива x „ги зема вредностите“ x 1, x 2, …, x n.


Главната задача на математичката статистика е да донесува научно засновани заклучоци за распределбата на една или повеќе непознати случајни променливи или нивната врска меѓу себе. Методот што се состои во тоа што врз основа на својствата и карактеристиките на примерокот се донесуваат заклучоци за нумеричките карактеристики и законот за распределба на случајна променлива (општа популација) се нарекува. со селективен метод.

За карактеристиките на случајната променлива добиена со методот на земање примероци да бидат објективни, потребно е примерокот да биде претставник тие. доста добро ја претставија проучуваната количина. Врз основа на законот за големи броеви, може да се тврди дека примерокот ќе биде репрезентативен ако се изведе по случаен избор, т.е. Сите објекти во популацијата имаат иста веројатност да бидат вклучени во примерокот. Постојат различни видови на избор на примерок за оваа намена.

1. Едноставнослучајното земање примероци е избор во кој објектите се избираат еден по еден од целата популација.

2. Стратификуван (стратификуван) изборот е дека првобитната популација на волуменот N е поделена на подмножества (слоеви) N 1, N 2,...,N k, така што N 1 + N 2 +...+ N k = N. Кога слоевите се определено, од секоја од нив се вади едноставен случаен примерок од волумен n 1, n 2, ..., n k. Посебен случај на стратификувана селекција е типичната селекција, во која објектите се избираат не од целата популација, туку од секој типичен дел од неа.

Комбиниран изборкомбинира неколку типови на селекција одеднаш, формирајќи различни фази на примерок анкета. Постојат и други методи за земање примероци.

Примерокот се нарекува повтори , ако избраниот објект се врати на популацијата пред да се избере следниот. Примерокот се нарекува повторливи , доколку избраниот објект не се врати на популацијата. За конечна популација, случаен избор без враќање води на секој чекор до зависност од поединечни набљудувања, а случаен подеднакво можен избор со враќање води до независност на набљудувањата. Во пракса, ние обично се занимаваме со примероци кои не се повторуваат. Меѓутоа, кога големината на популацијата N е многу пати поголема од големината на примерокот n (на пример, стотици или илјадници пати), зависноста на набљудувањата може да се занемари.

Така, случаен примерок x 1, x 2, ..., x n е резултат на секвенцијални и независни набљудувања на случајна променлива ξ, што ја претставува општата популација, и сите елементи од примерокот имаат иста дистрибуција како и оригиналната случајна променлива x.

Функцијата за распределба ќе ја наречеме F x (x) и други нумерички карактеристики на случајната променлива x теоретски, За разлика од карактеристики на примерокот , кои се утврдени од резултатите од набљудувањата.

Нека примерокот x 1, x 2, ..., x k е резултат на независно набљудување на случајна променлива x, а x 1 е забележано n 1 пати, x 2 - n 2 пати, ..., x k - n k пати , така што n i = n - големина на примерокот. Се повикува бројот n i кој покажува колку пати вредноста x i се појавила во n набљудувања фреквенција дадена вредност, а односот n i /n = wјас- релативна фреквенција. Очигледно бројките wјас сум рационален и.

Се нарекува статистичка популација подредена по растечки редослед на карактеристика варијација серија . Нејзините членови се означуваат x (1), x (2), ... x (n) и се нарекуваат опции . Серијата на варијации се нарекува дискретни, доколку неговите членови земаат специфични изолирани вредности. Статистичка дистрибуција земање примероци од дискретна случајна променлива xнаречена листа на опции и нивните соодветни релативни фреквенции wјас. Резултирачката табела се нарекува статистички блиску.

X (1) x(2) ... x k(k)
ω 1 ω 2 ... ωk

Најголемите и најмалите вредности на серијата на варијации се означени со x min и x max и се нарекуваат екстремни членови на серијата варијации.

Ако се проучува континуирана случајна променлива, тогаш групирањето се состои од делење на интервалот на набљудуваните вредности на k парцијални интервали со еднаква должина h и броење на бројот на набљудувања што спаѓаат во овие интервали. Добиените броеви се земаат како фреквенции n i (за некоја нова, веќе дискретна случајна променлива). Средните вредности на интервалите обично се земаат како нови вредности за опцијата x i (или самите интервали се наведени во табелата). Според формулата Sturges, препорачаниот број на интервали на партиции е k » 1 + log 2 n, а должините на парцијалните интервали се еднакви на h = (x max - x min)/k. Се претпоставува дека целиот интервал ја има формата .

Графички, статистичките серии можат да се претстават во форма на многуаголник, хистограм или график на акумулирани фреквенции.

Фреквентен полигоннаречена скршена линија, чии отсечки ги поврзуваат точките (x 1, n 1), (x 2, n 2), ..., (x k, n k). Многуаголник релативни фреквенции наречена скршена линија, чии отсечки ги поврзуваат точките (x 1, w 1), (x 2, w 2), …, (x k, wк). Многуаголниците обично служат за претставување примерок во случај на дискретни случајни променливи (сл. 7.1.1).

Ориз. 7.1

.1.

Хистограм на релативна фреквенцијанаречена скалеста фигура која се состои од правоаголници, чија основа се делумни интервали со должина h и висина

еднакви w i/h.

Хистограм обично се користи за прикажување на примерок во случај на континуирани случајни променливи. Областа на хистограмот е еднаква на една (сл. 7.1.2). Ако ги поврзете средните точки на горните страни на правоаголниците на хистограм на релативни фреквенции, тогаш добиената скршена линија формира многуаголник на релативни фреквенции. Затоа, хистограмот може да се гледа како график емпириска (примерок) густина на дистрибуција fn(x). Ако теоретската дистрибуција има конечна густина, тогаш емпириската густина е одредена приближување на теоретската.

График на акумулирани фреквенциие фигура конструирана слично на хистограм со таа разлика што за да се пресметаат висините на правоаголниците не се земаат едноставни, туку акумулирани релативни фреквенции, тие. количини Овие вредности не се намалуваат, а графикот на акумулираните фреквенции има форма на скалести „скалила“ (од 0 до 1).

Графикот на акумулирани фреквенции се користи во пракса за приближување на функцијата на теоретска дистрибуција.

Задача.Анализиран е примерок од 100 мали претпријатија во регионот. Целта на истражувањето е да се измери односот на позајмените и сопственичките средства (x i) кај секое i-то претпријатие. Резултатите се претставени во Табела 7.1.1.

ТабелаКоефициенти на долгот и акционерскиот капитал на претпријатијата.

5,56 5,45 5,48 5,45 5,39 5,37 5,46 5,59 5,61 5,31
5,46 5,61 5,11 5,41 5.31 5,57 5,33 5,11 5,54 5,43
5,34 5,53 5,46 5,41 5,48 5,39 5,11 5,42 5,48 5,49
5,36 5,40 5,45 5,49 5,68 5,51 5,50 5,68 5,21 5,38
5,58 5,47 5,46 5,19 5,60 5,63 5,48 5,27 5,22 5,37
5,33 5,49 5,50 5,54 5,40 5.58 5,42 5,29 5,05 5,79
5,79 5,65 5,70 5,71 5,85 5,44 5,47 5,48 5,47 5,55
5,67 5,71 5,73 5,05 5,35 5,72 5,49 5,61 5,57 5,69
5,54 5,39 5,32 5,21 5,73 5,59 5,38 5,25 5,26 5,81
5,27 5,64 5,20 5,23 5,33 5,37 5,24 5,55 5,60 5,51

Конструирај хистограм и график на акумулирани фреквенции.

Решение. Ајде да изградиме групирани серии на набљудувања:

1. Да одредиме во примерокот x min = 5,05 и x max = 5,85;

2. Да го поделиме целиот опсег на k еднакви интервали: k » 1 + log 2 100 = 7,62; k = 8, па оттука и должината на интервалот

Табела 7.1.2.Групирана серија на набљудувања

Број на интервал Интервали Средни точки на интервали x i wјас fn(x)
5,05-5,15 5,1 0,05 0,05 0,5
5,15-5,25 5,2 0,08 0,13 0,8
5,25-5,35 5,3 0,12 0,25 1,2
5,35-5,45 5,4 0,20 0,45 2,0
5,45-5,55 5,5 0,26 0,71 2,6
5,55-5,65 5,6 0,15 0,86 1,5
5,65-5,75 5,7 0,10 0,96 1,0
5,75-5,85 5,8 0,04 1,00 0,4

На сл. 7.1.3 и 7.1.4, изградени според податоците во Табела 7.1.2, претставуваат хистограм и график на акумулирани фреквенции. Кривите одговараат на функцијата за густина и нормална дистрибуција „наместена“ на податоците.

Така, распределбата на примерокот е одредена апроксимација на дистрибуцијата на популацијата.

Целата низа на поединци од одредена категорија се нарекува општа популација. Големината на населението се одредува според целите на студијата.

Доколку се изучува вид на диво животно или растение, тогаш општата популација ќе бидат сите поединци од овој вид. Во овој случај, обемот на општата популација ќе биде многу голем и во пресметките се зема како бескрајно голема вредност.

Доколку се проучува ефектот на средството врз растенијата и животните од одредена категорија, тогаш општата популација ќе бидат сите растенија и животни од таа категорија (вид, пол, возраст, економска намена) на кои им припаѓале експерименталните објекти. Ова веќе не е многу голем број на поединци, но сè уште е недостапно за сеопфатно проучување.

Обемот на општата популација не е секогаш достапен за сеопфатна студија. Понекогаш се проучуваат мали популации, на пример, се одредува просечниот принос на млеко или просечното сечење на волна на група животни доделени на одреден работник. Во такви случаи, популацијата ќе биде многу мал број на поединци, од кои сите се проучуваат. Мала популација се среќава и при проучување на растенија или животни пронајдени во збирка со цел да се карактеризира одредена група во оваа збирка.

Карактеристиките на групните својства (итн.) поврзани со целата популација се нарекуваат општи параметри.

Примерок е група на објекти кои се разликуваат во три карактеристики:

1 е дел од општата популација;

2 по случаен избор на одреден начин;

3 проучувани за да се карактеризира целото население.

За да се добие прилично точна карактеристика на целата популација од примерок, неопходно е да се организира правилен избор на предмети од популацијата.

Теоријата и практиката имаат развиено неколку системи за избор на поединци за земање примероци. Сите овие системи се засноваат на желбата да се обезбеди максимална можност за избор на кој било објект од општата популација. Тенденцијата и пристрасноста при изборот на предмети за студијата примерок го спречуваат добивањето точни општи заклучоци и ги прават резултатите од студијата на примерокот не индикативни за целата популација, т.е. нерепрезентативни.

За да се добие правилна, неискривена карактеристика на целата популација, неопходно е да се настојува да се обезбеди можност за избор на кој било објект од кој било дел од популацијата во примерокот. Овој основен услов мора да се исполни колку построго, толку попроменлива карактеристиката што се проучува. Разбирливо е дека кога различноста се приближува до нула, како на пример во случајот на проучување на бојата на косата или пердувите кај некои видови, секој метод на селекција на примерокот ќе даде репрезентативни резултати.

Во различни студии, се користат следните методи за избор на објекти во примерокот.

4 Случаен повторен избор, во кој предметите на проучување се избираат од општата популација без претходно да се земе предвид развојот на карактеристиката што се проучува, т.е. по случаен (за дадена карактеристика) редослед; По изборот, секој објект се проучува и потоа се враќа на неговата популација, така што секој објект може повторно да се избере. Овој метод на селекција е еквивалентен на селекција од бесконечно голема општа популација, за која се развиени главните показатели за односот помеѓу примерокот и општите вредности.

5 Случаен неповторлив избор, во кој избраните предмети, како и во претходниот метод, случајно, не се враќаат во општата популација и не можат повторно да се внесат во примерокот. Ова е најчестиот начин да се организира примерок; тоа е еквивалентно на избор од голема, но ограничена популација, што се зема предвид при определување општи показатели од примероците.

6 Механичка селекција, во која предметите се избираат од поединечни делови од општата популација, а овие делови се прелиминарно назначени механички според квадратите на експерименталното поле, според случајни групи на животни земени од различни области на популацијата итн. Обично како многу такви делови се наведени како што се очекува да бидат земени предмети за проучување, така што бројот на делови е еднаков на големината на примерокот. Механичката селекција понекогаш се врши со избирање да се проучуваат поединци по одреден број, на пример, со поминување на животните низ расцеп и избирање на секоја десетта, стотинка, итн., или со косење на секои 100 или 200 m, или со избирање на еден објект на секои 10 сретнати.100 итн примероци при проучување на целата популација.

8 Сериски (кластер) избор, во кој општата популација е поделена на делови - серии, некои од нив се целосно проучени. Овој метод успешно се користи во случаи кога предметите што се проучуваат се прилично рамномерно распоредени во одреден волумен или на одредена територија. На пример, при проучување на контаминација на воздухот или водата со микроорганизми, се земаат примероци и се подложени на целосно испитување. Во некои случаи, земјоделските објекти може да се премерат и со методот на гнездење. При проучување на приносот на месо и други преработени производи од раса од месо на добиток, примерокот може да ги вклучи сите животни од оваа раса што пристигнале во две или три погони за преработка на месо. Кога се проучува големината на јајцата во колективното одгледување на живина, можно е да се проучи оваа особина во неколку колективни фарми низ целата популација на кокошки.

Карактеристики на групните својства (μ, ситн.) добиени за примерокот се нарекуваат индикатори за примерок.

Репрезентативност

Директното проучување на група одбрани предмети обезбедува, пред сè, примарен материјал и карактеристики на самиот примерок.

Сите податоци од примерокот и резиме индикатори се важни како примарни факти откриени од студијата и се предмет на внимателно разгледување, анализа и споредба со резултатите од други работи. Но, ова не го ограничува процесот на извлекување информации својствени за примарните истражувачки материјали.

Фактот дека предметите за примерокот се избрани со посебни техники и во доволна количина ги прави резултатите од проучувањето на примерокот индикативни не само за самиот примерок, туку и за целата популација од која е земен овој примерок.

Примерокот, под одредени услови, станува повеќе или помалку точен одраз на целата популација. Ова својство на примерокот се нарекува репрезентативност, што значи репрезентативност со одредена точност и доверливост.

Како и секое својство, репрезентативноста на податоците од примерокот може да се изрази доволна или недоволна. Во првиот случај, во примерокот се добиваат сигурни проценки на општите параметри, во вториот - неверодостојни. Важно е да се запамети дека добивањето неверодостојни проценки не ја намалува вредноста на индикаторите на примерокот за карактеризирање на самиот примерок. Добивањето веродостојни проценки го проширува опсегот на примена на достигнувањата добиени во студијата примерок.

Популација- севкупноста на сите предмети (единици) во врска со кои научникот има намера да извлече заклучоци кога проучува конкретен проблем. Популацијата ја сочинуваат сите предмети кои се предмет на проучување. Составот на населението зависи од целите на студијата. Понекогаш општата популација е целото население на одреден регион (на пример, при проучување на односот на потенцијалните гласачи кон кандидатот), најчесто се наведуваат неколку критериуми кои го одредуваат предметот на студијата. На пример, жени на возраст од 18-29 години кои користат одредени марки крем за раце најмалку еднаш неделно и имаат приход од најмалку 150 долари по член на семејството.

Пример- збир на случаи (субјекти, предмети, настани, примероци), користејќи одредена процедура, избрани од општата популација за учество во студијата.

  1. Големина на примерокот;
  2. Зависни и независни примероци;
  3. Репрезентативност:
    1. Пример за нерепрезентативен примерок;
  4. Видови план за изградба на групи од примероци;
  5. Стратегии за градење група:
    1. Рандомизација;
    2. Избор во пар;
    3. Стратометриска селекција;
    4. Приближно моделирање.

Големина на примерокот- бројот на случаи вклучени во популацијата на примерокот. Од статистички причини, се препорачува бројот на случаи да биде најмалку 30-35.

Зависни и независни примероци

Кога се споредуваат два (или повеќе) примероци, важен параметар е нивната зависност. Ако е можно да се воспостави хомоморфен пар (т.е. кога еден случај од примерокот X одговара на еден и само еден случај од примерокот Y и обратно) за секој случај во два примероци (и оваа основа за врската е важна за особина која се мери во примероците), таквите примероци се нарекуваат зависни. Примери на зависни примероци: парови близнаци, две мерења на особина пред и после експериментално влијание, сопрузи и жени итн.

Доколку не постои таков однос меѓу примероците, тогаш овие примероци се сметаат за независни, на пример: мажи и жени, психолози и математичари.

Според тоа, зависните примероци секогаш имаат иста големина, додека големината на независните примероци може да се разликува.

Споредбата на примероците се врши со користење на различни статистички критериуми:

  • Студентски т-тест;
  • Вилкоксон Т-тест;
  • Mann-Whitney U тест;
  • Критериум за знак, итн.

Репрезентативност

Примерокот може да се смета за репрезентативен или нерепрезентативен.

Пример за нерепрезентативен примерок

Во Соединетите Американски Држави, еден од најпознатите историски примери на нерепрезентативно земање примероци се смета за случајот што се случи за време на претседателските избори во 1936 година. Списанието Literary Digest, кое успешно ги предвиде настаните од неколку претходни избори, беше погрешно во своите предвидувања со испраќање десет милиони тест гласачки ливчиња до своите претплатници, луѓе избрани од телефонските именици низ целата земја и од луѓе на списоци за регистрација на автомобили. Во 25% од вратените гласачки ливчиња (речиси 2,5 милиони), гласовите се распределени на следниов начин:

57% го претпочитаа републиканскиот кандидат Алф Лендон

40% го избрале тогашниот демократски претседател Френклин Рузвелт

На вистинските избори, како што е познато, победи Рузвелт, кој освои повеќе од 60% од гласовите. Грешката на Literary Digest беше следнава: сакајќи да ја зголемат репрезентативноста на примерокот - бидејќи знаеја дека повеќето од нивните претплатници се сметаат себеси за републиканци - тие го проширија примерокот за да вклучи луѓе избрани од телефонските именици и списоците за регистрација. Сепак, тие не ја земаа предвид реалноста на своето време и всушност регрутираа уште повеќе републиканци: за време на Големата депресија, главно претставниците на средната и високата класа можеа да си дозволат да поседуваат телефони и автомобили (т.е. повеќето републиканци , не демократи).

Видови план за изградба на групи од примероци

Постојат неколку главни типови на групни планови за градење:

  1. Студија со експериментални и контролни групи, кои се сместени во различни услови;
  2. Студија со експериментални и контролни групи користејќи стратегија за селекција во пар;
  3. Студија која користи само една група - експериментална;
  4. Студија со користење на мешан (факториелен) дизајн - сите групи се поставени во различни услови.

Стратегии за градење група

Изборот на групи за учество во психолошки експеримент се врши со користење на различни стратегии, кои се неопходни за да се обезбеди најголемо можно почитување на внатрешната и надворешната валидност:

  1. Рандомизација (случаен избор);
  2. Избор во пар;
  3. Стратометриска селекција;
  4. Приближно моделирање;
  5. Привлекување вистински групи.

Рандомизација

Случајно земање примероци се користи за создавање едноставни случајни примероци. Употребата на таков примерок се заснова на претпоставката дека секој член од популацијата е подеднакво веројатно да биде вклучен во примерокот. На пример, за да направите случаен примерок од 100 студенти, можете да ставите парчиња хартија со имињата на сите студенти во капа, а потоа да извадите 100 парчиња хартија од неа - ова ќе биде случаен избор

Избор во пар

Селекцијата во пар е стратегија за конструирање групи за земање примероци во кои групи на субјекти се составени од субјекти кои се еквивалентни во однос на секундарните параметри кои се значајни за експериментот. Оваа стратегија е ефикасна за експерименти со користење на експериментални и контролни групи, при што најдобрата опција е вклучување на двојни парови (моно-и дизиготни), бидејќи ви овозможува да креирате.

Стратометриска селекција

Стратометриска селекција - рандомизација со распределба на слоеви (или кластери). Со овој метод на земање примероци, општата популација се дели на групи (слоеви) со одредени карактеристики (пол, возраст, политички преференци, образование, ниво на приходи и сл.), а се избираат субјекти со соодветни карактеристики.

Приближно моделирање

Приближно моделирање - извлекување ограничени примероци и генерализирање заклучоци за овој примерок на поширока популација. На пример, со учество на студенти од втора година во студијата, податоците од оваа студија се однесуваат на „луѓе на возраст од 17 до 21 година“. Допуштеноста на таквите генерализации е крајно ограничена.

Значи, шемите на кои подлежи случајната променлива што се испитува се физички целосно определени од реалниот сет на услови за нејзино набљудување (или експеримент) и математички се специфицирани со соодветниот простор на веројатност или, што е исто, со соодветниот закон за распределба на веројатност. Меѓутоа, при спроведување на статистичко истражување, друга терминологија поврзана со концептот на општа популација се покажува како нешто попогодна.

Општата популација е збир на сите замисливи набљудувања (или сите ментално можни објекти од типот за кој нè интересира, од кои се „земени“ набљудувањата) што би можеле да се направат под даден реален сет на услови. Бидејќи дефиницијата се занимава со сите ментално можни набљудувања (или предмети), концептот на општа популација е условно математички, апстрактен концепт и не треба да се меша со реалните популации кои се предмет на статистички истражувања. Така, испитувајќи ги дури и сите претпријатија од под-индустријата од гледна точка на евидентирање на вредностите на техничките и економските показатели што ги карактеризираат, можеме да ја сметаме анкетираната популација само како претставник на хипотетички можна поширока популација на претпријатија. кои би можеле да работат во рамките на истиот реален сет на услови

Во практичната работа, попогодно е изборот да се поврзе со објектите на набљудување наместо со карактеристиките на овие објекти. Избираме машини, геолошки примероци, луѓе за проучување, но не и вредностите на карактеристиките на машините, примероците, луѓето. Од друга страна, во математичката теорија предметите и множеството на нивните карактеристики не се разликуваат и исчезнува двојноста на воведената дефиниција.

Како што гледаме, математичкиот концепт на „општата популација“ е физички целосно определен, како и концептите „простор на веројатност“, „случајна променлива“ и „закон за распределба на веројатност“, со соодветниот реален сет на услови, и затоа сите овие четири математички концепти може да се сметаат во одредено значење за синоними. Популацијата се нарекува конечна или бесконечна во зависност од тоа дали збирката на сите замисливи набљудувања е конечна или бесконечна.

Од дефиницијата произлегува дека континуираните популации (кои се состојат од набљудувања на знаци од континуирана природа) се секогаш бесконечни. Дискретните општи популации можат да бидат или бесконечни или конечни. На пример, ако серија од N производи се анализира за оценка (види пример во клаузула 4.1.3), кога секој производ може да се додели на една од четирите оценки, случајната променлива што се испитува е бројот на оценката на производот случајно извлечен од серијата и множеството на можни вредности случајната променлива се состои од четири точки соодветно (1, 2, 3 и 4), тогаш, очигледно, популацијата ќе биде конечна (само N замисливи набљудувања).

Концептот на бесконечна популација е математичка апстракција, како и идејата дека мерењето на случајна променлива може да се повтори бесконечен број пати. Приближно бесконечна општа популација може да се толкува како ограничувачки случај на конечна, кога бројот на објекти генерирани од даден реален сет на услови се зголемува на неодредено време. Значи, ако во штотуку дадениот пример, наместо серии производи, земеме предвид континуирано масовно производство на истите производи, тогаш ќе дојдеме до концептот на бесконечна општа популација. Во пракса, таквата модификација е еквивалентна на барањето

Примерок од дадена популација е резултат на ограничена серија на набљудувања на случајна променлива. Примерокот може да се смета како еден вид емпириски аналог на општата популација, нешто со што најчесто се занимаваме во пракса, бидејќи истражувањето на целокупната популација може да биде или премногу трудоинтензивно (во случај на големо N) или фундаментално невозможно (во случај на бесконечни општи популации).

Бројот на набљудувања кои формираат примерок се нарекува големина на примерокот.

Ако големината на примерокот е голема и имаме работа со еднодимензионална континуирана вредност (или со еднодимензионална дискретна вредност, чиј број на можни вредности е доста голем, да речеме повеќе од 10), тогаш често е попогодно, од гледна точка на поедноставување на понатамошната статистичка обработка на резултатите од набљудувањето, да се премине на таканаречените „групирани“ податоци за примероци. Оваа транзиција обично се изведува на следниов начин:

а) се забележуваат најмалите и најголемите вредности во примерокот;

б) целиот истражуван опсег е поделен на одреден број од 5 еднакви интервали на групирање; во овој случај, бројот на интервали s не треба да биде помал од 8-10 и повеќе од 20-25: изборот на бројот на интервали значително зависи од големината на примерокот; за приближна ориентација во изборот 5, можете да користите приближната формула

што треба да се земе како пониска проценка за s (особено за големи

в) екстремните точки на секој од интервалите се означени во растечки редослед, како и нивните средни точки

г) се брои бројот на податоци од примероци што спаѓаат во секој од интервалите: (очигледно); податоците од примерокот што паѓаат на границите на интервалите се или рамномерно распоредени во два соседни интервали, или договорено е да се доделат само на еден од нив, на пример, на левиот.

Во зависност од специфичната содржина на проблемот, може да се направат некои модификации на оваа шема за групирање (на пример, во некои случаи препорачливо е да се напушти барањето за еднакви должини на интервали на групирање).

Во сите понатамошни аргументи со користење на примерок на податоци, ќе продолжиме од ознаката што е опишана.

Да потсетиме дека суштината на статистичките методи е да се користи одреден дел од општата популација (т.е. примерок) за да се суди за неговите својства како целина.

Едно од најважните прашања, чие успешно решавање ја одредува веродостојноста на заклучоците добиени како резултат на статистичка обработка на податоците, е прашањето на репрезентативноста на примерокот, т.е. прашањето за комплетноста и адекватноста на нејзината застапеност на својствата на анализираната општа популација што нè интересираат. Во практичната работа, иста група на предмети земени за проучување може да се смета како примерок од различни општи популации. Така, група семејства по случаен избор од кооперативните куќи на една од канцелариите за одржување на домувањето (ЖЕК) во една од градските области за детално социолошко истражување може да се смета и како примерок од општата популација на семејства (со задруга форма на домување) на овој ЖЕК, и како примерок од општата популација семејства на дадена област, и како примерок од општата популација на сите семејства во градот и, конечно, како примерок од општата популација на сите семејства во градот кои живеат во кооперативни куќи. Значајното толкување на резултатите од тестирањето значително зависи од тоа за која општа популација ја разгледуваме избраната група семејства како претставник, за која општа популација овој примерок може да се смета за репрезентативен. Одговорот на ова прашање зависи од многу фактори. Во горниот пример, особено, тоа зависи од присуството или отсуството на посебен (можеби скриен) фактор што ја одредува припадноста на семејството на дадена канцеларија за домување или на областа како целина (таков фактор може да биде, на пример, просечен приход по глава на жител на семејството, географска локација на областа во градот, „возраст“ на областа итн.).