Што е интервална серија на податоци? Конструкција на серии на варијации на интервал за континуирани квантитативни податоци

Статистика по математика- гранка од математиката посветена на математички методи на обработка, систематизирање и користење на статистички податоци за научни и практични заклучоци.

3.1. ОСНОВНИ ПОИМИ НА МАТЕМАТИЧКАТА СТАТИСТИКА

Во медицинските и биолошките проблеми, често е неопходно да се проучува распределбата на одредена карактеристика за многу голем број поединци. Оваа особина има различни значења за различни поединци, па затоа е случајна променлива. На пример, секој терапевтски лек има различна ефикасност кога се применува на различни пациенти. Сепак, за да се добие идеја за ефикасноста на овој лек, нема потреба да се применува ситеболен. Можно е да се следат резултатите од употребата на лекот на релативно мала група пациенти и, врз основа на добиените податоци, да се идентификуваат суштинските карактеристики (ефикасност, контраиндикации) на процесот на лекување.

Популација- збир на хомогени елементи кои се карактеризираат со некој атрибут што треба да се проучува. Овој знак е континуиранослучајна променлива со густина на дистрибуција f(x).

На пример, ако нè интересира застапеноста на некоја болест во одреден регион, тогаш општата популација е целото население во регионот. Ако сакаме да ја дознаеме чувствителноста на мажите и жените на оваа болест одделно, тогаш треба да разгледаме две општи популации.

За проучување на својствата на општата популација, се избира одреден дел од неговите елементи.

Пример- дел од општата популација избран за испитување (третман).

Ако ова не предизвикува конфузија, тогаш примерокот се нарекува како збир на предмети,избрани за анкетата и тоталитетот

вредностиизучената карактеристика добиена при испитувањето. Овие вредности можат да се претстават на неколку начини.

Едноставна статистичка серија -вредностите на карактеристиката што се проучува, евидентирани по редоследот по кој се добиени.

Пример за едноставна статистичка серија добиена со мерење на брзината на површинскиот бран (m/s) во кожата на челото кај 20 пациенти е даден во Табела. 3.1.

Табела 3.1.Едноставна статистичка серија

Едноставната статистичка серија е главниот и најкомплетниот начин за евидентирање на резултатите од истражувањето. Може да содржи стотици елементи. Многу е тешко да се фрли поглед на таков тоталитет на еден поглед. Затоа, големите примероци обично се поделени во групи. За да го направите ова, областа на промена на карактеристиката е поделена на неколку (N) интервалиеднаква ширина и пресметајте ги релативните фреквенции (n/n) на атрибутот што спаѓа во овие интервали. Ширината на секој интервал е:

Границите на интервалот ги имаат следниве значења:

Ако некој елемент на примерокот е граница помеѓу два соседни интервали, тогаш тој се класифицира како левоинтервал. Податоците групирани на овој начин се нарекуваат интервални статистички серии.

е табела која ги прикажува интервалите на вредностите на атрибутите и релативните фреквенции на појавување на атрибутот во овие интервали.

Во нашиот случај, можеме да ја формираме, на пример, следната интервална статистичка серија (N = 5, г= 4), табела. 3.2.

Табела 3.2.Интервална статистичка серија

Овде, интервалот 28-32 вклучува две вредности еднакви на 28 (Табела 3.1), а интервалот 32-36 вклучува вредности 32, 33, 34 и 35.

Интервалната статистичка серија може да се прикаже графички. За да го направите ова, интервалите на вредностите на атрибутите се исцртуваат долж оската на апсцисата и на секоја од нив, како на основата, се гради правоаголник со висина еднаква на релативната фреквенција. Резултирачкиот столбест дијаграм се нарекува хистограм.

Ориз. 3.1.столбест дијаграм

Во хистограмот, статистичките обрасци на распределбата на карактеристиката се видливи сосема јасно.

Со голема големина на примерокот (неколку илјади) и мали ширини на колони, обликот на хистограмот е блиску до обликот на графиконот густина на дистрибуцијазнак.

Бројот на хистограмски колони може да се избере со помош на следнава формула:

Рачното конструирање на хистограм е долг процес. Затоа, развиени се компјутерски програми за автоматско изградување на истите.

3.2. НУМЕРИЧКИ КАРАКТЕРИСТИКИ НА СТАТИСТИЧКИТЕ СЕРИИ

Многу статистички процедури користат проценки на примероци за очекувањата и варијансата на населението (или MSE).

Примерок значи(X) е аритметичка средина на сите елементи на едноставна статистичка серија:

За нашиот пример X= 37,05 (m/s).

Средството на примерокот енајдобаропшта просечна проценкаМ.

Примерна варијанса s 2еднаков на збирот на квадратните отстапувања на елементите од средната вредност на примерокот, поделен со n- 1:

Во нашиот пример, s 2 = 25,2 (m/s) 2.

Ве молиме имајте предвид дека при пресметување на варијансата на примерокот, именителот на формулата не е големината на примерокот n, туку n-1. Ова се должи на фактот што при пресметување на отстапувањата во формулата (3.3), наместо непознатото математичко очекување, се користи неговата проценка - примерок значи.

Примерната варијанса е најдобарпроценка на општа варијанса (σ 2).

Примерок на стандардна девијација(s) е квадратниот корен на варијансата на примерокот:

За нашиот пример с= 5,02 (m/s).

Селективен корен значи квадратотстапувањето е најдобрата проценка на општата стандардна девијација (σ).

Со неограничено зголемување на големината на примерокот, сите карактеристики на примерокот се стремат кон соодветните карактеристики на општата популација.

Компјутерски формули се користат за пресметување на карактеристиките на примерокот. Во Excel, овие пресметки ги извршуваат статистичките функции AVERAGE, VARIANCE. СТАНДАРДНА ДЕВИЈАЦИЈА

3.3. ОЦЕНУВАЊЕ НА ИНТЕРВАЛИТЕ

Сите карактеристики на примерокот се случајни променливи.Ова значи дека за друг примерок со иста големина, вредностите на карактеристиките на примерокот ќе бидат различни. Така, селективно

карактеристики се само проценкирелевантни карактеристики на населението.

Недостатоците на селективното оценување се компензираат со проценка на интервал,претставувајќи нумерички интервалво кој со дадена веројатност Р дсе наоѓа вистинската вредност на проценетиот параметар.

Нека U r - некој параметар на општата популација (општа средна вредност, општа варијанса итн.).

Проценка на интервалпараметарот U r се нарекува интервал (U 1, U 2),задоволување на условот:

P(U < Ur < U2) = Рд. (3.5)

Веројатност Р дповикани веројатност за доверба.

Веројатност за доверба Пг - веројатноста дека вистинската вредност на проценетата количина е внатренаведениот интервал.

Во овој случај, интервалот (U 1, U 2)повикани интервал на довербаза параметарот што се проценува.

Често, наместо веројатноста за доверба, се користи поврзаната вредност α = 1 - Р d, која се нарекува. ниво на значење.

Ниво на значајносте веројатноста дека вистинската вредност на проценетиот параметар е надворинтервал на доверба.

Понекогаш α и P d се изразуваат како проценти, на пример, 5% наместо 0,05 и 95% наместо 0,95.

Во проценката на интервалот, прво изберете го соодветното веројатност за доверба(обично 0,95 или 0,99), а потоа пронајдете го соодветниот опсег на вредности за параметарот што се проценува.

Да забележиме некои општи својства на проценките на интервалот.

1. Колку е помало нивото на значајност (толку повеќе R d),толку е поширока проценката на интервалот. Значи, ако на ниво на значајност од 0,05 интервалната проценка на општата средина е 34,7< М< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < М< 40,25.

2. Колку е поголема големината на примерокот n,толку е потесна проценката на интервалот со избраното ниво на значајност. Нека, на пример, 5 е процентуалната проценка на општиот просек (β = 0,05) добиен од примерок од 20 елементи, а потоа 34,7< М< 39,4.

Со зголемување на големината на примерокот на 80, добиваме попрецизна проценка на истото ниво на значајност: 35,5< М< 38,6.

Генерално, изградбата на веродостојни проценки на доверба бара познавање на законот според кој проценетиот случаен атрибут се распределува во популацијата. Ајде да погледнеме како се конструира проценка на интервалот општ просеккарактеристика што е распоредена во населението според нормалнозакон.

3.4. ИНТЕРВАЛНА ПРОЦЕНКА НА ОПШТИОТ ПРОСЕК ЗА ЗАКОНОТ ЗА НОРМАЛНА РАСПРЕДЕЛБА

Изградбата на интервална проценка на општиот просек М за население со нормален закон за распределба се заснова на следново својство. За волумен на земање мостри nстав

ја почитува распределбата Студент со број на степени на слобода ν = n- 1.

Еве X- примерок значи, и с- селективно стандардно отстапување.

Користејќи ги табелите за распределба на студенти или нивниот компјутерски еквивалент, можете да најдете гранична вредност таква што, со дадена веројатност за доверба, важи следнава неравенка:

Оваа неравенка одговара на неравенката за М:

Каде ε - половина ширина на интервалот на доверба.

Така, изградбата на интервал на доверба за M се изведува во следната низа.

1. Изберете веројатност за доверливост Р d (обично 0,95 или 0,99) и за неа, користејќи ја табелата за распределба Student, најдете го параметарот t

2. Пресметајте ја половината ширина на интервалот на доверба ε:

3. Добијте интервална проценка на општиот просек со избраната веројатност за доверба:

Накратко пишува вака:

Развиени се компјутерски процедури за да се пронајдат проценки на интервали.

Дозволете ни да објасниме како да ја користиме табелата за распределба на студенти. Оваа табела има два „влезови“: левата колона, наречена број на степени на слобода ν = n- 1, а горната линија е нивото на значајност α. На пресекот на соодветниот ред и колона, пронајдете го коефициентот Студент т.

Ајде да го примениме овој метод на нашиот примерок. Подолу е претставен фрагмент од табелата за распределба на студенти.

Табела 3.3. Фрагмент од табелата за распределба на Студентите

Едноставна статистичка серија за примерок од 20 луѓе (n= 20, ν =19) е претставено во табелата. 3.1. За оваа серија, пресметките со помош на формулите (3.1-3.3) даваат: X= 37,05; с= 5,02.

Ајде да избереме α = 0,05 (Р d = 0,95). На пресекот на редот „19“ и колоната „0,05“ наоѓаме т= 2,09.

Дозволете ни да ја пресметаме точноста на проценката користејќи ја формулата (3.6): ε = 2.09?5.02/λ /20 = 2.34.

Ајде да изградиме проценка на интервал: со веројатност од 95%, непознатата општа средина ја задоволува нееднаквоста:

37,05 - 2,34 < М< 37,05 + 2,34, или М= 37,05 ± 2,34 (m/s), R d = 0,95.

3.5. МЕТОДИ ЗА ТЕСТИРАЊЕ НА СТАТИСТИЧКИ ХИПОТЕЗИ

Статистички хипотези

Пред да формулирате што е статистичка хипотеза, разгледајте го следниот пример.

За да се споредат два методи за лекување на одредена болест, беа избрани две групи пациенти од по 20 лица и третирани со помош на овие методи. За секој пациент е евидентирано број на процедури,по што е постигнат позитивен ефект. Врз основа на овие податоци, средини на примерокот (X), варијанси на примерокот беа пронајдени за секоја група (с 2)и примерок од стандардните отстапувања (и).

Резултатите се прикажани во табела. 3.4.

Табела 3.4

Бројот на процедури потребни за да се добие позитивен ефект е случајна променлива, сите информации за кои моментално се содржани во дадениот примерок.

Од масата 3.4 покажува дека просекот на примерокот во првата група е помал отколку во втората. Дали ова значи дека истата врска важи и за општите просеци: M 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает статистичко тестирање на хипотези.

Статистичка хипотеза- тоа е претпоставка за својствата на популациите.

Ќе разгледаме хипотези за својствата дваопштите популации.

Доколку популациите имаат познат, идентиченраспределба на вредноста што се проценува, а претпоставките се однесуваат на вредностите некој параметарна оваа дистрибуција, тогаш се нарекуваат хипотезите параметарски.На пример, се земаат примероци од популации со нормален закондистрибуција и еднаква варијанса. Треба да се дознае дали се истиопштите просеци на овие популации.

Ако ништо не се знае за законите за распределба на општите популации, тогаш се нарекуваат хипотези за нивните својства непараметриски.На пример, дали се истизакони за дистрибуција на општите популации од кои се црпат примероците.

Нулта и алтернативни хипотези.

Задача за тестирање на хипотези. Ниво на значајност

Ајде да се запознаеме со терминологијата што се користи при тестирање на хипотези.

H 0 - нулта хипотеза (скептичка хипотеза) е хипотеза за отсуството на разликипомеѓу споредените примероци. Скептикот верува дека разликите помеѓу проценките на примерокот добиени од резултатите од истражувањето се случајни;

H 1- алтернативна хипотеза (оптимистичка хипотеза) е хипотеза за присуство на разлики помеѓу споредените примероци. Еден оптимист верува дека разликите помеѓу проценките на примерокот се предизвикани од објективни причини и одговараат на разликите во општите популации.

Тестирањето на статистичките хипотези е изводливо само кога е можно да се конструираат некои големина(критериум), чиј закон за распределба во случај на правичност H 0познати. Потоа за оваа количина можеме да одредиме интервал на доверба,во кој со дадена веројатност Р днеговата вредност паѓа. Овој интервал се нарекува критична област.Ако вредноста на критериумот паѓа во критичниот регион, тогаш хипотезата е прифатена N 0.Во спротивно, хипотезата H 1 е прифатена.

Во медицинските истражувања се користат P d = 0,95 или P d = 0,99. Овие вредности одговараат нивоа на значајностα = 0,05 или α = 0,01.

При тестирање на статистичките хипотезиниво на значење(α) е веројатноста за отфрлање на нултата хипотеза кога таа е вистинита.

Ве молиме имајте предвид дека, во основата, е насочена процедурата за тестирање на хипотезата откривање на разликиа не да се потврди нивното отсуство. Кога критериумската вредност оди подалеку од критичниот регион, можеме со чисто срце да му кажеме на „скептикот“ - добро, што друго сакате?! Ако немаше разлики, тогаш со веројатност од 95% (или 99%) пресметаната вредност би била во наведените граници. Но не!..

Па, ако вредноста на критериумот паѓа во критичниот регион, тогаш нема причина да се верува дека хипотезата H 0 е точна. Ова најверојатно укажува на една од двете можни причини.

1. Големините на примероците не се доволно големи за да се откријат разликите. Многу е веројатно дека континуираното експериментирање ќе донесе успех.

2. Постојат разлики. Но, тие се толку мали што немаат практично значење. Во овој случај, продолжувањето на експериментите нема смисла.

Ајде да продолжиме да разгледуваме некои статистички хипотези кои се користат во медицинските истражувања.

3.6. Тестирање на хипотези за еднаквост на варијантите, Ф-критериумот на Фишер

Во некои клинички студии, позитивниот ефект е докажан не толку многу магнитудаод параметарот што се проучува, колку од него стабилизација,намалување на неговите флуктуации. Во овој случај, се поставува прашањето за споредување на две општи варијанти врз основа на резултатите од истражувањето на примерокот. Овој проблем може да се реши со користење Фишеров тест.

Формулирање на проблемот

нормален закондистрибуции. Големини на примероци -

n 1И n2,А варијанси на примероциеднакви s 1 и s 2 2 општи варијанси.

Проверливи хипотези:

H 0- општи варијанси се исти;

H 1- општи варијанси се различни.

Прикажано дали се земени примероци од популации со нормален закондистрибуција, тогаш ако хипотезата е вистинита H 0Соодносот на варијанти на примероци ја следи дистрибуцијата на Фишер. Затоа, како критериум за проверка на праведноста H 0се зема вредноста F,пресметано со формулата:

Каде s 1 и s 2 се варијанси на примерокот.

Овој сооднос ја почитува дистрибуцијата на Фишер со бројот на степени на слобода на бројачот ν 1 = n 1- 1 и бројот на степени на слобода на именителот ν 2 = n 2 - 1. Границите на критичната област се наоѓаат со помош на табелите за распределба на Фишер или со помош на компјутерската функција BRASPOBR.

За примерот прикажан во табелата. 3.4, добиваме: ν 1 = ν 2 = 20 - 1 = 19; Ф= 2,16/4,05 = 0,53. На α = 0,05, границите на критичниот регион се соодветно: = 0,40, = 2,53.

Вредноста на критериумот спаѓа во критичниот регион, така што хипотезата е прифатена H 0:општи варијанси на примерокот се исти.

3.7. ТЕСТИРАЊЕ НА ХИПОТЕЗИ ВО ВРСКА НА ЕДНАКВОСТ НА СРЕДСТВАТА, СТУДЕНТСКИ т-КРИТЕРИОН

Задача за споредување просекдве општи популации се јавуваат кога практичното значење е точно магнитудакарактеристиката што се проучува. На пример, кога се споредува времетраењето на третманот со два различни методи или бројот на компликации кои произлегуваат од нивната употреба. Во овој случај, можете да го користите Студентскиот т-тест.

Формулирање на проблемот

Добиени се два примероци (X 1) и (X 2), извлечени од општите популации со нормален закондистрибуција и идентични варијанси.Големини на примероци - n 1 и n 2, примерок значисе еднакви на X 1 и X 2, и варијанси на примероци- s 1 2 и s 2 2соодветно. Треба да се споредат општи просеци.

Проверливи хипотези:

H 0- општи просеци се исти;

H 1- општи просеци се различни.

Се покажува дека ако хипотезата е вистинита H 0 t вредноста пресметана со формулата:

распоредени според Студентскиот закон со бројот на степени на слобода ν = ν 1 + + ν2 - 2.

Овде каде ν 1 = n 1 - 1 - број на степени на слобода за првиот примерок; ν 2 = n 2 - 1 - број на степени на слобода за вториот примерок.

Границите на критичниот регион се наоѓаат со користење на t-дистрибутивни табели или со користење на компјутерската функција STUDRIST. Распределбата Студент е симетрична околу нула, така што левата и десната граница на критичниот регион се идентични по големина и спротивни по знак: -и

За примерот прикажан во табелата. 3.4, добиваме:

ν 1 = ν 2 = 20 - 1 = 19; ν = 38, т= -2,51. На α = 0,05 = 2,02.

Вредноста на критериумот оди подалеку од левата граница на критичниот регион, така што ја прифаќаме хипотезата H 1:општи просеци се различни.Во исто време, просекот на населението првиот примерокПОМАЛКУ.

Применливост на Студентскиот т-тест

Студентскиот t тест е применлив само за примероци од нормалноагрегати со идентични општи варијанси.Ако барем еден од условите е прекршен, тогаш применливоста на критериумот е доведена во прашање. Барањето за нормалност на општата популација обично се игнорира, цитирајќи централна гранична теорема.Навистина, разликата помеѓу средната вредност на примерокот во броителот (3.10) може да се смета за нормално распределена за ν > 30. Но, прашањето за еднаквоста на варијансите не може да се потврди, а не може да се земат упатувањата на фактот дека Фишеровиот тест не открил разлики во предвид. Сепак, t-тестот е широко користен за откривање на разликите во популационите вредности, иако без доволно докази.

Подолу се дискутира непараметриски критериум,кој успешно се користи за исти цели и кој не бара никакви нормалност,ниту едно еднаквост на варијанси.

3.8. НЕПАРАМЕТРИСКА СПОРЕДБА НА ДВА ПРИМЕРОЦИ: КРИТЕРИОН МАН-ВИТНИ

Непараметриските тестови се дизајнирани да детектираат разлики во законите за дистрибуција на две популации. Критериуми кои се чувствителни на разликите воопшто просек,наречени критериуми сменаКритериуми кои се чувствителни на разликите воопшто дисперзии,наречени критериуми скала.Тестот Ман-Витни се однесува на критериумите сменаи се користи за откривање на разлики во средствата на две популации, примероци од кои се претставени во скала за рангирање.Измерените карактеристики се наоѓаат на оваа скала по растечки редослед, а потоа се нумерирани со цели броеви 1, 2... Овие броеви се нарекуваат рангира.На еднакви количини им се доделуваат еднакви рангови. Не е важна вредноста на самиот атрибут, туку само редно местокои ги рангира меѓу другите количини.

Во табелата 3.5. првата група од Табела 3.4 е претставена во проширена форма (линија 1), рангирана (линија 2), а потоа ранговите на идентични вредности се заменуваат со аритметички просеци. На пример, ставките 4 и 4 во првиот ред добија рангови 2 и 3, кои потоа беа заменети со истите вредности од 2,5.

Табела 3.5

Формулирање на проблемот

Независни примероци (X 1)И (X 2)извлечени од општи популации со непознати закони за дистрибуција. Големини на примероци n 1И n 2соодветно. Вредностите на елементите на примерокот се претставени во скала за рангирање.Неопходно е да се провери дали овие општи популации се разликуваат една од друга?

Проверливи хипотези:

H 0- примероците припаѓаат на иста општа популација; H 1- примероците припаѓаат на различни општи популации.

За тестирање на ваквите хипотези, се користи тестот (/-Ман-Витни).

Прво, од двата примерока се составува комбиниран примерок (X), чии елементи се рангирани. Потоа се наоѓа збирот на рангови што одговараат на елементите од првиот примерок. Оваа сума е критериум за тестирање на хипотезите.

У= Збир на рангови на првиот примерок. (3.11)

За независни примероци чии волумени се поголеми од 20, вредноста Уја почитува нормалната распределба, чие математичко очекување и стандардна девијација се еднакви на:

Затоа, границите на критичниот регион се наоѓаат според табелите за нормална дистрибуција.

За примерот прикажан во табелата. 3.4, добиваме: ν 1 = ν 2 = 20 - 1 = 19, У= 339, μ = 410, σ = 37. За α = 0,05 добиваме: лево = 338 и десно = 482.

Вредноста на критериумот оди подалеку од левата граница на критичниот регион, затоа е прифатена хипотезата H 1: општите популации имаат различни закони за дистрибуција. Во исто време, просекот на населението првиот примерокПОМАЛКУ.

Кога се конструира серија на дистрибуција на интервал, се решаваат три прашања:

  • 1. Колку интервали треба да земам?
  • 2. Колкава е должината на интервалите?
  • 3. Каква е процедурата за вклучување на единиците на население во границите на интервали?
  • 1. Број на интервалиможе да се определи со Формула Sturgess:

2. Должина на интервал или чекор на интервал, обично се одредува со формулата

Каде R-опсег на варијации.

3. Редоследот на вклучување на единиците на населението во границите на интервалот

може да биде различна, но кога се конструира интервална серија, распределбата мора да биде строго дефинирана.

На пример, ова: [), во кое единиците на населението се вклучени во долните граници, но не се вклучени во горните граници, туку се пренесуваат во следниот интервал. Исклучок од ова правило е последниот интервал, чија горна граница го вклучува последниот број од рангираната серија.

Границите на интервалот се:

  • затворено - со две екстремни вредности на атрибутот;
  • отворено - со една екстремна вредност на атрибутот (предтаков и таков број или надтаков и таков број).

За да го асимилираме теоретскиот материјал, воведуваме информации за позадинатаза решенија задача од крај до крај.

Постојат условни податоци за просечниот број на менаџери за продажба, количината на слични стоки продадени од нив, индивидуалната пазарна цена за овој производ, како и обемот на продажба на 30 компании во еден од регионите на Руската Федерација во првиот квартал од извештајната година (Табела 2.1).

Табела 2.1

Почетна информација за вкрстена задача

Број

менаџери,

Цена, илјади рубли

Обем на продажба, милиони рубли.

Број

менаџери,

Количина на продадена стока, ЕЕЗ.

Цена, илјади рубли

Обем на продажба, милиони рубли.

Врз основа на првичните информации, како и дополнителни информации, ќе поставиме индивидуални задачи. Потоа ќе ја претставиме методологијата за нивно решавање и самите решенија.

Вкрстена задача. Задача 2.1

Користење на првичните податоци од табелата. Потребно е 2.1конструирај дискретна серија на дистрибуција на фирми по количина на продадени стоки (Табела 2.2).

Решение:

Табела 2.2

Дискретна серија на дистрибуција на фирми по количина на продадени стоки во еден од регионите на Руската Федерација во првиот квартал од извештајната година

Вкрстена задача. Задача 2.2

се бараконструира рангирана серија од 30 фирми според просечниот број на менаџери.

Решение:

15; 17; 18; 20; 20; 20; 22; 22; 24; 25; 25; 25; 27; 27; 27; 28; 29; 30; 32; 32; 33; 33; 33; 34; 35; 35; 38; 39; 39; 45.

Вкрстена задача. Задача 2.3

Користење на првичните податоци од табелата. 2.1, потребно:

  • 1. Конструирајте интервална серија на дистрибуција на фирми по број на менаџери.
  • 2. Пресметајте ги фреквенциите на дистрибутивната серија на фирми.
  • 3. Извлечете заклучоци.

Решение:

Ајде да пресметаме користејќи ја формулата Sturgess (2.5) број на интервали:

Така, земаме 6 интервали (групи).

Должина на интервал, или интервален чекор, пресметајте користејќи ја формулата

Забелешка.Редоследот на вклучување на единиците на населението во границите на интервалот е како што следува: I), во кој единиците на населението се вклучени во долните граници, но не се вклучени во горните граници, туку се пренесуваат во следниот интервал. Исклучок од ова правило е последниот интервал I ], чија горна граница го вклучува последниот број од рангираната серија.

Градиме интервална серија (Табела 2.3).

Интервална серија на дистрибуција на фирми и просечен број на менаџери во еден од регионите на Руската Федерација во првиот квартал од извештајната година

Заклучок.Најголема група на фирми е групата со просечен број на менаџери од 25-30 лица, која вклучува 8 фирми (27%); Најмалата група со просечен број на менаџери од 40-45 луѓе вклучува само една компанија (3%).

Користење на првичните податоци од табелата. 2.1, како и интервална серија на дистрибуција на фирми по број на менаџери (Табела 2.3), се барада изгради аналитичка групација на односот помеѓу бројот на менаџери и обемот на продажба на фирмите и врз основа на тоа да донесе заклучок за присуството (или отсуството) на врска помеѓу овие карактеристики.

Решение:

Аналитичкото групирање се заснова на карактеристиките на факторите. Во нашиот проблем, факторската карактеристика (x) е бројот на менаџери, а резултантната карактеристика (y) е обемот на продажбата (Табела 2.4).

Ајде да изградиме сега аналитичко групирање(Табела 2.5).

Заклучок.Врз основа на податоците од конструираната аналитичка групација, можеме да кажеме дека со зголемување на бројот на менаџери за продажба, се зголемува и просечниот обем на продажба на компанијата во групата, што укажува на присуство на директна поврзаност помеѓу овие карактеристики.

Табела 2.4

Помошна табела за конструирање на аналитичко групирање

Број на менаџери, луѓе,

Број на компанијата

Обем на продажба, милиони рубли, y

" = 59 f = 9,97

I-™ 4 -Ју.22

74 '25 1PY1

U4 = 7 = 10,61

на = ’ =10,31 30

Табела 2.5

Зависност на обемот на продажба од бројот на менаџери на компании во еден од регионите на Руската Федерација во првиот квартал од извештајната година

КОНТРОЛНИ ПРАШАЊА
  • 1. Која е суштината на статистичкото набљудување?
  • 2. Наведете ги фазите на статистичкото набљудување.
  • 3. Кои се организациските форми на статистичко набљудување?
  • 4. Наведете ги видовите на статистичко набљудување.
  • 5. Што е статистичко резиме?
  • 6. Наведете ги видовите статистички извештаи.
  • 7. Што е статистичка групација?
  • 8. Наведете ги видовите статистички групирања.
  • 9. Што е серија на дистрибуција?
  • 10. Наведете ги структурните елементи на редот за распределба.
  • 11. Каква е процедурата за конструирање на дистрибутивна серија?

Имајќи достапни статистички податоци за набљудување кои карактеризираат одредена појава, пред сè е неопходно да се организираат, т.е. даваат систематски карактер

англиски статистичар. УЈРајхман фигуративно рече за нарушените збирки дека наидувањето на маса негенерализирани податоци е еквивалентно на ситуација кога човек е фрлен во грмушка без компас. Каква е систематизацијата на статистичките податоци во форма на дистрибутивни серии?

Статистичките серии на распределби се подредени статистички агрегати (Табела 17). Наједноставниот тип на серии за статистичка дистрибуција е рангирана серија, т.е. серија на броеви во растечки или опаѓачки редослед, кои ги менуваат карактеристиките. Таквата серија не дозволува да се процени моделите својствени за дистрибуираните податоци: која вредност ги има групирано мнозинството индикатори, какви отстапувања има од оваа вредност; како и општата дистрибутивна слика. За таа цел, податоците се групирани, покажувајќи колку често се случуваат поединечни набљудувања во нивниот вкупен број (шема 1а 1).

. Табела 17

. Општ поглед на сериите на статистичка дистрибуција

. Шема 1. Статистичка шемадистрибутивна серија

Распределбата на единиците на населението според карактеристики кои немаат квантитативен израз се нарекува атрибутивни серии(на пример, дистрибуција на претпријатијата по нивната производна област)

Сериите на распределба на единиците на населението според карактеристики, имаат квантитативен израз, се нарекуваат варијација серија. Во такви серии, вредноста на карактеристиката (опциите) се во растечки или опаѓачки редослед

Во варијациската дистрибутивна серија се разликуваат два елементи: варијанта и фреквенција . Опција- ова е посебно значење на карактеристиките на групирање фреквенција- број кој покажува колку пати се појавува секоја опција

Во математичката статистика се пресметува уште еден елемент од серијата варијации - делумно. Последново е дефинирано како однос на зачестеноста на случаите на даден интервал до вкупниот збир на фреквенции; делот се одредува во фракции од единица, проценти (%) во ppm (%o)

Така, серија на дистрибуција на варијации е серија во која опциите се подредени во растечки или опаѓачки редослед, а нивните фреквенции или фреквенции се означени. Сериите на варијации се дискретни (интервали) и други интервали (континуирани).

. Дискретна варијација серија- тоа се дистрибутивни серии во кои варијантата како вредност на квантитативна карактеристика може да добие само одредена вредност. Опциите се разликуваат една од друга за една или повеќе единици

Така, бројот на делови произведени по смена од конкретен работник може да се изрази само со еден специфичен број (6, 10, 12, итн.). Пример за дискретна серија на варијации може да биде распределбата на работниците според бројот на произведени делови (Табела 18 18).

. Табела 18

. Дискретна сериска дистрибуција _

. Серии на интервални (континуирани) варијации- такви дистрибутивни серии во кои вредноста на опциите се дадени во форма на интервали, т.е. вредностите на карактеристиките може да се разликуваат едни од други за произволно мала количина. Кога се конструира варијациска серија на NEP периваријантни карактеристики, невозможно е да се означи секоја вредност на варијантата, така што популацијата се распределува во интервали. Последново може да биде еднакво или нееднакво. За секоја од нив се наведени фреквенции или фреквенции (Табела 1 9 19).

Во сериите на интервална дистрибуција со нееднакви интервали, се пресметуваат математички карактеристики како што се густина на дистрибуција и релативна густина на дистрибуција на даден интервал. Првата карактеристика се определува со односот на фреквенцијата до вредноста на истиот интервал, втората - со односот на фреквенцијата до вредноста на истиот интервал. За примерот погоре, густината на дистрибуција во првиот интервал ќе биде 3: 5 = 0,6, а релативната густина во овој интервал е 7,5: 5 = 1,55%.

. Табела 19

. Серии за дистрибуција на интервали _

Конструирана е серија на дискретни варијации за дискретни карактеристики.

За да се конструира дискретна серија на варијации, треба да ги извршите следните чекори: 1) подредете ги единиците за набљудување по зголемен редослед на проучуваната вредност на карактеристиката,

2) утврдете ги сите можни вредности на атрибутот x i, распоредете ги во растечки редослед,

вредноста на атрибутот, јас .

Фреквенција на вредност на атрибут и означуваат ѓ јас . Збирот на сите фреквенции на серијата е еднаков на бројот на елементи во популацијата што се проучува.

Пример 1 .

Список на оценки добиени од студенти на испити: 3; 4; 3; 5; 4; 2; 2; 4; 4; 3; 5; 2; 4; 5; 4; 3; 4; 3; 3; 4; 4; 2; 2; 5; 5; 4; 5; 2; 3; 4; 4; 3; 4; 5; 2; 5; 5; 4; 3; 3; 4; 2; 4; 4; 5; 4; 3; 5; 3; 5; 4; 4; 5; 4; 4; 5; 4; 5; 5; 5.

Еве го бројот X - оценкае дискретна случајна променлива, а добиената листа на проценки еСтатистички (набудувачки) податоци .

    подредете ги единиците за набљудување по растечки редослед на проучуваната карактеристична вредност:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) утврдете ги сите можни вредности на атрибутот x i, подредете ги во растечки редослед:

Во овој пример, сите проценки може да се поделат во четири групи со следните вредности: 2; 3; 4; 5.

Се нарекува вредноста на случајната променлива која одговара на одредена група набљудувани податоци вредноста на атрибутот, опција (опција) и назначете x јас .

Се нарекува број кој покажува колку пати соодветната вредност на карактеристиката се јавува при голем број набљудувања Фреквенција на вредност на атрибут и означуваат ѓ јас .

За нашиот пример

се јавува резултат 2 - 8 пати,

се јавува резултат 3 - 12 пати,

се јавува резултат 4 - 23 пати,

се јавува резултат 5 - 17 пати.

Има вкупно 60 оценки.

4) запишете ги примените податоци во табела од два реда (колони) - x i и f i.

Врз основа на овие податоци, можно е да се конструира дискретна серија на варијации

Дискретна варијација серија - ова е табела во која настанатите вредности на карактеристиката што се проучува се означени како поединечни вредности во растечки редослед и нивните фреквенции

  1. Конструкција на серија на варијации на интервал

Покрај дискретната варијациска серија, често се среќава метод за групирање податоци како што е интервална варијациска серија.

Серии на интервал се конструираат ако:

    знакот има континуирана природа на промена;

    Имаше многу дискретни вредности (повеќе од 10)

    фреквенциите на дискретни вредности се многу мали (не надминувајте 1-3 со релативно голем број единици за набљудување);

    многу дискретни вредности на карактеристика со исти фреквенции.

Серијата на варијации на интервал е начин на групирање податоци во форма на табела која има две колони (вредностите на карактеристиката во форма на интервал на вредности и фреквенцијата на секој интервал).

За разлика од дискретна серија, вредностите на карактеристиката на интервалната серија не се претставени со поединечни вредности, туку со интервал на вредности („од - до“).

Се вика бројот што покажува колку единици за набљудување паднале во секој одбран интервал Фреквенција на вредност на атрибут и означуваат ѓ јас . Збирот на сите фреквенции на серијата е еднаков на бројот на елементи (единици на набљудување) во популацијата што се проучува.

Ако единицата има карактеристична вредност еднаква на горната граница на интервалот, тогаш таа треба да се додели на следниот интервал.

На пример, дете со висина од 100 см ќе падне во вториот интервал, а не во првиот; а дете со висина од 130 см ќе падне во последниот интервал, а не во третиот.

Врз основа на овие податоци, може да се конструира серија на варијации на интервал.

Секој интервал има долна граница (xn), горна граница (xw) и ширина на интервал ( јас).

Границата на интервалот е вредноста на атрибутот што лежи на границата на два интервали.

детска висина (см)

детска висина (см)

количина на деца

повеќе од 130

Ако интервалот има горна и долна граница, тогаш тој се нарекува затворен интервал. Ако интервалот има само долна или само горна граница, тогаш тоа е - отворен интервал.Може да биде отворен само првиот или последниот интервал. Во горниот пример, последниот интервал е отворен.

Ширина на интервалот (јас) – разликата помеѓу горната и долната граница.

јас = x n - x во

Ширината на отворениот интервал се претпоставува дека е иста со ширината на соседниот затворен интервал.

детска висина (см)

количина на деца

Ширина на интервалот (i)

за пресметки 130+20=150

20 (бидејќи ширината на соседниот затворен интервал е 20)

Сите интервални серии се поделени на интервални серии со еднакви интервали и интервални серии со нееднакви интервали . Во распоредени редови со еднакви интервали, ширината на сите интервали е иста. Во интервалните серии со нееднакви интервали, ширината на интервалите е различна.

Во примерот што се разгледува - интервална серија со нееднакви интервали.

Лабораториска работа бр.1

Според математичката статистика

Тема: Примарна обработка на експериментални податоци

3. Резултат во поени. 1

5. Тест прашања.. 2

6. Методологија за вршење лабораториски работи.. 3

Цел на работата

Стекнување вештини за примарна обработка на емпириски податоци користејќи методи на математичка статистика.

Врз основа на севкупноста на експериментални податоци, завршете ги следните задачи:

Вежба 1.Конструирај серија на дистрибуција на варијации на интервал.

Задача 2.Конструирај хистограм на фреквенции од серија на варијации на интервал.

Задача 3.Направете емпириска функција за дистрибуција и нацртајте график.

а) режим и медијана;

б) условни почетни моменти;

в) просечен примерок;

г) варијанса на примерокот, коригирана варијанса на популацијата, коригирана стандардна девијација;

д) коефициент на варијација;

ѓ) асиметрија;

е) куртоза;

Задача 5.Определете ги границите на вистинските вредности на нумеричките карактеристики на случајната променлива што се проучува со дадена веродостојност.

Задача 6.Содржинско толкување на резултатите од примарната обработка според условите на задачата.

Резултат во поени

Задачи 1-56 поени

Задача 62 поени

Одбрана на лабораториска работа(усно интервју за тест прашања и лабораториска работа) - 2 поени

Делото мора да се достави во писмена форма на листови А4 и вклучува:

1) Насловна страница (Додаток 1)

2) Почетни податоци.

3) Поднесување на работа според наведениот примерок.

4) Резултати од пресметката (направени рачно и/или со помош на MS Excel) по наведениот редослед.

5) Заклучоци - смислено толкување на резултатите од примарната обработка според условите на проблемот.

6) Усно интервју за работни и контролни прашања.



5. Тест прашања


Методологија за изведување лабораториски работи

Задача 1. Конструирај интервална варијациска дистрибутивна серија

За да се прикажат статистичките податоци во форма на варијација серија со еднакво распоредени опции, потребно е:

1.Во оригиналната табела со податоци, пронајдете ги најмалите и најголемите вредности.

2.Дефинирај опсег на варијации :

3. Определете ја должината на интервалот h, ако примерокот содржи до 1000 податоци, користете ја формулата: , каде што n – големина на примерокот – количина на податоци во примерокот; за пресметки земете lgn).

Пресметаниот сооднос се заокружува на удобна цел бројна вредност .

4. За да се одреди почетокот на првиот интервал за парен број интервали, се препорачува да се земе вредноста ; и за непарен број интервали .

5. Запишете ги интервалите за групирање и распоредете ги по растечки редослед на границите

, ,………., ,

каде е долната граница на првиот интервал. Се зема погоден број кој не е поголем од , горната граница на последниот интервал не треба да биде помала од . Се препорачува интервалите да ги содржат почетните вредности на случајната променлива и да се одделат од нив 5 до 20интервали.

6. Запишете ги почетните податоци за интервали на групирање, т.е. користете ја изворната табела за да го пресметате бројот на вредности на случајни променливи што спаѓаат во наведените интервали. Ако некои вредности се совпаѓаат со границите на интервалите, тогаш тие се припишуваат или само на претходниот или само на наредниот интервал.

Забелешка 1.Интервалите не мора да бидат еднакви по должина. Во областите каде што вредностите се погусти, попогодно е да се земаат помали, кратки интервали, а каде што има поретки интервали, поголеми.

Забелешка 2.Ако за некои вредности се добиени вредности „нула“ или мала фреквенција, тогаш потребно е повторно да се групираат податоците, зголемувајќи ги интервалите (зголемување на чекорот).