Variatsioonirea tunnuse väärtus. Variatsioonilised ja statistilised jaotusread

Selle peatüki valdamise tulemusena peab õpilane: tea

  • variatsiooninäitajad ja nende seos;
  • tunnuste jaotuse põhiseadused;
  • nõusolekukriteeriumide olemus; suutma
  • arvutada variatsiooniindeksid ja sobivuse kriteeriumid;
  • määrata jaotusomadused;
  • hinnata statistiliste jaotusridade põhilisi arvnäitajaid;

oma

  • jaotusridade statistilise analüüsi meetodid;
  • dispersioonanalüüsi alused;
  • meetodid statistiliste jaotusridade jaotuse põhiseadustele vastavuse kontrollimiseks.

Variatsiooninäitajad

Erinevate statistiliste üldkogumite tunnuste statistilises uuringus pakub suurt huvi uurida üldkogumi üksikute statistiliste üksuste tunnuse varieeruvust, samuti ühikute jaotuse olemust selle tunnuse järgi. Variatsioon - need on erinevused tunnuse individuaalsetes väärtustes uuritava populatsiooni üksuste vahel. Variatsiooniuuringul on suur praktiline tähtsus. Variatsiooniastme järgi saab hinnata tunnuse varieerumise piire, üldkogumi homogeensust antud tunnuse puhul, keskmise tüüpilisust ja variatsiooni määravate tegurite seost. Variatsiooninäitajaid kasutatakse statistiliste populatsioonide iseloomustamiseks ja korrastamiseks.

Statistiliste vaatlusmaterjalide kokkuvõtte ja rühmitamise tulemused, mis on esitatud statistiliste jaotusridadena, kujutavad endast uuritava üldkogumi üksuste järjestatud jaotust rühmadesse vastavalt rühmitamiskriteeriumidele. Kui rühmitamise aluseks võtta kvalitatiivne tunnus, siis nimetatakse sellist jaotussarja atribuutne(jaotus elukutse, soo, värvi jne järgi). Kui jaotusrida on koostatud kvantitatiivsel alusel, siis sellist jada nimetatakse variatsiooniline(jaotus pikkuse, kaalu, palga jne järgi). Variatsioonirea koostamine tähendab populatsiooni üksuste kvantitatiivse jaotuse korraldamist iseloomulike väärtuste järgi, nende väärtustega rahvastikuüksuste arvu (sageduse) loendamist ja tulemuste tabelisse viimist.

Variandi sageduse asemel on võimalik kasutada selle suhet vaatluste kogumahusse, mida nimetatakse sageduseks (suhteline sagedus).

Variatsiooniseeriaid on kahte tüüpi: diskreetne ja intervall. Diskreetsed seeriad- See on variatsiooniseeria, mille konstruktsioon põhineb katkendliku muutumisega karakteristikutel (diskreetsed karakteristikud). Viimaste hulka kuuluvad ettevõtte töötajate arv, tariifikategooria, laste arv peres jne. Diskreetne variatsiooniseeria tähistab tabelit, mis koosneb kahest veerust. Esimene veerg näitab atribuudi konkreetset väärtust ja teine ​​veerg näitab ühikute arvu üldkogumis, millel on atribuudi konkreetne väärtus. Kui tunnus on pidevas muutumises (sissetuleku suurus, tööstaaž, ettevõtte põhivara maksumus jne, mis teatud piirides võib omandada mis tahes väärtusi), siis on selle tunnuse jaoks võimalik konstrueerida intervalli variatsiooni seeriad. Intervallvariatsiooniseeria koostamisel on tabelis ka kaks veergu. Esimene tähistab atribuudi väärtust intervallis "alates - kuni" (valikud), teine ​​​​näitab intervallis sisalduvate ühikute arvu (sagedus). Sagedus (korduste sagedus) - atribuutide väärtuste konkreetse variandi korduste arv. Intervallid võivad olla suletud või avatud. Suletud intervallid on mõlemalt poolt piiratud, st. neil on nii alumine ("from") kui ka ülemine ("kuni") piir. Avatud intervallidel on üks piir: kas ülemine või alumine. Kui valikud on järjestatud kasvavas või kahanevas järjekorras, kutsutakse ridu järjestatud.

Variatsiooniseeriate jaoks on kahte tüüpi sagedusreaktsiooni valikuid: akumuleeritud sagedus ja akumuleeritud sagedus. Kogunenud sagedus näitab, kui paljude vaatluste tunnuse väärtus võttis antud väärtusest väiksemad väärtused. Kogunenud sagedus määratakse kindlaks antud rühma karakteristiku sagedusväärtuste liitmisel eelmiste rühmade kõigi sagedustega. Kogunenud sagedus iseloomustab nende vaatlusüksuste osakaalu, mille atribuutide väärtused ei ületa antud rühma ülempiiri. Seega näitab akumuleeritud sagedus optsioonide osakaalu kogusummas, mille väärtus ei ole suurem kui antud. Sagedus, sagedus, absoluutne ja suhteline tihedus, akumuleeritud sagedus ja sagedus on variandi suuruse tunnused.

Üldkogumi statistiliste ühikute tunnuste variatsioone ja jaotuse olemust uuritakse variatsiooniridade näitajate ja karakteristikute abil, mis hõlmavad rea keskmist taset, keskmist lineaarhälvet, standardhälvet, dispersiooni. , võnkekoefitsiendid, variatsioon, asümmeetria, kurtoos jne.

Jaotuskeskuse iseloomustamiseks kasutatakse keskmisi väärtusi. Keskmine on üldistav statistiline tunnus, milles kvantifitseeritakse uuritava populatsiooni liikmetele omase tunnuse tüüpiline tase. Samas võib esineda erinevate jaotusmustritega aritmeetiliste keskmiste kokkulangemise juhtumeid, mistõttu variatsiooniridade statistiliste karakteristikutena arvutatakse välja nn struktuursed keskmised - mood, mediaan, aga ka kvantiilid, mis jagavad jaotusrea võrdseteks. osad (kvartiilid, detsiilid, protsentiilid jne).

Mood – See on tunnuse väärtus, mis esineb jaotusreas sagedamini kui selle muud väärtused. Diskreetsete seeriate puhul on see kõrgeima sagedusega valik. Intervallide variatsiooniridades on režiimi määramiseks vaja esmalt määrata intervall, milles see asub, nn modaalintervall. Võrdsete intervallidega variatsiooniridades määratakse modaalintervall kõrgeima sagedusega, ebavõrdsete intervallidega jadades - kuid suurima jaotustihedusega. Seejärel kasutatakse valemit režiimi määramiseks ridade kaupa võrdsete intervallidega

kus Mo on moeväärtus; xMo - modaalintervalli alumine piir; h- modaalse intervalli laius; / Mo - modaalintervalli sagedus; / Mo j on premodaalse intervalli sagedus; / Mo+1 on postmodaalse intervalli sagedus ja selles arvutusvalemis ebavõrdsete intervallidega seeria puhul tuleks sageduste / Mo, / Mo, / Mo asemel kasutada jaotustihedusi Mõistus 0 _| , Mõistus 0> UMO+"

Kui on üks moodus, siis nimetatakse juhusliku suuruse tõenäosusjaotust unimodaalseks; kui režiime on rohkem kui üks, nimetatakse seda multimodaalseks (polümodaalne, multimodaalne), kahe režiimi puhul - bimodaalne. Reeglina näitab multimodaalsus, et uuritav jaotus ei allu normaaljaotuse seadusele. Homogeenseid populatsioone iseloomustavad reeglina ühe tipuga jaotused. Multivertex näitab ka uuritava populatsiooni heterogeensust. Kahe või enama tipu ilmnemisel on vaja andmed ümber rühmitada, et tuvastada homogeensemaid rühmi.

Intervallide variatsioonide seerias saab režiimi määrata graafiliselt, kasutades histogrammi. Selleks tõmmake kaks ristuvat joont histogrammi kõrgeima veeru ülemistest punktidest kahe külgneva veeru ülemiste punktideni. Seejärel langetatakse nende ristumispunktist risti abstsissteljele. Perpendikulaarile vastava tunnuse väärtus x-teljel on režiim. Paljudel juhtudel eelistatakse populatsiooni iseloomustamisel üldistatud näitajana pigem režiimi kui aritmeetilist keskmist.

Mediaan – See on atribuudi keskne väärtus; seda omab jaotuse järjestatud seeria keskne liige. Diskreetsetes seeriates määratakse mediaani väärtuse leidmiseks esmalt selle seerianumber. Selleks, kui ühikute arv on paaritu, lisatakse kõigi sageduste summale üks ja arv jagatakse kahega. Kui reas on paarisarv ühikuid, on kaks mediaanühikut, nii et sel juhul on mediaan määratletud kahe mediaanühiku väärtuste keskmisena. Seega on diskreetse variatsioonirea mediaan väärtus, mis jagab seeria kaheks osaks, mis sisaldavad sama palju võimalusi.

Intervalli seeriates leitakse pärast mediaani seerianumbri määramist mediaanintervall akumuleeritud sageduste (sageduste) abil ja seejärel mediaani arvutamise valemi abil määratakse mediaani enda väärtus:

kus Me on mediaanväärtus; x mina - mediaanintervalli alumine piir; h- mediaanintervalli laius; - jaotusridade sageduste summa; /D - premediaanintervalli akumuleeritud sagedus; / Me - mediaanintervalli sagedus.

Mediaani saab graafiliselt leida kumulatsiooni abil. Selleks tõmmatakse kumulaadi akumuleeritud sageduste (sageduste) skaalal mediaani järjekorranumbrile vastavast punktist abstsissteljega paralleelne sirgjoon, kuni see lõikub kumulaadiga. Järgmisena langetatakse näidatud joone ja kumulatsiooni ristumispunktist risti abstsissteljele. Joonistatud ordinaadile (risti) vastava atribuudi väärtus x-teljel on mediaan.

Mediaani iseloomustavad järgmised omadused.

  • 1. See ei sõltu nendest atribuutide väärtustest, mis asuvad selle mõlemal küljel.
  • 2. Sellel on minimaalsuse omadus, mis tähendab, et atribuudi väärtuste absoluutsete kõrvalekallete summa mediaanist esindab minimaalset väärtust võrreldes atribuudi väärtuste kõrvalekaldega mis tahes muust väärtusest.
  • 3. Kahe jaotuse kombineerimisel teadaolevate mediaanidega on võimatu ette ennustada uue jaotuse mediaani väärtust.

Neid mediaani omadusi kasutatakse laialdaselt avalike teeninduspunktide – koolide, kliinikute, bensiinijaamade, veepumpade jne – asukoha kujundamisel. Näiteks kui plaanitakse kliinikut rajada mingisse linna kvartalisse, siis oleks otstarbekam paigutada see kvartali punkti, mis vähendab poole võrra mitte kvartali pikkust, vaid elanike arvu.

Mood, mediaani ja aritmeetilise keskmise suhe näitab tunnuse jaotuse olemust agregaadis ja võimaldab hinnata jaotuse sümmeetriat. Kui x Me siis on seeria parempoolne asümmeetria. Normaaljaotusega X - Mina - Mo.

K. Pearson tegi erinevat tüüpi kõverate joondamise põhjal kindlaks, et mõõdukalt asümmeetriliste jaotuste korral kehtivad järgmised ligikaudsed seosed aritmeetilise keskmise, mediaani ja mooduse vahel:

kus Me on mediaanväärtus; Mo - moe tähendus; x arithm - aritmeetilise keskmise väärtus.

Kui on vaja variatsioonirea struktuuri üksikasjalikumalt uurida, siis arvuta mediaaniga sarnased karakteristikud. Sellised iseloomulikud väärtused jagavad kõik jaotusühikud võrdseteks arvudeks; neid nimetatakse kvantilideks või gradientideks. Kvantiilid jagunevad kvartiilideks, detsiilideks, protsentiilideks jne.

Kvartiilid jagavad populatsiooni neljaks võrdseks osaks. Esimene kvartiil arvutatakse sarnaselt mediaaniga, kasutades esimese kvartiili arvutamise valemit, olles eelnevalt kindlaks määranud esimese kvartali intervalli:

kus Qi on esimese kvartiili väärtus; xQ^- esimese kvartiili vahemiku alumine piir; h- esimese kvartali intervalli laius; /, - intervallide seeria sagedused;

Kumulatiivne sagedus esimesele kvartiili intervallile eelnevas intervallis; Jq (- esimese kvartiili intervalli sagedus.

Esimene kvartiil näitab, et 25% rahvastikuühikutest on selle väärtusest väiksemad ja 75% rohkem. Teine kvartiil on võrdne mediaaniga, s.o. Q 2 = Mina.

Analoogia põhjal arvutatakse kolmas kvartiil, olles kõigepealt leidnud kolmanda kvartali intervalli:

kus on kolmanda kvartiili vahemiku alumine piir; h- kolmanda kvartiili intervalli laius; /, - intervallide seeria sagedused; /X" - kogunenud sagedus eelneval intervallil

G

kolmas kvartiil intervall; Jq on kolmanda kvartiili intervalli sagedus.

Kolmas kvartiil näitab, et 75% rahvastikuühikutest on selle väärtusest väiksemad ja 25% rohkem.

Kolmanda ja esimese kvartiili erinevus on kvartiilidevaheline vahemik:

kus Aq on kvartiilidevahelise vahemiku väärtus; Q3 - kolmanda kvartiili väärtus; Q on esimese kvartiili väärtus.

Detsiilid jagavad populatsiooni 10 võrdseks osaks. Detsiil on jaotusreas oleva tunnuse väärtus, mis vastab kümnendikutele populatsiooni suurusest. Analoogiliselt kvartiilidega näitab esimene detsiil, et 10% elanikkonna ühikutest on selle väärtusest väiksemad ja 90% on suuremad ning üheksas detsiil näitab, et 90% populatsiooni ühikutest on selle väärtusest väiksemad ja 10% on selle väärtusest väiksemad. suurem. Üheksanda ja esimese detsiili suhe, s.o. Detsiilkoefitsienti kasutatakse laialdaselt sissetulekute diferentseerumise uurimisel, et mõõta 10% kõige jõukama ja 10% kõige vähem jõukama elanikkonna sissetulekutasemete suhet. Protsentiilid jagavad järjestatud populatsiooni 100 võrdseks osaks. Protsentiilide arvutamine, tähendus ja rakendamine on sarnane detsiilidega.

Kvartiile, detsiile ja muid struktuuriomadusi saab graafiliselt määrata analoogselt mediaaniga, kasutades kumulaate.

Variatsiooni suuruse mõõtmiseks kasutatakse järgmisi näitajaid: variatsioonivahemik, keskmine lineaarhälve, standardhälve, dispersioon. Variatsioonivahemiku suurus sõltub täielikult seeria äärmuslike liikmete jaotuse juhuslikkusest. See näitaja pakub huvi juhtudel, kui on oluline teada, milline on tunnuse väärtuste kõikumise amplituud:

Kus R- variatsioonivahemiku väärtus; x max - atribuudi maksimaalne väärtus; x tt - atribuudi minimaalne väärtus.

Variatsioonivahemiku arvutamisel ei võeta arvesse enamiku seerialiikmete väärtust, samas kui variatsioon on seotud seerialiikme iga väärtusega. Näitajatel, mis on keskmised, mis on saadud tunnuse üksikute väärtuste kõrvalekalletest nende keskmisest väärtusest, puudub see puudus: keskmine lineaarne hälve ja standardhälve. Individuaalsete kõrvalekallete keskmisest ja konkreetse tunnuse varieeruvuse vahel on otsene seos. Mida tugevam on kõikumine, seda suurem on keskmisest kõrvalekallete absoluutne suurus.

Keskmine lineaarne hälve on üksikute valikute keskmisest väärtusest kõrvalekallete absoluutväärtuste aritmeetiline keskmine.

Grupeerimata andmete keskmine lineaarne kõrvalekalle

kus /pr on keskmise lineaarse hälbe väärtus; x, - on atribuudi väärtus; X - P -ühikute arv populatsioonis.

Rühmitatud seeria keskmine lineaarne hälve

kus / vz - keskmise lineaarse hälbe väärtus; x on atribuudi väärtus; X - tunnuse keskmine väärtus uuritava üldkogumi kohta; / - rahvastikuüksuste arv eraldi rühmas.

Sel juhul kõrvalekallete märke eiratakse, vastasel juhul võrdub kõigi kõrvalekallete summa nulliga. Keskmine lineaarne hälve, olenevalt analüüsitavate andmete rühmitusest, arvutatakse erinevate valemite abil: rühmitatud ja rühmitamata andmete puhul. Keskmist lineaarset hälvet kasutatakse oma tavast tulenevalt teistest varieeruvusnäitajatest eraldiseisvalt praktikas suhteliselt harva (eelkõige tarne ühetaolisuse osas lepinguliste kohustuste täitmise iseloomustamiseks; väliskaubanduskäibe analüüsimisel on väliskaubanduskäibe koostis). töötajad, tootmise rütm, toote kvaliteet, võttes arvesse tootmise tehnoloogilisi iseärasusi jne).

Standardhälve iseloomustab seda, kui palju keskmiselt erinevad uuritava tunnuse individuaalsed väärtused üldkogumi keskmisest väärtusest, ja seda väljendatakse uuritava tunnuse mõõtühikutes. Standardhälvet, mis on üks peamisi variatsioonimõõtjaid, kasutatakse laialdaselt homogeense populatsiooni tunnuse variatsioonipiiride hindamisel, normaaljaotuse kõvera ordinaatväärtuste määramisel, aga ka arvutustes, mis on seotud valimi vaatluse korraldamine ja valimi tunnuste täpsuse kindlakstegemine. Grupeerimata andmete standardhälve arvutatakse järgmise algoritmi abil: iga kõrvalekalle keskmisest ruudustatakse, kõik ruudud liidetakse, misjärel jagatakse ruutude summa rea ​​liikmete arvuga ja eraldatakse ruutjuur jagatis:

kus Iip on standardhälbe väärtus; Xj- atribuudi väärtus; X- tunnuse keskmine väärtus uuritava üldkogumi kohta; P -ühikute arv populatsioonis.

Rühmitatud analüüsitud andmete puhul arvutatakse kaalutud valemi abil andmete standardhälve

Kus - standardhälbe väärtus; Xj- atribuudi väärtus; X - tunnuse keskmine väärtus uuritava üldkogumi kohta; f x - rahvastikuüksuste arv konkreetses rühmas.

Juure all olevat avaldist nimetatakse mõlemal juhul dispersiooniks. Seega arvutatakse dispersioon atribuutide väärtuste nende keskmisest väärtusest kõrvalekallete keskmise ruuduna. Kaalumata (lihtsate) atribuutide väärtuste korral määratakse dispersioon järgmiselt:

Kaalutud iseloomulike väärtuste jaoks

Dispersiooni arvutamiseks on olemas ka spetsiaalne lihtsustatud meetod: üldiselt

kaalumata (lihtsate) tunnusväärtuste jaoks kaalutud iseloomulike väärtuste jaoks
kasutades nullpõhist meetodit

kus a 2 on dispersiooni väärtus; x, - on atribuudi väärtus; X - tunnuse keskmine väärtus, h- rühma intervalli väärtus, t 1 - kaal (A =

Dispersioonil on statistikas oma väljendus ja see on üks olulisemaid variatsiooninäitajaid. Seda mõõdetakse ühikutes, mis vastavad uuritava tunnuse mõõtühikute ruudule.

Dispersioonil on järgmised omadused.

  • 1. Konstantse väärtuse dispersioon on null.
  • 2. Karakteristiku kõigi väärtuste vähendamine sama väärtuse A võrra ei muuda dispersiooni väärtust. See tähendab, et hälvete keskmist ruutu saab arvutada mitte karakteristiku etteantud väärtuste, vaid nende kõrvalekallete põhjal mingist konstantsest arvust.
  • 3. Iseloomulike väärtuste vähendamine k korda vähendab dispersiooni võrra k 2 korda ja standardhälve on sees k korda, s.o. atribuudi kõik väärtused saab jagada mõne konstantse arvuga (näiteks seeria intervalli väärtusega), arvutada standardhälbe ja seejärel korrutada konstantse arvuga.
  • 4. Kui arvutame mis tahes väärtusest kõrvalekallete keskmise ruudu Ja erineb ühel või teisel määral aritmeetilisest keskmisest, siis on see alati suurem kui aritmeetilisest keskmisest arvutatud hälvete keskmine ruut. Hälvete keskmine ruut on teatud summa võrra suurem – keskmise ja selle tinglikult võetud väärtuse erinevuse ruudu võrra.

Alternatiivse tunnuse varieerumine seisneb uuritava omaduse olemasolus või puudumises üldkogumi ühikutes. Kvantitatiivselt väljendatakse alternatiivse atribuudi varieerumist kahe väärtusega: uuritava omaduse ühiku olemasolu tähistatakse ühega (1), selle puudumist aga nulliga (0). Üksuste osakaal, millel on uuritav omadus, on tähistatud tähega P ja nende üksuste osakaal, millel see omadus puudub, tähistatakse tähega G. Seega on alternatiivse atribuudi dispersioon võrdne seda omadust omavate üksuste (P) ja seda omadust mitteomavate üksuste osakaalu korrutisega. (G). Suurim rahvastiku varieeruvus saavutatakse juhtudel, kui osa elanikkonnast, mis moodustab 50% elanikkonna kogumahust, omab seda tunnust ja teisel osal elanikkonnast, mis on samuti võrdne 50%, ei oma seda tunnust. ja dispersioon saavutab maksimaalse väärtuse 0,25, t .e. P = 0,5, G= 1 - P = 1 - 0,5 = 0,5 ja o 2 = 0,5 0,5 = 0,25. Selle näitaja alumine piir on null, mis vastab olukorrale, kus koondnäitajad ei muutu. Alternatiivse karakteristiku dispersiooni praktiline rakendus on usaldusvahemike konstrueerimine valimivaatluste läbiviimisel.

Mida väiksem on dispersioon ja standardhälve, seda homogeensem on üldkogum ja seda tüüpilisem on keskmine. Statistika praktikas on sageli vajadus võrrelda erinevate tunnuste variatsioone. Näiteks on huvitav võrrelda erinevusi töötajate vanuses ja nende kvalifikatsioonis, tööstaažis ja töötasus, kuludes ja kasumis, tööstaažis ja tööviljakuses jne. Sellisteks võrdlusteks ei sobi tunnuste absoluutse varieeruvuse näitajad: aastates väljendatud töökogemuse varieeruvust pole võimalik võrrelda rublades väljendatud töötasu kõikumisega. Selliste võrdluste läbiviimiseks, samuti sama tunnuse varieeruvuse võrdlemiseks mitmes populatsioonis erinevate aritmeetiliste keskmistega, kasutatakse variatsiooninäitajaid - võnkekordaja, lineaarne variatsioonikordaja ja variatsioonikordaja, mis näitavad mõõtu. äärmuslike väärtuste kõikumised keskmise ümber.

Võnkekoefitsient:

Kus V R - võnketeguri väärtus; R- variatsioonivahemiku väärtus; X -

Lineaarne variatsioonikoefitsient".

Kus Vj- lineaarse variatsiooniteguri väärtus; mina - keskmise lineaarhälbe väärtus; X - tunnuse keskmine väärtus uuritava populatsiooni jaoks.

Variatsioonikoefitsient:

Kus V a - variatsioonikordaja väärtus; a on standardhälbe väärtus; X - tunnuse keskmine väärtus uuritava populatsiooni jaoks.

Võnketegur on variatsioonivahemiku protsentuaalne suhe uuritava tunnuse keskmise väärtusega ning lineaarne variatsioonikoefitsient on keskmise lineaarse hälbe ja uuritava tunnuse keskmise väärtuse suhe, väljendatuna protsentides. Variatsioonikoefitsient on standardhälbe protsent uuritava tunnuse keskmisest väärtusest. Suhtelise väärtusena, väljendatuna protsentides, kasutatakse variatsioonikordajat erinevate tunnuste variatsiooniastme võrdlemiseks. Variatsioonikordaja abil hinnatakse statistilise üldkogumi homogeensust. Kui variatsioonikordaja on alla 33%, siis on uuritav populatsioon homogeenne ja variatsioon nõrk. Kui variatsioonikoefitsient on üle 33%, siis on uuritav populatsioon heterogeenne, variatsioon tugev ja keskmine väärtus ebatüüpiline ning seda ei saa kasutada selle populatsiooni üldnäitajana. Lisaks kasutatakse variatsioonikoefitsiente, et võrrelda ühe tunnuse varieeruvust erinevates populatsioonides. Näiteks hinnata kahe ettevõtte töötajate tööstaaži erinevust. Mida suurem on koefitsiendi väärtus, seda olulisem on tunnuse kõikumine.

Arvutatud kvartiilide põhjal on võimalik arvutada ka kvartiilide suhteline näitaja valemi abil

kus Q 2 Ja

Interkvartiilne vahemik määratakse valemiga

Variatsioonivahemiku asemel kasutatakse kvartiilhälvet, et vältida äärmuslike väärtuste kasutamisega seotud puudusi:

Ebavõrdse intervalliga variatsiooniridade puhul arvutatakse ka jaotustihedus. See on määratletud kui vastava sageduse või sageduse jagatis intervalli väärtusega. Ebavõrdsete intervallidega jadades kasutatakse absoluutset ja suhtelist jaotustihedust. Absoluutne jaotustihedus on sagedus intervalli pikkuseühiku kohta. Suhteline jaotustihedus – sagedus intervalli pikkuse ühiku kohta.

Kõik eelnev kehtib jaotusridade kohta, mille jaotusseadust tavajaotusseadus hästi kirjeldab või on sellele lähedane.

Variatsiooniline nimetatakse kvantitatiivsel alusel koostatud jaotussarjadeks. Kvantitatiivsete tunnuste väärtused populatsiooni üksikutes üksustes ei ole püsivad ja erinevad üksteisest enam-vähem.

Variatsioon- tunnuse väärtuse kõikumine, muutuvus üldkogumi üksuste vahel. Nimetatakse uuritavas populatsioonis leitud tunnuse individuaalseid arvväärtusi valikuid väärtused. Keskmise väärtuse ebapiisav populatsiooni täielikuks iseloomustamiseks sunnib meid täiendama keskmisi väärtusi näitajatega, mis võimaldavad hinnata nende keskmiste tüüpilisust, mõõtes uuritava tunnuse varieeruvust (variatsiooni).

Variatsiooni olemasolu on tingitud paljude tegurite mõjust tunnuse taseme kujunemisele. Need tegurid toimivad ebavõrdse jõuga ja erinevates suundades. Variatsiooniindekseid kasutatakse tunnuste varieeruvuse mõõtmise kirjeldamiseks.

Statistilise variatsiooniuuringu eesmärgid:

  • 1) populatsiooni üksikute üksuste tunnuste olemuse ja varieerumisastme uurimine;
  • 2) üksikute tegurite või nende rühmade rolli kindlaksmääramine populatsiooni teatud tunnuste varieerumisel.

Statistikas kasutatakse variatsiooni uurimiseks spetsiaalseid meetodeid, mis põhinevad indikaatorite süsteemil, Koos mille järgi variatsiooni mõõdetakse.

Variatsiooniuuringud on olulised. Variatsioonide mõõtmine on vajalik valimivaatluse, korrelatsiooni- ja dispersioonanalüüsi jms läbiviimisel. Ermolaev O.Yu. Matemaatiline statistika psühholoogidele: õpik [tekst]/ O.Yu. Ermolajev. - M.: Moskva Psühholoogilise ja Sotsiaalse Instituudi kirjastus Flint, 2012. - 335 lk.

Variatsiooniastme järgi saab hinnata populatsiooni homogeensust, tunnuste individuaalsete väärtuste stabiilsust ja keskmise tüüpilisust. Nende põhjal töötatakse välja tunnuste omavahelise seose lähedased näitajad ja näidikud valimivaatluse täpsuse hindamiseks.

Eristatakse varieerumist ruumis ja varieerumist ajas.

Ruumi varieerumist mõistetakse kui atribuutide väärtuste kõikumist üksikuid territooriume esindavate rahvastikuüksuste vahel. Ajaline variatsioon viitab tunnuse väärtuste muutumisele erinevatel ajaperioodidel.

Jaotusridade varieerumise uurimiseks on kõik atribuutide väärtuste variandid järjestatud kasvavas või kahanevas järjekorras. Seda protsessi nimetatakse seeriate järjestamiseks.

Kõige lihtsamad varieerumise märgid on miinimum ja maksimum- atribuudi väikseim ja suurim väärtus agregaadis. Tunnuste väärtuste üksikute variantide korduste arvu nimetatakse kordussageduseks (fi). Sagedusi on mugav asendada sagedustega - wi. Sagedus on sageduse suhteline näitaja, mida saab väljendada ühiku murdosades või protsentides ja mis võimaldab võrrelda variatsiooniridu erineva arvu vaatlustega. Väljendatakse valemiga:

kus Xmax, Xmin on agregaadi karakteristiku maksimaalne ja minimaalne väärtus; n - rühmade arv.

Karakteristiku varieerumise mõõtmiseks kasutatakse erinevaid absoluutseid ja suhtelisi näitajaid. Variatsiooni absoluutnäitajad hõlmavad variatsioonivahemikku, keskmist lineaarhälvet, dispersiooni ja standardhälvet. Võnkumiste suhteliste näitajate hulka kuuluvad võnketegur, suhteline lineaarne hälve ja variatsioonikordaja.

Näide variatsiooniseeria leidmisest

Harjutus. Selle proovi jaoks:

  • a) Leia variatsiooniseeria;
  • b) konstrueerida jaotusfunktsioon;

nr=42. Näidiselemendid:

1 5 1 8 1 3 9 4 7 3 7 8 7 3 2 3 5 3 8 3 5 2 8 3 7 9 5 8 8 1 2 2 5 1 6 1 7 6 7 7 6 2

Lahendus.

  • a) järjestatud variatsioonide seeria koostamine:
    • 1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 4 5 5 5 5 5 6 6 6 7 7 7 7 7 7 7 8 8 8 8 8 8 9 9
  • b) diskreetse variatsioonirea konstrueerimine.

Arvutame Sturgessi valemi abil variatsioonirea rühmade arvu:

Võtame rühmade arvu 7.

Teades rühmade arvu, arvutame intervalli suuruse:

Tabeli koostamise mugavuse huvides võtame rühmade arvu 8, intervall on 1.

Riis. 1 Kaupluse müügimaht teatud aja jooksul

Variatsiooniseeria kontseptsioon. Statistiliste vaatlusmaterjalide süstematiseerimise esimene samm on konkreetse tunnusega ühikute arvu loendamine. Järjestades ühikud nende kvantitatiivse tunnuse kasvavas või kahanevas järjekorras ja loendades ühikute arvu tunnuse konkreetse väärtusega, saame variatsioonirea. Variatsioonirida iseloomustab teatud statistilise üldkogumi ühikute jaotust mõne kvantitatiivse tunnuse järgi.

Variatsiooniseeria koosneb kahest veerust, vasakpoolses veerus on varieeruva tunnuse väärtused, mida nimetatakse variantideks ja tähistatakse (x), ja parempoolses veerus on absoluutarvud, mis näitavad, mitu korda iga variant esineb. Selles veerus olevaid näitajaid nimetatakse sagedusteks ja need on tähistatud (f).

Variatsiooniseeriaid saab skemaatiliselt esitada tabeli 5.1 kujul:

Tabel 5.1

Variatsiooniseeria tüüp

Valikud (x)

Sagedused (f)

Parempoolses veerus saab kasutada ka suhtelisi näitajaid, mis iseloomustavad üksikute optsioonide sageduse osakaalu sageduste kogusummas. Neid suhtelisi näitajaid nimetatakse sagedusteks ja tinglikult tähistatakse , st. . Kõigi sageduste summa on võrdne ühega. Sagedusi saab väljendada ka protsentides ja siis on nende summa 100%.

Erinevad märgid võivad olla erineva iseloomuga. Mõne tunnuse variandid on väljendatud täisarvudes, näiteks tubade arv korteris, välja antud raamatute arv jne. Neid märke nimetatakse katkendlikeks või diskreetseteks. Muude tunnuste variandid võivad teatud piirides omandada mis tahes väärtused, näiteks kavandatud ülesannete täitmine, palk jne. Neid omadusi nimetatakse pidevaks.

Diskreetsed variatsiooniseeriad. Kui variatsioonirea variandid on väljendatud diskreetsete suurustena, siis nimetatakse sellist variatsioonirida diskreetseks, selle välimus on toodud tabelis. 5.2:

Tabel 5.2

Õpilaste jaotus eksamihinnete järgi

Hinnangud (x)

Õpilaste arv (f)

% kogusummast ()

Diskreetsete seeriate jaotuse olemust on kujutatud graafiliselt jaotuse hulknurga kujul, joonis 5.1.

Riis. 5.1. Õpilaste jaotus eksamil saadud hinnete järgi.

Intervallvariatsiooni seeria. Pidevate karakteristikute jaoks konstrueeritakse variatsiooniread intervallidena, st. tunnuse väärtused neis väljendatakse intervallidena "alates ja kuni". Sel juhul nimetatakse karakteristiku minimaalset väärtust sellises intervallis intervalli alumiseks piiriks ja maksimumi nimetatakse intervalli ülemiseks piiriks.

Intervallide variatsiooniread on konstrueeritud nii katkendlike (diskreetsete) kui ka suures vahemikus varieeruvate karakteristikute jaoks. Intervalliread võivad olla võrdsete või ebavõrdsete intervallidega. Majanduspraktikas kasutatakse enamikku ebavõrdseid intervalle, mis järk-järgult suurenevad või vähenevad. See vajadus tekib eelkõige juhtudel, kui tunnuse kõikumine toimub ebaühtlaselt ja suurtes piirides.

Vaatleme võrdsete intervallidega intervallide seeria tüüpi, tabelit. 5.3:

Tabel 5.3

Töötajate jaotus tootmise järgi

Väljund, t.r. (X)

Töötajate arv (f)

Kumulatiivne sagedus (f´)

Intervallide jaotusseeria on graafiliselt kujutatud histogrammi kujul, joonis 5.2.

Joon.5.2. Töötajate jaotus tootmise järgi

Kogunenud (kumulatiivne) sagedus. Praktikas on vajadus jaotusseeriad ümber kujundada kumulatiivne seeria, ehitatud vastavalt akumuleeritud sagedustele. Nende abiga saate määrata struktuursed keskmised, mis hõlbustavad jaotusridade andmete analüüsi.

Kumulatiivsed sagedused määratakse, lisades järjestikku esimese rühma sagedustele (või sagedustele) need jaotusrea järgmiste rühmade näitajad. Jaotussarjade illustreerimiseks kasutatakse kumulatsioone ja ogive. Nende koostamiseks märgitakse abstsissteljele diskreetse karakteristiku väärtused (või intervallide otsad) ja ordinaatteljele kumulatiivsed sageduste summad (kumulaadid), joonis 5.3.

Riis. 5.3. Töötajate kumulatiivne jaotus tootmise järgi

Kui sageduste ja valikute skaala on vastupidine, st. abstsisstelg peegeldab akumuleeritud sagedusi ja ordinaattelg variantide väärtusi, siis sageduste muutust rühmast rühma iseloomustavat kõverat nimetatakse jaotusmärgiks, joonis 5.4.

Riis. 5.4. Ogiva tööliste jaotusest tootmise järgi

Võrdsete intervallidega variatsiooniread annavad statistilisele jaotusridadele ühe olulisema nõude, tagades nende võrreldavuse ajas ja ruumis.

Jaotustihedus. Nimetatud seeriate üksikute ebavõrdsete intervallide sagedused ei ole aga otseselt võrreldavad. Sellistel juhtudel arvutatakse vajaliku võrreldavuse tagamiseks jaotustihedus, s.o. määrake, mitu ühikut igas rühmas on intervalli väärtuse ühiku kohta.

Ebavõrdsete intervallidega variatsiooniseeria jaotuse graafiku koostamisel määratakse ristkülikute kõrgus proportsionaalselt mitte sagedustega, vaid vastavas uuritava tunnuse väärtuste jaotuse tihedusnäitajatega. intervallidega.

Variatsioonirea koostamine ja selle graafiline esitus on esimene samm algandmete töötlemisel ja esimene etapp uuritava üldkogumi analüüsimisel. Järgmiseks sammuks variatsiooniridade analüüsimisel on määrata peamised üldnäitajad, mida nimetatakse seeria tunnusteks. Need tunnused peaksid andma aimu tunnuse keskmisest väärtusest rahvastikuüksuste vahel.

keskmine väärtus. Keskmine väärtus on uuritavas populatsioonis uuritava tunnuse üldistatud tunnus, mis peegeldab selle tüüpilist taset populatsiooniühiku kohta kindlatel koha- ja ajatingimustel.

Keskmine väärtus on alati nimega ja sellel on sama mõõde kui populatsiooni üksikute üksuste tunnusel.

Enne keskmiste väärtuste arvutamist on vaja rühmitada uuritava üldkogumi üksused, tuvastades kvalitatiivselt homogeensed rühmad.

Rahvastiku kui terviku kohta arvutatud keskmist nimetatakse üldkeskmiseks ja iga rühma kohta rühma keskmisteks.

Keskmisi on kahte tüüpi: võimsus (aritmeetiline keskmine, harmooniline keskmine, geomeetriline keskmine, ruutkeskmine); struktuurne (režiim, mediaan, kvartiilid, detsiilid).

Arvutamise keskmise valik sõltub eesmärgist.

Keskmiste võimsuste tüübid ja nende arvutamise meetodid. Kogutud materjali statistilise töötlemise praktikas kerkivad esile erinevad probleemid, mille lahendamiseks on vaja erinevaid keskmisi.

Matemaatiline statistika tuletab võimsuse keskmise valemitest erinevaid keskmisi:

kus on keskmine väärtus; x – individuaalsed valikud (funktsiooni väärtused); z – astendaja (millega z = 1 – aritmeetiline keskmine, z = 0 geomeetriline keskmine, z = -1 – harmooniline keskmine, z = 2 – ruutkeskmine).

Küsimus, millist tüüpi keskmist tuleks igal üksikjuhul rakendada, lahendatakse aga uuritava populatsiooni spetsiifilise analüüsi kaudu.

Statistikas levinuim keskmise tüüp on aritmeetiline keskmine. See arvutatakse juhtudel, kui keskmistatud tunnuse maht moodustatakse uuritava statistilise üldkogumi üksikute üksuste väärtuste summana.

Sõltuvalt lähteandmete olemusest määratakse aritmeetiline keskmine mitmel viisil:

Kui andmed on rühmitamata, tehakse arvutus lihtsa keskmise valemi abil

Aritmeetilise keskmise arvutamine diskreetses reas toimub valemi 3.4 järgi.

Aritmeetilise keskmise arvutamine intervallreas. Intervalli variatsioonireas, kus iga rühma tunnuse väärtuseks võetakse tinglikult intervalli keskpunkt, võib aritmeetiline keskmine erineda rühmitamata andmete põhjal arvutatud keskmisest. Veelgi enam, mida suurem on intervall rühmades, seda suuremad on grupeeritud andmete põhjal arvutatud keskmise võimalikud kõrvalekalded rühmitamata andmete põhjal arvutatud keskmisest.

Intervalli variatsioonirea keskmise arvutamisel liigutakse vajalike arvutuste tegemiseks intervallidelt nende keskpunktidesse. Ja siis arvutatakse keskmine kaalutud aritmeetilise keskmise valemi abil.

Aritmeetilise keskmise omadused. Aritmeetilisel keskmisel on mõned omadused, mis võimaldavad arvutusi lihtsustada; vaatleme neid.

1. Konstantsete arvude aritmeetiline keskmine on võrdne selle konstantse arvuga.

Kui x = a. Siis .

2. Kui muudetakse proportsionaalselt kõikide optsioonide kaalusid, s.t. sama palju kordi suurendada või vähendada, siis uue rea aritmeetiline keskmine ei muutu.

Kui kõiki raskusi f vähendada k korda, siis .

3. Üksikute optsioonide positiivsete ja negatiivsete kõrvalekallete summa keskmisest, korrutatuna kaaludega, võrdub nulliga, s.o.

Kui siis. Siit.

Kui kõiki võimalusi vähendada või suurendada mis tahes arvu võrra, siis uue seeria aritmeetiline keskmine väheneb või suureneb sama palju.

Vähendame kõiki võimalusi x peal a, st. x´ = xa.

Siis

Algseeria aritmeetilise keskmise saab, kui liita vähendatud keskmisele arv, mis on eelnevalt valikutest lahutatud a, st. .

5. Kui kõiki valikuid vähendatakse või suurendatakse k korda, siis uue rea aritmeetiline keskmine väheneb või suureneb sama palju, s.o. V küks kord.

Las siis olla .

Seega, s.t. algse seeria keskmise saamiseks tuleb uute seeriate (vähendatud valikutega) aritmeetilist keskmist suurendada küks kord.

Harmooniline keskmine. Harmooniline keskmine on aritmeetilise keskmise pöördväärtus. Seda kasutatakse juhul, kui statistiline teave ei sisalda populatsiooni üksikute variantide sagedusi, vaid esitatakse nende korrutisena (M = xf). Harmooniline keskmine arvutatakse valemi 3.5 abil

Harmoonilise keskmise praktiline rakendus on mõne indeksi, eelkõige hinnaindeksi arvutamine.

Geomeetriline keskmine. Geomeetrilise keskmise kasutamisel on tunnuse individuaalsed väärtused reeglina dünaamika suhtelised väärtused, mis on konstrueeritud ahelväärtuste kujul, suhtena dünaamikaseeria iga taseme eelmise tasemega. Keskmine iseloomustab seega keskmist kasvutempot.

Geomeetrilist keskmist väärtust kasutatakse ka tunnuse maksimaalsest ja minimaalsest väärtusest võrdse kauguse määramiseks. Näiteks kindlustusselts sõlmib lepinguid autokindlustusteenuste osutamiseks. Olenevalt konkreetsest kindlustusjuhtumist võib kindlustusmakse ulatuda 10 000-100 000 dollarini aastas. Keskmine kindlustusmaksete summa on USD.

Geomeetriline keskmine on suurus, mida kasutatakse suhete keskmisena või jaotusridades, mis esitatakse geomeetrilise progressiooni kujul, kui z = 0. Seda keskmist on mugav kasutada, kui tähelepanu ei pöörata absoluutsetele erinevustele, vaid kahe suhtarvudele. numbrid.

Arvutamise valemid on järgmised

kus on keskmistatava tunnuse variandid; – optsioonide toode; f– valikute sagedus.

Geomeetrilist keskmist kasutatakse keskmiste aastakasvumäärade arvutamisel.

Keskmine ruut. Keskmise ruudu valemit kasutatakse tunnuse individuaalsete väärtuste kõikumise määra mõõtmiseks jaotusrea aritmeetilise keskmise ümber. Seega arvutatakse variatsiooninäitajate arvutamisel keskmine tunnuse üksikute väärtuste ruutude kõrvalekalletest aritmeetilisest keskmisest.

Ruutkeskmine väärtus arvutatakse valemi abil

Majandusuuringutes kasutatakse modifitseeritud keskmist ruutu laialdaselt karakteristiku variatsiooninäitajate, nagu dispersioon ja standardhälve, arvutamisel.

Enamuse reegel. Võimsuse keskmiste vahel on järgmine seos – mida suurem on eksponent, seda suurem on keskmise väärtus, Tabel 5.4:

Tabel 5.4

Keskmiste vaheline seos

z väärtus

Keskmiste vaheline seos

Seda suhet nimetatakse majoratsioonireegliks.

Struktuursed keskmised. Rahvastiku struktuuri iseloomustamiseks kasutatakse erinäitajaid, mida võib nimetada struktuurseteks keskmisteks. Need näitajad hõlmavad režiimi, mediaani, kvartiile ja detsiile.

Mood. Mood (Mo) on tunnuse kõige sagedamini esinev väärtus populatsiooniüksuste hulgas. Režiim on atribuudi väärtus, mis vastab teoreetilise jaotuskõvera maksimumpunktile.

Moodi kasutatakse laialdaselt kaubanduspraktikas tarbijanõudluse uurimisel (laialt nõutavate rõivaste ja jalanõude suuruste määramisel) ning hindade registreerimisel. Modifikatsioone võib kokku olla mitu.

Režiimi arvutamine diskreetses jadas. Diskreetses seerias on režiim kõrgeima sagedusega variant. Kaaluge režiimi leidmist diskreetses seerias.

Režiimi arvutamine intervallreas. Intervalli variatsioonireas loetakse režiimi ligikaudu modaalintervalli keskseks variandiks, s.o. intervall, millel on kõrgeim sagedus (sagedus). Intervalli sees peate leidma režiimiks oleva atribuudi väärtuse. Intervallsarja puhul määratakse režiim valemiga

kus on modaalintervalli alumine piir; – modaalintervalli väärtus; – modaalintervallile vastav sagedus; – modaalintervallile eelnev sagedus; – modaalsele intervallile järgneva intervalli sagedus.

Mediaan. Mediaan () on järjestatud seeria keskmise üksuse atribuudi väärtus. Järjestatud seeria on seeria, mille atribuutide väärtused on kirjutatud kasvavas või kahanevas järjekorras. Või mediaan on väärtus, mis jagab järjestatud variatsiooniseeriate arvu kaheks võrdseks osaks: ühel osal on muutuva karakteristiku väärtus, mis on väiksem kui keskmine valik, ja teisel on väärtus, mis on suurem.

Mediaani leidmiseks määrake esmalt selle järgarv. Selleks, kui ühikute arv on paaritu, liidetakse kõigi sageduste summale üks ja kõik jagatakse kahega. Paarisarvu ühikute korral leitakse mediaan ühiku atribuudi väärtusena, mille järjekorranumber määratakse sageduste kogusumma jagamisel kahega. Teades mediaani seerianumbrit, on selle väärtust lihtne leida akumuleeritud sageduste abil.

Mediaani arvutamine diskreetses reas. Valimiküsitluse kohaselt saadi andmed perede jaotuse kohta laste arvu järgi, tabel. 5.5. Mediaani määramiseks määrame esmalt selle järjekorranumbri

Nendes peredes võrdub laste arv 2, seega = 2. Seega 50% peredest ei ületa laste arv 2.

– mediaanintervallile eelnev akumuleeritud sagedus;

Ühest küljest on see väga positiivne omadus, sest sel juhul võetakse arvesse kõigi uuritava populatsiooni kõiki üksusi mõjutavate põhjuste mõju. Teisest küljest võib isegi üks juhuslikult lähteandmetesse lisatud vaatlus oluliselt moonutada ettekujutust uuritava tunnuse arengutasemest vaatlusaluses populatsioonis (eriti lühikestes seeriates).

Kvartiilid ja detsiilid. Analoogiliselt variatsioonirea mediaani leidmisega saate leida tunnuse väärtuse järjestatud seeria mis tahes ühiku jaoks. Nii et eriti leiate atribuudi väärtuse ühikute jaoks, mis jagavad seeria neljaks võrdseks osaks, 10-ks jne.

Kvartiilid. Valikuid, mis jagavad järjestatud seeria neljaks võrdseks osaks, nimetatakse kvartiilideks.

Sel juhul eristavad nad: alumist (või esimest) kvartiili (Q1) - järjestatud seeria ühiku atribuudi väärtust, jagades populatsiooni suhtega ¼ kuni ¾ ja ülemist (või kolmandat) kvartiili ( Q3) - järjestatud seeria ühiku atribuudi väärtus, jagades üldkogumi suhtega ¾ kuni ¼.

- kvartiilintervallide sagedused (alumine ja ülemine)

Q1 ja Q3 sisaldavad intervallid määratakse akumuleeritud sageduste (või sageduste) järgi.

Detsiilid. Lisaks kvartiilidele arvutatakse detsiile – valikud, mis jagavad järjestatud seeria 10 võrdseks osaks.

Neid tähistab D, esimene detsiil D1 jagab seeria suhtega 1/10 ja 9/10, teine ​​D2 - 2/10 ja 8/10 jne. Need arvutatakse sama skeemi järgi nagu mediaan ja kvartiilid.

Nii mediaan, kvartiilid kui ka detsiilid kuuluvad nn järgstatistikasse, mida mõistetakse kui võimalust, mis hõivab pingereas kindla järgukoha.

Rühmitamise meetod võimaldab ka mõõta variatsioon märkide (muutuvus, kõikumine). Kui üksuste arv populatsioonis on suhteliselt väike, mõõdetakse varieeruvust populatsiooni moodustavate üksuste järjestatud arvu alusel. Sari on nn järjestatud, kui ühikud on järjestatud tunnuse kasvavas (kahanevas) järjekorras.

Siiski on järjestatud seeriad üsna soovituslikud, kui on vaja variatsiooni võrdlevat tunnust. Lisaks tuleb paljudel juhtudel tegemist teha suurest hulgast ühikutest koosnevate statistiliste üldkogumitega, mida konkreetse rea kujul on praktiliselt raske esitada. Sellega seoses ühendatakse statistiliste andmetega esmaseks üldiseks tutvumiseks ja eelkõige tunnuste varieerumise uurimise hõlbustamiseks uuritavad nähtused ja protsessid tavaliselt rühmadesse ning rühmitamise tulemused esitatakse rühmatabelite kujul.

Kui rühmatabelis on ainult kaks veergu – rühmad valitud tunnuse (valikud) ja rühmade arvu (sagedus või sagedus) järgi, nimetatakse seda nn. levitamise lähedal.

Jaotuspiirkond - lihtsaim ühel tunnusel põhinev struktuurne rühmitamise tüüp, mis kuvatakse kahe veeruga rühmatabelis, mis sisaldab tunnuse variante ja sagedusi. Paljudel juhtudel sellise struktuurilise rühmitusega, s.o. Jaotusridade koostamisega algab esialgse statistilise materjali uurimine.

Jaotusrea kujul oleva struktuurse rühmituse saab muuta ehtsaks struktuurseks rühmituseks, kui valitud rühmi iseloomustavad mitte ainult sagedused, vaid ka muud statistilised näitajad. Jaotussarjade põhieesmärk on uurida omaduste varieerumist. Jaotusridade teooriat arendab üksikasjalikult matemaatiline statistika.

Jaotussarjad jagunevad atribuutne(rühmitamine atributiivsete tunnuste järgi, näiteks elanikkonna jagamine soo, rahvuse, perekonnaseisu jne järgi) ja variatsiooniline(rühmitamine kvantitatiivsete tunnuste järgi).

Variatsiooniseeria on rühmatabel, mis sisaldab kahte veergu: ühikute rühmitamine ühe kvantitatiivse tunnuse ja ühikute arvu järgi igas rühmas. Variatsiooniridade intervallid moodustatakse tavaliselt võrdselt ja suletud. Variatsioonirea on järgmine Venemaa elanikkonna rühmitus keskmise rahalise sissetuleku järgi elaniku kohta (tabel 3.10).

Tabel 3.10

Venemaa rahvastiku jaotus keskmise sissetuleku järgi elaniku kohta aastatel 2004-2009.

Rahvastikurühmad keskmise sularahasissetuleku järgi elaniku kohta, rubla/kuus

Rahvaarv rühmas, % koguarvust

8 000,1-10 000,0

10 000,1-15 000,0

15 000,1-25 000,0

Üle 25 000,0

Kogu elanikkond

Variatsioonisarjad jagunevad omakorda diskreetseteks ja intervallideks. Diskreetne variatsiooniseeriad ühendavad diskreetsete omaduste variante, mis varieeruvad kitsastes piirides. Diskreetse variatsioonirea näide on vene perede jaotus nende laste arvu järgi.

Intervall variatsiooniseeriad ühendavad kas pidevate või diskreetsete karakteristikute variante, mis varieeruvad laias vahemikus. Intervall on Venemaa elanikkonna jaotuse variatsioonirida keskmise rahalise sissetuleku järgi elaniku kohta.

Diskreetseid variatsiooniseeriaid praktikas väga sageli ei kasutata. Samas pole nende koostamine keeruline, kuna rühmade koosseisu määravad konkreetsed variandid, mis uuritavatel rühmitustunnustel tegelikult on.

Intervallide variatsiooni seeriad on laiemalt levinud. Nende koostamisel tekib keeruline küsimus nii rühmade arvu kui ka kehtestatavate intervallide suuruse kohta.

Selle probleemi lahendamise põhimõtted on toodud statistiliste rühmituste koostamise metoodika peatükis (vt punkt 3.3).

Variatsiooniread on vahend mitmekesise teabe kompaktsesse vormi alandamiseks või kokkusurumiseks, nende põhjal saab teha üsna selge hinnangu variatsiooni olemuse kohta ning uurida uuritavasse kogumi kuuluvate nähtuste omaduste erinevusi. Variatsiooniridade kõige olulisem tähendus on aga see, et nende põhjal arvutatakse välja variatsiooni üldistavad erikarakteristikud (vt ptk 7).

Eriline koht statistilises analüüsis on uuritava tunnuse või nähtuse keskmise taseme määramisel. Tunnuse keskmist taset mõõdetakse keskmiste väärtustega.

Keskmine väärtus iseloomustab uuritava tunnuse üldist kvantitatiivset taset ja on statistilise üldkogumi grupiomadus. See ühtlustab, nõrgendab üksikute vaatluste juhuslikke kõrvalekaldeid ühes või teises suunas ja tõstab esile uuritava tunnuse peamise, tüüpilise omaduse.

Keskmisi kasutatakse laialdaselt:

1. Elanikkonna tervisliku seisundi hindamine: kehalise arengu tunnused (pikkus, kaal, rinnaümbermõõt jne), erinevate haiguste levimuse ja kestuse väljaselgitamine, demograafiliste näitajate analüüsimine (rahvastiku eluline liikumine, keskmine eluiga, rahvastiku eluiga). rahvastiku taastootmine, keskmine rahvaarv jne).

2. Uurida raviasutuste, meditsiinipersonali tegevust ja hinnata nende töö kvaliteeti, planeerida ja selgitada välja elanikkonna vajadus erinevate arstiabiliikide järele (keskmine pöördumiste või visiitide arv elaniku kohta aastas, arstiabi keskmine viibimisaeg). patsient haiglas, keskmine läbivaatuse kestus, keskmine arstide kättesaadavus, voodikohad jne).

3. Iseloomustada sanitaar-epidemioloogilist seisundit (töökoja keskmine õhutolmu sisaldus, keskmine pindala inimese kohta, keskmine valkude, rasvade ja süsivesikute tarbimine jne).

4. Määrata meditsiinilised ja füsioloogilised näitajad normaalsetes ja patoloogilistes tingimustes, laboratoorsete andmete töötlemisel, et teha kindlaks näidisuuringu tulemuste usaldusväärsus sotsiaalsetes, hügieenilistes, kliinilistes ja eksperimentaalsetes uuringutes.

Keskmiste väärtuste arvutamine toimub variatsiooniseeriate alusel. Variatsiooniseeria on kvalitatiivselt homogeenne statistiline kogum, mille üksikühikud iseloomustavad uuritava tunnuse või nähtuse kvantitatiivseid erinevusi.

Kvantitatiivne varieeruvus võib olla kahte tüüpi: katkendlik (diskreetne) ja pidev.

Katkendlikku (diskreetset) atribuuti väljendatakse ainult täisarvuna ja sellel ei tohi olla vahepealseid väärtusi (näiteks külastuste arv, saidi elanikkond, laste arv perekonnas, haiguse tõsidus punktides , jne.).

Pidev märk võib teatud piirides võtta mis tahes väärtusi, sealhulgas murdosa, ja seda väljendatakse ainult ligikaudselt (näiteks kaal - täiskasvanutel võib see piirduda kilogrammiga ja vastsündinutel - grammidega; pikkus, vererõhk, aeg kulutanud patsiendi vastuvõtule jne).



Iga variatsioonireas sisalduva üksiku tunnuse või nähtuse digitaalset väärtust nimetatakse variandiks ja seda tähistatakse tähega V . Ka muid tähistusi leidub näiteks matemaatikakirjanduses x või y.

Variatsiooniseeriat, kus iga valik on näidatud üks kord, nimetatakse lihtsaks. Selliseid seeriaid kasutatakse arvutiandmete töötlemisel enamikes statistikaülesannetes.

Kui vaatluste arv suureneb, kipuvad korduma variantide väärtused. Sel juhul luuakse see rühmitatud variatsiooniseeriad, kus on näidatud korduste arv (sagedus, tähistatud tähega " R »).

Järjestatud variatsiooniseeriad koosneb kasvavas või kahanevas järjekorras järjestatud valikutest. Pingeridaga saab koostada nii lihtsaid kui grupeeritud seeriaid.

Intervallide variatsiooni seeria koostatud selleks, et lihtsustada järgnevaid arvutusi, mis tehakse ilma arvutit kasutamata, väga suure hulga vaatlusühikutega (üle 1000).

Pidev variatsiooniseeria sisaldab valiku väärtusi, mis võivad olla mis tahes väärtused.

Kui variatsioonireas on tunnuse (variantide) väärtused antud üksikute konkreetsete numbrite kujul, siis sellist seeriat nimetatakse diskreetne.

Variatsioonireas kajastatud karakteristiku väärtuste üldomadused on keskmised väärtused. Nende hulgas on enim kasutatud: aritmeetiline keskmine M, mood Mo ja mediaan Mina. Kõik need omadused on ainulaadsed. Nad ei saa üksteist asendada ja ainult koos esindavad nad variatsioonisarja tunnuseid üsna täielikult ja kokkusurutult.

Mood (Mo) nimetage kõige sagedamini esinevate valikute väärtus.

Mediaan (mina) – see on optsiooni väärtus, mis jagab järjestatud variatsioonirea pooleks (mõlemal pool mediaani on pool optsioonist). Harvadel juhtudel, kui on olemas sümmeetriline variatsioonirea, on mood ja mediaan üksteisega võrdsed ja langevad kokku aritmeetilise keskmise väärtusega.

Optsiooni väärtuste kõige tüüpilisem omadus on aritmeetiline keskmine väärtus( M ). Matemaatilises kirjanduses on see tähistatud .

Aritmeetiline keskmine (M, ) on uuritavate nähtuste teatud tunnuse üldine kvantitatiivne tunnus, mis moodustab kvalitatiivselt homogeense statistilise üldkogumi. Seal on lihtsad ja kaalutud aritmeetilised keskmised. Lihtne aritmeetiline keskmine arvutatakse lihtsa variatsioonirea jaoks, liites kõik valikud ja jagades selle summa selles variatsioonireas sisalduvate valikute koguarvuga. Arvutused tehakse järgmise valemi järgi:

,

Kus: M - lihtaritmeetiline keskmine;

Σ V - summa valik;

n- vaatluste arv.

Rühmitatud variatsioonireas määratakse kaalutud aritmeetiline keskmine. Selle arvutamise valem:

,

Kus: M - aritmeetiline kaalutud keskmine;

Σ Vp - variandi korrutiste summa nende sageduste järgi;

n- vaatluste arv.

Suure hulga vaatluste korral saab käsitsi arvutamise korral kasutada momentide meetodit.

Aritmeetilisel keskmisel on järgmised omadused:

· keskmisest kõrvalekallete summa ( Σ d ) on võrdne nulliga (vt tabel 15);

· kõigi võimaluste korrutamisel (jagamisel) sama teguriga (jagajaga) korrutatakse (jagatakse) aritmeetiline keskmine sama teguriga (jagajaga);

· kui lisada (lahutada) kõikidele valikutele sama arv, suureneb (väheneb) aritmeetiline keskmine sama arvu võrra.

Aritmeetilised keskmised, mis on võetud iseenesest, võtmata arvesse nende jadade varieeruvust, millest need arvutati, ei pruugi täielikult kajastada variatsiooniridade omadusi, eriti kui on vaja võrrelda teiste keskmistega. Väärtustelt lähedased keskmised saab saada erineva hajuvusastmega seeriatest. Mida lähemal on üksikud võimalused üksteisele oma kvantitatiivsete omaduste poolest, seda vähem dispersioon (võnkumine, varieeruvus) seeria, seda tüüpilisem on selle keskmine.

Peamised parameetrid, mis võimaldavad meil hinnata tunnuse varieeruvust, on järgmised:

· Ulatus;

· Amplituud;

· Standardhälve;

· Variatsioonikoefitsient.

Tunnuse varieeruvust saab ligikaudselt hinnata variatsiooniseeria ulatuse ja amplituudi järgi. Vahemik näitab seeria maksimaalseid (V max) ja minimaalseid (V min) valikuid. Amplituud (A m) on nende valikute erinevus: A m = V max - V min.

Variatsioonirea varieeruvuse peamine üldtunnustatud mõõt on dispersioon (D ). Kuid kõige sagedamini kasutatakse mugavamat parameetrit, mis arvutatakse dispersiooni alusel - standardhälve ( σ ). See võtab arvesse kõrvalekalde suurust ( d ) iga variatsioonirea aritmeetilisest keskmisest ( d = V - M ).

Kuna kõrvalekalded keskmisest võivad olla positiivsed ja negatiivsed, annavad need summeerimisel väärtuse "0" (S d=0). Selle vältimiseks tuleb hälbe väärtused ( d) tõstetakse teise astmeni ja keskmistatakse. Seega on variatsioonirea dispersioon variandi aritmeetilisest keskmisest kõrvalekallete keskmine ruut ja see arvutatakse järgmise valemiga:

.

See on varieeruvuse kõige olulisem tunnus ja seda kasutatakse paljude statistiliste kriteeriumide arvutamiseks.

Kuna dispersiooni väljendatakse hälvete ruuduna, ei saa selle väärtust aritmeetilise keskmisega võrreldes kasutada. Nendel eesmärkidel kasutatakse seda standardhälve, mis on tähistatud märgiga "Sigma" ( σ ). See iseloomustab variatsioonirea kõigi variantide keskmist hälvet aritmeetilisest keskmisest väärtusest samades ühikutes kui keskmine väärtus ise, nii et neid saab kasutada koos.

Standardhälve määratakse järgmise valemiga:

Määratud valemit rakendatakse, kui vaatluste arv ( n ) rohkem kui 30. Väiksema arvuga n standardhälbe väärtusel on matemaatilise nihkega seotud viga ( n - 1). Sellega seoses saab täpsema tulemuse saada, kui võtta arvesse sellist kõrvalekallet standardhälbe arvutamise valemis:

standardhälve (s ) on juhusliku suuruse standardhälbe hinnang X võrreldes selle matemaatilise ootusega, mis põhineb selle dispersiooni erapooletul hinnangul.

Väärtustega n > 30 standardhälve ( σ ) ja standardhälve ( s ) on sama ( σ =s ). Seetõttu peetakse enamikus praktilistes käsiraamatutes nendel kriteeriumidel erinevat tähendust. Excelis saab standardhälbe arvutada funktsiooni =STDEV(vahemik) abil. Ja standardhälbe arvutamiseks peate looma sobiva valemi.

Keskmine ruut või standardhälve võimaldab teil määrata, kui palju karakteristiku väärtused võivad keskmisest väärtusest erineda. Oletame, et suvel on kaks linna, mille keskmine ööpäevane temperatuur on sama. Üks neist linnadest asub rannikul ja teine ​​mandril. Teada on, et rannikul asuvates linnades on päevased temperatuuride erinevused väiksemad kui sisemaal asuvates linnades. Seetõttu on rannikulinna päevatemperatuuride standardhälve väiksem kui teise linna puhul. Praktikas tähendab see, et mandril asuvas linnas erineb iga konkreetse päeva keskmine õhutemperatuur keskmisest rohkem kui rannikul asuvas linnas. Lisaks võimaldab standardhälve hinnata võimalikke temperatuurihälbeid keskmisest vajaliku tõenäosuse tasemega.

Tõenäosusteooria kohaselt on normaaljaotuse seadusele alluvates nähtustes range seos aritmeetilise keskmise, standardhälbe ja optsioonide vahel ( kolme sigma reegel). Näiteks 68,3% muutuva karakteristiku väärtustest on vahemikus M ± 1 σ , 95,5% – M ± 2 piires σ ja 99,7% - M ± 3 piires σ .

Standardhälbe väärtus võimaldab hinnata variatsioonirea ja uuringurühma homogeensuse olemust. Kui standardhälbe väärtus on väike, näitab see uuritava nähtuse üsna suurt homogeensust. Aritmeetilist keskmist tuleks sel juhul pidada antud variatsioonirea jaoks üsna iseloomulikuks. Liiga väike sigma väärtus paneb aga mõtlema kunstlikule vaatluste valikule. Väga suure sigma korral iseloomustab aritmeetiline keskmine variatsioonirida vähemal määral, mis näitab uuritava tunnuse või nähtuse olulist varieeruvust või uuritava rühma heterogeensust. Standardhälbe väärtuse võrdlemine on aga võimalik ainult sama mõõtmega tunnuste puhul. Tõepoolest, kui võrrelda vastsündinud laste ja täiskasvanute kaalude mitmekesisust, saame täiskasvanutel alati kõrgemad sigma väärtused.

Erinevate mõõtmetega tunnuste varieeruvuse võrdlust saab teha kasutades variatsioonikoefitsient. See väljendab mitmekesisust protsendina keskmisest, võimaldades võrrelda erinevaid tunnuseid. Meditsiinilises kirjanduses on variatsioonikoefitsient tähistatud märgiga " KOOS "ja matemaatilises" v"ja arvutatakse järgmise valemiga:

.

Variatsioonikoefitsiendi väärtused alla 10% näitavad väikest hajumist, 10–20% - umbes keskmine, üle 20% - tugevat hajumist aritmeetilise keskmise ümber.

Aritmeetiline keskmine arvutatakse tavaliselt valimipopulatsiooni andmete põhjal. Korduvate uuringute korral võib juhuslike nähtuste mõjul aritmeetiline keskmine muutuda. See on tingitud asjaolust, et reeglina uuritakse ainult osa võimalikest vaatlusühikutest ehk valimipopulatsiooni. Teavet kõigi võimalike uuritavat nähtust esindavate üksuste kohta saab kogu populatsiooni uurides, mis ei ole alati võimalik. Samas pakub katseandmete üldistamise eesmärgil huvi üldkogumi keskmise väärtus. Seetõttu tuleb uuritava nähtuse kohta üldise järelduse formuleerimiseks statistiliste meetodite abil valimikogumi põhjal saadud tulemused üle kanda üldkogumisse.

Valimiuuringu ja üldkogumi vahelise kokkulangevuse määra kindlaksmääramiseks on vaja hinnata valimi vaatluse käigus paratamatult tekkiva vea suurust. Seda viga nimetatakse " Esinduslikkuse viga"või "Aritmeetilise keskmise keskmine viga." See on tegelikult erinevus selektiivsel statistilisel vaatlusel saadud keskmiste ja sarnaste väärtuste vahel, mis saadakse sama objekti pideval uurimisel, st. üldpopulatsiooni uurimisel. Kuna valimi keskmine on juhuslik suurus, tehakse selline prognoos uurijale vastuvõetava tõenäosuse tasemega. Meditsiinilistes uuringutes on see vähemalt 95%.

Esindusviga ei saa segi ajada registreerimisvigade või tähelepanuvigadega (libisemised, valearvestused, kirjavead jne), mida tuleks minimeerida katse käigus kasutatavate adekvaatsete meetodite ja vahenditega.

Esindusvea suurus sõltub nii valimi suurusest kui ka tunnuse varieeruvusest. Mida suurem on vaatluste arv, seda lähemal on valim üldkogumile ja seda väiksem on viga. Mida muutuvam on märk, seda suurem on statistiline viga.

Praktikas kasutatakse variatsiooniridade representatiivsusvea määramiseks järgmist valemit:

,

Kus: m – esindusviga;

σ – standardhälve;

n– vaatluste arv valimis.

Valem näitab, et keskmise vea suurus on otseselt võrdeline standardhälbega, st uuritava tunnuse muutlikkusega, ja pöördvõrdeline vaatluste arvu ruutjuurega.

Suhteliste väärtuste arvutamisel põhineva statistilise analüüsi tegemisel ei ole variatsioonirea koostamine vajalik. Sel juhul saab suhteliste näitajate keskmise vea määrata lihtsustatud valemi abil:

,

Kus: R– suhtelise näitaja väärtus, väljendatuna protsentides, ppm jne;

q– P pöördväärtus ja väljendatuna (1-P), (100-P), (1000-P) jne, olenevalt näitaja arvutamise alusest;

n– vaatluste arv valimikogumis.

Suhteliste väärtuste representatiivsusvea arvutamise määratud valemit saab siiski rakendada ainult siis, kui indikaatori väärtus on selle baasist väiksem. Paljudel intensiivsete näitajate arvutamise juhtudel ei ole see tingimus täidetud ja näitajat võib väljendada arvuna, mis on suurem kui 100% või 1000%. Sellises olukorras koostatakse variatsiooniseeria ja esindusviga arvutatakse standardhälbe alusel keskmiste väärtuste valemi abil.

Populatsiooni aritmeetilise keskmise väärtuse prognoosimine toimub kahe väärtuse – miinimumi ja maksimumi – märkimisega. Neid võimalike kõrvalekallete äärmuslikke väärtusi, mille piires võib populatsiooni soovitud keskmine väärtus kõikuda, nimetatakse " Usalduse piirid».

Tõenäosusteooria postulaadid on tõestanud, et tunnuse normaaljaotuse korral tõenäosusega 99,7% ei ole keskmise hälvete äärmuslikud väärtused suuremad kui esindusvea kolmekordne väärtus ( M ± 3 m ); 95,5% - mitte rohkem kui kahekordne keskmise väärtuse keskmine viga ( M ± 2 m ); 68,3% - mitte rohkem kui üks keskmine viga ( M ± 1 m ) (joonis 9).

P%

Riis. 9. Normaaljaotuse tõenäosustihedus.

Pange tähele, et ülaltoodud väide kehtib ainult tunnuse kohta, mis järgib Gaussi tavalist jaotusseadust.

Enamik eksperimentaalseid uuringuid, sealhulgas meditsiinivaldkonnas, on seotud mõõtmistega, mille tulemused võivad antud intervallis omandada peaaegu igasuguse väärtuse, seetõttu kirjeldatakse neid reeglina pidevate juhuslike muutujate mudeliga. Sellega seoses arvestab enamik statistilisi meetodeid pideva jaotusega. Üks selline jaotus, millel on matemaatilises statistikas põhiroll, on normaaljaotus ehk Gaussi jaotus.

See on tingitud mitmest põhjusest.

1. Esiteks saab normaaljaotuse abil edukalt kirjeldada paljusid eksperimentaalseid vaatlusi. Tuleb kohe märkida, et empiiriliste andmete jaotusi, mis oleksid täpselt normaalsed, pole olemas, kuna normaalse jaotusega juhuslik suurus on vahemikus kuni , mida praktikas kunagi ei kohta. Normaaljaotus töötab aga väga sageli lähendusena.

Olenemata sellest, kas mõõdetakse inimkeha kaalu, pikkust ja muid füsioloogilisi parameetreid, mõjutab tulemusi alati väga suur hulk juhuslikke tegureid (looduslikud põhjused ja mõõtmisvead). Pealegi on reeglina kõigi nende tegurite mõju tähtsusetu. Kogemused näitavad, et sellistel juhtudel jaotuvad tulemused ligikaudu normaalselt.

2. Paljud juhusliku valimiga seotud jaotused muutuvad normaalseks, kui viimase maht suureneb.

3. Normaaljaotus sobib hästi teiste pidevjaotuste (näiteks kallutatud) lähendamiseks.

4. Normaaljaotusel on mitmeid soodsaid matemaatilisi omadusi, mis suures osas tagavad selle laialdase kasutamise statistikas.

Samas tuleb märkida, et meditsiinilistes andmetes on palju eksperimentaalseid jaotusi, mida ei saa kirjeldada normaaljaotuse mudeliga. Selleks on statistika välja töötanud meetodid, mida tavaliselt nimetatakse "mitteparameetrilisteks".

Konkreetse katse andmete töötlemiseks sobiva statistilise meetodi valik tuleks teha sõltuvalt sellest, kas saadud andmed kuuluvad normaaljaotuse seadusesse. Märgi normaaljaotuse seadusele alluvuse hüpoteesi testimine viiakse läbi sagedusjaotuse histogrammi (graafiku) ja mitmete statistiliste kriteeriumide abil. Nende hulgas:

Asümmeetria kriteerium ( b );

Kurtoosi testimise kriteerium ( g );

Shapiro-Wilksi test ( W ) .

Iga parameetri puhul viiakse läbi andmete jaotuse olemuse analüüs (nimetatakse ka jaotuse normaalsuse testiks). Et kindlalt hinnata, kas parameetri jaotus vastab normaalseadusele, on vaja piisavalt palju vaatlusühikuid (vähemalt 30 väärtust).

Normaaljaotuse korral saavad kaldsuse ja kurtoosi kriteeriumid väärtuse 0. Kui jaotust nihutatakse paremale b > 0 (positiivne asümmeetria), koos b < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормального закона g =0. Kell g > 0 jaotuskõver on teravam, kui g < 0 пик более сглаженный, чем функция нормального распределения.

Normaalsuse kontrollimiseks Shapiro-Wilksi kriteeriumi abil on vaja statistiliste tabelite abil leida selle kriteeriumi väärtus vajalikul olulisuse tasemel ja sõltuvalt vaatlusühikute (vabadusastmete) arvust. Lisa 1. Normaalsuse hüpotees lükatakse tagasi selle kriteeriumi väikeste väärtuste korral reeglina w <0,8.