Variatsioonisarjade tüübid. V

Nimetagem erinevaid näidisväärtusi valikuid väärtuste jada ja tähistada: X 1 , X 2,…. Esiteks toodame ulatus valikud, s.t. nende paigutus kasvavas või kahanevas järjekorras. Iga variandi puhul on märgitud tema enda kaal, s.t. arv, mis iseloomustab antud optsiooni panust kogu elanikkonnas. Sagedused või sagedused toimivad kaaludena.

Sagedus n i valik x i on arv, mis näitab, mitu korda antud valik vaadeldavas valimikogumis esineb.

Sagedus või suhteline sagedus w i valik x i on arv, mis võrdub variandi sageduse ja kõigi variantide sageduste summa suhtega. Sagedus näitab, millisel osal üksustest valimipopulatsioonis on antud variant.

Valikute jada koos neile vastavate kaaludega (sagedused või sagedused), mis on kirjutatud kasvavas (või kahanevas) järjekorras, nimetatakse variatsiooni seeria.

Variatsiooniseeriad on diskreetsed ja intervalliga.

Diskreetse variatsiooniseeria jaoks määratakse karakteristiku punktväärtused, intervallide seeria jaoks määratakse karakteristikud intervallidena. Variatsiooniread võivad näidata sageduste või suhteliste sageduste (sageduste) jaotust, olenevalt sellest, milline väärtus on iga valiku jaoks näidatud - sagedus või sagedus.

Sagedusjaotuse diskreetne variatsioonirea on kujul:

Sagedused leitakse valemiga i = 1, 2, …, m.

w 1 +w 2 + … + w m = 1.

Näide 4.1. Antud arvude komplekti jaoks

4, 6, 6, 3, 4, 9, 6, 4, 6, 6

konstrueerida sageduse ja sagedusjaotuste diskreetsed variatsiooniread.

Lahendus . Rahvastiku maht on võrdne n= 10. Diskreetse sagedusjaotuse jada on kujul

Intervallsarjadel on sarnane salvestusvorm.

Sagedusjaotuse intervallvariatsioonirea on kirjutatud järgmiselt:

Kõikide sageduste summa võrdub vaatluste koguarvuga, s.o. kogumaht: n = n 1 +n 2 + … + n m.

Suhteliste sageduste (sageduste) jaotuse intervallvariatsiooniread on kujul:

Sagedus leitakse valemiga i = 1, 2, …, m.

Kõigi sageduste summa on võrdne ühega: w 1 +w 2 + … + w m = 1.

Praktikas kasutatakse kõige sagedamini intervallseeriaid. Kui statistilisi valimiandmeid on palju ja nende väärtused erinevad üksteisest suvaliselt vähe, on nende andmete jaoks diskreetne seeria üsna tülikas ja edasiseks uurimiseks ebamugav. Sel juhul kasutatakse andmete rühmitamist, s.t. Atribuudi kõiki väärtusi sisaldav intervall jagatakse mitmeks osaliseks intervalliks ja iga intervalli sageduse arvutamisel saadakse intervallide seeria. Paneme täpsemalt kirja intervallide jada koostamise skeemi, eeldades, et osaintervallide pikkused on samad.

2.2 Intervalljada konstrueerimine

Intervallsarja loomiseks vajate:

Määrake intervallide arv;

Määrake intervallide pikkus;

Määrake intervallide asukoht teljel.

Määramiseks intervallide arv k Seal on Sturgesi valem, mille järgi

,

Kus n- kogu täitematerjali maht.

Näiteks kui karakteristiku (variandi) väärtusi on 100, siis on intervallide jada koostamiseks soovitatav võtta intervallidega võrdne intervallide arv.

Kuid praktikas valib intervallide arvu väga sageli uurija ise, võttes arvesse, et see arv ei tohiks olla väga suur, et seeria ei oleks tülikas, aga ka mitte väga väike, et mitte kaotada mõningaid selle omadusi. levitamine.

Intervalli pikkus h määratakse järgmise valemiga:

,

Kus x max ja x min on vastavalt valikute suurim ja väikseim väärtus.

Suurus helistas ulatus rida.

Intervallide endi konstrueerimiseks toimivad nad erineval viisil. Üks lihtsamaid viise on järgmine. Esimese intervalli alguseks peetakse
. Seejärel leitakse valemiga ülejäänud intervallide piirid. Ilmselgelt viimase intervalli lõpp a m+1 peab täitma tingimust

Pärast kõigi intervallide piiride leidmist määratakse nende intervallide sagedused (või sagedused). Selle probleemi lahendamiseks vaadake läbi kõik valikud ja määrake teatud intervalli kuuluvate valikute arv. Vaatame näite abil intervallrea täielikku ülesehitust.

Näide 4.2. Järgmiste statistiliste andmete jaoks, mis on salvestatud kasvavas järjekorras, koostage intervallide jada intervallide arvuga 5:

11, 12, 12, 14, 14, 15, 21, 21, 22, 23, 25, 38, 38, 39, 42, 42, 44, 45, 50, 50, 55, 56, 58, 60, 62, 63, 65, 68, 68, 68, 70, 75, 78, 78, 78, 78, 80, 80, 86, 88, 90, 91, 91, 91, 91, 91, 93, 93, 95, 96.

Lahendus. Kokku n=50 variandi väärtust.

Intervallide arv on määratud ülesandepüstituses, s.t. k=5.

Intervallide pikkus on
.

Määratleme intervallide piirid:

a 1 = 11 − 8,5 = 2,5; a 2 = 2,5 + 17 = 19,5; a 3 = 19,5 + 17 = 36,5;

a 4 = 36,5 + 17 = 53,5; a 5 = 53,5 + 17 = 70,5; a 6 = 70,5 + 17 = 87,5;

a 7 = 87,5 +17 = 104,5.

Intervallide sageduse määramiseks loendame antud intervalli kuuluvate valikute arvu. Näiteks esimene intervall vahemikus 2,5 kuni 19,5 sisaldab valikuid 11, 12, 12, 14, 14, 15. Nende arv on 6, seega on esimese intervalli sagedus n 1 = 6. Esimese intervalli sagedus on . Teine intervall vahemikus 19,5 kuni 36,5 sisaldab valikuid 21, 21, 22, 23, 25, mille arv on 5. Seetõttu on teise intervalli sagedus n 2 =5 ja sagedus . Olles sarnaselt leidnud kõigi intervallide sagedused ja sagedused, saame järgmise intervallide jada.

Sagedusjaotuse intervallide seeria on järgmine:

Sageduste summa on 6+5+9+11+8+11=50.

Sagedusjaotuse intervallide seeria on järgmine:

Sageduste summa on 0,12+0,1+0,18+0,22+0,16+0,22=1. ■

Intervalljadade koostamisel võib olenevalt vaadeldava ülesande konkreetsetest tingimustest rakendada muid reegleid, nimelt

1. Intervallide variatsiooniseeriad võivad koosneda erineva pikkusega osaintervallidest. Intervallide ebavõrdsed pikkused võimaldavad välja tuua statistilise üldkogumi omadused, millel on tunnuse ebaühtlane jaotus. Näiteks kui intervallide piirid määravad linnades elanike arvu, siis on antud ülesandes soovitav kasutada ebavõrdse pikkusega intervalle. Ilmselgelt on väikelinnade jaoks oluline väike erinevus elanike arvus, kuid suurlinnade puhul pole kümnete või sadade elanike erinevus oluline. Osaintervallide ebavõrdse pikkusega intervallide seeriaid uuritakse peamiselt statistika üldteoorias ja nende käsitlemine ei kuulu käesoleva juhendi raamidesse.

2. Matemaatilises statistikas vaadeldakse mõnikord intervallide jadasid, mille puhul eeldatakse, et esimese intervalli vasak piir on võrdne –∞ ja viimase intervalli parempiir +∞. Seda tehakse selleks, et tuua statistiline jaotus teoreetilisele lähemale.

3. Intervalljadade koostamisel võib selguda, et mõne valiku väärtus langeb täpselt kokku intervalli piiriga. Parim, mida sel juhul teha, on järgmine. Kui selline kokkusattumus on ainult üks, siis arvestage, et vaadeldav valik langes oma sagedusega intervallide seeria keskele lähemal asuvasse intervalli, kui selliseid valikuid on mitu, siis on need kõik määratud intervallidele nendest valikutest paremal või kõik need on määratud vasakule.

4. Pärast intervallide arvu ja nende pikkuse määramist saab intervallide paigutust teha muul viisil. Leidke valikute kõigi kaalutud väärtuste aritmeetiline keskmine X kolmap ja koostage esimene intervall nii, et see valimi keskmine oleks mõne intervalli sees. Seega saame intervalli alates X kolmap – 0,5 h enne X keskm.. + 0,5 h. Seejärel vasakule ja paremale, lisades intervalli pikkuse, ehitame ülejäänud intervallid kuni x min ja x max ei lange vastavalt esimesse ja viimasesse intervalli.

5. Suure intervallide arvuga intervallide seeriad kirjutatakse mugavalt vertikaalselt, s.t. kirjuta intervallid mitte esimesse ritta, vaid esimesse veergu ja sagedused (või sagedused) teise veergu.

Näidisandmeid võib pidada mõne juhusliku muutuja väärtusteks X. Juhuslikul muutujal on oma jaotusseadus. Tõenäosusteooriast on teada, et diskreetse juhusliku suuruse jaotusseadust saab määrata jaotusrea kujul ja pideva korral - jaotustiheduse funktsiooni abil. Siiski on olemas universaalne jaotusseadus, mis kehtib nii diskreetsete kui ka pidevate juhuslike muutujate kohta. See jaotusseadus on antud jaotusfunktsioonina F(x) = P(X<x). Näidisandmete jaoks saate määrata jaotusfunktsiooni analoogi - empiirilise jaotusfunktsiooni.


Seotud Informatsioon.


Antud katses või vaatluses uuritud parameetri väärtuste kogumit, mis on järjestatud väärtuse järgi (suurenemine või vähenemine), nimetatakse variatsiooniseeriaks.

Oletame, et mõõtsime kümne patsiendi vererõhku, et saada vererõhu ülemine lävi: süstoolne rõhk, s.o. ainult üks number.

Kujutagem ette, et 10 vaatluse arteriaalse süstoolse rõhu vaatluste seeria (statistiline kogusumma) on järgmisel kujul (tabel 1):

Tabel 1

Variatsiooniseeria komponente nimetatakse variantideks. Valikud tähistavad uuritava tunnuse arvväärtust.

Variatsioonirea koostamine statistilise vaatluste kogumi põhjal on alles esimene samm kogu komplekti omaduste mõistmise suunas. Järgmiseks on vaja määrata uuritava kvantitatiivse tunnuse keskmine tase (vere keskmine valgusisaldus, patsientide keskmine kaal, keskmine anesteesia alguse aeg jne).

Keskmist taset mõõdetakse kriteeriumide abil, mida nimetatakse keskmisteks. Keskmine väärtus on kvalitatiivselt homogeensete väärtuste üldistav arvtunnus, mis iseloomustab ühe numbriga kogu statistilist üldkogumit ühe kriteeriumi järgi. Keskmine väärtus väljendab seda, mis on antud vaatluste kogumi tunnusele ühist.

Tavaliselt kasutatakse kolme tüüpi keskmisi: režiim (), mediaan () ja aritmeetiline keskmine ().

Mis tahes keskmise väärtuse määramiseks on vaja kasutada üksikute vaatluste tulemusi, registreerides need variatsioonireana (tabel 2).

Mood- väärtus, mis esineb vaatlusseerias kõige sagedamini. Meie näites režiim = 120. Kui variatsiooniseerias pole korduvaid väärtusi, siis öeldakse, et režiimi pole. Kui mitut väärtust korratakse sama arv kordi, võetakse režiimiks neist väikseim.

Mediaan- väärtus, mis jagab jaotuse kaheks võrdseks osaks, mis on kasvavas või kahanevas järjekorras järjestatud vaatluste seeria keskne või mediaanväärtus. Seega, kui variatsioonireas on 5 väärtust, on selle mediaan võrdne variatsioonirea kolmanda liikmega, kui seerias on paarisarv liikmeid, siis mediaan on selle kahe aritmeetiline keskmine kesksed vaatlused, s.o. kui seerias on 10 vaatlust, siis mediaan võrdub 5. ja 6. vaatluse aritmeetilise keskmisega. Meie näites.

Märgime režiimi ja mediaani olulist tunnust: nende väärtusi ei mõjuta äärmuslike variantide arvväärtused.

Aritmeetiline keskmine arvutatakse valemiga:

kus on vaadeldud väärtus -ndas vaatluses ja on vaatluste arv. Meie juhtumi jaoks.

Aritmeetilisel keskmisel on kolm omadust:

Keskmine on variatsioonide seerias keskmisel positsioonil. Rangelt sümmeetrilises reas.

Keskmine on üldistav väärtus ning juhuslikke kõikumisi ja üksikandmete erinevusi keskmise taga näha ei ole. See peegeldab seda, mis on tüüpiline kogu elanikkonnale.

Kõigi valikute keskmisest kõrvalekallete summa on null: . Näidatud on valiku kõrvalekalle keskmisest.

Variatsiooniseeria koosneb variantidest ja neile vastavatest sagedustest. Kümnest saadud väärtusest esines arv 120 6 korda, 115 - 3 korda, 125 - 1 kord. Sagedus () – üksikute variantide absoluutarv agregaadis, mis näitab, mitu korda antud variant variatsioonireas esineb.

Variatsiooniseeriad võivad olla lihtsad (sagedused = 1) või grupeeritud ja lühendatud, 3-5 valikuga. Lihtsaid seeriaid kasutatakse väikese arvu vaatluste jaoks (), rühmitatud seeriat kasutatakse suure hulga vaatluste jaoks ().

Variatsiooniseeria – seeria, milles võrreldakse (suurenemise või vähenemise astme järgi) valikuid ja vastavad sagedused

Valikud on tunnuse individuaalsed kvantitatiivsed väljendid. Tähistatakse ladina tähega V . Klassikaline arusaam terminist “variant” eeldab, et tunnuse iga kordumatut väärtust nimetatakse variandiks, arvestamata korduste arvu.

Näiteks kümnel patsiendil mõõdetud süstoolse vererõhu näitajate variatsioonireas:

110, 120, 120, 130, 130, 130, 140, 140, 160, 170;

Saadaval on ainult 6 väärtust:

110, 120, 130, 140, 160, 170.

Sagedus on arv, mis näitab, mitu korda valikut korratakse. Tähistatakse ladina tähega P . Kõigi sageduste summa (mis on loomulikult võrdne kõigi uuritute arvuga) on tähistatud kui n.

    Meie näites on sagedustel järgmised väärtused:
  • valiku 110 puhul sagedus P = 1 (väärtus 110 esineb ühel patsiendil),
  • valiku 120 puhul sagedus P = 2 (väärtus 120 esineb kahel patsiendil),
  • valiku 130 puhul sagedus P = 3 (väärtus 130 esineb kolmel patsiendil),
  • valiku 140 puhul sagedus P = 2 (väärtus 140 esineb kahel patsiendil),
  • valiku 160 puhul sagedus P = 1 (väärtus 160 esineb ühel patsiendil),
  • valiku 170 puhul sagedus P = 1 (väärtus 170 esineb ühel patsiendil),

Variatsioonisarjade tüübid:

  1. lihtne- see on seeria, milles iga valik esineb ainult üks kord (kõik sagedused on võrdsed 1-ga);
  2. peatatud- seeria, milles üks või mitu valikut kuvatakse rohkem kui üks kord.

Variatsiooniseeriaid kasutatakse suurte arvumassiivide kirjeldamiseks, just sellisel kujul esitatakse algselt enamiku meditsiiniuuringute kogutud andmed. Variatsiooniridade iseloomustamiseks arvutatakse välja erinäitajad, sealhulgas keskmised väärtused, varieeruvuse näitajad (nn. dispersioon) ja valimiandmete esinduslikkuse näitajad.

Variatsiooniseeria näitajad

1) Aritmeetiline keskmine on uuritava tunnuse suurust iseloomustav üldnäitaja. Aritmeetiline keskmine on tähistatud kui M , on kõige levinum keskmise tüüp. Aritmeetiline keskmine arvutatakse kõigi vaatlusüksuste indikaatorväärtuste summa ja kõigi uuritavate isikute arvu suhtena. Aritmeetilise keskmise arvutamise meetod erineb lihtsa ja kaalutud variatsioonirea puhul.

Arvutamise valem lihtne aritmeetiline keskmine:

Arvutamise valem kaalutud aritmeetiline keskmine:

M = Σ(V * P)/n

​ 2) Režiim on variatsiooniseeria teine ​​keskmine väärtus, mis vastab kõige sagedamini korduvale valikule. Või teisiti öeldes on see valik, mis vastab kõige kõrgemale sagedusele. Tähistatakse kui Mo . Režiimi arvutatakse ainult kaalutud seeriate jaoks, kuna lihtsates seeriates ei korrata ühtegi valikut ja kõik sagedused on võrdsed ühega.

Näiteks pulsi väärtuste variatsioonireas:

80, 84, 84, 86, 86, 86, 90, 94;

režiimi väärtus on 86, kuna see valik esineb 3 korda, seega on selle sagedus kõrgeim.

3) Mediaan - optsiooni väärtus, mis jagab variatsioonirea pooleks: selle mõlemal küljel on võrdne arv optsioone. Mediaan, nagu aritmeetiline keskmine ja moodus, viitab keskmistele väärtustele. Tähistatakse kui Mina

4) Standardhälve (sünonüümid: standardhälve, sigma hälve, sigma) - variatsioonirea varieeruvuse mõõt. See on lahutamatu näitaja, mis ühendab kõik keskmisest kõrvalekaldumise juhtumid. Tegelikult vastab see küsimusele: kui kaugele ja kui sageli levivad variandid aritmeetilisest keskmisest. Tähistatakse kreeka tähega σ ("sigma").

Kui populatsiooni suurus on üle 30 ühiku, arvutatakse standardhälve järgmise valemi abil:

Väikeste populatsioonide puhul - 30 vaatlusühikut või vähem - arvutatakse standardhälve erineva valemi abil:

Selle peatüki valdamise tulemusena peab õpilane: tea

  • variatsiooninäitajad ja nende seos;
  • tunnuste jaotuse põhiseadused;
  • nõusolekukriteeriumide olemus; suutma
  • arvutada variatsiooniindeksid ja sobivuse kriteeriumid;
  • määrata jaotusomadused;
  • hinnata statistiliste jaotusridade põhilisi arvnäitajaid;

oma

  • jaotusridade statistilise analüüsi meetodid;
  • dispersioonanalüüsi alused;
  • meetodid statistiliste jaotusridade jaotuse põhiseadustele vastavuse kontrollimiseks.

Variatsiooninäitajad

Erinevate statistiliste üldkogumite tunnuste statistilises uuringus pakub suurt huvi uurida üldkogumi üksikute statistiliste üksuste tunnuse varieeruvust, samuti ühikute jaotuse olemust selle tunnuse järgi. Variatsioon - need on erinevused tunnuse individuaalsetes väärtustes uuritava populatsiooni üksuste vahel. Variatsiooniuuringul on suur praktiline tähtsus. Variatsiooniastme järgi saab hinnata tunnuse varieerumise piire, üldkogumi homogeensust antud tunnuse puhul, keskmise tüüpilisust ja variatsiooni määravate tegurite seost. Variatsiooninäitajaid kasutatakse statistiliste populatsioonide iseloomustamiseks ja korrastamiseks.

Statistiliste vaatlusmaterjalide kokkuvõtte ja rühmitamise tulemused, mis on esitatud statistiliste jaotusridadena, kujutavad endast uuritava üldkogumi üksuste järjestatud jaotust rühmadesse vastavalt rühmitamiskriteeriumidele. Kui rühmitamise aluseks võtta kvalitatiivne tunnus, siis nimetatakse sellist jaotussarja atribuutne(jaotus elukutse, soo, värvi jne järgi). Kui jaotusrida on koostatud kvantitatiivsel alusel, siis sellist jada nimetatakse variatsiooniline(jaotus pikkuse, kaalu, palga jne järgi). Variatsioonirea koostamine tähendab populatsiooni üksuste kvantitatiivse jaotuse korraldamist iseloomulike väärtuste järgi, nende väärtustega rahvastikuüksuste arvu (sageduse) loendamist ja tulemuste tabelisse viimist.

Variandi sageduse asemel on võimalik kasutada selle suhet vaatluste kogumahusse, mida nimetatakse sageduseks (suhteline sagedus).

Variatsiooniseeriaid on kahte tüüpi: diskreetne ja intervall. Diskreetsed seeriad- See on variatsiooniseeria, mille konstruktsioon põhineb katkendlike muutustega karakteristikutel (diskreetsed karakteristikud). Viimaste hulka kuuluvad ettevõtte töötajate arv, tariifikategooria, laste arv peres jne. Diskreetne variatsiooniseeria tähistab tabelit, mis koosneb kahest veerust. Esimene veerg näitab atribuudi konkreetset väärtust ja teine ​​veerg näitab ühikute arvu üldkogumis, millel on atribuudi konkreetne väärtus. Kui tunnus on pidevas muutumises (sissetuleku suurus, tööstaaž, ettevõtte põhivara maksumus jne, mis teatud piirides võib omandada mis tahes väärtusi), siis on selle tunnuse jaoks võimalik konstrueerida intervalli variatsiooni seeriad. Intervallvariatsiooniseeria koostamisel on tabelis ka kaks veergu. Esimene tähistab atribuudi väärtust intervallis "alates - kuni" (valikud), teine ​​​​näitab intervallis sisalduvate ühikute arvu (sagedus). Sagedus (korduste sagedus) - atribuutide väärtuste konkreetse variandi korduste arv. Intervallid võivad olla suletud või avatud. Suletud intervallid on mõlemalt poolt piiratud, st. neil on nii alumine ("from") kui ka ülemine ("kuni") piir. Avatud intervallidel on üks piir: kas ülemine või alumine. Kui valikud on järjestatud kasvavas või kahanevas järjekorras, kutsutakse ridu järjestatud.

Variatsiooniseeriate jaoks on kahte tüüpi sagedusreaktsiooni valikuid: akumuleeritud sagedus ja akumuleeritud sagedus. Kogunenud sagedus näitab, kui paljude vaatluste tunnuse väärtus võttis antud väärtusest väiksemad väärtused. Kogunenud sagedus määratakse kindlaks antud rühma karakteristiku sagedusväärtuste liitmisel eelmiste rühmade kõigi sagedustega. Kogunenud sagedus iseloomustab nende vaatlusüksuste osakaalu, mille atribuutide väärtused ei ületa antud rühma ülempiiri. Seega näitab akumuleeritud sagedus optsioonide osakaalu kogusummas, mille väärtus ei ole suurem kui antud. Sagedus, sagedus, absoluutne ja suhteline tihedus, akumuleeritud sagedus ja sagedus on variandi suuruse tunnused.

Üldkogumi statistiliste ühikute tunnuste variatsioone ja jaotuse olemust uuritakse variatsiooniridade näitajate ja karakteristikute abil, mis hõlmavad rea keskmist taset, keskmist lineaarhälvet, standardhälvet, dispersiooni. , võnkekoefitsiendid, variatsioon, asümmeetria, kurtoos jne.

Jaotuskeskuse iseloomustamiseks kasutatakse keskmisi väärtusi. Keskmine on üldistav statistiline tunnus, milles kvantifitseeritakse uuritava populatsiooni liikmetele omase tunnuse tüüpiline tase. Samas võib esineda erinevate jaotusmustritega aritmeetiliste keskmiste kokkulangemise juhtumeid, mistõttu variatsiooniridade statistiliste karakteristikutena arvutatakse välja nn struktuursed keskmised - mood, mediaan, aga ka kvantiilid, mis jagavad jaotusrea võrdseteks. osad (kvartiilid, detsiilid, protsentiilid jne).

Mood - See on tunnuse väärtus, mis esineb jaotusreas sagedamini kui selle muud väärtused. Diskreetsete seeriate puhul on see kõrgeima sagedusega valik. Intervallide variatsiooniridades on režiimi määramiseks vaja esmalt määrata intervall, milles see asub, nn modaalintervall. Võrdsete intervallidega variatsiooniridades määratakse modaalintervall kõrgeima sagedusega, ebavõrdsete intervallidega jadades - kuid suurima jaotustihedusega. Seejärel kasutatakse valemit režiimi määramiseks ridade kaupa võrdsete intervallidega

kus Mo on moeväärtus; xMo - modaalintervalli alumine piir; h- modaalse intervalli laius; / Mo - modaalintervalli sagedus; / Mo j on premodaalse intervalli sagedus; / Mo+1 on postmodaalse intervalli sagedus ja selles arvutusvalemis ebavõrdsete intervallidega seeria puhul tuleks sageduste / Mo, / Mo, / Mo asemel kasutada jaotustihedusi Mõistus 0 _| , Mõistus 0> UMO+"

Kui on üks moodus, siis nimetatakse juhusliku suuruse tõenäosusjaotust unimodaalseks; kui režiime on rohkem kui üks, nimetatakse seda multimodaalseks (polümodaalne, multimodaalne), kahe režiimi puhul - bimodaalne. Reeglina näitab multimodaalsus, et uuritav jaotus ei allu normaaljaotuse seadusele. Homogeenseid populatsioone iseloomustavad reeglina ühe tipuga jaotused. Multivertex näitab ka uuritava populatsiooni heterogeensust. Kahe või enama tipu ilmnemisel on vaja andmed ümber rühmitada, et tuvastada homogeensemaid rühmi.

Intervallide variatsioonide seerias saab režiimi määrata graafiliselt, kasutades histogrammi. Selleks tõmmake kaks ristuvat joont histogrammi kõrgeima veeru ülemistest punktidest kahe külgneva veeru ülemiste punktideni. Seejärel langetatakse nende ristumispunktist risti abstsissteljele. Perpendikulaarile vastava tunnuse väärtus x-teljel on režiim. Paljudel juhtudel eelistatakse populatsiooni iseloomustamisel üldistatud näitajana pigem moodust kui aritmeetilist keskmist.

Mediaan – See on atribuudi keskne väärtus, mida omab jaotuse järjestatud seeria keskne liige. Diskreetsetes seeriates määratakse mediaani väärtuse leidmiseks esmalt selle seerianumber. Selleks, kui ühikute arv on paaritu, lisatakse kõigi sageduste summale üks ja arv jagatakse kahega. Kui reas on paarisarv ühikuid, on kaks mediaanühikut, nii et sel juhul on mediaan määratletud kahe mediaanühiku väärtuste keskmisena. Seega on diskreetsete variatsioonide seeria mediaan väärtus, mis jagab seeria kaheks osaks, mis sisaldavad sama palju võimalusi.

Intervalli seeriates leitakse pärast mediaani seerianumbri määramist mediaanintervall akumuleeritud sageduste (sageduste) abil ja seejärel mediaani arvutamise valemi abil määratakse mediaani enda väärtus:

kus Me on mediaanväärtus; x mina - mediaanintervalli alumine piir; h- mediaanintervalli laius; - jaotusridade sageduste summa; /D - premediaanintervalli akumuleeritud sagedus; /Me - mediaanintervalli sagedus.

Mediaani saab graafiliselt leida kumulatsiooni abil. Selleks tõmmatakse kumulaadi akumuleeritud sageduste (sageduste) skaalal mediaani järjekorranumbrile vastavast punktist abstsissteljega paralleelne sirgjoon, kuni see lõikub kumulaadiga. Järgmisena langetatakse näidatud joone ja kumulatsiooni ristumispunktist risti abstsissteljele. Joonistatud ordinaadile (risti) vastava atribuudi väärtus x-teljel on mediaan.

Mediaani iseloomustavad järgmised omadused.

  • 1. See ei sõltu nendest atribuutide väärtustest, mis asuvad selle mõlemal küljel.
  • 2. Sellel on minimaalsuse omadus, mis tähendab, et atribuudi väärtuste absoluutsete kõrvalekallete summa mediaanist esindab minimaalset väärtust võrreldes atribuudi väärtuste kõrvalekaldega mis tahes muust väärtusest.
  • 3. Kahe jaotuse kombineerimisel teadaolevate mediaanidega on võimatu ette ennustada uue jaotuse mediaani väärtust.

Neid mediaani omadusi kasutatakse laialdaselt avalike teeninduspunktide – koolide, kliinikute, bensiinijaamade, veepumpade jne – asukoha kujundamisel. Näiteks kui plaanitakse kliinikut rajada mingisse linna kvartalisse, siis oleks otstarbekam paigutada see kvartali punkti, mis vähendab poole võrra mitte kvartali pikkust, vaid elanike arvu.

Mood, mediaani ja aritmeetilise keskmise suhe näitab tunnuse jaotuse olemust agregaadis ja võimaldab hinnata jaotuse sümmeetriat. Kui x Me siis on seeria parempoolne asümmeetria. Normaaljaotusega X - Mina - Mo.

K. Pearson tegi erinevat tüüpi kõverate joondamise põhjal kindlaks, et mõõdukalt asümmeetriliste jaotuste korral kehtivad järgmised ligikaudsed seosed aritmeetilise keskmise, mediaani ja mooduse vahel:

kus Me on mediaanväärtus; Mo - moe tähendus; x arithm - aritmeetilise keskmise väärtus.

Kui on vaja variatsiooniseeria struktuuri täpsemalt uurida, siis arvuta mediaaniga sarnased karakteristikud. Sellised iseloomulikud väärtused jagavad kõik jaotusühikud võrdseteks arvudeks, neid nimetatakse kvantilideks või gradientideks. Kvantiilid jagunevad kvartiilideks, detsiilideks, protsentiilideks jne.

Kvartiilid jagavad populatsiooni neljaks võrdseks osaks. Esimene kvartiil arvutatakse sarnaselt mediaaniga, kasutades esimese kvartiili arvutamise valemit, olles eelnevalt kindlaks määranud esimese kvartali intervalli:

kus Qi on esimese kvartiili väärtus; xQ^- esimese kvartiili vahemiku alumine piir; h- esimese kvartali intervalli laius; /, - intervallide seeria sagedused;

Kumulatiivne sagedus esimesele kvartiili intervallile eelnevas intervallis; Jq (- esimese kvartiili intervalli sagedus.

Esimene kvartiil näitab, et 25% rahvastiku ühikutest on selle väärtusest väiksemad ja 75% rohkem. Teine kvartiil on võrdne mediaaniga, s.o. Q 2 = Mina.

Analoogia põhjal arvutatakse kolmas kvartiil, olles kõigepealt leidnud kolmanda kvartali intervalli:

kus on kolmanda kvartiili vahemiku alumine piir; h- kolmanda kvartiili intervalli laius; /, - intervallide seeria sagedused; /X" - kogunenud sagedus eelneval intervallil

G

kolmas kvartiil intervall; Jq on kolmanda kvartiili intervalli sagedus.

Kolmas kvartiil näitab, et 75% rahvastiku ühikutest on selle väärtusest väiksemad ja 25% rohkem.

Kolmanda ja esimese kvartiili erinevus on kvartiilidevaheline vahemik:

kus Aq on kvartiilidevahelise vahemiku väärtus; Q3 - kolmanda kvartiili väärtus; Q on esimese kvartiili väärtus.

Detsiilid jagavad populatsiooni 10 võrdseks osaks. Detsiil on jaotusreas oleva tunnuse väärtus, mis vastab kümnendikutele populatsiooni suurusest. Analoogiliselt kvartiilidega näitab esimene detsiil, et 10% rahvastiku ühikutest on selle väärtusest väiksemad ja 90% on suuremad ning üheksas detsiil näitab, et 90% populatsiooni ühikutest on selle väärtusest väiksemad ja 10% on selle väärtusest väiksemad. suurem. Üheksanda ja esimese detsiili suhe, s.o. Detsiilkoefitsienti kasutatakse laialdaselt sissetulekute diferentseerumise uurimisel, et mõõta 10% kõige jõukama ja 10% kõige vähem jõukama elanikkonna sissetulekutasemete suhet. Protsentiilid jagavad järjestatud populatsiooni 100 võrdseks osaks. Protsentiilide arvutamine, tähendus ja rakendamine on sarnane detsiilidega.

Kvartiile, detsiile ja muid struktuuriomadusi saab graafiliselt määrata analoogselt mediaaniga, kasutades kumulaate.

Variatsiooni suuruse mõõtmiseks kasutatakse järgmisi näitajaid: variatsioonivahemik, keskmine lineaarhälve, standardhälve, dispersioon. Variatsioonivahemiku suurus sõltub täielikult seeria äärmuslike liikmete jaotuse juhuslikkusest. See näitaja pakub huvi juhtudel, kui on oluline teada, milline on tunnuse väärtuste kõikumise amplituud:

Kus R- variatsioonivahemiku väärtus; x max - atribuudi maksimaalne väärtus; x tt - atribuudi minimaalne väärtus.

Variatsioonivahemiku arvutamisel ei võeta arvesse enamiku seerialiikmete väärtust, samas kui variatsioon on seotud seerialiikme iga väärtusega. Näitajatel, mis kujutavad keskmisi, mis on saadud tunnuse üksikute väärtuste kõrvalekalletest nende keskmisest väärtusest, puudub see puudus: keskmine lineaarne hälve ja standardhälve. Individuaalsete kõrvalekallete keskmisest ja konkreetse tunnuse varieeruvuse vahel on otsene seos. Mida tugevam on kõikumine, seda suurem on keskmisest kõrvalekallete absoluutne suurus.

Keskmine lineaarne hälve on üksikute valikute keskmisest väärtusest kõrvalekallete absoluutväärtuste aritmeetiline keskmine.

Grupeerimata andmete keskmine lineaarne kõrvalekalle

kus /pr on keskmise lineaarse hälbe väärtus; x, - on atribuudi väärtus; X - P -ühikute arv populatsioonis.

Rühmitatud seeria keskmine lineaarne hälve

kus / vz - keskmise lineaarse hälbe väärtus; x on atribuudi väärtus; X - tunnuse keskmine väärtus uuritava üldkogumi kohta; / - rahvastikuüksuste arv eraldi rühmas.

Sel juhul kõrvalekallete märke eiratakse, vastasel juhul võrdub kõigi kõrvalekallete summa nulliga. Keskmine lineaarne hälve, olenevalt analüüsitavate andmete rühmitusest, arvutatakse erinevate valemite abil: rühmitatud ja rühmitamata andmete puhul. Keskmist lineaarset hälvet kasutatakse oma tavast tulenevalt teistest varieeruvusnäitajatest eraldiseisvalt praktikas suhteliselt harva (eelkõige lepinguliste kohustuste täitmise iseloomustamiseks tarne ühetaolisuse osas; väliskaubanduskäibe analüüsimisel on väliskaubanduse käibe koosseis). töötajad, tootmise rütm, toote kvaliteet, võttes arvesse tootmise tehnoloogilisi iseärasusi jne).

Standardhälve iseloomustab seda, kui palju keskmiselt erinevad uuritava tunnuse individuaalsed väärtused üldkogumi keskmisest väärtusest, ja seda väljendatakse uuritava tunnuse mõõtühikutes. Standardhälvet, mis on üks peamisi variatsioonimõõtjaid, kasutatakse laialdaselt homogeenses populatsioonis karakteristiku variatsioonipiiride hindamisel, normaaljaotuse kõvera ordinaatväärtuste määramisel, aga ka arvutustes. valimi vaatluse korraldamine ja valimi tunnuste täpsuse kindlakstegemine. Grupeerimata andmete standardhälve arvutatakse järgmise algoritmi abil: iga kõrvalekalle keskmisest ruudustatakse, kõik ruudud liidetakse, misjärel jagatakse ruutude summa rea ​​liikmete arvuga ja eraldatakse ruutjuur jagatis:

kus Iip on standardhälbe väärtus; Xj- atribuudi väärtus; X- tunnuse keskmine väärtus uuritava üldkogumi kohta; P -ühikute arv populatsioonis.

Rühmitatud analüüsitud andmete puhul arvutatakse kaalutud valemi abil andmete standardhälve

Kus - standardhälbe väärtus; Xj- atribuudi väärtus; X - tunnuse keskmine väärtus uuritava üldkogumi kohta; f x - rahvastikuüksuste arv konkreetses rühmas.

Mõlemal juhul juure all olevat avaldist nimetatakse dispersiooniks. Seega arvutatakse dispersioon atribuutide väärtuste nende keskmisest väärtusest kõrvalekallete keskmise ruuduna. Kaalumata (lihtsate) atribuutide väärtuste korral määratakse dispersioon järgmiselt:

Kaalutud iseloomulike väärtuste jaoks

Dispersiooni arvutamiseks on olemas ka spetsiaalne lihtsustatud meetod: üldiselt

kaalumata (lihtsate) tunnusväärtuste jaoks kaalutud iseloomulike väärtuste jaoks
kasutades nullpõhist meetodit

kus a 2 on dispersiooni väärtus; x, - on atribuudi väärtus; X - tunnuse keskmine väärtus, h- rühma intervalli väärtus, t 1 - kaal (A =

Dispersioonil on statistikas oma väljendus ja see on üks olulisemaid variatsiooninäitajaid. Seda mõõdetakse ühikutes, mis vastavad uuritava tunnuse mõõtühikute ruudule.

Dispersioonil on järgmised omadused.

  • 1. Konstantse väärtuse dispersioon on null.
  • 2. Karakteristiku kõigi väärtuste vähendamine sama väärtusega A ei muuda dispersiooni väärtust. See tähendab, et hälvete keskmist ruutu saab arvutada mitte karakteristiku etteantud väärtuste, vaid nende kõrvalekallete järgi mingist konstantsest arvust.
  • 3. Iseloomulike väärtuste vähendamine k korda vähendab dispersiooni võrra k 2 korda ja standardhälve on sees k korda, s.o. atribuudi kõik väärtused saab jagada mõne konstantse arvuga (näiteks seeria intervalli väärtusega), arvutada standardhälbe ja seejärel korrutada konstantse arvuga.
  • 4. Kui arvutame mis tahes väärtusest kõrvalekallete keskmise ruudu Ja erineb ühel või teisel määral aritmeetilisest keskmisest, siis on see alati suurem kui aritmeetilisest keskmisest arvutatud hälvete keskmine ruut. Hälvete keskmine ruut on teatud summa võrra suurem – keskmise ja selle tinglikult võetud väärtuse erinevuse ruudu võrra.

Alternatiivse tunnuse varieerumine seisneb uuritava omaduse olemasolus või puudumises üldkogumi ühikutes. Kvantitatiivselt väljendatakse alternatiivse atribuudi varieerumist kahe väärtusega: uuritava omaduse ühiku olemasolu tähistatakse ühega (1), selle puudumist aga nulliga (0). Üksuste osakaal, millel on uuritav omadus, on tähistatud tähega P ja nende üksuste osakaal, millel see omadus puudub, tähistatakse tähega G. Seega on alternatiivse atribuudi dispersioon võrdne seda omadust omavate üksuste (P) ja seda omadust mitteomavate üksuste osakaalu korrutisega. (G). Suurim rahvastiku varieeruvus saavutatakse juhtudel, kui osa elanikkonnast, mis moodustab 50% rahvastiku kogumahust, omab seda tunnust ja teisel osal elanikkonnast, mis on samuti võrdne 50%, ei oma seda tunnust. ja dispersioon saavutab maksimaalse väärtuse 0,25, t .e. P = 0,5, G= 1 - P = 1 - 0,5 = 0,5 ja o 2 = 0,5 0,5 = 0,25. Selle näitaja alumine piir on null, mis vastab olukorrale, kus koondnäitajad ei muutu. Alternatiivse karakteristiku dispersiooni praktiline rakendus on usaldusvahemike konstrueerimine valimivaatluste läbiviimisel.

Mida väiksem on dispersioon ja standardhälve, seda homogeensem on üldkogum ja seda tüüpilisem on keskmine. Statistika praktikas on sageli vajadus võrrelda erinevate tunnuste variatsioone. Näiteks on huvitav võrrelda erinevusi töötajate vanuses ja nende kvalifikatsioonis, tööstaažis ja töötasus, kuludes ja kasumis, tööstaažis ja tööviljakuses jne. Sellisteks võrdlusteks ei sobi tunnuste absoluutse varieeruvuse näitajad: aastates väljendatud töökogemuse varieeruvust pole võimalik võrrelda rublades väljendatud töötasu kõikumisega. Selliste võrdluste läbiviimiseks, samuti sama tunnuse varieeruvuse võrdlemiseks mitmes populatsioonis erinevate aritmeetiliste keskmistega, kasutatakse variatsiooninäitajaid - võnkekordaja, lineaarne variatsioonikordaja ja variatsioonikordaja, mis näitavad mõõtu. äärmuslike väärtuste kõikumised keskmise ümber.

Võnkekoefitsient:

Kus V R - võnketeguri väärtus; R- variatsioonivahemiku väärtus; X -

Lineaarne variatsioonikoefitsient".

Kus Vj- lineaarse variatsiooniteguri väärtus; mina - keskmise lineaarhälbe väärtus; X - tunnuse keskmine väärtus uuritava populatsiooni jaoks.

Variatsioonikoefitsient:

Kus V a - variatsioonikordaja väärtus; a on standardhälbe väärtus; X - tunnuse keskmine väärtus uuritava populatsiooni jaoks.

Võnketegur on variatsioonivahemiku protsentuaalne suhe uuritava tunnuse keskmise väärtusega ning lineaarne variatsioonikoefitsient on keskmise lineaarse hälbe ja uuritava tunnuse keskmise väärtuse suhe, väljendatuna protsentides. Variatsioonikoefitsient on standardhälbe protsent uuritava tunnuse keskmisest väärtusest. Suhtelise väärtusena, väljendatuna protsentides, kasutatakse variatsioonikordajat erinevate tunnuste variatsiooniastme võrdlemiseks. Variatsioonikordaja abil hinnatakse statistilise üldkogumi homogeensust. Kui variatsioonikordaja on alla 33%, siis on uuritav populatsioon homogeenne ja variatsioon nõrk. Kui variatsioonikoefitsient on üle 33%, siis on uuritav populatsioon heterogeenne, variatsioon tugev ja keskmine väärtus ebatüüpiline ning seda ei saa kasutada selle populatsiooni üldnäitajana. Lisaks kasutatakse variatsioonikoefitsiente, et võrrelda ühe tunnuse varieeruvust erinevates populatsioonides. Näiteks hinnata kahe ettevõtte töötajate tööstaaži erinevust. Mida suurem on koefitsiendi väärtus, seda olulisem on tunnuse kõikumine.

Arvutatud kvartiilide põhjal on võimalik arvutada ka kvartiilide suhteline näitaja valemi abil

kus Q 2 Ja

Interkvartiilne vahemik määratakse valemiga

Variatsioonivahemiku asemel kasutatakse kvartiilhälvet, et vältida äärmuslike väärtuste kasutamisega seotud puudusi:

Ebavõrdse intervalliga variatsiooniridade puhul arvutatakse ka jaotustihedus. See on määratletud kui vastava sageduse või sageduse jagatis intervalli väärtusega. Ebavõrdsete intervallidega jadades kasutatakse absoluutset ja suhtelist jaotustihedust. Absoluutne jaotustihedus on sagedus intervalli pikkuseühiku kohta. Suhteline jaotustihedus on sagedus intervalli pikkuseühiku kohta.

Kõik eelnev kehtib jaotusridade kohta, mille jaotusseadus on normaaljaotusseadusega hästi kirjeldatud või sellele lähedane.

Rühmitamise meetod võimaldab ka mõõta variatsioon märkide (muutuvus, kõikumine). Kui üksuste arv populatsioonis on suhteliselt väike, mõõdetakse varieeruvust populatsiooni moodustavate üksuste järjestatud arvu põhjal. Sari on nn järjestatud, kui ühikud on järjestatud tunnuse kasvavas (kahanevas) järjekorras.

Siiski on järjestatud seeriad üsna soovituslikud, kui on vaja variatsiooni võrdlevat tunnust. Lisaks tuleb paljudel juhtudel tegemist teha suurest hulgast ühikutest koosnevate statistiliste üldkogumitega, mida konkreetse rea kujul on praktiliselt raske esitada. Sellega seoses ühendatakse statistiliste andmetega esmaseks üldiseks tutvumiseks ja eelkõige tunnuste varieerumise uurimise hõlbustamiseks uuritavad nähtused ja protsessid tavaliselt rühmadesse ning rühmitamise tulemused esitatakse rühmatabelite kujul.

Kui rühmatabelis on ainult kaks veergu – rühmad valitud tunnuse (valikud) ja rühmade arvu (sagedus või sagedus) järgi, nimetatakse seda nn. levitamise lähedal.

Jaotuspiirkond - lihtsaim ühel tunnusel põhinev struktuurne rühmitamise tüüp, mis kuvatakse kahe veeruga rühmatabelis, mis sisaldab tunnuse variante ja sagedusi. Paljudel juhtudel sellise struktuurilise rühmitusega, s.o. Jaotusridade koostamisega algab esialgse statistilise materjali uurimine.

Jaotusrea kujul oleva struktuurse rühmituse saab muuta ehtsaks struktuurseks rühmituseks, kui valitud rühmi iseloomustavad mitte ainult sagedused, vaid ka muud statistilised näitajad. Jaotussarjade põhieesmärk on uurida omaduste varieerumist. Jaotusridade teooriat arendab üksikasjalikult matemaatiline statistika.

Jaotussarjad jagunevad atribuutne(rühmitamine atributiivsete tunnuste järgi, näiteks elanikkonna jagamine soo, rahvuse, perekonnaseisu jne järgi) ja variatsiooniline(rühmitamine kvantitatiivsete tunnuste järgi).

Variatsiooniseeria on rühmatabel, mis sisaldab kahte veergu: ühikute rühmitamine ühe kvantitatiivse tunnuse ja ühikute arvu järgi igas rühmas. Variatsioonirea intervallid on tavaliselt moodustatud võrdsed ja suletud. Variatsioonirea on järgmine Venemaa elanikkonna rühmitus keskmise rahalise sissetuleku järgi elaniku kohta (tabel 3.10).

Tabel 3.10

Venemaa rahvastiku jaotus keskmise sissetuleku järgi elaniku kohta aastatel 2004-2009.

Rahvastikurühmad keskmise sularahasissetuleku järgi elaniku kohta, rubla/kuus

Rahvaarv rühmas, % koguarvust

8 000,1-10 000,0

10 000,1-15 000,0

15 000,1-25 000,0

Üle 25 000,0

Kogu elanikkond

Variatsioonisarjad jagunevad omakorda diskreetseteks ja intervallideks. Diskreetne variatsiooniseeriad ühendavad diskreetsete omaduste variante, mis varieeruvad kitsastes piirides. Diskreetse variatsioonirea näide on vene perede jaotus nende laste arvu järgi.

Intervall variatsiooniseeriad ühendavad kas pidevate või diskreetsete karakteristikute variante, mis varieeruvad laias vahemikus. Intervall on Venemaa elanikkonna jaotuse variatsioonirida keskmise rahalise sissetuleku järgi elaniku kohta.

Diskreetseid variatsiooniseeriaid praktikas väga sageli ei kasutata. Samas pole nende koostamine keeruline, kuna rühmade koosseisu määravad konkreetsed variandid, mis uuritavatel rühmitustunnustel tegelikult on.

Intervallide variatsiooni seeriad on laiemalt levinud. Nende koostamisel tekib keeruline küsimus nii rühmade arvu kui ka kehtestatavate intervallide suuruse kohta.

Selle probleemi lahendamise põhimõtted on toodud statistiliste rühmituste koostamise metoodika peatükis (vt punkt 3.3).

Variatsiooniread on vahend mitmekesise informatsiooni kompaktsesse vormi alandamiseks või kokkusurumiseks nende põhjal saab teha üsna selge otsuse variatsiooni olemuse kohta ning uurida uuritavasse komplekti kuuluvate nähtuste omaduste erinevusi. Variatsiooniridade kõige olulisem tähendus on aga see, et nende põhjal arvutatakse variatsiooni erilised üldistavad karakteristikud (vt ptk 7).