Mis on intervallide andmeseeria? Intervallide variatsiooniridade konstrueerimine pidevate kvantitatiivsete andmete jaoks

Matemaatika statistika- matemaatika haru, mis tegeleb statistiliste andmete töötlemise, süstematiseerimise ja teaduslike ja praktiliste järelduste tegemiseks kasutatavate matemaatiliste meetoditega.

3.1. MATEMAATILISE STATISTIKA PÕHIMÕISTED

Meditsiiniliste ja bioloogiliste probleemide puhul on sageli vaja uurida konkreetse tunnuse levikut väga suure hulga isendite puhul. Sellel tunnusel on erinevate inimeste jaoks erinev tähendus, seega on see juhuslik muutuja. Näiteks on mis tahes terapeutiline ravim erinevate patsientide puhul erineva efektiivsusega. Kuid selleks, et saada aimu selle ravimi efektiivsusest, pole vaja seda kasutada kõik haige. Ravimi kasutamise tulemusi on võimalik jälgida suhteliselt väikesele patsientide rühmale ja saadud andmete põhjal teha kindlaks raviprotsessi olulised tunnused (efektiivsus, vastunäidustused).

Rahvaarv- homogeensete elementide kogum, mida iseloomustab mõni uuritav atribuut. See märk on pidev jaotustihedusega juhuslik suurus f(x).

Näiteks kui meid huvitab haiguse levimus teatud piirkonnas, siis üldrahvastik on kogu piirkonna elanikkond. Kui tahame meeste ja naiste vastuvõtlikkust sellele haigusele eraldi välja selgitada, siis tuleks arvestada kahe üldpopulatsiooniga.

Üldkogumi omaduste uurimiseks valitakse välja teatud osa selle elementidest.

Näidis- uuringuks (raviks) valitud osa üldpopulatsioonist.

Kui see segadust ei tekita, nimetatakse proovi kui objektide komplekt, uuringu jaoks valitud ja totaalsus

väärtused läbivaatuse käigus saadud uuritud tunnus. Neid väärtusi saab esitada mitmel viisil.

Lihtne statistiline seeria - uuritava tunnuse väärtused, mis registreeritakse nende saamise järjekorras.

Tabelis on näide lihtsast statistilisest seeriast, mis on saadud pinnalaine kiiruse (m/s) mõõtmisel otsmiku nahas 20 patsiendil. 3.1.

Tabel 3.1.Lihtne statistiline seeria

Lihtne statistiline seeria on peamine ja kõige täielikum viis uuringutulemuste registreerimiseks. See võib sisaldada sadu elemente. Sellist tervikut on ühe pilguga väga raske heita. Seetõttu jagatakse suured proovid tavaliselt rühmadesse. Selleks jagatakse tunnuse muutumisala mitmeks (N) intervallidega võrdne laius ja arvutada nendesse intervallidesse langeva atribuudi suhtelised sagedused (n/n). Iga intervalli laius on:

Intervalli piiridel on järgmised tähendused:

Kui mis tahes näidiselement on piiriks kahe kõrvuti asetseva intervalli vahel, klassifitseeritakse see järgmiselt vasakule intervall. Sel viisil rühmitatud andmeid nimetatakse intervallidega statistilised seeriad.

on tabel, mis näitab atribuudi väärtuste intervalle ja atribuudi esinemise suhtelisi sagedusi nendes intervallides.

Meie puhul saame moodustada näiteks järgmise intervalliga statistilise jada (N = 5, d= 4), tabel. 3.2.

Tabel 3.2.Intervallide statistilised seeriad

Siin sisaldab intervall 28-32 kahte väärtust, mis võrdub 28-ga (tabel 3.1), ja intervall 32-36 sisaldab väärtusi 32, 33, 34 ja 35.

Intervallide statistilisi seeriaid saab kujutada graafiliselt. Selleks joonistatakse atribuutide väärtuste intervallid piki abstsisstellge ja igaühele neist, nagu alusele, ehitatakse ristkülik, mille kõrgus on võrdne suhtelise sagedusega. Saadud tulpdiagrammi nimetatakse histogramm.

Riis. 3.1. tulpdiagramm

Histogrammil on karakteristiku jaotuse statistilised mustrid üsna selgelt nähtavad.

Suure valimi (mitu tuhat) ja väikese veeru laiusega on histogrammi kuju lähedane graafiku kujule jaotustihedus märk.

Histogrammi veergude arvu saab valida järgmise valemi abil:

Histogrammi käsitsi koostamine on pikk protsess. Seetõttu on nende automaatseks konstrueerimiseks välja töötatud arvutiprogrammid.

3.2. STATISTILISTE SERIADE NUMBRIKARAKTERISTIKUD

Paljud statistilised protseduurid kasutavad populatsiooni ootuste ja dispersiooni (või MSE) valimihinnanguid.

Näidiskeskmine(X) on lihtsa statistilise jada kõigi elementide aritmeetiline keskmine:

Meie näite jaoks X= 37,05 (m/s).

Valimi keskmine onparimüldine keskmine hinnangM.

Valimi dispersioon s 2 võrdne elementide valimi keskmisest kõrvalekallete ruudu summaga jagatuna n- 1:

Meie näites s 2 = 25,2 (m/s) 2.

Pange tähele, et valimi dispersiooni arvutamisel ei ole valemi nimetajaks valimi suurus n, vaid n-1. Selle põhjuseks on asjaolu, et valemi (3.3) hälvete arvutamisel kasutatakse tundmatu matemaatilise ootuse asemel selle hinnangut - proovi keskmine.

Valimi dispersioon on parimüldise dispersiooni hindamine (σ 2).

Näidis standardhälve(s) on valimi dispersiooni ruutjuur:

Meie näite jaoks s= 5,02 (m/s).

Valikuline ruutkeskmine hälve on üldise standardhälbe (σ) parim hinnang.

Valimi suuruse piiramatu suurenemise korral kalduvad kõik valimi tunnused üldkogumi vastavatele omadustele.

Valimikarakteristikute arvutamiseks kasutatakse arvutivalemeid. Excelis täidavad need arvutused statistilisi funktsioone AVERAGE, VARIANCE. STANDARDHÕLVE

3.3. INTERVALLI HINDAMINE

Kõik proovi omadused on juhuslikud muutujad. See tähendab, et teise sama suurusega valimi puhul on valimi omaduste väärtused erinevad. Seega valikuline

omadused on ainult hinnangud elanikkonna asjakohased omadused.

Valikuhindamise miinused kompenseeritakse intervalli hindamine, esindavad numbriline intervall mille sees etteantud tõenäosusega R d leitakse hinnangulise parameetri tegelik väärtus.

Lase U r - mingi üldkogumi parameeter (üldkeskmine, üldine dispersioon jne).

Intervallide hindamine parameetrit U r nimetatakse intervalliks (U 1, U 2), tingimuse rahuldamine:

P(U < Ur < U2) = Рд. (3.5)

Tõenäosus R d helistas usalduse tõenäosus.

Usalduse tõenäosus Pd - tõenäosus, et hinnangulise koguse tegelik väärtus on sees määratud intervall.

Sel juhul intervall (U 1, U 2) helistas usaldusvahemik hinnatava parameetri jaoks.

Tihti kasutatakse usaldustõenäosuse asemel seotud väärtust α = 1 - Р d, mida nn. olulisuse tase.

Olulisuse tase on tõenäosus, et hinnangulise parameetri tegelik väärtus on väljaspool usaldusvahemik.

Mõnikord väljendatakse α ja P d protsentides, näiteks 0,05 asemel 5% ja 0,95 asemel 95%.

Intervallide hindamisel valige esmalt sobiv usalduse tõenäosus(tavaliselt 0,95 või 0,99) ja seejärel leidke hinnatava parameetri jaoks sobiv väärtuste vahemik.

Märgime mõningaid intervallhinnangute üldisi omadusi.

1. Mida madalam on olulisuse tase (seda rohkem R d), mida laiem on intervalli hinnang. Seega, kui olulisuse tasemel 0,05 on üldkeskmise intervallhinnang 34,7< M< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < M< 40,25.

2. Mida suurem on valimi suurus n, seda kitsam on valitud olulisuse tasemega intervallhinnang. Olgu näiteks 5 20 elemendist koosneva valimi põhjal saadud üldkeskmise (β = 0,05) protsentuaalne hinnang, siis 34,7< M< 39,4.

Suurendades valimi suurust 80-ni, saame täpsema hinnangu samal olulisuse tasemel: 35,5< M< 38,6.

Üldiselt eeldab usaldusväärsete usaldushinnangute konstrueerimine seaduse tundmist, mille järgi hinnanguline juhuslik atribuut üldkogumis jaotub. Vaatame, kuidas konstrueeritakse intervallhinnang üldine keskmine tunnus, mis jaguneb populatsioonis vastavalt normaalne seadus.

3.4. NORMAALSE JAOTUSE SEADUSE ÜLDISE KESKMISE INTERVALLI HINNANG

Üldkeskmise M intervallhinnangu konstrueerimine normaaljaotusseadusega üldkogumile põhineb järgmisel omadusel. Proovivõtu mahu jaoks n suhtumine

järgib Studenti jaotust vabadusastmete arvuga ν = n- 1.

Siin X- näidise keskmine ja s- selektiivne standardhälve.

Studenti jaotustabelite või nende arvutiekvivalentide abil saate leida sellise piirväärtuse, mille puhul antud usalduse tõenäosusega kehtib järgmine ebavõrdsus:

See ebavõrdsus vastab M ebavõrdsusele:

Kus ε - usaldusvahemiku poollaius.

Seega tehakse M usaldusintervalli konstrueerimine järgmises järjestuses.

1. Valige usaldustõenäosus Р d (tavaliselt 0,95 või 0,99) ja leidke selle jaoks Studenti jaotustabeli abil parameeter t

2. Arvutage usaldusvahemiku ε poollaius:

3. Hankige valitud usaldustõenäosusega intervallhinnang üldkeskmisele:

Lühidalt on see kirjutatud nii:

Intervallide hinnangute leidmiseks on välja töötatud arvutiprotseduurid.

Selgitame, kuidas kasutada õpilaste jaotustabelit. Sellel tabelis on kaks "sissepääsu": vasakpoolne veerg, mida nimetatakse vabadusastmete arvuks ν = n- 1 ja ülemine rida on olulisuse tase α. Leia vastava rea ​​ja veeru ristumiskohast Student koefitsient t.

Rakendame seda meetodit oma proovile. Allpool on esitatud fragment õpilaste jaotustabelist.

Tabel 3.3. Fragment õpilaste jaotustabelist

Lihtne statistiline seeria 20-liikmelise valimi jaoks (n= 20, ν =19) on esitatud tabelis. 3.1. Selle seeria jaoks annavad valemite (3.1-3.3) arvutused: X= 37,05; s= 5,02.

Valime α = 0,05 (Р d = 0,95). Rea “19” ja veeru “0.05” ristumiskohas leiame t= 2,09.

Arvutame hinnangu täpsuse valemi (3.6) abil: ε = 2,09?5,02/λ /20 = 2,34.

Koostame intervallhinnangu: 95% tõenäosusega rahuldab tundmatu üldkeskmine ebavõrdsust:

37,05 - 2,34 < M< 37,05 + 2,34, или M= 37,05 ± 2,34 (m/s), Rd = 0,95.

3.5. STATISTILISTE HÜPOTEESIDE TESTIMISE MEETODID

Statistilised hüpoteesid

Enne statistilise hüpoteesi sõnastamist kaaluge järgmist näidet.

Kahe teatud haiguse ravimeetodi võrdlemiseks valiti välja kaks 20-liikmelist patsientide rühma ja neid raviti nende meetoditega. Iga patsiendi kohta registreeriti see protseduuride arv, mille järel saavutati positiivne mõju. Nende andmete põhjal leiti iga rühma valimi keskmised (X), valimi dispersioonid (s 2) ja proovi standardhälbed (s).

Tulemused on esitatud tabelis. 3.4.

Tabel 3.4

Positiivse efekti saavutamiseks vajalike protseduuride arv on juhuslik suurus, mille kohta kogu info antud valimis hetkel sisaldub.

Laualt 3.4 näitab, et esimese rühma valimi keskmine on väiksem kui teises. Kas see tähendab, et sama seos kehtib ka üldiste keskmiste kohta: M 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает hüpoteeside statistiline kontrollimine.

Statistiline hüpotees- see on oletus populatsioonide omaduste kohta.

Vaatleme hüpoteese omaduste kohta kaksüldpopulatsioonid.

Kui populatsioonidel on kuulus, identne hinnangulise väärtuse jaotus ja eeldused puudutavad väärtusi mingi parameeter sellest jaotusest, siis nimetatakse hüpoteese parameetriline. Näiteks võetakse proovid populatsioonidest tavaline seadus jaotus ja võrdne dispersioon. Vaja teada saada kas need on samad nende populatsioonide üldised keskmised.

Kui üldpopulatsioonide jaotusseadustest ei teata midagi, siis nimetatakse hüpoteese nende omaduste kohta mitteparameetriline. Näiteks, kas need on samadüldkogumite jaotusseadused, millest valimid võetakse.

Null- ja alternatiivsed hüpoteesid.

Hüpoteeside kontrollimise ülesanne. Olulisuse tase

Tutvume hüpoteeside kontrollimisel kasutatava terminoloogiaga.

H 0 - nullhüpotees (skeptiku hüpotees) on hüpotees erinevuste puudumise kohta võrreldavate proovide vahel. Skeptik usub, et uuringutulemustest saadud valimihinnangute erinevused on juhuslikud;

H 1- alternatiivne hüpotees (optimistlik hüpotees) on hüpotees võrreldavate valimite erinevuste olemasolu kohta. Optimist usub, et erinevused valimi hinnangute vahel on tingitud objektiivsetest põhjustest ja vastavad erinevustele üldistes populatsioonides.

Statistiliste hüpoteeside kontrollimine on teostatav ainult siis, kui on võimalik mõnda konstrueerida suurus(kriteerium), mille jaotusseadus õigluse korral H 0 kuulus. Siis saame selle koguse täpsustada usaldusvahemik, millesse etteantud tõenäosusega R d selle väärtus langeb. Seda intervalli nimetatakse kriitiline piirkond. Kui kriteeriumi väärtus langeb kriitilisse piirkonda, siis hüpotees aktsepteeritakse N 0. Vastasel juhul aktsepteeritakse hüpotees H 1.

Meditsiiniuuringutes kasutatakse P d = 0,95 või P d = 0,99. Need väärtused vastavad olulisuse tasemedα = 0,05 või α = 0,01.

Statistiliste hüpoteeside kontrollimiselolulisuse tase(α) on nullhüpoteesi tagasilükkamise tõenäosus, kui see on tõene.

Pange tähele, et hüpoteesi testimise protseduur on põhiliselt suunatud erinevuste tuvastamine ja mitte kinnitada nende puudumist. Kui kriteeriumi väärtus ületab kriitilist piirkonda, võime “skeptikule” puhta südamega öelda – no mida sa veel tahad?! Kui erinevusi poleks, siis tõenäosusega 95% (või 99%) jääks arvutatud väärtus etteantud piiridesse. Kuid mitte!..

Noh, kui kriteeriumi väärtus langeb kriitilisse piirkonda, siis pole põhjust arvata, et hüpotees H 0 on õige. See viitab tõenäoliselt ühele kahest võimalikust põhjusest.

1. Valimi suurused ei ole erinevuste tuvastamiseks piisavalt suured. On tõenäoline, et jätkuv katsetamine toob edu.

2. On erinevusi. Kuid need on nii väikesed, et neil pole praktilist tähtsust. Sel juhul pole katsete jätkamine mõttekas.

Vaatleme mõningaid meditsiinilistes uuringutes kasutatud statistilisi hüpoteese.

3.6. HÜPOTEESIDE TESTIMINE VARIATSIDE VÕRDSUSE, FISCHERI F-KRITEERIUMI KOHTA

Mõnedes kliinilistes uuringutes ei ilmne positiivne mõju mitte niivõrd suurusjärk uuritavast parameetrist, kui palju sellest stabiliseerimine, vähendades selle kõikumisi. Sel juhul tekib küsimus kahe üldise dispersiooni võrdlemise kohta valikuuringu tulemuste põhjal. Seda probleemi saab lahendada kasutades Fisheri test.

Probleemi sõnastamine

tavaline seadus distributsioonid. Näidiste suurused -

n 1 Ja n2, A näidisvariansid võrdne s 1 ja s 2 2 üldised kõrvalekalded.

Kontrollitavad hüpoteesid:

H 0- üldised kõrvalekalded on samad;

H 1- üldised kõrvalekalded on erinevad.

Näidatakse, kui proovid on võetud populatsioonidest, millel on tavaline seadus jaotus, siis kui hüpotees on tõene H 0 valimi dispersioonide suhe järgib Fisheri jaotust. Seega õigluse kontrollimise kriteeriumina H 0 väärtus on võetud F, arvutatakse valemiga:

Kus s 1 ja s 2 on valimi dispersioonid.

See suhe järgib Fisheri jaotust lugeja vabadusastmete arvuga ν 1 = n 1- 1 ja nimetaja vabadusastmete arv ν 2 = n 2 - 1. Kriitilise piirkonna piirid leitakse Fisheri jaotustabelite või arvutifunktsiooni BRASPOBR abil.

Tabelis esitatud näite jaoks. 3.4, saame: ν 1 = ν 2 = 20 - 1 = 19; F= 2,16/4,05 = 0,53. α = 0,05 korral on kriitilise piirkonna piirid vastavalt: = 0,40, = 2,53.

Kriteeriumi väärtus langeb kriitilisse piirkonda, seega hüpotees aktsepteeritakse H 0:üldised valimi dispersioonid on samad.

3.7. HÜPOTEESIDE TESTIMINE VAHENDITE VÕRDSUSE, ÕPILASTE t-KRITEERIUMI KOHTA

Võrdlusülesanne keskmine kaks üldist populatsiooni tekib siis, kui praktiline tähtsus on täpselt olemas suurusjärk uuritav omadus. Näiteks kui võrrelda kahe erineva meetodi ravi kestust või nende kasutamisest tulenevate tüsistuste arvu. Sel juhul saate kasutada Studenti t-testi.

Probleemi sõnastamine

Saadi kaks proovi (X 1) ja (X 2), mis ekstraheeriti üldpopulatsioonidest koos tavaline seadus levitamine ja identsed dispersioonid. Valimi suurused - n 1 ja n 2, näidis tähendab on võrdsed X 1 ja X 2 ning näidisvariansid- s 1 2 ja s 2 2 vastavalt. Vaja võrrelda üldised keskmised.

Kontrollitavad hüpoteesid:

H 0- üldised keskmised on samad;

H 1- üldised keskmised on erinevad.

Näidatakse, et kui hüpotees on tõene H 0 t väärtus arvutatakse järgmise valemiga:

jaotatud vastavalt Studenti seadusele vabadusastmete arvuga ν = ν 1 + + ν2 - 2.

Siin kus ν 1 = n 1 - 1 - esimese proovi vabadusastmete arv; ν 2 = n 2 - 1 - teise proovi vabadusastmete arv.

Kriitilise piirkonna piirid leitakse t-jaotustabelite või arvutifunktsiooni STUDRIST abil. Studenti jaotus on nulli suhtes sümmeetriline, seega on kriitilise piirkonna vasak ja parem piir suurusjärgus identne ja märgilt vastupidine: -ja

Tabelis esitatud näite jaoks. 3.4, saame:

ν 1 = ν 2 = 20 - 1 = 19; ν = 38, t= -2,51. Kui α = 0,05 = 2,02.

Kriteeriumi väärtus ületab kriitilise piirkonna vasakut piiri, seega nõustume hüpoteesiga H 1:üldised keskmised on erinevad. Samas rahvaarv keskmine esimene proov VÄHEM.

Studenti t-testi rakendatavus

Studenti t-test on rakendatav ainult proovide suhtes, mis pärinevad normaalne agregaadid koos identsed üldised dispersioonid. Kui vähemalt üks tingimus on rikutud, siis on kriteeriumi kohaldatavus küsitav. Üldrahvastiku normaalsuse nõuet tavaliselt eiratakse, viidates keskpiiri teoreem. Tõepoolest, valimi keskmiste erinevust lugejas (3.10) võib pidada normaaljaotuseks, kui ν > 30. Kuid dispersioonide võrdsuse küsimust ei saa kontrollida ja viiteid asjaolule, et Fisheri test erinevusi ei tuvastanud, ei saa võtta. arvesse. Kuid t-testi kasutatakse laialdaselt populatsiooni keskmiste erinevuste tuvastamiseks, kuigi ilma piisavate tõenditeta.

Allpool arutatakse mitteparameetriline kriteerium, mida edukalt kasutatakse samadel eesmärkidel ja mis ei nõua ühtegi normaalsus, ei kumbagi dispersioonide võrdsus.

3.8. KAHE NÄIDI MITTEPARAMETRILINE VÕRDLUS: MANN-WHITNEY KRITEERIUM

Mitteparameetrilised testid on loodud kahe populatsiooni jaotusseaduste erinevuste tuvastamiseks. Kriteeriumid, mis on üldiselt tundlikud erinevuste suhtes keskmine, nimetatakse kriteeriumiteks nihe Kriteeriumid, mis on üldiselt tundlikud erinevuste suhtes dispersioonid, nimetatakse kriteeriumiteks kaal. Mann-Whitney test viitab kriteeriumidele nihe ja seda kasutatakse kahe populatsiooni, mille proovid on esitatud, keskmiste erinevuste tuvastamiseks edetabeli skaala. Mõõdetud karakteristikud paiknevad sellel skaalal kasvavas järjekorras ja nummerdatakse seejärel täisarvudega 1, 2... Neid numbreid nimetatakse nn. auastmed. Võrdsetele kogustele omistatakse võrdsed auastmed. Tähtis pole atribuudi enda väärtus, vaid ainult tavaline koht mille ta teiste koguste hulka paigutab.

Tabelis 3.5. esimene rühm tabelist 3.4 on esitatud laiendatud kujul (rida 1), järjestatud (rida 2) ja seejärel asendatakse identsete väärtuste read aritmeetiliste keskmistega. Näiteks esimese rea üksustele 4 ja 4 anti auastmed 2 ja 3, mis seejärel asendati samade väärtustega 2,5.

Tabel 3.5

Probleemi sõnastamine

Sõltumatud proovid (X 1) Ja (X 2) eraldatud tundmatute levikuseadustega üldpopulatsioonidest. Proovide suurused n 1 Ja n 2 vastavalt. Näidiselementide väärtused on esitatud edetabeli skaala. Tuleb kontrollida, kas need üldpopulatsioonid erinevad üksteisest?

Kontrollitavad hüpoteesid:

H 0- valimid kuuluvad samasse üldkogumisse; H 1- proovid kuuluvad erinevatesse üldkogumitesse.

Selliste hüpoteeside kontrollimiseks kasutatakse (/-Mann-Whitney testi.

Esiteks koostatakse kahest valimist kombineeritud valim (X), mille elemendid järjestatakse. Seejärel leitakse esimese valimi elementidele vastavate astmete summa. See summa on hüpoteeside kontrollimise kriteerium.

U= Esimese valimi auastmete summa. (3.11)

Sõltumatute proovide puhul, mille maht on suurem kui 20, väärtus U järgib normaaljaotust, mille matemaatiline ootus ja standardhälve on võrdsed:

Seetõttu leitakse kriitilise piirkonna piirid normaaljaotuse tabelite järgi.

Tabelis esitatud näite jaoks. 3.4, saame: ν 1 = ν 2 = 20 - 1 = 19, U= 339, μ = 410, σ = 37. α = 0,05 korral saame: vasak = 338 ja parem = 482.

Kriteeriumi väärtus läheb kaugemale kriitilise piirkonna vasakust piirist, seetõttu aktsepteeritakse hüpotees H 1: üldpopulatsioonidel on erinevad jaotusseadused. Samas rahvaarv keskmine esimene proov VÄHEM.

Intervalljaotuse seeria koostamisel lahendatakse kolm küsimust:

  • 1. Mitu intervalli peaksin tegema?
  • 2. Mis on intervallide pikkus?
  • 3. Milline on rahvastiku ühikute intervallide piiridesse arvamise kord?
  • 1. Intervallide arv saab määrata Sturgessi valem:

2. Intervalli pikkus või intervalli samm, määratakse tavaliselt valemiga

Kus R- variatsiooni ulatus.

3. Rahvastikuüksuste kaasamise järjekord intervalli piiridesse

võib olla erinev, kuid intervalljada koostamisel peab jaotus olema rangelt määratletud.

Näiteks see: [), milles rahvastikuüksused sisalduvad alumistes piirides, kuid ei sisaldu ülemistes piirides, vaid kantakse üle järgmisele intervallile. Erandiks sellest reeglist on viimane intervall, mille ülemine piir sisaldab järjestatud seeria viimast numbrit.

Intervallide piirid on järgmised:

  • suletud - atribuudi kahe äärmusliku väärtusega;
  • avatud - atribuudi ühe äärmusliku väärtusega (enne selline ja selline number või läbi selline ja selline number).

Teoreetilise materjali assimileerimiseks tutvustame taustainfo lahenduste jaoks otsast lõpuni ülesanne.

Esialgu on tinglikud andmed müügijuhtide keskmise arvu, nende müüdud sarnaste kaupade koguse, selle toote individuaalse turuhinna, samuti 30 ettevõtte müügimahu kohta ühes Vene Föderatsiooni piirkonnas. aruandeaasta kvartalis (tabel 2.1).

Tabel 2.1

Alginfo läbiva ülesande jaoks

Number

juhid,

Hind, tuhat rubla

Müügimaht, miljon rubla.

Number

juhid,

Müüdud kauba kogus, tk.

Hind, tuhat rubla

Müügimaht, miljon rubla.

Esialgse info, aga ka lisainfo alusel paneme paika individuaalsed tööülesanded. Seejärel tutvustame nende lahendamise metoodikat ja lahendusi endid.

Läbiv ülesanne. Ülesanne 2.1

Tabeli algandmete kasutamine. 2.1 nõutav konstrueerida diskreetne seeria ettevõtete jaotusest müüdud kaupade koguse järgi (tabel 2.2).

Lahendus:

Tabel 2.2

Ettevõtete diskreetne jaotus aruandeaasta esimeses kvartalis ühes Vene Föderatsiooni piirkonnas müüdud kaupade koguse järgi

Läbiv ülesanne. Ülesanne 2.2

nõutud koostage 30 ettevõttest koosnev järjestatud seeria vastavalt juhtide keskmisele arvule.

Lahendus:

15; 17; 18; 20; 20; 20; 22; 22; 24; 25; 25; 25; 27; 27; 27; 28; 29; 30; 32; 32; 33; 33; 33; 34; 35; 35; 38; 39; 39; 45.

Läbiv ülesanne. Ülesanne 2.3

Tabeli algandmete kasutamine. 2.1, nõutud:

  • 1. Koostage ettevõtete jaotuse intervallseeria juhtide arvu järgi.
  • 2. Arvutage ettevõtete jaotussarjade sagedused.
  • 3. Tee järeldused.

Lahendus:

Arvutame Sturgessi valemiga (2.5) intervallide arv:

Seega võtame 6 intervalli (rühma).

Intervalli pikkus, või intervall samm, arvutage valemi abil

Märge. Rahvastiku üksuste kaasamise järjekord intervalli piiridesse on järgmine: I), milles rahvastikuüksused arvatakse alumistesse piiridesse, kuid ei sisaldu ülemistes piirides, vaid kantakse üle järgmisse intervalli. Erandiks sellest reeglist on viimane intervall I ], mille ülemine piir sisaldab järjestatud seeria viimast numbrit.

Koostame intervallrea (tabel 2.3).

Ettevõtete jaotus ja keskmine juhtide arv ühes Vene Föderatsiooni piirkonnas aruandeaasta esimeses kvartalis

Järeldus. Suurim ettevõtete rühm on 25-30 inimese keskmise juhtide arvuga grupp, kuhu kuulub 8 ettevõtet (27%); Kõige väiksemasse gruppi, kus on keskmiselt 40-45 inimest, kuulub vaid üks ettevõte (3%).

Tabeli algandmete kasutamine. 2.1, samuti ettevõtete jaotuse intervallrida juhtide arvu järgi (tabel 2.3), nõutud luua analüütiline rühmitus juhtide arvu ja ettevõtete müügimahu vahelise seose kohta ning selle põhjal teha järeldus nende tunnuste vahelise seose olemasolu (või puudumise) kohta.

Lahendus:

Analüütiline rühmitamine põhineb tegurite omadustel. Meie ülesandes on faktorikarakteristikuks (x) juhtide arv ja resultanttunnuseks (y) müügimaht (tabel 2.4).

Ehitame nüüd analüütiline rühmitus(Tabel 2.5).

Järeldus. Konstrueeritud analüütilise rühmituse andmete põhjal võime öelda, et müügijuhtide arvu suurenemisega suureneb ka kontsernis oleva ettevõtte keskmine müügimaht, mis viitab otsese seose olemasolule nende tunnuste vahel.

Tabel 2.4

Abitabel analüütilise rühmituse koostamiseks

Juhtide arv, inimesed,

Ettevõtte number

Müügimaht, miljonit rubla, a

" = 59 f = 9,97

I-™ 4 - Yu.22

74 '25 1PY1

U4 = 7 = 10,61

juures = ’ =10,31 30

Tabel 2.5

Müügimahtude sõltuvus ettevõtte juhtide arvust ühes Vene Föderatsiooni piirkonnas aruandeaasta esimeses kvartalis

KONTROLLKÜSIMUSED
  • 1. Mis on statistilise vaatluse olemus?
  • 2. Nimeta statistilise vaatluse etapid.
  • 3. Millised on statistilise vaatluse organisatsioonilised vormid?
  • 4. Nimeta statistilise vaatluse liigid.
  • 5. Mis on statistiline kokkuvõte?
  • 6. Nimeta statistiliste aruannete liigid.
  • 7. Mis on statistiline rühmitamine?
  • 8. Nimetage statistiliste rühmituste tüübid.
  • 9. Mis on jaotusseeria?
  • 10. Nimetage jaotusrea struktuurielemendid.
  • 11. Milline on jaotusseeria koostamise protseduur?

Konkreetset nähtust iseloomustavate statistiliste vaatlusandmete olemasolul tuleb need ennekõike korrastada, s.t. annavad süstemaatilise iseloomu

Inglise statistik. UJReichman ütles piltlikult korrastamata kogude kohta, et üldistamata andmete massiga kokku puutumine on samaväärne olukorraga, kus inimene visatakse ilma kompassita tihnikusse. Mis on statistiliste andmete süstematiseerimine jaotusridade kujul?

Jaotuste statistilised seeriad on järjestatud statistilised agregaadid (tabel 17). Lihtsaim statistilise jaotusrea tüüp on järjestatud jada, s.o. kasvavas või kahanevas järjestuses numbrite jada, mille tunnused on erinevad. Selline jada ei võimalda hinnata hajutatud andmetele omaseid mustreid: millise väärtusega on rühmitatud suurem osa näitajaid, millised kõrvalekalded sellest väärtusest on; samuti üldine levikupilt. Selleks rühmitatakse andmed, näidates, kui sageli üksikvaatlusi nende koguarvus esineb (skeem 1a 1).

. Tabel 17

. Statistiliste jaotusridade üldvaade

. Skeem 1. Statistiline skeem levitamise seeriad

Nimetatakse populatsiooniüksuste jaotust tunnuste järgi, millel puudub kvantitatiivne väljendus atribuutne seeria(näiteks ettevõtete jaotus tootmispiirkonna järgi)

Nimetatakse kvantitatiivse avaldisega populatsiooniüksuste jaotuse seeriaid tunnuste järgi variatsiooni seeria. Sellistes seeriates on tunnuse (valikud) väärtused kasvavas või kahanevas järjekorras

Variatsioonijaotuse seerias eristatakse kahte elementi: variant ja sagedus . Võimalus- see on rühmitamise tunnuste eraldi tähendus sagedus- arv, mis näitab, mitu korda iga valik esineb

Matemaatilises statistikas arvutatakse veel üks variatsioonirea element - osaliselt. Viimane on määratletud kui antud intervalli juhtumite sageduse suhe sageduste kogusummasse; osa määratakse ühiku murdosades, protsentides (%) ppm-des (%o)

Seega on variatsioonijaotuse seeria jada, milles valikud on järjestatud kasvavas või kahanevas järjekorras ning märgitud on nende sagedused või sagedused. Variatsiooniread on diskreetsed (intervallid) ja muud intervallid (pidev).

. Diskreetsed variatsiooniseeriad- need on jaotusread, milles variant kvantitatiivse tunnuse väärtusena saab omandada ainult teatud väärtuse. Valikud erinevad üksteisest ühe või mitme ühiku võrra

Seega saab konkreetse töötaja poolt vahetuses toodetud osade arvu väljendada ainult ühe kindla arvuga (6, 10, 12 jne). Diskreetse variatsioonirea näiteks võiks olla töötajate jaotus toodetud osade arvu järgi (tabel 18 18).

. Tabel 18

. Diskreetsete seeriajaotus _

. Intervall (pidev) variatsiooniseeria- sellised jaotussarjad, milles optsioonide väärtus on antud intervallidena, s.o. tunnuste väärtused võivad üksteisest suvaliselt vähe erineda. NEP peri-variandi karakteristikute variatsiooniseeria koostamisel on variandi iga väärtust võimatu näidata, mistõttu populatsioon jaotatakse intervallide vahel. Viimased võivad olla võrdsed või ebavõrdsed. Igaühele neist on märgitud sagedused või sagedused (tabel 1 9 19).

Ebavõrdsete intervallidega intervalljaotussarjades arvutatakse matemaatilised omadused, nagu jaotustihedus ja suhteline jaotustihedus antud intervallil. Esimene omadus määratakse sageduse ja sama intervalli väärtuse suhtega, teine ​​- sageduse ja sama intervalli väärtuse suhtega. Ülaltoodud näite puhul on jaotustihedus esimeses intervallis 3: 5 = 0,6 ja suhteline tihedus selles intervallis on 7,5: 5 = 1,55%.

. Tabel 19

. Intervalljaotuse seeriad _

Diskreetsete karakteristikute jaoks on koostatud diskreetne variatsiooniseeria.

Diskreetse variatsiooniseeria koostamiseks peate tegema järgmised sammud: 1) järjestama vaatlusühikud tunnuse uuritud väärtuse järgi kasvavas järjekorras,

2) määrata atribuudi x i kõik võimalikud väärtused, järjestada need kasvavas järjekorras,

atribuudi väärtus, i .

atribuudi väärtuse sagedus ja tähistada f i . Sarja kõigi sageduste summa on võrdne uuritava populatsiooni elementide arvuga.

Näide 1 .

Õpilaste eksamitel saadud hinnete loetelu: 3; 4; 3; 5; 4; 2; 2; 4; 4; 3; 5; 2; 4; 5; 4; 3; 4; 3; 3; 4; 4; 2; 2; 5; 5; 4; 5; 2; 3; 4; 4; 3; 4; 5; 2; 5; 5; 4; 3; 3; 4; 2; 4; 4; 5; 4; 3; 5; 3; 5; 4; 4; 5; 4; 4; 5; 4; 5; 5; 5.

Siin on number X - hinneon diskreetne juhuslik suurus ja sellest tulenev hinnangute loend onstatistilised (jälgitavad) andmed .

    Järjesta vaatlusüksused uuritud tunnusväärtuse järgi kasvavas järjekorras:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) määrake atribuudi x i kõik võimalikud väärtused, järjestage need kasvavas järjekorras:

Selles näites saab kõik hinnangud jagada nelja rühma järgmiste väärtustega: 2; 3; 4; 5.

Nimetatakse juhusliku muutuja väärtust, mis vastab konkreetsele vaadeldavate andmete rühmale atribuudi väärtus, valik (valik) ja määrake x i .

Nimetatakse arvu, mis näitab, mitu korda esineb tunnuse vastav väärtus mitmes vaatluses atribuudi väärtuse sagedus ja tähistada f i .

Meie näite jaoks

skoor 2 esineb - 8 korda,

skoor 3 esineb - 12 korda,

skoor 4 esineb - 23 korda,

skoor 5 esineb - 17 korda.

Kokku on 60 hinnangut.

4) kirjutage saadud andmed kahe rea (veeru) - x i ja f i - tabelisse.

Nende andmete põhjal on võimalik koostada diskreetne variatsiooniseeria

Diskreetsed variatsiooniseeriad - see on tabel, kus uuritava tunnuse esinevad väärtused on näidatud üksikute väärtustena kasvavas järjekorras ja nende sagedused

  1. Intervallvariatsiooniseeria konstrueerimine

Lisaks diskreetsetele variatsiooniseeriatele kasutatakse sageli andmete rühmitamise meetodit, näiteks intervallvariatsioonirida.

Intervalli seeria koostatakse, kui:

    märgil on pidev muutumise iseloom;

    Diskreetseid väärtusi oli palju (üle 10)

    diskreetsete väärtuste sagedused on väga väikesed (mitte üle 1-3 suhteliselt suure hulga vaatlusüksustega);

    palju samade sagedustega funktsiooni diskreetseid väärtusi.

Intervallide variatsiooniseeria on viis andmete rühmitamiseks tabeli kujul, millel on kaks veergu (karakteristiku väärtused väärtuste intervalli kujul ja iga intervalli sagedus).

Erinevalt diskreetsest seeriast ei kujuta intervallide seeria tunnuse väärtusi mitte üksikud väärtused, vaid väärtuste intervall (“alates - kuni”).

Kutsutakse numbrit, mis näitab, mitu vaatlusüksust igasse valitud intervalli sattus atribuudi väärtuse sagedus ja tähistada f i . Sarja kõigi sageduste summa on võrdne uuritava populatsiooni elementide (vaatlusühikute) arvuga.

Kui ühiku tunnusväärtus on võrdne intervalli ülempiiriga, tuleb see määrata järgmisele intervallile.

Näiteks 100 cm pikkune laps langeb teise intervalli, mitte esimesse; ja 130 cm pikkune laps langeb viimasesse intervalli, mitte kolmandasse.

Nende andmete põhjal saab koostada intervalli variatsioonirea.

Igal intervallil on alumine piir (xn), ülemine piir (xv) ja intervalli laius ( i).

Intervalli piir on atribuudi väärtus, mis asub kahe intervalli piiril.

laste pikkus (cm)

laste pikkus (cm)

laste hulk

rohkem kui 130

Kui intervallil on ülemine ja alumine piir, siis seda nimetatakse suletud intervall. Kui intervallil on ainult alumine või ainult ülemine piir, siis on see - avatud intervall. Avatud saab olla ainult kõige esimene või kõige viimane intervall. Ülaltoodud näites on viimane intervall avatud.

Intervalli laius (i) – erinevus ülemise ja alumise piiri vahel.

i = x n - x in

Eeldatakse, et avatud intervalli laius on sama, mis külgneva suletud intervalli laius.

laste pikkus (cm)

laste hulk

Intervalli laius (i)

arvutusteks 130+20=150

20 (kuna külgneva suletud intervalli laius on 20)

Kõik intervallide seeriad jagunevad võrdsete intervallidega intervallisarjadeks ja ebavõrdsete intervallidega intervallisarjadeks . Võrdsete intervallidega vahedega ridades on kõigi intervallide laius ühesugune. Ebavõrdsete intervallidega intervallsarjades on intervallide laius erinev.

Vaadeldavas näites - ebavõrdsete intervallidega intervallide jada.

Laboritöö nr 1

Matemaatilise statistika järgi

Teema: Katseandmete esmane töötlemine

3. Skoor punktides. 1

5. Testi küsimused.. 2

6. Laboratoorsete tööde tegemise metoodika.. 3

Töö eesmärk

Empiiriliste andmete esmase töötlemise oskuste omandamine matemaatilise statistika meetodeid kasutades.

Kõigi katseandmete põhjal täitke järgmised ülesanded.

1. harjutus. Koostage intervallvariatsiooni jaotusseeria.

2. ülesanne. Koostage intervallide variatsioonirea sageduste histogramm.

3. ülesanne. Looge empiiriline jaotusfunktsioon ja koostage graafik.

a) mood ja mediaan;

b) tingimuslikud algmomendid;

c) valimi keskmine;

d) valimi dispersioon, korrigeeritud populatsiooni dispersioon, korrigeeritud standardhälve;

e) variatsioonikoefitsient;

f) asümmeetria;

g) kurtoos;

5. ülesanne. Määrake uuritava juhusliku suuruse arvuliste karakteristikute tegelike väärtuste piirid antud usaldusväärsusega.

6. ülesanne. Esmatöötluse tulemuste sisupõhine tõlgendamine vastavalt ülesande tingimustele.

Skoor punktides

Ülesanded 1-56 punkti

6. ülesanne2 punkti

Laboritööde kaitsmine(suuline intervjuu testiküsimuste ja laboritööde kohta) - 2 punkti

Töö tuleb esitada kirjalikus vormis A4 lehtedel ja sisaldab:

1) Tiitelleht (lisa 1)

2) Algandmed.

3) Töö esitamine määratud näidise järgi.

4) Arvestustulemused (tehtud käsitsi ja/või MS Exceli abil) määratud järjekorras.

5) Järeldused - esmase töötlemise tulemuste mõtestatud tõlgendamine vastavalt probleemi tingimustele.

6) Suuline intervjuu töö- ja kontrollküsimustega.



5. Testi küsimused


Laboritööde tegemise metoodika

Ülesanne 1. Koostage intervallvariatsiooniline jaotusrida

Statistiliste andmete esitamiseks võrdsete vahedega variantidega variatsiooniridade kujul on vaja:

1. Otsige algses andmetabelist väikseimad ja suurimad väärtused.

2. Defineeri variatsiooni ulatus :

3. Määrake intervalli h pikkus, kui valim sisaldab kuni 1000 andmeid, kasutage valemit: , kus n – valimi suurus – andmete hulk valimis; arvutamiseks võtke lgn).

Arvutatud suhe ümardatakse mugav täisarv .

4. Esimese intervalli alguse määramiseks paarisarvu intervallidele on soovitatav võtta väärtus ; ja paaritu arvu intervallide puhul .

5. Kirjutage üles rühmitamise intervallid ja järjestage need piiride kasvavas järjekorras

, ,………., ,

kus on esimese intervalli alumine piir. Võetakse mugav arv, mis ei ole suurem kui , viimase intervalli ülempiir ei tohiks olla väiksem kui . Soovitatav on, et intervallid sisaldaksid juhusliku suuruse algväärtusi ja oleksid neist eraldatud 5 kuni 20 intervallidega.

6. Pane kirja algandmed rühmitamisintervallide kohta, s.o. kasutage lähtetabelit, et arvutada kindlaksmääratud intervallidesse jäävate juhuslike muutujate väärtuste arv. Kui mõned väärtused langevad kokku intervallide piiridega, siis omistatakse need kas ainult eelmisele või ainult järgnevale intervallile.

Märkus 1. Intervallid ei pea olema võrdse pikkusega. Piirkondades, kus väärtused on tihedamad, on mugavam võtta väiksemaid, lühikesi intervalle ja kus on harvem, suuremaid.

Märkus 2.Kui mõne väärtuse puhul saadakse “null” või väikesed sagedusväärtused, siis on vaja andmed ümber grupeerida, suurendades intervalle (suurendades sammu).