Hvad er en intervaldataserie? Konstruktion af intervalvariationsserier for kontinuerlige kvantitative data

Matematik statistik- en gren af ​​matematik, der er viet til matematiske metoder til behandling, systematisering og brug af statistiske data til videnskabelige og praktiske konklusioner.

3.1. GRUNDLÆGGENDE KONCEPT FOR MATEMATISK STATISTIK

I medicinske og biologiske problemer er det ofte nødvendigt at undersøge fordelingen af ​​en bestemt karakteristik for et meget stort antal individer. Denne egenskab har forskellige betydninger for forskellige individer, så det er en tilfældig variabel. For eksempel har ethvert terapeutisk lægemiddel forskellig effektivitet, når det anvendes til forskellige patienter. Men for at få en idé om effektiviteten af ​​dette lægemiddel, er det ikke nødvendigt at anvende det på alle sammen syg. Det er muligt at spore resultaterne af brugen af ​​lægemidlet til en relativt lille gruppe patienter og, baseret på de opnåede data, identificere de væsentlige træk (effektivitet, kontraindikationer) af behandlingsprocessen.

Befolkning- et sæt homogene elementer karakteriseret ved en egenskab, der skal studeres. Dette tegn er sammenhængende tilfældig variabel med fordelingstæthed f(x).

For eksempel, hvis vi er interesseret i forekomsten af ​​en sygdom i en bestemt region, så er den generelle befolkning hele befolkningen i regionen. Hvis vi ønsker at finde ud af mænds og kvinders modtagelighed for denne sygdom separat, bør vi overveje to generelle populationer.

For at studere egenskaberne for en generel befolkning vælges en bestemt del af dens elementer.

Prøve- en del af den almindelige befolkning udvalgt til undersøgelse (behandling).

Hvis dette ikke forårsager forvirring, kaldes en prøve som et sæt genstande, udvalgt til undersøgelsen, og helhed

værdier den undersøgte egenskab opnået under eksamen. Disse værdier kan repræsenteres på flere måder.

Simpel statistisk serie - værdier af den karakteristik, der undersøges, registreret i den rækkefølge, de blev opnået.

Et eksempel på en simpel statistisk serie opnået ved at måle overfladebølgehastigheden (m/s) i pandens hud hos 20 patienter er givet i tabel. 3.1.

Tabel 3.1.Simpel statistisk serie

En simpel statistisk serie er den vigtigste og mest komplette måde at registrere undersøgelsesresultater på. Det kan indeholde hundredvis af elementer. Det er meget svært at se på sådan en helhed med ét blik. Derfor opdeles store prøver normalt i grupper. For at gøre dette er ændringsområdet i karakteristikken opdelt i flere (N) intervaller samme bredde og beregn de relative frekvenser (n/n) af den attribut, der falder ind under disse intervaller. Bredden af ​​hvert interval er:

Intervalgrænserne har følgende betydning:

Hvis et prøveelement er grænsen mellem to tilstødende intervaller, klassificeres det som venstre interval. Data grupperet på denne måde kaldes interval statistiske serier.

er en tabel, der viser intervaller af attributværdier og de relative frekvenser for forekomst af attributten inden for disse intervaller.

I vores tilfælde kan vi for eksempel danne følgende intervalstatistiske serier (N = 5, d= 4), tabel. 3.2.

Tabel 3.2.Interval statistiske serier

Her inkluderer intervallet 28-32 to værdier svarende til 28 (tabel 3.1), og intervallet 32-36 indeholder værdierne 32, 33, 34 og 35.

En intervalstatistisk serie kan afbildes grafisk. For at gøre dette er intervaller af attributværdier plottet langs abscisse-aksen, og på hver af dem, som på en base, bygges et rektangel med en højde svarende til den relative frekvens. Det resulterende søjlediagram kaldes histogram.

Ris. 3.1. søjlediagram

I histogrammet er de statistiske mønstre for fordelingen af ​​karakteristikken ret tydeligt synlige.

Med en stor prøvestørrelse (flere tusinde) og små søjlebredder er formen af ​​histogrammet tæt på formen af ​​grafen fordelingstæthed skilt.

Antallet af histogramkolonner kan vælges ved hjælp af følgende formel:

At konstruere et histogram manuelt er en lang proces. Derfor er der udviklet computerprogrammer til automatisk at konstruere dem.

3.2. NUMERISKE KARAKTERISTIKA FOR STATISTISKE SERIER

Mange statistiske procedurer bruger stikprøveestimater for populationens forventninger og varians (eller MSE).

Prøvemiddel(X) er det aritmetiske gennemsnit af alle elementer i en simpel statistisk serie:

For vores eksempel x= 37,05 (m/s).

Prøvens gennemsnit erdet bedstegenerelt gennemsnits-estimatM.

Prøvevarians s 2 lig med summen af ​​kvadrerede afvigelser af elementer fra prøvegennemsnittet, divideret med n- 1:

I vores eksempel er s 2 = 25,2 (m/s) 2.

Bemærk venligst, at når stikprøvevariansen beregnes, er nævneren i formlen ikke stikprøvestørrelsen n, men n-1. Dette skyldes det faktum, at ved beregning af afvigelser i formel (3.3), i stedet for den ukendte matematiske forventning, bruges dens estimat - prøvegennemsnit.

Prøvevarians er det bedste estimering af generel varians (σ 2).

Eksempel på standardafvigelse(s) er kvadratroden af ​​stikprøvevariansen:

For vores eksempel s= 5,02 (m/s).

Selektiv geometriske middelværdi afvigelse er det bedste skøn over den generelle standardafvigelse (σ).

Med en ubegrænset stigning i stikprøvestørrelsen har alle stikprøvekarakteristika tendens til de tilsvarende karakteristika for den generelle befolkning.

Computerformler bruges til at beregne prøvekarakteristika. I Excel udfører disse beregninger de statistiske funktioner AVERAGE, VARIANCE. STANDARDAFVIGELSE

3.3. INTERVALVURDERING

Alle prøvekarakteristika er tilfældige variable. Dette betyder, at for en anden prøve af samme størrelse vil værdierne af prøvekarakteristika være forskellige. Altså selektiv

egenskaber er kun skøn relevante karakteristika for befolkningen.

Ulemperne ved selektiv vurdering kompenseres af interval estimering, repræsenterer numerisk interval indeni som med en given sandsynlighed R d den sande værdi af den estimerede parameter findes.

Lade U r - en eller anden parameter for den generelle befolkning (generel middelværdi, generel varians osv.).

Interval estimering parameter U r kaldes intervallet (U 1, U 2), opfylder betingelsen:

P(U < Ur < U2) = Рд. (3.5)

Sandsynlighed R d hedder tillidssandsynlighed.

Tillidssandsynlighed Pd - sandsynligheden for, at den sande værdi af den estimerede mængde er inde det angivne interval.

I dette tilfælde intervallet (U 1, U 2) hedder konfidensinterval for den parameter, der estimeres.

Ofte bruges i stedet for konfidenssandsynligheden den tilhørende værdi α = 1 - Р d, som kaldes betydningsniveau.

Betydningsniveau er sandsynligheden for, at den sande værdi af den estimerede parameter er uden for konfidensinterval.

Nogle gange er α og P d udtrykt i procent, for eksempel 5 % i stedet for 0,05 og 95 % i stedet for 0,95.

Ved intervalestimering skal du først vælge det relevante tillidssandsynlighed(normalt 0,95 eller 0,99), og find derefter det passende værdiområde for den parameter, der estimeres.

Lad os bemærke nogle generelle egenskaber ved intervalestimater.

1. Jo lavere betydningsniveau (jo mere R d), jo bredere intervalestimat. Så hvis på et signifikansniveau på 0,05 er intervalestimatet for det generelle middel 34,7< M< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < M< 40,25.

2. Jo større stikprøvestørrelsen n, jo smallere intervalestimat med det valgte signifikansniveau. Lad for eksempel 5 være det procentvise estimat af det generelle gennemsnit (β = 0,05) opnået fra en prøve på 20 elementer, derefter 34,7< M< 39,4.

Ved at øge stikprøvestørrelsen til 80 får vi et mere præcist estimat på samme signifikansniveau: 35,5< M< 38,6.

Generelt kræver konstruktionen af ​​pålidelige konfidensestimater kendskab til den lov, hvorefter den estimerede tilfældige attribut er fordelt i befolkningen. Lad os se på, hvordan et intervalestimat er opbygget generelt gennemsnit egenskab, der er fordelt i befolkningen iflg normal lov.

3.4. INTERVAL ESTIMATION AF DET GENERELLE GENNEMSNITT FOR NORMAL DISTRIBUTIONSLOVEN

Konstruktionen af ​​et intervalestimat af det generelle gennemsnit M for en befolkning med en normalfordelingslov er baseret på følgende egenskab. Til prøveudtagningsvolumen n holdning

adlyder Student-fordelingen med antallet af frihedsgrader ν = n- 1.

Her x- prøvegennemsnit, og s- selektiv standardafvigelse.

Ved at bruge elevfordelingstabeller eller deres computerækvivalent kan du finde en grænseværdi, således at følgende ulighed gælder med en given konfidenssandsynlighed:

Denne ulighed svarer til uligheden for M:

Hvor ε - halv bredde af konfidensintervallet.

Konstruktionen af ​​et konfidensinterval for M udføres således i følgende rækkefølge.

1. Vælg en konfidenssandsynlighed Р d (normalt 0,95 eller 0,99), og find parameteren t ved hjælp af elevfordelingstabellen.

2. Beregn halvbredden af ​​konfidensintervallet ε:

3. Få et intervalestimat af det generelle gennemsnit med den valgte konfidenssandsynlighed:

Det er kort skrevet sådan:

Der er udviklet computerprocedurer til at finde intervalestimater.

Lad os forklare, hvordan man bruger elevfordelingstabellen. Denne tabel har to "indgange": den venstre kolonne, kaldet antallet af frihedsgrader ν = n- 1, og den øverste linje er signifikansniveauet α. Find elevkoefficienten i skæringspunktet mellem den tilsvarende række og kolonne t.

Lad os anvende denne metode på vores prøve. Et fragment af elevfordelingstabellen er præsenteret nedenfor.

Tabel 3.3. Fragment af elevfordelingstabellen

En simpel statistisk serie for en stikprøve på 20 personer (n= 20, ν =19) er vist i tabel. 3.1. For denne serie giver beregninger ved hjælp af formlerne (3.1-3.3): x= 37,05; s= 5,02.

Lad os vælge a = 0,05 (Rd = 0,95). I skæringspunktet mellem række "19" og kolonne "0.05" finder vi t= 2,09.

Lad os beregne nøjagtigheden af ​​estimatet ved hjælp af formlen (3.6): ε = 2.09?5.02/λ /20 = 2.34.

Lad os konstruere et intervalestimat: med en sandsynlighed på 95 % opfylder det ukendte generelle middel uligheden:

37,05 - 2,34 < M< 37,05 + 2,34, или M= 37,05 ± 2,34 (m/s), Rd = 0,95.

3.5. METODER TIL AT TESTE STATISTISKE HYPOTESER

Statistiske hypoteser

Inden du formulerer, hvad en statistisk hypotese er, skal du overveje følgende eksempel.

For at sammenligne to metoder til behandling af en bestemt sygdom blev to grupper af patienter på hver 20 personer udvalgt og behandlet ved hjælp af disse metoder. For hver patient blev det registreret antal procedurer, hvorefter en positiv effekt blev opnået. Baseret på disse data, prøvegennemsnit (X), blev prøvevarianser fundet for hver gruppe (s 2) og prøve standardafvigelser (s).

Resultaterne er præsenteret i tabel. 3.4.

Tabel 3.4

Antallet af procedurer, der kræves for at opnå en positiv effekt, er en tilfældig variabel, som i øjeblikket er indeholdt i den givne prøve.

Fra bordet 3.4 viser, at stikprøvegennemsnittet i den første gruppe er mindre end i den anden. Betyder det, at det samme forhold gælder for generelle gennemsnit: M 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает statistisk test af hypoteser.

Statistisk hypotese- det er en antagelse om populationers egenskaber.

Vi vil overveje hypoteser om egenskaberne to almindelige befolkninger.

Hvis befolkningerne har berømt, identisk fordeling af den værdi, der estimeres, og forudsætningerne vedrører værdierne nogle parameter af denne fordeling, så kaldes hypoteserne parametrisk. For eksempel udtages prøver fra populationer med normal lov fordeling og lige varians. Skal finde ud af det er de ens generelle gennemsnit af disse populationer.

Hvis intet er kendt om lovene for fordeling af generelle befolkninger, kaldes hypoteser om deres egenskaber ikke-parametrisk. For eksempel, er de ens fordelingslovene for de generelle populationer, som prøverne er trukket fra.

Nul og alternative hypoteser.

Opgaven med at teste hypoteser. Betydningsniveau

Lad os stifte bekendtskab med den terminologi, der bruges, når vi tester hypoteser.

H 0 - nulhypotese (skeptikers hypotese) er en hypotese om fraværet af forskelle mellem sammenlignede prøver. Skeptikeren mener, at forskellene mellem stikprøveestimater opnået fra forskningsresultater er tilfældige;

H 1- alternativ hypotese (optimistisk hypotese) er en hypotese om tilstedeværelsen af ​​forskelle mellem de sammenlignede prøver. En optimist mener, at forskelle mellem stikprøveestimater er forårsaget af objektive årsager og svarer til forskelle i generelle populationer.

Det er kun muligt at teste statistiske hypoteser, når det er muligt at konstruere nogle størrelse(kriterium), hvis fordelingslov i tilfælde af rimelighed H 0 berømt. Så for denne mængde kan vi specificere konfidensinterval, hvori med en given sandsynlighed R d dens værdi falder. Dette interval kaldes kritisk område. Hvis kriterieværdien falder ind i det kritiske område, accepteres hypotesen N 0. Ellers accepteres hypotese H 1.

I medicinsk forskning anvendes P d = 0,95 eller P d = 0,99. Disse værdier stemmer overens betydningsniveauerα = 0,05 eller α = 0,01.

Ved test af statistiske hypoteserbetydningsniveau(α) er sandsynligheden for at forkaste nulhypotesen, når den er sand.

Bemærk venligst, at hypotesetestproceduren i sin kerne er rettet mod opdage forskelle og ikke for at bekræfte deres fravær. Når kriterieværdien går ud over den kritiske region, kan vi med et rent hjerte sige til "skeptikeren" - ja, hvad vil du ellers?! Hvis der ikke var nogen forskelle, ville den beregnede værdi med en sandsynlighed på 95% (eller 99%) være inden for de angivne grænser. Men nej!..

Nå, hvis værdien af ​​kriteriet falder i det kritiske område, så er der ingen grund til at tro, at hypotesen H 0 er korrekt. Dette peger højst sandsynligt på en af ​​to mulige årsager.

1. Prøvestørrelser er ikke store nok til at opdage forskelle. Det er sandsynligt, at fortsatte eksperimenter vil bringe succes.

2. Der er forskelle. Men de er så små, at de ikke har nogen praktisk betydning. I dette tilfælde giver det ikke mening at fortsætte eksperimenterne.

Lad os gå videre til at overveje nogle statistiske hypoteser, der bruges i medicinsk forskning.

3.6. TESTE HYPOTESER OM VARIANSLIGHED, FISCHERS F-KRITERION

I nogle kliniske undersøgelser er den positive effekt påvist ikke så meget størrelse af den parameter, der undersøges, hvor meget af den stabilisering, reducere dens udsving. I dette tilfælde opstår spørgsmålet om at sammenligne to generelle afvigelser baseret på resultaterne af en stikprøveundersøgelse. Dette problem kan løses vha Fishers test.

Formulering af problemet

normal lov distributioner. Prøvestørrelser -

n 1 Og n2, EN prøvevarianser lige s 1 og s 2 2 generelle afvigelser.

Testbare hypoteser:

H 0- generelle afvigelser er det samme;

H 1- generelle afvigelser er forskellige.

Vises hvis prøver er udtaget fra populationer med normal lov fordeling, så hvis hypotesen er sand H 0 forholdet mellem stikprøvevarianser følger Fisher-fordelingen. Derfor som et kriterium for at kontrollere rimeligheden H 0 værdien tages F, beregnet med formlen:

Hvor s 1 og s 2 er prøvevarianser.

Dette forhold adlyder Fisher-fordelingen med antallet af frihedsgrader for tælleren ν 1 = n 1- 1 og antallet af frihedsgrader for nævneren ν 2 = n 2 - 1. Grænserne for det kritiske område findes ved hjælp af Fisher-fordelingstabeller eller ved hjælp af computerfunktionen BRASPOBR.

For eksemplet præsenteret i tabel. 3.4, får vi: ν 1 = ν 2 = 20 - 1 = 19; F= 2,16/4,05 = 0,53. Ved α = 0,05 er grænserne for det kritiske område henholdsvis: = 0,40, = 2,53.

Kriterieværdien falder ind i det kritiske område, så hypotesen accepteres H 0: generelle prøvevarianser er det samme.

3.7. TESTE HYPOTESER VEDRØRENDE LIGESTILLING AF MIDLER, STUDENT t-KRITERION

Sammenligningsopgave gennemsnit to generelle populationer opstår, når praktisk betydning netop er størrelse den egenskab, der studeres. For eksempel, når man sammenligner behandlingsvarigheden med to forskellige metoder eller antallet af komplikationer, der opstår ved deres brug. I dette tilfælde kan du bruge Elevens t-test.

Formulering af problemet

To prøver (X 1) og (X 2) blev opnået, ekstraheret fra generelle populationer med normal lov distribution og identiske afvigelser. Prøvestørrelser - n 1 og n 2, prøve betyder er lig med X 1 og X 2, og prøvevarianser- s 1 2 og s 2 2 henholdsvis. Har brug for at sammenligne generelle gennemsnit.

Testbare hypoteser:

H 0- generelle gennemsnit er det samme;

H 1- generelle gennemsnit er forskellige.

Det er vist, at hvis hypotesen er sand H 0 t værdi beregnet ved formlen:

fordelt efter elevens lov med antallet af frihedsgrader ν = ν 1 + + ν2 - 2.

Her hvor ν 1 = n 1 - 1 - antal frihedsgrader for den første prøve; ν 2 = n 2 - 1 - antal frihedsgrader for den anden prøve.

Grænserne for det kritiske område findes ved hjælp af t-fordelingstabeller eller ved hjælp af computerfunktionen STUDRIST. Studentfordelingen er symmetrisk omkring nul, så venstre og højre grænser for det kritiske område er identiske i størrelse og modsatte i fortegn: -og

For eksemplet præsenteret i tabel. 3.4 får vi:

ν 1 = ν 2 = 20 - 1 = 19; ν = 38, t= -2,51. Ved a = 0,05 = 2,02.

Kriterieværdien går ud over venstre grænse af det kritiske område, så vi accepterer hypotesen H 1: generelle gennemsnit er forskellige. Samtidig er befolkningsgennemsnittet første prøve MINDRE.

Anvendelse af Elevens t-test

Elevens t-test gælder kun for prøver fra normal aggregater med identiske generelle afvigelser. Hvis mindst en af ​​betingelserne er overtrådt, er anvendeligheden af ​​kriteriet tvivlsom. Kravet om normalitet for den almindelige befolkning ignoreres normalt, citerer central grænsesætning. Faktisk kan forskellen mellem stikprøvemiddelværdier i tælleren (3.10) betragtes som normalfordelt for ν > 30. Men spørgsmålet om varianslighed kan ikke verificeres, og henvisninger til det faktum, at Fisher-testen ikke opdagede forskelle, kan ikke tages i betragtning. Imidlertid er t-testen meget brugt til at påvise forskelle i befolkningsgennemsnit, dog uden tilstrækkelig evidens.

Nedenfor diskuteres ikke-parametrisk kriterium, som med held bruges til de samme formål, og som ikke kræver nogen normalitet, ingen af ​​dem lighed af varians.

3.8. IKKE-PARAMETRISK SAMMENLIGNING AF TO PRØVER: MANN-WHITNEY KRITERIUM

Ikke-parametriske tests er designet til at opdage forskelle i fordelingslovene for to populationer. Kriterier, der er følsomme over for forskelle generelt gennemsnit, kaldet kriterier flytte Kriterier, der er følsomme over for forskelle generelt dispersioner, kaldet kriterier vægt. Mann-Whitney-testen henviser til kriterierne flytte og bruges til at påvise forskelle i gennemsnittet af to populationer, hvorfra prøver er præsenteret i rangeringsskala. De målte karakteristika er placeret på denne skala i stigende rækkefølge, og derefter nummereret med heltal 1, 2... Disse tal kaldes rækker. Lige mængder tildeles lige rang. Det er ikke værdien af ​​selve egenskaben, der betyder noget, men kun ordinært sted som den rangerer blandt andre mængder.

I tabel 3.5. den første gruppe fra tabel 3.4 præsenteres i udvidet form (linje 1), rangeret (linje 2), og derefter erstattes rækkerne af identiske værdier af aritmetiske gennemsnit. For eksempel fik emnerne 4 og 4 i den første række rang 2 og 3, som derefter blev erstattet med de samme værdier på 2,5.

Tabel 3.5

Formulering af problemet

Uafhængige prøver (X 1) Og (X 2) udvundet fra almindelige populationer med ukendte distributionslove. Prøvestørrelser n 1 Og n 2 henholdsvis. Værdierne af prøveelementer er præsenteret i rangeringsskala. Det er nødvendigt at kontrollere, om disse generelle populationer adskiller sig fra hinanden?

Testbare hypoteser:

H 0- prøverne tilhører den samme generelle population; H 1- prøver tilhører forskellige generelle populationer.

For at teste sådanne hypoteser bruges (/-Mann-Whitney testen.

Først kompileres en kombineret prøve (X) ud fra de to prøver, hvis elementer er rangeret. Derefter findes summen af ​​de rækker, der svarer til elementerne i den første prøve. Dette beløb er kriteriet for test af hypoteser.

U= Summen af ​​rækker af den første prøve. (3.11)

For uafhængige prøver, hvis volumener er større end 20, er værdien U adlyder normalfordelingen, hvis matematiske forventning og standardafvigelse er lig med:

Derfor findes grænserne for det kritiske område ifølge normalfordelingstabeller.

For eksemplet præsenteret i tabel. 3.4, får vi: ν 1 = ν 2 = 20 - 1 = 19, U= 339, μ = 410, σ = 37. For α = 0,05 får vi: venstre = 338 og højre = 482.

Værdien af ​​kriteriet går ud over venstre grænse af den kritiske region, derfor accepteres hypotese H 1: generelle populationer har forskellige distributionslove. Samtidig er befolkningsgennemsnittet første prøve MINDRE.

Når man konstruerer en intervalfordelingsserie, er tre spørgsmål løst:

  • 1. Hvor mange intervaller skal jeg tage?
  • 2. Hvad er længden af ​​intervallerne?
  • 3. Hvordan er proceduren for at inkludere befolkningsenheder inden for intervallernes grænser?
  • 1. Antal intervaller kan bestemmes af Sturgess formel:

2. Intervallængde eller intervaltrin, normalt bestemt af formlen

Hvor R- variationsområde.

3. Rækkefølgen af ​​inklusion af befolkningsenheder inden for intervallets grænser

kan være anderledes, men når man konstruerer en intervalserie, skal fordelingen være nøje defineret.

For eksempel dette: [), hvor befolkningsenheder indgår i de nedre grænser, men ikke indgår i de øvre grænser, men overføres til næste interval. Undtagelsen fra denne regel er det sidste interval, hvis øvre grænse inkluderer det sidste nummer i den rangerede serie.

Intervalgrænserne er:

  • lukket - med to ekstreme værdier af attributten;
  • åben - med en ekstrem værdi af attributten (Før sådan og sådan et nummer eller over sådan et nummer).

For at assimilere det teoretiske materiale introducerer vi baggrundsinformation for løsninger ende-til-ende opgave.

Der er betingede data om det gennemsnitlige antal salgschefer, mængden af ​​lignende varer solgt af dem, den individuelle markedspris for dette produkt samt salgsvolumen for 30 virksomheder i en af ​​regionerne i Den Russiske Føderation i den første kvartal af rapporteringsåret (tabel 2.1).

Tabel 2.1

Indledende information til en tværgående opgave

Nummer

ledere,

Pris, tusind rubler

Salgsvolumen, millioner rubler.

Nummer

ledere,

Antal solgte varer, stk.

Pris, tusind rubler

Salgsvolumen, millioner rubler.

På baggrund af de indledende informationer, samt yderligere information, opstiller vi individuelle opgaver. Derefter vil vi præsentere metoden til at løse dem og selve løsningerne.

Tværgående opgave. Opgave 2.1

Brug af de indledende data fra tabel. 2.1 påkrævet konstruere en diskret række af fordeling af virksomheder efter mængde af solgte varer (tabel 2.2).

Løsning:

Tabel 2.2

Diskret række af distribution af virksomheder efter mængde af varer solgt i en af ​​regionerne i Den Russiske Føderation i første kvartal af rapporteringsåret

Tværgående opgave. Opgave 2.2

påkrævet konstruere en rangeret serie på 30 virksomheder i henhold til det gennemsnitlige antal ledere.

Løsning:

15; 17; 18; 20; 20; 20; 22; 22; 24; 25; 25; 25; 27; 27; 27; 28; 29; 30; 32; 32; 33; 33; 33; 34; 35; 35; 38; 39; 39; 45.

Tværgående opgave. Opgave 2.3

Brug af de indledende data fra tabel. 2.1, påkrævet:

  • 1. Konstruer en intervalserie af fordeling af virksomheder efter antal ledere.
  • 2. Beregn frekvenserne af distributionsrækken af ​​virksomheder.
  • 3. Træk konklusioner.

Løsning:

Lad os beregne ved hjælp af Sturgess-formlen (2.5) antal intervaller:

Vi tager således 6 intervaller (grupper).

Interval længde, eller interval trin, beregn ved hjælp af formlen

Bemærk. Rækkefølgen for indregning af befolkningsenheder i intervallets grænser er som følger: I), hvor befolkningsenheder indgår i de nedre grænser, men ikke indgår i de øvre grænser, men overføres til næste interval. Undtagelsen fra denne regel er det sidste interval I ], hvis øvre grænse omfatter det sidste nummer i den rangerede serie.

Vi bygger en intervalserie (tabel 2.3).

Intervalserie for distribution af virksomheder og det gennemsnitlige antal ledere i en af ​​regionerne i Den Russiske Føderation i første kvartal af rapporteringsåret

Konklusion. Den største gruppe af virksomheder er gruppen med et gennemsnitligt antal ledere på 25-30 personer, som omfatter 8 virksomheder (27 %); Den mindste gruppe med et gennemsnitligt antal ledere på 40-45 personer omfatter kun én virksomhed (3%).

Brug af de indledende data fra tabel. 2.1, samt en intervalserie over fordeling af virksomheder efter antal ledere (tabel 2.3), påkrævet opbygge en analytisk gruppering af forholdet mellem antallet af ledere og virksomhedernes salgsvolumen og ud fra det drage en konklusion om tilstedeværelsen (eller fraværet) af en sammenhæng mellem disse karakteristika.

Løsning:

Analytisk gruppering er baseret på faktorkarakteristika. I vores problemstilling er faktorkarakteristikken (x) antallet af ledere, og den resulterende karakteristika (y) er salgsvolumen (tabel 2.4).

Lad os bygge nu analytisk gruppering(Tabel 2.5).

Konklusion. Baseret på dataene fra den konstruerede analytiske gruppering kan vi sige, at med en stigning i antallet af salgschefer, stiger den gennemsnitlige salgsvolumen for virksomheden i gruppen også, hvilket indikerer tilstedeværelsen af ​​en direkte forbindelse mellem disse egenskaber.

Tabel 2.4

Hjælpetabel til at konstruere en analytisk gruppering

Antal ledere, personer,

Firmanummer

Salgsvolumen, millioner rubler, y

" = 59 f = 9,97

I-™ 4 - Yu.22

74 '25 1PY1

U4 = 7 = 10,61

= ’ =10,31 30

Tabel 2.5

Afhængighed af salgsmængder af antallet af virksomhedsledere i en af ​​regionerne i Den Russiske Føderation i første kvartal af rapporteringsåret

KONTROLSPØRGSMÅL
  • 1. Hvad er essensen af ​​statistisk observation?
  • 2. Nævn stadier af statistisk observation.
  • 3. Hvad er de organisatoriske former for statistisk observation?
  • 4. Nævn typerne af statistiske observationer.
  • 5. Hvad er en statistisk oversigt?
  • 6. Nævn typerne af statistiske rapporter.
  • 7. Hvad er statistisk gruppering?
  • 8. Nævn typerne af statistiske grupperinger.
  • 9. Hvad er en distributionsserie?
  • 10. Navngiv de strukturelle elementer i fordelingsrækken.
  • 11. Hvad er proceduren for at konstruere en distributionsserie?

Med tilgængelige statistiske observationsdata, der karakteriserer et bestemt fænomen, er det først og fremmest nødvendigt at organisere dem, dvs. give en systematisk karakter

engelsk statistiker. UJReichman sagde billedligt om uordnede samlinger, at mødet med en masse ikke-generaliserede data svarer til en situation, hvor en person bliver kastet ind i et krat uden et kompas. Hvad er systematiseringen af ​​statistiske data i form af distributionsserier?

De statistiske rækker af fordelinger er ordnede statistiske aggregater (tabel 17). Den enkleste type statistiske fordelingsserier er en rangordnet serie, dvs. en række tal i stigende eller faldende rækkefølge, der varierer karakteristika. En sådan serie tillader ikke at bedømme de mønstre, der er iboende i de distribuerede data: hvilken værdi har flertallet af indikatorer grupperet, hvilke afvigelser der er fra denne værdi; samt det generelle distributionsbillede. Til dette formål grupperes data, der viser, hvor ofte individuelle observationer forekommer i deres samlede antal (skema 1a 1).

. Tabel 17

. Generelt overblik over statistiske fordelingsserier

. Ordning 1. Statistisk ordning distributionsserie

Fordelingen af ​​befolkningsenheder efter karakteristika, der ikke har kvantitativt udtryk kaldes attributive serier(f.eks. fordeling af virksomheder efter deres produktionsområde)

Rækken af ​​fordeling af befolkningsenheder i henhold til karakteristika, har et kvantitativt udtryk, kaldes variationsserie. I sådanne serier er værdien af ​​karakteristikken (optionerne) i stigende eller faldende rækkefølge

I variationsfordelingsrækken skelnes der mellem to elementer: variant og frekvens . Mulighed- dette er en separat betydning af grupperingsegenskaberne frekvens- et tal, der viser, hvor mange gange hver mulighed forekommer

I matematisk statistik beregnes endnu et element i variationsrækken - til dels. Sidstnævnte er defineret som forholdet mellem hyppigheden af ​​tilfælde af et givet interval og den samlede sum af frekvenser; delen bestemmes i brøkdele af en enhed, procent (%) i ppm (%o)

En variationsfordelingsserie er således en serie, hvor valgmulighederne er arrangeret i stigende eller faldende rækkefølge, og deres frekvenser eller frekvenser er angivet. Variationsserier er diskrete (intervaller) og andre intervaller (kontinuerlige).

. Diskret variationsserie- det er distributionsserier, hvor varianten som værdien af ​​en kvantitativ egenskab kun kan antage en vis værdi. Valgmuligheder adskiller sig fra hinanden med en eller flere enheder

Således kan antallet af dele produceret pr. skift af en bestemt arbejder kun udtrykkes med ét specifikt tal (6, 10, 12 osv.). Et eksempel på en diskret variationsserie kunne være fordelingen af ​​arbejdere efter antallet af producerede dele (tabel 18 18).

. Tabel 18

. Diskret seriefordeling _

. Interval (kontinuerlig) variationsserie- sådanne distributionsserier, hvor værdien af ​​optionerne er givet i form af intervaller, dvs. værdierne af funktionerne kan afvige fra hinanden med en vilkårlig lille mængde. Når man konstruerer en variationsserie af NEP peri-variant karakteristika, er det umuligt at angive hver værdi af varianten, så populationen er fordelt over intervaller. Sidstnævnte kan være lige eller ulige. For hver af dem er frekvenser eller frekvenser angivet (tabel 1 9 19).

I intervalfordelingsrækker med ulige intervaller beregnes matematiske karakteristika såsom fordelingstæthed og relativ fordelingstæthed på et givet interval. Den første karakteristik bestemmes af forholdet mellem frekvens og værdien af ​​det samme interval, den anden - af forholdet mellem frekvens og værdien af ​​det samme interval. For eksemplet ovenfor vil fordelingstætheden i det første interval være 3:5 = 0,6, og den relative tæthed i dette interval er 7,5:5 = 1,55%.

. Tabel 19

. Intervalfordelingsserie _

En diskret variationsserie er konstrueret til diskrete egenskaber.

For at konstruere en diskret variationsserie skal du udføre følgende trin: 1) arrangere observationsenhederne i stigende rækkefølge efter den undersøgte værdi af karakteristikken,

2) bestemme alle mulige værdier af attributten x i, arrangere dem i stigende rækkefølge,

værdien af ​​attributten, jeg .

frekvens af attributværdi og betegne f jeg . Summen af ​​alle frekvenser i en serie er lig med antallet af elementer i den population, der undersøges.

Eksempel 1 .

Liste over karakterer modtaget af studerende ved eksamen: 3; 4; 3; 5; 4; 2; 2; 4; 4; 3; 5; 2; 4; 5; 4; 3; 4; 3; 3; 4; 4; 2; 2; 5; 5; 4; 5; 2; 3; 4; 4; 3; 4; 5; 2; 5; 5; 4; 3; 3; 4; 2; 4; 4; 5; 4; 3; 5; 3; 5; 4; 4; 5; 4; 4; 5; 4; 5; 5; 5.

Her er nummeret x - karakterer en diskret tilfældig variabel, og den resulterende liste over estimater erstatistiske (observerbare) data .

    arrangere observationsenheder i stigende rækkefølge efter den undersøgte karakteristiske værdi:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) Bestem alle mulige værdier af attributten x i, bestil dem i stigende rækkefølge:

I dette eksempel kan alle estimater opdeles i fire grupper med følgende værdier: 2; 3; 4; 5.

Værdien af ​​en tilfældig variabel svarende til en bestemt gruppe af observerede data kaldes værdien af ​​attributten, option (option) og udpeg x jeg .

Et tal, der viser, hvor mange gange den tilsvarende værdi af en karakteristik forekommer i en række observationer, kaldes frekvens af attributværdi og betegne f jeg .

For vores eksempel

score 2 forekommer - 8 gange,

score 3 forekommer - 12 gange,

score 4 forekommer - 23 gange,

score 5 forekommer - 17 gange.

Der er 60 bedømmelser i alt.

4) skriv de modtagne data ind i en tabel med to rækker (kolonner) - x i og fi.

Baseret på disse data er det muligt at konstruere en diskret variationsserie

Diskret variationsserie – dette er en tabel, hvor de forekommende værdier af den karakteristik, der undersøges, er angivet som individuelle værdier i stigende rækkefølge og deres frekvenser

  1. Konstruktion af en intervalvariationsserie

Ud over de diskrete variationsserier støder man ofte på en metode til gruppering af data, såsom en intervalvariationsserie.

En intervalserie konstrueres hvis:

    tegnet har en kontinuerlig karakter af forandring;

    Der var mange diskrete værdier (mere end 10)

    frekvenserne af diskrete værdier er meget små (overskrid ikke 1-3 med et relativt stort antal observationsenheder);

    mange diskrete værdier af en funktion med de samme frekvenser.

En intervalvariationsserie er en måde at gruppere data i form af en tabel, der har to kolonner (værdierne af karakteristikken i form af et interval af værdier og frekvensen af ​​hvert interval).

I modsætning til en diskret serie er værdierne af karakteristikken for en intervalserie ikke repræsenteret af individuelle værdier, men af ​​et interval af værdier ("fra - til").

Tallet, der viser, hvor mange observationsenheder, der faldt i hvert udvalgt interval, kaldes frekvens af attributværdi og betegne f jeg . Summen af ​​alle frekvenser i en serie er lig med antallet af elementer (observationsenheder) i den population, der undersøges.

Hvis en enhed har en karakteristisk værdi svarende til den øvre grænse for intervallet, skal den tildeles det næste interval.

For eksempel vil et barn med en højde på 100 cm falde ind i 2. interval og ikke i det første; og et barn med en højde på 130 cm vil falde ind i det sidste interval, og ikke i det tredje.

Ud fra disse data kan en intervalvariationsserie konstrueres.

Hvert interval har en nedre grænse (xn), en øvre grænse (xv) og en intervalbredde ( jeg).

Intervalgrænsen er værdien af ​​den attribut, der ligger på grænsen af ​​to intervaller.

børns højde (cm)

børns højde (cm)

antal børn

mere end 130

Hvis et interval har en øvre og nedre grænse, så kaldes det lukket interval. Hvis et interval kun har en nedre eller kun en øvre grænse, så er det - åbent interval. Kun det allerførste eller det allersidste interval kan være åbent. I ovenstående eksempel er det sidste interval åbent.

Intervalbredde (jeg) – forskellen mellem den øvre og nedre grænse.

jeg = x n - x in

Bredden af ​​det åbne interval antages at være den samme som bredden af ​​det tilstødende lukkede interval.

børns højde (cm)

antal børn

Intervalbredde (i)

for udregninger 130+20=150

20 (fordi bredden af ​​det tilstødende lukkede interval er 20)

Alle intervalserier er opdelt i intervalserier med lige intervaller og intervalserier med ulige intervaller . I adskilte rækker med lige intervaller er bredden af ​​alle intervaller den samme. I intervalserier med ulige intervaller er bredden af ​​intervallerne forskellig.

I det undersøgte eksempel - en intervalserie med ulige intervaller.

Laboratoriearbejde nr. 1

Ifølge matematisk statistik

Emne: Primær bearbejdning af eksperimentelle data

3. Score i point. 1

5. Testspørgsmål.. 2

6. Metode til udførelse af laboratoriearbejde.. 3

Målet med arbejdet

Tilegnelse af færdigheder i primær behandling af empiriske data ved hjælp af matematisk statistik.

Udfør følgende opgaver baseret på samtlige eksperimentelle data:

Øvelse 1. Konstruer en intervalvariationsfordelingsrække.

Opgave 2. Konstruer et histogram af frekvenser af en intervalvariationsserie.

Opgave 3. Opret en empirisk fordelingsfunktion og plot en graf.

a) tilstand og median;

b) betingede begyndelsesmomenter;

c) prøvegennemsnit;

d) stikprøvevarians, korrigeret populationsvarians, korrigeret standardafvigelse;

e) variationskoefficient;

f) asymmetri;

g) kurtosis;

Opgave 5. Bestem grænserne for de sande værdier af de numeriske karakteristika for den tilfældige variabel, der studeres med en given pålidelighed.

Opgave 6. Indholdsbaseret fortolkning af resultaterne af primær bearbejdning efter opgavens betingelser.

Score i point

Opgave 1-56 point

Opgave 62 point

Forsvar af laboratoriearbejde(mundtlig samtale om testspørgsmål og laboratoriearbejde) - 2 point

Arbejdet skal afleveres skriftligt på A4-ark og omfatter:

1) Titelside (bilag 1)

2) Indledende data.

3) Indlevering af arbejde i henhold til den angivne prøve.

4) Beregningsresultater (udført manuelt og/eller ved hjælp af MS Excel) i den angivne rækkefølge.

5) Konklusioner - meningsfuld fortolkning af resultaterne af primær bearbejdning i henhold til problemets betingelser.

6) Mundtlig samtale om arbejds- og kontrolspørgsmål.



5. Test spørgsmål


Metode til udførelse af laboratoriearbejde

Opgave 1. Konstruer en intervalvariationsfordelingsrække

For at præsentere statistiske data i form af en variationsserie med lige store muligheder, er det nødvendigt:

1. Find de mindste og største værdier i den originale datatabel.

2.Definer variationsområde :

3. Bestem længden af ​​intervallet h, hvis prøven indeholder op til 1000 data, brug formlen: , hvor n – stikprøvestørrelse – mængden af ​​data i stikprøven; for beregninger tag lgn).

Det beregnede forhold afrundes til praktisk heltalsværdi .

4. For at bestemme begyndelsen af ​​det første interval for et lige antal intervaller, anbefales det at tage værdien ; og for et ulige antal intervaller.

5. Skriv grupperingsintervallerne ned og arranger dem i stigende rækkefølge af grænser

, ,………., ,

hvor er den nedre grænse for det første interval. Der tages et passende tal, der ikke er større end , den øvre grænse for det sidste interval bør ikke være mindre end . Det anbefales, at intervallerne indeholder startværdierne for den tilfældige variabel og adskilles fra 5 til 20 intervaller.

6. Skriv de indledende data ned på grupperingsintervaller, dvs. brug kildetabellen til at beregne antallet af tilfældige variable værdier, der falder inden for de angivne intervaller. Hvis nogle værdier falder sammen med grænserne for intervallerne, så henføres de enten kun til det foregående eller kun til det efterfølgende interval.

Note 1. Intervallerne behøver ikke at være lige lange. I områder, hvor værdierne er tættere, er det mere bekvemt at tage mindre, korte intervaller, og hvor der er mindre hyppige intervaller, større.

Note 2.Hvis der for nogle værdier opnås "nul" eller små frekvensværdier, så er det nødvendigt at omgruppere dataene, forstørre intervallerne (øge trinnet).