Typer af variationsserier. V

Lad os kalde de forskellige prøveværdier muligheder række af værdier og betegne: x 1 , x 2,…. Først og fremmest vil vi producere spænder muligheder, dvs. deres arrangement i stigende eller faldende rækkefølge. For hver mulighed er dens egen vægt angivet, dvs. et tal, der karakteriserer bidraget af en given mulighed til den samlede befolkning. Frekvenser eller frekvenser fungerer som vægte.

Frekvens n i mulighed x i er et tal, der viser, hvor mange gange en given mulighed forekommer i den undersøgte prøvepopulation.

Frekvens eller relativ hyppighed w i mulighed x i er et tal lig med forholdet mellem frekvensen af ​​en variant og summen af ​​frekvenserne af alle varianter. Frekvens viser, hvor stor en andel af enheder i stikprøvepopulationen, der har en given variant.

En sekvens af muligheder med deres tilsvarende vægte (frekvenser eller frekvenser), skrevet i stigende (eller faldende) rækkefølge, kaldes variationsserie.

Variationsserier er diskrete og interval.

For en diskret variationsserie angives karakteristikkens punktværdier, for en intervalserie angives de karakteristiske værdier i form af intervaller. Variationsserier kan vise fordelingen af ​​frekvenser eller relative frekvenser (frekvenser), afhængig af hvilken værdi der er angivet for hver mulighed - frekvens eller frekvens.

Diskrete variationsrækker af frekvensfordeling har formen:

Frekvenserne findes ved formlen i = 1, 2, …, m.

w 1 +w 2 + … + w m = 1.

Eksempel 4.1. For et givet sæt tal

4, 6, 6, 3, 4, 9, 6, 4, 6, 6

konstruere diskrete variationsrækker af frekvens og frekvensfordelinger.

Løsning . Befolkningens volumen er lig med n= 10. Den diskrete frekvensfordelingsrække har formen

Intervalserier har en lignende form for optagelse.

Intervalvariationsrække af frekvensfordeling er skrevet som:

Summen af ​​alle frekvenser er lig med det samlede antal observationer, dvs. samlet volumen: n = n 1 +n 2 + … + n m.

Intervalvariationsrækker af fordeling af relative frekvenser (frekvenser) har formen:

Frekvensen findes ved formlen i = 1, 2, …, m.

Summen af ​​alle frekvenser er lig med én: w 1 +w 2 + … + w m = 1.

Intervalserier bruges oftest i praksis. Hvis der er mange statistiske stikprøvedata, og deres værdier afviger fra hinanden med en vilkårligt lille mængde, så vil en diskret serie for disse data være ret besværlig og ubelejlig for yderligere forskning. I dette tilfælde anvendes datagruppering, dvs. Intervallet, der indeholder alle værdierne af attributten, er opdelt i flere delintervaller, og ved at beregne frekvensen for hvert interval opnås en intervalserie. Lad os nedskrive mere detaljeret skemaet til at konstruere en intervalserie, idet vi antager, at længderne af delintervallerne vil være de samme.

2.2 Konstruktion af en intervalserie

For at bygge en intervalserie skal du bruge:

Bestem antallet af intervaller;

Bestem længden af ​​intervallerne;

Bestem placeringen af ​​intervallerne på aksen.

Til at bestemme antal intervaller k Der er Sturges' formel, ifølge hvilken

,

Hvor n- volumen af ​​hele tilslaget.

For eksempel, hvis der er 100 værdier af en karakteristik (variant), så anbefales det at tage antallet af intervaller lig med intervallerne for at konstruere en intervalserie.

Men i praksis er antallet af intervaller meget ofte valgt af forskeren selv under hensyntagen til, at dette tal ikke bør være særlig stort, så serien ikke er besværlig, men heller ikke meget lille for ikke at miste nogle egenskaber ved fordeling.

Interval længde h bestemt af følgende formel:

,

Hvor x max og x min er henholdsvis den største og mindste værdi af mulighederne.

Størrelse hedder omfang række.

For selv at konstruere intervallerne går de frem på forskellige måder. En af de enkleste måder er som følger. Begyndelsen af ​​det første interval anses for at være
. Derefter findes de resterende grænser for intervallerne ved formlen. Det er klart, slutningen af ​​det sidste interval -en m+1 skal opfylde betingelsen

Efter at alle grænserne for intervallerne er fundet, bestemmes frekvenserne (eller frekvenserne) for disse intervaller. For at løse dette problem skal du se alle mulighederne igennem og bestemme antallet af muligheder, der falder ind under et bestemt interval. Lad os se på den komplette konstruktion af en intervalserie ved hjælp af et eksempel.

Eksempel 4.2. For følgende statistiske data, registreret i stigende rækkefølge, konstruer en intervalserie med antallet af intervaller lig med 5:

11, 12, 12, 14, 14, 15, 21, 21, 22, 23, 25, 38, 38, 39, 42, 42, 44, 45, 50, 50, 55, 56, 58, 60, 62, 63, 65, 68, 68, 68, 70, 75, 78, 78, 78, 78, 80, 80, 86, 88, 90, 91, 91, 91, 91, 91, 93, 93, 95, 96.

Løsning. Total n=50 variantværdier.

Antallet af intervaller er angivet i problemformuleringen, dvs. k=5.

Længden af ​​intervallerne er
.

Lad os definere grænserne for intervallerne:

-en 1 = 11 − 8,5 = 2,5; -en 2 = 2,5 + 17 = 19,5; -en 3 = 19,5 + 17 = 36,5;

-en 4 = 36,5 + 17 = 53,5; -en 5 = 53,5 + 17 = 70,5; -en 6 = 70,5 + 17 = 87,5;

-en 7 = 87,5 +17 = 104,5.

For at bestemme hyppigheden af ​​intervaller tæller vi antallet af muligheder, der falder ind i et givet interval. For eksempel inkluderer det første interval fra 2,5 til 19,5 muligheder 11, 12, 12, 14, 14, 15. Deres nummer er 6, derfor er frekvensen af ​​det første interval n 1 = 6. Frekvensen af ​​det første interval er . Det andet interval fra 19,5 til 36,5 inkluderer valgmuligheder 21, 21, 22, 23, 25, hvis nummer er 5. Derfor er frekvensen af ​​det andet interval n 2 = 5 og frekvens . Efter at have fundet frekvenserne og frekvenserne for alle intervaller på en lignende måde, får vi følgende intervalserie.

Intervalrækken af ​​frekvensfordeling har formen:

Summen af ​​frekvenserne er 6+5+9+11+8+11=50.

Intervalrækken af ​​frekvensfordeling har formen:

Summen af ​​frekvenserne er 0,12+0,1+0,18+0,22+0,16+0,22=1. ■

Ved konstruktion af intervalserier kan der, afhængigt af de specifikke forhold ved det pågældende problem, anvendes andre regler, nemlig

1. Intervalvariationsserier kan bestå af delintervaller af forskellig længde. Ulige længder af intervaller gør det muligt at fremhæve egenskaberne for en statistisk population med en ujævn fordeling af karakteristikken. For eksempel, hvis grænserne for intervallerne bestemmer antallet af indbyggere i byer, så er det tilrådeligt i denne opgave at bruge intervaller af uens længde. Det er klart, at for små byer er en lille forskel i antallet af indbyggere vigtig, men for store byer er en forskel på ti eller hundreder af indbyggere ikke signifikant. Intervalserier med ulige længder af delintervaller studeres hovedsageligt i den generelle teori om statistik, og deres overvejelse ligger uden for denne manuals rammer.

2. I matematisk statistik overvejes nogle gange intervalserier, for hvilke den venstre grænse af det første interval antages at være lig med –∞, og den højre grænse for det sidste interval +∞. Dette gøres for at bringe den statistiske fordeling tættere på den teoretiske.

3. Når man konstruerer intervalserier, kan det vise sig, at værdien af ​​en eller anden option falder nøjagtigt sammen med intervallets grænse. Den bedste ting at gøre i dette tilfælde er som følger. Hvis der kun er én sådan tilfældighed, så overvej, at den overvejede mulighed med dens frekvens faldt ind i intervallet, der er placeret tættere på midten af ​​intervalserien, hvis der er flere sådanne muligheder, så er de alle tildelt intervallerne til til højre for disse muligheder, eller alle er tildelt til venstre.

4. Efter at have bestemt antallet af intervaller og deres længde, kan arrangementet af intervaller udføres på en anden måde. Find det aritmetiske gennemsnit af alle betragtede værdier af mulighederne x ons og byg det første interval på en sådan måde, at dette prøvegennemsnit ville være inden for et eller andet interval. Således får vi intervallet fra x ons – 0,5 h Før x gns.. + 0,5 h. Så til venstre og højre, tilføjer længden af ​​intervallet, bygger vi de resterende intervaller indtil x min og x max vil ikke falde ind i henholdsvis første og sidste intervaller.

5. Intervalserier med et stort antal intervaller skrives bekvemt lodret, dvs. skriv intervaller ikke i første række, men i første kolonne, og frekvenser (eller frekvenser) i anden kolonne.

Prøvedata kan betragtes som værdier af en tilfældig variabel x. En stokastisk variabel har sin egen fordelingslov. Fra sandsynlighedsteori er det kendt, at fordelingsloven for en diskret stokastisk variabel kan specificeres i form af en fordelingsrække, og for en kontinuerlig - ved hjælp af fordelingstæthedsfunktionen. Der er dog en universel distributionslov, der gælder for både diskrete og kontinuerte stokastiske variable. Denne distributionslov er givet som en fordelingsfunktion F(x) = P(x<x). For eksempeldata kan du angive en analog til fordelingsfunktionen - den empiriske fordelingsfunktion.


Relateret information.


Sættet af værdier for den parameter, der er studeret i et givent eksperiment eller observation, rangeret efter værdi (stigning eller fald) kaldes en variationsserie.

Lad os antage, at vi målte blodtrykket hos ti patienter for at opnå en øvre blodtrykstærskel: systolisk tryk, dvs. kun ét nummer.

Lad os forestille os, at en række observationer (statistisk helhed) af arterielt systolisk tryk i 10 observationer har følgende form (tabel 1):

tabel 1

Komponenterne i en variationsserie kaldes varianter. Valgmulighederne repræsenterer den numeriske værdi af den karakteristik, der undersøges.

At konstruere en variationsserie ud fra et statistisk sæt observationer er kun det første skridt i retning af at forstå funktionerne i hele sættet. Dernæst er det nødvendigt at bestemme det gennemsnitlige niveau af det kvantitative træk, der undersøges (gennemsnitligt blodproteinniveau, gennemsnitsvægt af patienter, gennemsnitstid for anæstesistart osv.)

Gennemsnitsniveauet måles ved hjælp af kriterier kaldet gennemsnit. Gennemsnitsværdien er en generaliserende numerisk karakteristik af kvalitativt homogene værdier, der med ét tal karakteriserer hele den statistiske population efter ét kriterium. Gennemsnitsværdien udtrykker, hvad der er fælles for en karakteristik i et givet sæt observationer.

Der er tre typer gennemsnit i almindelig brug: tilstand (), median () og aritmetisk middelværdi ().

For at bestemme enhver gennemsnitsværdi er det nødvendigt at bruge resultaterne af individuelle observationer og registrere dem i form af en variationsserie (tabel 2).

Mode- den værdi, der forekommer hyppigst i en række observationer. I vores eksempel er mode = 120. Hvis der ikke er nogen gentagne værdier i variationsserien, så siger de, at der ikke er nogen tilstand. Hvis flere værdier gentages det samme antal gange, tages den mindste af dem som tilstand.

Median- en værdi, der deler en fordeling i to lige store dele, den centrale eller mediane værdi af en række observationer ordnet i stigende eller faldende rækkefølge. Så hvis der er 5 værdier i en variationsserie, så er dens median lig med det tredje led i variationsrækken, hvis der er et lige antal led i serien, så er medianen det aritmetiske gennemsnit af de to centrale observationer, dvs. hvis der er 10 observationer i en serie, så er medianen lig med det aritmetiske middelværdi af den 5. og 6. observation. I vores eksempel.

Lad os bemærke et vigtigt træk ved tilstanden og medianen: deres værdier er ikke påvirket af de numeriske værdier af de ekstreme varianter.

Aritmetisk middelværdi beregnet med formlen:

hvor er den observerede værdi i den -th observation, og er antallet af observationer. For vores tilfælde.

Det aritmetiske middelværdi har tre egenskaber:

Gennemsnittet indtager den midterste position i variationsserien. I en strengt symmetrisk række.

Gennemsnittet er en generaliserende værdi, og tilfældige udsving og forskelle i individuelle data er ikke synlige bag gennemsnittet. Det afspejler, hvad der er typisk for hele befolkningen.

Summen af ​​alle muligheders afvigelser fra gennemsnittet er nul: . Mulighedens afvigelse fra gennemsnittet er angivet.

Variationsserien består af varianter og deres tilsvarende frekvenser. Af de ti opnåede værdier forekom tallet 120 6 gange, 115 - 3 gange, 125 - 1 gang. Frekvens () - det absolutte antal individuelle varianter i aggregatet, der angiver, hvor mange gange en given variant forekommer i en variationsserie.

Variationsserien kan være enkel (frekvenser = 1) eller grupperet og forkortet, med muligheder 3-5. En simpel serie bruges til et lille antal observationer (), en grupperet serie bruges til et stort antal observationer ().

Variationsserier - en serie, hvori sammenlignes (efter grad af stigning eller fald) muligheder og tilsvarende frekvenser

​Optioner er individuelle kvantitative udtryk for en egenskab. Angivet med et latinsk bogstav V . Den klassiske forståelse af begrebet "variant" antager, at hver unik værdi af en karakteristik kaldes en variant, uden at tage højde for antallet af gentagelser.

For eksempel i variationsrækken af ​​systoliske blodtryksindikatorer målt hos ti patienter:

110, 120, 120, 130, 130, 130, 140, 140, 160, 170;

Der er kun 6 tilgængelige værdier:

110, 120, 130, 140, 160, 170.

Frekvens er et tal, der angiver, hvor mange gange en mulighed gentages. Betegnes med et latinsk bogstav P . Summen af ​​alle frekvenser (som selvfølgelig er lig med antallet af alle undersøgte) er angivet som n.

    I vores eksempel vil frekvenserne have følgende værdier:
  • for mulighed 110 frekvens P = 1 (værdi 110 forekommer hos én patient),
  • for mulighed 120 frekvens P = 2 (værdi 120 forekommer hos to patienter),
  • for mulighed 130 frekvens P = 3 (værdi 130 forekommer hos tre patienter),
  • for mulighed 140 frekvens P = 2 (værdi 140 forekommer hos to patienter),
  • for mulighed 160 frekvens P = 1 (værdi 160 forekommer hos én patient),
  • for mulighed 170 frekvens P = 1 (værdi 170 forekommer hos én patient),

Typer af variationsserier:

  1. enkel- dette er en serie, hvor hver mulighed kun forekommer én gang (alle frekvenser er lig med 1);
  2. suspenderet- en serie, hvor en eller flere muligheder optræder mere end én gang.

Variationsserien bruges til at beskrive store rækker af tal, det er i denne form, at de indsamlede data fra de fleste medicinske undersøgelser i første omgang præsenteres. For at karakterisere variationsrækken beregnes særlige indikatorer, herunder gennemsnitsværdier, indikatorer for variabilitet (den såkaldte spredning) og indikatorer for repræsentativiteten af ​​stikprøvedata.

Variationsserieindikatorer

1) Det aritmetiske gennemsnit er en generel indikator, der karakteriserer størrelsen af ​​den karakteristik, der undersøges. Det aritmetiske gennemsnit er angivet som M , er den mest almindelige type gennemsnit. Det aritmetiske gennemsnit beregnes som forholdet mellem summen af ​​indikatorværdierne for alle observationsenheder og antallet af alle undersøgte emner. Metoden til beregning af det aritmetiske middelværdi er forskellig for en simpel og vægtet variationsserie.

Formel til beregning simpelt aritmetisk gennemsnit:

Formel til beregning vægtet aritmetisk gennemsnit:

M = Σ(V * P)/n

​ 2) Mode er en anden gennemsnitsværdi af variationsserien, svarende til den oftest gentagede mulighed. Eller sagt på en anden måde, det er den mulighed, der svarer til den højeste frekvens. Benævnt som Mo . Tilstanden beregnes kun for vægtede serier, da i simple serier ingen af ​​mulighederne gentages, og alle frekvenser er lig med én.

For eksempel i variationsrækken af ​​pulsværdier:

80, 84, 84, 86, 86, 86, 90, 94;

tilstandsværdien er 86, da denne mulighed forekommer 3 gange, derfor er dens frekvens den højeste.

3) Median - værdien af ​​optionen, der deler variationsserien i halve: på begge sider af den er der lige mange muligheder. Medianen refererer ligesom det aritmetiske middelværdi og mode til gennemsnitsværdier. Benævnt som Mig

4) Standardafvigelse (synonymer: standardafvigelse, sigma-afvigelse, sigma) - et mål for variationsrækkens variabilitet. Det er en integreret indikator, der kombinerer alle tilfælde af afvigelse fra gennemsnittet. Faktisk besvarer det spørgsmålet: hvor langt og hvor ofte spredes varianter fra det aritmetiske middelværdi. Betegnes med et græsk bogstav σ ("sigma").

Hvis populationsstørrelsen er mere end 30 enheder, beregnes standardafvigelsen ved hjælp af følgende formel:

For små populationer - 30 observationsenheder eller mindre - beregnes standardafvigelsen ved hjælp af en anden formel:

Som et resultat af at mestre dette kapitel skal den studerende: ved godt

  • indikatorer for variation og deres sammenhæng;
  • grundlæggende love for fordeling af egenskaber;
  • essensen af ​​samtykkekriterierne; være i stand til
  • beregne indeks for variation og godhed-of-fit kriterier;
  • bestemme distributionskarakteristika;
  • vurdere de grundlæggende numeriske karakteristika for statistiske distributionsserier;

egen

  • metoder til statistisk analyse af distributionsserier;
  • grundlæggende for variansanalyse;
  • teknikker til at kontrollere statistiske distributionsserier for overholdelse af de grundlæggende love for distribution.

Variationsindikatorer

I den statistiske undersøgelse af karakteristika for forskellige statistiske populationer er det af stor interesse at studere variationen af ​​karakteristikken for individuelle statistiske enheder af befolkningen, såvel som arten af ​​fordelingen af ​​enheder ifølge denne karakteristik. Variation - disse er forskelle i individuelle værdier af en karakteristik blandt enheder af befolkningen, der undersøges. Studiet af variation er af stor praktisk betydning. Ud fra graden af ​​variation kan man bedømme variationsgrænserne for en karakteristik, befolkningens homogenitet for en given karakteristik, gennemsnitstypiskheden og forholdet mellem faktorer, der bestemmer variationen. Variationsindikatorer bruges til at karakterisere og organisere statistiske populationer.

Resultaterne af sammenfatningen og grupperingen af ​​statistiske observationsmaterialer, præsenteret i form af statistiske fordelingsserier, repræsenterer en ordnet fordeling af enheder af den undersøgte population i grupper i henhold til gruppering (varierende) kriterier. Hvis en kvalitativ karakteristik tages som grundlag for grupperingen, kaldes en sådan distributionsserie attributive(fordeling på erhverv, køn, farve osv.). Hvis en distributionsserie er konstrueret på et kvantitativt grundlag, kaldes en sådan serie variationsmæssig(fordeling på højde, vægt, løn osv.). At konstruere en variationsserie betyder at organisere den kvantitative fordeling af befolkningsenheder efter karakteristiske værdier, tælle antallet af befolkningsenheder med disse værdier (hyppighed) og arrangere resultaterne i en tabel.

I stedet for frekvensen af ​​en variant er det muligt at bruge dens forhold til det samlede volumen af ​​observationer, som kaldes frekvens (relativ frekvens).

Der er to typer variationsserier: diskrete og interval. Diskret serie- Dette er en variationsserie, hvis konstruktion er baseret på karakteristika med diskontinuerlig forandring (diskrete karakteristika). Sidstnævnte omfatter antallet af ansatte i virksomheden, takstkategori, antal børn i familien mv. En diskret variationsserie repræsenterer en tabel, der består af to kolonner. Den første kolonne angiver den specifikke værdi af attributten, og den anden kolonne angiver antallet af enheder i populationen med en specifik værdi af attributten. Hvis en egenskab har en kontinuerlig ændring (indkomstbeløb, anciennitet, omkostninger til virksomhedens anlægsaktiver osv., som inden for visse grænser kan antage enhver værdi), så er det for denne egenskab muligt at konstruere intervalvariationsserier. Når man konstruerer en intervalvariationsserie, har tabellen også to kolonner. Den første angiver værdien af ​​attributten i intervallet "fra - til" (valgmuligheder), den anden angiver antallet af enheder inkluderet i intervallet (frekvens). Frekvens (gentagelsesfrekvens) - antallet af gentagelser af en bestemt variant af attributværdier. Intervaller kan være lukkede eller åbne. Lukket intervaller er begrænset på begge sider, dvs. har både en nedre (“fra”) og en øvre (“til”) grænse. Åbne intervaller har én grænse: enten øvre eller nedre. Hvis mulighederne er arrangeret i stigende eller faldende rækkefølge, kaldes rækkerne rangeret.

For variationsserier er der to typer frekvensresponsmuligheder: akkumuleret frekvens og akkumuleret frekvens. Den akkumulerede frekvens viser, hvor mange observationer værdien af ​​karakteristikken tog værdier mindre end en given. Den akkumulerede frekvens bestemmes ved at summere frekvensværdierne for en karakteristik for en given gruppe med alle frekvenser fra tidligere grupper. Den akkumulerede frekvens karakteriserer andelen af ​​observationsenheder, hvis attributværdier ikke overstiger den øvre grænse for den givne gruppe. Således viser den akkumulerede frekvens andelen af ​​optioner i helheden, der har en værdi, der ikke er større end den givne. Frekvens, frekvens, absolutte og relative tætheder, akkumuleret frekvens og frekvens er karakteristika for variantens størrelse.

Variationer i karakteristikaene for befolkningens statistiske enheder, såvel som arten af ​​fordelingen, studeres ved hjælp af indikatorer og karakteristika for variationsrækken, som omfatter seriens gennemsnitlige niveau, den gennemsnitlige lineære afvigelse, standardafvigelsen, spredningen , oscillationskoefficienter, variation, asymmetri, kurtosis osv.

Gennemsnitsværdier bruges til at karakterisere distributionscentret. Gennemsnittet er en generaliserende statistisk egenskab, hvor det typiske niveau af en egenskab, som medlemmer af befolkningen, der undersøges, kvantificeres. Der kan dog være tilfælde af sammenfald af aritmetiske middelværdier med forskellige fordelingsmønstre, derfor beregnes, som statistiske karakteristika for variationsrækker, de såkaldte strukturelle middelværdier - mode, median, samt kvantiler, som deler fordelingsrækkerne op i lige store dele (kvartiler, deciler, percentiler osv.).

Mode - Dette er værdien af ​​en egenskab, der forekommer i distributionsrækken oftere end dens andre værdier. For diskrete serier er dette muligheden med den højeste frekvens. I intervalvariationsserier er det for at bestemme tilstanden nødvendigt først at bestemme det interval, hvori det er placeret, det såkaldte modale interval. I en variationsserie med lige intervaller bestemmes det modale interval af den højeste frekvens, i serier med ulige intervaller - men af ​​den højeste fordelingstæthed. Formlen bruges derefter til at bestemme tilstanden i rækker med lige store intervaller

hvor Mo er modeværdien; xMo - nedre grænse for det modale interval; h- modal interval bredde; / Mo - frekvens af det modale interval; / Mo j er frekvensen af ​​det præmodale interval; / Mo+1 er frekvensen af ​​det post-modale interval, og for en serie med ulige intervaller i denne beregningsformel skal der i stedet for frekvenserne / Mo, / Mo, / Mo anvendes distributionstætheder Sind 0 _| , Sind 0> UMO+"

Hvis der er en enkelt tilstand, så kaldes sandsynlighedsfordelingen af ​​den stokastiske variabel unimodal; hvis der er mere end én tilstand, kaldes den multimodal (polymodal, multimodal), i tilfælde af to tilstande - bimodal. Som regel indikerer multimodalitet, at den undersøgte fordeling ikke overholder normalfordelingsloven. Homogene populationer er som regel karakteriseret ved enkelt-vertex-fordelinger. Multivertex indikerer også heterogeniteten af ​​den befolkning, der undersøges. Forekomsten af ​​to eller flere hjørner gør det nødvendigt at omgruppere dataene for at identificere mere homogene grupper.

I en intervalvariationsserie kan tilstanden bestemmes grafisk ved hjælp af et histogram. For at gøre dette skal du tegne to skærende linjer fra de øverste punkter i den højeste kolonne i histogrammet til de øverste punkter i to tilstødende kolonner. Derefter, fra punktet af deres skæringspunkt, sænkes en vinkelret ned på abscisseaksen. Værdien af ​​træk på x-aksen svarende til vinkelret er tilstanden. I mange tilfælde, når man karakteriserer en population som en generaliseret indikator, foretrækkes tilstanden frem for det aritmetiske gennemsnit.

Median - Dette er den centrale værdi af attributten, den er i besiddelse af det centrale medlem af fordelingens rangordnede serie. I diskrete serier, for at finde værdien af ​​medianen, bestemmes først dens serienummer. For at gøre dette, hvis antallet af enheder er ulige, tilføjes en til summen af ​​alle frekvenser, og antallet divideres med to. Hvis der er et lige antal enheder i en række, vil der være to medianenheder, så i dette tilfælde er medianen defineret som gennemsnittet af værdierne af de to medianenheder. Således er medianen i en diskret variationsserie den værdi, der deler serien i to dele, der indeholder det samme antal muligheder.

I intervalserier, efter bestemmelse af medianens serienummer, findes det mediale interval ved hjælp af de akkumulerede frekvenser (frekvenser), og derefter ved hjælp af formlen til beregning af medianen bestemmes værdien af ​​selve medianen:

hvor Me er medianværdien; x mig - nedre grænse for medianintervallet; h- bredden af ​​medianintervallet; - summen af ​​fordelingsrækkernes frekvenser; /D - akkumuleret frekvens af pre-median interval; / Me - frekvens af medianintervallet.

Medianen kan findes grafisk ved hjælp af en kumulering. For at gøre dette, på skalaen af ​​akkumulerede frekvenser (frekvenser) af kumulatet, fra det punkt, der svarer til det ordinære tal på medianen, tegnes en lige linje parallelt med abscisseaksen, indtil den skærer kumulatet. Dernæst fra skæringspunktet for den angivne linje med kumulatet sænkes en vinkelret på abscisseaksen. Værdien af ​​attributten på x-aksen svarende til den tegnede ordinat (vinkelret) er medianen.

Medianen er karakteriseret ved følgende egenskaber.

  • 1. Det afhænger ikke af de attributværdier, der er placeret på hver side af det.
  • 2. Det har egenskaben minimalitet, hvilket betyder, at summen af ​​absolutte afvigelser af attributværdierne fra medianen repræsenterer en minimumsværdi sammenlignet med attributværdiernes afvigelse fra enhver anden værdi.
  • 3. Når man kombinerer to fordelinger med kendte medianer, er det umuligt på forhånd at forudsige værdien af ​​medianen af ​​den nye fordeling.

Disse egenskaber af medianen bruges i vid udstrækning ved design af placeringen af ​​offentlige servicepunkter - skoler, klinikker, tankstationer, vandpumper osv. For eksempel, hvis det planlægges at bygge en klinik i en bestemt blok af byen, så vil det være mere hensigtsmæssigt at placere den på et punkt i blokken, der ikke halverer blokkens længde, men antallet af beboere.

Forholdet mellem tilstanden, medianen og det aritmetiske middel angiver arten af ​​fordelingen af ​​karakteristikken i aggregatet og giver os mulighed for at vurdere fordelingens symmetri. Hvis x Me så er der en højresidig asymmetri i serien. Med normalfordeling X - Mig - Mo.

K. Pearson, baseret på justeringen af ​​forskellige typer kurver, fastslog, at for moderat asymmetriske fordelinger er følgende omtrentlige forhold mellem det aritmetiske middelværdi, median og tilstand gyldige:

hvor Me er medianværdien; Mo - betydningen af ​​mode; x aritme - værdien af ​​det aritmetiske middelværdi.

Hvis der er behov for at studere strukturen af ​​variationsserien mere detaljeret, så beregn karakteristiske værdier svarende til medianen. Sådanne karakteristiske værdier opdeler alle distributionsenheder i lige mange, de kaldes kvantiler eller gradienter. Kvantiler er opdelt i kvartiler, deciler, percentiler osv.

Kvartiler deler befolkningen i fire lige store dele. Den første kvartil beregnes på samme måde som medianen ved hjælp af formlen til beregning af den første kvartil, efter forudgående at have bestemt det første kvartalsinterval:

hvor Qi er værdien af ​​den første kvartil; xQ^- nedre grænse for det første kvartilområde; h- bredden af ​​det første kvartalsinterval; /, - frekvenser af intervalrækken;

Kumulativ frekvens i intervallet forud for det første kvartilinterval; Jq ( - frekvens af det første kvartilinterval.

Den første kvartil viser, at 25 % af befolkningsenhederne er mindre end dens værdi, og 75 % er flere. Den anden kvartil er lig med medianen, dvs. Q 2 = Mig.

Analogt beregnes den tredje kvartil efter først at have fundet det tredje kvartalsinterval:

hvor er den nedre grænse for det tredje kvartilområde; h- bredden af ​​det tredje kvartilinterval; /, - frekvenser af intervalrækken; /X" - akkumuleret frekvens i det foregående interval

G

tredje kvartil interval; Jq er frekvensen af ​​det tredje kvartilinterval.

Den tredje kvartil viser, at 75 % af befolkningsenhederne er mindre end dens værdi, og 25 % er flere.

Forskellen mellem tredje og første kvartil er interkvartilområdet:

hvor Aq er værdien af ​​interkvartilområdet; Q 3 - tredje kvartil værdi; Q, er værdien af ​​den første kvartil.

Deciler deler befolkningen i 10 lige store dele. En decil er en værdi af en karakteristik i en fordelingsrække, der svarer til tiendedele af populationsstørrelsen. I analogi med kvartiler viser den første decil, at 10 % af befolkningsenhederne er mindre end dens værdi, og 90 % er større, og den niende decil afslører, at 90 % af befolkningsenhederne er mindre end dens værdi, og 10 % er større. Forholdet mellem den niende og første decil, dvs. Decilkoefficienten bruges i vid udstrækning i undersøgelsen af ​​indkomstdifferentiering til at måle forholdet mellem indkomstniveauerne for de 10 % mest velhavende og 10 % af den mindst velhavende befolkning. Percentiler deler den rangerede befolkning i 100 lige store dele. Beregningen, betydningen og anvendelsen af ​​percentiler ligner deciler.

Kvartiler, deciler og andre strukturelle karakteristika kan bestemmes grafisk analogt med medianen ved hjælp af kumulater.

For at måle variationens størrelse anvendes følgende indikatorer: variationsområde, gennemsnitlig lineær afvigelse, standardafvigelse, spredning. Variationsområdets størrelse afhænger helt af tilfældigheden af ​​fordelingen af ​​seriens ekstreme medlemmer. Denne indikator er af interesse i tilfælde, hvor det er vigtigt at vide, hvad amplituden af ​​fluktuationer i værdierne af en karakteristik er:

Hvor R- værdien af ​​variationsområdet; x max - maksimal værdi af attributten; x tt - minimumsværdien af ​​attributten.

Ved beregning af variationsområdet tages der ikke højde for værdien af ​​langt de fleste seriemedlemmer, mens variationen er knyttet til hver værdi af seriemedlemmet. Indikatorer, der er gennemsnit opnået fra afvigelser af individuelle værdier af en karakteristik fra deres gennemsnitlige værdi, har ikke denne ulempe: den gennemsnitlige lineære afvigelse og standardafvigelsen. Der er en direkte sammenhæng mellem individuelle afvigelser fra gennemsnittet og variabiliteten af ​​et bestemt træk. Jo stærkere udsving, jo større er den absolutte størrelse af afvigelserne fra gennemsnittet.

Den gennemsnitlige lineære afvigelse er det aritmetiske gennemsnit af de absolutte værdier af individuelle optioners afvigelser fra deres gennemsnitlige værdi.

Gennemsnitlig lineær afvigelse for ugrupperede data

hvor /pr er værdien af ​​den gennemsnitlige lineære afvigelse; x, - er værdien af ​​attributten; X - P - antal enheder i befolkningen.

Gennemsnitlig lineær afvigelse af den grupperede serie

hvor / vz - værdien af ​​den gennemsnitlige lineære afvigelse; x, er værdien af ​​attributten; X - gennemsnitsværdien af ​​karakteristikken for den population, der undersøges; / - antallet af befolkningsenheder i en separat gruppe.

I dette tilfælde ignoreres tegnene på afvigelser, ellers vil summen af ​​alle afvigelser være lig med nul. Den gennemsnitlige lineære afvigelse, afhængigt af grupperingen af ​​de analyserede data, beregnes ved hjælp af forskellige formler: for grupperede og ugrupperede data. På grund af sin konvention anvendes den gennemsnitlige lineære afvigelse, adskilt fra andre variationsindikatorer, i praksis relativt sjældent (især til at karakterisere opfyldelsen af ​​kontraktlige forpligtelser vedrørende ensartet levering; i analysen af ​​udenrigshandelens omsætning, sammensætningen af medarbejdere, produktionsrytmen, produktkvalitet, under hensyntagen til produktionens teknologiske egenskaber osv.).

Standardafvigelsen karakteriserer, hvor meget de individuelle værdier af den undersøgte egenskab i gennemsnit afviger fra gennemsnitsværdien af ​​befolkningen, og udtrykkes i måleenheder for den egenskab, der undersøges. Standardafvigelsen, der er et af de vigtigste variationsmål, er meget brugt til at vurdere variationsgrænserne for en karakteristik i en homogen population, ved bestemmelse af ordinatværdierne for en normalfordelingskurve samt i beregninger relateret til organisering af prøveobservation og fastlæggelse af nøjagtigheden af ​​prøvekarakteristika. Standardafvigelsen for ugrupperede data beregnes ved hjælp af følgende algoritme: hver afvigelse fra middelværdien kvadreres, alle kvadrater summeres, hvorefter summen af ​​kvadrater divideres med antallet af led i rækken, og kvadratroden udtrækkes fra kvotient:

hvor en Iip er værdien af ​​standardafvigelsen; Xj- attribut værdi; x- gennemsnitsværdien af ​​karakteristikken for den population, der undersøges; P - antal enheder i befolkningen.

For grupperede analyserede data beregnes standardafvigelsen for dataene ved hjælp af den vægtede formel

Hvor - standardafvigelsesværdi; Xj- attribut værdi; X - gennemsnitsværdien af ​​karakteristikken for den population, der undersøges; f x - antallet af befolkningsenheder i en bestemt gruppe.

Udtrykket under roden kaldes i begge tilfælde varians. Spredningen beregnes således som det gennemsnitlige kvadrat af afvigelser af attributværdier fra deres gennemsnitlige værdi. For uvægtede (simple) attributværdier bestemmes variansen som følger:

For vægtede karakteristiske værdier

Der er også en særlig forenklet metode til beregning af varians: generelt

for uvægtede (enkle) karakteristiske værdier for vægtede karakteristiske værdier
ved hjælp af den nul-baserede metode

hvor a2 er spredningsværdien; x, - er værdien af ​​attributten; X - gennemsnitsværdien af ​​karakteristikken, h- gruppe interval værdi, t 1 - vægt (A =

Spredning har sit eget udtryk i statistik og er en af ​​de vigtigste indikatorer for variation. Det måles i enheder svarende til kvadratet på måleenhederne for den karakteristik, der undersøges.

Dispersionen har følgende egenskaber.

  • 1. Variansen af ​​en konstant værdi er nul.
  • 2. Reduktion af alle værdier af en karakteristik med samme værdi A ændrer ikke værdien af ​​spredningen. Dette betyder, at det gennemsnitlige kvadrat af afvigelser ikke kan beregnes ud fra givne værdier af en karakteristik, men ud fra deres afvigelser fra et konstant tal.
  • 3. Reduktion af eventuelle karakteristiske værdier i k gange reducerer spredningen med k 2 gange, og standardafvigelsen er inde k gange, dvs. alle værdier af attributten kan divideres med et konstant tal (f.eks. med værdien af ​​serieintervallet), standardafvigelsen kan beregnes og derefter ganges med et konstant tal.
  • 4. Hvis vi beregner det gennemsnitlige kvadrat af afvigelser fra enhver værdi Og afviger i en eller anden grad fra det aritmetiske middel, så vil det altid være større end gennemsnitskvadratet af afvigelserne beregnet ud fra det aritmetiske middel. Den gennemsnitlige kvadrat af afvigelserne vil være større med en meget vis mængde - med kvadratet af forskellen mellem gennemsnittet og denne konventionelt taget værdi.

Variation af en alternativ karakteristik består i tilstedeværelsen eller fraværet af den undersøgte egenskab i enheder af befolkningen. Kvantitativt er variationen af ​​en alternativ egenskab udtrykt med to værdier: tilstedeværelsen af ​​en enhed af den undersøgte egenskab er angivet med en (1), og dens fravær er angivet med nul (0). Andelen af ​​enheder, der har ejendommen under undersøgelse, er angivet med P, og andelen af ​​enheder, der ikke har denne egenskab, er angivet med G. Således er variansen af ​​en alternativ egenskab lig med produktet af andelen af ​​enheder, der besidder denne egenskab (P) med andelen af ​​enheder, der ikke besidder denne egenskab (G). Den største variation af befolkningen opnås i tilfælde, hvor en del af befolkningen, der udgør 50 % af befolkningens samlede volumen, har en egenskab, og en anden del af befolkningen, også lig med 50 %, ikke har denne egenskab. og dispersionen når en maksimal værdi på 0,25, t .e. P = 0,5, G= 1 - P = 1 - 0,5 = 0,5 og o2 = 0,5 0,5 = 0,25. Den nedre grænse for denne indikator er nul, hvilket svarer til en situation, hvor der ikke er nogen variation i aggregatet. Den praktiske anvendelse af variansen af ​​en alternativ karakteristik er at konstruere konfidensintervaller, når der udføres prøveobservationer.

Jo mindre varians og standardafvigelse er, jo mere homogen er populationen og jo mere typisk vil gennemsnittet være. I praksis med statistik er der ofte behov for at sammenligne variationer af forskellige karakteristika. For eksempel er det interessant at sammenligne variationer i arbejdstagernes alder og deres kvalifikationer, anciennitet og lønninger, omkostninger og profit, anciennitet og arbejdsproduktivitet mv. Til sådanne sammenligninger er indikatorer for absolut variabilitet af egenskaber uegnede: det er umuligt at sammenligne variationen af ​​erhvervserfaring, udtrykt i år, med variationen af ​​løn, udtrykt i rubler. For at udføre sådanne sammenligninger, såvel som sammenligninger af variabiliteten af ​​den samme karakteristik i flere populationer med forskellige aritmetiske gennemsnit, anvendes variationsindikatorer - svingningskoefficienten, den lineære variationskoefficient og variationskoefficienten, som viser målet. af udsving af ekstreme værdier omkring gennemsnittet.

Oscillationskoefficient:

Hvor V R - oscillationskoefficientværdi; R- værdien af ​​variationsområdet; X -

Lineær variationskoefficient".

Hvor Vj- værdien af ​​den lineære variationskoefficient; jeg - værdien af ​​den gennemsnitlige lineære afvigelse; X - gennemsnitsværdien af ​​karakteristikken for den population, der undersøges.

Variationskoefficienten:

Hvor V a - variationskoefficientværdi; a er værdien af ​​standardafvigelsen; X - gennemsnitsværdien af ​​karakteristikken for den population, der undersøges.

Oscillationskoefficienten er det procentvise forhold mellem variationsområdet og gennemsnitsværdien af ​​den karakteristik, der undersøges, og den lineære variationskoefficient er forholdet mellem den gennemsnitlige lineære afvigelse og gennemsnitsværdien af ​​den karakteristik, der undersøges, udtrykt som en procent. Variationskoefficienten er procentdelen af ​​standardafvigelsen til gennemsnitsværdien af ​​den karakteristik, der undersøges. Som en relativ værdi, udtrykt i procent, bruges variationskoefficienten til at sammenligne variationsgraden af ​​forskellige karakteristika. Ved hjælp af variationskoefficienten vurderes homogeniteten af ​​en statistisk population. Hvis variationskoefficienten er mindre end 33 %, er populationen under undersøgelse homogen, og variationen er svag. Hvis variationskoefficienten er mere end 33%, så er populationen under undersøgelse heterogen, variationen er stærk, og gennemsnitsværdien er atypisk og kan ikke bruges som en generel indikator for denne population. Derudover bruges variationskoefficienter til at sammenligne variabiliteten af ​​en egenskab i forskellige populationer. For eksempel at vurdere variationen i anciennitet for arbejdere i to virksomheder. Jo højere koefficientværdien er, jo mere signifikant er variationen af ​​karakteristikken.

Baseret på de beregnede kvartiler er det også muligt at beregne den relative indikator for kvartalsvariation ved hjælp af formlen

hvor Q 2 Og

Interkvartilområdet bestemmes af formlen

Kvartilafvigelsen bruges i stedet for variationsområdet for at undgå de ulemper, der er forbundet med at bruge ekstreme værdier:

For ulige intervalvariationsserier beregnes også fordelingstætheden. Det er defineret som kvotienten af ​​den tilsvarende frekvens eller frekvens divideret med værdien af ​​intervallet. I ulige intervalserier anvendes absolutte og relative fordelingstætheder. Den absolutte fordelingstæthed er frekvensen pr. længdeenhed af intervallet. Relativ fordelingstæthed - frekvens pr. intervalængdeenhed.

Alt ovenstående gælder for distributionsserier, hvis distributionslov er godt beskrevet af normalfordelingsloven eller er tæt på den.

Grupperingsmetoden giver dig også mulighed for at måle variation(variabilitet, fluktuation) af tegn. Når antallet af enheder i en population er relativt lille, måles variation baseret på det rangerede antal enheder, der udgør populationen. Serien hedder rangeret, hvis enhederne er arrangeret i stigende (faldende) rækkefølge af karakteristikken.

Rangordnede serier er dog ret vejledende, når der er behov for en komparativ karakteristik af variation. Derudover har vi i mange tilfælde at gøre med statistiske populationer bestående af et stort antal enheder, som praktisk talt er svære at repræsentere i form af en bestemt serie. I denne henseende, for et indledende generelt kendskab til statistiske data og især for at lette studiet af variation i karakteristika, kombineres de fænomener og processer, der undersøges, normalt i grupper, og grupperingsresultaterne præsenteres i form af gruppetabeller.

Hvis en gruppetabel kun har to kolonner - grupper efter en valgt karakteristik (valgmuligheder) og antallet af grupper (frekvens eller frekvens), kaldes den nær distribution.

Distributionsområde - den enkleste type strukturel gruppering baseret på én karakteristik, vist i en gruppetabel med to kolonner, der indeholder varianter og frekvenser af karakteristikken. I mange tilfælde med en sådan strukturel gruppering, dvs. Med udarbejdelsen af ​​distributionsserier begynder undersøgelsen af ​​det indledende statistiske materiale.

En strukturel gruppering i form af en distributionsserie kan omdannes til en ægte strukturel gruppering, hvis de udvalgte grupper ikke kun er karakteriseret ved frekvenser, men også af andre statistiske indikatorer. Hovedformålet med distributionsserier er at studere variationen af ​​karakteristika. Teorien om fordelingsrækker er udviklet i detaljer af matematisk statistik.

Distributionsrækkerne er opdelt i attributive(gruppering efter attributive egenskaber, f.eks. opdeling af befolkningen efter køn, nationalitet, civilstand osv.) og variationsmæssig(gruppering efter kvantitative egenskaber).

Variationsserie er en gruppetabel, der indeholder to kolonner: gruppering af enheder efter én kvantitativ egenskab og antallet af enheder i hver gruppe. Intervallerne i variationsrækken er normalt udformet lige og lukkede. Variationsrækken er følgende gruppering af den russiske befolkning efter gennemsnitlig pengeindkomst pr. indbygger (tabel 3.10).

Tabel 3.10

Fordeling af befolkningen i Rusland efter gennemsnitlig indkomst pr. indbygger i 2004-2009.

Befolkningsgrupper efter gennemsnitlig kontantindkomst pr. indbygger, rub./måned

Befolkning i gruppen, % af totalen

8 000,1-10 000,0

10 000,1-15 000,0

15 000,1-25 000,0

Over 25.000,0

Hele befolkningen

Variationsserier er til gengæld opdelt i diskrete og interval. Diskret variationsserier kombinerer varianter af diskrete egenskaber, der varierer inden for snævre grænser. Et eksempel på en diskret variationsserie er fordelingen af ​​russiske familier efter antallet af børn, de har.

Interval variationsserier kombinerer varianter af enten kontinuerlige karakteristika eller diskrete karakteristika, der varierer over et bredt område. Interval er variationsrækken af ​​fordelingen af ​​den russiske befolkning efter gennemsnitlig pengeindkomst pr. indbygger.

Diskrete variationsserier bruges ikke særlig ofte i praksis. I mellemtiden er det ikke svært at kompilere dem, da sammensætningen af ​​grupperne bestemmes af de specifikke varianter, som de undersøgte grupperingskarakteristika faktisk har.

Intervalvariationsserier er mere udbredte. Når du kompilerer dem, opstår der et vanskeligt spørgsmål om antallet af grupper samt størrelsen af ​​de intervaller, der skal etableres.

Principperne for løsning af dette problem er beskrevet i kapitlet om metoden til at konstruere statistiske grupperinger (se afsnit 3.3).

Variationsserier er et middel til at kollapse eller komprimere forskelligartet information til en kompakt form ud fra dem kan man foretage en ret klar bedømmelse af variationens art og studere forskellene i karakteristika for de fænomener, der indgår i det undersøgte sæt. Men den vigtigste betydning af variationsserier er, at man på deres grundlag beregner variationens særlige generaliserende karakteristika (se kapitel 7).