Værdien af ​​en karakteristik i en variationsserie. Variations- og statistiske fordelingsrækker

Som et resultat af at mestre dette kapitel skal den studerende: ved godt

  • indikatorer for variation og deres sammenhæng;
  • grundlæggende love for fordeling af egenskaber;
  • essensen af ​​samtykkekriterierne; være i stand til
  • beregne indeks for variation og godhed-of-fit kriterier;
  • bestemme distributionskarakteristika;
  • vurdere de grundlæggende numeriske karakteristika for statistiske distributionsserier;

egen

  • metoder til statistisk analyse af distributionsserier;
  • grundlæggende for variansanalyse;
  • teknikker til at kontrollere statistiske distributionsserier for overholdelse af de grundlæggende love for distribution.

Variationsindikatorer

I den statistiske undersøgelse af karakteristika for forskellige statistiske populationer er det af stor interesse at studere variationen af ​​karakteristikken for individuelle statistiske enheder af befolkningen, såvel som arten af ​​fordelingen af ​​enheder ifølge denne karakteristik. Variation - disse er forskelle i individuelle værdier af en karakteristik blandt enheder af befolkningen, der undersøges. Studiet af variation er af stor praktisk betydning. Ud fra graden af ​​variation kan man bedømme variationsgrænserne for en karakteristik, befolkningens homogenitet for en given karakteristik, gennemsnitstypiskheden og forholdet mellem faktorer, der bestemmer variationen. Variationsindikatorer bruges til at karakterisere og organisere statistiske populationer.

Resultaterne af sammenfatningen og grupperingen af ​​statistiske observationsmaterialer, præsenteret i form af statistiske fordelingsserier, repræsenterer en ordnet fordeling af enheder af den undersøgte population i grupper i henhold til gruppering (varierende) kriterier. Hvis en kvalitativ karakteristik tages som grundlag for grupperingen, kaldes en sådan distributionsserie attributive(fordeling på erhverv, køn, farve osv.). Hvis en distributionsserie er konstrueret på et kvantitativt grundlag, kaldes en sådan serie variationsmæssig(fordeling på højde, vægt, løn osv.). At konstruere en variationsserie betyder at organisere den kvantitative fordeling af befolkningsenheder efter karakteristiske værdier, tælle antallet af befolkningsenheder med disse værdier (hyppighed) og arrangere resultaterne i en tabel.

I stedet for frekvensen af ​​en variant er det muligt at bruge dens forhold til det samlede volumen af ​​observationer, som kaldes frekvens (relativ frekvens).

Der er to typer variationsserier: diskrete og interval. Diskret serie- Dette er en variationsserie, hvis konstruktion er baseret på karakteristika med diskontinuerlige ændringer (diskrete karakteristika). Sidstnævnte omfatter antallet af ansatte i virksomheden, takstkategori, antal børn i familien mv. En diskret variationsserie repræsenterer en tabel, der består af to kolonner. Den første kolonne angiver den specifikke værdi af attributten, og den anden kolonne angiver antallet af enheder i populationen med en specifik værdi af attributten. Hvis en egenskab har en kontinuerlig ændring (indkomstbeløb, anciennitet, omkostninger til virksomhedens anlægsaktiver osv., som inden for visse grænser kan antage enhver værdi), så er det for denne egenskab muligt at konstruere intervalvariationsserier. Når man konstruerer en intervalvariationsserie, har tabellen også to kolonner. Den første angiver værdien af ​​attributten i intervallet "fra - til" (valgmuligheder), den anden angiver antallet af enheder inkluderet i intervallet (frekvens). Frekvens (gentagelsesfrekvens) - antallet af gentagelser af en bestemt variant af attributværdier. Intervaller kan være lukkede eller åbne. Lukket intervaller er begrænset på begge sider, dvs. har både en nedre (“fra”) og en øvre (“til”) grænse. Åbne intervaller har én grænse: enten øvre eller nedre. Hvis mulighederne er arrangeret i stigende eller faldende rækkefølge, kaldes rækkerne rangeret.

For variationsserier er der to typer frekvensresponsmuligheder: akkumuleret frekvens og akkumuleret frekvens. Den akkumulerede frekvens viser, hvor mange observationer værdien af ​​karakteristikken tog værdier mindre end en given værdi. Den akkumulerede frekvens bestemmes ved at summere frekvensværdierne for en karakteristik for en given gruppe med alle frekvenser fra tidligere grupper. Den akkumulerede frekvens karakteriserer andelen af ​​observationsenheder, hvis attributværdier ikke overstiger den øvre grænse for den givne gruppe. Således viser den akkumulerede frekvens andelen af ​​optioner i helheden, der har en værdi, der ikke er større end den givne. Frekvens, frekvens, absolutte og relative tætheder, akkumuleret frekvens og frekvens er karakteristika for variantens størrelse.

Variationer i karakteristikaene for befolkningens statistiske enheder, såvel som arten af ​​fordelingen, studeres ved hjælp af indikatorer og karakteristika for variationsrækken, som omfatter seriens gennemsnitlige niveau, den gennemsnitlige lineære afvigelse, standardafvigelsen, spredningen , oscillationskoefficienter, variation, asymmetri, kurtosis osv.

Gennemsnitsværdier bruges til at karakterisere distributionscentret. Gennemsnittet er en generaliserende statistisk egenskab, hvor det typiske niveau af en egenskab, som medlemmer af befolkningen, der undersøges, kvantificeres. Der kan dog være tilfælde af sammenfald af aritmetiske middelværdier med forskellige fordelingsmønstre, derfor beregnes, som statistiske karakteristika for variationsrækker, de såkaldte strukturelle middelværdier - mode, median, samt kvantiler, som deler fordelingsrækkerne op i lige store dele (kvartiler, deciler, percentiler osv.).

Mode - Dette er værdien af ​​en egenskab, der forekommer i distributionsrækken oftere end dens andre værdier. For diskrete serier er dette muligheden med den højeste frekvens. I intervalvariationsserier er det for at bestemme tilstanden nødvendigt først at bestemme det interval, hvori det er placeret, det såkaldte modale interval. I en variationsserie med lige intervaller bestemmes det modale interval af den højeste frekvens, i serier med ulige intervaller - men af ​​den højeste fordelingstæthed. Formlen bruges derefter til at bestemme tilstanden i rækker med lige store intervaller

hvor Mo er modeværdien; xMo - nedre grænse for det modale interval; h- modal interval bredde; / Mo - frekvens af det modale interval; / Mo j er frekvensen af ​​det præmodale interval; / Mo+1 er frekvensen af ​​det post-modale interval, og for en serie med ulige intervaller i denne beregningsformel skal der i stedet for frekvenserne / Mo, / Mo, / Mo anvendes distributionstætheder Sind 0 _| , Sind 0> UMO+"

Hvis der er en enkelt tilstand, så kaldes sandsynlighedsfordelingen af ​​den stokastiske variabel unimodal; hvis der er mere end én tilstand, kaldes den multimodal (polymodal, multimodal), i tilfælde af to tilstande - bimodal. Som regel indikerer multimodalitet, at den undersøgte fordeling ikke overholder normalfordelingsloven. Homogene populationer er som regel karakteriseret ved enkelt-vertex-fordelinger. Multivertex indikerer også heterogeniteten af ​​den befolkning, der undersøges. Forekomsten af ​​to eller flere hjørner gør det nødvendigt at omgruppere dataene for at identificere mere homogene grupper.

I en intervalvariationsserie kan tilstanden bestemmes grafisk ved hjælp af et histogram. For at gøre dette skal du tegne to skærende linjer fra de øverste punkter i den højeste kolonne i histogrammet til de øverste punkter i to tilstødende kolonner. Derefter, fra punktet af deres skæringspunkt, sænkes en vinkelret ned på abscisseaksen. Værdien af ​​træk på x-aksen svarende til vinkelret er tilstanden. I mange tilfælde, når man karakteriserer en population som en generaliseret indikator, foretrækkes tilstanden frem for det aritmetiske gennemsnit.

Median - Dette er den centrale værdi af attributten; den besiddes af det centrale medlem af fordelingens rangerede serie. I diskrete serier, for at finde værdien af ​​medianen, bestemmes først dens serienummer. For at gøre dette, hvis antallet af enheder er ulige, tilføjes en til summen af ​​alle frekvenser, og antallet divideres med to. Hvis der er et lige antal enheder i en række, vil der være to medianenheder, så i dette tilfælde er medianen defineret som gennemsnittet af værdierne af de to medianenheder. Således er medianen i en diskret variationsserie den værdi, der deler serien i to dele, der indeholder det samme antal muligheder.

I intervalserier, efter bestemmelse af medianens serienummer, findes det mediale interval ved hjælp af de akkumulerede frekvenser (frekvenser), og derefter ved hjælp af formlen til beregning af medianen bestemmes værdien af ​​selve medianen:

hvor Me er medianværdien; x mig - nedre grænse for medianintervallet; h- bredden af ​​medianintervallet; - summen af ​​fordelingsrækkernes frekvenser; /D - akkumuleret frekvens af pre-median interval; / Me - frekvens af medianintervallet.

Medianen kan findes grafisk ved hjælp af en kumulering. For at gøre dette, på skalaen af ​​akkumulerede frekvenser (frekvenser) af kumulatet, fra det punkt, der svarer til det ordinære tal på medianen, tegnes en lige linje parallelt med abscisseaksen, indtil den skærer kumulatet. Dernæst fra skæringspunktet for den angivne linje med kumulatet sænkes en vinkelret på abscisseaksen. Værdien af ​​attributten på x-aksen svarende til den tegnede ordinat (vinkelret) er medianen.

Medianen er karakteriseret ved følgende egenskaber.

  • 1. Det afhænger ikke af de attributværdier, der er placeret på hver side af det.
  • 2. Det har egenskaben minimalitet, hvilket betyder, at summen af ​​absolutte afvigelser af attributværdierne fra medianen repræsenterer en minimumsværdi sammenlignet med attributværdiernes afvigelse fra enhver anden værdi.
  • 3. Når man kombinerer to fordelinger med kendte medianer, er det umuligt på forhånd at forudsige værdien af ​​medianen af ​​den nye fordeling.

Disse egenskaber af medianen bruges i vid udstrækning ved design af placeringen af ​​offentlige servicepunkter - skoler, klinikker, tankstationer, vandpumper osv. For eksempel, hvis det planlægges at bygge en klinik i en bestemt blok af byen, så vil det være mere hensigtsmæssigt at placere den på et punkt i blokken, der ikke halverer blokkens længde, men antallet af beboere.

Forholdet mellem tilstanden, medianen og det aritmetiske middel angiver arten af ​​fordelingen af ​​karakteristikken i aggregatet og giver os mulighed for at vurdere fordelingens symmetri. Hvis x Me så er der en højresidig asymmetri i serien. Med normalfordeling X - Mig - Mo.

K. Pearson, baseret på justeringen af ​​forskellige typer kurver, fastslog, at for moderat asymmetriske fordelinger er følgende omtrentlige forhold mellem det aritmetiske middelværdi, median og tilstand gyldige:

hvor Me er medianværdien; Mo - betydningen af ​​mode; x aritme - værdien af ​​det aritmetiske middelværdi.

Hvis der er behov for at studere strukturen af ​​variationsserien mere detaljeret, så beregn karakteristiske værdier svarende til medianen. Sådanne karakteristiske værdier deler alle distributionsenheder i lige mange; de ​​kaldes kvantiler eller gradienter. Kvantiler er opdelt i kvartiler, deciler, percentiler osv.

Kvartiler deler befolkningen i fire lige store dele. Den første kvartil beregnes på samme måde som medianen ved hjælp af formlen til beregning af den første kvartil, efter forudgående at have bestemt det første kvartalsinterval:

hvor Qi er værdien af ​​den første kvartil; xQ^- nedre grænse for det første kvartilområde; h- bredden af ​​det første kvartalsinterval; /, - frekvenser af intervalrækken;

Kumulativ frekvens i intervallet forud for det første kvartilinterval; Jq ( - frekvens af det første kvartilinterval.

Den første kvartil viser, at 25 % af befolkningsenhederne er mindre end dens værdi, og 75 % er flere. Den anden kvartil er lig med medianen, dvs. Q 2 = Mig.

Analogt beregnes den tredje kvartil efter først at have fundet det tredje kvartalsinterval:

hvor er den nedre grænse for det tredje kvartilområde; h- bredden af ​​det tredje kvartilinterval; /, - frekvenser af intervalrækken; /X" - akkumuleret frekvens i det foregående interval

G

tredje kvartil interval; Jq er frekvensen af ​​det tredje kvartilinterval.

Den tredje kvartil viser, at 75 % af befolkningsenhederne er mindre end dens værdi, og 25 % er flere.

Forskellen mellem tredje og første kvartil er interkvartilområdet:

hvor Aq er værdien af ​​interkvartilområdet; Q 3 - tredje kvartil værdi; Q, er værdien af ​​den første kvartil.

Deciler deler befolkningen i 10 lige store dele. En decil er en værdi af en karakteristik i en fordelingsrække, der svarer til tiendedele af populationsstørrelsen. I analogi med kvartiler viser den første decil, at 10 % af befolkningsenhederne er mindre end dens værdi, og 90 % er større, og den niende decil afslører, at 90 % af befolkningsenhederne er mindre end dens værdi, og 10 % er større. Forholdet mellem den niende og første decil, dvs. Decilkoefficienten bruges i vid udstrækning i undersøgelsen af ​​indkomstdifferentiering til at måle forholdet mellem indkomstniveauerne for de 10 % mest velhavende og 10 % af den mindst velhavende befolkning. Percentiler deler den rangerede befolkning i 100 lige store dele. Beregningen, betydningen og anvendelsen af ​​percentiler ligner deciler.

Kvartiler, deciler og andre strukturelle karakteristika kan bestemmes grafisk analogt med medianen ved hjælp af kumulater.

For at måle variationens størrelse anvendes følgende indikatorer: variationsområde, gennemsnitlig lineær afvigelse, standardafvigelse, spredning. Variationsområdets størrelse afhænger helt af tilfældigheden af ​​fordelingen af ​​seriens ekstreme medlemmer. Denne indikator er af interesse i tilfælde, hvor det er vigtigt at vide, hvad amplituden af ​​fluktuationer i værdierne af en karakteristik er:

Hvor R- værdien af ​​variationsområdet; x max - maksimal værdi af attributten; x tt - minimumsværdien af ​​attributten.

Ved beregning af variationsområdet tages der ikke højde for værdien af ​​langt de fleste seriemedlemmer, mens variationen er knyttet til hver værdi af seriemedlemmet. Indikatorer, der er gennemsnit opnået fra afvigelser af individuelle værdier af en karakteristik fra deres gennemsnitlige værdi, har ikke denne ulempe: den gennemsnitlige lineære afvigelse og standardafvigelsen. Der er en direkte sammenhæng mellem individuelle afvigelser fra gennemsnittet og variabiliteten af ​​et bestemt træk. Jo stærkere udsving, jo større er den absolutte størrelse af afvigelserne fra gennemsnittet.

Den gennemsnitlige lineære afvigelse er det aritmetiske gennemsnit af de absolutte værdier af individuelle optioners afvigelser fra deres gennemsnitlige værdi.

Gennemsnitlig lineær afvigelse for ugrupperede data

hvor /pr er værdien af ​​den gennemsnitlige lineære afvigelse; x, - er værdien af ​​attributten; X - P - antal enheder i befolkningen.

Gennemsnitlig lineær afvigelse af den grupperede serie

hvor / vz - værdien af ​​den gennemsnitlige lineære afvigelse; x, er værdien af ​​attributten; X - gennemsnitsværdien af ​​karakteristikken for den population, der undersøges; / - antallet af befolkningsenheder i en separat gruppe.

I dette tilfælde ignoreres tegnene på afvigelser, ellers vil summen af ​​alle afvigelser være lig med nul. Den gennemsnitlige lineære afvigelse, afhængigt af grupperingen af ​​de analyserede data, beregnes ved hjælp af forskellige formler: for grupperede og ugrupperede data. På grund af sin konvention anvendes den gennemsnitlige lineære afvigelse, adskilt fra andre variationsindikatorer, i praksis relativt sjældent (især til at karakterisere opfyldelsen af ​​kontraktlige forpligtelser vedrørende ensartet levering; i analysen af ​​udenrigshandelens omsætning, sammensætningen af medarbejdere, produktionsrytmen, produktkvalitet, under hensyntagen til produktionens teknologiske egenskaber osv.).

Standardafvigelsen karakteriserer, hvor meget de individuelle værdier af den undersøgte egenskab i gennemsnit afviger fra gennemsnitsværdien af ​​befolkningen, og udtrykkes i måleenheder for den egenskab, der undersøges. Standardafvigelsen, der er et af de vigtigste variationsmål, er meget brugt til at vurdere variationsgrænserne for en karakteristik i en homogen population, ved bestemmelse af ordinatværdierne for en normalfordelingskurve samt i beregninger relateret til organisering af prøveobservation og fastlæggelse af nøjagtigheden af ​​prøvekarakteristika. Standardafvigelsen for ugrupperede data beregnes ved hjælp af følgende algoritme: hver afvigelse fra middelværdien kvadreres, alle kvadrater summeres, hvorefter summen af ​​kvadrater divideres med antallet af led i rækken, og kvadratroden udtrækkes fra kvotient:

hvor en Iip er værdien af ​​standardafvigelsen; Xj- attribut værdi; x- gennemsnitsværdien af ​​karakteristikken for den population, der undersøges; P - antal enheder i befolkningen.

For grupperede analyserede data beregnes standardafvigelsen for dataene ved hjælp af den vægtede formel

Hvor - standardafvigelsesværdi; Xj- attribut værdi; X - gennemsnitsværdien af ​​karakteristikken for den population, der undersøges; f x - antallet af befolkningsenheder i en bestemt gruppe.

Udtrykket under roden kaldes i begge tilfælde varians. Spredningen beregnes således som det gennemsnitlige kvadrat af afvigelser af attributværdier fra deres gennemsnitlige værdi. For uvægtede (simple) attributværdier bestemmes variansen som følger:

For vægtede karakteristiske værdier

Der er også en særlig forenklet metode til beregning af varians: generelt

for uvægtede (enkle) karakteristiske værdier for vægtede karakteristiske værdier
ved hjælp af den nul-baserede metode

hvor a2 er spredningsværdien; x, - er værdien af ​​attributten; X - gennemsnitsværdien af ​​karakteristikken, h- gruppe interval værdi, t 1 - vægt (A =

Spredning har sit eget udtryk i statistik og er en af ​​de vigtigste indikatorer for variation. Det måles i enheder svarende til kvadratet på måleenhederne for den karakteristik, der undersøges.

Dispersionen har følgende egenskaber.

  • 1. Variansen af ​​en konstant værdi er nul.
  • 2. Reduktion af alle værdier af en karakteristik med samme værdi A ændrer ikke værdien af ​​spredningen. Dette betyder, at det gennemsnitlige kvadrat af afvigelser ikke kan beregnes ud fra givne værdier af en karakteristik, men ud fra deres afvigelser fra et konstant tal.
  • 3. Reduktion af eventuelle karakteristiske værdier i k gange reducerer spredningen med k 2 gange, og standardafvigelsen er inde k gange, dvs. alle værdier af attributten kan divideres med et konstant tal (f.eks. med værdien af ​​serieintervallet), standardafvigelsen kan beregnes og derefter ganges med et konstant tal.
  • 4. Hvis vi beregner det gennemsnitlige kvadrat af afvigelser fra enhver værdi Og afviger i en eller anden grad fra det aritmetiske middel, så vil det altid være større end gennemsnitskvadratet af afvigelserne beregnet ud fra det aritmetiske middel. Den gennemsnitlige kvadrat af afvigelserne vil være større med en meget vis mængde - med kvadratet af forskellen mellem gennemsnittet og denne konventionelt taget værdi.

Variation af en alternativ karakteristik består i tilstedeværelsen eller fraværet af den undersøgte egenskab i enheder af befolkningen. Kvantitativt er variationen af ​​en alternativ egenskab udtrykt med to værdier: tilstedeværelsen af ​​en enhed af den undersøgte egenskab er angivet med en (1), og dens fravær er angivet med nul (0). Andelen af ​​enheder, der har ejendommen under undersøgelse, er angivet med P, og andelen af ​​enheder, der ikke har denne egenskab, er angivet med G. Således er variansen af ​​en alternativ egenskab lig med produktet af andelen af ​​enheder, der besidder denne egenskab (P) med andelen af ​​enheder, der ikke besidder denne egenskab (G). Den største variation i befolkningen opnås i tilfælde, hvor en del af befolkningen, der udgør 50 % af befolkningens samlede volumen, har en egenskab, og en anden del af befolkningen, også lig med 50 %, ikke har denne egenskab. og dispersionen når en maksimal værdi på 0,25, t .e. P = 0,5, G= 1 - P = 1 - 0,5 = 0,5 og o2 = 0,5 0,5 = 0,25. Den nedre grænse for denne indikator er nul, hvilket svarer til en situation, hvor der ikke er nogen variation i aggregatet. Den praktiske anvendelse af variansen af ​​en alternativ karakteristik er at konstruere konfidensintervaller, når der udføres prøveobservationer.

Jo mindre varians og standardafvigelse er, jo mere homogen er populationen og jo mere typisk vil gennemsnittet være. I praksis med statistik er der ofte behov for at sammenligne variationer af forskellige karakteristika. For eksempel er det interessant at sammenligne variationer i arbejdstagernes alder og deres kvalifikationer, anciennitet og lønninger, omkostninger og profit, anciennitet og arbejdsproduktivitet mv. Til sådanne sammenligninger er indikatorer for absolut variabilitet af egenskaber uegnede: det er umuligt at sammenligne variationen af ​​erhvervserfaring, udtrykt i år, med variationen af ​​løn, udtrykt i rubler. For at udføre sådanne sammenligninger, såvel som sammenligninger af variabiliteten af ​​den samme karakteristik i flere populationer med forskellige aritmetiske gennemsnit, anvendes variationsindikatorer - svingningskoefficienten, den lineære variationskoefficient og variationskoefficienten, som viser målet. af udsving af ekstreme værdier omkring gennemsnittet.

Oscillationskoefficient:

Hvor V R - oscillationskoefficientværdi; R- værdien af ​​variationsområdet; X -

Lineær variationskoefficient".

Hvor Vj- værdien af ​​den lineære variationskoefficient; jeg - værdien af ​​den gennemsnitlige lineære afvigelse; X - gennemsnitsværdien af ​​karakteristikken for den population, der undersøges.

Variationskoefficienten:

Hvor V a - variationskoefficientværdi; a er værdien af ​​standardafvigelsen; X - gennemsnitsværdien af ​​karakteristikken for den population, der undersøges.

Oscillationskoefficienten er det procentvise forhold mellem variationsområdet og gennemsnitsværdien af ​​den karakteristik, der undersøges, og den lineære variationskoefficient er forholdet mellem den gennemsnitlige lineære afvigelse og gennemsnitsværdien af ​​den karakteristik, der undersøges, udtrykt som en procent. Variationskoefficienten er procentdelen af ​​standardafvigelsen til gennemsnitsværdien af ​​den karakteristik, der undersøges. Som en relativ værdi, udtrykt i procent, bruges variationskoefficienten til at sammenligne variationsgraden af ​​forskellige karakteristika. Ved hjælp af variationskoefficienten vurderes homogeniteten af ​​en statistisk population. Hvis variationskoefficienten er mindre end 33 %, er populationen under undersøgelse homogen, og variationen er svag. Hvis variationskoefficienten er mere end 33%, så er populationen under undersøgelse heterogen, variationen er stærk, og gennemsnitsværdien er atypisk og kan ikke bruges som en generel indikator for denne population. Derudover bruges variationskoefficienter til at sammenligne variabiliteten af ​​en egenskab i forskellige populationer. For eksempel at vurdere variationen i anciennitet for arbejdere i to virksomheder. Jo højere koefficientværdien er, jo mere signifikant er variationen af ​​karakteristikken.

Baseret på de beregnede kvartiler er det også muligt at beregne den relative indikator for kvartalsvariation ved hjælp af formlen

hvor Q 2 Og

Interkvartilområdet bestemmes af formlen

Kvartilafvigelsen bruges i stedet for variationsområdet for at undgå de ulemper, der er forbundet med at bruge ekstreme værdier:

For ulige intervalvariationsserier beregnes også fordelingstætheden. Det er defineret som kvotienten af ​​den tilsvarende frekvens eller frekvens divideret med værdien af ​​intervallet. I ulige intervalserier anvendes absolutte og relative fordelingstætheder. Den absolutte fordelingstæthed er frekvensen pr. længdeenhed af intervallet. Relativ fordelingstæthed - frekvens pr. intervalængdeenhed.

Alt ovenstående gælder for distributionsserier, hvis distributionslov er godt beskrevet af normalfordelingsloven eller er tæt på den.

Variationel kaldes distributionsserier konstrueret på kvantitativ basis. Værdierne af kvantitative egenskaber i individuelle enheder af befolkningen er ikke konstante og adskiller sig mere eller mindre fra hinanden.

Variation- fluktuation, foranderlighed af værdien af ​​en egenskab blandt enheder af befolkningen. Individuelle numeriske værdier for en egenskab, der findes i den population, der undersøges, kaldes muligheder værdier. Utilstrækkeligheden af ​​gennemsnitsværdien til fuldt ud at karakterisere befolkningen tvinger os til at supplere gennemsnitsværdierne med indikatorer, der giver os mulighed for at vurdere typiskheden af ​​disse gennemsnit ved at måle variabiliteten (variationen) af den karakteristik, der undersøges.

Tilstedeværelsen af ​​variation skyldes indflydelsen af ​​et stort antal faktorer på dannelsen af ​​trækets niveau. Disse faktorer virker med ulige styrke og i forskellige retninger. Variationsindekser bruges til at beskrive målet for egenskabsvariabilitet.

Formål med statistisk undersøgelse af variation:

  • 1) undersøgelse af karakteren og graden af ​​variation af karakteristika i individuelle enheder af befolkningen;
  • 2) at bestemme rollen af ​​individuelle faktorer eller deres grupper i variationen af ​​visse karakteristika af befolkningen.

I statistik anvendes særlige metoder til at studere variation, baseret på brugen af ​​et system af indikatorer, Med hvorved variationen måles.

Forskning i variation er vigtig. Det er nødvendigt at måle variationer ved udførelse af prøveobservation, korrelations- og variansanalyse osv. Ermolaev O.Yu. Matematisk statistik for psykologer: Lærebog [Tekst]/ O.Yu. Ermolaev. - M.: Flint Publishing House of the Moscow Psychological and Social Institute, 2012. - 335 s.

Ud fra graden af ​​variation kan man bedømme befolkningens homogenitet, stabiliteten af ​​individuelle værdier af egenskaber og typiskheden af ​​gennemsnittet. På grundlag heraf udvikles indikatorer for tætheden af ​​forholdet mellem karakteristika og indikatorer til vurdering af nøjagtigheden af ​​prøveobservation.

Der skelnes mellem variation i rum og variation i tid.

Variation i rummet forstås som fluktuationen af ​​attributværdier blandt befolkningsenheder, der repræsenterer individuelle territorier. Tidsvariation refererer til ændringer i værdierne af en karakteristik over forskellige tidsperioder.

For at studere variation i distributionsrækker er alle varianter af attributværdier arrangeret i stigende eller faldende rækkefølge. Denne proces kaldes rækkerangering.

De enkleste tegn på variation er minimum og maksimum- den mindste og største værdi af attributten i aggregatet. Antallet af gentagelser af individuelle varianter af funktionsværdier kaldes gentagelsesfrekvens (fi). Det er praktisk at erstatte frekvenser med frekvenser - wi. Frekvens er en relativ indikator for frekvens, som kan udtrykkes i brøkdele af en enhed eller procentdel og giver dig mulighed for at sammenligne variationsserier med forskellige antal observationer. Udtrykt med formlen:

hvor Xmax, Xmin er maksimum- og minimumværdierne for karakteristikken i aggregatet; n - antal grupper.

For at måle variationen af ​​en karakteristik bruges forskellige absolutte og relative indikatorer. Absolutte indikatorer for variation omfatter variationsområdet, gennemsnitlig lineær afvigelse, spredning og standardafvigelse. Relative indikatorer for oscillation omfatter oscillationskoefficienten, relativ lineær afvigelse og variationskoefficient.

Et eksempel på at finde en variationsserie

Dyrke motion. For denne prøve:

  • a) Find variationsrækken;
  • b) Konstruer fordelingsfunktionen;

nr.=42. Eksempel på elementer:

1 5 1 8 1 3 9 4 7 3 7 8 7 3 2 3 5 3 8 3 5 2 8 3 7 9 5 8 8 1 2 2 5 1 6 1 7 6 7 7 6 2

Løsning.

  • a) konstruktion af en rangeret variationsserie:
    • 1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 4 5 5 5 5 5 6 6 6 7 7 7 7 7 7 7 8 8 8 8 8 8 9 9
  • b) konstruktion af en diskret variationsserie.

Lad os beregne antallet af grupper i variationsserien ved hjælp af Sturgess-formlen:

Lad os tage antallet af grupper lig med 7.

Når vi kender antallet af grupper, beregner vi størrelsen af ​​intervallet:

For nemheds skyld vil vi tage antallet af grupper lig med 8, intervallet vil være 1.

Ris. 1 Mængden af ​​salg af varer i en butik i en bestemt periode

Konceptet med en variationsserie. Det første trin i systematisering af statistiske observationsmaterialer er at tælle antallet af enheder, der har en bestemt karakteristik. Ved at arrangere enhederne i stigende eller faldende rækkefølge efter deres kvantitative karakteristika og tælle antallet af enheder med en bestemt værdi af karakteristikken, får vi en variationsrække. En variationsserie karakteriserer fordelingen af ​​enheder i en bestemt statistisk population i henhold til en eller anden kvantitativ karakteristik.

Variationsserien består af to kolonner, den venstre kolonne indeholder værdierne af den varierende karakteristik, kaldet varianter og betegnet (x), og den højre kolonne indeholder absolutte tal, der viser, hvor mange gange hver variant forekommer. Indikatorerne i denne kolonne kaldes frekvenser og er betegnet (f).

Variationsrækken kan ske skematisk præsenteret i form af tabel 5.1:

Tabel 5.1

Type variationsserie

Valgmuligheder (x)

Frekvenser (f)

I højre kolonne kan der også bruges relative indikatorer, der karakteriserer andelen af ​​frekvensen af ​​individuelle optioner i den samlede sum af frekvenser. Disse relative indikatorer kaldes frekvenser og betegnes konventionelt med , dvs. . Summen af ​​alle frekvenser er lig med én. Frekvenser kan også udtrykkes som procenter, og så vil deres sum være lig med 100 %.

Forskellige tegn kan være af forskellig karakter. Varianter af nogle karakteristika er udtrykt i heltal, for eksempel antallet af værelser i en lejlighed, antallet af udgivne bøger osv. Disse tegn kaldes diskontinuerlige eller diskrete. Varianter af andre karakteristika kan antage enhver værdi inden for visse grænser, såsom opfyldelse af planlagte opgaver, løn osv. Disse karakteristika kaldes kontinuerlige.

Diskret variationsserie. Hvis varianterne af en variationsserie er udtrykt i form af diskrete mængder, kaldes en sådan variationsserie diskret; dens udseende er vist i tabel. 5.2:

Tabel 5.2

Fordeling af elever efter eksamenskarakterer

Bedømmelser (x)

Antal elever (f)

I % af alt ()

Arten af ​​fordelingen i diskrete serier er afbildet grafisk i form af en fordelingspolygon, Fig. 5.1.

Ris. 5.1. Fordeling af elever efter karakterer opnået ved eksamen.

Interval variation serie. For kontinuerte karakteristika er variationsserier konstrueret som interval, dvs. værdierne af karakteristikken i dem er udtrykt i form af intervaller "fra og til". I dette tilfælde kaldes minimumsværdien af ​​karakteristikken i et sådant interval den nedre grænse for intervallet, og maksimum kaldes den øvre grænse for intervallet.

Intervalvariationsserier er konstrueret både til diskontinuerlige karakteristika (diskrete) og til dem, der varierer over et stort område. Intervalrækker kan være med lige store eller ulige intervaller. I økonomisk praksis bruges de fleste ulige intervaller, der gradvist stiger eller falder. Dette behov opstår især i tilfælde, hvor udsvinget af en karakteristik opstår ujævnt og inden for store grænser.

Lad os overveje typen af ​​intervalserier med lige store intervaller, tabel. 5.3:

Tabel 5.3

Fordeling af arbejdere efter produktion

Udgang, t.r. (X)

Antal arbejdere (f)

Kumulativ frekvens (f´)

Intervalfordelingsrækken er grafisk afbildet i form af et histogram, fig. 5.2.

Fig.5.2. Fordeling af arbejdere efter produktion

Akkumuleret (kumulativ) frekvens. I praksis er der behov for at omdanne distributionsserier til kumulative serier, bygget efter akkumulerede frekvenser. Med deres hjælp kan du bestemme strukturelle gennemsnit, der letter analysen af ​​distributionsseriedata.

Kumulative frekvenser bestemmes ved sekventielt at tilføje til frekvenserne (eller frekvenserne) af den første gruppe disse indikatorer for efterfølgende grupper i distributionsserien. Kumulater og ogiver bruges til at illustrere distributionsserier. For at konstruere dem er værdierne af den diskrete karakteristik (eller enderne af intervallerne) markeret på abscisse-aksen, og de kumulative totaler af frekvenser (kumulater) er markeret på ordinataksen, fig. 5.3.

Ris. 5.3. Kumulativ fordeling af arbejdere efter produktion

Hvis skalaerne for frekvenser og muligheder vendes om, dvs. abscisseaksen afspejler de akkumulerede frekvenser, og ordinataksen viser værdierne af varianterne, så vil kurven, der karakteriserer ændringen i frekvenser fra gruppe til gruppe, blive kaldt fordelingsogivet, fig. 5.4.

Ris. 5.4. Ogiva af fordeling af arbejdere efter produktion

Variationsserier med lige intervaller giver et af de vigtigste krav til statistiske distributionsserier, hvilket sikrer deres sammenlignelighed i tid og rum.

Fordelingstæthed. Frekvenserne af individuelle ulige intervaller i de navngivne serier er dog ikke direkte sammenlignelige. I sådanne tilfælde, for at sikre den nødvendige sammenlignelighed, beregnes fordelingstætheden, dvs. bestemme, hvor mange enheder i hver gruppe er pr. intervalværdienhed.

Når man konstruerer en graf over fordelingen af ​​en variationsserie med ulige intervaller, bestemmes højden af ​​rektanglerne ikke i forhold til frekvenserne, men til tæthedsindikatorerne for fordelingen af ​​værdierne af den karakteristik, der studeres i den tilsvarende intervaller.

Opstilling af en variationsserie og dens grafiske repræsentation er det første trin i behandlingen af ​​de indledende data og det første trin i analysen af ​​den population, der undersøges. Det næste trin i analysen af ​​variationsserier er at bestemme de vigtigste generelle indikatorer, kaldet seriens karakteristika. Disse karakteristika skal give en ide om den gennemsnitlige værdi af karakteristikken blandt befolkningsenheder.

gennemsnits værdi. Gennemsnitsværdien er en generaliseret karakteristik af den egenskab, der undersøges i den undersøgte population, hvilket afspejler dens typiske niveau pr. enhed af befolkningen under specifikke forhold for sted og tid.

Gennemsnitsværdien er altid navngivet og har samme dimension som karakteristikken for individuelle enheder i befolkningen.

Før man beregner gennemsnitsværdier, er det nødvendigt at gruppere enhederne i den undersøgte population, der identificerer kvalitativt homogene grupper.

Gennemsnittet beregnet for befolkningen som helhed kaldes det samlede gennemsnit, og for hver gruppe - gruppegennemsnit.

Der er to typer gennemsnit: effekt (aritmetisk middelværdi, harmonisk middelværdi, geometrisk middelværdi, kvadratisk middelværdi); strukturel (mode, median, kvartiler, deciler).

Valget af gennemsnit til beregning afhænger af formålet.

Typer af effektgennemsnit og metoder til deres beregning. I praksis med statistisk behandling af indsamlet materiale opstår der forskellige problemer, hvis løsning kræver forskellige gennemsnit.

Matematisk statistik udleder forskellige gennemsnit fra magtgennemsnitsformler:

hvor er gennemsnitsværdien; x – individuelle muligheder (egenskabsværdier); z – eksponent (med z = 1 – aritmetisk middelværdi, z = 0 geometrisk middelværdi, z = - 1 – harmonisk middelværdi, z = 2 – kvadratisk middelværdi).

Spørgsmålet om, hvilken type gennemsnit der skal anvendes i hvert enkelt tilfælde, løses dog gennem en specifik analyse af den population, der undersøges.

Den mest almindelige type gennemsnit i statistik er aritmetisk middelværdi. Det beregnes i tilfælde, hvor volumenet af den gennemsnitlige karakteristik er dannet som summen af ​​dens værdier for individuelle enheder af den statistiske population, der undersøges.

Afhængigt af arten af ​​kildedataene bestemmes det aritmetiske gennemsnit på forskellige måder:

Hvis dataene ikke er grupperet, udføres beregningen ved hjælp af den simple gennemsnitsformel

Beregning af det aritmetiske middelværdi i en diskret række sker efter formel 3.4.

Beregning af det aritmetiske middelværdi i en intervalrække. I en intervalvariationsserie, hvor værdien af ​​en karakteristik i hver gruppe traditionelt antages at være midten af ​​intervallet, kan det aritmetiske gennemsnit afvige fra middelværdien beregnet ud fra ugrupperede data. Desuden, jo større intervallet er i grupperne, jo større er de mulige afvigelser af gennemsnittet beregnet ud fra grupperede data fra gennemsnittet beregnet ud fra ugrupperede data.

Når man beregner gennemsnittet over en intervalvariationsserie, for at udføre de nødvendige beregninger, bevæger man sig fra intervallerne til deres midtpunkter. Og så beregnes gennemsnittet ved hjælp af den vægtede aritmetiske gennemsnitsformel.

Egenskaber for det aritmetiske middelværdi. Det aritmetiske middelværdi har nogle egenskaber, der gør det muligt at forenkle beregninger; lad os overveje dem.

1. Det aritmetiske middelværdi af konstante tal er lig med dette konstante tal.

Hvis x = a. Derefter .

2. Hvis vægten af ​​alle optioner ændres forholdsmæssigt, dvs. stige eller falde med det samme antal gange, så ændres det aritmetiske middelværdi af den nye serie ikke.

Hvis alle vægte f reduceres med k gange, så .

3. Summen af ​​positive og negative afvigelser af individuelle optioner fra gennemsnittet, ganget med vægtene, er lig med nul, dvs.

Hvis så. Herfra.

Hvis alle muligheder reduceres eller øges med et hvilket som helst tal, vil det aritmetiske middelværdi af den nye serie falde eller stige med det samme beløb.

Lad os reducere alle muligheder x-en, dvs. x´ = xen.

Derefter

Det aritmetiske middelværdi af den oprindelige serie kan opnås ved at lægge det tal, der tidligere er trukket fra valgmulighederne, til det reducerede middelværdi -en, dvs. .

5. Hvis alle muligheder reduceres eller øges i k gange, så vil det aritmetiske gennemsnit af den nye serie falde eller stige med samme mængde, dvs. V k enkelt gang.

Lad det være så .

Derfor, dvs. for at opnå gennemsnittet af den oprindelige serie, skal det aritmetiske gennemsnit af den nye serie (med reducerede muligheder) øges med k enkelt gang.

Harmonisk middelværdi. Den harmoniske middelværdi er den reciproke af den aritmetiske middelværdi. Det bruges, når statistisk information ikke indeholder frekvenser for individuelle varianter af populationen, men præsenteres som deres produkt (M = xf). Den harmoniske middelværdi vil blive beregnet ved hjælp af formel 3.5

Den praktiske anvendelse af det harmoniske middel er at beregne nogle indekser, især prisindekset.

Geometrisk middelværdi. Når du bruger geometrisk middelværdi, er individuelle værdier af en karakteristik som regel relative værdier af dynamik, konstrueret i form af kædeværdier, som et forhold til det foregående niveau på hvert niveau i en række dynamikker. Gennemsnittet karakteriserer således den gennemsnitlige vækstrate.

Den geometriske middelværdi bruges også til at bestemme den ækvidistante værdi fra karakteristikkens maksimum- og minimumværdier. For eksempel indgår et forsikringsselskab kontrakter om levering af bilforsikringstjenester. Afhængigt af den konkrete forsikringsbegivenhed kan forsikringsudbetalingen variere fra 10.000 til 100.000 dollars om året. Det gennemsnitlige beløb for forsikringsudbetalinger vil være USD.

Det geometriske middel er en størrelse, der bruges som gennemsnit af forhold eller i fordelingsrækker præsenteret i form af en geometrisk progression, når z = 0. Denne middelværdi er praktisk at bruge, når man ikke er opmærksom på absolutte forskelle, men på forholdet mellem to tal.

Formlerne til beregning er som følger

hvor er varianterne af karakteristikken, der beregnes som gennemsnit; – produkt af optioner; f– hyppighed af muligheder.

Det geometriske middelværdi anvendes ved beregninger af gennemsnitlige årlige vækstrater.

Gennemsnitlig firkant. Middelkvadratformlen bruges til at måle graden af ​​fluktuation af individuelle værdier af en karakteristik omkring det aritmetiske middelværdi i fordelingsrækken. Ved beregning af variationsindikatorer beregnes gennemsnittet således ud fra de kvadrerede afvigelser af individuelle værdier af en karakteristik fra det aritmetiske gennemsnit.

Den gennemsnitlige kvadratiske værdi beregnes ved hjælp af formlen

I økonomisk forskning er det modificerede middelkvadrat meget brugt til at beregne indikatorer for variation af en karakteristik, såsom spredning og standardafvigelse.

Flertalsreglen. Der er følgende sammenhæng mellem effektgennemsnit - jo større eksponent, jo større værdi af gennemsnittet, Tabel 5.4:

Tabel 5.4

Sammenhæng mellem gennemsnit

z-værdi

Sammenhæng mellem gennemsnit

Dette forhold kaldes majoritetsreglen.

Strukturelle gennemsnit. For at karakterisere befolkningens struktur anvendes særlige indikatorer, som kan kaldes strukturelle gennemsnit. Disse indikatorer inkluderer tilstand, median, kvartiler og deciler.

Mode. Mode (Mo) er den hyppigst forekommende værdi af en karakteristik blandt befolkningsenheder. Tilstanden er værdien af ​​attributten, der svarer til det maksimale punkt på den teoretiske fordelingskurve.

Mode er meget udbredt i kommerciel praksis, når man studerer forbrugernes efterspørgsel (når man bestemmer størrelsen af ​​tøj og sko, der er meget efterspurgt), og registrerer priser. Der kan være flere mods i alt.

Beregning af tilstand i en diskret serie. I en diskret serie er mode den variant med den højeste frekvens. Lad os overveje at finde en tilstand i en diskret serie.

Beregning af tilstand i en intervalserie. I en intervalvariationsserie anses modusen tilnærmelsesvis for at være den centrale variant af det modale interval, dvs. det interval, der har den højeste frekvens (frekvens). Inden for intervallet skal du finde værdien af ​​den attribut, der er tilstanden. For en intervalserie vil tilstanden blive bestemt af formlen

hvor er den nedre grænse for det modale interval; – værdien af ​​det modale interval; – frekvens svarende til det modale interval; – frekvens forud for det modale interval; – hyppigheden af ​​intervallet efter det modale.

Median. Median () er værdien af ​​attributten for den midterste enhed i den rangerede serie. En rangeret serie er en serie, hvor attributværdierne er skrevet i stigende eller faldende rækkefølge. Eller medianen er en værdi, der deler antallet af en ordnet variationsserie i to lige store dele: den ene del har en værdi af den varierende karakteristik, der er mindre end den gennemsnitlige mulighed, og den anden har en værdi, der er større.

For at finde medianen skal du først bestemme dens ordenstal. For at gøre dette, hvis antallet af enheder er ulige, tilføjes en til summen af ​​alle frekvenser, og alt divideres med to. Med et lige antal enheder findes medianen som værdien af ​​en enheds attribut, hvis serienummer er bestemt af den samlede sum af frekvenser divideret med to. Ved at kende serienummeret på medianen er det let at finde dens værdi ved hjælp af de akkumulerede frekvenser.

Beregning af medianen i en diskret række. Ifølge stikprøveundersøgelsen blev der indhentet data om familiernes fordeling på antal børn, tabel. 5.5. For at bestemme medianen bestemmer vi først dens ordenstal

I disse familier er antallet af børn lig med 2, derfor = 2. I 50 % af familierne overstiger antallet af børn således ikke 2.

– akkumuleret frekvens forud for medianintervallet;

På den ene side er dette en meget positiv egenskab pga i dette tilfælde tages der hensyn til virkningen af ​​alle årsager, der påvirker alle enheder af den undersøgte population. På den anden side kan selv en observation inkluderet i kildedata tilfældigt forvrænge ideen om udviklingsniveauet for den egenskab, der undersøges i den pågældende population (især i korte serier).

Kvartiler og deciler. I analogi med at finde medianen i variationsserier kan du finde værdien af ​​en karakteristik for enhver enhed i den rangerede serie. Så især kan du finde værdien af ​​attributten for enheder, der deler en serie i 4 lige store dele, i 10 osv.

Kvartiler. De muligheder, der deler den rangerede serie i fire lige store dele, kaldes kvartiler.

I dette tilfælde skelner de mellem: den nedre (eller første) kvartil (Q1) - værdien af ​​attributten for en enhed i den rangerede serie, dividere populationen i forholdet ¼ til ¾ og den øvre (eller tredje) kvartil ( Q3) - værdien af ​​attributten for enheden i den rangerede serie, dividere populationen i forholdet ¾ til ¼.

– frekvenser af kvartilintervaller (nedre og øvre)

Intervallerne, der indeholder Q1 og Q3, bestemmes af de akkumulerede frekvenser (eller frekvenser).

Deciler. Udover kvartiler beregnes deciler - muligheder, der deler den rangerede serie i 10 lige store dele.

De er betegnet med D, den første decil D1 deler rækken i forholdet 1/10 og 9/10, den anden D2 - 2/10 og 8/10 osv. De beregnes efter samme skema som medianen og kvartilerne.

Både medianen, kvartiler og deciler hører til den såkaldte ordensstatistik, der forstås som en mulighed, der indtager en vis ordensplads i den rangerede række.

Grupperingsmetoden giver dig også mulighed for at måle variation(variabilitet, fluktuation) af tegn. Når antallet af enheder i en population er relativt lille, måles variation baseret på det rangerede antal enheder, der udgør populationen. Serien hedder rangeret, hvis enhederne er arrangeret i stigende (faldende) rækkefølge af karakteristikken.

Rangordnede serier er dog ret vejledende, når der er behov for en komparativ karakteristik af variation. Derudover har vi i mange tilfælde at gøre med statistiske populationer bestående af et stort antal enheder, som praktisk talt er svære at repræsentere i form af en bestemt serie. I denne henseende, for et indledende generelt kendskab til statistiske data og især for at lette studiet af variation i karakteristika, kombineres de fænomener og processer, der undersøges, normalt i grupper, og grupperingsresultaterne præsenteres i form af gruppetabeller.

Hvis en gruppetabel kun har to kolonner - grupper efter en valgt karakteristik (valgmuligheder) og antallet af grupper (frekvens eller frekvens), kaldes den nær distribution.

Distributionsområde - den enkleste type strukturel gruppering baseret på én karakteristik, vist i en gruppetabel med to kolonner, der indeholder varianter og frekvenser af karakteristikken. I mange tilfælde med en sådan strukturel gruppering, dvs. Med udarbejdelsen af ​​distributionsserier begynder undersøgelsen af ​​det indledende statistiske materiale.

En strukturel gruppering i form af en distributionsserie kan omdannes til en ægte strukturel gruppering, hvis de udvalgte grupper ikke kun er karakteriseret ved frekvenser, men også af andre statistiske indikatorer. Hovedformålet med distributionsserier er at studere variationen af ​​karakteristika. Teorien om fordelingsrækker er udviklet i detaljer af matematisk statistik.

Distributionsrækkerne er opdelt i attributive(gruppering efter attributive egenskaber, f.eks. opdeling af befolkningen efter køn, nationalitet, civilstand osv.) og variationsmæssig(gruppering efter kvantitative egenskaber).

Variationsserie er en gruppetabel, der indeholder to kolonner: gruppering af enheder efter én kvantitativ egenskab og antallet af enheder i hver gruppe. Intervallerne i variationsrækken er normalt udformet lige og lukkede. Variationsrækken er følgende gruppering af den russiske befolkning efter gennemsnitlig pengeindkomst pr. indbygger (tabel 3.10).

Tabel 3.10

Fordeling af befolkningen i Rusland efter gennemsnitlig indkomst pr. indbygger i 2004-2009.

Befolkningsgrupper efter gennemsnitlig kontantindkomst pr. indbygger, rub./måned

Befolkning i gruppen, % af totalen

8 000,1-10 000,0

10 000,1-15 000,0

15 000,1-25 000,0

Over 25.000,0

Hele befolkningen

Variationsserier er til gengæld opdelt i diskrete og interval. Diskret variationsserier kombinerer varianter af diskrete egenskaber, der varierer inden for snævre grænser. Et eksempel på en diskret variationsserie er fordelingen af ​​russiske familier efter antallet af børn, de har.

Interval variationsserier kombinerer varianter af enten kontinuerlige karakteristika eller diskrete karakteristika, der varierer over et bredt område. Interval er variationsrækken af ​​fordelingen af ​​den russiske befolkning efter gennemsnitlig pengeindkomst pr. indbygger.

Diskrete variationsserier bruges ikke særlig ofte i praksis. I mellemtiden er det ikke svært at kompilere dem, da sammensætningen af ​​grupperne bestemmes af de specifikke varianter, som de undersøgte grupperingskarakteristika faktisk besidder.

Intervalvariationsserier er mere udbredte. Når du kompilerer dem, opstår der et vanskeligt spørgsmål om antallet af grupper samt størrelsen af ​​de intervaller, der skal etableres.

Principperne for løsning af dette problem er beskrevet i kapitlet om metoden til at konstruere statistiske grupperinger (se afsnit 3.3).

Variationsserier er et middel til at kollapse eller komprimere forskelligartet information til en kompakt form; ud fra dem kan man foretage en ret klar bedømmelse af variationens art og studere forskellene i karakteristika for de fænomener, der indgår i det undersøgte sæt. Men den vigtigste betydning af variationsserier er, at man på deres grundlag beregner variationens særlige generaliserende karakteristika (se kapitel 7).

En særlig plads i statistisk analyse hører til bestemmelsen af ​​det gennemsnitlige niveau for den karakteristik eller det fænomen, der undersøges. Det gennemsnitlige niveau af en egenskab måles ved gennemsnitsværdier.

Gennemsnitsværdien karakteriserer det generelle kvantitative niveau af den egenskab, der undersøges, og er en gruppeegenskab for den statistiske population. Det udjævnes, svækker tilfældige afvigelser af individuelle observationer i den ene eller anden retning og fremhæver den vigtigste, typiske egenskab ved den karakteristik, der undersøges.

Gennemsnit er meget brugt:

1. At vurdere befolkningens sundhedstilstand: karakteristika for fysisk udvikling (højde, vægt, brystomkreds, etc.), identifikation af udbredelsen og varigheden af ​​forskellige sygdomme, analyse af demografiske indikatorer (vital bevægelse af befolkningen, gennemsnitlig forventet levetid, befolkningsreproduktion, gennemsnitsbefolkning osv.).

2. At studere aktiviteterne i medicinske institutioner, medicinsk personale og vurdere kvaliteten af ​​deres arbejde, planlægge og bestemme befolkningens behov for forskellige former for lægehjælp (gennemsnitligt antal anmodninger eller besøg pr. beboer pr. år, gennemsnitlig opholdstid for en patient på et hospital, gennemsnitlig varighed af undersøgelsespatient, gennemsnitlig tilgængelighed af læger, senge osv.).

3. At karakterisere den sanitære og epidemiologiske tilstand (gennemsnitligt luftstøvindhold i værkstedet, gennemsnitligt areal pr. person, gennemsnitligt forbrug af proteiner, fedtstoffer og kulhydrater osv.).

4. At bestemme medicinske og fysiologiske indikatorer under normale og patologiske tilstande ved behandling af laboratoriedata for at fastslå pålideligheden af ​​resultaterne af en prøveundersøgelse i sociale, hygiejniske, kliniske og eksperimentelle undersøgelser.

Beregningen af ​​gennemsnitsværdier udføres på basis af variationsserier. Variationsserie er en kvalitativt homogen statistisk population, hvis individuelle enheder kendetegner de kvantitative forskelle på den egenskab eller det fænomen, der undersøges.

Kvantitativ variation kan være af to typer: diskontinuerlig (diskret) og kontinuerlig.

En diskontinuerlig (diskret) egenskab udtrykkes kun som et heltal og kan ikke have nogen mellemværdier (f.eks. antallet af besøg, webstedets befolkning, antallet af børn i familien, sygdommens sværhedsgrad i point , etc.).

Et kontinuerligt tegn kan antage alle værdier inden for visse grænser, inklusive brøkdele, og udtrykkes kun tilnærmelsesvis (for eksempel vægt - for voksne kan det begrænses til kilogram, og for nyfødte - gram; højde, blodtryk, tid brugt på at se en patient osv.).



Den digitale værdi af hvert enkelt kendetegn eller fænomen, der indgår i variationsserien, kaldes en variant og betegnes med bogstavet V . Andre notationer findes f.eks. også i den matematiske litteratur x eller y.

En variationsserie, hvor hver mulighed er angivet én gang, kaldes simpel. Sådanne serier bruges i de fleste statistiske problemer i tilfælde af computerdatabehandling.

Efterhånden som antallet af observationer stiger, har gentagne variantværdier en tendens til at forekomme. I dette tilfælde er det oprettet grupperede variationsserier, hvor antallet af gentagelser er angivet (hyppighed, angivet med bogstavet " R »).

Rangerede variationsserier består af muligheder arrangeret i stigende eller faldende rækkefølge. Både simple og grupperede serier kan sammensættes med rangordning.

Interval variation serie kompileret for at forenkle efterfølgende beregninger udført uden brug af computer, med et meget stort antal observationsenheder (mere end 1000).

Kontinuerlig variation serie inkluderer optionværdier, som kan være en hvilken som helst værdi.

Hvis værdierne af en karakteristik (varianter) i en variationsserie er givet i form af individuelle specifikke tal, så kaldes en sådan serie diskret.

De generelle karakteristika for værdierne af karakteristikken, der afspejles i variationsserien, er gennemsnitsværdierne. Blandt dem er de mest brugte: aritmetisk middelværdi M, mode Mo og median Mig. Hver af disse egenskaber er unik. De kan ikke erstatte hinanden og kun sammen repræsenterer de variationsseriens træk ganske fuldt ud og i en fortættet form.

Mode (Mo) navngiv værdien af ​​de oftest forekommende muligheder.

Median (Mig) – dette er værdien af ​​optionen, der deler den rangerede variationsserie i halvdelen (på hver side af medianen er der halvdelen af ​​optionen). I sjældne tilfælde, når der er en symmetrisk variationsserie, er tilstanden og medianen lig med hinanden og falder sammen med værdien af ​​det aritmetiske middelværdi.

Det mest typiske kendetegn ved optionsværdier er aritmetisk middelværdi værdi( M ). I matematisk litteratur betegnes det .

Aritmetisk middelværdi (M, ) er en generel kvantitativ karakteristik af en bestemt karakteristik af de fænomener, der undersøges, og udgør en kvalitativt homogen statistisk population. Der er simple og vægtede aritmetiske gennemsnit. Det simple aritmetiske middelværdi beregnes for en simpel variationsserie ved at summere alle optionerne og dividere denne sum med det samlede antal optioner inkluderet i denne variationsserie. Beregninger udføres efter formlen:

,

Hvor: M - simpel aritmetisk middelværdi;

Σ V - beløbsmulighed;

n- antal observationer.

I den grupperede variationsrække bestemmes det vægtede aritmetiske middel. Formlen til at beregne det:

,

Hvor: M - aritmetisk vægtet gennemsnit;

Σ Vp - summen af ​​produkterne i varianten efter deres frekvenser;

n- antal observationer.

Ved et stort antal observationer, i tilfælde af manuelle beregninger, kan metoden med momenter anvendes.

Det aritmetiske middelværdi har følgende egenskaber:

· summen af ​​afvigelser fra gennemsnittet ( Σ d ) er lig med nul (se tabel 15);

· når man multiplicerer (dividerer) alle muligheder med den samme faktor (divisor), ganges (divideres) det aritmetiske gennemsnit med den samme faktor (divisor);

· hvis du tilføjer (fratrækker) det samme tal til alle muligheder, øges (falder) det aritmetiske gennemsnit med det samme tal.

Aritmetiske gennemsnit, taget af sig selv, uden at tage højde for variabiliteten af ​​serierne, hvorfra de er beregnet, afspejler muligvis ikke fuldt ud variationsrækkernes egenskaber, især når sammenligning med andre gennemsnit er nødvendig. Gennemsnit, der er tæt på i værdi, kan fås fra serier med varierende grad af spredning. Jo tættere de individuelle muligheder er på hinanden med hensyn til deres kvantitative egenskaber, jo mindre dispersion (oscillation, variabilitet) serier, jo mere typisk er gennemsnittet.

De vigtigste parametre, der giver os mulighed for at vurdere variabiliteten af ​​en egenskab, er:

· Omfang;

· Amplitude;

· Standardafvigelse;

· Variationskoefficienten.

Variabiliteten af ​​en egenskab kan tilnærmelsesvis bedømmes ud fra rækkevidden og amplituden af ​​variationsrækken. Området angiver maksimum (V max) og minimum (V min) muligheder i serien. Amplitude (A m) er forskellen mellem disse muligheder: A m = V max - V min.

Det vigtigste, generelt accepterede mål for variabiliteten af ​​en variationsserie er spredning (D ). Men den oftest brugte er en mere bekvem parameter beregnet på basis af spredning - standardafvigelsen ( σ ). Det tager højde for størrelsen af ​​afvigelsen ( d ) af hver variationsserie fra dens aritmetiske middelværdi ( d=V - M ).

Da afvigelser fra gennemsnittet kan være positive og negative, giver de, når de summeres, værdien "0" (S d=0). For at undgå dette skal afvigelsesværdierne ( d) hæves til anden potens og gennemsnittet beregnes. Således er spredningen af ​​en variationsserie middelkvadraten af ​​afvigelser af en variant fra det aritmetiske middelværdi og beregnes med formlen:

.

Det er den vigtigste egenskab ved variabilitet og bruges til at beregne mange statistiske kriterier.

Da spredning er udtrykt som kvadratet af afvigelser, kan dens værdi ikke bruges i sammenligning med det aritmetiske gennemsnit. Til disse formål bruges det standardafvigelse, som er betegnet med tegnet "Sigma" ( σ ). Den karakteriserer den gennemsnitlige afvigelse for alle varianter af en variationsserie fra den aritmetiske middelværdi i de samme enheder som selve gennemsnitsværdien, så de kan bruges sammen.

Standardafvigelsen bestemmes af formlen:

Den angivne formel anvendes, når antallet af observationer ( n ) mere end 30. Med et mindre antal n standardafvigelsesværdien vil have en fejl forbundet med den matematiske offset ( n - 1). I denne henseende kan et mere nøjagtigt resultat opnås ved at tage højde for en sådan skævhed i formlen til beregning af standardafvigelsen:

standardafvigelse (s ) er et estimat af standardafvigelsen for en tilfældig variabel x i forhold til dens matematiske forventning baseret på et upartisk estimat af dens varians.

Med værdier n > 30 standardafvigelse ( σ ) og standardafvigelse ( s ) vil være det samme ( σ =s ). Derfor anses disse kriterier i de fleste praktiske manualer for at have forskellige betydninger. I Excel kan standardafvigelsen beregnes ved hjælp af funktionen =STDEV(område). Og for at beregne standardafvigelsen skal du oprette en passende formel.

Den gennemsnitlige kvadrat eller standardafvigelse giver dig mulighed for at bestemme, hvor meget værdierne af en karakteristik kan afvige fra gennemsnitsværdien. Antag, at der er to byer med den samme gennemsnitlige daglige temperatur om sommeren. En af disse byer ligger ved kysten, og den anden på kontinentet. Det er kendt, at i byer beliggende ved kysten er forskellene i dagtemperaturer mindre end i byer beliggende inde i landet. Derfor vil standardafvigelsen for dagtemperaturer for kystbyen være mindre end for den anden by. I praksis betyder det, at den gennemsnitlige lufttemperatur for hver enkelt dag i en by beliggende på kontinentet vil afvige mere fra gennemsnittet end i en by ved kysten. Derudover giver standardafvigelsen dig mulighed for at evaluere mulige temperaturafvigelser fra gennemsnittet med det nødvendige sandsynlighedsniveau.

Ifølge sandsynlighedsteori er der i fænomener, der adlyder normalfordelingsloven, et strengt forhold mellem værdierne af det aritmetiske middelværdi, standardafvigelse og muligheder ( tre sigma regel). For eksempel er 68,3% af værdierne for en varierende karakteristik inden for M ± 1 σ , 95,5 % - indenfor M ± 2 σ og 99,7 % - indenfor M ± 3 σ .

Værdien af ​​standardafvigelsen giver os mulighed for at bedømme arten af ​​homogeniteten af ​​variationsrækken og undersøgelsesgruppen. Hvis værdien af ​​standardafvigelsen er lille, indikerer dette en ret høj homogenitet af det fænomen, der undersøges. Det aritmetiske gennemsnit i dette tilfælde bør betragtes som ret karakteristisk for en given variationsserie. Men en for lille sigmaværdi får en til at tænke på et kunstigt udvalg af observationer. Med et meget stort sigma karakteriserer det aritmetiske gennemsnit variationsrækken i mindre grad, hvilket indikerer signifikant variabilitet af karakteristikken eller fænomenet, der undersøges, eller heterogeniteten af ​​den gruppe, der undersøges. Sammenligning af værdien af ​​standardafvigelsen er dog kun mulig for funktioner af samme dimension. Faktisk, hvis vi sammenligner mangfoldigheden af ​​vægte af nyfødte børn og voksne, vil vi altid få højere sigma-værdier hos voksne.

Sammenligning af variabiliteten af ​​funktioner af forskellige dimensioner kan udføres ved hjælp af variationskoefficient. Det udtrykker diversitet som en procentdel af gennemsnittet, hvilket tillader sammenligninger mellem forskellige egenskaber. Variationskoefficienten i den medicinske litteratur er angivet med tegnet " MED "og i matematisk" v"og beregnet med formlen:

.

Værdier af variationskoefficienten på mindre end 10% indikerer lille spredning, fra 10 til 20% - cirka gennemsnit, mere end 20% - om stærk spredning omkring det aritmetiske middelværdi.

Det aritmetiske gennemsnit beregnes normalt ud fra data fra en stikprøvepopulation. Med gentagne undersøgelser, under påvirkning af tilfældige fænomener, kan det aritmetiske gennemsnit ændre sig. Dette skyldes det faktum, at det som regel kun er en del af de mulige observationsenheder, det vil sige prøvepopulationen. Information om alle mulige enheder, der repræsenterer det fænomen, der undersøges, kan fås ved at studere hele populationen, hvilket ikke altid er muligt. Samtidig er værdien af ​​gennemsnittet i den generelle befolkning af interesse med det formål at generalisere eksperimentelle data. For at kunne formulere en generel konklusion om det fænomen, der undersøges, skal resultaterne opnået på baggrund af stikprøvepopulationen overføres til den generelle befolkning ved hjælp af statistiske metoder.

For at bestemme graden af ​​overensstemmelse mellem en stikprøveundersøgelse og den generelle befolkning er det nødvendigt at estimere størrelsen af ​​den fejl, der uundgåeligt opstår under prøveobservation. Denne fejl kaldes " Repræsentativitetens fejl"eller "Gennemsnitlig fejl i det aritmetiske middelværdi." Det er faktisk forskellen mellem gennemsnittet opnået fra selektiv statistisk observation og lignende værdier, der ville blive opnået fra en kontinuerlig undersøgelse af det samme objekt, dvs. når man studerer en generel befolkning. Da stikprøvegennemsnittet er en tilfældig variabel, udføres en sådan prognose med et sandsynlighedsniveau, der er acceptabelt for forskeren. I medicinsk forskning er det mindst 95%.

Repræsentativitetsfejlen kan ikke forveksles med registreringsfejl eller opmærksomhedsfejl (glidninger, fejlberegninger, slåfejl osv.), som bør minimeres ved hjælp af passende metoder og værktøjer anvendt under forsøget.

Størrelsen af ​​repræsentativitetsfejlen afhænger af både stikprøvestørrelsen og variabiliteten af ​​egenskaben. Jo større antal observationer, jo tættere er stikprøven på populationen, og jo mindre er fejlen. Jo mere variabelt tegnet er, jo større er den statistiske fejl.

I praksis bruges følgende formel for at bestemme repræsentativitetsfejlen i variationsserier:

,

Hvor: m – Repræsentativitetsfejl;

σ - standardafvigelse;

n– antal observationer i stikprøven.

Formlen viser, at størrelsen af ​​den gennemsnitlige fejl er direkte proportional med standardafvigelsen, dvs. variabiliteten af ​​den karakteristik, der undersøges, og omvendt proportional med kvadratroden af ​​antallet af observationer.

Når der udføres statistisk analyse baseret på beregning af relative værdier, er det ikke nødvendigt at konstruere en variationsserie. I dette tilfælde kan bestemmelsen af ​​den gennemsnitlige fejl for relative indikatorer udføres ved hjælp af en forenklet formel:

,

Hvor: R– værdien af ​​den relative indikator, udtrykt i procent, ppm osv.

q– den gensidige af P og udtrykt som (1-P), (100-P), (1000-P) osv., afhængigt af det grundlag, som indikatoren er beregnet på;

n– antal observationer i stikprøvepopulationen.

Den angivne formel til beregning af repræsentativitetsfejlen for relative værdier kan dog kun anvendes, når værdien af ​​indikatoren er mindre end dens base. I en række tilfælde af beregning af intensive indikatorer er denne betingelse ikke opfyldt, og indikatoren kan udtrykkes som et tal på mere end 100 % eller 1000 %. I en sådan situation konstrueres en variationsserie, og repræsentativitetsfejlen beregnes ved hjælp af formlen for gennemsnitsværdier baseret på standardafvigelsen.

Forudsigelse af værdien af ​​det aritmetiske gennemsnit i populationen udføres ved at angive to værdier - minimum og maksimum. Disse ekstreme værdier af mulige afvigelser, inden for hvilke den ønskede gennemsnitsværdi af befolkningen kan svinge, kaldes " Tillidsgrænser».

Sandsynlighedsteoriens postulater har bevist, at med en normalfordeling af en karakteristik med en sandsynlighed på 99,7%, vil de ekstreme værdier af afvigelser af gennemsnittet ikke være større end værdien af ​​tredobbelt repræsentativitetsfejl ( M ± 3 m ); i 95,5 % – ikke mere end det dobbelte af den gennemsnitlige fejl af gennemsnitsværdien ( M ± 2 m ); i 68,3 % – ikke mere end én gennemsnitlig fejl ( M ± 1 m ) (Fig. 9).

P%

Ris. 9. Sandsynlighedstæthed for normalfordeling.

Bemærk, at ovenstående udsagn kun gælder for et træk, der adlyder den normale Gaussiske distributionslov.

De fleste eksperimentelle undersøgelser, herunder inden for medicin, er forbundet med målinger, hvis resultater kan antage næsten enhver værdi i et givet interval, derfor er de som regel beskrevet af en model af kontinuerlige tilfældige variabler. I denne forbindelse overvejer de fleste statistiske metoder kontinuerlige fordelinger. En sådan fordeling, som har en grundlæggende rolle i matematisk statistik, er normal eller gaussisk fordeling.

Dette skyldes en række årsager.

1. Først og fremmest kan mange eksperimentelle observationer med held beskrives ved hjælp af normalfordelingen. Det skal straks bemærkes, at der ikke er nogen fordelinger af empiriske data, der ville være helt normale, da en normalfordelt tilfældig variabel spænder fra til , som man aldrig støder på i praksis. Normalfordelingen fungerer dog meget ofte godt som en tilnærmelse.

Uanset om vægt, højde og andre fysiologiske parametre for den menneskelige krop måles, er resultaterne altid påvirket af et meget stort antal tilfældige faktorer (naturlige årsager og målefejl). Desuden er virkningen af ​​hver af disse faktorer som regel ubetydelig. Erfaringen viser, at resultaterne i sådanne tilfælde vil være tilnærmelsesvis normalfordelte.

2. Mange fordelinger forbundet med tilfældig prøveudtagning bliver normale, efterhånden som volumen af ​​sidstnævnte stiger.

3. Normalfordelingen er velegnet som en tilnærmelse af andre kontinuerte fordelinger (f.eks. skæv).

4. Normalfordelingen har en række gunstige matematiske egenskaber, som i høj grad sikrer dens udbredte anvendelse i statistik.

Samtidig skal det bemærkes, at der i medicinske data er mange eksperimentelle fordelinger, som ikke kan beskrives ved en normalfordelingsmodel. Til dette formål har statistik udviklet metoder, der almindeligvis kaldes "Ikke-parametriske".

Valget af en statistisk metode, der er egnet til at behandle data fra et bestemt forsøg, bør foretages afhængigt af, om de opnåede data tilhører normalfordelingsloven. Test af hypotesen for underordningen af ​​et tegn til normalfordelingsloven udføres ved hjælp af et frekvensfordelingshistogram (graf) samt en række statistiske kriterier. Blandt dem:

Asymmetrikriterium ( b );

Kriterium for test for kurtosis ( g );

Shapiro-Wilks test ( W ) .

En analyse af arten af ​​datafordelingen (også kaldet en test for normalitet af distribution) udføres for hver parameter. For sikkert at bedømme, om fordelingen af ​​en parameter svarer til normalloven, kræves et tilstrækkeligt stort antal observationsenheder (mindst 30 værdier).

For en normalfordeling tager skævheds- og kurtosiskriterierne værdien 0. Hvis fordelingen forskydes til højre b > 0 (positiv asymmetri), med b < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормального закона g =0. På g > 0 er fordelingskurven skarpere hvis g < 0 пик более сглаженный, чем функция нормального распределения.

For at kontrollere for normalitet ved hjælp af Shapiro-Wilks-kriteriet er det nødvendigt at finde værdien af ​​dette kriterium ved hjælp af statistiske tabeller på det krævede signifikansniveau og afhængigt af antallet af observationsenheder (frihedsgrader). Bilag 1. Normalitetshypotesen forkastes ved små værdier af dette kriterium, som regel kl. w <0,8.