Hva kalles alternativer? Variasjonsserie

Settet med verdier av parameteren studert i et gitt eksperiment eller observasjon, rangert etter verdi (økning eller reduksjon) kalles en variasjonsserie.

Anta at vi målte arterielt trykk hos ti pasienter for å oppnå en øvre blodtrykksterskel: systolisk trykk, dvs. bare ett tall.

La oss forestille oss at en serie observasjoner (statistisk sett) av arterielt systolisk trykk i 10 observasjoner har neste visning(Tabell 1):

Tabell 1

Komponentene i en variasjonsserie kalles varianter. Alternativene representerer den numeriske verdien av egenskapen som studeres.

Bygging fra statistisk populasjon observasjoner av en variasjonsserie er bare første skritt mot å forstå egenskapene til hele befolkningen. Neste må du bestemme gjennomsnittlig nivå den kvantitative egenskapen som studeres (gjennomsnittlig blodproteinnivå, gjennomsnittlig pasientvekt, gjennomsnittlig tid for anestesistart, etc.)

Gjennomsnittsnivået måles ved hjelp av kriterier kalt gjennomsnitt. Gjennomsnittsverdien er en generaliserende numerisk karakteristikk av kvalitativt homogene verdier, og karakteriserer med ett tall hele den statistiske populasjonen etter ett kriterium. Gjennomsnittsverdien uttrykker hva som er felles for en egenskap i et gitt sett med observasjoner.

Det er tre typer gjennomsnitt i vanlig bruk: modus (), median () og gjennomsnitt. aritmetisk mengde ().

For å bestemme enhver gjennomsnittsverdi, er det nødvendig å bruke resultatene av individuelle observasjoner, registrere dem i form av en variasjonsserie (tabell 2).

Mote- verdien som forekommer hyppigst i en serie observasjoner. I vårt eksempel er modus = 120. Hvis det ikke er noen gjentakende verdier i variantserien, sier de at det ikke er noen modus. Hvis flere verdier gjentas samme antall ganger, blir den minste av dem tatt som modus.

Median- en verdi som deler en fordeling i to like deler, den sentrale eller medianverdien av en serie observasjoner ordnet i stigende eller synkende rekkefølge. Så hvis det er 5 verdier i en variasjonsserie, er medianen lik den tredje leddet i variasjonsserien, så er medianen det aritmetiske gjennomsnittet av de to sentrale observasjoner, dvs. hvis det er 10 observasjoner i en serie, er medianen lik det aritmetiske gjennomsnittet av observasjoner 5 og 6. I vårt eksempel.

Merk viktig funksjon moduser og medianer: deres verdier påvirkes ikke numeriske verdier ekstremt alternativ.

Aritmetisk gjennomsnitt beregnet med formelen:

hvor er den observerte verdien i den -te observasjonen, og er antall observasjoner. For vårt tilfelle.

Det aritmetiske gjennomsnittet har tre egenskaper:

Gjennomsnittet inntar midtposisjonen i variasjonsserien. I en strengt symmetrisk rad.

Gjennomsnittet er en generaliserende verdi og tilfeldige svingninger og forskjeller i individuelle data er ikke synlige bak gjennomsnittet. Det gjenspeiler det som er typisk for hele befolkningen.

Summen av avvik for alle alternativer fra gjennomsnittet er null: . Alternativets avvik fra gjennomsnittet er indikert.

Variasjonsserien består av varianter og deres tilsvarende frekvenser. Av de ti oppnådde verdiene oppstod tallet 120 6 ganger, 115 - 3 ganger, 125 - 1 gang. Frekvens () - det absolutte antallet individuelle varianter i aggregatet, som indikerer hvor mange ganger det forekommer dette alternativet i variantserien.

Variasjonsserien kan være enkel (frekvenser = 1) eller gruppert og forkortet, med 3-5 alternativer. En enkel serie brukes når det er et lite antall observasjoner (), gruppert - når stort nummer observasjoner().

Som et resultat av å mestre dette kapittelet, må studenten: vet

  • indikatorer på variasjon og deres forhold;
  • grunnleggende lover for fordeling av egenskaper;
  • essensen av samtykkekriteriene; være i stand til
  • beregne variasjonsindekser og kriterier for godhet;
  • bestemme distribusjonsegenskaper;
  • vurdere hoveddelen numeriske egenskaper statistisk distribusjon serie;

egen

  • metoder Statistisk analyse fordeling rader;
  • grunnleggende Analyse av varianter;
  • teknikker for å kontrollere statistiske distribusjonsserier for samsvar med de grunnleggende distribusjonslovene.

Variasjonsindikatorer

statistisk forskning kjennetegn ved ulike statistiske aggregater, studiet av variasjon i egenskapene til individet statistiske enheter aggregat, samt arten av fordelingen av enheter på dette grunnlaget. Variasjon - dette er forskjeller i individuelle verdier av en egenskap blant enheter av befolkningen som studeres. Studiet av variasjon har en stor praktisk betydning. Ut fra graden av variasjon kan man bedømme variasjonsgrensene til en egenskap, homogeniteten til populasjonen for en gitt karakteristikk, typiskheten til gjennomsnittet og forholdet mellom faktorer som bestemmer variasjonen. Variasjonsindikatorer brukes til å karakterisere og organisere statistiske populasjoner.

Resultater av sammendrag og gruppering av materialer statistisk observasjon, utformet i form av statistiske distribusjonsserier, representerer en ordnet fordeling av enheter av befolkningen som studeres i grupper i henhold til gruppering (varierende) egenskaper. Hvis en kvalitativ karakteristikk legges til grunn for grupperingen, kalles en slik distribusjonsserie attributive(fordeling etter yrke, kjønn, farge osv.). Hvis en distribusjonsserie er konstruert på kvantitativ basis, kalles en slik serie variasjon(fordeling etter høyde, vekt, størrelse lønn etc.). Å konstruere en variasjonsserie betyr å organisere den kvantitative fordelingen av befolkningsenheter etter karakteristiske verdier, telle antall befolkningsenheter med disse verdiene (frekvens), og ordne resultatene i en tabell.

I stedet for frekvensen til en variant, er det mulig å bruke forholdet til det totale volumet av observasjoner, som kalles frekvens (relativ frekvens).

Det finnes to typer variasjonsserier: diskrete og intervall. Diskret serie- Dette er en variasjonsserie, hvis konstruksjon er basert på egenskaper med diskontinuerlig endring (diskrete egenskaper). Sistnevnte inkluderer antall ansatte ved bedriften, tariffkategori, antall barn i familien osv. En diskret variantserie representerer en tabell som består av to kolonner. Den første kolonnen indikerer spesifikk betydning karakteristisk, og i den andre - antall enheter av befolkningen med en viss verdi skilt. Hvis en egenskap har en kontinuerlig endring (inntektsbeløp, tjenestetid, kostnad for anleggsmidler til foretaket, etc., som innenfor visse grenser kan få en hvilken som helst verdi), er det mulig å konstruere for denne egenskapen intervallvariasjonsserier. Ved konstruksjon av en intervallvariasjonsserie har tabellen også to kolonner. Den første indikerer verdien av attributtet i intervallet "fra - til" (alternativer), den andre indikerer antall enheter inkludert i intervallet (frekvens). Frekvens (repetisjonsfrekvens) - antall repetisjoner av en bestemt variant av attributtverdier. Intervaller kan være lukkede eller åpne. Det er begrenset med lukkede intervaller på begge sider, d.v.s. har både en nedre (“fra”) og en øvre (“til”) grense. Åpne intervaller har én grense: enten øvre eller nedre. Hvis alternativene er ordnet i stigende eller synkende rekkefølge, kalles radene rangert.

For variantserier er det to typer alternativer frekvensegenskaper: akkumulert frekvens og akkumulert frekvens. Den akkumulerte frekvensen viser hvor mange observasjoner verdien av karakteristikken tok verdier mindre enn en gitt. Den akkumulerte frekvensen bestemmes ved å summere frekvensverdiene til en karakteristikk for en gitt gruppe med alle frekvensene til tidligere grupper. Den akkumulerte frekvensen karakteriserer egenvekt observasjonsenheter der de karakteristiske verdiene ikke overstiger den øvre grensen for datagruppen. Dermed viser den akkumulerte frekvensen andelen opsjoner i helheten som har en verdi som ikke er større enn den gitte. Frekvens, frekvens, absolutte og relative tettheter, akkumulert frekvens og frekvens er kjennetegn på variantens størrelse.

Variasjoner i egenskapene til populasjonens statistiske enheter, så vel som arten av fordelingen, studeres ved å bruke indikatorer og karakteristika for variasjonsseriene, som inkluderer gjennomsnittsnivået til serien, gjennomsnittlig lineært avvik, standardavviket, spredning , oscillasjonskoeffisienter, variasjon, asymmetri, kurtose, etc.

Gjennomsnittsverdier brukes for å karakterisere distribusjonssenteret. Gjennomsnittet er en generaliserende statistisk egenskap som den mottar kvantitativt uttrykk det typiske nivået på en egenskap som medlemmer av befolkningen som studeres besitter. Det kan imidlertid være tilfeller der de aritmetiske gjennomsnittene faller sammen når annen karakter distribusjon, derfor som statistiske egenskaper variasjonsserier beregnes de såkalte strukturelle gjennomsnittene - modus, median, samt kvantiler, som deler fordelingsserien i like deler (kvartiler, desiler, persentiler osv.).

mote - Dette er verdien av en egenskap som forekommer i distribusjonsserien oftere enn dens andre verdier. For diskrete serier er dette alternativet med høyest frekvens. I intervallvariasjonsserier, for å bestemme modusen, er det nødvendig å først bestemme intervallet den befinner seg i, det såkalte modale intervallet. I en variasjonsserie med like intervaller bestemmes det modale intervallet av høyeste frekvens, i serier med ulikt intervall - men høyeste tetthet distribusjoner. Formelen brukes deretter til å bestemme modusen i serie med like intervaller

hvor Mo er moteverdien; xMo - nedre grense for det modale intervallet; h- modal intervallbredde; / Mo - frekvensen til det modale intervallet; / Mo j er frekvensen til det premodale intervallet; / Mo+1 er frekvensen til det postmodale intervallet, og for en serie med ulikt intervall i denne beregningsformelen, i stedet for frekvensene / Mo, / Mo, / Mo, bør distribusjonstettheter brukes Mind 0 _| , Mind 0> UMO+"

Hvis det er en enkelt modus, kalles sannsynlighetsfordelingen til den tilfeldige variabelen unimodal; hvis det er mer enn én modus, kalles den multimodal (polymodal, multimodal), i tilfelle av to moduser - bimodal. Som regel indikerer multimodalitet at distribusjonen som studeres ikke følger loven normal distribusjon. Homogene populasjoner er som regel preget av enkelt-vertex-fordelinger. Multivertex indikerer også heterogeniteten til befolkningen som studeres. Utseendet til to eller flere hjørner gjør det nødvendig å omgruppere dataene for å identifisere mer homogene grupper.

I en intervallvariasjonsserie kan modusen bestemmes grafisk ved hjelp av et histogram. For å gjøre dette, tegn to kryssende linjer fra de øverste punktene i den høyeste kolonnen i histogrammet til de øverste punktene i to tilstøtende kolonner. Deretter, fra skjæringspunktet, senkes en perpendikulær ned på abscisseaksen. Verdien av funksjonen på x-aksen som tilsvarer perpendikulæren er modusen. I mange tilfeller, når man karakteriserer en populasjon som en generalisert indikator, foretrekkes modusen fremfor det aritmetiske gjennomsnittet.

Median - Dette sentral betydning karakteristisk, det er besatt av det sentrale medlemmet av den rangerte distribusjonsserien. I diskrete serier For å finne verdien av medianen, bestemmes først dens ordinære tall. For å gjøre dette, hvis ikke partall enheter, legges en til summen av alle frekvenser, tallet deles på to. Hvis det er et partall av enheter på rad, vil det være to medianenheter, så i dette tilfellet er medianen definert som gjennomsnittet av verdiene til de to medianenhetene. Dermed er medianen i en diskret variasjonsserie verdien som deler serien i to deler som inneholder samme nummer alternativer.

I intervallserier, etter å ha bestemt serienummeret til medianen, blir det mediale intervallet funnet ved å bruke de akkumulerte frekvensene (frekvensene), og deretter ved å bruke formelen for å beregne medianen, bestemmes verdien av selve medianen:

hvor Me er medianverdien; x meg - nedre grense for medianintervallet; h- bredden på medianintervallet; - summen av frekvensene til distribusjonsserien; /D - akkumulert frekvens av pre-median intervall; / Me - frekvens av medianintervallet.

Medianen kan finnes grafisk ved hjelp av et kumulert. For å gjøre dette, på skalaen av akkumulerte frekvenser (frekvenser), akkumuleres fra punktet som tilsvarer serienummer median, en rett linje tegnes parallelt med aksen abscisse, til den skjærer med kumulatet. Deretter, fra skjæringspunktet mellom den indikerte linjen med kumulatet, senkes en vinkelrett til abscisseaksen. Verdien av attributtet på x-aksen som tilsvarer den tegnede ordinaten (vinkelrett) er medianen.

Medianen er preget av følgende egenskaper.

  • 1. Det avhenger ikke av de attributtverdiene som er plassert på hver side av den.
  • 2. Den har egenskapen minimalitet, noe som betyr at summen av absolutte avvik av attributtverdiene fra medianen representerer en minimumsverdi sammenlignet med avviket til attributtverdiene fra enhver annen verdi.
  • 3. Når man kombinerer to fordelinger med kjente medianer, er det umulig å forutsi på forhånd verdien av medianen til den nye fordelingen.

Disse egenskapene til medianen er mye brukt i utformingen av punktplasseringer. i kø- skoler, klinikker, bensinstasjoner, vanninntakssøyler, etc. For eksempel, hvis det planlegges å bygge en klinikk i en bestemt blokk av byen, vil det være mer hensiktsmessig å plassere den på et punkt i blokken som halverer ikke lengden på blokken, men antallet beboere.

Forholdet mellom modus, median og aritmetisk gjennomsnitt indikerer arten av fordelingen av karakteristikken i aggregatet og lar oss vurdere symmetrien til fordelingen. Hvis x Me så er det en høyresidig asymmetri i serien. Med normalfordeling X - Meg - Mo.

K. Pearson-basert justering forskjellige typer kurver bestemte at for moderat asymmetriske fordelinger er følgende omtrentlige forhold mellom aritmetisk gjennomsnitt, median og modus gyldige:

hvor Me er medianverdien; Mo - betydningen av mote; x aritme - verdien av det aritmetiske gjennomsnittet.

Hvis det er behov for å studere strukturen til variasjonsseriene mer detaljert, beregner du karakteristiske verdier som ligner medianen. Slike karakteristiske verdier deler alle distribusjonsenheter i like tall, de kalles kvantiler eller gradienter. Kvantiler er delt inn i kvartiler, desiler, persentiler osv.

Kvartiler deler befolkningen i fire like deler. Den første kvartilen beregnes på samme måte som medianen ved å bruke formelen for å beregne den første kvartilen, etter å ha bestemt det første kvartalsintervallet tidligere:

der Qi er verdien av den første kvartilen; xQ^- nedre grense for det første kvartilområdet; h- bredden på det første kvartalsintervallet; /, - frekvenser av intervallserien;

Kumulativ frekvens i intervallet før det første kvartilintervallet; Jq ( - frekvensen av det første kvartilintervallet.

Den første kvartilen viser at 25 % av befolkningsenhetene er mindre enn verdien, og 75 % er flere. Den andre kvartilen er lik medianen, dvs. Q 2 = Meg.

I analogi beregnes den tredje kvartilen, etter først å ha funnet det tredje kvartalsintervallet:

hvor er den nedre grensen for det tredje kvartilområdet; h- bredden på det tredje kvartilintervallet; /, - frekvenser av intervallserien; /X" - akkumulert frekvens i intervallet forut

G

tredje kvartil intervall; Jq er frekvensen til det tredje kvartilintervallet.

Den tredje kvartilen viser at 75 % av befolkningsenhetene er mindre enn verdien, og 25 % er flere.

Forskjellen mellom tredje og første kvartil er interkvartilområdet:

hvor Aq er verdien av det interkvartile området; Q 3 - tredje kvartil verdi; Q, er verdien av den første kvartilen.

Desiler deler befolkningen med 10 like deler. En desil er en verdi av en egenskap i en distribusjonsserie som tilsvarer tideler av populasjonsstørrelsen. I analogi med kvartiler viser den første desilen at 10 % av populasjonsenhetene er mindre enn verdien, og 90 % er større, og den niende desilen viser at 90 % av populasjonsenhetene er mindre enn verdien, og 10 % er større. Forholdet mellom den niende og første desiler, dvs. Desilkoeffisienten er mye brukt i studiet av inntektsdifferensiering for å måle forholdet mellom inntektsnivåene til de 10 % mest velstående og 10 % av den minst velstående befolkningen. Persentiler deler den rangerte befolkningen i 100 like deler. Beregningen, betydningen og anvendelsen av persentiler ligner på desiler.

Kvartiler, desiler og andre strukturelle egenskaper kan bestemmes grafisk i analogi med medianen ved bruk av kumulater.

For å måle størrelsen på variasjonen brukes følgende indikatorer: variasjonsområde, gjennomsnittlig lineært avvik, standardavvik, spredning. Størrelsen på variasjonsområdet avhenger helt av tilfeldigheten i fordelingen av de ekstreme medlemmene av serien. Denne indikatoren er av interesse i tilfeller der det er viktig å vite hva amplituden av svingninger i verdiene til en karakteristikk er:

Hvor R- verdien av variasjonsområdet; x tah - maksimal verdi skilt; x tt - minimumsverdi skilt.

Ved beregning av variasjonsområdet er det ikke tatt hensyn til verdien til de aller fleste seriemedlemmer, mens variasjonen er knyttet til hver verdi av seriemedlemmet. Indikatorer som er gjennomsnitt oppnådd fra avvik av individuelle verdier av en karakteristikk fra deres gjennomsnittsverdi, har ikke denne ulempen: gjennomsnittlig lineært avvik og standardavvik. Det er en direkte sammenheng mellom individuelle avvik fra gjennomsnittet og variasjonen til en bestemt egenskap. Jo sterkere fluktuasjonen er, desto større er den absolutte størrelsen på avvikene fra gjennomsnittet.

Det gjennomsnittlige lineære avviket er det aritmetiske gjennomsnittet av de absolutte verdiene av avvik for individuelle opsjoner fra deres gjennomsnittsverdi.

Gjennomsnittlig lineært avvik for ugrupperte data

hvor /pr er verdien av gjennomsnittet lineært avvik; x, - er verdien av attributtet; X - P - antall enheter i befolkningen.

Gjennomsnittlig lineært avvik for den grupperte serien

hvor / vz - verdien av det gjennomsnittlige lineære avviket; x, er verdien av attributtet; X - gjennomsnittsverdien av karakteristikken for befolkningen som studeres; / - antall befolkningsenheter i en egen gruppe.

Tegn på avvik i i dette tilfellet blir ignorert i ellers summen av alle avvik vil være lik null. Det gjennomsnittlige lineære avviket avhengig av grupperingen av de analyserte dataene beregnes iht ulike formler: For grupperte og ugrupperte data. Det gjennomsnittlige lineære avviket, på grunn av dets betingelser, atskilt fra andre variasjonsindikatorer, brukes i praksis relativt sjelden (spesielt for å karakterisere oppfyllelsen av kontraktsmessige forpliktelser for enhetlig levering; i omsetningsanalyse utenrikshandel, sammensetning av arbeidere, produksjonsrytme, produktkvalitet som tar hensyn til teknologiske funksjoner ved produksjon, etc.).

Standardavviket karakteriserer hvor stort gjennomsnittsavviket er individuelle verdier av den studerte egenskapen fra gjennomsnittsverdien av befolkningen, og uttrykkes i måleenheter for den studerte egenskapen. Standardavviket, som er et av hovedmålene for variasjon, er mye brukt til å vurdere variasjonsgrensene for en karakteristikk i en homogen populasjon, ved å bestemme ordinatverdiene til en normalfordelingskurve, samt i beregninger knyttet til organisasjonen prøveobservasjon og etablere nøyaktighet prøvens egenskaper. Standardavviket til ugrupperte data beregnes ved å bruke følgende algoritme: hvert avvik fra gjennomsnittet kvadreres, alle kvadrater summeres, hvoretter summen av kvadrater deles på antall ledd i serien og kvadratroten trekkes ut fra kvotient:

hvor en Iip er verdien av gjennomsnittet kvadratavvik; Xj- attributt verdi; X- gjennomsnittsverdien av karakteristikken for befolkningen som studeres; P - antall enheter i befolkningen.

For grupperte analyserte data beregnes standardavviket til dataene ved hjelp av den vektede formelen

Hvor - standardavvik verdi; Xj- attributt verdi; X - gjennomsnittsverdien av karakteristikken for befolkningen som studeres; f x - antall befolkningsenheter i en bestemt gruppe.

Uttrykket under roten kalles i begge tilfeller varians. Dermed beregnes spredning som gjennomsnittlig kvadrat av avvik av attributtverdier fra deres gjennomsnittlige verdi. For uvektede (enkle) attributtverdier bestemmes variansen som følger:

For vektede karakteristiske verdier

Det er også en spesiell forenklet metode for beregning av varians: generelt

for uvektede (enkle) karakteristiske verdier for vektede karakteristiske verdier
ved hjelp av den nullbaserte metoden

hvor a 2 er spredningsverdien; x, - er verdien av attributtet; X - gjennomsnittsverdien av egenskapen, h- gruppeintervallverdi, t 1 - vekt (A =

Spredning har sitt eget uttrykk i statistikk og er en av de viktigste variasjonsindikatorene. Det måles i enheter som tilsvarer kvadratet av måleenhetene for egenskapen som studeres.

Dispersjonen har følgende egenskaper.

  • 1. Varians konstant verdi lik null.
  • 2. Å redusere alle verdier av en karakteristikk med samme verdi A endrer ikke verdien av spredningen. Dette betyr at det gjennomsnittlige kvadratet av avvik kan beregnes ikke etter gitte verdier tegn, men ved deres avvik fra et konstant tall.
  • 3. Redusere eventuelle karakteristiske verdier i k ganger reduserer variansen med k 2 ganger, og standardavviket er inne k ganger, dvs. alle attributtverdier kan deles inn i noen konstant antall(si, med verdien av serieintervallet), beregn standardavviket, og gang det deretter med et konstant tall.
  • 4. Hvis vi beregner gjennomsnittlig kvadrat av avvik fra en hvilken som helst verdi Og forskjellig i en eller annen grad fra det aritmetiske gjennomsnittet, så vil det alltid være større enn det gjennomsnittlige kvadratet av avvikene beregnet fra det aritmetiske gjennomsnittet. Midtfirkant i dette tilfellet vil det være flere avvik med en veldig viss mengde - med kvadratet av differansen mellom gjennomsnittet og denne konvensjonelt tatt verdi.

Variasjon av en alternativ karakteristikk består i tilstedeværelsen eller fraværet av den studerte egenskapen i enheter av befolkningen. Kvantitativt uttrykkes variasjonen av et alternativt attributt med to verdier: tilstedeværelsen av en enhet av den studerte egenskapen er angitt med en (1), og dens fravær er angitt med null (0). Andelen enheter som har egenskapen som studeres er betegnet med P, og andelen enheter som ikke har denne egenskapen er betegnet med G. Dermed er variansen til et alternativt attributt lik produktet av andelen enheter som har denne egenskapen (P) med andelen enheter som ikke har denne egenskapen (G). Den største variasjonen av befolkningen oppnås i tilfeller der en del av befolkningen, som utgjør 50% av det totale volumet av befolkningen, har en egenskap, og en annen del av befolkningen, også lik 50%, ikke har denne egenskapen, og dispersjonen når en maksimal verdi på 0,25, t.e. P = 0,5, G= 1 - P = 1 - 0,5 = 0,5 og o2 = 0,5 0,5 = 0,25. Den nedre grensen for denne indikatoren er null, som tilsvarer en situasjon der det ikke er noen variasjon i aggregatet. Praktisk bruk variasjon av en alternativ egenskap består i å konstruere konfidensintervaller når du utfører prøveobservasjon.

Hvordan mindre verdi varians og standardavvik, jo mer homogen er populasjonen og jo mer typisk vil gjennomsnittet være. I praksis med statistikk er det ofte behov for å sammenligne variasjoner ulike tegn. For eksempel er det interessant å sammenligne variasjoner i arbeidstakernes alder og deres kvalifikasjoner, tjenestetid og lønn, kostnad og fortjeneste, tjenestetid og arbeidsproduktivitet osv. For slike sammenligninger er indikatorer på absolutt variasjon av egenskaper uegnet: det er umulig å sammenligne variasjonen i arbeidserfaring, uttrykt i år, med variasjonen av lønn, uttrykt i rubler. For å utføre slike sammenligninger, så vel som sammenligninger av variabiliteten til samme karakteristikk i flere populasjoner med forskjellige aritmetiske gjennomsnitt, brukes variasjonsindikatorer - oscillasjonskoeffisienten, lineær koeffisient variasjoner og variasjonskoeffisient, som viser i hvilken grad ekstreme verdier svinger rundt gjennomsnittet.

Oscillasjonskoeffisient:

Hvor V R - oscillasjonskoeffisientverdi; R- verdien av variasjonsområdet; X -

Lineær variasjonskoeffisient".

Hvor Vj- verdien av den lineære variasjonskoeffisienten; JEG - verdien av det gjennomsnittlige lineære avviket; X - gjennomsnittsverdien av karakteristikken for populasjonen som studeres.

Variasjonskoeffisienten:

Hvor V a - variasjonskoeffisient verdi; a er verdien av standardavviket; X - gjennomsnittsverdien av karakteristikken for populasjonen som studeres.

Oscillasjonskoeffisienten er prosentdel variasjonsområdet til gjennomsnittsverdien til karakteristikken som studeres, og den lineære variasjonskoeffisienten er forholdet mellom det gjennomsnittlige lineære avviket og gjennomsnittsverdien til karakteristikken som studeres, uttrykt i prosent. Variasjonskoeffisienten er prosentandelen av standardavviket til gjennomsnittsverdien av karakteristikken som studeres. Som en relativ verdi, uttrykt i prosent, brukes variasjonskoeffisienten for å sammenligne graden av variasjon av ulike egenskaper. Ved å bruke variasjonskoeffisienten vurderes homogeniteten til en statistisk populasjon. Hvis variasjonskoeffisienten er mindre enn 33 %, er populasjonen som studeres homogen og variasjonen svak. Hvis variasjonskoeffisienten er mer enn 33 %, er populasjonen som studeres heterogen, variasjonen er sterk, og gjennomsnittsverdien er atypisk og kan ikke brukes som en generell indikator på denne populasjonen. I tillegg brukes variasjonskoeffisienter for å sammenligne variasjonen til en egenskap i forskjellige populasjoner. For eksempel for å vurdere variasjonen i tjenestetiden til arbeidere ved to virksomheter. Hvordan mer verdi koeffisient, jo mer signifikant er variasjonen av karakteristikken.

Basert på de beregnede kvartilene er det også mulig å beregne den relative indikatoren for kvartalsvariasjon ved hjelp av formelen

hvor Q 2 Og

Interkvartilområdet bestemmes av formelen

Kvartilavviket brukes i stedet for variasjonsområdet for å unngå ulempene forbundet med bruk av ekstreme verdier:

For ulikt intervallvariasjonsserier beregnes også fordelingstettheten. Det er definert som kvotienten til den tilsvarende frekvensen eller frekvensen delt på verdien av intervallet. I ulik intervallserier brukes absolutte og relative fordelingstettheter. Absolutt tetthet fordeling er frekvensen per lengdeenhet av intervallet. Relativ distribusjonstetthet - frekvens per enhet intervalllengde.

Alt det ovennevnte gjelder for distribusjonsserier, hvis distribusjonslov er godt beskrevet normal lov distribusjon eller nær det.

Statistiske fordelingsserier er enkleste formen grupper.

Statistisk distribusjonsserie- dette er en ordnet kvantitativ fordeling av befolkningsenheter på homogene grupper på et varierende (attributivt eller kvantitativt) grunnlag.

Avhengig av skiltet, under dannelsen av grupper skilles det mellom attributive og variasjonsfordelingsrekker.

Attributiv kalles distribusjonsserier konstruert etter kvalitative egenskaper, dvs. tegn som ikke har numerisk uttrykk. Et eksempel på en attributtfordelingsserie er fordelingen av den økonomisk aktive befolkningen i Den russiske føderasjonen etter kjønn i 2010 (tabell 3.10).

Tabell 3.10. Fordeling av den økonomisk aktive befolkningen i Den russiske føderasjonen etter kjønn i 2010

Variasjonell kalles distribusjonsserier bygget på kvantitativ basis, dvs. et tegn som har et numerisk uttrykk.

Variasjonsfordelingsserien består av to elementer: alternativer og frekvenser.

Alternativer navngi de individuelle verdiene til en egenskap som den tar i en variasjonsserie.

Frekvenser er antallet individuelle varianter eller hver gruppe i variantserien. Frekvenser viser hvor ofte visse verdier av en egenskap forekommer i befolkningen som studeres. Summen av alle frekvenser bestemmer størrelsen på hele befolkningen, dens volum.

Frekvenser kalles frekvenser uttrykt i brøkdeler av en enhet eller som en prosentandel av totalen. Følgelig er summen av frekvensene lik 1, eller 100%.

Avhengig av arten av variasjonen av egenskapen skille mellom diskrete ogier.

Diskret variasjonsseriefordeling - Dette er en distribusjonsserie hvor gruppene er satt sammen etter en karakteristikk som endres diskontinuerlig, dvs. gjennom et bestemt antall enheter, og aksepterer bare heltallsverdier. For eksempel fordelingen av antall innebygde leiligheter Den russiske føderasjonen etter antall rom i dem jeg! 2010 (tabell 3.11).

Tabell 3.11. Fordeling av antall konstruerte leiligheter i den russiske føderasjonen etter antall rom i dem i 2010.

I- Dette er en distribusjonsserie der grupperingskarakteristikken som danner grunnlaget for grupperingen kan ta på seg alle verdier i intervallet som skiller seg fra hverandre med en vilkårlig liten mengde.

Konstruksjon av intervallvariasjonsserier er tilrådelig primært for kontinuerlig variasjon av en karakteristikk (tabell 3.12), samt hvis diskret variasjon av en karakteristikk manifesterer seg over et bredt område (tabell 3.13), dvs. antallet varianter av en diskret karakteristikk er ganske stort.

Tabell 3.12. Fordeling av fagene i Sør føderalt distrikt Russland etter område fra 1. januar 2011

Tabell 3.13. Fordeling av emner i det sentrale føderale distriktet i Den russiske føderasjonen etter nummer kommunale institusjoner utdanning fra 1. januar 2011

Reglene for å konstruere distribusjonsserier ligner reglene for å konstruere grupperinger.

Analyse av distribusjonsserier kan tydelig utføres basert på deres grafisk bilde. For dette formålet bygges et polygon, et histogram og distribusjoner.

Polygon brukes ved skildring av diskrete variasjonsfordelingsserier. Å bygge det inn rektangulært system koordinater langs abscisseaksen på samme skala plotter de rangerte verdiene til den varierende karakteristikken, og langs ordinataksen plottes en skala for å uttrykke størrelsen på frekvensene. Oppnådd i skjæringspunktet mellom abscisseaksen (X) og ordinataksene (Y) er forbundet med rette linjer, noe som resulterer i brutt linje, kalt en frekvenspolygon.

Histogram brukes til å skildre en intervallvariasjonsserie. Når du konstruerer et histogram, er verdiene til intervallene plottet på abscisseaksen, og frekvensene er avbildet av rektangler bygget på de tilsvarende intervallene. Høyden på søylene skal være proporsjonal med frekvensene.

Et histogram kan konverteres til en distribusjonspolygon ved å koble midtpunktene på toppsidene av rektanglene med rette linjer.

Når man konstruerer et histogram over fordelingen av en variasjonsserie med ulikt intervall, er det ikke frekvensene som plottes langs ordinataksen, men tettheten av fordelingen av karakteristikken i de tilsvarende intervallene. Distribusjonstetthet - er frekvensen beregnet per enhet intervallbredde,

de. hvor mange enheter i hver gruppe er per enhet av intervallverdi.

En kumulativ kurve kan brukes til å vise variasjonsfordelingsserier grafisk. Ved bruk av kumulerer viser en rekke akkumulerte frekvenser. Akkumulerte frekvenser bestemmes ved sekvensiell summering av frekvenser i grupper.

Når du konstruerer kumulatene til intervallvariasjonsserien langs abscisseaksen (X) variantene av serien er plottet, og langs ordinataksen (Y) aksen er de akkumulerte frekvensene, som er plottet på graffeltet i form av perpendikulære på abscisseaksen i øvre grenser intervaller. Deretter kobles disse perpendikulære sammen og en stiplet linje oppnås, dvs. kumulere.

Hvis, når du grafisk viser en variasjonsserie av fordelinger i form av kumulater av aksen X og du bytter plass, viser det seg ogiva.

Rekker bygget på kvantitativ basis, er kalt variasjon.

Distribusjonsserien består av alternativer(karakteristiske verdier) og frekvenser(antall grupper). Frekvenser uttrykt som relative verdier(aksjer, prosent) kalles frekvenser. Summen av alle frekvenser kalles volumet av distribusjonsserien.

Etter type er distribusjonsseriene delt inn i diskret(konstruert basert på diskontinuerlige verdier av karakteristikken) og intervall(bygd på kontinuerlige verdier skilt).

Variasjonsserie representerer to kolonner (eller rader); hvorav en gir individuelle verdier med en varierende karakteristikk, kalt varianter og betegnet med X; og i den andre - absolutte tall, som viser hvor mange ganger (hvor ofte) hvert alternativ forekommer. Indikatorene i den andre kolonnen kalles frekvenser og er konvensjonelt betegnet med f. La oss merke igjen at i den andre kolonnen begge deler relative indikatorer, som karakteriserer andelen av frekvensen til individuelle varianter i totale mengden Frekvens Disse relative indikatorene kalles frekvenser og er konvensjonelt betegnet med ω Summen av alle frekvenser i dette tilfellet er lik én. Frekvenser kan imidlertid også uttrykkes i prosent, og da gir summen av alle frekvenser 100 %.

Hvis variantene av variantserien er uttrykt i skjemaet diskrete mengder, da kalles en slik variasjonsserie diskret.

For kontinuerlige egenskaper er variasjonsserier konstruert som intervall, det vil si at verdiene til attributtet i dem er uttrykt "fra ... til ...". I dette tilfellet kalles minimumsverdiene for karakteristikken i et slikt intervall den nedre grensen for intervallet, og maksimum - den øvre grensen.

Intervallvariasjonsserier er også konstruert for diskrete egenskaper som varierer i bred rekkevidde. Intervallserie kan være med lik Og ulik med mellomrom.

La oss vurdere hvordan verdien av like intervaller bestemmes. La oss introdusere følgende notasjon:

Jeg– intervallstørrelse;

- den maksimale verdien av karakteristikken for befolkningsenheter;

– minimumsverdien av egenskapen for befolkningsenheter;

n – antall tildelte grupper.

, hvis n er kjent.

Hvis antall grupper som skal skilles er vanskelig å bestemme på forhånd, kan formelen foreslått av Sturgess i 1926 anbefales for å beregne den optimale verdien av intervallet med en tilstrekkelig befolkningsstørrelse:

n = 1+ 3,322 log N, der N er antall enheter i aggregatet.

Størrelsen på ulik intervall bestemmes i hvert enkelt tilfelle, under hensyntagen til egenskapene til studieobjektet.

Statistisk utvalgsfordeling kall opp en liste over alternativer og deres tilsvarende frekvenser (eller relative frekvenser).

Den statistiske fordelingen av prøven kan spesifiseres i form av en tabell, i den første kolonnen som alternativene er plassert, og i den andre - frekvensene som tilsvarer disse alternativene ni, eller relative frekvenser Pi .

Statistisk fordeling av utvalget

Intervallserier er variasjonsserier der verdiene til egenskapene som ligger til grunn for dannelsen, uttrykkes innenfor visse grenser (intervaller). Frekvensene i dette tilfellet refererer ikke til individuelle verdier karakteristisk, men til hele intervallet.

Intervallfordelingsserier er konstruert basert på kontinuerlige kvantitative egenskaper, samt på diskrete egenskaper som varierer innenfor betydelige grenser.

En intervallserie kan representeres ved den statistiske fordelingen av et utvalg som indikerer intervallene og deres tilsvarende frekvenser. I dette tilfellet tas summen av frekvensene til variantene som faller innenfor dette intervallet som frekvensen til intervallet.

Når du grupperer etter kvantitative kontinuerlige egenskaper, er det viktig å bestemme størrelsen på intervallet.

I tillegg til prøvegjennomsnittet og prøvevariansen, brukes også andre egenskaper ved variasjonsserien.

Mote Varianten som har høyest frekvens kalles.

    Alle verdier av eiendommen under undersøkelse som forekommer i populasjonen under undersøkelse kalles verdien av attributtet (opsjon, alternativ), og en endring i denne verdien ved å variere. Alternativer er merket med små bokstaver i det latinske alfabetet med indekser som tilsvarer serienummeret til gruppen - x Jeg .

    Et tall som viser hvor mange ganger hver karakteristisk verdi forekommer i populasjonen som studeres Frekvens og betegne f Jeg . Summen av alle frekvenser i serien er lik volumet av populasjonen som studeres.

    Svært ofte må du telle akkumulert frekvens (S). Den akkumulerte frekvensen for hver karakteristisk verdi viser hvor mange enheter av befolkningen som har en karakteristisk verdi som ikke er større enn gitt verdi. Den akkumulerte frekvensen beregnes ved å legge til følgende attributtverdier sekvensielt til frekvensen til den første verdien av frekvenstegnet:

Den akkumulerte frekvensen begynner å bli beregnet fra den aller første verdien av attributtet

Summen av frekvenser er alltid lik én eller 100 %. Ved å erstatte frekvenser med frekvenser kan man sammenligne variasjonsserier med forskjellige antall observasjoner.

Frekvensene til serien (f i) kan i noen tilfeller erstattes av frekvensene (ω i).

Hvis variasjonsserien er gitt med ulike intervaller, er det nødvendig å beregne den absolutte eller relative tettheten til fordelingen for en riktig ide om fordelingens natur.

    Absolutt distribusjonstetthet (s f ) representerer frekvensverdien per enhetsintervallstørrelse egen gruppe rad:

R f = f/ Jeg.

    Relativ distribusjonstetthet (s ω ) representerer frekvensverdien per enhetsstørrelse for intervallet til en separat gruppe i serien:

R ω = ω / Jeg.

For serier med ulikt intervall gir bare disse egenskapene en mer korrekt ide om fordelingens art enn frekvens og frekvens.

    Statistisk utvalgsfordeling navngi en liste over alternativer (tegnverdier) og deres tilsvarende frekvenser eller distribusjonstettheter, relative frekvenser eller relative tettheter distribusjoner.

Ulike distribusjonsserier er preget av et annet sett med frekvenskarakteristikk:

minimal – attributtserie (frekvens, frekvens),

for diskrete brukes fire karakteristikker (frekvens, frekvens, akkumulert frekvens, akkumulert frekvens),

for intervaller – alle fem (frekvens, frekvens, akkumulert frekvens, akkumulert frekvens, absolutte og relative distribusjonstettheter).

  1. Regler for å konstruere en intervallvariasjonsserie

  1. Grafisk fremstilling av variasjonsserier

Den første fasen av å studere en variasjonsserie er å konstruere dens grafiske representasjon. En grafisk representasjon av variasjonsserier letter deres analyse og lar en bedømme formen på distribusjonen. For å grafisk representere en variasjonsserie i statistikk, konstrueres et histogram, polygon og kumulert fordeling.

En diskret variasjonsserie er avbildet som en såkalt frekvenspolygon.

For å vise en intervallserie brukes en frekvensfordelingspolygon og et frekvenshistogram.

Grafer er konstruert i et rektangulært koordinatsystem.