Standardavviket er angitt med en bokstav. Gjennomsnittlig lineært og standardavvik

Standardavvik er et av de statistiske begrepene i bedriftsverdenen som gir troverdighet til folk som klarer å klare det godt i en samtale eller presentasjon, samtidig som det etterlater en vag forvirring for de som ikke vet hva det er, men er for flaue til å spørre. Faktisk forstår de fleste ledere ikke konseptet med standardavvik, og hvis du er en av dem, er det på tide at du slutter å leve en løgn. I dagens artikkel skal jeg fortelle deg hvordan dette undervurderte statistiske målet kan hjelpe deg bedre å forstå dataene du jobber med.

Hva måler standardavvik?

Tenk deg at du er eier av to butikker. Og for å unngå tap er det viktig å ha tydelig kontroll på lagersaldoene. I et forsøk på å finne ut hvilken leder som styrer beholdningen bedre, bestemmer du deg for å analysere de siste seks ukene med beholdning. Den gjennomsnittlige ukentlige lagerkostnaden for begge butikkene er omtrent den samme og utgjør ca. 32 konvensjonelle enheter. Ved første øyekast viser gjennomsnittlig avrenning at begge ledere presterer likt.

Men hvis du ser nærmere på aktivitetene til den andre butikken, vil du være overbevist om at selv om gjennomsnittsverdien er riktig, er variasjonen til aksjen veldig høy (fra 10 til 58 USD). Dermed kan vi konkludere med at gjennomsnittet ikke alltid evaluerer dataene riktig. Det er her standardavviket kommer inn.

Standardavviket viser hvordan verdiene er fordelt i forhold til gjennomsnittet i vår . Du kan med andre ord forstå hvor stor spredningen i avrenningen er fra uke til uke.

I vårt eksempel brukte vi Excels STDEV-funksjon for å beregne standardavviket sammen med gjennomsnittet.

For den første lederen var standardavviket 2. Dette forteller oss at hver verdi i utvalget i gjennomsnitt avviker 2 fra gjennomsnittet. Er det bra? La oss se på spørsmålet fra en annen vinkel - et standardavvik på 0 forteller oss at hver verdi i prøven er lik gjennomsnittet (i vårt tilfelle, 32,2). Dermed er et standardavvik på 2 ikke mye forskjellig fra 0, noe som indikerer at de fleste verdiene er nær gjennomsnittet. Jo nærmere standardavviket er 0, jo mer pålitelig er gjennomsnittet. Dessuten indikerer et standardavvik nær 0 liten variasjon i dataene. Det vil si at en avrenningsverdi med et standardavvik på 2 indikerer en utrolig konsistens til den første lederen.

For den andre butikken var standardavviket 18,9. Det vil si at kostnaden for avrenning i gjennomsnitt avviker med 18,9 fra gjennomsnittsverdien fra uke til uke. Vanvittig spredning! Jo lenger standardavviket er fra 0, jo mindre nøyaktig er gjennomsnittet. I vårt tilfelle indikerer tallet 18,9 at gjennomsnittsverdien (32,8 USD per uke) ganske enkelt ikke kan stole på. Det forteller oss også at ukentlig avrenning er svært varierende.

Dette er konseptet med standardavvik i et nøtteskall. Selv om det ikke gir innsikt i andre viktige statistiske målinger (Mode, Median...), spiller faktisk standardavvik en avgjørende rolle i de fleste statistiske beregninger. Å forstå prinsippene for standardavvik vil kaste lys over mange av forretningsprosessene dine.

Hvordan beregne standardavvik?

Så nå vet vi hva standardavvikstallet sier. La oss finne ut hvordan det beregnes.

La oss se på datasettet fra 10 til 70 i trinn på 10. Som du kan se, har jeg allerede beregnet standardavviksverdien for dem ved å bruke STANDARDEV-funksjonen i celle H2 (i oransje).

Nedenfor er trinnene Excel tar for å komme frem til 21.6.

Vær oppmerksom på at alle beregninger er visualisert for bedre forståelse. Faktisk, i Excel, skjer beregningen umiddelbart, og etterlater alle trinnene bak kulissene.

Først finner Excel prøvegjennomsnittet. I vårt tilfelle viste gjennomsnittet seg å være 40, som i neste trinn trekkes fra hver prøveverdi. Hver oppnådd forskjell kvadreres og summeres. Vi fikk en sum lik 2800, som må deles på antall utvalgselementer minus 1. Siden vi har 7 elementer, viser det seg at vi må dele 2800 på 6. Fra det oppnådde resultatet finner vi kvadratroten, denne tallet vil være standardavviket.

For de som ikke er helt klare på prinsippet om å beregne standardavviket ved hjelp av visualisering, gir jeg en matematisk tolkning av å finne denne verdien.

Funksjoner for beregning av standardavvik i Excel

Excel har flere typer standardavviksformler. Alt du trenger å gjøre er å skrive =STDEV og du vil se selv.

Det er verdt å merke seg at STDEV.V- og STDEV.G-funksjonene (den første og andre funksjonen i listen) dupliserer STDEV- og STDEV-funksjonene (henholdsvis den femte og sjette funksjonen i listen), som ble beholdt for kompatibilitet med tidligere versjoner av Excel.

Generelt indikerer forskjellen i endelsene til .B- og .G-funksjonene prinsippet for å beregne standardavviket til et utvalg eller en populasjon. Jeg har allerede forklart forskjellen mellom disse to matrisene i den forrige.

En spesiell egenskap ved funksjonene STANDARDEV og STANDDREV (den tredje og fjerde funksjonen i listen) er at når man beregner standardavviket til en matrise, tas logiske verdier og tekstverdier i betraktning. Tekst og sanne boolske verdier er 1, og falske boolske verdier er 0. Jeg kan ikke forestille meg en situasjon der jeg trenger disse to funksjonene, så jeg tror de kan ignoreres.

Materiale fra Wikipedia - det frie leksikonet

Standardavvik(synonymer: standardavvik, standardavvik, kvadratavvik; relaterte termer: standardavvik, standard oppslag) - i sannsynlighetsteori og statistikk den vanligste indikatoren på spredningen av verdiene til en tilfeldig variabel i forhold til dens matematiske forventning. Med begrensede arrays av utvalg av verdier, i stedet for den matematiske forventningen, brukes det aritmetiske gjennomsnittet av settet med samples.

Grunnleggende informasjon

Standardavviket måles i enheter av selve den tilfeldige variabelen og brukes til å beregne standardfeilen til det aritmetiske gjennomsnittet, ved å konstruere konfidensintervaller, ved statistisk hypotesetesting og ved måling av det lineære forholdet mellom tilfeldige variabler. Definert som kvadratroten av variansen til en tilfeldig variabel.

Standardavvik:

\sigma=\sqrt(\frac(1)(n)\sum_(i=1)^n\venstre(x_i-\bar(x)\høyre)^2).

Standardavvik(estimat av standardavviket til en tilfeldig variabel x i forhold til dens matematiske forventning basert på et objektivt estimat av variansen) s:

s=\sqrt(\frac(n)(n-1)\sigma^2)=\sqrt(\frac(1)(n-1)\sum_(i=1)^n\venstre(x_i-\bar (x)\høyre)^2);

Tre sigma regel

Tre sigma regel (3\sigma) - nesten alle verdier av en normalfordelt tilfeldig variabel ligger i intervallet \venstre(\bar(x)-3\sigma;\bar(x)+3\sigma\høyre). Mer strengt - med omtrentlig sannsynlighet på 0,9973, ligger verdien av en normalfordelt tilfeldig variabel i det angitte intervallet (forutsatt at verdien \bar(x) sann, og ikke oppnådd som et resultat av prøvebehandling).

Hvis den sanne verdien \bar(x) er ukjent, bør du ikke bruke \sigma, A s. Dermed blir regelen om tre sigma forvandlet til regelen om tre s .

Tolkning av standardavviksverdien

En større standardavviksverdi viser en større spredning av verdier i det presenterte settet med gjennomsnittsverdien til settet; en mindre verdi viser følgelig at verdiene i settet er gruppert rundt gjennomsnittsverdien.

For eksempel har vi tre tallsett: (0, 0, 14, 14), (0, 6, 8, 14) og (6, 6, 8, 8). Alle tre settene har middelverdier lik 7, og standardavvik, henholdsvis 7, 5 og 1. Det siste settet har et lite standardavvik, siden verdiene i settet er gruppert rundt middelverdien; det første settet har den største standardavviksverdien - verdiene innenfor settet avviker sterkt fra gjennomsnittsverdien.

I en generell forstand kan standardavvik betraktes som et mål på usikkerhet. For eksempel, i fysikk, brukes standardavvik for å bestemme feilen til en serie påfølgende målinger av en viss mengde. Denne verdien er svært viktig for å bestemme plausibiliteten til fenomenet som studeres sammenlignet med verdien forutsagt av teorien: hvis gjennomsnittsverdien av målingene avviker sterkt fra verdiene forutsagt av teorien (stort standardavvik), Deretter bør de oppnådde verdiene eller metoden for å oppnå dem kontrolleres på nytt.

Praktisk bruk

I praksis lar standardavvik deg estimere hvor mye verdier fra et sett kan avvike fra gjennomsnittsverdien.

Økonomi og finans

Standardavvik for porteføljeavkastning \sigma =\sqrt(D[X]) identifisert med porteføljerisiko.

Klima

Anta at det er to byer med samme gjennomsnittlige maksimale døgntemperatur, men den ene ligger på kysten og den andre på sletten. Det er kjent at byer som ligger ved kysten har mange forskjellige maksimale dagtemperaturer som er lavere enn byer som ligger i innlandet. Derfor vil standardavviket for de maksimale døgntemperaturene for en kystby være mindre enn for den andre byen, til tross for at gjennomsnittsverdien på denne verdien er den samme, noe som i praksis betyr at sannsynligheten for at den maksimale lufttemperaturen på en gitt dag i året vil være høyere forskjellig fra gjennomsnittsverdien, høyere for en by som ligger i innlandet.

Sport

La oss anta at det er flere fotballag som er rangert på et sett med parametere, for eksempel antall mål scoret og sluppet inn, scoringssjanser osv. Det er mest sannsynlig at det beste laget i denne gruppen vil ha bedre verdier på flere parametere. Jo mindre teamets standardavvik for hver av de presenterte parameterne, jo mer forutsigbart er teamets resultat balansert. På den annen side er et lag med stort standardavvik vanskelig å forutsi resultatet, noe som igjen forklares med en ubalanse, for eksempel et sterkt forsvar men et svakt angrep.

Bruk av standardavviket til lagparametere gjør det mulig, i en eller annen grad, å forutsi resultatet av en kamp mellom to lag, vurdere styrker og svakheter til lagene, og derfor de valgte kampmetodene.

se også

Skriv en anmeldelse om artikkelen "Root Mean Square Deviation"

Litteratur

  • Borovikov V. STATISTIKK. Kunsten å analysere data på en datamaskin: For fagfolk / V. Borovikov. - St. Petersburg. : Peter, 2003. - 688 s. - ISBN 5-272-00078-1..

Et utdrag som karakteriserer standardavvik

Og raskt åpnet han døren, gikk han ut på balkongen med avgjørende skritt. Samtalen stoppet plutselig, hatter og luer ble tatt av, og alle øyne hevet seg mot greven som var kommet ut.
- Hei folkens! – sa greven raskt og høyt. - Takk for at du kom. Jeg kommer ut til deg nå, men først og fremst må vi håndtere skurken. Vi må straffe skurken som drepte Moskva. Vent på meg! «Og greven vendte like raskt tilbake til kamrene sine og slo døren fast.
En murring av glede rant gjennom mengden. «Det betyr at han vil kontrollere alle skurkene! Og du sier fransk... han vil gi deg hele avstanden!» - sa folk, som om de bebreidet hverandre for deres manglende tro.
Noen minutter senere kom en offiser raskt ut av inngangsdørene, beordret noe, og dragene reiste seg. Publikum fra balkongen beveget seg ivrig mot verandaen. Rostopchin gikk ut på verandaen med sinte, raske skritt, og så raskt rundt seg, som om han lette etter noen.
- Hvor er han? - sa greven, og i samme øyeblikk som han sa dette, så han fra rundt hjørnet av huset komme ut mellom to drager en ung mann med lang tynn hals, med hodet halvbarbert og overgrodd. Denne unge mannen var kledd i det som en gang hadde vært en dandyaktig, blå tøydekket, loslitt reveskinnsfrakk og skitne fangeharemsbukser, stappet inn i urensede, utslitte tynne støvler. Sjakler hang tungt på de tynne, svake bena hans, noe som gjorde det vanskelig for den unge mannen å gå ubesluttsomt.
- A! - sa Rastopchin og vendte raskt blikket bort fra den unge mannen i saueskinnsfrakken fra reven og pekte på det nederste trinnet på verandaen. - Sett det her! «Den unge mannen klirret med lenkene, gikk tungt på det angitte trinnet, holdt i kragen på saueskinnsfrakken som presset med fingeren, snudde den lange halsen to ganger og sukket foldet de tynne, ikke-arbeidende hendene foran magen med en underdanig gest.
Stillheten fortsatte i flere sekunder mens den unge mannen plasserte seg på trinnet. Bare på de bakerste rekkene med mennesker som klemte seg sammen på ett sted ble stønn, stønn, støt og trampet av bevegelige føtter hørt.
Rastopchin, som ventet på at han skulle stoppe på det angitte stedet, rynket pannen og gned seg i ansiktet med hånden.
- Folkens! - sa Rastopchin med metallisk ringende stemme, - denne mannen, Vereshchagin, er den samme skurken som Moskva omkom fra.
En ung mann i en saueskinnsfrakk fra rev sto i en underdanig positur, klemte hendene sammen foran magen og bøyde seg lett. Hans avmagrede, håpløse uttrykk, vansiret av det barberte hodet, var nedslått. Ved de første ordene i tellingen løftet han sakte hodet og så ned på tellingen, som om han ville fortelle ham noe eller i det minste møte blikket hans. Men Rastopchin så ikke på ham. På den unge mannens lange tynne hals, som et tau, ble venen bak øret spent og ble blå, og plutselig ble ansiktet hans rødt.
Alle øyne var festet på ham. Han så på folkemengden, og som om han var oppmuntret av uttrykket han leste i ansiktene til folket, smilte han trist og engstelig og senket igjen hodet og rettet føttene på trinnet.
«Han forrådte sin tsar og sitt fedreland, han overgav seg til Bonaparte, han alene av alle russere vanæret russerens navn, og Moskva går til grunne fra ham,» sa Rastopchin med jevn, skarp stemme; men plutselig så han raskt ned på Vereshchagin, som fortsatte å stå i samme underdanige positur. Som om dette blikket hadde eksplodert ham, rakte han opp hånden, nesten ropte og vendte seg mot folket: "Gjør med ham med din dom!" Jeg gir det til deg!
Folket var stille og presset hverandre bare nærmere og nærmere. Å holde hverandre, puste inn denne infiserte tettheten, ikke ha krefter til å bevege seg og vente på noe ukjent, uforståelig og forferdelig ble uutholdelig. Menneskene som sto på de fremste radene, som så og hørte alt som skjedde foran dem, alle med fryktelig vidåpne øyne og åpen munn, anstrengte alle krefter, holdt tilbake trykket fra de bak dem på ryggen.
- Slå ham!.. La forræderen dø og ikke vanære russerens navn! – ropte Rastopchin. - Ruby! Jeg bestiller! - Da de ikke hørte ord, men de sinte lydene av Rastopchins stemme, stønnet publikum og beveget seg fremover, men stoppet igjen.
«Tell!...» sa Vereshchagins sjenerte og samtidig teatralske stemme midt i den øyeblikkelige stillheten som fulgte igjen. «Tell, én gud er over oss...» sa Vereshchagin og løftet hodet, og igjen ble den tykke åren på den tynne halsen hans fylt med blod, og fargen dukket raskt opp og løp vekk fra ansiktet hans. Han fullførte ikke det han ville si.
- Hakk ham! Jeg bestiller!.. - ropte Rastopchin, og ble plutselig blek akkurat som Vereshchagin.
- Sabler ut! - ropte offiseren til dragene og tegnet sabelen selv.
En annen enda sterkere bølge feide gjennom folket, og da denne bølgen nådde de fremste radene, flyttet denne bølgen de fremste radene, vaklende, og førte dem til trappetrinnene på verandaen. En høy kar, med et forstenet ansiktsuttrykk og en stanset løftet hånd, sto ved siden av Vereshchagin.
- Ruby! – Nesten en offiser hvisket til dragene, og en av soldatene slo plutselig, med ansiktet forvrengt av sinne, Vereshchagin i hodet med et sløvt bredsverd.
"EN!" – Vereshchagin ropte kort og overrasket, og så seg rundt i frykt og som om han ikke forsto hvorfor dette ble gjort mot ham. Det samme stønn av overraskelse og redsel rant gjennom mengden.
"Herregud!" – noens triste utrop ble hørt.
Men etter overraskelsesutropet som slapp Vereshchagin, ropte han ynkelig av smerte, og dette ropet ødela ham. Den barrieren av menneskelig følelse, strukket i høyeste grad, som fortsatt holdt publikum, brøt gjennom øyeblikkelig. Forbrytelsen var startet, det var nødvendig å fullføre den. Det ynkelige stønn av bebreidelse ble overdøvet av folkemengdens truende og sinte brøl. Som den siste syvende bølgen som bryter skip, steg denne siste ustoppelige bølgen fra de bakre rekkene, nådde de fremste, slo dem ned og svelget alt. Dragen som slo ville gjenta slaget sitt. Vereshchagin, med et skrekkskrik, skjermet seg med hendene, stormet mot folket. Den høye mannen han traff på, grep Vereshchagins tynne hals med hendene, og med et vilt skrik falt han og han under føttene til mengden av brølende mennesker.
Noen slo og rev Vereshchagin, andre var høye og små. Og ropene fra de knuste menneskene og de som prøvde å redde den høye karen vakte bare raseriet i mengden. I lang tid klarte ikke dragene å befri den blodige, slått halvt i hjel fabrikkarbeideren. Og i lang tid, til tross for all den febrilske hasten som folkemengden prøvde å fullføre arbeidet med en gang påbegynt, kunne ikke de menneskene som slo, kvalte og rev Vereshchagin drepe ham; men folkemengden presset dem fra alle kanter, med dem i midten, som én masse, svaiende fra side til side og ga dem ikke anledning til verken å avslutte eller kaste ham.

Det er verdt å merke seg at denne variansberegningen har en ulempe - den viser seg å være partisk, dvs. dens matematiske forventning er ikke lik den sanne verdien av variansen. Les mer om dette. Samtidig er ikke alt så ille. Ettersom prøvestørrelsen øker, nærmer den seg fortsatt sin teoretiske analog, dvs. er asymptotisk objektiv. Derfor, når du arbeider med store prøvestørrelser, kan du bruke formelen ovenfor.

Det er nyttig å oversette tegnspråket til ordspråket. Det viser seg at variansen er gjennomsnittskvadraten av avvikene. Det vil si at gjennomsnittsverdien først beregnes, deretter tas forskjellen mellom hver opprinnelige og gjennomsnittlig verdi, kvadreres, legges til og deretter divideres med antall verdier i populasjonen. Differansen mellom en individuell verdi og gjennomsnittet gjenspeiler målet på avviket. Den kvadreres slik at alle avvik utelukkende blir positive tall og for å unngå gjensidig ødeleggelse av positive og negative avvik når de summeres. Så, gitt de kvadrerte avvikene, beregner vi ganske enkelt det aritmetiske gjennomsnittet. Gjennomsnitt - kvadrat - avvik. Avvik kvadreres og gjennomsnittet beregnes. Løsningen ligger i bare tre ord.

Men i sin rene form, slik som det aritmetiske gjennomsnittet, eller indeksen, brukes ikke spredning. Det er snarere en hjelpe- og mellomindikator som er nødvendig for andre typer statistiske analyser. Den har ikke engang en normal måleenhet. Etter formelen å dømme er dette kvadratet på måleenheten til de opprinnelige dataene. Uten en flaske, som de sier, kan du ikke finne ut av det.

(modul 111)

For å returnere variansen til virkeligheten, det vil si å bruke den til mer hverdagslige formål, trekkes kvadratroten ut fra den. Det viser seg den såkalte standardavvik (RMS). Det er navn "standardavvik" eller "sigma" (fra navnet på den greske bokstaven). Standardavviksformelen er:

For å få denne indikatoren for prøven, bruk formelen:

Som med varians er det et litt annet beregningsalternativ. Men etter hvert som utvalget vokser, forsvinner forskjellen.

Standardavviket karakteriserer selvsagt også målet for dataspredning, men nå (i motsetning til spredning) kan det sammenlignes med de opprinnelige dataene, siden de har samme måleenheter (dette fremgår tydelig av beregningsformelen). Men denne indikatoren i sin rene form er ikke veldig informativ, siden den inneholder for mange mellomberegninger som er forvirrende (avvik, kvadrat, sum, gjennomsnitt, rot). Imidlertid er det allerede mulig å jobbe direkte med standardavviket, fordi egenskapene til denne indikatoren er godt studert og kjent. For eksempel er det dette tre sigma regel, som sier at dataene har 997 verdier av 1000 innenfor ±3 sigma av det aritmetiske gjennomsnittet. Standardavvik, som et mål på usikkerhet, er også involvert i mange statistiske beregninger. Med dens hjelp bestemmes graden av nøyaktighet av ulike estimater og prognoser. Hvis variasjonen er veldig stor, vil også standardavviket være stort, og derfor vil prognosen være unøyaktig, noe som for eksempel vil uttrykkes i svært brede konfidensintervaller.

Variasjonskoeffisienten

Standardavviket gir et absolutt estimat av spredningsmålet. Derfor, for å forstå hvor stor spredningen er i forhold til verdiene selv (dvs. uavhengig av deres skala), er det nødvendig med en relativ indikator. Denne indikatoren kalles variasjonskoeffisient og beregnes ved hjelp av følgende formel:

Variasjonskoeffisienten måles i prosent (hvis multiplisert med 100%). Ved å bruke denne indikatoren kan du sammenligne en rekke fenomener, uavhengig av deres skala og måleenheter. Dette er det som gjør variasjonskoeffisienten så populær.

I statistikk er det akseptert at hvis verdien av variasjonskoeffisienten er mindre enn 33%, så anses befolkningen som homogen hvis den er mer enn 33%, så er den heterogen. Det er vanskelig for meg å kommentere noe her. Jeg vet ikke hvem som definerte dette og hvorfor, men det regnes som et aksiom.

Jeg føler at jeg blir revet med av tørr teori og trenger å ta med noe visuelt og figurativt. På den annen side beskriver alle variasjonsindikatorer omtrent det samme, bare de beregnes annerledes. Derfor er det vanskelig å vise frem en rekke eksempler. Bare verdiene til indikatorer kan variere, men ikke essensen. Så la oss sammenligne hvordan verdiene til ulike variasjonsindikatorer er forskjellige for det samme settet med data. La oss ta eksemplet med å beregne gjennomsnittlig lineært avvik (fra ). Her er kildedataene:

Og en tidsplan for å minne deg på.

Ved hjelp av disse dataene beregner vi ulike variasjonsindikatorer.

Gjennomsnittsverdien er det vanlige aritmetiske gjennomsnittet.

Variasjonsområdet er forskjellen mellom maksimum og minimum:

Det gjennomsnittlige lineære avviket beregnes ved å bruke formelen:

Standardavvik:

La oss oppsummere beregningen i en tabell.

Som man kan se, gir det lineære gjennomsnittet og standardavviket lignende verdier for graden av datavariasjon. Varians er sigma squared, så det vil alltid være et relativt stort tall, noe som faktisk ikke betyr noe. Variasjonsområdet er forskjellen mellom ekstreme verdier og kan si volumet.

La oss oppsummere noen resultater.

Variasjon av en indikator gjenspeiler variasjonen til en prosess eller et fenomen. Graden kan måles ved hjelp av flere indikatorer.

1. Variasjonsområde - forskjellen mellom maksimum og minimum. Gjenspeiler rekkevidden av mulige verdier.
2. Gjennomsnittlig lineært avvik – reflekterer gjennomsnittet av de absolutte (modulo) avvikene til alle verdiene av den analyserte populasjonen fra deres gjennomsnittsverdi.
3. Dispersjon - gjennomsnittlig kvadrat av avvik.
4. Standardavvik er roten til dispersjonen (middelkvadrat av avvik).
5. Variasjonskoeffisienten er den mest universelle indikatoren, som gjenspeiler graden av spredning av verdier, uavhengig av deres skala og måleenheter. Variasjonskoeffisienten måles i prosent og kan brukes til å sammenligne variasjonen av ulike prosesser og fenomener.

I statistisk analyse er det således et system med indikatorer som gjenspeiler homogeniteten til fenomener og stabiliteten til prosesser. Ofte har variasjonsindikatorer ikke uavhengig betydning og brukes til videre dataanalyse (beregning av konfidensintervaller

Standardavvik

Den mest perfekte egenskapen til variasjon er gjennomsnittlig kvadratavvik, som kalles standarden (eller standardavviket). Standardavvik() er lik kvadratroten av gjennomsnittlig kvadratavvik for individuelle verdier av attributtet fra det aritmetiske gjennomsnittet:

Standardavviket er enkelt:

Vektet standardavvik brukes på grupperte data:

Følgende forhold finner sted mellom midlere kvadrat og midlere lineære avvik under normale distribusjonsforhold: ~ 1,25.

Standardavviket, som er det absolutte hovedmålet for variasjon, brukes til å bestemme ordinatverdiene til en normalfordelingskurve, i beregninger knyttet til organisering av prøveobservasjon og for å etablere nøyaktigheten av prøvekarakteristikker, samt ved vurdering av variasjonsgrenser for en egenskap i en homogen populasjon.

18. Dispersjon, dens typer, standardavvik.

Varians av en tilfeldig variabel- et mål på spredningen av en gitt tilfeldig variabel, dvs. dens avvik fra den matematiske forventningen. I statistikk brukes ofte notasjonen eller. Kvadratroten av variansen kalles vanligvis standardavvik, standardavvik eller standard oppslag.

Total varians (σ 2) måler variasjonen av en egenskap i sin helhet under påvirkning av alle faktorene som forårsaket denne variasjonen. Samtidig er det, takket være grupperingsmetoden, mulig å identifisere og måle variasjonen på grunn av grupperingskarakteristikken og variasjonen som oppstår under påvirkning av uoversiktlige faktorer.

Intergruppevarians (σ 2 m.gr) karakteriserer systematisk variasjon, dvs. forskjeller i verdien av den studerte egenskapen som oppstår under påvirkning av egenskapen - faktoren som danner grunnlaget for gruppen.

Standardavvik(synonymer: standardavvik, standardavvik, kvadratavvik; relaterte termer: standardavvik, standard oppslag) - i sannsynlighetsteori og statistikk, den vanligste indikatoren på spredningen av verdiene til en tilfeldig variabel i forhold til dens matematiske forventning. Med begrensede arrays av utvalg av verdier, i stedet for den matematiske forventningen, brukes det aritmetiske gjennomsnittet av settet med samples.

Standardavviket måles i måleenheter for selve den tilfeldige variabelen og brukes ved beregning av standardfeilen til det aritmetiske gjennomsnittet, ved konstruksjon av konfidensintervaller, ved statistisk testing av hypoteser, ved måling av det lineære forholdet mellom tilfeldige variabler. Definert som kvadratroten av variansen til en tilfeldig variabel.

Standardavvik:

Standardavvik(estimat av standardavviket til en tilfeldig variabel x i forhold til dens matematiske forventning basert på et objektivt estimat av variansen):

hvor er spredningen; - Jeg elementet i utvalget; - prøvestørrelse; - aritmetisk gjennomsnitt av prøven:

Det skal bemerkes at begge estimatene er partiske. I det generelle tilfellet er det umulig å konstruere et objektivt estimat. I dette tilfellet er estimatet basert på det objektive variansestimatet konsistent.

19. Essens, omfang og prosedyre for å bestemme modus og median.

I tillegg til kraftgjennomsnitt i statistikk, for den relative karakteriseringen av verdien av en varierende karakteristikk og den interne strukturen til distribusjonsserier, brukes strukturelle gjennomsnitt, som hovedsakelig er representert ved mote og median.

Mote– Dette er den vanligste varianten av serien. Mote brukes for eksempel til å bestemme størrelsen på klær og sko som er mest etterspurt blant kundene. Modusen for en diskret serie er varianten med høyest frekvens. Når du beregner modusen for en intervallvariasjonsserie, er det ekstremt viktig å først bestemme det modale intervallet (ved maksimal frekvens), og deretter - verdien av den modale verdien til attributtet ved å bruke formelen:

§ - betydningen av mote

§ - nedre grense for det modale intervallet

§ - intervallverdi

§ - modal intervallfrekvens

§ - frekvensen av intervallet før modalen

§ - frekvensen av intervallet etter modalen

Median - denne verdien av attributtet, ĸᴏᴛᴏᴩᴏᴇ ligger i grunnlaget for den rangerte serien og deler denne serien i to like store deler.

For å bestemme medianen i en diskret serie hvis frekvenser er tilgjengelige, beregner du først den halve summen av frekvenser, og bestemmer deretter hvilken verdi av varianten som faller på den. (Hvis den sorterte serien inneholder et oddetall av egenskaper, beregnes mediantallet ved hjelp av formelen:

M e = (n (antall funksjoner totalt) + 1)/2,

i tilfelle av et partall av funksjoner, vil medianen være lik gjennomsnittet av de to funksjonene i midten av raden).

Ved beregning av medianen for intervallvariasjonsserier Bestem først medianintervallet som medianen befinner seg innenfor, og bestem deretter verdien av medianen ved hjelp av formelen:

§ - nødvendig median

§ - nedre grense for intervallet som inneholder medianen

§ - intervallverdi

§ - sum av frekvenser eller antall serieledd

§ - summen av de akkumulerte frekvensene til intervallene foran medianen

§ - frekvensen av medianintervallet

Eksempel. Finn modus og median.

Løsning: I dette eksemplet er det modale intervallet innenfor aldersgruppen 25-30 år, siden dette intervallet har den høyeste frekvensen (1054).

La oss beregne størrelsen på modusen:

Det betyr at elevens modale alder er 27 år.

La oss beregne medianen. Medianintervallet er i aldersgruppen 25-30 år, siden det innenfor dette intervallet er et alternativ som deler befolkningen i to like deler (Σf i /2 = 3462/2 = 1731). Deretter erstatter vi de nødvendige numeriske dataene i formelen og får medianverdien:

Det betyr at den ene halvparten av elevene er under 27,4 år, og den andre halvparten er over 27,4 år.

I tillegg til modus og median, brukes indikatorer som kvartiler, som deler den rangerte serien i 4 like deler, desiler - 10 deler og persentiler - i 100 deler.

20. Konseptet med prøveobservasjon og dets omfang.

Selektiv observasjon gjelder ved bruk av kontinuerlig overvåking fysisk umulig på grunn av store mengder data eller ikke økonomisk gjennomførbart. Fysisk umulighet oppstår for eksempel når man studerer passasjerstrømmer, markedspriser og familiebudsjetter. Økonomisk uhensiktsmessighet oppstår når man vurderer kvaliteten på varer knyttet til deres ødeleggelse, for eksempel smaking, testing av murstein for styrke, etc.

De statistiske enhetene valgt for observasjon er utvalgspopulasjon eller prøve, og hele utvalget deres - generell befolkning(GS). Hvori antall enheter i prøven betegne n, og gjennom hele HS - N. Holdning n/N vanligvis kalt relativ størrelse eller prøveandel.

Kvaliteten på prøveobservasjonsresultatene avhenger av utvalgets representativitet, altså på hvor representativt det er i GS. For å sikre representativiteten til utvalget er det ekstremt viktig å overholde prinsippet om tilfeldig utvalg av enheter, som forutsetter at inkludering av en HS-enhet i utvalget ikke kan påvirkes av andre faktorer enn tilfeldigheter.

Finnes 4 måter for tilfeldig valgå prøve:

  1. Egentlig tilfeldig utvalg eller "lotto-metoden", når statistiske verdier tildeles serienummer, registrert på visse objekter (for eksempel fat), som deretter blandes i en beholder (for eksempel i en pose) og velges tilfeldig. I praksis utføres denne metoden ved hjelp av en tilfeldig tallgenerator eller matematiske tabeller med tilfeldige tall.
  2. Mekanisk utvalg i henhold til hvilken hver ( N/n)-te verdi av den generelle befolkningen. For eksempel, hvis den inneholder 100 000 verdier, og du må velge 1000, vil hver 100 000 / 1000 = 100. verdi inkluderes i prøven. Dessuten, hvis de ikke er rangert, blir den første valgt tilfeldig fra de første hundre, og tallene til de andre vil være hundre høyere. For eksempel, hvis den første enheten var nr. 19, så skal den neste være nr. 119, deretter nr. 219, deretter nr. 319 osv. Hvis befolkningsenhetene er rangert, velges nr. 50 først, deretter nr. 150, deretter nr. 250, og så videre.
  3. Valg av verdier fra en heterogen datamatrise utføres lagdelt(stratifisert) metode, når populasjonen først deles inn i homogene grupper som tilfeldig eller mekanisk seleksjon brukes på.
  4. En spesiell prøvetakingsmetode er serie seleksjon, der de tilfeldig eller mekanisk velger ikke individuelle verdier, men deres serier (sekvenser fra et tall til et tall på rad), innenfor hvilke kontinuerlig observasjon utføres.

Kvaliteten på prøveobservasjoner avhenger også av prøvetype: gjentatt eller ugjentakelig.omvalg Statistiske verdier eller deres serier som er inkludert i utvalget, returneres til den generelle befolkningen etter bruk, og har en sjanse til å bli inkludert i et nytt utvalg. Dessuten har alle verdier i den generelle befolkningen samme sannsynlighet for å bli inkludert i utvalget. Ikke-repeterende utvalg betyr at de statistiske verdiene eller seriene deres som er inkludert i utvalget ikke returnerer til den generelle populasjonen etter bruk, og derfor øker sannsynligheten for å bli inkludert i neste utvalg for de resterende verdiene til sistnevnte.

Ikke-repeterende prøvetaking gir mer nøyaktige resultater og brukes derfor oftere. Men det er situasjoner hvor det ikke kan brukes (studerer passasjerstrømmer, forbrukernes etterspørsel osv.) og deretter gjennomføres et gjentatt utvalg.

21. Maksimal observasjonsprøvetakingsfeil, gjennomsnittlig prøvetakingsfeil, prosedyre for deres beregning.

La oss vurdere i detalj metodene for å danne en utvalgspopulasjon oppført ovenfor og representativitetsfeilene som oppstår. Riktig tilfeldig utvalget er basert på å velge enheter fra populasjonen tilfeldig uten noen systematiske elementer. Teknisk sett utføres faktisk tilfeldig utvalg ved å trekke lodd (for eksempel lotterier) eller ved å bruke en tabell med tilfeldige tall.

Riktig tilfeldig seleksjon "i sin rene form" brukes sjelden i praksisen med selektiv observasjon, men det er den første blant andre typer seleksjon, den implementerer de grunnleggende prinsippene for selektiv observasjon. La oss vurdere noen spørsmål om teorien om prøvetakingsmetoden og feilformelen for et enkelt tilfeldig utvalg.

Sampling bias- ϶ᴛᴏ forskjellen mellom verdien av parameteren i den generelle populasjonen og dens verdi beregnet fra resultatene av prøveobservasjon. Det er viktig å merke seg at for den gjennomsnittlige kvantitative karakteristikken bestemmes prøvetakingsfeilen av

Indikatoren kalles vanligvis den maksimale prøvetakingsfeilen. Utvalgsgjennomsnittet er en tilfeldig variabel som kan få ulike verdier basert på hvilke enheter som inngår i utvalget. Derfor er prøvetakingsfeil også tilfeldige variabler og kan få ulike verdier. Av denne grunn bestemmes gjennomsnittet av mulige feil - gjennomsnittlig prøvetakingsfeil, som avhenger av:

· prøvestørrelse: jo større tall, jo mindre er gjennomsnittsfeilen;

· graden av endring i karakteristikken som studeres: jo mindre variasjonen av karakteristikken er, og følgelig spredningen, jo mindre er den gjennomsnittlige prøvetakingsfeilen.

tilfeldig omvalg gjennomsnittsfeilen beregnes. I praksis er den generelle variansen ikke kjent nøyaktig, men i sannsynlighetsteori er det bevist at . Siden verdien for tilstrekkelig stor n er nær 1, kan vi anta at . Deretter skal den gjennomsnittlige prøvetakingsfeilen beregnes: . Men i tilfeller med et lite utvalg (med n<30) коэффициент крайне важно учитывать, и среднюю ошибку малой выборки рассчитывать по формуле .

tilfeldig ikke-repeterende prøvetaking de gitte formlene justeres med verdien. Da er den gjennomsnittlige ikke-repetitive prøvetakingsfeilen: Og . Fordi alltid er mindre enn , så er multiplikatoren () alltid mindre enn 1. Dette betyr at gjennomsnittsfeilen ved gjentatt valg alltid er mindre enn ved gjentatt valg. Mekanisk prøvetaking brukes når befolkningen generelt er ordnet på en eller annen måte (for eksempel velgerlister i alfabetisk rekkefølge, telefonnumre, hus- og leilighetsnummer). Utvelgelsen av enheter utføres med et visst intervall, som er lik den inverse verdien av prøvetakingsprosenten. Så, med et utvalg på 2 %, velges hver 50 enhet = 1/0,02, med et utvalg på 5 %, hver 1/0,05 = 20 enheter av den generelle befolkningen.

Referansepunktet velges på forskjellige måter: tilfeldig, fra midten av intervallet, med en endring i referansepunktet. Det viktigste er å unngå systematiske feil. For eksempel, med et utvalg på 5 %, hvis den første enheten er den 13., så er de neste 33, 53, 73 osv.

Når det gjelder nøyaktighet, er mekanisk seleksjon nær faktisk tilfeldig prøvetaking. Av denne grunn, for å bestemme gjennomsnittsfeilen ved mekanisk prøvetaking, brukes riktige tilfeldige utvalgsformler.

typisk utvalg befolkningen som undersøkes er foreløpig delt inn i homogene, like grupper. For eksempel ved kartlegging av virksomheter er dette bransjer, delsektorer når man studerer befolkningen, dette er regioner, sosiale eller aldersgrupper. Deretter gjøres et uavhengig utvalg fra hver gruppe mekanisk eller rent tilfeldig.

Typisk prøvetaking gir mer nøyaktige resultater enn andre metoder. Typing av den generelle populasjonen sikrer at hver typologisk gruppe er representert i utvalget, noe som gjør det mulig å eliminere påvirkningen av intergruppevarians på gjennomsnittlig prøvetakingsfeil. Derfor, når du finner feilen til et typisk utvalg i henhold til regelen om å legge til varianser (), er det ekstremt viktig å bare ta hensyn til gjennomsnittet av gruppevariansene. Deretter gjennomsnittlig prøvetakingsfeil: med gjentatt prøvetaking, med ikke-repetitiv prøvetaking , Hvor – gjennomsnittet av variasjonene innen gruppe i utvalget.

Seriell (eller neste) valg brukes når populasjonen deles inn i serier eller grupper før oppstart av utvalgsundersøkelsen. Disse seriene inkluderer pakking av ferdige produkter, studentgrupper og brigader. Serier for undersøkelse velges mekanisk eller rent tilfeldig, og innenfor serien gjennomføres det en fortløpende undersøkelse av enheter. Av denne grunn avhenger den gjennomsnittlige prøvetakingsfeilen bare av variansen mellom grupper (mellom serier), som beregnes ved hjelp av formelen: hvor r er antall valgte serier; – gjennomsnitt av i-te serie. Gjennomsnittlig feil for serieprøvetaking beregnes: med gjentatt prøvetaking, med ikke-repeterende prøvetaking , hvor R er det totale antallet serier. Kombinert seleksjon er en kombinasjon av de vurderte seleksjonsmetodene.

Den gjennomsnittlige prøvetakingsfeilen for enhver prøvetakingsmetode avhenger hovedsakelig av utvalgets absolutte størrelse og, i mindre grad, av utvalgets prosentandel. La oss anta at det gjøres 225 observasjoner i det første tilfellet fra en befolkning på 4 500 enheter og i det andre fra en populasjon på 225 000 enheter. Variansene i begge tilfeller er lik 25. Så i det første tilfellet, med et utvalg på 5 %, vil samplingsfeilen være: I det andre tilfellet, med 0,1 % valg, vil det være lik:

Men når prøvetakingsprosenten ble redusert med 50 ganger, økte prøvetakingsfeilen litt, siden prøvestørrelsen ikke endret seg. La oss anta at utvalgsstørrelsen økes til 625 observasjoner. I dette tilfellet er prøvetakingsfeilen: Å øke utvalget med 2,8 ganger med samme populasjonsstørrelse reduserer størrelsen på prøvetakingsfeilen med mer enn 1,6 ganger.

22. Metoder og metoder for å danne en utvalgspopulasjon.

I statistikk brukes ulike metoder for å danne utvalgspopulasjoner, som bestemmes av målene for studien og avhenger av spesifikasjonene til studieobjektet.

Hovedbetingelsen for å gjennomføre en utvalgsundersøkelse er å forhindre at det oppstår systematiske feil som følge av brudd på prinsippet om like muligheter for hver enhet av befolkningen generelt som skal inngå i utvalget. Forebygging av systematiske feil oppnås gjennom bruk av vitenskapelig baserte metoder for å danne en utvalgspopulasjon.

Det finnes følgende metoder for å velge ut enheter fra den generelle populasjonen: 1) Individuelt utvalg - individuelle enheter velges for utvalget; 2) gruppevalg - utvalget inkluderer kvalitativt homogene grupper eller serier av enheter som studeres; 3) kombinert utvalg er en kombinasjon av individuell og gruppeutvalg. Utvelgelsesmetoder bestemmes av reglene for å danne en utvalgspopulasjon.

Eksemplet skal være:

  • faktisk tilfeldig består i at utvalgspopulasjonen dannes som et resultat av tilfeldig (utilsiktet) utvalg av enkeltenheter fra den generelle populasjonen. I dette tilfellet bestemmes vanligvis antall enheter valgt i utvalgspopulasjonen basert på den aksepterte utvalgsandelen. Utvalgsandelen er forholdet mellom antall enheter i utvalgspopulasjonen n og antall enheter i den generelle populasjonen N, ᴛ.ᴇ.
  • mekanisk består i at utvalget av enheter i utvalgspopulasjonen gjøres fra den generelle populasjonen, delt inn i like intervaller (grupper). I dette tilfellet er størrelsen på intervallet i populasjonen lik gjensidigheten av utvalgsandelen. Så, med et utvalg på 2 %, velges hver 50. enhet (1:0,02), med en prøve på 5 %, hver 20. enhet (1:0,05), osv. Men i samsvar med den aksepterte andelen seleksjon er den generelle befolkningen så å si mekanisk delt inn i like grupper. Fra hver gruppe velges kun én enhet for utvalget.
  • typisk - hvor den generelle befolkningen først deles inn i homogene typiske grupper. Deretter, fra hver typisk gruppe, brukes et rent tilfeldig eller mekanisk utvalg for å individuelt velge enheter i utvalgspopulasjonen. Et viktig trekk ved et typisk utvalg er at det gir mer nøyaktige resultater sammenlignet med andre metoder for å velge enheter i utvalgspopulasjonen;
  • serie- hvor den generelle befolkningen er delt inn i grupper av like store - serier. Serier velges inn i utvalgspopulasjonen. Innenfor serien gjennomføres det kontinuerlig observasjon av enhetene som inngår i serien;
  • kombinert- prøvetaking bør være to-trinns. I dette tilfellet blir befolkningen først delt inn i grupper. Deretter velges grupper, og innenfor sistnevnte velges individuelle enheter.

I statistikk skilles følgende metoder ut for å velge enheter i en utvalgspopulasjon:

  • enkelt trinn prøvetaking - hver valgt enhet blir umiddelbart utsatt for studier i henhold til et gitt kriterium (riktig tilfeldig og seriell prøvetaking);
  • flertrinn prøvetaking - et utvalg gjøres fra den generelle populasjonen av individuelle grupper, og individuelle enheter velges fra gruppene (typisk prøvetaking med en mekanisk metode for å velge enheter inn i utvalgspopulasjonen).

I tillegg finnes det:

  • omvalg- i henhold til skjemaet for den returnerte ballen. I dette tilfellet returneres hver enhet eller serie som er inkludert i utvalget til den generelle populasjonen og har derfor en sjanse til å bli inkludert i utvalget igjen;
  • ikke-repeterende utvalg- etter ordningen med ikke-returert ball. Den har mer nøyaktige resultater med samme prøvestørrelse.

23. Bestemmelse av den ekstremt viktige prøvestørrelsen (ved hjelp av studentens t-tabell).

Et av de vitenskapelige prinsippene i prøvetakingsteori er å sikre at et tilstrekkelig antall enheter velges. Teoretisk er den ekstreme viktigheten av å observere dette prinsippet presentert i proofs of limit teoremene i sannsynlighetsteori, som gjør det mulig å fastslå hvilket volum av enheter som bør velges fra populasjonen slik at det er tilstrekkelig og sikrer representativiteten til utvalget.

En reduksjon i standard prøvetakingsfeil, og derfor en økning i nøyaktigheten av estimatet, er alltid forbundet med en økning i prøvestørrelsen, derfor er det nødvendig å bestemme størrelsen allerede på stadiet for å organisere en prøveobservasjon av prøvepopulasjonen bør være for å sikre den nødvendige nøyaktigheten av observasjonsresultatene. Beregningen av det ekstremt viktige prøvevolumet er konstruert ved hjelp av formler utledet fra formlene for maksimale prøvetakingsfeil (A), som tilsvarer en bestemt type og metode for utvelgelse. Så for en tilfeldig gjentatt prøvestørrelse (n) har vi:

Essensen av denne formelen er at med tilfeldig gjentatt prøvetaking av ekstremt viktige tall, er prøvestørrelsen direkte proporsjonal med kvadratet av konfidensfaktoren (t2) og varians av variasjonskarakteristikken (a2) og er omvendt proporsjonal med kvadratet av den maksimale samplingsfeilen (a2). Spesielt, med en økning i maksimal feil med en faktor på to, bør den nødvendige utvalgsstørrelsen reduseres med en faktor på fire. Av de tre parameterne er to (t og?) satt av forskeren. Samtidig har forskeren, basert på målet

og problemene med en prøveundersøkelse må løse spørsmålet: i hvilken kvantitativ kombinasjon er det bedre å inkludere disse parameterne for å sikre det optimale alternativet? I ett tilfelle kan han være mer fornøyd med påliteligheten til de oppnådde resultatene (t) enn med målingen av nøyaktighet (?), i et annet - omvendt. Det er vanskeligere å løse problemet med verdien av den maksimale prøvetakingsfeilen, siden forskeren ikke har denne indikatoren ved utformingen av prøveobservasjonen, derfor er det i praksis vanlig å sette verdien på den maksimale prøvetakingsfeilen , vanligvis innenfor 10 % av det forventede gjennomsnittlige nivået for attributtet . Etablering av det estimerte gjennomsnittet kan tilnærmes på forskjellige måter: ved å bruke data fra lignende tidligere undersøkelser, eller ved å bruke data fra utvalgsrammen og gjennomføre et lite pilotutvalg.

Det vanskeligste å fastslå når man designer en prøveobservasjon er den tredje parameteren i formel (5.2) - variansen til utvalgspopulasjonen. I dette tilfellet er det ekstremt viktig å bruke all informasjon som er tilgjengelig for forskeren, innhentet i tidligere lignende og pilotundersøkelser.

Spørsmålet om å bestemme den ekstremt viktige utvalgsstørrelsen blir mer komplisert dersom utvalgsundersøkelsen innebærer studier av flere egenskaper ved utvalgsenheter. I dette tilfellet er gjennomsnittsnivåene for hver av egenskapene og deres variasjon, som regel, forskjellige, og i denne forbindelse er det mulig å bestemme hvilken variasjon av hvilke av egenskapene som skal foretrekkes, bare under hensyntagen til formålet og målene av undersøkelsen.

Ved utforming av en prøveobservasjon antas en forhåndsbestemt verdi av den tillatte prøvetakingsfeilen i samsvar med målene for en bestemt studie og sannsynligheten for konklusjoner basert på observasjonsresultatene.

Generelt lar formelen for maksimal feil av prøvegjennomsnittet oss bestemme:

‣‣‣ omfanget av mulige avvik av indikatorene for den generelle befolkningen fra indikatorene for utvalgspopulasjonen;

‣‣‣ den nødvendige prøvestørrelsen for å sikre den nødvendige nøyaktigheten, der grensene for mulig feil ikke overskrider en viss spesifisert verdi;

‣‣‣ sannsynligheten for at feilen i utvalget vil ha en spesifisert grense.

Elevfordeling i sannsynlighetsteori er det en én-parameter familie av absolutt kontinuerlige distribusjoner.

24. Dynamisk serie (intervall, moment), avsluttende dynamisk serie.

Dynamics-serien- dette er verdiene til statistiske indikatorer som presenteres i en viss kronologisk sekvens.

Hver tidsserie inneholder to komponenter:

1) indikatorer for tidsperioder(år, kvartaler, måneder, dager eller datoer);

2) indikatorer som karakteriserer objektet som studeres for tidsperioder eller på tilsvarende datoer, som kalles serienivåer.

Serienivåer uttrykkes i både absolutte og gjennomsnittlige eller relative verdier. Med hensyn til avhengigheten av indikatorenes natur, bygges dynamiske serier av absolutte, relative og gjennomsnittlige verdier. Dynamiske serier av relative og gjennomsnittlige verdier er konstruert på grunnlag av avledede serier av absolutte verdier. Det er intervall- og momentserier av dynamikk.

Dynamisk intervallserie inneholder verdiene til indikatorer for visse tidsperioder. I en intervallserie kan nivåer summeres for å få volumet av fenomenet over en lengre periode, eller såkalte akkumulerte totaler.

Dynamisk øyeblikksserie reflekterer verdiene til indikatorer på et bestemt tidspunkt (tidspunkt). I momentserier kan forskeren bare være interessert i forskjellen i fenomener som gjenspeiler endringen i nivået til serien mellom bestemte datoer, siden summen av nivåene her ikke har noe reelt innhold. Akkumulerte totaler er ikke beregnet her.

Den viktigste betingelsen for riktig konstruksjon av tidsserier er sammenlignbarhet av serienivåer som tilhører ulike perioder. Nivåene skal presenteres i homogene mengder, og det skal være lik fullstendighet i dekning av ulike deler av fenomenet.

For å unngå forvrengning av den virkelige dynamikken, utføres det i statistisk forskning foreløpige beregninger (lukking av dynamikkserien), som går foran den statistiske analysen av tidsserien. Under avslutter serien av dynamikk Det er generelt akseptert å forstå kombinasjonen i en serie av to eller flere serier, hvis nivåer er beregnet ved hjelp av annen metodikk eller ikke samsvarer med territorielle grenser, etc. Å lukke dynamikkserien kan også innebære å bringe de absolutte nivåene til dynamikkseriene til et felles grunnlag, noe som nøytraliserer uforlignbarheten til nivåene i dynamikkserien.

25. Konseptet med sammenlignbarhet av dynamikkserier, koeffisienter, vekst og vekstrater.

Dynamics-serien- dette er en serie statistiske indikatorer som karakteriserer utviklingen av naturlige og sosiale fenomener over tid. Statistiske samlinger utgitt av Statens statistikkkomité i Russland inneholder et stort antall dynamikkserier i tabellform. Dynamiske serier gjør det mulig å identifisere utviklingsmønstre for fenomenene som studeres.

Dynamics-serien inneholder to typer indikatorer. Tidsindikatorer(år, kvartaler, måneder osv.) eller tidspunkter (i begynnelsen av året, i begynnelsen av hver måned osv.). Radnivåindikatorer. Indikatorer for nivåene av dynamikkserier kan uttrykkes i absolutte verdier (produktproduksjon i tonn eller rubler), relative verdier (andel av bybefolkningen i %) og gjennomsnittsverdier (gjennomsnittlig lønn til industriarbeidere etter år) , etc.). I tabellform inneholder en tidsserie to kolonner eller to rader.

Riktig konstruksjon av tidsserier krever oppfyllelse av en rekke krav:

  1. alle indikatorer på en rekke dynamikker må være vitenskapelig underbygget og pålitelige;
  2. indikatorer for en serie av dynamikk må være sammenlignbare over tid, ᴛ.ᴇ. må beregnes for samme tidsrom eller på samme datoer;
  3. indikatorer for en rekke dynamikker må være sammenlignbare på tvers av territoriet;
  4. indikatorer for en serie av dynamikk må være sammenlignbare i innhold, ᴛ.ᴇ. beregnet i henhold til en enkelt metodikk, på samme måte;
  5. indikatorer for en rekke dynamikker bør være sammenlignbare på tvers av utvalget av gårder som tas i betraktning. Alle indikatorer for en serie av dynamikk må angis i samme måleenheter.

Statistiske indikatorer kan karakterisere enten resultatene av prosessen som studeres over en tidsperiode, eller tilstanden til fenomenet som studeres på et bestemt tidspunkt, ᴛ.ᴇ. indikatorer kan være intervall (periodiske) og momentane. Følgelig er dynamikkseriene til å begynne med enten intervall eller moment. Moment dynamics-serien kommer på sin side med like og ulikt tidsintervaller.

Den originale dynamikkserien kan transformeres til en serie gjennomsnittsverdier og en serie relative verdier (kjede og grunnleggende). Slike tidsserier kalles avledede tidsserier.

Metodikken for å beregne gjennomsnittsnivået i dynamikkserien er forskjellig, avhengig av type dynamikkserien. Ved hjelp av eksempler vil vi vurdere typene dynamikkserier og formler for beregning av gjennomsnittsnivået.

Absolutte økninger (Δy) viser hvor mange enheter det påfølgende nivået i serien har endret seg i forhold til det forrige (gr. 3. - kjede absolutte økninger) eller sammenlignet med det opprinnelige nivået (gr. 4. - grunnleggende absolutte økninger). Beregningsformlene kan skrives som følger:

Når de absolutte verdiene av serien synker, vil det være henholdsvis en "reduksjon" eller "reduksjon".

Absolutte vekstindikatorer indikerer at for eksempel i 1998. produksjonen av produkt "A" økte sammenlignet med 1997. med 4 tusen tonn, og sammenlignet med 1994 ᴦ. - med 34 tusen tonn; for andre år, se tabell. 11,5 gr.
Lagt ut på ref.rf
3 og 4.

Vekstrate viser hvor mange ganger nivået til serien har endret seg sammenlignet med den forrige (gr. 5 - kjedekoeffisienter for vekst eller nedgang) eller sammenlignet med det opprinnelige nivået (gr. 6 - grunnleggende koeffisienter for vekst eller nedgang). Beregningsformlene kan skrives som følger:

Veksthastigheter vis hvor mange prosent det neste nivået i serien er sammenlignet med det forrige (kolonne 7 - kjedeveksthastigheter) eller sammenlignet med startnivået (gr. 8 - grunnleggende veksthastigheter). Beregningsformlene kan skrives som følger:

Så for eksempel i 1997. produksjonsvolum av produkt "A" sammenlignet med 1996 ᴦ. utgjorde 105,5 % (

Vekstrate vis med hvor mange prosent nivået i rapporteringsperioden økte sammenlignet med den forrige (kolonne 9 - kjedeveksthastigheter) eller sammenlignet med initialnivået (kolonne 10 - grunnleggende vekstrater). Beregningsformlene kan skrives som følger:

T pr = T r - 100 % eller T pr = absolutt vekst / nivå for forrige periode * 100 %

Så for eksempel i 1996. sammenlignet med 1995 ᴦ. Produkt "A" ble produsert mer med 3,8 % (103,8 % - 100 %) eller (8:210) x 100 %, og sammenlignet med 1994 ᴦ. - med 9 % (109 % - 100 %).

Hvis de absolutte nivåene i serien synker, vil frekvensen være mindre enn 100%, og følgelig vil det være en reduksjonshastighet (økningshastigheten med et minustegn).

Absolutt verdi på 1 % økning(gr.
Lagt ut på ref.rf
11) viser hvor mange enheter som må produseres i en gitt periode slik at nivået fra forrige periode øker med 1 %. I vårt eksempel, i 1995 ᴦ. det var nødvendig å produsere 2,0 tusen tonn, og i 1998 ᴦ. - 2,3 tusen tonn, ᴛ.ᴇ. mye større.

Den absolutte verdien av 1% vekst kan bestemmes på to måter:

§ nivået for forrige periode delt på 100;

§ kjedens absolutte økning er delt på tilsvarende kjedevekst.

Absolutt verdi på 1 % økning =

I dynamikk, spesielt over en lang periode, er en felles analyse av vekstraten med innholdet i hver prosentvis økning eller reduksjon viktig.

Merk at den vurderte metodikken for å analysere tidsserier er anvendelig både for tidsserier, hvis nivåer er uttrykt i absolutte verdier (t, tusen rubler, antall ansatte, etc.), og for tidsserier, hvis nivåer uttrykkes i relative indikatorer (% av defekter, % askeinnhold i kull, etc.) eller gjennomsnittsverdier (gjennomsnittlig avkastning i c/ha, gjennomsnittlig lønn, etc.).

Sammen med de betraktede analytiske indikatorene, beregnet for hvert år i sammenligning med forrige eller innledende nivå, når du analyserer dynamikkserier, er det ekstremt viktig å beregne gjennomsnittlige analytiske indikatorer for perioden: gjennomsnittsnivået for serien, gjennomsnittlig årlig absolutt økning (reduksjon) og gjennomsnittlig årlig vekstrate og vekstrate .

Metoder for å beregne gjennomsnittsnivået til en serie av dynamikk ble diskutert ovenfor. I intervalldynamikkserien vi vurderer, beregnes gjennomsnittsnivået til serien ved å bruke den enkle aritmetiske gjennomsnittsformelen:

Gjennomsnittlig årlig produksjonsvolum av produktet for 1994-1998. utgjorde 218,4 tusen tonn.

Den gjennomsnittlige årlige absolutte veksten beregnes også ved å bruke den aritmetiske gjennomsnittsformelen

Standardavvik - konsept og typer. Klassifisering og funksjoner i kategorien "Mean square deviation" 2017, 2018.

X i - tilfeldige (gjeldende) variabler;

gjennomsnittsverdien av tilfeldige variabler for utvalget beregnes ved å bruke formelen:

Så, varians er det gjennomsnittlige kvadratet av avvik . Det vil si at gjennomsnittsverdien først beregnes og deretter tas forskjellen mellom hver original- og gjennomsnittsverdi er kvadratisk , legges til og deretter divideres med antall verdier i den gitte populasjonen.

Differansen mellom en individuell verdi og gjennomsnittet gjenspeiler målet på avviket. Den kvadreres slik at alle avvik utelukkende blir positive tall og for å unngå gjensidig ødeleggelse av positive og negative avvik når de summeres. Så, gitt de kvadrerte avvikene, beregner vi ganske enkelt det aritmetiske gjennomsnittet.

Svaret på det magiske ordet "spredning" ligger i bare disse tre ordene: gjennomsnitt - kvadrat - avvik.

Standardavvik (MSD)

Ved å ta kvadratroten av variansen får vi den såkalte " standardavvik". Det er navn "standardavvik" eller "sigma" (fra navnet på den greske bokstaven σ .). Formelen for standardavviket er:

Så, dispersjon er sigma-kvadrat, eller er standardavviket kvadratisk.

Standardavviket karakteriserer selvsagt også målet for dataspredning, men nå (i motsetning til spredning) kan det sammenlignes med de opprinnelige dataene, siden de har samme måleenheter (dette fremgår tydelig av beregningsformelen). Variasjonsområdet er forskjellen mellom ekstreme verdier. Standardavvik, som et mål på usikkerhet, er også involvert i mange statistiske beregninger. Med dens hjelp bestemmes graden av nøyaktighet av ulike estimater og prognoser. Hvis variasjonen er veldig stor, vil også standardavviket være stort, og derfor vil prognosen være unøyaktig, noe som for eksempel vil uttrykkes i svært brede konfidensintervaller.

Derfor, i metoder for statistisk databehandling i eiendomsvurderinger, avhengig av den nødvendige nøyaktigheten av oppgaven, brukes to eller tre sigma-regelen.

For å sammenligne to-sigma-regelen og tre-sigma-regelen bruker vi Laplaces formel:

F - F ,

hvor Ф(x) er Laplace-funksjonen;



Minimumsverdi

β = maksimal verdi

s = sigmaverdi (standardavvik)

a = gjennomsnitt

I dette tilfellet brukes en spesiell form for Laplaces formel når grensene α og β for verdiene til den tilfeldige variabelen X er like fordelt fra sentrum av fordelingen a = M(X) med en viss verdi d: a = a-d, b = a+d. Eller (1) Formel (1) bestemmer sannsynligheten for et gitt avvik d for en tilfeldig variabel X med en normalfordelingslov fra dens matematiske forventning M(X) = a. Hvis vi i formel (1) tar sekvensielt d = 2s og d = 3s, får vi: (2), (3).

To sigma regel

Det kan være nesten pålitelig (med en konfidenssannsynlighet på 0,954) at alle verdier av en tilfeldig variabel X med en normalfordelingslov avviker fra dens matematiske forventning M(X) = a med et beløp som ikke er større enn 2s (to standardavvik ). Konfidenssannsynlighet (Pd) er sannsynligheten for hendelser som er konvensjonelt akseptert som pålitelige (deres sannsynlighet er nær 1).

La oss illustrere to-sigma-regelen geometrisk. I fig. Figur 6 viser en gaussisk kurve med distribusjonssenteret a. Arealet begrenset av hele kurven og okseaksen er lik 1 (100%), og arealet til den krumlinjede trapesen mellom abscissene a–2s og a+2s, i henhold til to-sigma-regelen, er lik. til 0,954 (95,4 % av det totale arealet). Arealet av de skraverte områdene er 1-0,954 = 0,046 (»5 % av det totale arealet). Disse områdene kalles den kritiske regionen til den tilfeldige variabelen. Verdier av en tilfeldig variabel som faller inn i det kritiske området er usannsynlig og er i praksis konvensjonelt akseptert som umulig.

Sannsynligheten for betinget umulige verdier kalles signifikansnivået til en tilfeldig variabel. Signifikansnivået er relatert til konfidenssannsynligheten ved formelen:

hvor q er signifikansnivået uttrykt i prosent.

Tre sigma regel

Ved løsning av problemer som krever større pålitelighet, når konfidenssannsynligheten (Pd) tas lik 0,997 (nærmere presist, 0,9973), i stedet for to-sigma-regelen, i henhold til formel (3), brukes regelen tre sigma



I følge tre sigma regel med en konfidenssannsynlighet på 0,9973, vil det kritiske området være området med attributtverdier utenfor intervallet (a-3s, a+3s). Signifikansnivået er 0,27 %.

Sannsynligheten for at den absolutte verdien av avviket vil overstige tre ganger standardavviket er med andre ord svært liten, nemlig 0,0027 = 1-0,9973. Dette betyr at kun 0,27 % av tilfellene vil skje. Slike hendelser, basert på prinsippet om umuligheten av usannsynlige hendelser, kan anses som praktisk umulig. De. prøvetakingen er svært nøyaktig.

Dette er essensen av tre sigma-regelen:

Hvis en tilfeldig variabel er normalfordelt, overstiger ikke den absolutte verdien av dens avvik fra den matematiske forventningen tre ganger standardavviket (MSD).

I praksis brukes tre-sigma-regelen som følger: hvis fordelingen av den stokastiske variabelen som studeres er ukjent, men betingelsen spesifisert i regelen ovenfor er oppfylt, er det grunn til å anta at variabelen som studeres er normalfordelt ; ellers er den ikke normalfordelt.

Nivået av betydning tas avhengig av tillatt grad av risiko og oppgaven. For eiendomsvurdering brukes vanligvis en mindre presis prøve, etter to-sigma-regelen.