Hvordan bestemme standardavviket for 2 enheter. Beregning av spredning, root mean square (standard) avvik, variasjonskoeffisient i Excel

Å gjennomføre noen statistisk analyse er utenkelig uten beregninger. I denne artikkelen skal vi se på hvordan man beregner varians, standardavvik, variasjonskoeffisient og andre statistiske indikatorer i Excel.

Maksimum og minimum verdi

Gjennomsnittlig lineært avvik

Det gjennomsnittlige lineære avviket er gjennomsnittet av de absolutte (modulo) avvikene fra i det analyserte datasettet. Den matematiske formelen er:

en- gjennomsnittlig lineært avvik,

X– analysert indikator,

– gjennomsnittsverdien av indikatoren,

n

I Excel kalles denne funksjonen SROTCL.

Etter å ha valgt SROTCL-funksjonen, angir vi dataområdet som beregningen skal foregå over. Klikk "OK".

Spredning

(modul 111)

Kanskje ikke alle vet hva, så jeg skal forklare, det er et mål som karakteriserer spredningen av data rundt den matematiske forventningen. Imidlertid er vanligvis bare et utvalg tilgjengelig, så følgende variansformel brukes:

s 2– utvalgsvarians beregnet fra observasjonsdata,

X– individuelle verdier,

– aritmetisk gjennomsnitt for prøven,

n– antall verdier i det analyserte datasettet.

Den tilsvarende Excel-funksjonen er DISP.G. Når du analyserer relativt små prøver (opptil ca. 30 observasjoner), bør du bruke , som beregnes ved hjelp av følgende formel.

Forskjellen, som du kan se, er bare i nevneren. Excel har en funksjon for å beregne upartisk varians i prøven DISP.B.

Velg ønsket alternativ (generelt eller selektivt), angi området og klikk på "OK"-knappen. Den resulterende verdien kan være svært stor på grunn av den foreløpige kvadreringen av avvikene. Spredning i statistikk er en veldig viktig indikator, men den brukes vanligvis ikke i sin rene form, men for videre beregninger.

Standardavvik

Standardavviket (RMS) er roten til variansen. Denne indikatoren kalles også standardavvik og beregnes ved hjelp av formelen:

av befolkningen generelt

etter prøve

Du kan ganske enkelt ta roten til variansen, men Excel har ferdige funksjoner for standardavvik: STDEV.G Og STDEV.V(for henholdsvis den generelle og utvalgspopulasjonen).

Standard og standardavvik, jeg gjentar, er synonymer.

Deretter, som vanlig, angi ønsket område og klikk på "OK". Standardavviket har samme måleenheter som den analyserte indikatoren, og er derfor sammenlignbar med originaldata. Mer om dette nedenfor.

Variasjonskoeffisienten

Alle indikatorer diskutert ovenfor er knyttet til skalaen til kildedataene og lar en ikke få en figurativ idé om variasjonen i den analyserte befolkningen. For å få et relativt mål på dataspredning, bruk variasjonskoeffisienten, som beregnes ved å dele standardavvikgjennomsnitt. Formelen for variasjonskoeffisienten er enkel:

Det finnes ingen ferdig funksjon for å beregne variasjonskoeffisienten i Excel, noe som ikke er et stort problem. Beregningen kan gjøres ved ganske enkelt å dele standardavviket med gjennomsnittet. For å gjøre dette, skriv i formellinjen:

STANDARDEV.G()/AVERAGE()

Dataområdet er angitt i parentes. Om nødvendig, bruk prøvestandardavviket (STDEV.V).

Variasjonskoeffisienten uttrykkes vanligvis som en prosentandel, så du kan ramme en celle med en formel i et prosentformat. Den nødvendige knappen er plassert på båndet på "Hjem"-fanen:

Du kan også endre formatet ved å velge fra kontekstmenyen etter å ha uthevet ønsket celle og høyreklikk.

Variasjonskoeffisienten, i motsetning til andre indikatorer for spredning av verdier, brukes som en uavhengig og svært informativ indikator på datavariasjon. I statistikk er det generelt akseptert at hvis variasjonskoeffisienten er mindre enn 33%, så er datasettet homogent, hvis mer enn 33%, så er det heterogent. Denne informasjonen kan være nyttig for foreløpig karakterisering av dataene og for å identifisere muligheter for videre analyse. I tillegg lar variasjonskoeffisienten, målt i prosent, deg sammenligne graden av spredning av forskjellige data, uavhengig av deres skala og måleenheter. Nyttig eiendom.

Oscillasjonskoeffisient

En annen indikator på dataspredning i dag er oscillasjonskoeffisienten. Dette er forholdet mellom variasjonsområdet (forskjellen mellom maksimums- og minimumsverdiene) og gjennomsnittet. Det er ingen ferdiglaget Excel-formel, så du må kombinere tre funksjoner: MAX, MIN, AVERAGE.

Oscillasjonskoeffisienten viser omfanget av variasjonen i forhold til gjennomsnittet, som også kan brukes til å sammenligne ulike datasett.

Generelt, ved å bruke Excel, beregnes mange statistiske indikatorer veldig enkelt. Hvis noe ikke er klart, kan du alltid bruke søkeboksen i funksjonsinnsatsen. Vel, Google er her for å hjelpe.

Bruksanvisning

La det være flere tall som karakteriserer homogene mengder. For eksempel resultater av målinger, veiinger, statistiske observasjoner, etc. Alle presenterte mengder skal måles med samme måling. For å finne standardavviket, gjør følgende:

Bestem det aritmetiske gjennomsnittet av alle tall: legg sammen alle tallene og del summen på det totale antallet tall.

Bestem spredningen (spredningen) av tall: legg til kvadratene til de tidligere funnet avvikene og del den resulterende summen med antall tall.

Det er sju pasienter på avdelingen med temperaturer på 34, 35, 36, 37, 38, 39 og 40 grader Celsius.

Det er nødvendig å bestemme gjennomsnittlig avvik fra gjennomsnittet.
Løsning:
«i avdelingen»: (34+35+36+37+38+39+40)/7=37 ºС;

Temperaturavvik fra gjennomsnittet (i dette tilfellet normalverdien): 34-37, 35-37, 36-37, 37-37, 38-37, 39-37, 40-37, noe som resulterer i: -3, - 2, -1, 0, 1, 2, 3 (ºС);

Del summen av tall oppnådd tidligere med tallet deres. For nøyaktige beregninger er det bedre å bruke en kalkulator. Resultatet av divisjon er det aritmetiske gjennomsnittet av tallene lagt til.

Vær oppmerksom på alle stadier av beregningen, siden en feil i selv en av beregningene vil føre til en feil endelig indikator. Sjekk beregningene dine på hvert trinn. Det aritmetiske gjennomsnittet har samme måler som de summerte tallene, det vil si at hvis du bestemmer gjennomsnittlig oppmøte, vil alle indikatorene dine være "person".

Denne beregningsmetoden brukes kun i matematiske og statistiske beregninger. For eksempel har det aritmetiske gjennomsnittet i informatikk en annen beregningsalgoritme. Det aritmetiske gjennomsnittet er en veldig relativ indikator. Den viser sannsynligheten for en hendelse, forutsatt at den bare har én faktor eller indikator. For den mest dyptgående analysen må mange faktorer tas i betraktning. Til dette formål brukes beregning av mer generelle mengder.

Det aritmetiske gjennomsnittet er et av målene for sentral tendens, mye brukt i matematikk og statistiske beregninger. Å finne det aritmetiske gjennomsnittet for flere verdier er veldig enkelt, men hver oppgave har sine egne nyanser, som ganske enkelt er nødvendige å vite for å utføre korrekte beregninger.

Kvantitative resultater av lignende eksperimenter.

Hvordan finne det aritmetiske gjennomsnittet

Å finne det aritmetiske gjennomsnittet for en rekke tall bør begynne med å bestemme den algebraiske summen av disse verdiene. For eksempel, hvis matrisen inneholder tallene 23, 43, 10, 74 og 34, vil deres algebraiske sum være lik 184. Når du skriver, er det aritmetiske gjennomsnittet angitt med bokstaven μ (mu) eller x (x med en bar). Deretter skal den algebraiske summen deles på antall tall i matrisen. I eksemplet under vurdering var det fem tall, så det aritmetiske gjennomsnittet vil være lik 184/5 og vil være 36,8.

Funksjoner ved å jobbe med negative tall

Hvis matrisen inneholder negative tall, blir det aritmetiske gjennomsnittet funnet ved å bruke en lignende algoritme. Forskjellen eksisterer kun ved beregning i programmeringsmiljøet, eller hvis problemet har tilleggsbetingelser. I disse tilfellene kommer det ned til tre trinn å finne det aritmetiske gjennomsnittet av tall med forskjellige fortegn:

1. Finne det generelle aritmetiske gjennomsnittet ved å bruke standardmetoden;
2. Finne det aritmetiske gjennomsnittet av negative tall.
3. Beregning av det aritmetiske gjennomsnittet av positive tall.

Svarene for hver handling er skrevet atskilt med komma.

Naturlige og desimalbrøker

Hvis en rekke tall er representert med desimalbrøker, utføres løsningen ved å bruke metoden for å beregne det aritmetiske gjennomsnittet av heltall, men resultatet reduseres i henhold til oppgavens krav til nøyaktigheten av svaret.

Når du arbeider med naturlige brøker, bør de reduseres til en fellesnevner, som multipliseres med antall tall i matrisen. Telleren til svaret vil være summen av de gitte tellerne av de opprinnelige brøkelementene.

Ved statistisk testing av hypoteser, ved måling av en lineær sammenheng mellom tilfeldige variabler.

Standardavvik:

Standardavvik(estimat av standardavviket til den tilfeldige variabelen Gulv, veggene rundt oss og taket, x i forhold til dens matematiske forventning basert på et objektivt estimat av variansen):

hvor er spredningen; - Gulvet, veggene rundt oss og taket, Jeg elementet i utvalget; - prøvestørrelse; - aritmetisk gjennomsnitt av prøven:

Det skal bemerkes at begge estimatene er partiske. I det generelle tilfellet er det umulig å konstruere et objektivt estimat. Imidlertid er estimatet basert på det objektive variansestimatet konsistent.

Tre sigma regel

Tre sigma regel() - nesten alle verdier av en normalfordelt tilfeldig variabel ligger i intervallet. Mer strengt - med ikke mindre enn 99,7 % konfidens, ligger verdien av en normalfordelt tilfeldig variabel i det angitte intervallet (forutsatt at verdien er sann og ikke oppnådd som et resultat av prøvebehandling).

Hvis den sanne verdien er ukjent, bør vi ikke bruke, men gulvet, veggene rundt oss og taket, s. Dermed blir regelen om tre sigma forvandlet til regelen om tre etasjer, vegger rundt oss og taket, s .

Tolkning av standardavviksverdien

En stor verdi av standardavviket viser en stor spredning av verdier i det presenterte settet med gjennomsnittsverdien til settet; En liten verdi viser følgelig at verdiene i settet er gruppert rundt den midterste verdien.

For eksempel har vi tre tallsett: (0, 0, 14, 14), (0, 6, 8, 14) og (6, 6, 8, 8). Alle tre settene har middelverdier lik 7, og standardavvik, henholdsvis 7, 5 og 1. Det siste settet har et lite standardavvik, siden verdiene i settet er gruppert rundt middelverdien; det første settet har den største standardavviksverdien - verdiene innenfor settet avviker sterkt fra gjennomsnittsverdien.

I generell forstand kan standardavvik betraktes som et mål på usikkerhet. For eksempel, i fysikk, brukes standardavvik for å bestemme feilen til en serie påfølgende målinger av en viss mengde. Denne verdien er svært viktig for å bestemme plausibiliteten til fenomenet som studeres sammenlignet med verdien forutsagt av teorien: hvis gjennomsnittsverdien av målingene avviker sterkt fra verdiene forutsagt av teorien (stort standardavvik), Deretter bør de oppnådde verdiene eller metoden for å oppnå dem kontrolleres på nytt.

Praktisk bruk

I praksis lar standardavvik deg bestemme hvor mye verdiene i et sett kan avvike fra gjennomsnittsverdien.

Klima

Anta at det er to byer med samme gjennomsnittlige maksimale døgntemperatur, men den ene ligger ved kysten og den andre er i innlandet. Det er kjent at byer som ligger ved kysten har mange forskjellige maksimale dagtemperaturer som er lavere enn byer som ligger i innlandet. Derfor vil standardavviket for de maksimale døgntemperaturene for en kystby være mindre enn for den andre byen, til tross for at gjennomsnittsverdien på denne verdien er den samme, noe som i praksis betyr at sannsynligheten for at den maksimale lufttemperaturen på en gitt dag i året vil være høyere forskjellig fra gjennomsnittsverdien, høyere for en by som ligger inne på kontinentet.

Sport

La oss anta at det er flere fotballag som er rangert på et sett med parametere, for eksempel antall mål scoret og sluppet inn, scoringssjanser osv. Det er mest sannsynlig at det beste laget i denne gruppen vil ha bedre verdier på flere parametere. Jo mindre teamets standardavvik for hver av de presenterte parameterne, jo mer forutsigbart er teamets resultat balansert. På den annen side er et lag med stort standardavvik vanskelig å forutsi resultatet, noe som igjen forklares med en ubalanse, for eksempel et sterkt forsvar men et svakt angrep.

Bruk av standardavviket til lagparametere gjør det mulig, i en eller annen grad, å forutsi resultatet av en kamp mellom to lag, vurdere styrker og svakheter til lagene, og derfor de valgte kampmetodene.

Teknisk analyse

se også

Litteratur

* Borovikov, V. STATISTIKA. Kunsten å analysere data på en datamaskin: For fagfolk / V. Borovikov. - St. Petersburg. : Peter, 2003. - 688 s. - ISBN 5-272-00078-1.

Ved statistisk testing av hypoteser, ved måling av en lineær sammenheng mellom tilfeldige variabler.

Standardavvik:

Standardavvik(estimat av standardavviket til den tilfeldige variabelen Gulv, veggene rundt oss og taket, x i forhold til dens matematiske forventning basert på et objektivt estimat av variansen):

hvor er spredningen; - Gulvet, veggene rundt oss og taket, Jeg elementet i utvalget; - prøvestørrelse; - aritmetisk gjennomsnitt av prøven:

Det skal bemerkes at begge estimatene er partiske. I det generelle tilfellet er det umulig å konstruere et objektivt estimat. Imidlertid er estimatet basert på det objektive variansestimatet konsistent.

Tre sigma regel

Tre sigma regel() - nesten alle verdier av en normalfordelt tilfeldig variabel ligger i intervallet. Mer strengt - med ikke mindre enn 99,7 % konfidens, ligger verdien av en normalfordelt tilfeldig variabel i det angitte intervallet (forutsatt at verdien er sann og ikke oppnådd som et resultat av prøvebehandling).

Hvis den sanne verdien er ukjent, bør vi ikke bruke, men gulvet, veggene rundt oss og taket, s. Dermed blir regelen om tre sigma forvandlet til regelen om tre etasjer, vegger rundt oss og taket, s .

Tolkning av standardavviksverdien

En stor verdi av standardavviket viser en stor spredning av verdier i det presenterte settet med gjennomsnittsverdien til settet; En liten verdi viser følgelig at verdiene i settet er gruppert rundt den midterste verdien.

For eksempel har vi tre tallsett: (0, 0, 14, 14), (0, 6, 8, 14) og (6, 6, 8, 8). Alle tre settene har middelverdier lik 7, og standardavvik, henholdsvis 7, 5 og 1. Det siste settet har et lite standardavvik, siden verdiene i settet er gruppert rundt middelverdien; det første settet har den største standardavviksverdien - verdiene innenfor settet avviker sterkt fra gjennomsnittsverdien.

I generell forstand kan standardavvik betraktes som et mål på usikkerhet. For eksempel, i fysikk, brukes standardavvik for å bestemme feilen til en serie påfølgende målinger av en viss mengde. Denne verdien er svært viktig for å bestemme plausibiliteten til fenomenet som studeres sammenlignet med verdien forutsagt av teorien: hvis gjennomsnittsverdien av målingene avviker sterkt fra verdiene forutsagt av teorien (stort standardavvik), Deretter bør de oppnådde verdiene eller metoden for å oppnå dem kontrolleres på nytt.

Praktisk bruk

I praksis lar standardavvik deg bestemme hvor mye verdiene i et sett kan avvike fra gjennomsnittsverdien.

Klima

Anta at det er to byer med samme gjennomsnittlige maksimale døgntemperatur, men den ene ligger ved kysten og den andre er i innlandet. Det er kjent at byer som ligger ved kysten har mange forskjellige maksimale dagtemperaturer som er lavere enn byer som ligger i innlandet. Derfor vil standardavviket for de maksimale døgntemperaturene for en kystby være mindre enn for den andre byen, til tross for at gjennomsnittsverdien på denne verdien er den samme, noe som i praksis betyr at sannsynligheten for at den maksimale lufttemperaturen på en gitt dag i året vil være høyere forskjellig fra gjennomsnittsverdien, høyere for en by som ligger inne på kontinentet.

Sport

La oss anta at det er flere fotballag som er rangert på et sett med parametere, for eksempel antall mål scoret og sluppet inn, scoringssjanser osv. Det er mest sannsynlig at det beste laget i denne gruppen vil ha bedre verdier på flere parametere. Jo mindre teamets standardavvik for hver av de presenterte parameterne, jo mer forutsigbart er teamets resultat balansert. På den annen side er et lag med stort standardavvik vanskelig å forutsi resultatet, noe som igjen forklares med en ubalanse, for eksempel et sterkt forsvar men et svakt angrep.

Bruk av standardavviket til lagparametere gjør det mulig, i en eller annen grad, å forutsi resultatet av en kamp mellom to lag, vurdere styrker og svakheter til lagene, og derfor de valgte kampmetodene.

Teknisk analyse

se også

Litteratur

* Borovikov, V. STATISTIKA. Kunsten å analysere data på en datamaskin: For fagfolk / V. Borovikov. - St. Petersburg. : Peter, 2003. - 688 s. - ISBN 5-272-00078-1.

Standardavvik(synonymer: standardavvik, standardavvik, kvadratavvik; relaterte termer: standardavvik, standard oppslag) - i sannsynlighetsteori og statistikk, den vanligste indikatoren på spredningen av verdiene til en tilfeldig variabel i forhold til dens matematiske forventning. Med begrensede arrays av utvalg av verdier, i stedet for den matematiske forventningen, brukes det aritmetiske gjennomsnittet av settet med samples.

Encyklopedisk YouTube

  • 1 / 5

    Standardavviket måles i måleenheter for selve den tilfeldige variabelen og brukes ved beregning av standardfeilen til det aritmetiske gjennomsnittet, ved konstruksjon av konfidensintervaller, ved statistisk testing av hypoteser, ved måling av det lineære forholdet mellom tilfeldige variabler. Definert som kvadratroten av variansen til en tilfeldig variabel.

    Standardavvik:

    s = n n − 1 σ 2 = 1 n − 1 ∑ i = 1 n (xi − x ¯) 2; (\displaystyle s=(\sqrt ((\frac (n)(n-1))\sigma ^(2)))=(\sqrt ((\frac (1)(n-1))\sum _( i=1)^(n)\venstre(x_(i)-(\bar (x))\høyre)^(2)));)
    • Merk: Svært ofte er det avvik i navnene på MSD (Root Mean Square Deviation) og STD (Standard Deviation) med deres formler. For eksempel, i numPy-modulen til programmeringsspråket Python, beskrives std()-funksjonen som "standardavvik", mens formelen gjenspeiler standardavviket (divisjon med roten av prøven). I Excel er funksjonen STANDARDEVAL() annerledes (divisjon med roten av n-1).

    Standardavvik(estimat av standardavviket til en tilfeldig variabel x i forhold til dens matematiske forventning basert på et objektivt estimat av variansen) s (\displaystyle s):

    σ = 1 n ∑ i = 1 n (xi − x ¯) 2 . (\displaystyle \sigma =(\sqrt ((\frac (1)(n))\sum _(i=1)^(n)\venstre(x_(i)-(\bar (x))\høyre) ^(2))).)

    Hvor σ 2 (\displaystyle \sigma ^(2))- spredning; x i (\displaystyle x_(i)) - Jeg elementet i utvalget; n (\displaystyle n)- prøvestørrelse; - aritmetisk gjennomsnitt av prøven:

    x ¯ = 1 n ∑ i = 1 n x i = 1 n (x 1 + … + x n) . (\displaystyle (\bar (x))=(\frac (1)(n))\sum _(i=1)^(n)x_(i)=(\frac (1)(n))(x_ (1)+\ldots +x_(n)).)

    Det skal bemerkes at begge estimatene er partiske. I det generelle tilfellet er det umulig å konstruere et objektivt estimat. Imidlertid er estimatet basert på det objektive variansestimatet konsistent.

    I samsvar med GOST R 8.736-2011 beregnes standardavviket ved å bruke den andre formelen i denne delen. Vennligst sjekk resultatene.

    Tre sigma regel

    Tre sigma regel (3 σ (\displaystyle 3\sigma )) - nesten alle verdier av en normalfordelt tilfeldig variabel ligger i intervallet (x ¯ − 3 σ ; x ¯ + 3 σ) (\displaystyle \left((\bar (x))-3\sigma ;(\bar (x))+3\sigma \right)). Mer strengt - med omtrentlig sannsynlighet 0,9973, ligger verdien av en normalfordelt tilfeldig variabel i det angitte intervallet (forutsatt at verdien x ¯ (\displaystyle (\bar (x))) sann, og ikke oppnådd som et resultat av prøvebehandling).

    Hvis den sanne verdien x ¯ (\displaystyle (\bar (x))) er ukjent, bør du ikke bruke σ (\displaystyle \sigma ), A s. Dermed blir regelen om tre sigma forvandlet til regelen om tre s .

    Tolkning av standardavviksverdien

    En større standardavviksverdi viser en større spredning av verdier i det presenterte settet med gjennomsnittsverdien til settet; en mindre verdi viser følgelig at verdiene i settet er gruppert rundt gjennomsnittsverdien.

    For eksempel har vi tre tallsett: (0, 0, 14, 14), (0, 6, 8, 14) og (6, 6, 8, 8). Alle tre settene har middelverdier lik 7, og standardavvik, henholdsvis 7, 5 og 1. Det siste settet har et lite standardavvik, siden verdiene i settet er gruppert rundt middelverdien; det første settet har den største standardavviksverdien - verdiene innenfor settet avviker sterkt fra gjennomsnittsverdien.

    I generell forstand kan standardavvik betraktes som et mål på usikkerhet. For eksempel, i fysikk, brukes standardavvik for å bestemme feilen til en serie påfølgende målinger av en viss mengde. Denne verdien er svært viktig for å bestemme plausibiliteten til fenomenet som studeres sammenlignet med verdien forutsagt av teorien: hvis gjennomsnittsverdien av målingene avviker sterkt fra verdiene forutsagt av teorien (stort standardavvik), Deretter bør de oppnådde verdiene eller metoden for å oppnå dem kontrolleres på nytt. er identifisert med porteføljerisiko.

    Klima

    Anta at det er to byer med samme gjennomsnittlige maksimale døgntemperatur, men den ene ligger på kysten og den andre på sletten. Det er kjent at byer som ligger ved kysten har mange forskjellige maksimale dagtemperaturer som er lavere enn byer som ligger i innlandet. Derfor vil standardavviket for de maksimale døgntemperaturene for en kystby være mindre enn for den andre byen, til tross for at gjennomsnittsverdien på denne verdien er den samme, noe som i praksis betyr at sannsynligheten for at den maksimale lufttemperaturen på en gitt dag i året vil være høyere forskjellig fra gjennomsnittsverdien, høyere for en by som ligger inne på kontinentet.

    Sport

    La oss anta at det er flere fotballag som er rangert på et sett med parametere, for eksempel antall mål scoret og sluppet inn, scoringssjanser osv. Det er mest sannsynlig at det beste laget i denne gruppen vil ha bedre verdier på flere parametere. Jo mindre teamets standardavvik for hver av de presenterte parameterne, jo mer forutsigbart er teamets resultat balansert. På den annen side er et lag med stort standardavvik vanskelig å forutsi resultatet, noe som igjen forklares med en ubalanse, for eksempel et sterkt forsvar men et svakt angrep.

    Bruk av standardavviket til lagparametere gjør det mulig, i en eller annen grad, å forutsi resultatet av en kamp mellom to lag, vurdere styrker og svakheter til lagene, og derfor de valgte kampmetodene.