Formel for standardavvik. Gjennomsnittlig lineært avvik

Forventning og variasjon

La oss måle en tilfeldig variabel N ganger måler vi for eksempel vindhastigheten ti ganger og ønsker å finne gjennomsnittsverdien. Hvordan er gjennomsnittsverdien knyttet til fordelingsfunksjonen?

Vi skal kaste terningen et stort antall ganger. Antall poeng som vil vises på terningene ved hvert kast er en tilfeldig variabel og kan ta en hvilken som helst naturverdi fra 1 til 6. Det aritmetiske gjennomsnittet av de tapte poengene beregnet for alle terningkast er også en tilfeldig variabel, men for store N det har en tendens til et veldig spesifikt tall - matematisk forventning Mx. I dette tilfellet Mx = 3,5.

Hvordan fikk du denne verdien? Slipp inn N tester, når du får 1 poeng, når du får 2 poeng, og så videre. Da når N→ ∞ antall utfall der ett poeng ble kastet, tilsvarende, derfor

Modell 4.5. Terning

La oss nå anta at vi kjenner fordelingsloven til den stokastiske variabelen x, det vil si at vi vet at den tilfeldige variabelen x kan ta verdier x 1 , x 2 , ..., x k med sannsynligheter s 1 , s 2 , ..., p k.

Forventet verdi Mx tilfeldig variabel x er lik:

Svar. 2,8.

Den matematiske forventningen er ikke alltid et rimelig anslag på en tilfeldig variabel. Så, for å estimere gjennomsnittslønnen, er det mer rimelig å bruke begrepet median, det vil si en slik verdi at antallet personer som mottar en lønn lavere enn medianen og en høyere faller sammen.

Median tilfeldig variabel kalles et tall x 1/2 er slik at s (x < x 1/2) = 1/2.

Med andre ord, sannsynligheten s 1 at den tilfeldige variabelen x vil være mindre x 1/2, og sannsynlighet s 2 at den tilfeldige variabelen x vil være større x 1/2 er identiske og lik 1/2. Medianen er ikke entydig bestemt for alle distribusjoner.

La oss gå tilbake til den tilfeldige variabelen x, som kan ta verdier x 1 , x 2 , ..., x k med sannsynligheter s 1 , s 2 , ..., p k.

Forskjell tilfeldig variabel x Gjennomsnittsverdien av det kvadrerte avviket til en tilfeldig variabel fra dens matematiske forventning kalles:

Eksempel 2

Beregn variansen og standardavviket til den tilfeldige variabelen under betingelsene i forrige eksempel x.

Svar. 0,16, 0,4.

Modell 4.6. Skyting mot et mål

Eksempel 3

Finn sannsynlighetsfordelingen av antall poeng oppnådd ved første terningkast, medianen, den matematiske forventningen, variansen og standardavviket.

Enhver kant er like sannsynlig å falle ut, så fordelingen vil se slik ut:

Standardavvik Det kan ses at verdiens avvik fra gjennomsnittsverdien er svært stort.

Egenskaper for matematisk forventning:

  • Den matematiske forventningen til summen av uavhengige tilfeldige variabler er lik summen av deres matematiske forventninger:

Eksempel 4

Finn den matematiske forventningen til summen og produktet av poeng kastet på to terninger.

I eksempel 3 fant vi det for en kube M (x) = 3,5. Så for to kuber

Dispersjonsegenskaper:

  • Variansen av summen av uavhengige tilfeldige variabler er lik summen av variansene:

Dx + y = Dx + Dy.

La for N kaster på terningene y poeng. Deretter

Dette resultatet gjelder ikke bare for terningkast. I mange tilfeller bestemmer det nøyaktigheten av å måle den matematiske forventningen empirisk. Det kan sees at med økende antall målinger N Spredningen av verdier rundt gjennomsnittet, det vil si standardavviket, avtar proporsjonalt

Variansen til en tilfeldig variabel er relatert til den matematiske forventningen til kvadratet til denne tilfeldige variabelen ved følgende relasjon:

La oss finne de matematiske forventningene til begge sider av denne likheten. A-priory,

Den matematiske forventningen til høyre side av likheten, i henhold til egenskapen til matematiske forventninger, er lik

Standardavvik

Standardavvik lik kvadratroten av variansen:
Ved bestemmelse av standardavviket for et tilstrekkelig stort volum av populasjonen som studeres (n > 30), brukes følgende formler:

Relatert informasjon.


Spredning. Standardavvik

Spredning er det aritmetiske gjennomsnittet av kvadrerte avvik for hver attributtverdi fra det totale gjennomsnittet. Avhengig av kildedataene kan variansen være uvektet (enkel) eller vektet.

Variansen beregnes ved å bruke følgende formler:

· for ugrupperte data

· for grupperte data

Fremgangsmåten for å beregne den vektede variansen:

1. Bestem det aritmetiske vektede gjennomsnittet

2. Variantens avvik fra gjennomsnittet bestemmes

3. kvadrat avviket for hvert alternativ fra gjennomsnittet

4. multipliser kvadratene av avvik med vekter (frekvenser)

5. oppsummere de resulterende produktene

6. den resulterende mengden deles på summen av skalaene

Formelen for å bestemme variansen kan konverteres til følgende formel:

– enkelt

Prosedyren for å beregne varians er enkel:

1. Bestem det aritmetiske gjennomsnittet

2. kvadrat det aritmetiske gjennomsnittet

3. kvadrat hvert alternativ i raden

4. finn summen av kvadrater alternativet

5. del summen av kvadrater på antallet deres, dvs. bestem gjennomsnittskvadratet

6. bestem differansen mellom middelkvadrat for karakteristikken og kvadratet av gjennomsnittet

Formelen for å bestemme den vektede variansen kan også konverteres til følgende formel:

de. spredningen er lik forskjellen mellom gjennomsnittet av kvadrerte verdier av attributtet og kvadratet av det aritmetiske gjennomsnittet. Når du bruker den transformerte formelen, elimineres tilleggsprosedyren for å beregne avvik for individuelle verdier av en karakteristikk fra x, og feilen i beregningen knyttet til avrunding av avvik elimineres

Dispersjon har en rekke egenskaper, hvorav noen gjør det lettere å beregne:

1) variansen til en konstant verdi er null;

2) hvis alle varianter av attributtverdier reduseres med samme tall, vil ikke variansen reduseres;

3) hvis alle varianter av attributtverdier reduseres med samme antall ganger (fold), så vil variansen reduseres med en faktor

Standardavvik- representerer kvadratroten av variansen:

· for ugrupperte data:

;

· for variantserien:

Variasjonsområdet, lineært gjennomsnitt og standardavvik er navngitte mengder. De har samme måleenheter som de individuelle karakteristiske verdiene.

Varians og standardavvik er de mest brukte målene for variasjon. Dette forklares med det faktum at de er inkludert i de fleste teoremer av sannsynlighetsteori, som fungerer som grunnlaget for matematisk statistikk. I tillegg kan variansen dekomponeres i dens komponentelementer, slik at man kan evaluere påvirkningen av ulike faktorer som bestemmer variasjonen til en egenskap.

Beregningen av variasjonsindikatorer for banker gruppert etter resultatmargin er vist i tabellen.

Fortjenestebeløp, millioner rubler. Antall banker beregnede indikatorer
3,7 - 4,6 (-) 4,15 8,30 -1,935 3,870 7,489
4,6 - 5,5 5,05 20,20 - 1,035 4,140 4,285
5,5 - 6,4 5,95 35,70 - 0,135 0,810 0,109
6,4 - 7,3 6,85 34,25 +0,765 3,825 2,926
7,3 - 8,2 7,75 23,25 +1,665 4,995 8,317
Total: 121,70 17,640 23,126

Gjennomsnittlig lineært og standardavvik viser hvor mye verdien av en egenskap varierer i gjennomsnitt mellom enheter og populasjonen som studeres. Så i dette tilfellet er den gjennomsnittlige svingningen i overskuddet: i henhold til gjennomsnittlig lineært avvik, 0,882 millioner rubler; med standardavvik - 1,075 millioner rubler. Standardavviket er alltid større enn det gjennomsnittlige lineære avviket. Hvis fordelingen av karakteristikken er nær normalen, er det en sammenheng mellom S og d: S=1,25d, eller d=0,8S. Standardavviket viser hvordan hoveddelen av befolkningsenhetene er lokalisert i forhold til det aritmetiske gjennomsnittet. Uavhengig av formen på fordelingen faller 75 verdier av attributtet inn i intervallet x 2S, og minst 89 av alle verdier faller inn i intervallet x 3S (P.L. Chebyshevs teorem).

Excel-programmet er høyt verdsatt av både profesjonelle og amatører, fordi brukere på alle ferdighetsnivåer kan jobbe med det. For eksempel kan alle med minimale "kommunikasjonsferdigheter" i Excel tegne en enkel graf, lage en anstendig plate, etc.

Samtidig lar dette programmet deg til og med utføre ulike typer beregninger, for eksempel beregninger, men dette krever et litt annet treningsnivå. Men hvis du nettopp har begynt å bli nært kjent med dette programmet og er interessert i alt som vil hjelpe deg å bli en mer avansert bruker, er denne artikkelen for deg. I dag vil jeg fortelle deg hva standardavviksformelen i Excel er, hvorfor den i det hele tatt er nødvendig og strengt tatt når den brukes. Gå!

Hva det er

La oss starte med teorien. Standardavviket kalles vanligvis kvadratroten hentet fra det aritmetiske gjennomsnittet av alle kvadratiske forskjeller mellom de tilgjengelige verdiene, samt deres aritmetiske gjennomsnitt. Forresten, denne verdien kalles vanligvis den greske bokstaven "sigma". Standardavviket beregnes ved å bruke STANDARDEVAL-formelen, og programmet gjør dette for brukeren selv.

Essensen av dette konseptet er å identifisere graden av variasjon til et instrument, det vil si at det på sin egen måte er en indikator avledet fra beskrivende statistikk. Den identifiserer endringer i volatiliteten til et instrument over en hvilken som helst tidsperiode. STDEV-formlene kan brukes til å estimere standardavviket til en prøve, og ignorerer boolske verdier og tekstverdier.

Formel

Formelen som automatisk oppgis i Excel hjelper til med å beregne standardavviket i Excel. For å finne den må du finne formeldelen i Excel, og deretter velge den som heter STANDARDEVAL, så det er veldig enkelt.

Etter dette vil et vindu dukke opp foran deg der du må legge inn data for beregningen. Spesielt bør to tall legges inn i spesialfelt, hvoretter programmet selv vil beregne standardavviket for prøven.

Matematiske formler og beregninger er utvilsomt et ganske komplekst problem, og ikke alle brukere kan takle det med en gang. Men graver man litt dypere og ser litt mer detaljert på problemstillingen, viser det seg at ikke alt er så trist. Jeg håper du er overbevist om dette ved å bruke eksemplet med å beregne standardavviket.

Video for å hjelpe

I følge utvalgsundersøkelsen ble innskytere gruppert etter størrelsen på innskuddet deres i byens Sberbank:

Definere:

1) variasjonsomfang;

2) gjennomsnittlig innskuddsstørrelse;

3) gjennomsnittlig lineært avvik;

4) dispersjon;

5) standardavvik;

6) variasjonskoeffisient for bidrag.

Løsning:

Denne distribusjonsserien inneholder åpne intervaller. I slike serier er verdien av intervallet til den første gruppen konvensjonelt antatt å være lik verdien av intervallet til den neste, og verdien av intervallet til den siste gruppen er lik verdien av intervallet til den forrige.

Verdien av intervallet til den andre gruppen er lik 200, derfor er verdien til den første gruppen også lik 200. Verdien av intervallet til den nest siste gruppen er lik 200, noe som betyr at det siste intervallet også vil har en verdi på 200.

1) La oss definere variasjonsområdet som forskjellen mellom den største og minste verdien av attributtet:

Variasjonen i innskuddsstørrelsen er 1000 rubler.

2) Den gjennomsnittlige størrelsen på bidraget vil bli bestemt ved hjelp av den vektede aritmetiske gjennomsnittsformelen.

La oss først bestemme den diskrete verdien av attributtet i hvert intervall. For å gjøre dette, ved å bruke den enkle aritmetiske middelverdiformelen, finner vi midtpunktene til intervallene.

Gjennomsnittsverdien av det første intervallet vil være:

den andre - 500, etc.

La oss legge inn beregningsresultatene i tabellen:

Innskuddsbeløp, gni.Antall innskytere, fMidt i intervallet, xxf
200-400 32 300 9600
400-600 56 500 28000
600-800 120 700 84000
800-1000 104 900 93600
1000-1200 88 1100 96800
Total 400 - 312000

Gjennomsnittlig innskudd i byens Sberbank vil være 780 rubler:

3) Det gjennomsnittlige lineære avviket er det aritmetiske gjennomsnittet av de absolutte avvikene til individuelle verdier av en karakteristikk fra det totale gjennomsnittet:

Fremgangsmåten for å beregne gjennomsnittlig lineært avvik i intervallfordelingsserien er som følger:

1. Det vektede aritmetiske gjennomsnittet beregnes, som vist i avsnitt 2).

2. Absolutte avvik fra gjennomsnittet bestemmes:

3. De resulterende avvikene multipliseres med frekvenser:

4. Finn summen av vektede avvik uten å ta hensyn til tegnet:

5. Summen av vektede avvik er delt på summen av frekvenser:

Det er praktisk å bruke beregningsdatatabellen:

Innskuddsbeløp, gni.Antall innskytere, fMidt i intervallet, x
200-400 32 300 -480 480 15360
400-600 56 500 -280 280 15680
600-800 120 700 -80 80 9600
800-1000 104 900 120 120 12480
1000-1200 88 1100 320 320 28160
Total 400 - - - 81280

Det gjennomsnittlige lineære avviket i størrelsen på innskuddet til Sberbank-kunder er 203,2 rubler.

4) Dispersjon er det aritmetiske gjennomsnittet av kvadrerte avvik for hver attributtverdi fra det aritmetiske gjennomsnittet.

Beregning av varians i intervallfordelingsserier utføres ved å bruke formelen:

Prosedyren for å beregne varians i dette tilfellet er som følger:

1. Bestem det vektede aritmetiske gjennomsnittet, som vist i avsnitt 2).

2. Finn avvik fra gjennomsnittet:

3. Kvaddra for avviket for hvert alternativ fra gjennomsnittet:

4. Multipliser kvadratene til avvikene med vektene (frekvensene):

5. Oppsummer de resulterende produktene:

6. Den resulterende mengden deles på summen av vektene (frekvensene):

La oss sette beregningene i en tabell:

Innskuddsbeløp, gni.Antall innskytere, fMidt i intervallet, x
200-400 32 300 -480 230400 7372800
400-600 56 500 -280 78400 4390400
600-800 120 700 -80 6400 768000
800-1000 104 900 120 14400 1497600
1000-1200 88 1100 320 102400 9011200
Total 400 - - - 23040000

En omtrentlig metode for å vurdere variabiliteten til en variasjonsserie er å bestemme grensen og amplituden, men verdiene til varianten innenfor serien tas ikke i betraktning. Det viktigste generelt aksepterte målet på variabiliteten til en kvantitativ egenskap innenfor en variasjonsserie er standardavvik (σ - sigma). Jo større standardavvik, desto høyere grad av fluktuasjon av denne serien.

Metoden for å beregne standardavviket inkluderer følgende trinn:

1. Finn det aritmetiske gjennomsnittet (M).

2. Bestem avvikene til individuelle alternativer fra det aritmetiske gjennomsnittet (d=V-M). I medisinsk statistikk er avvik fra gjennomsnittet betegnet som d (avvike). Summen av alle avvik er null.

3. Kvaddra hvert avvik d 2.

4. Multipliser kvadratene til avvikene med de tilsvarende frekvensene d 2 *p.

5. Finn summen av produktene å(d 2 *p)

6. Beregn standardavviket ved å bruke formelen:

Når n er større enn 30, eller når n er mindre enn eller lik 30, hvor n er antallet av alle alternativer.

Standardavviksverdi:

1. Standardavviket karakteriserer spredningen av varianten i forhold til gjennomsnittsverdien (dvs. variasjonen til variasjonsserien). Jo større sigma, jo høyere grad av mangfold i denne serien.

2. Standardavviket brukes til en komparativ vurdering av graden av samsvar mellom det aritmetiske gjennomsnittet og variasjonsserien den ble beregnet for.

Variasjoner av massefenomener følger loven om normalfordeling. Kurven som representerer denne fordelingen ser ut som en jevn klokkeformet symmetrisk kurve (gaussisk kurve). I følge sannsynlighetsteorien, i fenomener som følger loven om normalfordeling, er det et strengt matematisk forhold mellom verdiene til det aritmetiske gjennomsnittet og standardavviket. Den teoretiske fordelingen av en variant i en homogen variasjonsserie følger tre-sigma-regelen.

Hvis i et system med rektangulære koordinater er verdiene til en kvantitativ karakteristikk (varianter) plottet på abscisseaksen, og frekvensen for forekomst av en variant i en variasjonsserie er plottet på ordinataksen, vil varianter med større og mindre verdiene er jevnt plassert på sidene av det aritmetiske gjennomsnittet.



Det er fastslått at med en normal fordeling av egenskapen:

68,3 % av variantverdiene er innenfor M±1s

95,5 % av variantverdiene er innenfor M±2s

99,7 % av variantverdiene er innenfor M±3s

3. Standardavviket lar deg etablere normale verdier for kliniske og biologiske parametere. I medisin tas vanligvis intervallet M±1s som normalområdet for fenomenet som studeres. Avviket til den estimerte verdien fra det aritmetiske gjennomsnittet med mer enn 1s indikerer et avvik fra den studerte parameteren fra normen.

4. I medisin brukes tre-sigma-regelen i pediatri for individuell vurdering av nivået av fysisk utvikling av barn (sigma-avviksmetoden), for utvikling av standarder for barneklær

5. Standardavviket er nødvendig for å karakterisere graden av diversitet til karakteristikken som studeres og for å beregne feilen til det aritmetiske gjennomsnittet.

Verdien av standardavviket brukes vanligvis til å sammenligne variabiliteten til serier av samme type. Hvis to serier med forskjellige egenskaper sammenlignes (høyde og vekt, gjennomsnittlig varighet av sykehusbehandling og sykehusdødelighet osv.), så er en direkte sammenligning av sigma-størrelser umulig , fordi standardavvik er en navngitt verdi uttrykt i absolutte tall. I disse tilfellene, bruk variasjonskoeffisient (Cv), som er en relativ verdi: prosentforholdet mellom standardavviket og det aritmetiske gjennomsnittet.

Variasjonskoeffisienten beregnes ved hjelp av formelen:

Jo høyere variasjonskoeffisient , jo større er variasjonen til denne serien. Det antas at en variasjonskoeffisient på mer enn 30% indikerer den kvalitative heterogeniteten til befolkningen.