Standardavvik for en tilfeldig variabel. Statistiske parametere

Standardavvik er en klassisk indikator på variabilitet fra beskrivende statistikk.

Standardavvik, standardavvik, standardavvik, utvalg standardavvik (eng. standardavvik, STD, STDev) - en svært vanlig indikator for spredning i beskrivende statistikk. Men fordi teknisk analyse er beslektet med statistikk denne indikatoren kan (og bør) brukes i teknisk analyse for å oppdage graden av spredning av prisen på det analyserte instrumentet. Angitt med det greske symbolet Sigma "σ".

Takk til Carl Gauss og Pearson for at vi fikk bruke standardavvik.

Ved hjelp av standardavvik i teknisk analyse, snur vi dette "spredningsindeks""V "volatilitetsindikator", opprettholde betydningen, men endre begrepene.

Hva er standardavvik

Men foruten de mellomliggende hjelpeberegningene, standardavvik er ganske akseptabelt for uavhengig beregning og applikasjoner innen teknisk analyse. Som en aktiv leser av vårt magasinburdock bemerket, " Jeg forstår fortsatt ikke hvorfor standardavviket ikke er inkludert i settet med standardindikatorer for innenlandske handelssentre«.

Egentlig, standardavvik kan måle variabiliteten til et instrument på en klassisk og "ren" måte. Men dessverre er ikke denne indikatoren så vanlig i verdipapiranalyse.

Bruk av standardavvik

Manuell beregning av standardavviket er lite interessant, men nyttig for erfaring. Standardavvik kan uttrykkes formel STD=√[(∑(x-x ) 2)/n] , som høres ut som roten av summen av kvadratiske forskjeller mellom elementene i prøven og gjennomsnittet, delt på antall elementer i prøven.

Hvis antallet elementer i prøven overstiger 30, tar nevneren til brøken under roten verdien n-1. Ellers brukes n.

Steg for steg standardavviksberegning:

beregne det aritmetiske gjennomsnittet av datautvalget
trekk dette gjennomsnittet fra hvert prøveelement
vi kvadrerer alle resulterende forskjeller
oppsummer alle de resulterende firkantene
del den resulterende mengden med antall elementer i prøven (eller med n-1, hvis n>30)
beregne kvadratroten av den resulterende kvotienten (kalt spredning)

Det er verdt å merke seg at denne variansberegningen har en ulempe - den viser seg å være partisk, dvs. dens matematiske forventning er ikke lik den sanne verdien av variansen. Les mer om dette. Samtidig er ikke alt så ille. Ettersom prøvestørrelsen øker, nærmer den seg fortsatt sin teoretiske analog, dvs. er asymptotisk objektiv. Derfor, når du arbeider med store prøvestørrelser, kan du bruke formelen ovenfor.

Det er nyttig å oversette tegnspråket til ordspråket. Det viser seg at variansen er gjennomsnittskvadraten av avvikene. Det vil si at gjennomsnittsverdien først beregnes, deretter tas forskjellen mellom hver opprinnelige og gjennomsnittlig verdi, kvadreres, legges til og deretter divideres med antall verdier i populasjonen. Differansen mellom en individuell verdi og gjennomsnittet gjenspeiler målet på avviket. Den kvadreres slik at alle avvik utelukkende blir positive tall og for å unngå gjensidig ødeleggelse av positive og negative avvik når de summeres. Så, gitt de kvadrerte avvikene, beregner vi ganske enkelt det aritmetiske gjennomsnittet. Gjennomsnittlig - kvadratisk - avvik. Avvikene kvadreres og gjennomsnittet beregnes. Løsningen ligger i bare tre ord.

Men i sin rene form, slik som det aritmetiske gjennomsnittet, eller indeksen, brukes ikke spredning. Det er snarere en hjelpe- og mellomindikator som er nødvendig for andre typer statistiske analyser. Den har ikke engang en normal måleenhet. Etter formelen å dømme er dette kvadratet på måleenheten til de opprinnelige dataene. Uten en flaske, som de sier, kan du ikke finne ut av det.

(modul 111)

For å returnere variansen til virkeligheten, det vil si å bruke den til mer hverdagslige formål, trekkes kvadratroten ut fra den. Det viser seg den såkalte standardavvik (RMS). Det er navn "standardavvik" eller "sigma" (fra navnet på den greske bokstaven). Standardavviksformelen er:

For å få denne indikatoren for prøven, bruk formelen:

Som med varians er det et litt annet beregningsalternativ. Men etter hvert som utvalget vokser, forsvinner forskjellen.

Standardavviket karakteriserer selvsagt også målet for dataspredning, men nå (i motsetning til spredning) kan det sammenlignes med de opprinnelige dataene, siden de har samme måleenheter (dette fremgår tydelig av beregningsformelen). Men denne indikatoren i sin rene form er ikke veldig informativ, siden den inneholder for mange mellomberegninger som er forvirrende (avvik, kvadrat, sum, gjennomsnitt, rot). Imidlertid er det allerede mulig å jobbe direkte med standardavviket, fordi egenskapene til denne indikatoren er godt studert og kjent. For eksempel er det dette tre sigma regel, som sier at dataene har 997 verdier av 1000 innenfor ±3 sigma av det aritmetiske gjennomsnittet. Standardavvik, som et mål på usikkerhet, er også involvert i mange statistiske beregninger. Med dens hjelp bestemmes graden av nøyaktighet av ulike estimater og prognoser. Hvis variasjonen er veldig stor, vil også standardavviket være stort, og derfor vil prognosen være unøyaktig, noe som for eksempel vil uttrykkes i svært brede konfidensintervaller.

Variasjonskoeffisienten

Standardavviket gir et absolutt estimat av spredningsmålet. Derfor, for å forstå hvor stor spredningen er i forhold til verdiene selv (dvs. uavhengig av deres skala), er det nødvendig med en relativ indikator. Denne indikatoren kalles variasjonskoeffisient og beregnes ved hjelp av følgende formel:

Variasjonskoeffisienten måles i prosent (hvis multiplisert med 100%). Ved å bruke denne indikatoren kan du sammenligne en rekke fenomener, uavhengig av deres skala og måleenheter. Dette faktum er det som gjør variasjonskoeffisienten så populær.

I statistikk er det akseptert at hvis verdien av variasjonskoeffisienten er mindre enn 33%, anses befolkningen som homogen, hvis den er mer enn 33%, er den heterogen. Det er vanskelig for meg å kommentere noe her. Jeg vet ikke hvem som definerte dette og hvorfor, men det regnes som et aksiom.

Jeg føler at jeg blir revet med av tørr teori og trenger å ta med noe visuelt og figurativt. På den annen side beskriver alle variasjonsindikatorer omtrent det samme, bare de beregnes annerledes. Derfor er det vanskelig å vise frem en rekke eksempler. Bare verdiene til indikatorer kan variere, men ikke essensen. Så la oss sammenligne hvordan verdiene til forskjellige variasjonsindikatorer er forskjellige for det samme settet med data. La oss ta et eksempel med beregning av gjennomsnittlig lineært avvik (fra ). Her er kildedataene:

Og en tidsplan for å minne deg på.

Ved hjelp av disse dataene beregner vi ulike variasjonsindikatorer.

Gjennomsnittsverdien er det vanlige aritmetiske gjennomsnittet.

Variasjonsområdet er forskjellen mellom maksimum og minimum:

Det gjennomsnittlige lineære avviket beregnes ved å bruke formelen:

Standardavvik:

La oss oppsummere beregningen i en tabell.

Som man kan se, gir det lineære gjennomsnittet og standardavviket lignende verdier for graden av datavariasjon. Varians er sigma squared, så det vil alltid være et relativt stort tall, noe som faktisk ikke betyr noe. Variasjonsområdet er forskjellen mellom ekstreme verdier og kan fortelle mye.

La oss oppsummere noen resultater.

Variasjon av en indikator gjenspeiler variasjonen til en prosess eller et fenomen. Graden kan måles ved hjelp av flere indikatorer.

1. Variasjonsområde - forskjellen mellom maksimum og minimum. Gjenspeiler rekkevidden av mulige verdier.
2. Gjennomsnittlig lineært avvik – reflekterer gjennomsnittet av de absolutte (modulo) avvikene til alle verdiene av den analyserte populasjonen fra deres gjennomsnittsverdi.
3. Dispersjon - gjennomsnittlig kvadrat av avvik.
4. Standardavvik er roten til dispersjonen (middelkvadrat av avvik).
5. Variasjonskoeffisienten er den mest universelle indikatoren, som gjenspeiler graden av spredning av verdier, uavhengig av deres skala og måleenheter. Variasjonskoeffisienten måles i prosent og kan brukes til å sammenligne variasjonen av ulike prosesser og fenomener.

I statistisk analyse er det således et system med indikatorer som gjenspeiler homogeniteten til fenomener og stabiliteten til prosesser. Ofte har variasjonsindikatorer ikke uavhengig betydning og brukes til videre dataanalyse (beregning av konfidensintervaller

Standardavvik

Den mest perfekte egenskapen til variasjon er gjennomsnittlig kvadratavvik, som kalles standarden (eller standardavviket). Standardavvik() er lik kvadratroten av gjennomsnittlig kvadratavvik for individuelle verdier av attributtet fra det aritmetiske gjennomsnittet:

Standardavviket er enkelt:

Vektet standardavvik brukes på grupperte data:

Følgende forhold finner sted mellom gjennomsnittlig kvadrat og gjennomsnittlig lineære avvik under normale distribusjonsforhold: ~ 1,25.

Standardavviket, som er det absolutte hovedmålet for variasjon, brukes til å bestemme ordinatverdiene til en normalfordelingskurve, i beregninger knyttet til organisering av prøveobservasjon og for å etablere nøyaktigheten av prøvekarakteristikker, samt ved vurdering av variasjonsgrenser for en egenskap i en homogen populasjon.

18. Varians, dens typer, standardavvik.

Varians av en tilfeldig variabel- et mål på spredningen av en gitt tilfeldig variabel, dvs. dens avvik fra den matematiske forventningen. I statistikk brukes ofte notasjonen eller. Kvadratroten av variansen kalles vanligvis standardavvik, standardavvik eller standard oppslag.

Total varians (σ 2) måler variasjonen av en egenskap i sin helhet under påvirkning av alle faktorene som forårsaket denne variasjonen. Samtidig er det, takket være grupperingsmetoden, mulig å identifisere og måle variasjonen på grunn av grupperingskarakteristikken og variasjonen som oppstår under påvirkning av uoversiktlige faktorer.

Intergruppevarians (σ 2 m.gr) karakteriserer systematisk variasjon, dvs. forskjeller i verdien av den studerte egenskapen som oppstår under påvirkning av egenskapen - faktoren som danner grunnlaget for gruppen.

Standardavvik(synonymer: standardavvik, standardavvik, kvadratavvik; relaterte termer: standardavvik, standard oppslag) - i sannsynlighetsteori og statistikk, den vanligste indikatoren på spredningen av verdiene til en tilfeldig variabel i forhold til dens matematiske forventning. Med begrensede arrays av utvalg av verdier, i stedet for den matematiske forventningen, brukes det aritmetiske gjennomsnittet av settet med samples.

Standardavviket måles i måleenheter for selve den tilfeldige variabelen og brukes ved beregning av standardfeilen til det aritmetiske gjennomsnittet, ved konstruksjon av konfidensintervaller, ved statistisk testing av hypoteser, ved måling av det lineære forholdet mellom tilfeldige variabler. Definert som kvadratroten av variansen til en tilfeldig variabel.

Standardavvik:

Standardavvik(estimat av standardavviket til en tilfeldig variabel x i forhold til dens matematiske forventning basert på et objektivt estimat av variansen):

hvor er spredningen; - Jeg elementet i utvalget; - prøvestørrelse; - aritmetisk gjennomsnitt av prøven:

Det skal bemerkes at begge estimatene er partiske. I det generelle tilfellet er det umulig å konstruere et objektivt estimat. I dette tilfellet er estimatet basert på det objektive variansestimatet konsistent.

19. Essens, omfang og prosedyre for å bestemme modus og median.

I tillegg til effektgjennomsnitt i statistikk, for den relative karakteriseringen av verdien av en varierende karakteristikk og den interne strukturen til distribusjonsserier, brukes strukturelle gjennomsnitt, som hovedsakelig er representert ved mote og median.

Mote– Dette er den vanligste varianten av serien. Mote brukes for eksempel til å bestemme størrelsen på klær og sko som er mest etterspurt blant kundene. Modusen for en diskret serie er varianten med høyest frekvens. Når du beregner modusen for en intervallvariasjonsserie, er det ekstremt viktig å først bestemme det modale intervallet (ved maksimal frekvens), og deretter - verdien av den modale verdien til attributtet ved å bruke formelen:

§ - betydningen av mote

§ - nedre grense for det modale intervallet

§ - intervallverdi

§ - modal intervallfrekvens

§ - frekvensen til intervallet før modalen

§ - frekvensen av intervallet etter modalen

Median - denne verdien av attributtet, ĸᴏᴛᴏᴩᴏᴇ ligger i grunnlaget for den rangerte serien og deler denne serien i to like store deler.

For å bestemme medianen i en diskret serie hvis frekvenser er tilgjengelige, beregner du først halvsummen av frekvenser, og bestemmer deretter hvilken verdi av varianten som faller på den. (Hvis den sorterte serien inneholder et oddetall av egenskaper, beregnes mediantallet ved hjelp av formelen:

M e = (n (antall funksjoner totalt) + 1)/2,

ved et partall av funksjoner vil medianen være lik gjennomsnittet av de to funksjonene i midten av raden).

Ved beregning av medianen for intervallvariasjonsserier Bestem først medianintervallet som medianen befinner seg innenfor, og bestem deretter verdien av medianen ved hjelp av formelen:

§ - nødvendig median

§ - nedre grense for intervallet som inneholder medianen

§ - intervallverdi

§ - sum av frekvenser eller antall serieledd

§ - summen av de akkumulerte frekvensene til intervallene foran medianen

§ - frekvensen av medianintervallet

Eksempel. Finn modus og median.

Løsning: I dette eksemplet er det modale intervallet innenfor aldersgruppen 25-30 år, siden dette intervallet har den høyeste frekvensen (1054).

La oss beregne størrelsen på modusen:

Det betyr at elevens modale alder er 27 år.

La oss beregne medianen. Medianintervallet er i aldersgruppen 25-30 år, siden det innenfor dette intervallet er et alternativ som deler befolkningen i to like deler (Σf i /2 = 3462/2 = 1731). Deretter erstatter vi de nødvendige numeriske dataene i formelen og får medianverdien:

Det betyr at den ene halvparten av elevene er under 27,4 år, og den andre halvparten er over 27,4 år.

I tillegg til modus og median, brukes indikatorer som kvartiler, som deler den rangerte serien i 4 like deler, desiler - 10 deler og persentiler - i 100 deler.

20. Konseptet med prøveobservasjon og dets omfang.

Selektiv observasjon gjelder ved bruk av kontinuerlig overvåking fysisk umulig på grunn av store mengder data eller ikke økonomisk gjennomførbart. Fysisk umulighet oppstår for eksempel når man studerer passasjerstrømmer, markedspriser og familiebudsjetter. Økonomisk uhensiktsmessighet oppstår når man vurderer kvaliteten på varer knyttet til deres ødeleggelse, for eksempel smaking, testing av murstein for styrke, etc.

De statistiske enhetene valgt for observasjon er utvalgspopulasjon eller prøve, og hele utvalget deres - generell befolkning(GS). Hvori antall enheter i prøven betegne n, og gjennom hele HS - N. Holdning n/N vanligvis kalt relativ størrelse eller prøveandel.

Kvaliteten på prøveobservasjonsresultatene avhenger av utvalgets representativitet, altså på hvor representativt det er i GS. For å sikre representativiteten til utvalget er det ekstremt viktig å overholde prinsippet om tilfeldig utvalg av enheter, som forutsetter at inkludering av en HS-enhet i utvalget ikke kan påvirkes av andre faktorer enn tilfeldigheter.

Finnes 4 måter for tilfeldig valgå prøve:

Egentlig tilfeldig utvalg eller "lotto-metoden", når statistiske verdier tildeles serienummer, registrert på visse objekter (for eksempel fat), som deretter blandes i en beholder (for eksempel i en pose) og velges tilfeldig. I praksis utføres denne metoden ved hjelp av en tilfeldig tallgenerator eller matematiske tabeller med tilfeldige tall.
Mekanisk utvalg i henhold til hvilken hver ( N/n)-te verdi av den generelle befolkningen. For eksempel, hvis den inneholder 100 000 verdier, og du må velge 1000, vil hver 100 000 / 1000 = 100. verdi inkluderes i prøven. Dessuten, hvis de ikke er rangert, blir den første valgt tilfeldig fra de første hundre, og tallene til de andre vil være hundre høyere. For eksempel, hvis den første enheten var nr. 19, så skal den neste være nr. 119, deretter nr. 219, deretter nr. 319 osv. Hvis befolkningsenhetene er rangert, velges nr. 50 først, deretter nr. 150, deretter nr. 250, og så videre.
Valg av verdier fra en heterogen datamatrise utføres stratifisert(stratifisert) metode, når populasjonen først deles inn i homogene grupper som tilfeldig eller mekanisk seleksjon brukes på.
En spesiell prøvetakingsmetode er serie seleksjon, der de tilfeldig eller mekanisk velger ikke individuelle verdier, men deres serier (sekvenser fra et eller annet tall til et eller annet tall på rad), innenfor hvilke kontinuerlig observasjon utføres.

Kvaliteten på prøveobservasjoner avhenger også av prøvetype: gjentatt eller ugjentakelig. På omvalg Statistiske verdier eller deres serier som er inkludert i utvalget, returneres til den generelle befolkningen etter bruk, og har en sjanse til å bli inkludert i et nytt utvalg. Dessuten har alle verdier i den generelle befolkningen samme sannsynlighet for å bli inkludert i utvalget. Ikke-repeterende utvalg betyr at de statistiske verdiene eller seriene deres som er inkludert i utvalget ikke returnerer til den generelle populasjonen etter bruk, og derfor øker sannsynligheten for å bli inkludert i neste utvalg for de resterende verdiene til sistnevnte.

Ikke-repeterende prøvetaking gir mer nøyaktige resultater, og brukes derfor oftere. Men det er situasjoner hvor det ikke kan brukes (studerer passasjerstrømmer, forbrukernes etterspørsel osv.) og deretter gjennomføres et gjentatt utvalg.

21. Maksimal observasjonsprøvetakingsfeil, gjennomsnittlig prøvetakingsfeil, prosedyre for deres beregning.

La oss vurdere i detalj metodene som er oppført ovenfor for å danne en utvalgspopulasjon og representativitetsfeilene som oppstår. Riktig tilfeldig Utvalget er basert på å velge enheter fra populasjonen tilfeldig uten noen systematiske elementer. Teknisk sett utføres faktisk tilfeldig utvalg ved å trekke lodd (for eksempel lotterier) eller ved å bruke en tabell med tilfeldige tall.

Riktig tilfeldig seleksjon "i sin rene form" brukes sjelden i praksisen med selektiv observasjon, men det er den første blant andre typer seleksjon, den implementerer de grunnleggende prinsippene for selektiv observasjon. La oss vurdere noen spørsmål om teorien om prøvetakingsmetoden og feilformelen for et enkelt tilfeldig utvalg.

Sampling bias- ϶ᴛᴏ forskjellen mellom verdien av parameteren i den generelle populasjonen og dens verdi beregnet fra resultatene av prøveobservasjon. Det er viktig å merke seg at for den gjennomsnittlige kvantitative karakteristikken bestemmes prøvetakingsfeilen av

Indikatoren kalles vanligvis den maksimale prøvetakingsfeilen. Utvalgsgjennomsnittet er en tilfeldig variabel som kan få ulike verdier basert på hvilke enheter som inngår i utvalget. Derfor er prøvetakingsfeil også tilfeldige variabler og kan få ulike verdier. Av denne grunn bestemmes gjennomsnittet av mulige feil - gjennomsnittlig prøvetakingsfeil, som avhenger av:

· prøvestørrelse: jo større tall, jo mindre er gjennomsnittsfeilen;

· graden av endring i karakteristikken som studeres: jo mindre variasjonen av karakteristikken er, og følgelig spredningen, jo mindre er den gjennomsnittlige prøvetakingsfeilen.

På tilfeldig omvalg gjennomsnittsfeilen beregnes. I praksis er den generelle variansen ikke kjent nøyaktig, men i sannsynlighetsteori er det bevist det . Siden verdien for tilstrekkelig stor n er nær 1, kan vi anta at . Deretter skal den gjennomsnittlige prøvetakingsfeilen beregnes: . Men i tilfeller med et lite utvalg (med n<30) коэффициент крайне важно учитывать, и среднюю ошибку малой выборки рассчитывать по формуле .

På tilfeldig ikke-repeterende prøvetaking de gitte formlene justeres med verdien. Da er den gjennomsnittlige ikke-repetitive prøvetakingsfeilen: Og . Fordi alltid er mindre enn , så er multiplikatoren () alltid mindre enn 1. Dette betyr at gjennomsnittsfeilen ved gjentatt valg alltid er mindre enn ved gjentatt valg. Mekanisk prøvetaking brukes når befolkningen generelt er ordnet på en eller annen måte (for eksempel velgerlister i alfabetisk rekkefølge, telefonnumre, hus- og leilighetsnummer). Utvelgelsen av enheter utføres med et visst intervall, som er lik den inverse verdien av prøvetakingsprosenten. Så, med et utvalg på 2 %, velges hver 50 enhet = 1/0,02, med et utvalg på 5 %, hver 1/0,05 = 20 enheter av den generelle befolkningen.

Referansepunktet velges på forskjellige måter: tilfeldig, fra midten av intervallet, med en endring i referansepunktet. Det viktigste er å unngå systematiske feil. For eksempel, med et utvalg på 5 %, hvis den første enheten er den 13., så er de neste 33, 53, 73 osv.

Når det gjelder nøyaktighet, er mekanisk seleksjon nær faktisk tilfeldig prøvetaking. Av denne grunn, for å bestemme gjennomsnittsfeilen ved mekanisk prøvetaking, brukes riktige tilfeldige utvalgsformler.

På typisk utvalg befolkningen som undersøkes er foreløpig delt inn i homogene, like grupper. For eksempel ved kartlegging av virksomheter er dette bransjer, delsektorer når man studerer befolkningen, dette er regioner, sosiale eller aldersgrupper. Deretter gjøres et uavhengig utvalg fra hver gruppe mekanisk eller rent tilfeldig.

Typisk prøvetaking gir mer nøyaktige resultater enn andre metoder. Å skrive den generelle populasjonen sikrer at hver typologisk gruppe er representert i utvalget, noe som eliminerer påvirkningen av intergruppevarians på gjennomsnittlig prøvetakingsfeil. Derfor, når du finner feilen til et typisk utvalg i henhold til regelen om å legge til varianser (), er det ekstremt viktig å bare ta hensyn til gjennomsnittet av gruppevariansene. Deretter gjennomsnittlig prøvetakingsfeil: med gjentatt prøvetaking, med ikke-repetitiv prøvetaking , Hvor – gjennomsnittet av variasjonene innen gruppe i utvalget.

Seriell (eller neste) valg brukes når populasjonen deles inn i serier eller grupper før oppstart av utvalgsundersøkelsen. Disse seriene inkluderer pakking av ferdige produkter, studentgrupper og brigader. Serier for undersøkelse velges mekanisk eller rent tilfeldig, og innenfor serien gjennomføres det en fortløpende undersøkelse av enheter. Av denne grunn avhenger den gjennomsnittlige prøvetakingsfeilen bare av variansen mellom grupper (mellom serier), som beregnes ved hjelp av formelen: hvor r er antall valgte serier; – gjennomsnitt av i-te serie. Gjennomsnittlig feil for serieprøvetaking beregnes: med gjentatt prøvetaking, med ikke-repeterende prøvetaking , hvor R er det totale antallet serier. Kombinert seleksjon er en kombinasjon av de vurderte seleksjonsmetodene.

Den gjennomsnittlige prøvetakingsfeilen for enhver prøvetakingsmetode avhenger hovedsakelig av utvalgets absolutte størrelse og, i mindre grad, av utvalgets prosentandel. La oss anta at det gjøres 225 observasjoner i det første tilfellet fra en befolkning på 4 500 enheter og i det andre fra en populasjon på 225 000 enheter. Variansene i begge tilfeller er lik 25. Så i det første tilfellet, med et utvalg på 5 %, vil prøvetakingsfeilen være: I det andre tilfellet, med 0,1 % valg, vil det være lik:

Men når prøvetakingsprosenten ble redusert med 50 ganger, økte prøvetakingsfeilen litt, siden prøvestørrelsen ikke endret seg. La oss anta at utvalgsstørrelsen økes til 625 observasjoner. I dette tilfellet er prøvetakingsfeilen: Å øke utvalget med 2,8 ganger med samme populasjonsstørrelse reduserer størrelsen på prøvetakingsfeilen med mer enn 1,6 ganger.

22. Metoder og metoder for å danne en utvalgspopulasjon.

I statistikk brukes ulike metoder for å danne utvalgspopulasjoner, som bestemmes av målene for studien og avhenger av spesifikasjonene til studieobjektet.

Hovedbetingelsen for å gjennomføre en utvalgsundersøkelse er å forhindre at det oppstår systematiske feil som følge av brudd på prinsippet om like muligheter for hver enhet av befolkningen generelt som skal inngå i utvalget. Forebygging av systematiske feil oppnås gjennom bruk av vitenskapelig baserte metoder for å danne en utvalgspopulasjon.

Det finnes følgende metoder for å velge ut enheter fra den generelle populasjonen: 1) Individuelt utvalg - individuelle enheter velges for utvalget; 2) gruppevalg - utvalget inkluderer kvalitativt homogene grupper eller serier av enheter som studeres; 3) kombinert utvalg er en kombinasjon av individuell og gruppeutvalg. Utvelgelsesmetoder bestemmes av reglene for å danne en utvalgspopulasjon.

Prøven skal være:

faktisk tilfeldig består i at utvalgspopulasjonen dannes som et resultat av tilfeldig (utilsiktet) utvalg av enkeltenheter fra den generelle populasjonen. I dette tilfellet bestemmes vanligvis antall enheter valgt i utvalgspopulasjonen basert på den aksepterte utvalgsandelen. Utvalgsandelen er forholdet mellom antall enheter i utvalgspopulasjonen n og antall enheter i den generelle populasjonen N, ᴛ.ᴇ.

mekanisk består i at utvalget av enheter i utvalgspopulasjonen gjøres fra den generelle populasjonen, delt inn i like intervaller (grupper). I dette tilfellet er størrelsen på intervallet i populasjonen lik den gjensidige av utvalgets andel. Så, med et utvalg på 2 %, velges hver 50. enhet (1:0,02), med en prøve på 5 %, hver 20. enhet (1:0,05), osv. Men i samsvar med den aksepterte andelen seleksjon er den generelle befolkningen så å si mekanisk delt inn i like grupper. Fra hver gruppe velges kun én enhet for utvalget.
typisk – hvor den generelle befolkningen først deles inn i homogene typiske grupper. Deretter, fra hver typisk gruppe, brukes et rent tilfeldig eller mekanisk utvalg for å individuelt velge enheter i utvalgspopulasjonen. Et viktig trekk ved et typisk utvalg er at det gir mer nøyaktige resultater sammenlignet med andre metoder for å velge enheter i utvalgspopulasjonen;
serie- der den generelle befolkningen er delt inn i grupper av like store - serier. Serier velges inn i utvalgspopulasjonen. Innenfor serien gjennomføres det kontinuerlig observasjon av enhetene som inngår i serien;
kombinert- prøvetaking bør være to-trinns. I dette tilfellet blir befolkningen først delt inn i grupper. Deretter velges grupper, og innenfor sistnevnte velges individuelle enheter.

I statistikk skilles følgende metoder ut for å velge enheter i en utvalgspopulasjon:

enkelt trinn prøvetaking - hver valgt enhet blir umiddelbart utsatt for studier i henhold til et gitt kriterium (riktig tilfeldig og seriell prøvetaking);
flertrinn prøvetaking - et utvalg gjøres fra den generelle populasjonen av individuelle grupper, og individuelle enheter velges fra gruppene (typisk prøvetaking med en mekanisk metode for å velge enheter inn i utvalgspopulasjonen).

I tillegg finnes det:

omvalg- i henhold til skjemaet for den returnerte ballen. I dette tilfellet returneres hver enhet eller serie inkludert i utvalget til den generelle populasjonen og har derfor en sjanse til å bli inkludert i utvalget igjen;
gjenta valget- etter ordningen med ikke-returert ball. Den har mer nøyaktige resultater med samme prøvestørrelse.

23. Bestemmelse av den ekstremt viktige prøvestørrelsen (ved hjelp av studentens t-tabell).

Et av de vitenskapelige prinsippene i prøvetakingsteori er å sikre at et tilstrekkelig antall enheter velges. Teoretisk er den ekstreme viktigheten av å observere dette prinsippet presentert i proofs of limit teoremene i sannsynlighetsteori, som gjør det mulig å fastslå hvilket volum av enheter som bør velges fra populasjonen slik at det er tilstrekkelig og sikrer representativiteten til utvalget.

En reduksjon i standard prøvetakingsfeil, og derfor en økning i nøyaktigheten av estimatet, er alltid forbundet med en økning i prøvestørrelsen, derfor er det nødvendig å bestemme størrelsen allerede på stadiet for å organisere en prøveobservasjon av prøvepopulasjonen bør være for å sikre den nødvendige nøyaktigheten av observasjonsresultatene. Beregningen av det ekstremt viktige prøvevolumet er konstruert ved hjelp av formler utledet fra formlene for maksimale prøvetakingsfeil (A), som tilsvarer en bestemt type og metode for utvelgelse. Så for en tilfeldig gjentatt prøvestørrelse (n) har vi:

Essensen av denne formelen er at med tilfeldig gjentatt prøvetaking av ekstremt viktige tall, er prøvestørrelsen direkte proporsjonal med kvadratet av konfidensfaktoren (t2) og varians av variasjonskarakteristikken (a2) og er omvendt proporsjonal med kvadratet av den maksimale samplingsfeilen (a2). Spesielt, med en økning i maksimal feil med en faktor på to, bør den nødvendige utvalgsstørrelsen reduseres med en faktor på fire. Av de tre parameterne er to (t og?) satt av forskeren. Samtidig har forskeren, basert på målet

og problemene med en prøveundersøkelse må løse spørsmålet: i hvilken kvantitativ kombinasjon er det bedre å inkludere disse parameterne for å sikre det optimale alternativet? I ett tilfelle kan han være mer fornøyd med påliteligheten til de oppnådde resultatene (t) enn med målingen av nøyaktighet (?), i et annet - omvendt. Det er vanskeligere å løse problemet med verdien av den maksimale prøvetakingsfeilen, siden forskeren ikke har denne indikatoren ved utformingen av prøveobservasjonen, derfor er det i praksis vanlig å sette verdien på den maksimale prøvetakingsfeilen , vanligvis innenfor 10 % av det forventede gjennomsnittlige nivået for attributtet . Etablering av det estimerte gjennomsnittet kan tilnærmes på forskjellige måter: ved å bruke data fra lignende tidligere undersøkelser, eller ved å bruke data fra utvalgsrammen og gjennomføre et lite pilotutvalg.

Det vanskeligste å fastslå når man designer en prøveobservasjon er den tredje parameteren i formel (5.2) - variansen til utvalgspopulasjonen. I dette tilfellet er det ekstremt viktig å bruke all informasjon som er tilgjengelig for forskeren, innhentet i tidligere lignende og pilotundersøkelser.

Spørsmålet om å bestemme den ekstremt viktige utvalgsstørrelsen blir mer komplisert dersom utvalgsundersøkelsen innebærer studier av flere egenskaper ved utvalgsenheter. I dette tilfellet er gjennomsnittsnivåene for hver av egenskapene og deres variasjon, som regel, forskjellige, og i denne forbindelse er det mulig å bestemme hvilken variasjon av hvilke av egenskapene som skal foretrekkes, bare under hensyntagen til formålet og målene av undersøkelsen.

Ved utforming av en prøveobservasjon antas en forhåndsbestemt verdi av den tillatte prøvetakingsfeilen i samsvar med målene for en bestemt studie og sannsynligheten for konklusjoner basert på observasjonsresultatene.

Generelt lar formelen for maksimal feil av prøvegjennomsnittet oss bestemme:

‣‣‣ omfanget av mulige avvik fra indikatorene for den generelle befolkningen fra indikatorene for utvalgspopulasjonen;

‣‣‣ den nødvendige prøvestørrelsen for å sikre den nødvendige nøyaktigheten, der grensene for mulig feil ikke overskrider en viss spesifisert verdi;

‣‣‣ sannsynligheten for at feilen i utvalget vil ha en spesifisert grense.

Elevfordeling i sannsynlighetsteori er det en én-parameter familie av absolutt kontinuerlige distribusjoner.

24. Dynamisk serie (intervall, moment), avsluttende dynamisk serie.

Dynamics-serien- dette er verdiene til statistiske indikatorer som presenteres i en viss kronologisk sekvens.

Hver tidsserie inneholder to komponenter:

1) indikatorer for tidsperioder(år, kvartaler, måneder, dager eller datoer);

2) indikatorer som karakteriserer objektet som studeres for tidsperioder eller på tilsvarende datoer, som kalles serienivåer.

Serienivåer uttrykkes i både absolutte og gjennomsnittlige eller relative verdier. Med tanke på avhengigheten av indikatorenes natur, bygges dynamiske serier av absolutte, relative og gjennomsnittlige verdier. Dynamiske serier av relative og gjennomsnittlige verdier er konstruert på grunnlag av avledede serier av absolutte verdier. Det er intervall- og momentserier av dynamikk.

Dynamisk intervallserie inneholder verdiene til indikatorer for visse tidsperioder. I en intervallserie kan nivåer summeres for å få volumet av fenomenet over en lengre periode, eller de såkalte akkumulerte totaler.

Dynamisk øyeblikksserie reflekterer verdiene til indikatorer på et bestemt tidspunkt (tidspunkt). I momentserier kan forskeren bare være interessert i forskjellen i fenomener som gjenspeiler endringen i nivået til serien mellom bestemte datoer, siden summen av nivåene her ikke har noe reelt innhold. Akkumulerte totaler er ikke beregnet her.

Den viktigste betingelsen for riktig konstruksjon av tidsserier er sammenlignbarhet av serienivåer som tilhører ulike perioder. Nivåene skal presenteres i homogene mengder, og det skal være lik fullstendighet i dekning av ulike deler av fenomenet.

For å unngå forvrengning av den virkelige dynamikken, utføres det i statistisk forskning foreløpige beregninger (lukking av dynamikkserien), som går foran den statistiske analysen av tidsserien. Under lukke serien av dynamikk Det er generelt akseptert å forstå kombinasjonen i en serie av to eller flere serier, hvis nivåer er beregnet ved hjelp av annen metodikk eller ikke samsvarer med territorielle grenser, etc. Å lukke dynamikkserien kan også innebære å bringe de absolutte nivåene til dynamikkseriene til et felles grunnlag, noe som nøytraliserer uforlignbarheten til nivåene i dynamikkserien.

25. Konseptet med sammenlignbarhet av dynamikkserier, koeffisienter, vekst og vekstrater.

Dynamics-serien- dette er en serie statistiske indikatorer som karakteriserer utviklingen av naturlige og sosiale fenomener over tid. Statistiske samlinger utgitt av Statens statistikkkomité i Russland inneholder et stort antall dynamikkserier i tabellform. Dynamiske serier gjør det mulig å identifisere utviklingsmønstre for fenomenene som studeres.

Dynamics-serien inneholder to typer indikatorer. Tidsindikatorer(år, kvartaler, måneder osv.) eller tidspunkt (i begynnelsen av året, i begynnelsen av hver måned osv.). Indikatorer for radnivå. Indikatorer for nivåene av dynamikkserier kan uttrykkes i absolutte verdier (produktproduksjon i tonn eller rubler), relative verdier (andel av bybefolkningen i %) og gjennomsnittsverdier (gjennomsnittlig lønn til industriarbeidere etter år) , etc.). I tabellform inneholder en tidsserie to kolonner eller to rader.

Riktig konstruksjon av tidsserier krever oppfyllelse av en rekke krav:

alle indikatorer på en rekke dynamikker må være vitenskapelig underbygget og pålitelige;
indikatorer for en serie av dynamikk må være sammenlignbare over tid, ᴛ.ᴇ. må beregnes for samme tidsrom eller på samme datoer;
indikatorer for en rekke dynamikker må være sammenlignbare på tvers av territoriet;
indikatorer for en serie av dynamikk må være sammenlignbare i innhold, ᴛ.ᴇ. beregnet i henhold til en enkelt metodikk, på samme måte;
indikatorer for en rekke dynamikker bør være sammenlignbare på tvers av spekteret av gårder som tas i betraktning. Alle indikatorer for en serie av dynamikk må angis i samme måleenheter.

Statistiske indikatorer kan karakterisere enten resultatene av prosessen som studeres over en tidsperiode, eller tilstanden til fenomenet som studeres på et bestemt tidspunkt, ᴛ.ᴇ. indikatorer kan være intervall (periodiske) og momentane. Følgelig er dynamikkseriene til å begynne med enten intervall eller moment. Moment dynamics-serien kommer på sin side med like og ulikt tidsintervaller.

Den originale dynamikkserien kan transformeres til en serie gjennomsnittsverdier og en serie relative verdier (kjede og grunnleggende). Slike tidsserier kalles avledede tidsserier.

Metodikken for å beregne gjennomsnittsnivået i dynamikkserien er forskjellig, avhengig av type dynamikkserien. Ved hjelp av eksempler vil vi vurdere typene dynamikkserier og formler for beregning av gjennomsnittsnivået.

Absolutte økninger (Δy) viser hvor mange enheter det påfølgende nivået i serien har endret seg i forhold til det forrige (gr. 3. - kjede absolutte økninger) eller sammenlignet med det opprinnelige nivået (gr. 4. - grunnleggende absolutte økninger). Beregningsformlene kan skrives som følger:

Når de absolutte verdiene av serien synker, vil det være henholdsvis en "reduksjon" eller "reduksjon".

Absolutte vekstindikatorer indikerer at for eksempel i 1998. produksjonen av produkt "A" økte sammenlignet med 1997. med 4 tusen tonn, og sammenlignet med 1994 ᴦ. - med 34 tusen tonn; for andre år, se tabell. 11,5 gr.
Lagt ut på ref.rf
3 og 4.

Vekstrate viser hvor mange ganger nivået til serien har endret seg sammenlignet med den forrige (gr. 5 - kjedekoeffisienter for vekst eller nedgang) eller sammenlignet med det opprinnelige nivået (gr. 6 - grunnleggende koeffisienter for vekst eller nedgang). Beregningsformlene kan skrives som følger:

Veksthastigheter vis hvor mange prosent det neste nivået i serien er sammenlignet med det forrige (gr. 7 - kjedeveksthastigheter) eller sammenlignet med det innledende nivået (gr. 8 - grunnleggende vekstrater). Beregningsformlene kan skrives som følger:

Så for eksempel i 1997. produksjonsvolum av produkt "A" sammenlignet med 1996 ᴦ. utgjorde 105,5 % (

Vekstrate vis med hvor mange prosent nivået i rapporteringsperioden økte sammenlignet med den forrige (kolonne 9 - kjedeveksthastigheter) eller sammenlignet med initialnivået (kolonne 10 - grunnleggende vekstrater). Beregningsformlene kan skrives som følger:

T pr = T r - 100 % eller T pr = absolutt vekst / nivå for forrige periode * 100 %

Så for eksempel i 1996. sammenlignet med 1995 ᴦ. Produkt "A" ble produsert mer med 3,8 % (103,8 % - 100 %) eller (8:210) x 100 %, og sammenlignet med 1994 ᴦ. - med 9 % (109 % - 100 %).

Hvis de absolutte nivåene i serien synker, vil frekvensen være mindre enn 100%, og følgelig vil det være en reduksjonshastighet (økningshastigheten med et minustegn).

Absolutt verdi på 1 % økning(gr.
Lagt ut på ref.rf
11) viser hvor mange enheter som må produseres i en gitt periode slik at nivået fra forrige periode øker med 1 %. I vårt eksempel, i 1995 ᴦ. det var nødvendig å produsere 2,0 tusen tonn, og i 1998 ᴦ. - 2,3 tusen tonn, ᴛ.ᴇ. mye større.

Den absolutte verdien av 1% vekst kan bestemmes på to måter:

§ nivået for forrige periode delt på 100;

§ kjedens absolutte økning er delt på tilsvarende kjedevekst.

Absolutt verdi på 1 % økning =

I dynamikk, spesielt over en lang periode, er en felles analyse av vekstraten med innholdet i hver prosentvis økning eller reduksjon viktig.

Merk at den vurderte metodikken for å analysere tidsserier er anvendelig både for tidsserier, hvis nivåer er uttrykt i absolutte verdier (t, tusen rubler, antall ansatte, etc.), og for tidsserier, hvis nivåer uttrykkes i relative indikatorer (% av defekter, % askeinnhold i kull, etc.) eller gjennomsnittsverdier (gjennomsnittlig avkastning i c/ha, gjennomsnittlig lønn, etc.).

Sammen med de betraktede analytiske indikatorene, beregnet for hvert år i sammenligning med forrige eller innledende nivå, når du analyserer dynamikkserier, er det ekstremt viktig å beregne gjennomsnittlige analytiske indikatorer for perioden: gjennomsnittsnivået for serien, gjennomsnittlig årlig absolutt økning (reduksjon) og gjennomsnittlig årlig vekstrate og vekstrate .

Metoder for å beregne gjennomsnittsnivået til en serie dynamikk ble diskutert ovenfor. I intervalldynamikkserien vi vurderer, beregnes gjennomsnittsnivået til serien ved å bruke den enkle aritmetiske gjennomsnittsformelen:

Gjennomsnittlig årlig produksjonsvolum av produktet for 1994-1998. utgjorde 218,4 tusen tonn.

Den gjennomsnittlige årlige absolutte veksten beregnes også ved å bruke den aritmetiske gjennomsnittsformelen

Standardavvik - konsept og typer. Klassifisering og funksjoner i kategorien "Mean square deviation" 2017, 2018.

Ved statistisk testing av hypoteser, ved måling av en lineær sammenheng mellom tilfeldige variabler.

Standardavvik:

Standardavvik(estimat av standardavviket til den tilfeldige variabelen Gulv, veggene rundt oss og taket, x i forhold til dens matematiske forventning basert på et objektivt estimat av variansen):

hvor er spredningen; - Gulvet, veggene rundt oss og taket, Jeg elementet i utvalget; - prøvestørrelse; - aritmetisk gjennomsnitt av prøven:

Det skal bemerkes at begge estimatene er partiske. I det generelle tilfellet er det umulig å konstruere et objektivt estimat. Imidlertid er estimatet basert på det objektive variansestimatet konsistent.

Tre sigma regel

Tre sigma regel() - nesten alle verdier av en normalfordelt tilfeldig variabel ligger i intervallet. Mer strengt - med ikke mindre enn 99,7 % konfidens, ligger verdien av en normalfordelt tilfeldig variabel i det angitte intervallet (forutsatt at verdien er sann og ikke oppnådd som et resultat av prøvebehandling).

Hvis den sanne verdien er ukjent, bør vi ikke bruke, men gulvet, veggene rundt oss og taket, s. Dermed blir regelen om tre sigma forvandlet til regelen om tre etasjer, vegger rundt oss og taket, s .

Tolkning av standardavviksverdien

En stor verdi av standardavviket viser en stor spredning av verdier i det presenterte settet med gjennomsnittsverdien til settet; En liten verdi viser følgelig at verdiene i settet er gruppert rundt den midterste verdien.

For eksempel har vi tre tallsett: (0, 0, 14, 14), (0, 6, 8, 14) og (6, 6, 8, 8). Alle tre settene har middelverdier lik 7, og standardavvik, henholdsvis 7, 5 og 1. Det siste settet har et lite standardavvik, siden verdiene i settet er gruppert rundt middelverdien; det første settet har den største standardavviksverdien - verdiene innenfor settet avviker sterkt fra gjennomsnittsverdien.

I en generell forstand kan standardavvik betraktes som et mål på usikkerhet. For eksempel, i fysikk, brukes standardavvik for å bestemme feilen til en serie påfølgende målinger av en viss mengde. Denne verdien er svært viktig for å bestemme plausibiliteten til fenomenet som studeres sammenlignet med verdien forutsagt av teorien: hvis gjennomsnittsverdien av målingene avviker sterkt fra verdiene forutsagt av teorien (stort standardavvik), Deretter bør de oppnådde verdiene eller metoden for å oppnå dem kontrolleres på nytt.

Praktisk bruk

I praksis lar standardavvik deg bestemme hvor mye verdiene i et sett kan avvike fra gjennomsnittsverdien.

Klima

Anta at det er to byer med samme gjennomsnittlige maksimale døgntemperatur, men den ene ligger ved kysten og den andre er i innlandet. Det er kjent at byer som ligger ved kysten har mange forskjellige maksimale dagtemperaturer som er lavere enn byer som ligger i innlandet. Derfor vil standardavviket for de maksimale døgntemperaturene for en kystby være mindre enn for den andre byen, til tross for at gjennomsnittsverdien på denne verdien er den samme, noe som i praksis betyr at sannsynligheten for at den maksimale lufttemperaturen på en gitt dag i året vil være høyere forskjellig fra gjennomsnittsverdien, høyere for en by som ligger i innlandet.

Sport

La oss anta at det er flere fotballag som er rangert på et sett med parametere, for eksempel antall mål scoret og sluppet inn, scoringssjanser osv. Det er mest sannsynlig at det beste laget i denne gruppen vil ha bedre verdier på flere parametere. Jo mindre teamets standardavvik for hver av de presenterte parameterne, jo mer forutsigbart er teamets resultat balansert. På den annen side er et lag med stort standardavvik vanskelig å forutsi resultatet, noe som igjen forklares med en ubalanse, for eksempel et sterkt forsvar men et svakt angrep.

Å bruke standardavviket til lagparametere gjør det mulig, i en eller annen grad, å forutsi resultatet av en kamp mellom to lag, vurdere styrker og svakheter til lagene, og derfor de valgte kampmetodene.

Teknisk analyse

se også

Litteratur

Denne artikkelen foreslås slettet.

En forklaring av årsakene og den tilhørende diskusjonen finner du på siden Wikipedia: Skal slettes/17. desember 2012.
Mens diskusjonsprosessen ikke er fullført, kan du prøve å forbedre artikkelen, men du bør avstå fra å gi nytt navn eller slette innhold, se den videre handlingsveiledningen for flere detaljer.
Ikke fjern merket for sletting før slutten av diskusjonen. Administratorer: lenker her, historikk (sist endret), logger, slett.

* Borovikov, V. STATISTIKA. Kunsten å analysere data på en datamaskin: For fagfolk / V. Borovikov. - St. Petersburg. : Peter, 2003. - 688 s. - ISBN 5-272-00078-1.

Statistiske indikatorer

Beskrivende
statistikk

Kontinuerlige
data

Skjærfaktor	Gjennomsnittlig (aritmetisk, geometrisk, harmonisk) medianmodusområde
Variasjon	Rangering · Standardavvik· Variasjonskoeffisient · Kvantil (desil, Persentil/Persentil/Centil)
Øyeblikk	Forventning · Varians · Skjevhet · Kurtose

Diskret
data

Frekvens · Beredskapstabell

Statistisk
utgang og
undersøkelse
hypoteser

Statistisk konklusjon	Konfidensintervall (frekventistisk sannsynlighet) Troverdighetsintervall (bayesiansk inferens) Statistisk signifikans metaanalyse
Planlegger eksperiment	Populasjon · Prøveutforming · Områdeprøvetaking · Replikering · Klynger · Sensitivitet og spesifisitet
Prøvestørrelse	Statistisk styrke · Mål for effekt · Standardfeil
Samlet vurdering	Bayesiansk løsningsestimat ·

Standardavvik er et av de statistiske begrepene i bedriftsverdenen som gir troverdighet til folk som klarer å klare det godt i en samtale eller presentasjon, samtidig som det etterlater en vag forvirring for de som ikke vet hva det er, men er for flaue til å spørre. Faktisk forstår de fleste ledere ikke konseptet med standardavvik, og hvis du er en av dem, er det på tide at du slutter å leve en løgn. I dagens artikkel skal jeg fortelle deg hvordan dette undervurderte statistiske målet kan hjelpe deg bedre å forstå dataene du jobber med.

Hva måler standardavvik?

Tenk deg at du er eier av to butikker. Og for å unngå tap er det viktig å ha tydelig kontroll på lagersaldoene. I et forsøk på å finne ut hvilken leder som styrer beholdningen bedre, bestemmer du deg for å analysere de siste seks ukene med beholdning. Den gjennomsnittlige ukentlige lagerkostnaden for begge butikkene er omtrent den samme og utgjør ca. 32 konvensjonelle enheter. Ved første øyekast viser gjennomsnittlig avrenning at begge ledere presterer likt.

Men hvis du ser nærmere på aktivitetene til den andre butikken, vil du være overbevist om at selv om gjennomsnittsverdien er riktig, er variasjonen til aksjen veldig høy (fra 10 til 58 USD). Dermed kan vi konkludere med at gjennomsnittet ikke alltid evaluerer dataene riktig. Det er her standardavviket kommer inn.

Standardavviket viser hvordan verdiene er fordelt i forhold til gjennomsnittet i vår . Du kan med andre ord forstå hvor stor spredningen i avrenningen er fra uke til uke.

I vårt eksempel brukte vi Excels STDEV-funksjon for å beregne standardavviket sammen med gjennomsnittet.

For den første lederen var standardavviket 2. Dette forteller oss at hver verdi i utvalget i gjennomsnitt avviker 2 fra gjennomsnittet. Er det bra? La oss se på spørsmålet fra en annen vinkel - et standardavvik på 0 forteller oss at hver verdi i prøven er lik gjennomsnittet (i vårt tilfelle, 32,2). Dermed er et standardavvik på 2 ikke mye forskjellig fra 0, noe som indikerer at de fleste verdiene er nær gjennomsnittet. Jo nærmere standardavviket er 0, jo mer pålitelig er gjennomsnittet. Dessuten indikerer et standardavvik nær 0 liten variasjon i dataene. Det vil si at en avrenningsverdi med et standardavvik på 2 indikerer en utrolig konsistens til den første lederen.

For den andre butikken var standardavviket 18,9. Det vil si at kostnaden for avrenning i gjennomsnitt avviker med 18,9 fra gjennomsnittsverdien fra uke til uke. Vanvittig spredning! Jo lenger standardavviket er fra 0, jo mindre nøyaktig er gjennomsnittet. I vårt tilfelle indikerer tallet 18,9 at gjennomsnittsverdien (32,8 USD per uke) ganske enkelt ikke kan stole på. Det forteller oss også at ukentlig avrenning er svært varierende.

Dette er konseptet med standardavvik i et nøtteskall. Selv om det ikke gir innsikt i andre viktige statistiske målinger (Mode, Median...), spiller faktisk standardavvik en avgjørende rolle i de fleste statistiske beregninger. Å forstå prinsippene for standardavvik vil kaste lys over mange av forretningsprosessene dine.

Hvordan beregne standardavvik?

Så nå vet vi hva standardavvikstallet sier. La oss finne ut hvordan det beregnes.

La oss se på datasettet fra 10 til 70 i trinn på 10. Som du kan se, har jeg allerede beregnet standardavviksverdien for dem ved å bruke STANDARDEV-funksjonen i celle H2 (i oransje).

Nedenfor er trinnene Excel tar for å komme frem til 21.6.

Vær oppmerksom på at alle beregninger er visualisert for bedre forståelse. Faktisk, i Excel, skjer beregningen umiddelbart, og etterlater alle trinnene bak kulissene.

Først finner Excel prøvegjennomsnittet. I vårt tilfelle viste gjennomsnittet seg å være 40, som i neste trinn trekkes fra hver prøveverdi. Hver oppnådd forskjell kvadreres og summeres. Vi fikk en sum lik 2800, som må deles på antall utvalgselementer minus 1. Siden vi har 7 elementer, viser det seg at vi må dele 2800 på 6. Fra det oppnådde resultatet finner vi kvadratroten, denne tallet vil være standardavviket.

For de som ikke er helt klare på prinsippet om å beregne standardavviket ved hjelp av visualisering, gir jeg en matematisk tolkning av å finne denne verdien.

Funksjoner for beregning av standardavvik i Excel

Excel har flere typer standardavviksformler. Alt du trenger å gjøre er å skrive =STDEV og du vil se selv.

Det er verdt å merke seg at STDEV.V- og STDEV.G-funksjonene (den første og andre funksjonen i listen) dupliserer STDEV- og STDEV-funksjonene (henholdsvis den femte og sjette funksjonen i listen), som ble beholdt for kompatibilitet med tidligere versjoner av Excel.

Generelt indikerer forskjellen i endelsene til .B- og .G-funksjonene prinsippet for å beregne standardavviket til et utvalg eller en populasjon. Jeg har allerede forklart forskjellen mellom disse to matrisene i den forrige.

En spesiell egenskap ved funksjonene STANDARDEV og STANDDREV (den tredje og fjerde funksjonen i listen) er at når man beregner standardavviket til en matrise, tas logiske verdier og tekstverdier i betraktning. Tekst og sanne boolske verdier er 1, og falske boolske verdier er 0. Jeg kan ikke forestille meg en situasjon der jeg trenger disse to funksjonene, så jeg tror de kan ignoreres.