Standardafvigelse af en stokastisk variabel. Statistiske parametre

Standardafvigelse er en klassisk indikator for variabilitet fra beskrivende statistik.

Standardafvigelse, standardafvigelse, standardafvigelse, stikprøvestandardafvigelse (eng. standardafvigelse, STD, STDev) - en meget almindelig indikator for spredning i beskrivende statistik. Men fordi teknisk analyse er beslægtet med statistik; denne indikator kan (og bør) bruges i teknisk analyse til at opdage graden af ​​spredning af prisen på det analyserede instrument over tid. Betegnes med det græske symbol Sigma "σ".

Tak til Carl Gauss og Pearson for at tillade os at bruge standardafvigelse.

Ved brug af standardafvigelse i teknisk analyse, vender vi dette "spredningsindeks""V "volatilitetsindikator“, fastholde betydningen, men ændre termerne.

Hvad er standardafvigelse

Men udover de mellemliggende hjælpeberegninger, standardafvigelse er helt acceptabel for uafhængig beregning og applikationer i teknisk analyse. Som en aktiv læser af vores bladburdock bemærkede, " Jeg forstår stadig ikke, hvorfor standardafvigelsen ikke er inkluderet i sættet af standardindikatorer for indenlandske handelscentre«.

Virkelig, standardafvigelse kan måle variabiliteten af ​​et instrument på en klassisk og "ren" måde. Men desværre er denne indikator ikke så almindelig i værdipapiranalyser.

Anvendelse af standardafvigelse

Manuel beregning af standardafvigelsen er ikke særlig interessant, men nyttig for erfaring. Standardafvigelse kan udtrykkes formel STD=√[(∑(x-x ) 2)/n] , som lyder som roden af ​​summen af ​​kvadratiske forskelle mellem prøvens elementer og middelværdien divideret med antallet af elementer i prøven.

Hvis antallet af elementer i prøven overstiger 30, tager nævneren af ​​brøken under roden værdien n-1. Ellers bruges n.

Trin for trin standardafvigelsesberegning:

  1. beregne det aritmetiske gennemsnit af dataprøven
  2. trække dette gennemsnit fra hvert prøveelement
  3. vi kvadrerer alle de resulterende forskelle
  4. opsummer alle de resulterende kvadrater
  5. divider den resulterende mængde med antallet af elementer i prøven (eller med n-1, hvis n>30)
  6. beregn kvadratroden af ​​den resulterende kvotient (kaldet spredning)

Det er værd at bemærke, at denne variansberegning har en ulempe - den viser sig at være forudindtaget, dvs. dens matematiske forventning er ikke lig med den sande værdi af variansen. Læs mere om dette. Samtidig er alt ikke så slemt. Efterhånden som stikprøvestørrelsen øges, nærmer den sig stadig sin teoretiske analog, dvs. er asymptotisk fordomsfri. Derfor, når du arbejder med store prøvestørrelser, kan du bruge formlen ovenfor.

Det er nyttigt at oversætte tegnsproget til ordsproget. Det viser sig, at variansen er den gennemsnitlige kvadrat af afvigelserne. Det vil sige, at gennemsnitsværdien først beregnes, derefter tages forskellen mellem hver original- og gennemsnitsværdi, kvadreres, tilføjes og derefter divideres med antallet af værdier i populationen. Forskellen mellem en individuel værdi og gennemsnittet afspejler målet for afvigelsen. Den er kvadreret, så alle afvigelser udelukkende bliver positive tal og for at undgå gensidig ødelæggelse af positive og negative afvigelser, når de summeres. Så, givet de kvadrerede afvigelser, beregner vi blot det aritmetiske middelværdi. Gennemsnit - kvadratisk - afvigelser. Afvigelserne kvadreres, og gennemsnittet beregnes. Løsningen ligger i kun tre ord.

Men i sin rene form, såsom det aritmetiske middelværdi eller indeks, bruges spredning ikke. Det er snarere en hjælpe- og mellemindikator, der er nødvendig for andre typer statistiske analyser. Den har ikke engang en normal måleenhed. At dømme efter formlen er dette kvadratet på måleenheden for de oprindelige data. Uden en flaske, som de siger, kan du ikke finde ud af det.

(modul 111)

For at returnere variansen til virkeligheden, det vil sige at bruge den til mere hverdagsagtige formål, udvindes kvadratroden fra den. Det viser sig den såkaldte standardafvigelse (RMS). Der er navne "standardafvigelse" eller "sigma" (fra navnet på det græske bogstav). Standardafvigelsesformlen er:

For at få denne indikator for prøven, brug formlen:

Som med varians er der en lidt anden beregningsmulighed. Men efterhånden som prøven vokser, forsvinder forskellen.

Standardafvigelsen karakteriserer naturligvis også målet for dataspredning, men nu (i modsætning til spredning) kan den sammenlignes med de oprindelige data, da de har de samme måleenheder (dette fremgår tydeligt af beregningsformlen). Men denne indikator i sin rene form er ikke særlig informativ, da den indeholder for mange mellemliggende beregninger, der er forvirrende (afvigelse, kvadrat, sum, gennemsnit, rod). Det er dog allerede muligt at arbejde direkte med standardafvigelsen, fordi egenskaberne af denne indikator er velundersøgte og kendte. For eksempel er der dette tre sigma regel, som angiver, at dataene har 997 værdier ud af 1000 inden for ±3 sigma af det aritmetiske gennemsnit. Standardafvigelse, som et mål for usikkerhed, er også involveret i mange statistiske beregninger. Med dens hjælp bestemmes graden af ​​nøjagtighed af forskellige estimater og prognoser. Hvis variationen er meget stor, så vil standardafvigelsen også være stor, og derfor vil prognosen være unøjagtig, hvilket for eksempel kommer til udtryk i meget brede konfidensintervaller.

Variationskoefficienten

Standardafvigelsen giver et absolut estimat af spredningsmålet. Derfor kræves en relativ indikator for at forstå, hvor stor spredningen er i forhold til værdierne selv (dvs. uanset deres skala). Denne indikator kaldes variationskoefficient og beregnes ved hjælp af følgende formel:

Variationskoefficienten måles i procent (hvis ganget med 100%). Ved hjælp af denne indikator kan du sammenligne en række fænomener, uanset deres skala og måleenheder. Dette faktum er det, der gør variationskoefficienten så populær.

I statistikker er det accepteret, at hvis værdien af ​​variationskoefficienten er mindre end 33%, anses befolkningen for at være homogen; hvis den er mere end 33%, så er den heterogen. Det er svært for mig at kommentere noget her. Jeg ved ikke, hvem der definerede dette og hvorfor, men det betragtes som et aksiom.

Jeg føler, at jeg bliver revet med af tør teori og har brug for at bringe noget visuelt og figurativt med. På den anden side beskriver alle variationsindikatorer omtrent det samme, blot er de beregnet forskelligt. Derfor er det svært at vise en række eksempler. Kun værdierne af indikatorer kan variere, men ikke deres essens. Så lad os sammenligne, hvordan værdierne af forskellige variationsindikatorer adskiller sig for det samme sæt data. Lad os tage eksemplet med at beregne den gennemsnitlige lineære afvigelse (fra ). Her er kildedataene:

Og en tidsplan for at minde dig om.

Ved hjælp af disse data beregner vi forskellige variationsindikatorer.

Gennemsnitsværdien er det sædvanlige aritmetiske gennemsnit.

Variationsområdet er forskellen mellem maksimum og minimum:

Den gennemsnitlige lineære afvigelse beregnes ved hjælp af formlen:

Standardafvigelse:

Lad os opsummere beregningen i en tabel.

Som det kan ses, giver den lineære middelværdi og standardafvigelse lignende værdier for graden af ​​datavariation. Varians er sigma squared, så det vil altid være et relativt stort tal, hvilket faktisk ikke betyder noget. Variationsområdet er forskellen mellem ekstreme værdier og kan tale meget.

Lad os opsummere nogle resultater.

Variation af en indikator afspejler variabiliteten af ​​en proces eller et fænomen. Dens grad kan måles ved hjælp af flere indikatorer.

1. Variationsområde - forskellen mellem maksimum og minimum. Afspejler rækken af ​​mulige værdier.
2. Gennemsnitlig lineær afvigelse – afspejler gennemsnittet af de absolutte (modulo) afvigelser af alle værdier af den analyserede population fra deres gennemsnitsværdi.
3. Dispersion - det gennemsnitlige kvadrat af afvigelser.
4. Standardafvigelse er roden af ​​dispersionen (middelkvadrat af afvigelser).
5. Variationskoefficienten er den mest universelle indikator, der afspejler graden af ​​spredning af værdier, uanset deres skala og måleenheder. Variationskoefficienten måles i procent og kan bruges til at sammenligne variationen af ​​forskellige processer og fænomener.

I statistisk analyse er der således et system af indikatorer, der afspejler fænomenernes homogenitet og processernes stabilitet. Variationsindikatorer har ofte ikke uafhængig betydning og bruges til yderligere dataanalyse (beregning af konfidensintervaller

Standardafvigelse

Den mest perfekte karakteristik af variation er den gennemsnitlige kvadratafvigelse, som kaldes standarden (eller standardafvigelsen). Standardafvigelse() er lig med kvadratroden af ​​den gennemsnitlige kvadratafvigelse af individuelle værdier af attributten fra det aritmetiske middelværdi:

Standardafvigelsen er enkel:

Vægtet standardafvigelse anvendes på grupperede data:

Følgende forhold finder sted mellem middelkvadrat- og middellineære afvigelser under normale fordelingsforhold: ~ 1,25.

Standardafvigelsen, som er det vigtigste absolutte mål for variation, bruges til at bestemme ordinatværdierne for en normalfordelingskurve, i beregninger relateret til organiseringen af ​​prøveobservation og fastlæggelse af nøjagtigheden af ​​prøvekarakteristika samt til vurdering af variationsgrænser for en egenskab i en homogen population.

18. Varians, dens typer, standardafvigelse.

Varians af en tilfældig variabel- et mål for spredningen af ​​en given stokastisk variabel, dvs. dens afvigelse fra den matematiske forventning. I statistik bruges ofte notationen eller. Kvadratroden af ​​variansen kaldes normalt standardafvigelse, standardafvigelse eller standardopslag.

Total varians (σ 2) måler variationen af ​​en egenskab i sin helhed under indflydelse af alle de faktorer, der forårsagede denne variation. Samtidig er det, takket være grupperingsmetoden, muligt at identificere og måle variationen på grund af grupperingskarakteristikken og variationen, der opstår under påvirkning af uopklarede faktorer.

Intergroup varians (σ 2 m.gr) karakteriserer systematisk variation, det vil sige forskelle i værdien af ​​den undersøgte egenskab, der opstår under påvirkning af egenskaben - den faktor, der danner grundlaget for gruppen.

Standardafvigelse(synonymer: standardafvigelse, standardafvigelse, kvadratafvigelse; relaterede termer: standardafvigelse, standard spredning) - i sandsynlighedsteori og statistik, den mest almindelige indikator for spredningen af ​​værdierne af en tilfældig variabel i forhold til dens matematiske forventning. Med begrænsede arrays af stikprøver af værdier, i stedet for den matematiske forventning, bruges det aritmetiske middelværdi af sættet af prøver.

Standardafvigelsen måles i måleenheder af selve den stokastiske variabel og bruges ved beregning af standardfejlen for det aritmetiske middelværdi, ved konstruktion af konfidensintervaller, ved statistisk test af hypoteser, ved måling af den lineære sammenhæng mellem stokastiske variable. Defineret som kvadratroden af ​​variansen af ​​en tilfældig variabel.

Standardafvigelse:

Standardafvigelse(estimat af standardafvigelsen for en stokastisk variabel x i forhold til dens matematiske forventning baseret på et upartisk estimat af dens varians):

hvor er spredningen; - jeg element i udvælgelsen; - prøvestørrelse; - aritmetisk gennemsnit af prøven:

Det skal bemærkes, at begge estimater er partiske. I det generelle tilfælde er det umuligt at konstruere et objektivt skøn. I dette tilfælde er estimatet baseret på det upartiske variansestimat konsistent.

19. Essens, omfang og procedure til bestemmelse af mode og median.

Ud over effektgennemsnit i statistik anvendes til den relative karakterisering af værdien af ​​en varierende karakteristik og den interne struktur af distributionsserier strukturelle gennemsnit, som hovedsageligt er repræsenteret ved mode og median.

Mode- Dette er den mest almindelige variant af serien. Mode bruges for eksempel til at bestemme størrelsen på tøj og sko, der er størst efterspørgsel blandt kunderne. Tilstanden for en diskret serie er den variant med den højeste frekvens. Når man beregner tilstanden for en intervalvariationsserie, er det ekstremt vigtigt først at bestemme det modale interval (ved maksimal frekvens), og derefter - værdien af ​​den modale værdi af attributten ved hjælp af formlen:

§ - betydningen af ​​mode

§ - nedre grænse for det modale interval

§ - intervalværdi

§ - modal intervalfrekvens

§ - frekvensen af ​​intervallet forud for modalen

§ - hyppigheden af ​​intervallet efter modalen

Median - denne værdi af attributten, ĸᴏᴛᴏᴩᴏᴇ ligger i grundlaget for den rangerede serie og deler denne serie i to lige store dele.

For at bestemme medianen i en diskret serie hvis frekvenser er tilgængelige, skal du først beregne den halve sum af frekvenser og derefter bestemme, hvilken værdi af varianten der falder på den. (Hvis den sorterede serie indeholder et ulige antal karakteristika, beregnes mediantallet ved hjælp af formlen:

M e = (n (antal funktioner i alt) + 1)/2,

i tilfælde af et lige antal træk, vil medianen være lig med gennemsnittet af de to træk i midten af ​​rækken).

Ved beregning af medianen for intervalvariationsserier Først skal du bestemme medianintervallet, inden for hvilket medianen er placeret, og derefter bestemme værdien af ​​medianen ved hjælp af formlen:

§ - den nødvendige median

§ - nedre grænse for det interval, der indeholder medianen

§ - intervalværdi

§ - sum af frekvenser eller antal serieled

§ - summen af ​​de akkumulerede frekvenser af intervallerne forud for medianen

§ - frekvens af medianintervallet

Eksempel. Find tilstanden og medianen.

Løsning: I dette eksempel er det modale interval inden for aldersgruppen 25-30 år, da dette interval har den højeste frekvens (1054).

Lad os beregne størrelsen af ​​tilstanden:

Det betyder, at elevernes transportalder er 27 år.

Lad os beregne medianen. Medianintervallet er i aldersgruppen 25-30 år, da der inden for dette interval er en mulighed, der deler befolkningen i to lige store dele (Σf i /2 = 3462/2 = 1731). Dernæst erstatter vi de nødvendige numeriske data i formlen og får medianværdien:

Det betyder, at den ene halvdel af eleverne er under 27,4 år, og den anden halvdel er over 27,4 år.

Ud over mode og median bruges indikatorer som kvartiler, der deler den rangerede serie i 4 lige store dele, deciler - 10 dele og percentiler - i 100 dele.

20. Begrebet prøveobservation og dets omfang.

Selektiv observation gælder ved brug af løbende overvågning fysisk umuligt på grund af en stor mængde data el ikke økonomisk gennemførligt. Fysisk umulighed opstår for eksempel, når man studerer passagerstrømme, markedspriser og familiebudgetter. Økonomisk uhensigtsmæssighed opstår ved vurdering af kvaliteten af ​​varer i forbindelse med deres ødelæggelse, for eksempel smagning, test af mursten for styrke osv.

De statistiske enheder udvalgt til observation er prøvepopulation eller prøve, og hele deres array - almindelig befolkning(GS). Hvori antal enheder i stikprøven betegne n, og i hele GS - N. Holdning n/N normalt kaldes relativ størrelse eller prøveandel.

Kvaliteten af ​​prøveobservationsresultater afhænger af prøverepræsentativitet, altså på hvor repræsentativ den er i GS. For at sikre repræsentativiteten af ​​stikprøven er det ekstremt vigtigt at overholde princippet om tilfældig udvælgelse af enheder, som antager, at inddragelsen af ​​en HS-enhed i prøven ikke kan påvirkes af andre faktorer end tilfældigheder.

Eksisterer 4 måder at vælge tilfældigt på at prøve:

  1. Faktisk tilfældigt udvælgelse eller "lotto-metoden", når statistiske værdier tildeles serienumre, registreret på bestemte genstande (for eksempel tønder), som derefter blandes i en beholder (for eksempel i en pose) og vælges tilfældigt. I praksis udføres denne metode ved hjælp af en tilfældig talgenerator eller matematiske tabeller med tilfældige tal.
  2. Mekanisk udvælgelse i henhold til hvilken hver ( N/n)-th værdi af den almindelige befolkning. For eksempel, hvis den indeholder 100.000 værdier, og du skal vælge 1.000, vil hver 100.000 / 1000 = 100. værdi blive inkluderet i prøven. Desuden, hvis de ikke er rangeret, så vælges den første tilfældigt fra de første hundrede, og numrene på de andre vil være hundrede højere. For eksempel, hvis den første enhed var nr. 19, så skulle den næste være nr. 119, derefter nr. 219, så nr. 319 osv. Hvis befolkningsenhederne er rangeret, vælges først nr. 50, derefter nr. 150, derefter nr. 250 og så videre.
  3. Udvælgelse af værdier fra et heterogent dataarray udføres stratificeret(stratificeret) metode, når populationen først opdeles i homogene grupper, hvortil der anvendes tilfældig eller mekanisk selektion.
  4. En særlig prøveudtagningsmetode er seriel selektion, hvor de tilfældigt eller mekanisk udvælger ikke individuelle værdier, men deres rækker (sekvenser fra et eller andet tal til et eller andet tal i en række), inden for hvilke der udføres kontinuerlig observation.

Kvaliteten af ​​prøveobservationer afhænger også af prøvetype: gentaget eller uigentagelig.genvalg Statistiske værdier eller deres serier, der er inkluderet i stikprøven, returneres til den generelle befolkning efter brug, og har en chance for at blive inkluderet i en ny prøve. Desuden har alle værdier i den generelle befolkning samme sandsynlighed for at blive inkluderet i stikprøven. Gentagende valg betyder, at de statistiske værdier eller deres serier inkluderet i stikprøven ikke vender tilbage til den generelle befolkning efter brug, og derfor stiger sandsynligheden for at blive inkluderet i den næste prøve for de resterende værdier af sidstnævnte.

Ikke-gentagne prøveudtagninger giver mere nøjagtige resultater og bruges derfor oftere. Men der er situationer, hvor det ikke kan anvendes (studerer passagerstrømme, forbrugernes efterspørgsel osv.), og derefter foretages en gentagen udvælgelse.

21. Maksimal observationsstikprøvefejl, gennemsnitlig prøveudtagningsfejl, procedure for deres beregning.

Lad os i detaljer overveje metoderne anført ovenfor til at danne en stikprøvepopulation og de repræsentativitetsfejl, der opstår. Helt tilfældigt stikprøven er baseret på at udvælge enheder fra populationen tilfældigt uden nogen systematiske elementer. Rent teknisk udføres egentlig tilfældig udvælgelse ved at trække lod (for eksempel lotterier) eller ved at bruge en tabel med tilfældige tal.

Korrekt tilfældig udvælgelse "i sin rene form" bruges sjældent i praksis med selektiv observation, men det er den første blandt andre typer udvælgelse; det implementerer de grundlæggende principper for selektiv observation. Lad os overveje nogle spørgsmål om teorien om prøvetagningsmetoden og fejlformlen for en simpel tilfældig stikprøve.

Sampling bias- ϶ᴛᴏ forskellen mellem værdien af ​​parameteren i den generelle population og dens værdi beregnet ud fra resultaterne af stikprøveobservation. Det er vigtigt at bemærke, at for den gennemsnitlige kvantitative karakteristik bestemmes stikprøvefejlen af

Indikatoren kaldes normalt den maksimale prøveudtagningsfejl. Stikprøvegennemsnittet er en tilfældig variabel, der kan antage forskellige værdier baseret på hvilke enheder, der indgår i stikprøven. Derfor er stikprøvefejl også tilfældige variable og kan antage forskellige værdier. Af denne grund bestemmes gennemsnittet af mulige fejl - gennemsnitlig stikprøvefejl, som afhænger af:

· stikprøvestørrelse: jo større antal, jo mindre er den gennemsnitlige fejl;

· graden af ​​ændring i karakteristikken, der undersøges: jo mindre variationen af ​​karakteristikken er, og følgelig spredningen, jo mindre er den gennemsnitlige stikprøvefejl.

tilfældigt genvalg gennemsnitsfejlen beregnes. I praksis kendes den generelle varians ikke nøjagtigt, men i sandsynlighedsteorien er det bevist det . Da værdien for tilstrækkelig stor n er tæt på 1, kan vi antage, at . Derefter skal den gennemsnitlige prøveudtagningsfejl beregnes: . Men i tilfælde af en lille prøve (med n<30) коэффициент крайне важно учитывать, и среднюю ошибку малой выборки рассчитывать по формуле .

tilfældig ikke-gentagende prøveudtagning de givne formler justeres med værdien. Så er den gennemsnitlige ikke-gentagne prøveudtagningsfejl: Og . Fordi er altid mindre end , så er multiplikatoren () altid mindre end 1. Det betyder, at gennemsnitsfejlen ved gentagen udvælgelse altid er mindre end ved gentagen udvælgelse. Mekanisk prøveudtagning bruges, når befolkningen generelt er ordnet på en eller anden måde (f.eks. vælgerlister i alfabetisk rækkefølge, telefonnumre, hus- og lejlighedsnumre). Udvælgelsen af ​​enheder udføres med et bestemt interval, som er lig med den omvendte værdi af prøveudtagningsprocenten. Så med en stikprøve på 2 % vælges hver 50 enhed = 1/0,02, med en stikprøve på 5 % vælges hver 1/0,05 = 20 enheder af den generelle befolkning.

Referencepunktet vælges på forskellige måder: tilfældigt, fra midten af ​​intervallet, med en ændring i referencepunktet. Det vigtigste er at undgå systematiske fejl. For eksempel, med en stikprøve på 5 %, hvis den første enhed er den 13., så er de næste 33, 53, 73 osv.

Med hensyn til nøjagtighed er mekanisk udvælgelse tæt på faktisk tilfældig prøveudtagning. Af denne grund bruges passende tilfældige udvælgelsesformler for at bestemme den gennemsnitlige fejl ved mekanisk prøvetagning.

typisk udvalg befolkningen, der undersøges, er foreløbigt opdelt i homogene, ens grupper. For eksempel, når man undersøger virksomheder, er disse industrier, delsektorer, når man studerer befolkningen, er disse regioner, sociale eller aldersgrupper. Dernæst foretages en uafhængig udvælgelse fra hver gruppe mekanisk eller rent tilfældigt.

Typisk prøveudtagning giver mere nøjagtige resultater end andre metoder. Indtastning af den generelle population sikrer, at hver typologisk gruppe er repræsenteret i stikprøven, hvilket gør det muligt at eliminere indflydelsen af ​​intergruppevarians på den gennemsnitlige stikprøvefejl. Derfor, når man finder fejlen for en typisk prøve i henhold til reglen om at tilføje varians (), er det ekstremt vigtigt kun at tage højde for gennemsnittet af gruppevarianserne. Derefter den gennemsnitlige prøveudtagningsfejl: med gentagen prøveudtagning, med ikke-gentagne prøveudtagning , Hvor – gennemsnittet af afvigelser inden for gruppe i stikprøven.

Seriel (eller rede) valg bruges, når populationen er opdelt i serier eller grupper før start af stikprøveundersøgelsen. Disse serier omfatter emballage af færdige produkter, elevgrupper og brigader. Serier til undersøgelse udvælges mekanisk eller rent tilfældigt, og inden for rækken gennemføres en løbende undersøgelse af enheder. Af denne grund afhænger den gennemsnitlige stikprøvefejl kun af intergroup (mellem serier) variansen, som beregnes ved hjælp af formlen: hvor r er antallet af udvalgte serier; – gennemsnit af den i-te serie. Den gennemsnitlige fejl ved seriel prøvetagning beregnes: med gentagen prøvetagning, med ikke-gentagen prøvetagning , hvor R er det samlede antal serier. Kombineret selektion er en kombination af de overvejede selektionsmetoder.

Den gennemsnitlige stikprøvefejl for enhver stikprøvemetode afhænger hovedsageligt af stikprøvens absolutte størrelse og i mindre grad af stikprøvens procentdel. Lad os antage, at der foretages 225 observationer i det første tilfælde fra en befolkning på 4.500 enheder og i det andet fra en befolkning på 225.000 enheder. Varianserne i begge tilfælde er lig med 25. Så i det første tilfælde vil stikprøvefejlen med et valg på 5 % være: I det andet tilfælde, med 0,1% valg, vil det være lig med:

Men når stikprøveprocenten blev reduceret med 50 gange, steg stikprøvefejlen en smule, da stikprøvestørrelsen ikke ændrede sig. Lad os antage, at stikprøvestørrelsen øges til 625 observationer. I dette tilfælde er stikprøvefejlen: Forøgelse af stikprøven med 2,8 gange med samme populationsstørrelse reducerer størrelsen af ​​stikprøvefejlen med mere end 1,6 gange.

22. Metoder og metoder til at danne en stikprøvepopulation.

I statistikker bruges forskellige metoder til at danne stikprøvepopulationer, som bestemmes af undersøgelsens mål og afhænger af undersøgelsesobjektets specifikationer.

Hovedbetingelsen for at gennemføre en stikprøveundersøgelse er at forhindre forekomsten af ​​systematiske fejl, der opstår som følge af overtrædelse af princippet om lige muligheder for hver enhed af den generelle befolkning, der skal indgå i stikprøven. Forebyggelse af systematiske fejl opnås gennem brug af videnskabeligt baserede metoder til at danne en stikprøvepopulation.

Der er følgende metoder til at udvælge enheder fra den generelle befolkning: 1) individuel udvælgelse - individuelle enheder udvælges til stikprøven; 2) gruppeudvælgelse - stikprøven omfatter kvalitativt homogene grupper eller serier af enheder, der undersøges; 3) kombineret udvælgelse er en kombination af individuelt og gruppeudvalg. Udvælgelsesmetoder bestemmes af reglerne for dannelse af en prøvepopulation.

Prøven skal være:

  • faktisk tilfældigt består i, at stikprøvepopulationen er dannet som et resultat af tilfældig (utilsigtet) udvælgelse af individuelle enheder fra den generelle befolkning. I dette tilfælde bestemmes antallet af udvalgte enheder i stikprøvepopulationen normalt ud fra den accepterede stikprøveandel. Stikprøveandelen er forholdet mellem antallet af enheder i stikprøvepopulationen n og antallet af enheder i den generelle population N, ᴛ.ᴇ.
  • mekanisk består i, at udvælgelsen af ​​enheder i stikprøvepopulationen foretages ud fra den generelle population, opdelt i lige store intervaller (grupper). I dette tilfælde er størrelsen af ​​intervallet i populationen lig med det gensidige af stikprøveandelen. Så med en stikprøve på 2 % vælges hver 50. enhed (1:0,02), med en stikprøve på 5 %, hver 20. enhed (1:0,05) osv. Men i overensstemmelse med den accepterede andel af selektion er den almindelige befolkning så at sige mekanisk opdelt i lige store grupper. Fra hver gruppe vælges kun én enhed til prøven.
  • typisk - hvor den almindelige befolkning først inddeles i homogene typiske grupper. Dernæst fra hver typisk gruppe bruges en rent tilfældig eller mekanisk prøve til individuelt at udvælge enheder i prøvepopulationen. Et vigtigt træk ved en typisk prøve er, at den giver mere nøjagtige resultater sammenlignet med andre metoder til at udvælge enheder i prøvepopulationen;
  • seriel- hvor den almindelige befolkning er opdelt i grupper af lige store - serier. Serier udvælges i stikprøvepopulationen. Inden for serien udføres løbende observation af de enheder, der indgår i serien;
  • kombineret- prøveudtagningen bør være to-trins. I dette tilfælde opdeles befolkningen først i grupper. Dernæst udvælges grupper, og inden for sidstnævnte udvælges individuelle enheder.

I statistikker skelnes der mellem følgende metoder til at udvælge enheder i en stikprøvepopulation:

  • enkelt trin prøveudtagning - hver udvalgt enhed udsættes straks for undersøgelse i henhold til et givet kriterium (korrekt tilfældig og seriel prøveudtagning);
  • flertrins stikprøve - der foretages en udvælgelse fra den generelle population af individuelle grupper, og individuelle enheder udvælges fra grupperne (typisk stikprøve med en mekanisk metode til at udvælge enheder i stikprøvepopulationen).

Derudover er der:

  • genvalg- i henhold til skemaet for den returnerede bold. I dette tilfælde returneres hver enhed eller serie inkluderet i stikprøven til den generelle befolkning og har derfor en chance for at blive inkluderet i stikprøven igen;
  • gentag valg- efter ordningen med ikke-returneret bold. Det har mere nøjagtige resultater med samme prøvestørrelse.

23. Bestemmelse af den ekstremt vigtige stikprøvestørrelse (ved hjælp af Elevens t-tabel).

Et af de videnskabelige principper i prøveudtagningsteori er at sikre, at et tilstrækkeligt antal enheder udvælges. Teoretisk er den ekstreme vigtighed af at overholde dette princip præsenteret i proofs of limit-sætningerne i sandsynlighedsteorien, som gør det muligt at fastslå, hvilken volumen af ​​enheder der skal vælges fra populationen, så den er tilstrækkelig og sikrer stikprøvens repræsentativitet.

Et fald i standardprøvetagningsfejlen og derfor en stigning i estimatets nøjagtighed er altid forbundet med en stigning i stikprøvestørrelsen; derfor er det allerede på tidspunktet for organisering af en prøveobservation nødvendigt at beslutte, hvad størrelsen er. af prøvepopulationen bør være for at sikre den nødvendige nøjagtighed af observationsresultaterne. Beregningen af ​​det ekstremt vigtige prøvevolumen er konstrueret ved hjælp af formler afledt af formlerne for de maksimale prøveudtagningsfejl (A), svarende til en bestemt type og udvælgelsesmetode. Så for en tilfældig gentaget stikprøvestørrelse (n) har vi:

Essensen af ​​denne formel er, at med tilfældig gentagen stikprøve af ekstremt vigtige tal, er stikprøvestørrelsen direkte proportional med kvadratet af konfidenskoefficienten (t2) og varians af variationskarakteristikken (a2) og er omvendt proportional med kvadratet af den maksimale prøveudtagningsfejl (a2). Især med en stigning i den maksimale fejl med en faktor på to, bør den påkrævede stikprøvestørrelse reduceres med en faktor på fire. Af de tre parametre er to (t og?) sat af forskeren. Samtidig har forskeren ud fra målet

og problemerne med en stikprøveundersøgelse skal løse spørgsmålet: i hvilken kvantitativ kombination er det bedre at inkludere disse parametre for at sikre den optimale løsning? I et tilfælde kan han være mere tilfreds med pålideligheden af ​​de opnåede resultater (t) end med målingen af ​​nøjagtighed (?), i et andet - omvendt. Det er sværere at løse problemet med værdien af ​​den maksimale prøvetagningsfejl, da forskeren ikke har denne indikator på tidspunktet for udformningen af ​​prøveobservationen; derfor er det i praksis sædvanligt at indstille værdien af ​​den maksimale prøvetagningsfejl , normalt inden for 10 % af det forventede gennemsnitlige niveau for attributten . Etablering af det estimerede gennemsnit kan gribes an på forskellige måder: ved at bruge data fra lignende tidligere undersøgelser eller ved at bruge data fra stikprøverammen og udføre en lille pilotprøve.

Det sværeste at fastslå, når man designer en stikprøveobservation, er den tredje parameter i formel (5.2) - variansen af ​​prøvepopulationen. I dette tilfælde er det ekstremt vigtigt at bruge al den information, forskeren har til rådighed, som er opnået i tidligere lignende undersøgelser og pilotundersøgelser.

Spørgsmålet om at bestemme den ekstremt vigtige stikprøvestørrelse bliver mere kompliceret, hvis stikprøveundersøgelsen involverer undersøgelse af flere karakteristika ved stikprøveenheder. I dette tilfælde er gennemsnitsniveauerne for hver af egenskaberne og deres variation som regel forskellige, og i denne henseende er det kun muligt at bestemme, hvilken varians af hvilke af karakteristikaene der skal foretrækkes under hensyntagen til formålet og målene af undersøgelsen.

Ved design af en prøveobservation antages en forudbestemt værdi af den tilladte prøvetagningsfejl i overensstemmelse med målene for en bestemt undersøgelse og sandsynligheden for konklusioner baseret på observationsresultaterne.

Generelt giver formlen for den maksimale fejl i prøvegennemsnittet os mulighed for at bestemme:

‣‣‣ størrelsen af ​​mulige afvigelser af indikatorerne for den generelle befolkning fra indikatorerne for stikprøvepopulationen;

‣‣‣ den nødvendige stikprøvestørrelse for at sikre den nødvendige nøjagtighed, hvor grænserne for mulige fejl ikke overstiger en bestemt specificeret værdi;

‣‣‣ sandsynligheden for, at fejlen i stikprøven vil have en specificeret grænse.

Elevfordeling i sandsynlighedsteori er det en én-parameter familie af absolut kontinuerte fordelinger.

24. Dynamisk serie (interval, moment), afsluttende dynamisk serie.

Dynamics serie- disse er værdierne af statistiske indikatorer, der præsenteres i en bestemt kronologisk rækkefølge.

Hver tidsserie indeholder to komponenter:

1) indikatorer for tidsperioder(år, kvartaler, måneder, dage eller datoer);

2) indikatorer, der karakteriserer det undersøgte objekt for tidsperioder eller på tilsvarende datoer, som kaldes serie niveauer.

Serieniveauer er udtrykt i både absolutte og gennemsnitlige eller relative værdier. Under hensyntagen til afhængigheden af ​​indikatorernes art opbygges dynamiske serier af absolutte, relative og gennemsnitlige værdier. Dynamiske serier af relative og gennemsnitlige værdier er konstrueret på basis af afledte serier af absolutte værdier. Der er interval- og momentrækker af dynamikker.

Dynamisk interval serie indeholder værdierne af indikatorer for bestemte perioder. I en intervalserie kan niveauer summeres for at få fænomenets volumen over en længere periode, eller de såkaldte akkumulerede totaler.

Dynamisk øjebliksserie afspejler værdierne af indikatorer på et bestemt tidspunkt (tidspunkt). I momentserier er forskeren muligvis kun interesseret i forskellen i fænomener, der afspejler ændringen i seriens niveau mellem bestemte datoer, da summen af ​​niveauerne her ikke har noget reelt indhold. Akkumulerede totaler beregnes ikke her.

Den vigtigste betingelse for korrekt konstruktion af tidsserier er sammenlignelighed af serieniveauer hører til forskellige perioder. Niveauerne skal præsenteres i homogene mængder, og der skal være ens fuldstændighed af dækning af forskellige dele af fænomenet.

For at undgå forvrængning af den reelle dynamik udføres der i statistisk forskning foreløbige beregninger (afslutning af dynamikrækken), som går forud for den statistiske analyse af tidsserien. Under lukker rækken af ​​dynamikker Det er generelt accepteret at forstå kombinationen i en serie af to eller flere serier, hvis niveauer er beregnet ved hjælp af forskellige metoder eller ikke svarer til territoriale grænser osv. Lukning af dynamikserien kan også indebære at bringe de absolutte niveauer af dynamikserien til et fælles grundlag, hvilket neutraliserer uforligneligheden af ​​dynamikseriens niveauer.

25. Begrebet sammenlignelighed af dynamikserier, koefficienter, vækst og vækstrater.

Dynamics serie- disse er en række statistiske indikatorer, der karakteriserer udviklingen af ​​naturlige og sociale fænomener over tid. Statistiske samlinger udgivet af Ruslands statsstatistiske komité indeholder et stort antal dynamikserier i tabelform. Dynamiske serier gør det muligt at identificere udviklingsmønstre for de fænomener, der undersøges.

Dynamics-serien indeholder to typer indikatorer. Tidsindikatorer(år, kvartaler, måneder osv.) eller tidspunkter (i begyndelsen af ​​året, i begyndelsen af ​​hver måned osv.). Rækkeniveauindikatorer. Indikatorer for niveauerne af dynamikserier kan udtrykkes i absolutte værdier (produktproduktion i tons eller rubler), relative værdier (andel af bybefolkningen i %) og gennemsnitlige værdier (gennemsnitlig løn for industriarbejdere efter år , etc.). I tabelform indeholder en tidsserie to kolonner eller to rækker.

Korrekt konstruktion af tidsserier kræver opfyldelse af en række krav:

  1. alle indikatorer for en række dynamikker skal være videnskabeligt underbyggede og pålidelige;
  2. indikatorer for en række dynamikker skal være sammenlignelige over tid, ᴛ.ᴇ. skal beregnes for de samme tidsperioder eller på de samme datoer;
  3. indikatorer for en række dynamikker skal være sammenlignelige på tværs af territoriet;
  4. indikatorer for en række dynamikker skal være sammenlignelige i indhold, ᴛ.ᴇ. beregnet efter en enkelt metode på samme måde;
  5. indikatorer for en række dynamikker bør være sammenlignelige på tværs af rækken af ​​bedrifter, der tages i betragtning. Alle indikatorer for en række dynamikker skal angives i de samme måleenheder.

Statistiske indikatorer kan karakterisere enten resultaterne af den proces, der undersøges over en periode, eller tilstanden af ​​det fænomen, der undersøges på et bestemt tidspunkt, ᴛ.ᴇ. indikatorer kan være interval (periodiske) og momentane. Følgelig er dynamikserierne til at begynde med enten interval eller moment. Moment dynamics-serier kommer til gengæld med lige og ulige tidsintervaller.

Den originale dynamikserie kan omdannes til en række gennemsnitsværdier og en række relative værdier (kæde og grundlæggende). Sådanne tidsserier kaldes afledte tidsserier.

Metoden til at beregne gennemsnitsniveauet i dynamikserien er forskellig, afhængig af typen af ​​dynamikserien. Ved hjælp af eksempler vil vi overveje typerne af dynamikserier og formler til beregning af gennemsnitsniveauet.

Absolutte stigninger (Δy) viser, hvor mange enheder seriens efterfølgende niveau har ændret sig i forhold til det foregående (gr. 3. - kæde absolutte stigninger) eller sammenlignet med det oprindelige niveau (gr. 4. - grundlæggende absolutte stigninger). Beregningsformlerne kan skrives som følger:

Når seriens absolutte værdier falder, vil der være henholdsvis et "fald" eller "fald".

Absolutte vækstindikatorer indikerer, at f.eks. i 1998. produktionen af ​​produkt "A" steg i forhold til 1997. med 4 tusinde tons, og sammenlignet med 1994 ᴦ. - med 34 tusinde tons; for øvrige år, se tabel. 11,5 gr.
Opslået på ref.rf
3 og 4.

Vækstrate viser, hvor mange gange seriens niveau har ændret sig i forhold til den foregående (gr. 5 - kædekoefficienter for vækst eller fald) eller sammenlignet med det oprindelige niveau (gr. 6 - grundlæggende vækst- eller faldkoefficienter). Beregningsformlerne kan skrives som følger:

Væksthastigheder vis hvor mange procent det næste niveau i serien er sammenlignet med det foregående (kolonne 7 - kædevæksthastigheder) eller sammenlignet med det indledende niveau (gr. 8 - basisvæksthastigheder). Beregningsformlerne kan skrives som følger:

Så for eksempel i 1997. produktionsvolumen for produkt "A" sammenlignet med 1996 ᴦ. udgjorde 105,5 % (

Vækstrate vis med, hvor mange procent niveauet i rapporteringsperioden steg i forhold til den foregående (kolonne 9 - kædevækstrater) eller sammenlignet med det oprindelige niveau (kolonne 10 - grundlæggende vækstrater). Beregningsformlerne kan skrives som følger:

T pr = T r - 100 % eller T pr = absolut vækst / niveau for den foregående periode * 100 %

Så for eksempel i 1996. sammenlignet med 1995 ᴦ. Produkt "A" blev produceret mere med 3,8% (103,8% - 100%) eller (8:210)x100%, og sammenlignet med 1994 ᴦ. - med 9 % (109 % - 100 %).

Hvis de absolutte niveauer i serien falder, vil hastigheden være mindre end 100%, og følgelig vil der være en faldhastighed (stigningshastigheden med et minustegn).

Absolut værdi på 1 % stigning(gr.
Opslået på ref.rf
11) viser, hvor mange enheder der skal produceres i en given periode, så niveauet for den foregående periode stiger med 1 %. I vores eksempel, i 1995 ᴦ. det var nødvendigt at producere 2,0 tusinde tons, og i 1998 ᴦ. - 2,3 tusinde tons, ᴛ.ᴇ. meget større.

Den absolutte værdi af 1% vækst kan bestemmes på to måder:

§ niveauet for den foregående periode divideret med 100;

§ kædens absolutte stigninger divideres med de tilsvarende kædevækstrater.

Absolut værdi på 1 % stigning =

I dynamik, især over en længere periode, er en fælles analyse af vækstraten med indholdet af hver procentvise stigning eller fald vigtig.

Bemærk, at den overvejede metode til analyse af tidsserier er anvendelig både for tidsserier, hvis niveauer er udtrykt i absolutte værdier (t, tusind rubler, antal ansatte osv.), og for tidsserier, hvis niveauer er udtrykt i relative indikatorer (% af defekter, % askeindhold i kul osv.) eller gennemsnitsværdier (gennemsnitligt udbytte i c/ha, gennemsnitsløn osv.).

Sammen med de betragtede analytiske indikatorer, beregnet for hvert år i sammenligning med det tidligere eller indledende niveau, når man analyserer dynamikserier, er det ekstremt vigtigt at beregne de gennemsnitlige analytiske indikatorer for perioden: seriens gennemsnitlige niveau, den gennemsnitlige årlige absolutte stigning (fald) og den gennemsnitlige årlige vækstrate og vækstrate .

Metoder til beregning af det gennemsnitlige niveau af en række dynamikker blev diskuteret ovenfor. I den intervaldynamikserie, vi overvejer, beregnes seriens gennemsnitlige niveau ved hjælp af den simple aritmetiske middelformel:

Gennemsnitlig årlig produktionsmængde af produktet for 1994-1998. udgjorde 218,4 tusinde tons.

Den gennemsnitlige årlige absolutte vækst beregnes også ved hjælp af den aritmetiske middelformel

Standardafvigelse - koncept og typer. Klassificering og funktioner i kategorien "Mean square deviation" 2017, 2018.

Ved statistisk test af hypoteser, ved måling af en lineær sammenhæng mellem stokastiske variable.

Standardafvigelse:

Standardafvigelse(estimat af standardafvigelsen for den tilfældige variabel Gulv, væggene omkring os og loftet, x i forhold til dens matematiske forventning baseret på et upartisk estimat af dens varians):

hvor er spredningen; - Gulvet, væggene omkring os og loftet, jeg element i udvælgelsen; - prøvestørrelse; - aritmetisk gennemsnit af prøven:

Det skal bemærkes, at begge estimater er partiske. I det generelle tilfælde er det umuligt at konstruere et objektivt skøn. Estimatet baseret på det upartiske variansestimat er dog konsistent.

Tre sigma regel

Tre sigma regel() - næsten alle værdier af en normalfordelt stokastisk variabel ligger i intervallet. Mere strengt - med ikke mindre end 99,7 % sikkerhed ligger værdien af ​​en normalfordelt stokastisk variabel i det angivne interval (forudsat at værdien er sand og ikke opnået som et resultat af prøvebehandling).

Hvis den sande værdi er ukendt, så skal vi ikke bruge, men gulvet, væggene omkring os og loftet, s. Således er reglen om tre sigma forvandlet til reglen om tre etager, vægge omkring os og loftet, s .

Fortolkning af standardafvigelsesværdien

En stor værdi af standardafvigelsen viser en stor spredning af værdier i det præsenterede sæt med den gennemsnitlige værdi af sættet; en lille værdi viser derfor, at værdierne i sættet er grupperet omkring den midterste værdi.

For eksempel har vi tre talsæt: (0, 0, 14, 14), (0, 6, 8, 14) og (6, 6, 8, 8). Alle tre sæt har middelværdier lig med 7, og standardafvigelser, henholdsvis 7, 5 og 1. Det sidste sæt har en lille standardafvigelse, da værdierne i sættet er grupperet omkring middelværdien; det første sæt har den største standardafvigelsesværdi - værdierne i sættet afviger meget fra gennemsnitsværdien.

I en generel forstand kan standardafvigelse betragtes som et mål for usikkerhed. For eksempel i fysik bruges standardafvigelse til at bestemme fejlen for en række på hinanden følgende målinger af en vis mængde. Denne værdi er meget vigtig for at bestemme plausibiliteten af ​​det undersøgte fænomen i sammenligning med den værdi, som teorien forudsiger: hvis gennemsnitsværdien af ​​målingerne afviger meget fra de værdier, der forudsiges af teorien (stor standardafvigelse), derefter skal de opnåede værdier eller metoden til at opnå dem kontrolleres igen.

Praktisk brug

I praksis giver standardafvigelsen dig mulighed for at bestemme, hvor meget værdierne i et sæt kan afvige fra gennemsnitsværdien.

Klima

Antag, at der er to byer med samme gennemsnitlige maksimale daglige temperatur, men den ene ligger ved kysten og den anden er inde i landet. Det er kendt, at byer, der ligger ved kysten, har mange forskellige maksimale dagtemperaturer, der er lavere end byer, der ligger inde i landet. Derfor vil standardafvigelsen af ​​de maksimale døgntemperaturer for en kystby være mindre end for den anden by, på trods af at gennemsnitsværdien af ​​denne værdi er den samme, hvilket i praksis betyder, at sandsynligheden for, at den maksimale lufttemperatur pr. enhver given dag på året vil være højere afvige fra gennemsnitsværdien, højere for en by beliggende inde i landet.

Sport

Lad os antage, at der er flere fodboldhold, der er vurderet på nogle sæt parametre, for eksempel antallet af scorede og indkasserede mål, scoringschancer osv. Det er højst sandsynligt, at det bedste hold i denne gruppe vil have bedre værdier på flere parametre. Jo mindre holdets standardafvigelse for hver af de præsenterede parametre, jo mere forudsigelig er holdets resultat; sådanne hold er afbalancerede. Til gengæld er et hold med en stor standardafvigelse svært at forudsige resultatet, hvilket igen forklares med en ubalance, for eksempel et stærkt forsvar, men et svagt angreb.

Brug af standardafvigelsen af ​​holdparametre gør det muligt i en eller anden grad at forudsige resultatet af en kamp mellem to hold, vurdere holdenes styrker og svagheder og derfor de valgte kampmetoder.

Teknisk analyse

se også

Litteratur

* Borovikov, V. STATISTIKKER. Kunsten at analysere data på en computer: For fagfolk / V. Borovikov. - Sankt Petersborg. : Peter, 2003. - 688 s. - ISBN 5-272-00078-1.

Standardafvigelse er et af de statistiske udtryk i virksomhedsverdenen, der giver troværdighed til folk, der formår at klare det godt i en samtale eller præsentation, mens de efterlader en vag følelse af forvirring blandt dem, der ikke ved, hvad det er, men også er. flov over at spørge. Faktisk forstår de fleste ledere ikke begrebet standardafvigelse, og hvis du er en af ​​dem, er det på tide, at du holder op med at leve en løgn. I dagens artikel vil jeg fortælle dig, hvordan dette undervurderede statistiske mål kan hjælpe dig med bedre at forstå de data, du arbejder med.

Hvad måler standardafvigelse?

Forestil dig, at du er ejer af to butikker. Og for at undgå tab er det vigtigt at have klar styr på lagersaldi. I et forsøg på at finde ud af, hvilken leder der styrer lagerbeholdningen bedre, beslutter du dig for at analysere de sidste seks ugers lagerbeholdning. Den gennemsnitlige ugentlige lagerpris for begge butikker er omtrent den samme og beløber sig til omkring 32 konventionelle enheder. Ved første øjekast viser den gennemsnitlige afstrømning, at begge ledere præsterer ens.

Men hvis du ser nærmere på aktiviteterne i den anden butik, vil du være overbevist om, at selvom gennemsnitsværdien er korrekt, er variabiliteten af ​​bestanden meget høj (fra 10 til 58 USD). Vi kan således konkludere, at gennemsnittet ikke altid vurderer dataene korrekt. Det er her standardafvigelsen kommer ind.

Standardafvigelsen viser, hvordan værdierne er fordelt i forhold til middelværdien i vores . Man kan med andre ord forstå, hvor stor spredningen i afstrømningen er fra uge til uge.

I vores eksempel brugte vi Excels STDEV-funktion til at beregne standardafvigelsen sammen med middelværdien.

For den første leders tilfælde var standardafvigelsen 2. Dette fortæller os, at hver værdi i stikprøven i gennemsnit afviger 2 fra gennemsnittet. Er det godt? Lad os se på spørgsmålet fra en anden vinkel - en standardafvigelse på 0 fortæller os, at hver værdi i prøven er lig med dens middelværdi (i vores tilfælde 32,2). Således er en standardafvigelse på 2 ikke meget forskellig fra 0, hvilket indikerer, at de fleste værdier er tæt på middelværdien. Jo tættere standardafvigelsen er på 0, jo mere pålideligt er gennemsnittet. Desuden indikerer en standardafvigelse tæt på 0 ringe variabilitet i dataene. Det vil sige, at en afløbsværdi med en standardafvigelse på 2 indikerer en utrolig konsistens af den første leder.

For den anden butiks vedkommende var standardafvigelsen 18,9. Det vil sige, at omkostningerne ved afstrømning i gennemsnit afviger med 18,9 fra gennemsnitsværdien fra uge til uge. Vanvittig spredning! Jo længere standardafvigelsen er fra 0, jo mindre nøjagtig er gennemsnittet. I vores tilfælde indikerer tallet 18,9, at den gennemsnitlige værdi (32,8 USD pr. uge) simpelthen ikke kan stole på. Det fortæller os også, at den ugentlige afstrømning er meget varierende.

Dette er begrebet standardafvigelse i en nøddeskal. Selvom det ikke giver indsigt i andre vigtige statistiske målinger (Mode, Median...), så spiller standardafvigelsen faktisk en afgørende rolle i de fleste statistiske beregninger. Forståelse af principperne for standardafvigelse vil kaste lys over mange af dine forretningsprocesser.

Hvordan beregner man standardafvigelsen?

Så nu ved vi, hvad standardafvigelsestallet siger. Lad os finde ud af, hvordan det beregnes.

Lad os se på datasættet fra 10 til 70 i intervaller på 10. Som du kan se, har jeg allerede beregnet standardafvigelsesværdien for dem ved hjælp af STANDARDEV-funktionen i celle H2 (i orange).

Nedenfor er de trin, Excel tager for at nå frem til 21.6.

Bemærk venligst, at alle beregninger er visualiseret for bedre forståelse. Faktisk sker beregningen i Excel øjeblikkeligt og efterlader alle trin bag kulisserne.

Først finder Excel prøvegennemsnittet. I vores tilfælde viste gennemsnittet sig at være 40, som i næste trin trækkes fra hver prøveværdi. Hver opnået forskel kvadreres og summeres. Vi fik en sum lig med 2800, som skal divideres med antallet af prøveelementer minus 1. Da vi har 7 elementer, viser det sig, at vi skal dividere 2800 med 6. Ud fra det opnåede resultat finder vi kvadratroden, denne tallet vil være standardafvigelsen.

For dem, der ikke er helt klar over princippet om at beregne standardafvigelsen ved hjælp af visualisering, giver jeg en matematisk fortolkning af at finde denne værdi.

Funktioner til beregning af standardafvigelse i Excel

Excel har flere typer standardafvigelsesformler. Alt du skal gøre er at skrive =STDEV, og du vil selv se.

Det er værd at bemærke, at STDEV.V- og STDEV.G-funktionerne (den første og anden funktion på listen) duplikerer STDEV- og STDEV-funktionerne (henholdsvis den femte og sjette funktion på listen), som blev bibeholdt for kompatibilitet med tidligere versioner af Excel.

Generelt angiver forskellen i slutningerne af .B- og .G-funktionerne princippet om at beregne standardafvigelsen for en prøve eller population. Jeg har allerede forklaret forskellen mellem disse to arrays i den forrige.

Et særligt træk ved STANDARDEV- og STANDDREV-funktionerne (den tredje og fjerde funktion på listen) er, at der tages hensyn til logiske værdier og tekstværdier ved beregning af standardafvigelsen for et array. Tekst og sande booleske værdier er 1, og falske booleske værdier er 0. Jeg kan ikke forestille mig en situation, hvor jeg har brug for disse to funktioner, så jeg tror, ​​de kan ignoreres.