Den statistiske population er generel og stikprøve. Population og stikprøve

Fordeling tilfældig variabel indeholder alle oplysninger om dets statistiske egenskaber. Hvor mange værdier af en tilfældig variabel skal du kende for at konstruere dens fordeling? For at gøre dette skal du udforske det almindelig befolkning.

Populationen er mængden af alle værdier, som en given stokastisk variabel kan tage.

Antal enheder i befolkning kaldes dets volumen N. Denne værdi kan være endelig eller uendelig. For eksempel, hvis væksten af indbyggerne i en bestemt by studeres, vil størrelsen af befolkningen være lig med tallet byens beboere. Hvis nogen fysisk eksperiment, så vil volumen af den almindelige befolkning være uendelig, fordi antallet af alle mulige værdier nogen fysiske parameter er lig med uendelighed.

At studere en generel befolkning er ikke altid muligt eller tilrådeligt. Det er umuligt, hvis mængden af befolkningen er uendelig. Men selv for begrænsede mængder fuld forskning er ikke altid berettiget, da det kræver høje omkostninger tid og arbejde, og absolut præcision resultater er normalt ikke nødvendige. Mindre nøjagtige resultater, men med væsentlig mindre indsats og penge, kan opnås ved kun at studere en del af den generelle befolkning. Sådanne undersøgelser kaldes prøveudtagning.

Statistiske undersøgelser, der kun udføres på en del af befolkningen, kaldes sampling, og den del af befolkningen, der undersøges, kaldes en stikprøve.

Figur 7.2 viser symbolsk populationen og stikprøven som en mængde og dens undergruppe.

Figur 7.2 Population og stikprøve

Ved at arbejde med en bestemt delmængde af en given population, som ofte udgør en ubetydelig del af den, opnår vi resultater, der er ganske tilfredsstillende i nøjagtighed til praktiske formål. At studere en større del af befolkningen øger kun nøjagtigheden, men ændrer ikke essensen af resultaterne, hvis stikprøven er taget korrekt ud fra et statistisk synspunkt.

For at stikprøven kan afspejle populationens egenskaber og resultaterne for at være pålidelige, skal den være det repræsentant(repræsentant).

For nogle generelle populationer er enhver del af dem repræsentativ på grund af deres natur. I de fleste tilfælde skal der dog træffes særlige foranstaltninger for at sikre repræsentative prøver.

En en af de vigtigste resultater af moderne matematisk statistik anses for at være udviklingen af teori og praksis for stikprøvemetoden, hvilket sikrer repræsentativiteten af dataudvælgelsen.

Prøveundersøgelser er altid ringere med hensyn til nøjagtighed i forhold til undersøgelser af hele befolkningen. Dette kan dog afstemmes, hvis størrelsen af fejlen er kendt. Det er klart, at jo tættere stikprøvestørrelsen er på populationsstørrelsen, jo mindre vil fejlen være. Det er tydeligt heraf, at problemer med statistisk inferens bliver særligt relevante, når man arbejder med små stikprøver ( N ? 10-50).

Befolkning - mængden af de mennesker, som sociologen søger at få information om i sin forskning. Afhængig af hvor bredt forskningsemnet er, vil befolkningen være lige så bred.

Prøvepopulation – reduceret befolkningsmodel; dem, som sociologen uddeler spørgeskemaer til, som kaldes respondenter, som endelig er genstand for sociologisk forskning.

Hvem der præcist indgår i den generelle befolkning bestemmes af undersøgelsens formål, og hvem der indgår i stikprøvepopulationen bestemmes matematiske metoder. Hvis en sociolog har til hensigt at se på den afghanske krig gennem dens deltageres øjne, vil den brede befolkning omfatte alle afghanske soldater, men han bliver nødt til at interviewe en lille del - prøvepopulationen. For at prøven nøjagtigt afspejler den generelle befolkning, overholder sociologen reglen: enhver afghansk soldat, uanset bopæl, arbejdssted, sundhedsstatus og andre omstændigheder, skal have samme sandsynlighed for at blive inkluderet i prøven befolkning.

Når sociologen har besluttet, hvem han vil interviewe, bestemmer han prøvetagningsramme. Derefter afgøres spørgsmålet om prøveudtagningstypen.

Prøverne er opdelt i tre store klasser:

EN) solid(folketællinger, folkeafstemninger). Alle enheder fra befolkningen er undersøgt;

b) tilfældig;

V) ikke tilfældigt.

Tilfældige og ikke-tilfældige typer af stikprøver er igen opdelt i flere typer.

Tilfældige inkluderer:

1) probabilistisk;

2) systematisk;

3) zoneinddelt (stratificeret);

4) indlejring

Ikke-tilfældige inkluderer:

1) "spontan";

2) kvota;

3) "main array" metode.

En komplet og nøjagtig liste over enheder i prøvepopulationsformularerne prøvetagningsramme . De elementer, der er beregnet til udvælgelse, kaldes udvalgsenheder . Prøveudtagningsenheder kan være det samme som observationsenheder, fordi observationsenhed anses for at være et element i den generelle befolkning, hvorfra der direkte indsamles oplysninger. Typisk er observationsenheden individet. Valg fra en liste gøres bedst ved at nummerere enhederne og bruge en tabel med tilfældige tal, selvom der ofte bruges en kvasi-tilfældig metode, når hvert n'te element er taget fra en simpel liste.

Hvis stikprøverammen indeholder en liste over stikprøveenheder, indebærer stikprøvestrukturen at gruppere dem efter nogle vigtige karakteristika, for eksempel fordelingen af individer efter erhverv, kvalifikationer, køn eller alder. Hvis der i den almene befolkning f.eks. er 30 % unge, 50 % midaldrende og 20 % ældre, så skal de samme procentvise andele af de tre aldre observeres i stikprøvepopulationen. Klasser, køn, nationalitet osv. kan tilføjes til aldre. For hver fastlægges procentandele i de generelle og stikprøvepopulationer. Dermed, prøvetagningsramme – procentandele af objektets egenskaber, på grundlag af hvilke stikprøvepopulationen er kompileret.

Mens stikprøvetypen fortæller os, hvordan personer er inkluderet i stikprøven, fortæller stikprøvestørrelsen os, hvor mange personer der er inkluderet.

Prøvestørrelse – antal enheder i stikprøvepopulationen. Da stikprøvepopulationen er en del af den generelle population, der er udvalgt ved hjælp af særlige metoder, er dens volumen altid mindre end volumen af den generelle population. Derfor er det så vigtigt, at delen ikke forvrænger ideen om helheden, det vil sige, den repræsenterer den.

Dataens pålidelighed påvirkes ikke af prøvepopulationens kvantitative karakteristika (dens volumen), men af den generelle befolknings kvalitative karakteristika - graden af dens homogenitet. Uoverensstemmelsen mellem den generelle befolkning og stikprøvepopulationen kaldes repræsentativitetsfejl , tilladt afvigelse – 5 %.

Her er nogle måder at undgå fejlen på:

hver enhed i populationen skal have lige stor sandsynlighed for at blive inkluderet i stikprøven;

det er tilrådeligt at vælge fra homogene populationer;

du skal kende befolkningens karakteristika;

Ved sammenstilling af en stikprøvepopulation skal der tages hensyn til tilfældige og systematiske fejl.

Hvis stikprøvepopulationen (stikprøven) er opstillet korrekt, så opnår sociologen pålidelige resultater, der karakteriserer hele populationen.

Hvad er de vigtigste prøveudtagningsmetoder?

Mekanisk prøveudtagningsmetode hvornår fra generel liste af den generelle befolkning udvælges det nødvendige antal respondenter med jævne mellemrum (f.eks. hver 10.).

Seriel prøveudtagningsmetode. I dette tilfælde er den generelle befolkning opdelt i homogene dele, og analyseenheder er proportionelt udvalgt fra hver (for eksempel 20 % af mænd og kvinder i en virksomhed).

Metode til klyngeprøvetagning. Udvælgelsesenhederne er ikke individuelle respondenter, men grupper med efterfølgende løbende forskning i dem. Denne stikprøve vil være repræsentativ, hvis sammensætningen af grupperne er ens (f.eks. én gruppe studerende fra hver strøm af en universitetsafdeling).

Hovedarraymetode– undersøgelse af 60-70 % af befolkningen generelt.

Kvoteprøvemetode. Mest kompleks metode, der kræver bestemmelse af mindst fire karakteristika, efter hvilke respondenterne udvælges. Bruges normalt med en stor befolkning.

Ethvert udvalgt sæt af objekter, der på en eller anden måde kan afvige fra hinanden i værdien af en bestemt egenskab, kaldes en generel population.

Antallet af grundstoffer i en population kaldes dens volumen.

En del af befolkningen tilfældigt udvalgt til observationer kaldes en tilfældig stikprøve eller stikprøve for kort.

Antallet af prøveelementer kaldes dets størrelse.

Så hvis ud af hundrede tusinde pakninger af en bestemt medicin (generel befolkning) vælges hundrede pakninger (prøve) til kvalitetskontrol, så er populationens volumen 100.000, og stikprøvestørrelsen er 100.

Egenskaberne for en prøvepopulation afspejler de tilsvarende egenskaber for den generelle befolkning bedre, jo flere objekter denne prøvepopulation indeholder (dvs. jo større volumen). For eksempel, hvis vi er interesserede i koncentrationen af et bestemt stof i tabletter, der er fremstillet ved hjælp af en enhed af et bestemt design, så jo mere tilfældigt udvalgte tabletter vi undersøger, jo mere pålidelige oplysninger vi får det.

Da vi tæller med statistiske metoder foretage en bestemt vurdering af egenskaberne for den almindelige befolkning baseret på egenskaberne i stikprøven, så skal sidstnævnte være repræsentativ, dvs. bør organiseres på en sådan måde, at den om muligt afspejler alle de egenskaber ved den almindelige befolkning, som interesserer os.

For eksempel når man undersøger elevernes fremskridt i fysiologi medicinske universiteter A, B og C, der har henholdsvis 500, 200 og 300 studerende, skal udtrækkes en stikprøvestørrelse på 100 for at inkludere 50 tilfældigt udvalgte studerende fra Universitet A, 20 studerende fra Universitet B og 30 studerende fra Universitet C. Stikprøveproportionerne skal svare til til andelen af befolkningen generelt.

For at sikre repræsentativitet skal stikprøven være stor nok til at dække hele populationen og udføres uvildigt i forhold til dens enkelte dele.
Gentaget prøveudtagning er en prøve, hvor det valgte objekt (før det næste vælges) returneres til populationen. Ikke-repetitiv stikprøve er en stikprøve, hvor det valgte objekt ikke returneres til populationen. I praksis anvendes gentagne stikprøver normalt.

I praksis bruges de forskellige måder udvælgelse. Med magt kan disse metoder opdeles i to typer:
I. Udvælgelse, der ikke kræver opdeling af den generelle befolkning i dele, dette omfatter:
a) simpel tilfældig ikke-gentagende udvælgelse;
b) simpel tilfældig gentaget udvælgelse.
II. Udvælgelse, hvor befolkningen er opdelt i dele, omfatter:
a) typisk udvælgelse;
b) mekanisk valg;
c) serievalg.

Simpel tilfældig udvælgelse er en markering, hvor objekter udvælges ét ad gangen fra hele populationen. Hvis de fjernede kort ikke returneres til pakken, vil valget være et simpelt tilfældigt uden gentagelser.

Typisk selektion kaldes selektion, hvor objekter ikke er udvalgt fra hele populationen, men fra hver af dens "typiske" dele.

Mekanisk selektion kaldes selektion, hvor populationen "mekanisk" er opdelt i lige så mange grupper, som der er objekter, der skal indgå i stikprøven, og et objekt udvælges fra hver gruppe.
Seriel udvælgelse er en udvælgelse, hvor objekter udvælges fra den almindelige befolkning, ikke én ad gangen, men i "serier", der underkastes løbende undersøgelse.

Befolkning– et sæt elementer, der opfylder visse givne forhold; også kaldet undersøgelsespopulationen. Generel befolkning (univers) - hele sæt af objekter (emner) af forskning, fra hvilke objekter (emner) er udvalgt (kan vælges) til en undersøgelse (undersøgelse).

PRØVE eller prøvepopulation(Sample) er et sæt af objekter (emner) udvalgt på en særlig måde til en undersøgelse (undersøgelse). Alle data indhentet på grundlag af en stikprøveundersøgelse (undersøgelse) er af sandsynlighed. I praksis betyder det, at undersøgelsen ikke afgør specifik betydning, og det interval, hvori den bestemte værdi er placeret.

Prøveegenskaber:

Kvalitative egenskaber ved prøven - hvad vi præcist vælger, og hvilke prøveudtagningsmetoder vi bruger til dette.

Kvantitative egenskaber samples - hvor mange cases vi udvælger, med andre ord stikprøvestørrelse.

Behov for prøveudtagning:

Undersøgelsesobjektet er meget omfattende. For eksempel forbrugere af produkter global virksomhed– et stort antal geografisk spredte markeder.

Der er behov for at indsamle primære oplysninger.

Prøvestørrelse- antallet af tilfælde inkluderet i stikprøvepopulationen.

Afhængige og uafhængige prøver.

Når man sammenligner to (eller flere) prøver, er en vigtig parameter deres afhængighed. Hvis der kan etableres et homomorft par (det vil sige, når ét tilfælde fra prøve X svarer til ét og kun ét tilfælde fra prøve Y og omvendt) for hvert tilfælde i to prøver (og dette forholdsgrundlag er vigtigt for den egenskab, der måles i prøverne), kaldes sådanne prøver afhængig.

Hvis der ikke er et sådant forhold mellem prøver, tages disse prøver i betragtning uafhængig.

Typer af prøveudtagning.

Prøver er opdelt i to typer:

Sandsynlighed;

Ikke probabilistisk;

Repræsentativ prøve- en stikprøvepopulation, hvor hovedkarakteristikaene er sammenfaldende med karakteristikaene for den generelle befolkning. Kun for denne type stikprøve kan resultaterne af en undersøgelse af nogle enheder (objekter) udvides til hele populationen. Forudsætning til bygning repræsentativ prøve- tilgængelighed af information om den generelle befolkning, dvs. eller fuld liste enheder (fag) af den almene befolkning, eller information om strukturen i henhold til karakteristika, der har væsentlig indflydelse på holdningen til forskningsemnet.

17. Diskret variationsserie, ranking, frekvens, specificitet.

Variationsserie (statistisk tæt på) – er en sekvens af muligheder skrevet i stigende rækkefølge og deres tilsvarende vægte.

Variationsrækken kan være diskret(stikprøve af værdier af en diskret stokastisk variabel) og kontinuert (interval) (stikprøve af værdier af en kontinuert stokastisk variabel).

Den diskrete variationsserie har formen:

De observerede værdier af den stokastiske variabel x1, x2, ..., xk kaldes muligheder, og at ændre disse værdier kaldes ved variation.

Prøve(stikprøve) – et sæt observationer udvalgt tilfældigt fra populationen.

Antallet af observationer i en population kaldes dens volumen.

N– mængden af den almindelige befolkning.

n– stikprøvestørrelse (summen af alle frekvenser i serien).

Frekvens optioner xi kaldes tallet ni (i=1,...,k), hvilket viser hvor mange gange denne mulighed forekommer i prøven.

Frekvens(relativ frekvens, andel) af varianter xi (i=1,...,k) er forholdet mellem dens frekvens ni og stikprøvestørrelsen n.
w jeg=n jeg/n

Rangordning af eksperimentelle data- en operation, der består i, at resultaterne af observationer af en tilfældig variabel, dvs. de observerede værdier af en tilfældig variabel, er arrangeret i ikke-faldende rækkefølge.

Diskret variationsserie distribution er et rangeret sæt af muligheder xi med deres tilsvarende frekvenser eller detaljer.

Statistisk population- et sæt af enheder, der har massekarakter, typiskhed, kvalitativ homogenitet og tilstedeværelsen af variation.

Den statistiske population består af materielt eksisterende objekter (medarbejdere, virksomheder, lande, regioner), er et objekt.

Enhed af befolkningen— hver specifik enhed af en statistisk population.

Den samme statistiske population kan være homogen i én karakteristik og heterogen i en anden.

Kvalitativ ensartethed- lighed mellem alle enheder i befolkningen på et eller andet grundlag og ulighed på alle andre.

I en statistisk population er forskellene mellem en enhed af befolkningen og en anden oftere kvantitativ karakter. Kvantitative ændringer i karakteristiske værdier forskellige enheder aggregater kaldes variation.

Variation af en egenskab — kvantitativ ændring karakteristisk (for en kvantitativ egenskab), når man flytter fra en enhed af befolkningen til en anden.

Skilt- det er en ejendom egenskab eller andre træk ved enheder, objekter og fænomener, der kan observeres eller måles. Tegn er opdelt i kvantitative og kvalitative. Mangfoldigheden og variabiliteten af værdien af en egenskab i individuelle enheder af en population kaldes variation.

Attributive (kvalitative) egenskaber kan ikke udtrykkes numerisk (befolkningssammensætning efter køn). Kvantitative egenskaber har numerisk udtryk(befolkningssammensætning efter alder).

Indeks- dette er en generaliserende kvantitativ og kvalitativ karakteristik af enhver egenskab ved enheder eller aggregater som helhed under specifikke betingelser for tid og sted.

Scorekort er et sæt indikatorer, der udtømmende afspejler det fænomen, der undersøges.

For eksempel studeres løn:

Tegn - løn
Statistisk population - alle ansatte
Enheden af befolkningen er hver ansat
Kvalitativ homogenitet - optjent løn
Variation af et tegn - en række tal

Population og stikprøve fra den

Grundlaget er et datasæt opnået som følge af måling af en eller flere karakteristika. Et virkeligt observeret sæt af objekter, statistisk repræsenteret ved et antal observationer af en tilfældig variabel, er prøveudtagning, og det hypotetisk eksisterende (konjekturiske) - almindelig befolkning. Populationen kan være begrænset (antal observationer N = konst) eller uendelig ( N = ∞), og en stikprøve fra en population er altid resultatet af et begrænset antal observationer. Antallet af observationer, der danner en prøve kaldes prøvestørrelse. Hvis prøvestørrelsen er stor nok ( n → ∞) prøven tages i betragtning stor, V Ellers det kaldes sampling begrænset volumen. Prøven tages i betragtning lille, hvis stikprøvestørrelsen ikke overstiger 30 ved måling af en endimensionel tilfældig variabel ( n<= 30 ), og når man måler flere samtidigt ( k) funktioner i multidimensionelt relationsrum n Til k ikke overstiger 10 (n/k< 10) . Prøveformularerne variationsserie, hvis dens medlemmer er det ordinær statistik, dvs. stikprøveværdier af den tilfældige variabel x er ordnet i stigende rækkefølge (rangeret), kaldes karakteristikkens værdier muligheder.

Eksempel. Næsten det samme tilfældigt udvalgte sæt af objekter - kommercielle banker i et administrativt distrikt i Moskva, kan betragtes som en stikprøve fra den generelle befolkning af alle kommercielle banker i dette distrikt og som en prøve fra den generelle befolkning af alle forretningsbanker i Moskva , samt som en prøve fra landets forretningsbanker mv.

Grundlæggende metoder til organisering af prøveudtagning

Pålideligheden af statistiske konklusioner og meningsfuld fortolkning af resultaterne afhænger af repræsentativitet prøver, dvs. fuldstændighed og tilstrækkelighed af repræsentationen af den generelle befolknings egenskaber, i forhold til hvilken denne stikprøve kan betragtes som repræsentativ. Studiet af en populations statistiske egenskaber kan organiseres på to måder: vha sammenhængende Og ikke kontinuerligt. Kontinuerlig observation giver mulighed for undersøgelse af alle enheder studeret helhed, A delvis (selektiv) observation- kun dele af det.

Der er fem hovedmåder til at organisere prøveobservation:

1. simpelt tilfældigt valg, hvor objekter er tilfældigt udvalgt fra en population af objekter (for eksempel ved hjælp af en tabel eller tilfældig talgenerator), hvor hver af de mulige stikprøver har samme sandsynlighed. Sådanne prøver kaldes faktisk tilfældigt;

2. simpelt valg ved hjælp af en almindelig procedure udføres ved hjælp af en mekanisk komponent (f.eks. dato, ugedag, lejlighedsnummer, bogstaver i alfabetet osv.), og prøverne opnået på denne måde kaldes mekanisk;

3. stratificeret selektion består i, at volumenets almindelige befolkning er opdelt i delpopulationer eller lag (lag) af volumenet, således at . Strata er homogene objekter med hensyn til statistiske karakteristika (for eksempel er befolkningen opdelt i lag efter aldersgrupper eller social klasse; virksomheder - efter industri). I dette tilfælde kaldes prøverne stratificeret(Ellers, stratificeret, typisk, regionaliseret);

4. metoder seriel selektion bruges til at danne seriel eller redeprøver. De er praktiske, hvis det er nødvendigt at undersøge en "blok" eller en række objekter på én gang (for eksempel et parti varer, produkter af en bestemt serie eller befolkningen i landets territoriale og administrative opdeling). Udvælgelsen af serier kan foretages rent tilfældigt eller mekanisk. I dette tilfælde udføres en fuldstændig inspektion af et bestemt parti varer eller en hel territorial enhed (en boligbygning eller blok);

5. kombineret(trinvist) udvælgelse kan kombinere flere udvælgelsesmetoder på én gang (for eksempel stratificeret og tilfældig eller tilfældig og mekanisk); sådan en prøve kaldes kombineret.

Udvælgelsestyper

Ved sind individuel, gruppe og kombineret udvælgelse skelnes. På individuelt valg individuelle enheder af den generelle befolkning udvælges i stikprøvepopulationen, med gruppevalg- kvalitativt homogene grupper (serier) af enheder, og kombineret udvalg involverer en kombination af den første og anden type.

Ved metode udvælgelse skelnes gentagne og ikke-gentagne prøve.

Gentagende kaldet selektion, hvor en enhed inkluderet i stikprøven ikke vender tilbage til den oprindelige population og ikke deltager i yderligere selektion; mens antallet af enheder i den almindelige befolkning N reduceres under udvælgelsesprocessen. På gentaget udvælgelse fanget i stikprøven returneres en enhed efter registrering til den almindelige befolkning og bevarer således en lige mulighed sammen med andre enheder til at blive brugt i en yderligere udvælgelsesprocedure; mens antallet af enheder i den almindelige befolkning N forbliver uændret (metoden bruges sjældent i samfundsøkonomisk forskning). Dog med store N (N → ∞) formler for gentagelig udvælgelse nærmer sig dem for gentaget selektion og sidstnævnte bruges praktisk talt oftere ( N = konst).

Grundlæggende karakteristika for parametrene for den generelle befolkning og stikprøvepopulationen

De statistiske konklusioner af undersøgelsen er baseret på fordelingen af den stokastiske variabel og de observerede værdier (x 1, x 2, ..., x n) kaldes realiseringer af den stokastiske variabel x(n er prøvestørrelse). Fordelingen af en tilfældig variabel i den generelle befolkning er af teoretisk, ideel karakter, og dens stikprøveanalog er empirisk fordeling. Nogle teoretiske fordelinger er specificeret analytisk, dvs. deres muligheder Bestem værdien af fordelingsfunktionen på hvert punkt i rummet af mulige værdier af den stokastiske variabel. For en stikprøve er fordelingsfunktionen derfor vanskelig og nogle gange umulig at bestemme muligheder estimeres ud fra empiriske data, og derefter substitueres de i et analytisk udtryk, der beskriver den teoretiske fordeling. I dette tilfælde er antagelsen (eller hypotese) om typen af fordeling kan enten være statistisk korrekt eller fejlagtig. Men under alle omstændigheder karakteriserer den empiriske fordeling rekonstrueret fra stikprøven kun groft den sande. De vigtigste distributionsparametre er forventet værdi og varians.

I sagens natur er distributioner sammenhængende Og diskret. Den bedst kendte kontinuerlige fordeling er normal. Prøveanaloger af parametrene og for det er: middelværdi og empirisk varians. Blandt diskrete inden for socioøkonomisk forskning er de hyppigst anvendte alternativ (dikotom) fordeling. Den matematiske forventningsparameter for denne fordeling udtrykker den relative værdi (eller del) enheder af befolkningen, der har den egenskab, der undersøges (det er angivet med bogstavet); den andel af befolkningen, der ikke har denne egenskab, er angivet med bogstavet q (q = 1 - p). Variansen af den alternative fordeling har også en empirisk analog.

Afhængigt af fordelingstypen og metoden til udvælgelse af befolkningsenheder beregnes fordelingsparametrenes karakteristika forskelligt. De vigtigste for teoretiske og empiriske fordelinger er angivet i tabel. 9.1.

Prøvefraktion k n Forholdet mellem antallet af enheder i prøvepopulationen og antallet af enheder i den generelle befolkning kaldes:

kn = n/N.

Prøvefraktion m er forholdet mellem enheder, der besidder den egenskab, der undersøges x til prøvestørrelse n:

w = n n/n.

Eksempel. I et parti varer, der indeholder 1000 enheder, med en prøve på 5 % prøveandel k n i absolut værdi er 50 enheder. (n = N*0,05); hvis der findes 2 defekte produkter i denne prøve, så prøvedefektrate w vil være 0,04 (w = 2/50 = 0,04 eller 4%).

Da stikprøvepopulationen er forskellig fra den generelle befolkning, er der prøveudtagningsfejl.

Tabel 9.1 Hovedparametre for de generelle og stikprøvepopulationer

Prøveudtagningsfejl

Under alle omstændigheder (kontinuerlig og selektiv) kan der forekomme fejl af to typer: registrering og repræsentativitet. Fejl registrering kan få tilfældig Og systematisk Karakter. Tilfældig fejl består af mange forskellige ukontrollerbare årsager, er utilsigtede og udligner normalt hinanden (f.eks. ændringer i enhedens ydeevne på grund af temperaturudsving i rummet).

Systematisk fejl er forudindtaget, fordi de overtræder reglerne for udvælgelse af objekter til prøven (for eksempel afvigelser i målinger ved ændring af indstillingerne af måleapparatet).

Eksempel. For at vurdere den sociale situation for befolkningen i byen er det planlagt at undersøge 25 % af familierne. Hvis udvælgelsen af hver fjerde lejlighed er baseret på dens antal, så er der fare for at vælge alle lejligheder af kun én type (for eksempel etværelses lejligheder), hvilket vil give en systematisk fejl og forvrænge resultaterne; at vælge et lejlighedsnummer efter lodtrækning er mere at foretrække, da fejlen vil være tilfældig.

Repræsentativitetsfejl kun er iboende i stikprøveobservation, kan de ikke undgås, og de opstår som følge af, at prøvepopulationen ikke fuldstændigt reproducerer den generelle befolkning. Værdierne af indikatorerne opnået fra stikprøven adskiller sig fra indikatorerne for de samme værdier i den generelle befolkning (eller opnået gennem kontinuerlig observation).

Sampling bias er forskellen mellem parameterværdien i populationen og dens stikprøveværdi. For gennemsnitsværdien af en kvantitativ egenskab er den lig med: , og for andelen (alternativ karakteristik) - .

Prøveudtagningsfejl er kun iboende i stikprøveobservationer. Jo større disse fejl er, jo mere adskiller den empiriske fordeling sig fra den teoretiske. Parametrene for den empiriske fordeling er tilfældige variable, derfor er prøveudtagningsfejl også tilfældige variable, de kan tage forskellige værdier for forskellige prøver, og derfor er det sædvanligt at beregne gennemsnitlig fejl.

Gennemsnitlig prøveudtagningsfejl er en størrelse, der udtrykker standardafvigelsen af stikprøvegennemsnittet fra den matematiske forventning. Denne værdi, underlagt princippet om tilfældig udvælgelse, afhænger primært af stikprøvestørrelsen og graden af variation af karakteristikken: jo større og jo mindre variationen af karakteristikken (og dermed værdien er), jo mindre er den gennemsnitlige stikprøvefejl . Forholdet mellem varianserne af den generelle population og stikprøvepopulationen er udtrykt ved formlen:

de der. når den er stor nok, kan vi antage, at . Den gennemsnitlige stikprøvefejl viser mulige afvigelser af prøvepopulationsparameteren fra den generelle populationsparameter. I tabel Tabel 9.2 viser udtryk for beregning af den gennemsnitlige stikprøvefejl for forskellige metoder til organisering af observation.

Tabel 9.2 Gennemsnitlig fejl (m) af prøvegennemsnit og andel for forskellige typer prøver

Hvor er gennemsnittet af stikprøvevarianserne inden for en gruppe for en kontinuerlig attribut;

Gennemsnit af andelen inden for gruppevarianserne;

— antal udvalgte serier — samlede antal serier;

hvor er gennemsnittet af th serie;

— det samlede gennemsnit for hele stikprøvepopulationen for en kontinuerlig karakteristik

hvor er andelen af karakteristikken i th serie;

— den samlede andel af karakteristikken i hele stikprøvepopulationen.

Størrelsen af den gennemsnitlige fejl kan dog kun bedømmes med en vis sandsynlighed P (P ≤ 1). Lyapunov A.M. bevist, at fordelingen af stikprøvemiddelværdier, og derfor deres afvigelser fra det generelle gennemsnit, for et tilstrækkeligt stort antal tilnærmelsesvis overholder normalfordelingsloven, forudsat at den almindelige befolkning har en endelig middelværdi og begrænset varians.

Matematisk er denne erklæring for gennemsnittet udtrykt som:

og for andelen vil udtryk (1) have formen:

Hvor - Der er marginal stikprøvefejl, som er et multiplum af den gennemsnitlige stikprøvefejl , og multiplicitetskoefficienten er Elevens test ("konfidenskoefficient"), foreslået af W.S. Gosset (pseudonym "Student"); værdier for forskellige prøvestørrelser gemmes i en speciel tabel.

Værdierne af funktionen Ф(t) for nogle værdier af t er lig med:

Derfor kan udtryk (3) læses som følger: med sandsynlighed P = 0,683 (68,3 %) det kan argumenteres for, at forskellen mellem stikprøven og det generelle gennemsnit ikke vil overstige én værdi af gennemsnitsfejlen m(t=1), med sandsynlighed P = 0,954 (95,4 %)- at det ikke vil overstige værdien af to gennemsnitsfejl m (t = 2), med sandsynlighed P = 0,997 (99,7 %)- vil ikke overstige tre værdier m (t = 3). Sandsynligheden for, at denne forskel overstiger tre gange gennemsnitsfejlen, bestemmes således af fejlniveau og beløber sig ikke til mere 0,3% .

I tabel 9.3 viser formler til beregning af den maksimale stikprøvefejl.

Tabel 9.3 Prøvens marginale fejl (D) for middelværdi og andel (p) for forskellige typer prøveobservation

Generalisering af stikprøveresultater til populationen

Det ultimative mål med prøveobservation er at karakterisere den generelle befolkning. Med små stikprøvestørrelser kan empiriske estimater af parametre (og) afvige væsentligt fra deres sande værdier (og). Derfor er der behov for at etablere grænser, inden for hvilke de sande værdier (og) ligger for prøveværdierne for parametrene (og).

Konfidensinterval af en hvilken som helst parameter θ i den generelle befolkning er det tilfældige område af værdier for denne parameter, som med en sandsynlighed tæt på 1 ( pålidelighed) indeholder den sande værdi af denne parameter.

Marginal fejl prøver Δ giver dig mulighed for at bestemme grænseværdierne for den generelle befolknings egenskaber og deres konfidensintervaller, som er ens:

Bundlinie konfidensinterval opnået ved subtraktion maksimal fejl fra prøvegennemsnittet (andel), og det øverste ved at tilføje det.

Konfidensinterval for gennemsnittet bruger den den maksimale stikprøvefejl og for et givet konfidensniveau bestemmes af formlen:

Det betyder, at med en given sandsynlighed R, som kaldes konfidensniveauet og er unikt bestemt af værdien t, kan det argumenteres for, at den sande værdi af gennemsnittet ligger i intervallet fra , og den sande værdi af aktien ligger i intervallet fra

Ved beregning af konfidensintervallet for tre standard konfidensniveauer P = 95 %, P = 99 % og P = 99,9 % værdien er valgt af . Ansøgninger afhængig af antallet af frihedsgrader. Hvis prøvestørrelsen er stor nok, svarer de værdier, der svarer til disse sandsynligheder t er lige: 1,96, 2,58 Og 3,29 . Således giver den marginale prøveudtagningsfejl os mulighed for at bestemme grænseværdierne for populationens karakteristika og deres konfidensintervaller:

Fordelingen af resultaterne af stikprøveobservation til den generelle befolkning i socioøkonomisk forskning har sine egne karakteristika, da den kræver fuldstændig repræsentation af alle dens typer og grupper. Grundlaget for muligheden for en sådan fordeling er beregningen relativ fejl:

Hvor Δ % - relativ maksimal prøveudtagningsfejl; , .

Der er to hovedmetoder til at udvide en stikprøveobservation til en population: direkte genberegning og koefficientmetode.

Essens direkte konvertering består i at gange stikprøvegennemsnittet!!\overline(x) med populationens størrelse.

Eksempel. Lad det gennemsnitlige antal småbørn i byen estimeres ved stikprøvemetoden og beløbe sig til én person. Hvis der er 1000 unge familier i byen, så fås antallet af nødvendige pladser i kommunale vuggestuer ved at gange dette gennemsnit med størrelsen af den almindelige befolkning N = 1000, dvs. vil have 1200 pladser.

Odds metode Det er tilrådeligt at bruge i tilfælde, hvor selektiv observation udføres for at tydeliggøre dataene for kontinuerlig observation.

Følgende formel bruges:

hvor alle variabler er populationsstørrelsen:

Påkrævet prøvestørrelse

Tabel 9.4 Påkrævet stikprøvestørrelse (n) for forskellige typer prøveobservationsorganisation

Når du planlægger en prøveobservation med en forudbestemt værdi af den tilladte prøveudtagningsfejl, er det nødvendigt at estimere den nødvendige korrekte prøvestørrelse. Denne mængde kan bestemmes på grundlag af den tilladte fejl under prøveobservation baseret på en given sandsynlighed, der garanterer den tilladte værdi af fejlniveauet (under hensyntagen til metoden til organisering af observationen). Formler til bestemmelse af den krævede prøvestørrelse n kan nemt fås direkte fra formlerne for den maksimale prøveudtagningsfejl. Så fra udtrykket for den marginale fejl:

prøvestørrelsen bestemmes direkte n:

Denne formel viser, at når den maksimale prøveudtagningsfejl falder Δ den krævede stikprøvestørrelse øges betydeligt, hvilket er proportionalt med variansen og kvadratet af den studerendes t-test.

For en specifik metode til organisering af observation beregnes den nødvendige stikprøvestørrelse i henhold til formlerne i tabellen. 9.4.

Praktiske regneeksempler

Eksempel 1. Beregning af middelværdi og konfidensinterval for en kontinuert kvantitativ karakteristik.

For at vurdere afviklingshastigheden med kreditorerne er der i banken foretaget en stikprøve på 10 betalingsdokumenter. Deres værdier viste sig at være ens (i dage): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

Nødvendigt med sandsynlighed P = 0,954 bestemme den marginale fejl Δ prøvegennemsnit og konfidensgrænser for gennemsnitlig beregningstid.

Løsning. Gennemsnitsværdien beregnes ved hjælp af formlen fra tabel. 9,1 for stikprøvepopulationen

Variansen beregnes ved hjælp af formlen fra tabel. 9.1.

Dagens gennemsnitlige kvadratfejl.

Den gennemsnitlige fejl beregnes ved hjælp af formlen:

de der. gennemsnittet er x ± m = 12,0 ± 2,3 dage.

Pålideligheden af middelværdien var

Vi beregner den maksimale fejl ved hjælp af formlen fra tabel. 9,3 for gentagen stikprøve, da populationsstørrelsen er ukendt, og for P = 0,954 niveau af tillid.

Således er gennemsnitsværdien `x ± D = `x ± 2m = 12,0 ± 4,6, dvs. dens sande værdi ligger i området fra 7,4 til 16,6 dage.

Brug af en elevs t-tabel. Applikationen giver os mulighed for at konkludere, at for n = 10 - 1 = 9 frihedsgrader er den opnåede værdi pålidelig med et signifikansniveau på £ 0,001, dvs. den resulterende middelværdi er væsentligt forskellig fra 0.

Eksempel 2. Beregning af sandsynlighed (generel andel) s.

Under en mekanisk stikprøvemetode til undersøgelse af den sociale status for 1000 familier blev det afsløret, at andelen af lavindkomstfamilier var w = 0,3 (30 %)(eksemplet var 2% , dvs. n/N = 0,02). Kræves med tillidsniveau p = 0,997 bestemme indikatoren R lavindkomstfamilier i hele regionen.

Løsning. Baseret på de præsenterede funktionsværdier Ф(t) finde for et givet konfidensniveau P = 0,997 betyder t = 3(se formel 3). Marginal fejl i brøk w bestemme ved formlen fra tabellen. 9.3 for ikke-gentagne prøveudtagninger (mekanisk prøveudtagning er altid ikke-gentagne):

Maksimal relativ stikprøvefejl i % vil være:

Sandsynligheden (generel andel) for lavindkomstfamilier i regionen vil være р=w±Δw, og konfidensgrænser p beregnes baseret på den dobbelte ulighed:

w — Δ w ≤ p ≤ w — Δ w, dvs. den sande værdi af p ligger inden for:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Med en sandsynlighed på 0,997 kan det således konstateres, at andelen af lavindkomstfamilier blandt alle familier i regionen spænder fra 28,6 % til 31,4 %.

Eksempel 3. Beregning af middelværdi og konfidensinterval for en diskret karakteristik specificeret af en intervalserie.

I tabel 9.5. fordelingen af ansøgninger om produktion af ordrer i henhold til tidspunktet for deres implementering af virksomheden er specificeret.

Tabel 9.5 Fordeling af observationer efter fremkomsttidspunkt

Løsning. Den gennemsnitlige tid for at gennemføre ordrer beregnes ved hjælp af formlen:

Den gennemsnitlige periode vil være:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 måneder.

Vi får det samme svar, hvis vi bruger dataene på p i fra tabellens næstsidste kolonne. 9.5 ved hjælp af formlen:

Bemærk, at midten af intervallet for den sidste graduering findes ved kunstigt at supplere det med bredden af intervallet for den foregående graduering svarende til 60 - 36 = 24 måneder.

Variansen beregnes ved hjælp af formlen

Hvor x i- midten af intervalserien.

Derfor!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4), og den gennemsnitlige kvadratfejl er .

Gennemsnitsfejlen beregnes ved hjælp af månedsformlen, dvs. gennemsnitsværdien er!!\overline(x) ± m = 23,1 ± 13,4.

Vi beregner den maksimale fejl ved hjælp af formlen fra tabel. 9,3 for gentagen udvælgelse, da populationsstørrelsen er ukendt, for et 0,954 konfidensniveau:

Så gennemsnittet er:

de der. dens sande værdi ligger i området fra 0 til 50 måneder.

Eksempel 4. For at bestemme hastigheden af afregninger med kreditorer af N = 500 selskaber i en kommerciel bank, er det nødvendigt at udføre en stikprøveundersøgelse ved hjælp af en tilfældig ikke-gentagende udvælgelsesmetode. Bestem den krævede stikprøvestørrelse n, således at med sandsynlighed P = 0,954 fejlen i stikprøvegennemsnittet ikke overstiger 3 dage, hvis forsøgsestimater viste, at standardafvigelsen s var 10 dage.

Løsning. For at bestemme antallet af nødvendige undersøgelser n, vil vi bruge formlen for ikke-gentagen udvælgelse fra tabellen. 9.4:

I den bestemmes t-værdien ud fra et konfidensniveau på P = 0,954. Den er lig med 2. Den gennemsnitlige kvadratværdi er s = 10, populationsstørrelsen er N = 500, og den maksimale fejl for middelværdien er Δ x = 3. Ved at erstatte disse værdier i formlen får vi:

de der. Det er nok at samle en stikprøve på 41 virksomheder for at estimere den nødvendige parameter - hastigheden af afregninger med kreditorer.