Data til regressionsanalyse. Regressionsanalyse i Microsoft Excel

Hovedformålet med regressionsanalyse består i at bestemme den analytiske kommunikationsform, hvor ændringen i den effektive karakteristik skyldes påvirkning af en eller flere faktorkarakteristika, og mængden af ​​alle andre faktorer, der også påvirker den effektive karakteristik, tages som konstante og gennemsnitlige værdier.
Problemer med regressionsanalyse:
a) Etablering af afhængighedsform. Vedrørende arten og formen af ​​forholdet mellem fænomener skelnes der mellem positiv lineær og ikke-lineær og negativ lineær og ikke-lineær regression.
b) Bestemmelse af regressionsfunktionen i form af en matematisk ligning af den ene eller anden type og fastlæggelse af forklarende variables indflydelse på den afhængige variabel.
c) Estimering af ukendte værdier af den afhængige variabel. Ved hjælp af regressionsfunktionen kan du reproducere værdierne af den afhængige variabel inden for intervallet af specificerede værdier af de forklarende variabler (dvs. løse interpolationsproblemet) eller evaluere forløbet af processen uden for det specificerede interval (dvs. løse ekstrapoleringsproblemet). Resultatet er et skøn over værdien af ​​den afhængige variabel.

Parret regression er en ligning for sammenhængen mellem to variable y og x: , hvor y er den afhængige variabel (resultategenskab); x er en uafhængig forklarende variabel (feature-factor).

Der er lineære og ikke-lineære regressioner.
Lineær regression: y = a + bx + ε
Ikke-lineære regressioner er opdelt i to klasser: regressioner, der er ikke-lineære med hensyn til de forklarende variabler, der indgår i analysen, men lineære med hensyn til de estimerede parametre, og regressioner, der er ikke-lineære i forhold til de estimerede parametre.
Regressioner, der er ikke-lineære i forklarende variable:

Regressioner, der er ikke-lineære med hensyn til de estimerede parametre: Konstruktionen af ​​en regressionsligning kommer ned til at estimere dens parametre. For at estimere parametrene for regressioner, der er lineære i parametre, anvendes mindste kvadraters metode (OLS). Mindste kvadraters metode gør det muligt at opnå sådanne parameterestimater, hvor summen af ​​kvadrerede afvigelser af de faktiske værdier af den resulterende karakteristik y fra de teoretiske er minimal, dvs.
.
For lineære og ikke-lineære ligninger, der kan reduceres til lineære, løses følgende system for a og b:

Du kan bruge færdige formler, der følger af dette system:

Nærheden af ​​forbindelsen mellem de fænomener, der undersøges, vurderes ved den lineære parkorrelationskoefficient for lineær regression:

og korrelationsindeks - for ikke-lineær regression:

Kvaliteten af ​​den konstruerede model vil blive vurderet ved bestemmelseskoefficienten (indekset) samt den gennemsnitlige tilnærmelsesfejl.
Gennemsnitlig tilnærmelsesfejl - gennemsnitlig afvigelse af beregnede værdier fra faktiske:
.
Den tilladte grænse for værdier er ikke mere end 8-10%.
Den gennemsnitlige elasticitetskoefficient viser med, hvor mange procent i gennemsnit resultatet y vil ændre sig fra sin gennemsnitsværdi, når faktoren x ændres med 1 % fra sin gennemsnitsværdi:
.

Formålet med variansanalyse er at analysere variansen af ​​den afhængige variabel:
,
hvor er den samlede sum af kvadrerede afvigelser;
- summen af ​​kvadrerede afvigelser på grund af regression ("forklaret" eller "faktoriel");
- Restsum af kvadrerede afvigelser.
Andelen af ​​varians, der forklares ved regression i den totale varians af den resulterende karakteristik y, er karakteriseret ved koefficienten (indekset) for bestemmelse R2:

Bestemmelseskoefficienten er kvadratet af koefficienten eller korrelationsindekset.

F-testen - vurdering af kvaliteten af ​​regressionsligningen - består i at teste hypotesen Nej om regressionsligningens statistiske insignifikans og indikatoren for sammenhængens nærhed. For at gøre dette foretages en sammenligning mellem det faktiske F-faktum og de kritiske (tabel) F-tabelværdier for Fisher F-kriteriet. F fact bestemmes ud fra forholdet mellem værdierne af faktor og restvarianser beregnet pr. frihedsgrad:
,
hvor n er antallet af befolkningsenheder; m er antallet af parametre for variable x.
F-tabel er den maksimalt mulige værdi af kriteriet under indflydelse af tilfældige faktorer ved givne frihedsgrader og signifikansniveau a. Signifikansniveauet a er sandsynligheden for at forkaste den korrekte hypotese, givet at den er sand. Normalt tages a lig med 0,05 eller 0,01.
Hvis F tabel< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F faktum, så forkastes hypotesen H o ikke, og den statistiske insignifikans og upålidelighed af regressionsligningen anerkendes.
For at vurdere den statistiske signifikans af regression og korrelationskoefficienter, beregnes Students t-test og konfidensintervaller for hver indikator. Der opstilles en hypotese om indikatorernes tilfældige karakter, dvs. om deres ubetydelige forskel fra nul. Vurdering af betydningen af ​​regression og korrelationskoefficienter ved hjælp af Students t-test udføres ved at sammenligne deres værdier med størrelsen af ​​den tilfældige fejl:
; ; .
Tilfældige fejl af de lineære regressionsparametre og korrelationskoefficienten bestemmes af formlerne:



Ved at sammenligne de faktiske og kritiske (tabel) værdier af t-statistik - t-tabel og t-faktum - accepterer eller afviser vi hypotesen H o.
Forholdet mellem Fisher F-testen og Student t-statistikken er udtrykt ved ligheden

Hvis t tabel< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t er et faktum, at hypotesen H o ikke forkastes, og den tilfældige karakter af dannelsen af ​​a, b eller erkendes.
For at beregne konfidensintervallet bestemmer vi den maksimale fejl D for hver indikator:
, .
Formlerne til beregning af konfidensintervaller er som følger:
; ;
; ;
Hvis nul falder inden for konfidensintervallet, dvs. Hvis den nedre grænse er negativ, og den øvre grænse er positiv, antages den estimerede parameter at være nul, da den ikke samtidigt kan tage både positive og negative værdier.
Prognoseværdien bestemmes ved at erstatte den tilsvarende (prognose)værdi i regressionsligningen. Den gennemsnitlige standardfejl for prognosen beregnes:
,
Hvor
og et konfidensinterval for prognosen er konstrueret:
; ;
Hvor .

Eksempel løsning

Opgave nr. 1. For syv territorier i Ural-regionen i 199X er værdierne af to karakteristika kendt.
Tabel 1.
Påkrævet: 1. For at karakterisere afhængigheden af ​​y af x, beregne parametrene for følgende funktioner:
a) lineær;
b) power (du skal først udføre proceduren for linearisering af variablerne ved at tage logaritmen af ​​begge dele);
c) demonstrativ;
d) en ligesidet hyperbel (du skal også finde ud af, hvordan du pre-lineariserer denne model).
2. Evaluer hver model ved hjælp af den gennemsnitlige tilnærmelsesfejl og Fishers F-test.

Løsning (mulighed nr. 1)

For at beregne parametrene a og b for lineær regression (beregning kan udføres ved hjælp af en lommeregner).
løse et system af normalligninger for EN Og b:
Ud fra de indledende data beregner vi :
y x yx x 2 y 2 A i
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Total 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
ons. betyder (i alt/n) 57,89 54,90 3166,05 3048,34 3383,68 x x 8,1
s 5,74 5,86 x x x x x x
s 2 32,92 34,34 x x x x x x


Regressionsligning: y = 76,88 - 0,35X. Med en stigning i den gennemsnitlige dagsløn med 1 gnid. andelen af ​​udgifter til indkøb af fødevarer falder i gennemsnit med 0,35 procentpoint.
Lad os beregne den lineære parkorrelationskoefficient:

Forbindelsen er moderat, omvendt.
Lad os bestemme bestemmelseskoefficienten:

Variationen på 12,7 % i resultatet forklares af variationen i x-faktoren. Substitution af faktiske værdier i regressionsligningen X, lad os bestemme de teoretiske (beregnede) værdier . Lad os finde værdien af ​​den gennemsnitlige tilnærmelsesfejl:

I gennemsnit afviger de beregnede værdier fra de faktiske med 8,1 %.
Lad os beregne F-kriteriet:

siden 1< F < ¥ , bør overvejes F -1 .
Den resulterende værdi indikerer behovet for at acceptere hypotesen Men åh den tilfældige karakter af den identificerede afhængighed og den statistiske insignifikans af parametrene i ligningen og indikatoren for forbindelsens tæthed.
1b. Forud for konstruktionen af ​​en effektmodel er proceduren for linearisering af variabler. I eksemplet udføres linearisering ved at tage logaritmer af begge sider af ligningen:


HvorY=lg(y), X=lg(x), C=lg(a).

Til beregninger bruger vi dataene i tabellen. 1.3.

Tabel 1.3

Y x YX Y2 X 2 A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Total 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Gennemsnits værdi 1,7605 1,7370 3,0572 3,1011 3,0194 x x 28,27 8,0
σ 0,0425 0,0484 x x x x x x x
σ 2 0,0018 0,0023 x x x x x x x

Lad os beregne C og b:


Vi får en lineær ligning: .
Efter at have udført sin potensering får vi:

Substitution af faktiske værdier i denne ligning X, vi opnår teoretiske værdier af resultatet. Ved hjælp af dem vil vi beregne indikatorerne: tæthed af forbindelse - korrelationsindeks og gennemsnitlig tilnærmelsesfejl

Kraftlovsmodellens karakteristika indikerer, at den beskriver sammenhængen noget bedre end den lineære funktion.

1c. Konstruktion af ligningen for en eksponentiel kurve

forudgået af en procedure til linearisering af variable ved at tage logaritmer af begge sider af ligningen:

Til beregninger bruger vi tabeldata.

Y x Yx Y2 x 2 A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Total 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
ons. zn. 1,7605 54,9 96,5711 3,1011 3048,34 x x 28,68 8,0
σ 0,0425 5,86 x x x x x x x
σ 2 0,0018 34,339 x x x x x x x

Værdier af regressionsparametre A og I udgjorde:


Den resulterende lineære ligning er: . Lad os forstærke den resulterende ligning og skrive den i den sædvanlige form:

Vi vil evaluere tætheden af ​​forbindelsen gennem korrelationsindekset:

Regressionsanalysemetoden bruges til at bestemme de tekniske og økonomiske parametre for produkter, der tilhører en specifik parametrisk serie for at opbygge og tilpasse værdirelationer. Denne metode bruges til at analysere og retfærdiggøre niveauet og prisforholdet for produkter, der er karakteriseret ved tilstedeværelsen af ​​en eller flere tekniske og økonomiske parametre, der afspejler de vigtigste forbrugeregenskaber. Regressionsanalyse giver os mulighed for at finde en empirisk formel, der beskriver prisens afhængighed af produkters tekniske og økonomiske parametre:

P=f(X1X2,...,Xn),

hvor P er værdien af ​​produktets enhedspris, rub.; (X1, X2, ... Xn) - tekniske og økonomiske parametre for produkter.

Metoden til regressionsanalyse - den mest avancerede af de anvendte normativ-parametriske metoder - er effektiv ved udførelse af beregninger baseret på brug af moderne informationsteknologier og -systemer. Dens anvendelse omfatter følgende hovedtrin:

  • bestemmelse af klassificering parametriske grupper af produkter;
  • udvalg af parametre, der har størst indflydelse på produktets pris;
  • valg og begrundelse af sammenhængsformen mellem prisændringer, når parametre ændres;
  • opbygning af et system af normalligninger og beregning af regressionskoefficienter.

Den vigtigste kvalifikationsgruppe af produkter, hvis pris er underlagt udligning, er en parametrisk serie, inden for hvilken produkter kan grupperes i forskellige designs afhængigt af deres anvendelse, driftsbetingelser og krav osv. Ved dannelse af parametriske serier, automatiske klassificeringsmetoder kan bruges, som gør det muligt at skelne homogene grupper fra den samlede masse af produkter. Udvælgelsen af ​​tekniske og økonomiske parametre er baseret på følgende grundlæggende krav:

  • de valgte parametre omfatter parametre, der er registreret i standarder og tekniske specifikationer; ud over tekniske parametre (effekt, belastningskapacitet, hastighed osv.) Anvendes indikatorer for produktserialisering, kompleksitetskoefficienter, forening osv.;
  • sættet af udvalgte parametre skal i tilstrækkelig grad karakterisere design, teknologiske og operationelle egenskaber af produkterne inkluderet i serien og have en ret tæt korrelation med prisen;
  • parametre bør ikke være indbyrdes afhængige.

For at vælge tekniske og økonomiske parametre, der væsentligt påvirker prisen, beregnes en matrix af parkorrelationskoefficienter. Baseret på størrelsen af ​​korrelationskoefficienterne mellem parametrene kan man bedømme tætheden af ​​deres forbindelse. Samtidig viser en korrelation tæt på nul en ubetydelig indflydelse af parameteren på prisen. Den endelige udvælgelse af tekniske og økonomiske parametre udføres i processen med trin-for-trin regressionsanalyse ved hjælp af computerteknologi og passende standardprogrammer.

I prisfastsættelsespraksis bruges følgende sæt funktioner:

lineær

P = ao + alXl + ... + antXn,

lineær kraft

P = ao + a1X1 + ... + anXn + (an+1Xn) (an+1Xn) +... + (an+nXn2) (an+nXn2)

invers logaritme

P = a0 + a1: I X1 + ... + an: I Xn,

strøm

P = a0 (X1^a1) (X2^a2) .. (Xn^an)

vejledende

P = e^(a1+a1X1+...+anXn)

hyperbolsk

P = ao + a1:X1 + a2:X2 + ... + ap:Xn,

hvor P er prisudligning; X1 X2,..., Xn - værdien af ​​de tekniske og økonomiske parametre for produkterne i serien; a0, a1 ..., аn - beregnede koefficienter for regressionsligningen.

I praktisk arbejde med prisfastsættelse kan der afhængig af sammenhængsformen mellem priser og tekniske og økonomiske parametre anvendes andre regressionsligninger. Funktionstypen for forbindelsen mellem pris og et sæt tekniske og økonomiske parametre kan forudindstilles eller vælges automatisk under computerbehandling. Nærheden af ​​korrelationen mellem prisen og sættet af parametre vurderes ved værdien af ​​den multiple korrelationskoefficient. Dens nærhed til én indikerer en tæt forbindelse. Ved hjælp af regressionsligningen opnås udlignede (beregnede) prisværdier for produkter af en given parametrisk serie. For at evaluere resultaterne af udligningen beregnes de relative værdier af afvigelsen af ​​de beregnede prisværdier fra de faktiske:

Tsr = Rf - Rr: R x 100

hvor Рф, Рр - faktiske og beregnede priser.

Værdien af ​​CR bør ikke overstige 8-10%. I tilfælde af væsentlige afvigelser af beregnede værdier fra faktiske, er det nødvendigt at undersøge:

  • rigtigheden af ​​dannelsen af ​​en parametrisk serie, da den kan indeholde produkter, der i deres parametre adskiller sig markant fra andre produkter i serien. De skal udelukkes;
  • korrekt valg af tekniske og økonomiske parametre. Et sæt parametre er muligt, som er svagt korreleret med prisen. I dette tilfælde er det nødvendigt at fortsætte med at søge og vælge parametre.

Proceduren og metoden til at udføre regressionsanalyse, finde ukendte parametre for ligningen og økonomisk vurdering af de opnåede resultater udføres i overensstemmelse med kravene til matematisk statistik.

I hans værker, der går tilbage til 1908. Han beskrev det ved at bruge eksemplet med arbejdet hos en agent, der sælger fast ejendom. I sine optegnelser holdt hussalgsspecialisten styr på en lang række inputdata for hver specifik bygning. På baggrund af auktionens resultater blev det fastlagt, hvilken faktor der havde størst indflydelse på transaktionsprisen.

Analyse af en lang række transaktioner gav interessante resultater. Den endelige pris var påvirket af mange faktorer, hvilket nogle gange førte til paradoksale konklusioner og endda åbenlyse "outliers", når et hus med et højt indledende potentiale blev solgt til en reduceret pris.

Det andet eksempel på anvendelsen af ​​en sådan analyse er det arbejde, som blev betroet med at fastlægge medarbejdernes aflønning. Kompleksiteten af ​​opgaven lå i, at den ikke krævede uddeling af et fast beløb til alle, men dens strenge overensstemmelse med det konkrete udførte arbejde. Fremkomsten af ​​mange problemer med praktisk talt lignende løsninger krævede en mere detaljeret undersøgelse af dem på det matematiske niveau.

En væsentlig plads blev tildelt afsnittet ”regressionsanalyse”, som kombinerede praktiske metoder til at studere afhængigheder, der falder ind under regressionsbegrebet. Disse sammenhænge er observeret mellem data opnået fra statistiske undersøgelser.

Blandt de mange opgaver, der skal løses, er hovedmålene tre: bestemmelse af en generel regressionsligning; konstruere estimater af parametre, der er ukendte, som er en del af regressionsligningen; test af statistiske regressionshypoteser. I løbet af undersøgelsen af ​​forholdet, der opstår mellem et par af mængder opnået som et resultat af eksperimentelle observationer og udgør en række (sæt) af typen (x1, y1), ..., (xn, yn), stoler de på regressionsteoriens bestemmelser og antager, at der for den ene størrelse Y er en vis sandsynlighedsfordeling, mens den anden X forbliver fast.

Resultatet Y afhænger af værdien af ​​variablen X; denne afhængighed kan bestemmes af forskellige mønstre, mens nøjagtigheden af ​​de opnåede resultater er påvirket af arten af ​​observationerne og formålet med analysen. Den eksperimentelle model er baseret på visse antagelser, der er forenklede, men plausible. Hovedbetingelsen er, at parameteren X er en kontrolleret størrelse. Dens værdier indstilles før starten af ​​eksperimentet.

Hvis et par ukontrollerede variable XY anvendes under et eksperiment, udføres regressionsanalyse på samme måde, men der anvendes metoder til at fortolke resultaterne, hvorunder forholdet mellem de undersøgte stokastiske variable studeres Metoder til matematisk statistik. er ikke et abstrakt emne. De finder anvendelse i livet på forskellige områder af menneskelig aktivitet.

I den videnskabelige litteratur er udtrykket lineær regressionsanalyse meget brugt til at definere ovenstående metode. For variabel X bruges begrebet regressor eller prædiktor, og afhængige Y-variable kaldes også kriterievariable. Denne terminologi afspejler kun den matematiske afhængighed af variablerne, men ikke årsag-virkning-forholdet.

Regressionsanalyse er den mest almindelige metode til behandling af resultaterne af en lang række observationer. Fysiske og biologiske afhængigheder studeres ved hjælp af denne metode; den implementeres både i økonomi og teknologi. Mange andre felter bruger regressionsanalysemodeller. Variansanalyse og multivariat statistisk analyse arbejder tæt sammen med denne undersøgelsesmetode.

Hvis der er en sammenhæng mellem faktor- og præstationskarakteristika, skal læger ofte fastslå, hvor meget værdien af ​​den ene egenskab kan ændre sig, når den anden ændres til en almindeligt accepteret måleenhed eller en, der er fastsat af forskeren selv.

For eksempel, hvordan vil kropsvægten af ​​1. klasses skolebørn (piger eller drenge) ændre sig, hvis deres højde stiger med 1 cm?Til disse formål bruges metoden til regressionsanalyse.

Oftest bruges regressionsanalysemetoden til at udvikle normative skalaer og standarder for fysisk udvikling.

  1. Definition af regression. Regression er en funktion, der tillader, ud fra gennemsnitsværdien af ​​en karakteristik, at bestemme gennemsnitsværdien af ​​en anden karakteristik, der er korreleret med den første.

    Til dette formål anvendes regressionskoefficienten og en række andre parametre. For eksempel kan du beregne antallet af forkølelser i gennemsnit ved bestemte værdier af den gennemsnitlige månedlige lufttemperatur i efterår-vinterperioden.

  2. Bestemmelse af regressionskoefficienten. Regressionskoefficient er den absolutte værdi, med hvilken værdien af ​​en karakteristik i gennemsnit ændres, når en anden tilknyttet karakteristik ændres med en specificeret måleenhed.
  3. Formel for regressionskoefficient. R y/x = r xy x (σ y / σ x)
    hvor R у/х - regressionskoefficient;
    r xy - korrelationskoefficient mellem karakteristika x og y;
    (σ y og σ x) - standardafvigelser for karakteristika x og y.

    I vores eksempel;
    σ x = 4,6 (standardafvigelse af lufttemperatur i efterår-vinterperioden;
    σ y = 8,65 (standardafvigelse af antallet af infektions- og forkølelsessygdomme).
    R y/x er således regressionskoefficienten.
    R у/х = -0,96 x (4,6 / 8,65) = 1,8, dvs. Når den gennemsnitlige månedlige lufttemperatur (x) falder med 1 grad, vil det gennemsnitlige antal infektions- og forkølelsessygdomme (y) i efterår-vinterperioden ændre sig med 1,8 tilfælde.

  4. Regressionsligning. y = M y + R y/x (x - M x)
    hvor y er gennemsnitsværdien af ​​karakteristikken, som skal bestemmes, når gennemsnitsværdien af ​​en anden karakteristik ændres (x);
    x er den kendte gennemsnitsværdi af en anden karakteristik;
    R y/x - regressionskoefficient;
    M x, M y - kendte gennemsnitsværdier af karakteristika x og y.

    For eksempel kan det gennemsnitlige antal infektions- og forkølelsessygdomme (y) bestemmes uden særlige målinger ved enhver gennemsnitsværdi af den gennemsnitlige månedlige lufttemperatur (x). Så hvis x = - 9°, R y/x = 1,8 sygdomme, M x = -7°, M y = 20 sygdomme, så er y = 20 + 1,8 x (9-7) = 20 + 3,6 = 23,6 sygdomme.
    Denne ligning anvendes i tilfælde af en lineær sammenhæng mellem to karakteristika (x og y).

  5. Formål med regressionsligningen. Regressionsligningen bruges til at konstruere en regressionslinje. Sidstnævnte gør det muligt uden særlige målinger at bestemme en hvilken som helst gennemsnitsværdi (y) af en karakteristik, hvis værdien (x) af en anden karakteristik ændres. Baseret på disse data konstrueres en graf - regressionslinje, som kan bruges til at bestemme det gennemsnitlige antal forkølelser ved enhver værdi af den gennemsnitlige månedlige temperatur inden for intervallet mellem de beregnede værdier af antallet af forkølelser.
  6. Regression Sigma (formel).
    hvor σ Rу/х - sigma (standardafvigelse) af regression;
    σ y - standardafvigelse af karakteristikken y;
    r xy - korrelationskoefficient mellem karakteristika x og y.

    Så hvis σ y - standardafvigelse af antallet af forkølelser = 8,65; r xy - korrelationskoefficienten mellem antallet af forkølelser (y) og den gennemsnitlige månedlige lufttemperatur i efterår-vinterperioden (x) er lig med - 0,96, så

  7. Regression sigma opgave. Giver en beskrivelse af diversitetsmålet for den resulterende karakteristik (y).

    For eksempel karakteriserer det mangfoldigheden af ​​antallet af forkølelser ved en vis værdi af den gennemsnitlige månedlige lufttemperatur i efterår-vinterperioden. Således kan det gennemsnitlige antal forkølelser ved lufttemperatur x 1 = -6° variere fra 15,78 sygdomme til 20,62 sygdomme.
    Ved x 2 = -9° kan det gennemsnitlige antal forkølelser variere fra 21,18 sygdomme til 26,02 sygdomme osv.

    Regressionssigma bruges til at konstruere en regressionsskala, som afspejler afvigelsen af ​​værdierne for den resulterende karakteristik fra dens gennemsnitlige værdi plottet på regressionslinjen.

  8. Data nødvendige for at beregne og plotte regressionsskalaen
    • regressionskoefficient - R у/х;
    • regressionsligning - y = M y + R y/x (x-M x);
    • regression sigma - σ Rx/y
  9. Beregningsrækkefølge og grafisk fremstilling af regressionsskalaen.
    • Bestem regressionskoefficienten ved hjælp af formlen (se afsnit 3). For eksempel er det nødvendigt at bestemme, hvor meget kropsvægten vil ændre sig i gennemsnit (i en vis alder afhængigt af køn), hvis den gennemsnitlige højde ændres med 1 cm.
    • ved hjælp af regressionsligningsformlen (se punkt 4), bestemmer du, hvad for eksempel kropsvægten vil være i gennemsnit (y, y 2, y 3 ...) * for en bestemt højdeværdi (x, x 2, x 3 . ..).
      ________________
      * Værdien af ​​"y" skal beregnes for mindst tre kendte værdier af "x".

      Samtidig er de gennemsnitlige værdier af kropsvægt og højde (M x og M y) for en bestemt alder og køn kendt

    • beregn regressionssigmaet ved at kende de tilsvarende værdier af σ y og r xy og substituere deres værdier i formlen (se afsnit 6).
    • baseret på de kendte værdier x 1, x 2, x 3 og de tilsvarende gennemsnitsværdier y 1, y 2 y 3, samt den mindste (y - σ rу/х) og den største (y + σ rу /х) værdier (y) konstruerer en regressionsskala.

      For grafisk at repræsentere regressionsskalaen markeres værdierne x, x2, x3 (ordinatakse) først på grafen, dvs. en regressionslinje konstrueres, for eksempel kropsvægtens (y) afhængighed af højden (x).

      Derefter, på de tilsvarende punkter 1, y 2, y 3, noteres de numeriske værdier af regressionssigmaet, dvs. Find de mindste og største værdier af 1, y 2, y 3 på grafen.

  10. Praktisk brug af regressionsskalaen. Normative skalaer og standarder er under udvikling, især for fysisk udvikling. Ved hjælp af en standardskala kan du give en individuel vurdering af børns udvikling. I dette tilfælde vurderes den fysiske udvikling som harmonisk, hvis f.eks. barnets kropsvægt ved en bestemt højde er inden for et sigma af regression til den gennemsnitlige beregnede kropsvægtsenhed - (y) for en given højde (x) ( y ± 1 σ Ry/x).

    Fysisk udvikling betragtes som disharmonisk med hensyn til kropsvægt, hvis barnets kropsvægt i en vis højde er inden for det andet sigma af regression: (y ± 2 σ Ry/x)

    Den fysiske udvikling vil være skarpt disharmonisk på grund af både overskydende og utilstrækkelig kropsvægt, hvis kropsvægten for en vis højde er inden for det tredje sigma af regression (y ± 3 σ Ry/x).

Ifølge resultaterne af en statistisk undersøgelse af den fysiske udvikling af 5-årige drenge er det kendt, at deres gennemsnitlige højde (x) er 109 cm, og deres gennemsnitlige kropsvægt (y) er 19 kg. Korrelationskoefficienten mellem højde og kropsvægt er +0,9, standardafvigelser er vist i tabellen.

Påkrævet:

  • beregn regressionskoefficienten;
  • Brug regressionsligningen til at bestemme, hvad den forventede kropsvægt for 5-årige drenge vil være med en højde svarende til x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • beregne regressionssigmaet, konstruere en regressionsskala og præsentere resultaterne af dens løsning grafisk;
  • drage passende konklusioner.

Betingelserne for problemet og resultaterne af dets løsning er præsenteret i oversigtstabellen.

tabel 1

Betingelserne for problemet Resultater af løsning af problemet
regressionsligning regression sigma regressionsskala (forventet kropsvægt (i kg))
M σ r xy R y/x x U σ R x/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Højde (x) 109 cm ± 4,4 cm +0,9 0,16 100 cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Kropsmasse (y) 19 kg ± 0,8 kg 110 cm 19,16 kg 18,81 kg 19,51 kg
120 cm 20,76 kg 20,41 kg 21,11 kg

Løsning.

Konklusion. Således gør regressionsskalaen inden for de beregnede værdier af kropsvægt det muligt at bestemme det til enhver anden højdeværdi eller at vurdere barnets individuelle udvikling. For at gøre dette skal du genoprette vinkelret på regressionslinjen.

  1. Vlasov V.V. Epidemiologi. - M.: GEOTAR-MED, 2004. - 464 s.
  2. Lisitsyn Yu.P. Folkesundhed og sundhedsvæsen. Lærebog for universiteter. - M.: GEOTAR-MED, 2007. - 512 s.
  3. Medic V.A., Yuryev V.K. Forelæsningsforløb om folkesundhed og sundhedsvæsen: Del 1. Folkesundhed. - M.: Medicin, 2003. - 368 s.
  4. Minyaev V.A., Vishnyakov N.I. Socialmedicin og sundhedsorganisation (manual i 2 bind). - St. Petersborg, 1998. -528 s.
  5. Kucherenko V.Z., Agarkov N.M. Social hygiejne og sundhedsorganisation (Tutorial) - Moskva, 2000. - 432 s.
  6. S. Glanz. Medicinsk og biologisk statistik. Oversættelse fra engelsk - M., Praktika, 1998. - 459 s.

Efter at korrelationsanalyse har afsløret tilstedeværelsen af ​​statistiske sammenhænge mellem variable og vurderet graden af ​​deres nærhed, går vi normalt videre til en matematisk beskrivelse af en specifik type afhængighed ved hjælp af regressionsanalyse. Til dette formål vælges en klasse af funktioner, der forbinder den resulterende indikator y og argumenterne x 1, x 2, ..., x k, de mest informative argumenter er valgt, estimater af de ukendte værdier af parametrene for kommunikationsligning beregnes, og egenskaberne af den resulterende ligning analyseres.

Funktionen f(x 1, x 2,..., x k), der beskriver afhængigheden af ​​gennemsnitsværdien af ​​den resulterende karakteristik y af de givne værdier af argumenterne, kaldes regressionsfunktionen (ligningen). Udtrykket "regression" (latinsk -regression - tilbagetog, vende tilbage til noget) blev introduceret af den engelske psykolog og antropolog F. Galton og er udelukkende forbundet med detaljerne i et af de første specifikke eksempler, hvor dette koncept blev brugt. F. Galton fandt således ved at behandle statistiske data i forbindelse med analysen af ​​højdens arvelighed, at hvis fædre afviger fra gennemsnitshøjden for alle fædre med x tommer, så afviger deres sønner fra gennemsnitshøjden for alle sønner med mindre end x tommer. Den identificerede tendens blev kaldt "regression til middelværdien." Siden da er begrebet "regression" blevet meget brugt i den statistiske litteratur, selvom det i mange tilfælde ikke præcist karakteriserer begrebet statistisk afhængighed.

For nøjagtigt at beskrive regressionsligningen er det nødvendigt at kende fordelingsloven for den effektive indikator y. I statistisk praksis er man normalt nødt til at begrænse sig til at søge efter passende tilnærmelser til den ukendte sande regressionsfunktion, da forskeren ikke har præcis viden om den betingede sandsynlighedsfordelingslov for den analyserede resulterende indikator y for givne værdier af argument x.

Lad os overveje forholdet mellem sand f(x) = M(y1x), modelregression? og regressionsestimat y. Lad den effektive indikator y relateres til argumentet x ved relationen:

hvor er en stokastisk variabel, der har en normalfordelingslov, og Me = 0 og D e = y 2. Den sande regressionsfunktion har i dette tilfælde formen: f (x) = M(y/x) = 2x 1,5.

Lad os antage, at vi ikke kender den nøjagtige form af den sande regressionsligning, men vi har ni observationer af en todimensionel tilfældig variabel relateret til relationen yi = 2x1,5 + e, og præsenteret i fig. 1

Figur 1 - Den relative position af sandheden f (x) og den teoretiske? regressionsmodeller

Placering af punkter i fig. 1 giver os mulighed for at begrænse os til klassen af ​​formens lineære afhængigheder? = i 0 + i 1 x. Ved hjælp af mindste kvadraters metode finder vi estimatet af regressionsligningen y = b 0 + b 1 x. Til sammenligning, i fig. 1 viser grafer for den sande regressionsfunktion y = 2x 1,5, den teoretisk tilnærmede regressionsfunktion? = i 0 + i 1 x .

Da vi lavede en fejl ved at vælge klassen for regressionsfunktionen, og dette er ret almindeligt i praksis med statistisk forskning, vil vores statistiske konklusioner og estimater vise sig at være fejlagtige. Og uanset hvor meget vi øger mængden af ​​observationer, vil vores prøveestimat y ikke være tæt på den sande regressionsfunktion f(x). Hvis vi havde valgt klassen af ​​regressionsfunktioner korrekt, så er unøjagtigheden i at beskrive f(x) vha.? kunne kun forklares med stikprøvebegrænsninger.

For bedst muligt at gendanne, fra de originale statistiske data, den betingede værdi af den effektive indikator y(x) og den ukendte regressionsfunktion f(x) = M(y/x), er følgende tilstrækkelighedskriterier (tabsfunktioner) mest ofte brugt.

Mindste kvadratisk metode. Ifølge den er kvadratet på afvigelsen af ​​de observerede værdier af den effektive indikator y, (i = 1,2,..., n) fra modelværdierne,? = f(x i), hvor x i er værdien af ​​argumentvektoren i den i-te observation: ?(y i - f(x i) 2 > min. Den resulterende regression kaldes middelkvadrat.

Metode til de mindste moduler. Ifølge den minimeres summen af ​​absolutte afvigelser af de observerede værdier af den effektive indikator fra de modulære værdier. Og vi får,? = f(x i), middel absolut medianregression? |y i - f(x i)| > min.

Regressionsanalyse er en metode til statistisk analyse af afhængigheden af ​​en stokastisk variabel y af variable x j = (j = 1,2,..., k), betragtet i regressionsanalyse som ikke-tilfældige variable, uanset den sande fordelingslov af x j.

Normalt antages det, at en stokastisk variabel y har en normalfordelingslov med en betinget forventning y, som er en funktion af argumenterne x/ (/ = 1, 2,..., k) og en konstant varians y 2 uafhængig af argumenterne.

Generelt har den lineære regressionsanalysemodel formen:

Y = Y k j=0 V j ts j(x 1 , x 2 . . .. ,x k)+E

hvor q j er en funktion af dens variable - x 1, x 2. . .. ,x k, E er en stokastisk variabel med nul matematisk forventning og varians y 2.

Ved regressionsanalyse vælges typen af ​​regressionsligning ud fra den fysiske karakter af det fænomen, der undersøges, og resultaterne af observation.

Estimater af de ukendte parametre i regressionsligningen findes normalt ved hjælp af mindste kvadraters metode. Nedenfor vil vi dvæle mere detaljeret ved dette problem.

Bivariat lineær regressionsligning. Lad os antage, baseret på analysen af ​​det undersøgte fænomen, at på "gennemsnittet" er y en lineær funktion af x, dvs. der er en regressionsligning

y=M(y/x)=i 0 + i 1 x)

hvor M(y1x) er den betingede matematiske forventning af den stokastiske variabel y for en given x; ved 0 og ved 1 - ukendte parametre for den generelle befolkning, som skal estimeres baseret på resultaterne af stikprøveobservationer.

Antag, at for at estimere parametre ved 0 og ved 1, tages en prøve af størrelse n fra en todimensionel population (x, y), hvor (x, y,) er resultatet af den i-te observation (i = 1 , 2,..., n). I dette tilfælde har regressionsanalysemodellen formen:

y j = i 0 + i 1 x+e j .

hvor e j er uafhængige normalfordelte stokastiske variable med nul matematisk forventning og varians y 2, altså M e j. = 0;

D e j .= y 2 for alle i = 1, 2,..., n.

Ifølge mindste kvadraters metode, som estimater af de ukendte parametre ved 0 og ved 1, bør man tage sådanne værdier af prøvekarakteristika b 0 og b 1, der minimerer summen af ​​kvadrerede afvigelser af værdierne af den resulterende karakteristisk for i fra den betingede matematiske forventning? jeg

Vi vil overveje metoden til at bestemme indflydelsen af ​​markedsføringsegenskaber på en virksomheds overskud ved at bruge eksemplet med sytten typiske virksomheder med gennemsnitlige størrelser og indikatorer for økonomisk aktivitet.

Ved løsning af problemet blev følgende karakteristika taget i betragtning, identificeret som de vigtigste (vigtige) som et resultat af spørgeskemaundersøgelsen:

* virksomhedens innovative aktivitet;

* planlægning af rækken af ​​producerede produkter;

* dannelse af prispolitik;

* PR;

* salgssystem;

* medarbejderincitamentssystem.

Baseret på et system af sammenligninger efter faktorer blev der konstrueret kvadratiske matricer af tilstødende, hvor værdierne af relative prioriteter blev beregnet for hver faktor: virksomhedens innovative aktivitet, planlægning af produktsortimentet, dannelse af prispolitik, reklame , PR, salgssystem, medarbejderincitamentssystem.

Estimater af prioriteringer for faktoren "forhold til offentligheden" blev opnået som et resultat af en undersøgelse blandt virksomhedsspecialister. Følgende notationer accepteres: > (bedre), > (bedre eller det samme), = (samme),< (хуже или одинаково), <

Dernæst blev problemet med en omfattende vurdering af virksomhedens markedsføringsniveau løst. Ved beregning af indikatoren blev betydningen (vægten) af de betragtede partielle karakteristika bestemt, og problemet med lineær foldning af partielle indikatorer blev løst. Databehandlingen blev udført ved hjælp af specialudviklede programmer.

Dernæst beregnes en samlet vurdering af virksomhedens markedsføringsniveau - markedsføringskoefficienten, som er indtastet i tabel 1. Derudover indeholder tabellen indikatorer, der karakteriserer virksomheden som helhed. Dataene i tabellen vil blive brugt til at udføre regressionsanalyse. Den resulterende egenskab er profit. Sammen med markedsføringskoefficienten blev følgende indikatorer brugt som faktorkarakteristika: volumen af ​​bruttoproduktion, omkostninger til anlægsaktiver, antal ansatte, specialiseringskoefficient.

Tabel 1 - Indledende data til regressionsanalyse


I henhold til tabeldataene og på grundlag af faktorer med de mest signifikante værdier af korrelationskoefficienter blev regressionsfunktioner for profitafhængigheden af ​​faktorer konstrueret.

Regressionsligningen i vores tilfælde vil have formen:

Den kvantitative indflydelse af faktorerne diskuteret ovenfor på mængden af ​​profit er angivet af koefficienterne for regressionsligningen. De viser, hvor mange tusinde rubler dens værdi ændres, når faktorkarakteristikken ændres med en enhed. Som det følger af ligningen, giver en stigning i marketingmix-koefficienten med en enhed en stigning i fortjenesten med 1547,7 tusind rubler. Dette tyder på, at forbedring af marketingaktiviteter har et enormt potentiale for at forbedre virksomhedernes økonomiske præstationer.

Når man studerer markedsføringseffektivitet, er den mest interessante og vigtigste faktor faktor X5 - markedsføringskoefficienten. I overensstemmelse med teorien om statistik er fordelen ved den eksisterende multiple regressionsligning evnen til at evaluere den isolerede indflydelse af hver faktor, herunder markedsføringsfaktoren.

Resultaterne af regressionsanalysen har en bredere anvendelse end til beregning af ligningens parametre. Kriteriet for at klassificere (Kef) virksomheder som relativt bedre eller relativt dårligere er baseret på den relative indikator for resultatet:

hvor Y facti er den faktiske værdi af den i-te virksomhed, tusind rubler;

Y beregnet - mængden af ​​overskud for den i-te virksomhed, opnået ved beregning ved hjælp af regressionsligningen

I forhold til problemet, der skal løses, kaldes værdien "effektivitetskoefficienten". En virksomheds aktivitet kan anses for effektiv i tilfælde, hvor værdien af ​​koefficienten er større end én. Det betyder, at den faktiske fortjeneste er større end den gennemsnitlige fortjeneste over stikprøven.

Faktiske og estimerede overskudsværdier er vist i tabel. 2.

Tabel 2 - Analyse af den resulterende karakteristik i regressionsmodellen

Analyse af tabellen viser, at i vores tilfælde kan aktiviteterne i virksomheder 3, 5, 7, 9, 12, 14, 15, 17 i den undersøgte periode anses for at være vellykkede.