Bestem koefficienterne ved hjælp af mindste kvadraters metode. Eksempler på løsning af specifikke problemer

Efter nivellering får vi en funktion af følgende form: g (x) = x + 1 3 + 1 .

Vi kan tilnærme disse data ved at bruge det lineære forhold y = a x + b ved at beregne de tilsvarende parametre. For at gøre dette skal vi anvende den såkaldte mindste kvadraters metode. Du skal også lave en tegning for at kontrollere, hvilken linje der bedst justerer de eksperimentelle data.

Yandex.RTB R-A-339285-1

Hvad er OLS (mindste kvadraters metode)

Det vigtigste, vi skal gøre, er at finde sådanne koefficienter for lineær afhængighed, hvor værdien af ​​funktionen af ​​to variable F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 vil være mindste. Med andre ord, for visse værdier af a og b vil summen af ​​de kvadrerede afvigelser af de præsenterede data fra den resulterende rette linje have en minimumsværdi. Dette er meningen med mindste kvadraters metode. Alt, hvad vi skal gøre for at løse eksemplet, er at finde yderpunktet for funktionen af ​​to variable.

Hvordan man udleder formler til beregning af koefficienter

For at udlede formler til beregning af koefficienter skal du oprette og løse et ligningssystem med to variable. For at gøre dette beregner vi de partielle afledte af udtrykket F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 med hensyn til a og b og sætter lighedstegn mellem dem til 0.

δ F (a, b) δ a = 0 δ F (a, b) δ b = 0 ⇔ - 2 ∑ i = 1 n (y i - (a x i + b)) x i = 0 - 2 ∑ i = 1 n ( y i - (a x i + b)) = 0 ⇔ a ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + ∑ i = 1 n b = ∑ y i = ∑ y ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + n b = ∑ i = 1 n y i

For at løse et ligningssystem kan du bruge en hvilken som helst metode, for eksempel substitution eller Cramers metode. Som et resultat bør vi have formler, der kan bruges til at beregne koefficienter ved hjælp af mindste kvadraters metode.

n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 n

Vi har beregnet værdierne af de variable, hvor funktionen
F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 vil tage minimumsværdien. I tredje afsnit vil vi bevise, hvorfor det er præcis sådan.

Dette er anvendelsen af ​​mindste kvadraters metode i praksis. Dens formel, som bruges til at finde parameteren a, inkluderer ∑ i = 1 n x i, ∑ i = 1 n y i, ∑ i = 1 n x i y i, ∑ i = 1 n x i 2, samt parameteren
n – det angiver mængden af ​​eksperimentelle data. Vi råder dig til at beregne hvert beløb separat. Værdien af ​​koefficienten b beregnes umiddelbart efter a.

Lad os gå tilbage til det oprindelige eksempel.

Eksempel 1

Her har vi n lig med fem. For at gøre det mere bekvemt at beregne de nødvendige mængder inkluderet i koefficientformlerne, lad os udfylde tabellen.

i = 1 i=2 i=3 i=4 i=5 ∑ i = 1 5
x i 0 1 2 4 5 12
y i 2 , 1 2 , 4 2 , 6 2 , 8 3 12 , 9
x i y i 0 2 , 4 5 , 2 11 , 2 15 33 , 8
x i 2 0 1 4 16 25 46

Løsning

Den fjerde række inkluderer data opnået ved at gange værdierne fra den anden række med værdierne af den tredje for hver enkelt i. Den femte linje indeholder dataene fra den anden, i kvadrat. Den sidste kolonne viser summen af ​​værdierne af individuelle rækker.

Lad os bruge mindste kvadraters metode til at beregne de koefficienter a og b, vi skal bruge. For at gøre dette skal du erstatte de nødvendige værdier fra den sidste kolonne og beregne beløbene:

n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 n 3 x i = 1, 3 - 12 12, 9 5 46 - 12 2 b = 12, 9 - a 12 5 ⇒ a ≈ 0, 165 b ≈ 2, 184

Det viser sig, at den krævede tilnærmede lige linje vil se ud som y = 0, 165 x + 2, 184. Nu skal vi bestemme, hvilken linje der bedre vil tilnærme dataene - g (x) = x + 1 3 + 1 eller 0, 165 x + 2, 184. Lad os estimere ved hjælp af mindste kvadraters metode.

For at beregne fejlen skal vi finde summen af ​​kvadrerede afvigelser af data fra de rette linjer σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 og σ 2 = ∑ i = 1 n (y i - g (x i)) 2, vil minimumsværdien svare til en mere passende linje.

σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 = = ∑ i = 1 5 (y i - (0, 165 x i + 2, 184)) 2 ≈ 0, 019 σ 2 = ∑ i = 1 n (y i - g (x i)) 2 = = ∑ i = 1 5 (y i - (xi + 1 3 + 1)) 2 ≈ 0,096

Svar: siden σ 1< σ 2 , то прямой, наилучшим образом аппроксимирующей исходные данные, будет
y = 0,165 x + 2,184.

Mindste kvadraters metode er tydeligt vist i den grafiske illustration. Den røde linje markerer den lige linje g (x) = x + 1 3 + 1, den blå linje markerer y = 0, 165 x + 2, 184. De originale data er angivet med lyserøde prikker.

Lad os forklare, hvorfor præcis tilnærmelser af denne type er nødvendige.

De kan bruges i opgaver, der kræver dataudjævning, såvel som i dem, hvor data skal interpoleres eller ekstrapoleres. For eksempel kunne man i det ovenfor diskuterede problem finde værdien af ​​den observerede mængde y ved x = 3 eller ved x = 6. Vi har viet en separat artikel til sådanne eksempler.

Bevis for OLS-metoden

For at funktionen skal tage en minimumsværdi, når a og b beregnes, er det nødvendigt, at matrixen af ​​kvadratisk form af differentialet af funktionen af ​​formen F (a, b) = ∑ i = på et givet punkt 1 n (y i - (a x i + b)) 2 er positiv bestemt. Lad os vise dig, hvordan det skal se ud.

Eksempel 2

Vi har en anden ordens differential af følgende form:

d 2 F (a ; b) = δ 2 F (a ; b) δ a 2 d 2 a + 2 δ 2 F (a ; b) δ a δ b d a d b + δ 2 F (a ; b) δ b 2 d 2 b

Løsning

δ 2 F (a ; b) δ a 2 = δ δ F (a ; b) δ a δ a = = δ - 2 ∑ i = 1 n (y i - (a x i + b)) x i δ a = 2 ∑ i = 1 n (x i) 2 δ 2 F (a; b) δ a δ b = δ δ F (a; b) δ a δ b = = δ - 2 ∑ i = 1 n (y i - (a x i + b) ) x i δ b = 2 ∑ i = 1 n x i δ 2 F (a ; b) δ b 2 = δ δ F (a ; b) δ b δ b = δ - 2 ∑ i = 1 n (y i - (a x i + b)) δ b = 2 ∑ i = 1 n (1) = 2 n

Med andre ord kan vi skrive det sådan: d 2 F (a ; b) = 2 ∑ i = 1 n (x i) 2 d 2 a + 2 2 ∑ x i i = 1 n d a d b + (2 n) d 2 b.

Vi fik en matrix af kvadratisk form M = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n .

I dette tilfælde vil værdierne af individuelle elementer ikke ændre sig afhængigt af a og b . Er denne matrix positiv bestemt? For at besvare dette spørgsmål, lad os kontrollere, om dens kantede mindreårige er positive.

Vi beregner den vinkelformede mol af første orden: 2 ∑ i = 1 n (x i) 2 > 0 . Da punkterne x i ikke er sammenfaldende, er uligheden streng. Det vil vi huske på i videre beregninger.

Vi beregner anden ordens vinkel-moll:

d e t (M) = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n = 4 n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2

Herefter fortsætter vi med at bevise uligheden n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 ved hjælp af matematisk induktion.

  1. Lad os kontrollere, om denne ulighed er gyldig for en vilkårlig n. Lad os tage 2 og beregne:

2 ∑ i = 1 2 (x i) 2 - ∑ i = 1 2 x i 2 = 2 x 1 2 + x 2 2 - x 1 + x 2 2 = = x 1 2 - 2 x 1 x 2 + x 2 2 = x 1 + x 2 2 > 0

Vi har opnået en korrekt lighed (hvis værdierne x 1 og x 2 ikke er sammenfaldende).

  1. Lad os antage, at denne ulighed vil være sand for n, dvs. n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 – sand.
  2. Nu vil vi bevise gyldigheden for n + 1, dvs. at (n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 > 0, hvis n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 .

Vi beregner:

(n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 = = (n + 1) ∑ i = 1 n (x i) 2 + x n + 1 2 - ∑ i = 1 n x i + x n + 1 2 = = n ∑ i = 1 n (x i) 2 + n x n + 1 2 + ∑ i = 1 n (x i) 2 + x n + 1 2 - - ∑ i = 1 n x i 2 + 2 x n + 1 ∑ i = 1 n x i + x n + 1 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + n x n + 1 2 - x n + 1 ∑ i = 1 n x i + ∑ i n (x i) 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + x n + 1 2 - 2 x n + 1 x 1 + x 1 2 + + x n + 1 2 - 2 x n + 1 x 2 + x 2 2 + . . . + x n + 1 2 - 2 x n + 1 x 1 + x n 2 = = n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + + (x n + 1 - x 1) 2 + (x n + 1 - x 2) 2+. . . + (x n - 1 - x n) 2 > 0

Udtrykket omsluttet af krøllede klammer vil være større end 0 (baseret på det, vi antog i trin 2), og de resterende led vil være større end 0, da de alle er kvadrater af tal. Vi har bevist uligheden.

Svar: de fundne a og b vil svare til den mindste værdi af funktionen F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2, hvilket betyder, at de er de nødvendige parametre for mindste kvadraters metode (LSM).

Hvis du bemærker en fejl i teksten, skal du markere den og trykke på Ctrl+Enter

Mindste kvadratisk metode bruges til at estimere parametrene for regressionsligningen.
Antal linjer (kildedata)

En af metoderne til at studere stokastiske sammenhænge mellem karakteristika er regressionsanalyse.
Regressionsanalyse er udledningen af ​​en regressionsligning, ved hjælp af hvilken gennemsnitsværdien af ​​en tilfældig variabel (resultatattribut) findes, hvis værdien af ​​en anden (eller andre) variable (faktorattributter) er kendt. Det inkluderer følgende trin:

  1. valg af forbindelsesform (type analytisk regressionsligning);
  2. estimering af ligningsparametre;
  3. vurdering af kvaliteten af ​​den analytiske regressionsligning.
Oftest bruges en lineær form til at beskrive det statistiske forhold mellem funktioner. Fokus på lineære sammenhænge forklares af den klare økonomiske fortolkning af dens parametre, den begrænsede variation af variable og det faktum, at ikke-lineære former for sammenhænge i de fleste tilfælde konverteres (ved logaritme eller substitution af variable) til en lineær form for at udføre beregninger .
I tilfælde af en lineær parvis sammenhæng vil regressionsligningen have formen: y i =a+b·x i +u i. Parametrene a og b i denne ligning er estimeret ud fra statistiske observationsdata x og y. Resultatet af en sådan vurdering er ligningen: , hvor , er estimater af parametrene a og b , er værdien af ​​den resulterende attribut (variabel) opnået fra regressionsligningen (beregnet værdi).

Oftest brugt til at estimere parametre mindste kvadraters metode (LSM).
Mindste kvadraters metode giver de bedste (konsistente, effektive og upartiske) estimater af parametrene for regressionsligningen. Men kun hvis visse antagelser vedrørende det tilfældige led (u) og den uafhængige variabel (x) er opfyldt (se OLS-antagelser).

Problemet med at estimere parametrene for en lineær parligning ved hjælp af mindste kvadraters metode er som følger: at opnå sådanne estimater af parametre , , hvor summen af ​​kvadrerede afvigelser af de faktiske værdier af den resulterende karakteristik - y i fra de beregnede værdier - er minimal.
Formelt OLS test kan skrives sådan her: .

Klassificering af mindste kvadraters metoder

  1. Mindste kvadratisk metode.
  2. Maximum likelihood-metode (for en normal klassisk lineær regressionsmodel postuleres normaliteten af ​​regressionsresidualer).
  3. Den generaliserede mindste kvadraters OLS-metode anvendes i tilfælde af autokorrelation af fejl og i tilfælde af heteroskedasticitet.
  4. Vægtet mindste kvadraters metode (et specialtilfælde af OLS med heteroskedastiske residualer).

Lad os illustrere pointen klassisk mindste kvadraters metode grafisk. For at gøre dette vil vi konstruere et spredningsplot baseret på observationsdata (xi, y i, i=1;n) i et rektangulært koordinatsystem (sådan et spredningsplot kaldes et korrelationsfelt). Lad os prøve at vælge en lige linje, der er tættest på punkterne i korrelationsfeltet. Ifølge mindste kvadraters metode vælges linjen således, at summen af ​​kvadraterne af de lodrette afstande mellem punkterne i korrelationsfeltet og denne linje er minimal.

Matematisk notation for dette problem: .
Værdierne af y i og x i =1...n er kendt af os; disse er observationsdata. I S-funktionen repræsenterer de konstanter. Variablerne i denne funktion er de nødvendige estimater af parametrene - , . For at finde minimum af en funktion af to variable er det nødvendigt at beregne de partielle afledte af denne funktion for hver af parametrene og sidestille dem med nul, dvs. .
Som et resultat får vi et system med 2 normale lineære ligninger:
Ved at løse dette system finder vi de nødvendige parameterestimater:

Rigtigheden af ​​beregningen af ​​regressionsligningens parametre kan kontrolleres ved at sammenligne beløbene (der kan være en vis uoverensstemmelse på grund af afrunding af beregninger).
For at beregne parameterestimater kan du bygge tabel 1.
Tegnet for regressionskoefficienten b angiver retningen af ​​sammenhængen (hvis b >0, er sammenhængen direkte, hvis b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
Formelt set er værdien af ​​parameter a gennemsnitsværdien af ​​y med x lig med nul. Hvis attribut-faktoren ikke har og ikke kan have en nulværdi, så giver ovenstående fortolkning af parameter a ikke mening.

Vurdering af tætheden af ​​forholdet mellem karakteristika udføres ved hjælp af den lineære parkorrelationskoefficient - r x,y. Det kan beregnes ved hjælp af formlen: . Derudover kan den lineære parkorrelationskoefficient bestemmes gennem regressionskoefficienten b: .
Rækken af ​​acceptable værdier for den lineære parkorrelationskoefficient er fra –1 til +1. Korrelationskoefficientens tegn angiver retningen af ​​forholdet. Hvis r x, y >0, så er forbindelsen direkte; hvis r x, y<0, то связь обратная.
Hvis denne koefficient er tæt på enhed i størrelsesorden, så kan forholdet mellem egenskaberne fortolkes som en ret tæt lineær. Hvis dets modul er lig med én ê r x , y ê =1, så er forholdet mellem karakteristikkerne funktionelt lineært. Hvis træk x og y er lineært uafhængige, så er r x,y tæt på 0.
For at beregne r x,y kan du også bruge tabel 1.

tabel 1

N observationerx iy ix i ∙y i
1 x 1y 1x 1 y 1
2 x 2y 2x 2 y 2
...
nx ny nx n y n
Kolonnesum∑x∑y∑xy
Gennemsnits værdi
For at vurdere kvaliteten af ​​den resulterende regressionsligning, beregne den teoretiske bestemmelseskoefficient - R 2 yx:

,
hvor d 2 er variansen af ​​y forklaret af regressionsligningen;
e 2 - residual (uforklaret af regressionsligningen) varians af y;
s 2 y - total (total) varians af y.
Bestemmelseskoefficienten karakteriserer andelen af ​​variation (spredning) af den resulterende attribut y forklaret ved regression (og følgelig faktor x) i den totale variation (spredning) y. Bestemmelseskoefficienten R 2 yx tager værdier fra 0 til 1. Følgelig karakteriserer værdien 1-R 2 yx andelen af ​​varians y forårsaget af indflydelsen af ​​andre faktorer, der ikke er taget i betragtning i modellen og specifikationsfejl.
Med parret lineær regression er R 2 yx =r 2 yx.

Det er meget udbredt i økonometri i form af en klar økonomisk fortolkning af dens parametre.

Lineær regression kommer ned til at finde en ligning af formen

eller

Formens ligning tillader baseret på specificerede parameterværdier x har teoretiske værdier af den resulterende karakteristik, der erstatter de faktiske værdier af faktoren i den x.

Konstruktionen af ​​lineær regression kommer ned til at estimere dens parametre - EN Og V. Lineære regressionsparameterestimater kan findes ved hjælp af forskellige metoder.

Den klassiske tilgang til at estimere lineære regressionsparametre er baseret på mindste kvadraters metode(MNC).

Mindste kvadraters metode giver os mulighed for at opnå sådanne parameterestimater EN Og V, hvor summen af ​​kvadrerede afvigelser af de faktiske værdier af den resulterende karakteristik (y) fra beregnet (teoretisk) minimum:

For at finde minimum af en funktion skal du beregne de partielle afledte for hver af parametrene EN Og b og sæt dem lig med nul.

Lad os betegne gennem S, derefter:

Ved at transformere formlen får vi følgende system af normale ligninger til at estimere parametre EN Og V:

Ved at løse systemet af normale ligninger (3.5) enten ved hjælp af metoden til sekventiel eliminering af variable eller ved metoden med determinanter, finder vi de nødvendige estimater af parametrene EN Og V.

Parameter V kaldet regressionskoefficienten. Dens værdi viser den gennemsnitlige ændring i resultatet med en ændring i faktoren med en enhed.

Regressionsligningen suppleres altid med en indikator for forbindelsens tæthed. Ved brug af lineær regression er en sådan indikator den lineære korrelationskoefficient. Der er forskellige modifikationer af den lineære korrelationskoefficientformel. Nogle af dem er angivet nedenfor:

Som bekendt er den lineære korrelationskoefficient inden for grænserne: -1 1.

For at vurdere kvaliteten af ​​udvælgelsen af ​​en lineær funktion beregnes kvadratet

Lineær korrelationskoefficient kaldet bestemmelseskoefficient. Bestemmelseskoefficienten karakteriserer variansandelen af ​​den resulterende karakteristik y, forklaret ved regression, i den totale varians af det resulterende træk:

Værdien 1 karakteriserer derfor variansandelen y, forårsaget af påvirkning af andre faktorer, der ikke er taget højde for i modellen.

Spørgsmål til selvkontrol

1. Essensen af ​​mindste kvadraters metode?

2. Hvor mange variable giver parvis regression?

3. Hvilken koefficient bestemmer tætheden af ​​sammenhængen mellem ændringer?

4. Inden for hvilke grænser bestemmes bestemmelseskoefficienten?

5. Estimering af parameter b i korrelations-regressionsanalyse?

1. Christopher Dougherty. Introduktion til økonometri. - M.: INFRA - M, 2001 - 402 s.

2. S.A. Borodich. Økonometri. Minsk LLC "New Knowledge" 2001.


3. R.U. Rakhmetova Kort kursus i økonometri. Tutorial. Almaty. 2004. -78p.

4. I.I. Eliseeva Økonometri. - M.: "Finans og statistik", 2002

5. Månedligt informations- og analytisk magasin.

Ikke-lineære økonomiske modeller. Ikke-lineære regressionsmodeller. Transformation af variabler.

Ikke-lineære økonomiske modeller..

Transformation af variabler.

Elasticitetskoefficient.

Hvis der er ikke-lineære forhold mellem økonomiske fænomener, så udtrykkes de ved hjælp af de tilsvarende ikke-lineære funktioner: for eksempel en ligesidet hyperbel , parabler af anden grad og osv.

Der er to klasser af ikke-lineære regressioner:

1. Regressioner, der er ikke-lineære med hensyn til de forklarende variabler, der indgår i analysen, men lineære med hensyn til de estimerede parametre, f.eks.

Polynomier af forskellige grader - , ;

Ligesidet hyperbel - ;

Semilogaritmisk funktion - .

2. Regressioner, der er ikke-lineære i de parametre, der estimeres, for eksempel:

Strøm - ;

Demonstrerende - ;

Eksponentiel -.

Den samlede sum af kvadrerede afvigelser af individuelle værdier af den resulterende karakteristik fra den gennemsnitlige værdi er forårsaget af indflydelsen af ​​mange årsager. Lad os betinget opdele hele sættet af årsager i to grupper: faktor under undersøgelse x Og andre faktorer.

Hvis faktoren ikke påvirker resultatet, så er regressionslinjen på grafen parallel med aksen Åh Og

Så skyldes hele variansen af ​​den resulterende karakteristik påvirkning af andre faktorer, og den samlede sum af kvadrerede afvigelser vil falde sammen med residualet. Hvis andre faktorer ikke påvirker resultatet, så y bundet Med x funktionelt og restsummen af ​​kvadrater er nul. I dette tilfælde er summen af ​​kvadrerede afvigelser forklaret af regression den samme som den samlede sum af kvadrater.

Da ikke alle punkter i korrelationsfeltet ligger på regressionslinjen, opstår deres spredning altid som et resultat af faktorens indflydelse x, altså regression Ved X, og forårsaget af andre årsager (uforklaret variation). Egnetheden af ​​en regressionslinje til prognose afhænger af hvilken del af den samlede variation af egenskaben forklarer den forklarede variation

Det er klart, at hvis summen af ​​kvadrerede afvigelser på grund af regression er større end restsummen af ​​kvadrater, så er regressionsligningen statistisk signifikant og faktoren x har en væsentlig indflydelse på resultatet u.

, dvs. med antallet af frihed til uafhængig variation af en karakteristik. Antallet af frihedsgrader er relateret til antallet af enheder af befolkningen n og antallet af konstanter bestemt ud fra det. I forhold til det undersøgte problem skal antallet af frihedsgrader vise, hvor mange uafhængige afvigelser fra P

Vurderingen af ​​betydningen af ​​regressionsligningen som helhed gives vha F-Fisher-kriterium. I dette tilfælde fremsættes en nulhypotese om, at regressionskoefficienten er lig nul, dvs. b = 0, og dermed faktoren x påvirker ikke resultatet u.

Den umiddelbare beregning af F-testen er forudgået af variansanalyse. Den centrale plads i den er optaget af dekomponeringen af ​​den samlede sum af kvadrerede afvigelser af en variabel fra gennemsnitsværdien i to dele - "forklaret" og "uforklaret":

- den samlede sum af kvadrerede afvigelser;

- summen af ​​kvadrerede afvigelser forklaret ved regression;

- Restsum af kvadrerede afvigelser.

Enhver sum af kvadrerede afvigelser er relateret til antallet af frihedsgrader , dvs. med antallet af frihed til uafhængig variation af en karakteristik. Antallet af frihedsgrader hænger sammen med antallet af befolkningsenheder n og med antallet af konstanter bestemt ud fra det. I forhold til det undersøgte problem skal antallet af frihedsgrader vise, hvor mange uafhængige afvigelser fra P muligt kræves for at danne en given sum af kvadrater.

Spredning pr. frihedsgradD.

F-forhold (F-test):

Hvis nulhypotesen er sand, så afviger faktor- og restvarianserne ikke fra hinanden. For H 0 er en gendrivelse nødvendig, således at faktorspredningen flere gange overstiger restdispersionen. Den engelske statistiker Snedekor udviklede tabeller med kritiske værdier F-relationer på forskellige niveauer af betydning af nulhypotesen og forskellige antal frihedsgrader. Tabelværdi F-kriterium er den maksimale værdi af forholdet mellem varianser, der kan forekomme i tilfælde af tilfældig divergens for et givet niveau af sandsynlighed for tilstedeværelsen af ​​nulhypotesen. Beregnet værdi F-relationer anses for pålidelige, hvis o er større end tabellen.

I dette tilfælde afvises nulhypotesen om fraværet af et forhold mellem tegn, og der drages en konklusion om betydningen af ​​dette forhold: F fakta > F tabel H 0 afvises.

Hvis værdien er mindre end den angivne F fakta ‹, F-tabel, så er sandsynligheden for nulhypotesen højere end et specificeret niveau og kan ikke afvises uden alvorlig risiko for at drage den forkerte konklusion om tilstedeværelsen af ​​et forhold. I dette tilfælde betragtes regressionsligningen som statistisk insignifikant. Men han afviger ikke.

Standardfejl for regressionskoefficient

For at vurdere betydningen af ​​regressionskoefficienten sammenlignes dens værdi med dens standardfejl, dvs. den faktiske værdi bestemmes t- Elevens prøve: som derefter sammenlignes med tabelværdien ved et bestemt signifikansniveau og antal frihedsgrader ( n- 2).

Standard parameter fejl EN:

Signifikansen af ​​den lineære korrelationskoefficient kontrolleres baseret på fejlens størrelse korrelationskoefficient t r:

Total egenskabsvarians x:

Multipel lineær regression

Modelbygning

Multipel regression repræsenterer en regression af en effektiv karakteristik med to eller flere faktorer, dvs. en model af formen

Regression kan give gode resultater i modellering, hvis indflydelsen fra andre faktorer, der påvirker studieobjektet, kan negligeres. Individuelle økonomiske variables adfærd kan ikke kontrolleres, det vil sige, at det ikke er muligt at sikre ligheden af ​​alle andre betingelser for at vurdere indflydelsen af ​​én faktor, der undersøges. I dette tilfælde bør du prøve at identificere indflydelsen af ​​andre faktorer ved at introducere dem i modellen, dvs. konstruere en multipel regressionsligning: y = a+b 1 x 1 +b 2 +…+b p x p + .

Hovedmålet med multipel regression er at bygge en model med et stort antal faktorer, mens man bestemmer indflydelsen af ​​hver af dem separat, såvel som deres kombinerede indvirkning på den modellerede indikator. Specifikationen af ​​modellen omfatter to rækker af problemstillinger: valg af faktorer og valg af type regressionsligning

Mindste kvadratisk metode

Mindste kvadratisk metode ( OLS, OLS, Almindelige mindste kvadrater) - en af ​​de grundlæggende metoder til regressionsanalyse til estimering af ukendte parametre for regressionsmodeller ved hjælp af prøvedata. Metoden er baseret på at minimere summen af ​​kvadrater af regressionsresidualer.

Det skal bemærkes, at selve mindste kvadraters metode kan kaldes en metode til at løse et problem i ethvert område, hvis løsningen ligger i eller opfylder et eller andet kriterium for at minimere summen af ​​kvadrater af nogle funktioner af de nødvendige variable. Derfor kan mindste kvadraters metode også bruges til en tilnærmet repræsentation (approksimation) af en given funktion ved hjælp af andre (simplere) funktioner, når man finder et sæt af størrelser, der opfylder ligninger eller begrænsninger, hvis antal overstiger antallet af disse størrelser , etc.

Essensen af ​​MNC

Lad en (parametrisk) model af et sandsynlighedsforhold (regression) mellem den (forklarede) variabel blive givet y og mange faktorer (forklarende variable) x

hvor er vektoren af ​​ukendte modelparametre

- tilfældig modelfejl.

Lad der også være prøveobservationer af værdierne af disse variable. Lad være observationsnummeret (). Så er værdierne af variablerne i den th observation. Derefter, for givne værdier af parametre b, er det muligt at beregne de teoretiske (model) værdier af den forklarede variabel y:

Størrelsen af ​​resterne afhænger af værdierne af parametrene b.

Essensen af ​​mindste kvadraters metode (almindelig, klassisk) er at finde parametre b, for hvilke summen af ​​kvadraterne af residualerne (eng. Restsum af kvadrater) vil være minimal:

I det generelle tilfælde kan dette problem løses ved hjælp af numeriske optimeringsmetoder (minimering). I dette tilfælde taler de om ulineære mindste kvadrater(NLS eller NLLS - engelsk) Ikke-lineære mindste kvadrater). I mange tilfælde er det muligt at opnå en analytisk løsning. For at løse minimeringsproblemet er det nødvendigt at finde stationære punkter af funktionen ved at differentiere den med hensyn til de ukendte parametre b, ligne de afledte til nul og løse det resulterende ligningssystem:

Hvis modellens tilfældige fejl er normalfordelte, har samme varians og er ukorrelerede, er OLS-parameterestimater de samme som maksimumsandsynlighedsestimater (MLM).

OLS i tilfælde af en lineær model

Lad regressionsafhængigheden være lineær:

Lade y er en kolonnevektor af observationer af den forklarede variabel, og er en matrix af faktorobservationer (matricens rækker er vektorerne af faktorværdier i en given observation, kolonnerne er vektoren af ​​værdier af en given faktor i alle observationer). Matrixrepræsentationen af ​​den lineære model er:

Så vil vektoren af ​​estimater af den forklarede variabel og vektoren af ​​regressionsresidualer være ens

Følgelig vil summen af ​​kvadraterne af regressionsresterne være lig med

Ved at differentiere denne funktion med hensyn til vektoren af ​​parametre og ligne de afledte med nul, får vi et ligningssystem (i matrixform):

.

Løsningen af ​​dette ligningssystem giver den generelle formel for mindste kvadraters skøn for en lineær model:

Til analytiske formål er sidstnævnte repræsentation af denne formel nyttig. Hvis i en regressionsmodel dataene centreret, så har den første matrix i denne repræsentation betydningen af ​​en stikprøve kovariansmatrix af faktorer, og den anden er en vektor af kovarianser af faktorer med den afhængige variabel. Hvis derudover dataene også er normaliseret til MSE (det vil sige i sidste ende standardiseret), så har den første matrix betydningen af ​​en stikprøvekorrelationsmatrix af faktorer, den anden vektor - en vektor af stikprøvekorrelationer af faktorer med den afhængige variabel.

En vigtig egenskab ved OLS estimater for modeller med konstant- linjen for den konstruerede regression passerer gennem prøvedataens tyngdepunkt, det vil sige, at ligheden er opfyldt:

Især i det ekstreme tilfælde, når den eneste regressor er en konstant, finder vi, at OLS-estimatet for den eneste parameter (konstanten selv) er lig med gennemsnitsværdien af ​​den forklarede variabel. Det vil sige, at det aritmetiske middel, der er kendt for sine gode egenskaber fra lovene for store tal, også er et mindste kvadraters estimat - det opfylder kriteriet om minimumsummen af ​​kvadrerede afvigelser fra det.

Eksempel: simpleste (parvis) regression

I tilfælde af parret lineær regression forenkles beregningsformlerne (du kan undvære matrixalgebra):

Egenskaber for OLS-estimatorer

Først og fremmest bemærker vi, at for lineære modeller er OLS-estimater lineære estimater, som følger af ovenstående formel. For uvildige OLS-estimater er det nødvendigt og tilstrækkeligt at opfylde den vigtigste betingelse for regressionsanalyse: den matematiske forventning om en tilfældig fejl, betinget af faktorerne, skal være lig nul. Især denne betingelse er opfyldt, hvis

  1. den matematiske forventning om tilfældige fejl er nul, og
  2. faktorer og tilfældige fejl er uafhængige stokastiske variable.

Den anden betingelse - betingelsen om faktorers eksogenitet - er fundamental. Hvis denne egenskab ikke er opfyldt, kan vi antage, at næsten alle estimater vil være ekstremt utilfredsstillende: de vil ikke engang være konsistente (det vil sige, at selv en meget stor mængde data ikke giver os mulighed for at opnå højkvalitetsestimater i dette tilfælde ). I det klassiske tilfælde antages der en stærkere antagelse om faktorernes determinisme i modsætning til en tilfældig fejl, som automatisk betyder, at eksogenitetsbetingelsen er opfyldt. I det generelle tilfælde er det for konsistensen af ​​estimaterne tilstrækkeligt at opfylde eksogenitetsbetingelsen sammen med konvergensen af ​​matricen til en eller anden ikke-singular matrix, når stikprøvestørrelsen stiger til uendelig.

For at estimater af (almindelige) mindste kvadrater ud over konsistens og upartiskhed også skal være effektive (de bedste i klassen af ​​lineære upartiske estimater), skal yderligere egenskaber for tilfældig fejl opfyldes:

Disse antagelser kan formuleres for kovariansmatrixen for den tilfældige fejlvektor

En lineær model, der opfylder disse betingelser, kaldes klassisk. OLS estimater for klassisk lineær regression er upartiske, konsistente og de mest effektive estimater i klassen af ​​alle lineære upartiske estimater (i den engelske litteratur bruges forkortelsen nogle gange BLÅ (Bedste lineære unbaised estimator) - det bedste lineære objektive estimat; i russisk litteratur er Gauss-Markov-sætningen oftere citeret). Som det er let at vise, vil kovariansmatrixen for vektoren af ​​koefficientestimater være lig med:

Generaliseret OLS

Mindste kvadraters metode giver mulighed for bred generalisering. I stedet for at minimere summen af ​​kvadrater af residualerne, kan man minimere en eller anden positiv bestemt kvadratisk form af vektoren af ​​residualer, hvor der er en eller anden symmetrisk positiv bestemt vægtmatrix. Konventionelle mindste kvadrater er et særligt tilfælde af denne tilgang, hvor vægtmatricen er proportional med identitetsmatrixen. Som det er kendt fra teorien om symmetriske matricer (eller operatorer), er der for sådanne matricer en nedbrydning. Følgelig kan den specificerede funktional repræsenteres som følger, det vil sige, at denne funktional kan repræsenteres som summen af ​​kvadraterne af nogle transformerede "rester". Således kan vi skelne mellem en klasse af mindste kvadraters metoder - LS metoder (mindste kvadrater).

Det er blevet bevist (Aitkens teorem), at for en generaliseret lineær regressionsmodel (hvor der ikke er pålagt begrænsninger på kovariansmatrixen af ​​tilfældige fejl), er de mest effektive (i klassen af ​​lineære upartiske estimater) de såkaldte estimater. generaliserede mindste kvadrater (GLS - Generaliserede mindste kvadrater)- LS-metode med en vægtmatrix svarende til den inverse kovariansmatrix af tilfældige fejl: .

Det kan påvises, at formlen for GLS estimater af parametrene for en lineær model har formen

Kovariansmatricen for disse estimater vil følgelig være lig med

Faktisk ligger essensen af ​​OLS i en vis (lineær) transformation (P) af de originale data og anvendelsen af ​​almindelig OLS på de transformerede data. Formålet med denne transformation er, at for de transformerede data opfylder de tilfældige fejl allerede de klassiske antagelser.

Vægtet OLS

I tilfælde af en diagonal vægtmatrix (og derfor en kovariansmatrix af tilfældige fejl) har vi de såkaldte vægtede mindste kvadrater (WLS). I dette tilfælde minimeres den vægtede sum af kvadrater af modelresidualerne, det vil sige, at hver observation modtager en "vægt", der er omvendt proportional med variansen af ​​den tilfældige fejl i denne observation: . Faktisk transformeres dataene ved at vægte observationerne (dividere med et beløb, der er proportionalt med den estimerede standardafvigelse af de tilfældige fejl), og almindelig OLS anvendes på de vægtede data.

Nogle specielle tilfælde af brug af MNC i praksis

Approksimation af lineær afhængighed

Lad os overveje tilfældet, når som et resultat af at studere afhængigheden af ​​en bestemt skalar størrelse af en bestemt skalar størrelse (Dette kunne for eksempel være spændingens afhængighed af strømstyrken: , hvor er en konstant værdi, modstanden af lederen), blev målinger af disse mængder udført, som et resultat af hvilke værdierne og deres tilsvarende værdier. Måledata skal registreres i en tabel.

Bord. Måleresultater.

Mål nr.
1
2
3
4
5
6

Spørgsmålet er: hvilken værdi af koefficienten kan vælges for bedst at beskrive afhængigheden? Ifølge mindste kvadraters metode skal denne værdi være sådan, at summen af ​​de kvadrerede afvigelser af værdierne fra værdierne

var minimal

Summen af ​​kvadrerede afvigelser har et ekstremum - et minimum, som giver os mulighed for at bruge denne formel. Lad os ud fra denne formel finde værdien af ​​koefficienten. For at gøre dette transformerer vi dens venstre side som følger:

Den sidste formel giver os mulighed for at finde værdien af ​​koefficienten, hvilket er det, der kræves i opgaven.

Historie

Indtil begyndelsen af ​​1800-tallet. videnskabsmænd havde ikke bestemte regler for at løse et ligningssystem, hvor antallet af ubekendte er mindre end antallet af ligninger; Indtil da blev der brugt private teknikker, der afhang af typen af ​​ligninger og af regnemaskinernes vid, og derfor kom forskellige lommeregnere, baseret på de samme observationsdata, til forskellige konklusioner. Gauss (1795) var den første til at bruge metoden, og Legendre (1805) opdagede og udgav den uafhængigt under sit moderne navn (fransk. Méthode des moindres quarrés ). Laplace relaterede metoden til sandsynlighedsteori, og den amerikanske matematiker Adrain (1808) overvejede dens sandsynlighedsteoretiske anvendelser. Metoden var udbredt og forbedret ved yderligere forskning af Encke, Bessel, Hansen m.fl.

Alternativ anvendelse af OLS

Ideen om mindste kvadraters metode kan også bruges i andre tilfælde, der ikke er direkte relateret til regressionsanalyse. Faktum er, at summen af ​​kvadrater er et af de mest almindelige nærhedsmål for vektorer (euklidisk metrisk i finit-dimensionelle rum).

En anvendelse er "løsningen" af systemer af lineære ligninger, hvor antallet af ligninger er større end antallet af variable

hvor matrixen ikke er kvadratisk, men rektangulær af størrelse.

Et sådant ligningssystem har i det generelle tilfælde ingen løsning (hvis rangorden faktisk er større end antallet af variable). Derfor kan dette system kun "løses" i den forstand, at man vælger en sådan vektor for at minimere "afstanden" mellem vektorerne og . For at gøre dette kan du anvende kriteriet om at minimere summen af ​​kvadrater af forskellene mellem venstre og højre side af systemligningerne, dvs. Det er let at vise, at løsning af dette minimeringsproblem fører til løsning af følgende ligningssystem