Mindste kvadraters metode bruges til estimering. De enkleste specialtilfælde

Eksempel.

Eksperimentelle data om værdier af variable x Og er angivet i tabellen.

Som et resultat af deres justering opnås funktionen

Ved brug af mindste kvadraters metode, tilnærme disse data ved en lineær afhængighed y=ax+b(find parametre EN Og b). Find ud af, hvilken af ​​de to linjer der bedst (i betydningen af ​​mindste kvadraters metode) justerer de eksperimentelle data. Lav en tegning.

Essensen af ​​mindste kvadraters metode (LSM).

Opgaven er at finde de lineære afhængighedskoefficienter, hvor funktionen af ​​to variable EN Og b tager den mindste værdi. Altså givet EN Og b summen af ​​kvadrerede afvigelser af de eksperimentelle data fra den fundne rette linje vil være den mindste. Dette er hele pointen med mindste kvadraters metode.

Løsning af eksemplet kommer således ned til at finde ekstremum af en funktion af to variable.

Udledning af formler til at finde koefficienter.

Et system af to ligninger med to ubekendte kompileres og løses. At finde partielle afledte af en funktion med hensyn til variable EN Og b, sætter vi lighedstegn mellem disse afledte værdier til nul.

Vi løser det resulterende ligningssystem ved hjælp af en hvilken som helst metode (f efter substitutionsmetode eller ) og få formler til at finde koefficienter ved hjælp af mindste kvadraters metode (LSM).

Givet EN Og b fungere tager den mindste værdi. Beviset for dette faktum er givet.

Det er hele metoden med mindste kvadrater. Formel til at finde parameteren -en indeholder summerne , , og parameter n- mængde af eksperimentelle data. Vi anbefaler at beregne værdierne af disse beløb separat. Koefficient b fundet efter beregning -en.

Det er tid til at huske det originale eksempel.

Løsning.

I vores eksempel n=5. Vi udfylder tabellen for at gøre det nemmere at beregne de beløb, der er inkluderet i formlerne for de nødvendige koefficienter.

Værdierne i den fjerde række i tabellen opnås ved at gange værdierne i den 2. række med værdierne i den 3. række for hvert tal jeg.

Værdierne i den femte række i tabellen opnås ved at kvadrere værdierne i 2. række for hvert tal jeg.

Værdierne i den sidste kolonne i tabellen er summen af ​​værdierne på tværs af rækkerne.

Vi bruger formlerne for mindste kvadraters metode til at finde koefficienterne EN Og b. Vi erstatter de tilsvarende værdier fra den sidste kolonne i tabellen i dem:

Derfor, y = 0,165x+2,184- den ønskede tilnærmelsesvise lige linje.

Det er tilbage at finde ud af, hvilken af ​​linjerne y = 0,165x+2,184 eller tilnærmer de originale data bedre, det vil sige laver et skøn ved hjælp af mindste kvadraters metode.

Fejlvurdering af mindste kvadraters metode.

For at gøre dette skal du beregne summen af ​​kvadrerede afvigelser af de originale data fra disse linjer Og , svarer en mindre værdi til en linje, der bedre tilnærmer de oprindelige data i betydningen af ​​mindste kvadraters metode.

Siden , så lige y = 0,165x+2,184 tilnærmer bedre de originale data.

Grafisk illustration af mindste kvadraters (LS) metode.

Alt er tydeligt synligt på graferne. Den røde linje er den fundne lige linje y = 0,165x+2,184, er den blå linje , lyserøde prikker er de originale data.

Hvorfor er dette nødvendigt, hvorfor alle disse tilnærmelser?

Jeg bruger det personligt til at løse problemer med dataudjævning, interpolation og ekstrapolationsproblemer (i det originale eksempel kan de blive bedt om at finde værdien af ​​en observeret værdi yx=3 eller hvornår x=6 ved hjælp af mindste kvadraters metode). Men vi vil tale mere om dette senere i en anden sektion af webstedet.

Bevis.

Så når fundet EN Og b funktion tager den mindste værdi, er det nødvendigt, at på dette tidspunkt matrixen af ​​den kvadratiske form af anden ordens differential for funktionen var positiv bestemt. Lad os vise det.

Essensen af ​​mindste kvadraters metode er ved at finde parametrene for en trendmodel, der bedst beskriver udviklingstendensen af ​​ethvert tilfældigt fænomen i tid eller rum (en trend er en linje, der karakteriserer denne udviklingstendens). Opgaven med mindste kvadraters metode (LSM) handler om at finde ikke bare en trendmodel, men at finde den bedste eller optimale model. Denne model vil være optimal, hvis summen af ​​kvadratiske afvigelser mellem de observerede faktiske værdier og de tilsvarende beregnede trendværdier er minimal (mindst):

hvor er kvadratafvigelsen mellem den observerede faktiske værdi

og den tilsvarende beregnede trendværdi,

Den faktiske (observerede) værdi af det fænomen, der undersøges,

Den beregnede værdi af trendmodellen,

Antallet af observationer af fænomenet, der undersøges.

MNC bruges ret sjældent alene. Som regel bruges det oftest kun som en nødvendig teknisk teknik i korrelationsstudier. Det skal huskes, at informationsgrundlaget for OLS kun kan være en pålidelig statistisk serie, og antallet af observationer bør ikke være mindre end 4, ellers kan udjævningsprocedurerne for OLS miste sund fornuft.

MNC-værktøjssættet koger ned til følgende procedurer:

Første procedure. Det viser sig, om der overhovedet er nogen tendens til at ændre den resulterende attribut, når det valgte faktor-argument ændres, eller med andre ord, er der en sammenhæng mellem " "og" x ».

Anden procedure. Det bestemmes hvilken linje (bane) der bedst kan beskrive eller karakterisere denne tendens.

Tredje procedure.

Eksempel. Lad os sige, at vi har oplysninger om det gennemsnitlige solsikkeudbytte for den gård, der undersøges (tabel 9.1).

Tabel 9.1

Observationsnummer

Produktivitet, c/ha

Da teknologiniveauet i solsikkeproduktionen i vores land har været stort set uændret over de seneste 10 år, betyder det, at udsving i udbyttet i den analyserede periode tilsyneladende var meget afhængige af udsving i vejr og klimatiske forhold. Er dette virkelig sandt?

Første OLS-procedure. Hypotesen om eksistensen af ​​en tendens i solsikkeudbytteændringer afhængigt af ændringer i vejr og klimatiske forhold over de analyserede 10 år testes.

I dette eksempel for " y "det er tilrådeligt at tage solsikkeudbyttet, og for" x » – nummer på det observerede år i den analyserede periode. Test af hypotesen om eksistensen af ​​ethvert forhold mellem " x "og" y "kan gøres på to måder: manuelt og ved hjælp af computerprogrammer. Selvfølgelig, med tilgængeligheden af ​​computerteknologi, kan dette problem løses af sig selv. Men for bedre at forstå MNC-værktøjerne, er det tilrådeligt at teste hypotesen om eksistensen af ​​et forhold mellem " x "og" y » manuelt, når kun en kuglepen og en almindelig lommeregner er ved hånden. I sådanne tilfælde kontrolleres hypotesen om eksistensen af ​​en trend bedst visuelt ved placeringen af ​​det grafiske billede af den analyserede serie af dynamikker - korrelationsfeltet:

Korrelationsfeltet i vores eksempel er placeret omkring en langsomt stigende linje. Dette indikerer i sig selv eksistensen af ​​en vis tendens i ændringer i solsikkeudbyttet. Det er umuligt kun at tale om tilstedeværelsen af ​​en tendens, når korrelationsfeltet ligner en cirkel, en cirkel, en strengt lodret eller strengt horisontal sky eller består af kaotisk spredte punkter. I alle andre tilfælde er hypotesen om eksistensen af ​​et forhold mellem " x "og" y ", og fortsæt forskning.

Anden OLS-procedure. Det bestemmes hvilken linje (bane) der bedst kan beskrive eller karakterisere tendensen til ændringer i solsikkeudbyttet over den analyserede periode.

Hvis du har computerteknologi, sker valget af den optimale trend automatisk. Ved "manuel" behandling udføres valget af den optimale funktion som regel visuelt - ved placeringen af ​​korrelationsfeltet. Det vil sige, at ud fra typen af ​​graf vælges den ligning for den linje, der passer bedst til den empiriske tendens (den faktiske bane).

Som det er kendt, er der i naturen et stort udvalg af funktionelle afhængigheder, så det er ekstremt svært at visuelt analysere selv en lille del af dem. Heldigvis kan de fleste forhold i realøkonomisk praksis beskrives ret præcist enten med en parabel, en hyperbel eller en lige linje. I denne henseende kan du med den "manuelle" mulighed for at vælge den bedste funktion begrænse dig til kun disse tre modeller.

Hyperbel:

Anden ordens parabel: :

Det er let at se, at i vores eksempel er tendensen i solsikkeudbytteændringer over de analyserede 10 år bedst karakteriseret ved en ret linje, så regressionsligningen vil være ligningen for en ret linje.

Tredje procedure. Parametrene for den regressionsligning, der karakteriserer denne linje, beregnes, eller med andre ord bestemmes en analytisk formel, der beskriver den bedste trendmodel.

At finde værdierne af parametrene for regressionsligningen, i vores tilfælde parametrene og , er kernen i OLS. Denne proces kommer ned til at løse et system af normale ligninger.

(9.2)

Dette ligningssystem kan løses ganske let ved Gauss-metoden. Lad os huske på, at som et resultat af løsningen, i vores eksempel, findes værdierne af parametrene og. Således vil den fundne regressionsligning have følgende form:

  • Tutorial

Introduktion

Jeg er matematiker og programmør. Det største spring, jeg tog i min karriere, var, da jeg lærte at sige: "Jeg forstår ikke noget!" Nu skammer jeg mig ikke over at fortælle videnskabens lyskilde, at han holder mig et foredrag, at jeg ikke forstår, hvad han, lysmanden, fortæller mig. Og det er meget svært. Ja, det er svært og pinligt at indrømme sin uvidenhed. Hvem kan lide at indrømme, at han ikke kender det grundlæggende i noget? På grund af mit erhverv skal jeg overvære en lang række oplæg og foredrag, hvor jeg indrømmer, at jeg i langt de fleste tilfælde gerne vil sove, fordi jeg ikke forstår noget. Men jeg forstår det ikke, fordi det store problem med den nuværende situation inden for naturvidenskab ligger i matematik. Det antager, at alle lyttere er fortrolige med absolut alle områder af matematikken (hvilket er absurd). At indrømme, at du ikke ved, hvad et derivat er (vi taler om, hvad det er lidt senere) er skammeligt.

Men jeg har lært at sige, at jeg ikke ved, hvad multiplikation er. Ja, jeg ved ikke hvad en subalgebra over en Lie algebra er. Ja, jeg ved ikke hvorfor andengradsligninger er nødvendige i livet. Forresten, hvis du er sikker på, at du ved det, så har vi noget at snakke om! Matematik er en række tricks. Matematikere forsøger at forvirre og intimidere offentligheden; hvor der ikke er nogen forvirring, er der intet omdømme, ingen autoritet. Ja, det er prestigefyldt at tale i et så abstrakt sprog som muligt, hvilket er fuldstændig nonsens.

Ved du hvad et derivat er? Mest sandsynligt vil du fortælle mig om grænsen for forskelsforholdet. I det første år af matematik og mekanik på St. Petersburg State University fortalte Viktor Petrovich Khavin mig fast besluttet afledt som koefficienten for det første led i Taylor-rækken af ​​funktionen ved et punkt (dette var en separat gymnastik til at bestemme Taylor-rækken uden afledte). Jeg grinede af denne definition i lang tid, indtil jeg endelig forstod, hvad den handlede om. Den afledte er intet andet end et simpelt mål for, hvor ens funktionen vi differentierer er med funktionen y=x, y=x^2, y=x^3.

Jeg har nu æren af ​​at holde foredrag for studerende, der bange matematik. Hvis du er bange for matematik, er vi på samme vej. Så snart du prøver at læse noget tekst, og det forekommer dig, at det er alt for kompliceret, så ved, at det er dårligt skrevet. Jeg hævder, at der ikke er et eneste område af matematik, der ikke kan diskuteres "på fingrene" uden at miste nøjagtigheden.

Opgave for den nærmeste fremtid: Jeg gav mine elever til opgave at forstå, hvad en lineær kvadratisk regulator er. Vær ikke genert, brug tre minutter af dit liv og følg linket. Hvis du ikke forstår noget, så er vi på samme vej. Jeg (en professionel matematiker-programmør) forstod heller ikke noget. Og jeg forsikrer dig, du kan finde ud af det "på fingrene." I øjeblikket ved jeg ikke, hvad det er, men jeg forsikrer dig om, at vi vil være i stand til at finde ud af det.

Så det første foredrag, som jeg skal holde for mine elever, efter at de kommer løbende hen til mig i rædsel og siger, at en lineær-kvadratisk regulator er en frygtelig ting, som du aldrig vil mestre i dit liv, er mindste kvadraters metoder. Kan du løse lineære ligninger? Hvis du læser denne tekst, så højst sandsynligt ikke.

Så givet to punkter (x0, y0), (x1, y1), for eksempel (1,1) og (3,2), er opgaven at finde ligningen for linjen, der går gennem disse to punkter:

illustration

Denne linje skal have en ligning som følgende:

Her er alfa og beta ukendte for os, men to punkter på denne linje er kendt:

Vi kan skrive denne ligning i matrixform:

Her bør vi lave en lyrisk digression: hvad er en matrix? En matrix er ikke mere end en todimensionel matrix. Dette er en måde at gemme data på; ingen yderligere betydning bør tillægges det. Det afhænger af os præcis, hvordan man fortolker en bestemt matrix. Med jævne mellemrum vil jeg fortolke det som en lineær afbildning, periodisk som en kvadratisk form og nogle gange blot som et sæt af vektorer. Dette vil alt sammen blive afklaret i sammenhæng.

Lad os erstatte konkrete matricer med deres symbolske repræsentation:

Så (alfa, beta) kan nemt findes:

Mere specifikt for vores tidligere data:

Hvilket fører til følgende ligning af linjen, der går gennem punkterne (1,1) og (3,2):

Okay, alt er klart her. Lad os finde ligningen for den linje, der går igennem tre point: (x0,y0), (x1,y1) og (x2,y2):

Åh-åh-åh, men vi har tre ligninger for to ubekendte! En standardmatematiker vil sige, at der ikke er nogen løsning. Hvad vil programmøren sige? Og han vil først omskrive det tidligere ligningssystem i følgende form:

I vores tilfælde er vektorerne i, j, b tredimensionelle, derfor er der (i det generelle tilfælde) ingen løsning på dette system. Enhver vektor (alfa\*i + beta\*j) ligger i det plan, der spændes over af vektorerne (i, j). Hvis b ikke hører til dette plan, så er der ingen løsning (lighed kan ikke opnås i ligningen). Hvad skal man gøre? Lad os se efter et kompromis. Lad os betegne med e (alfa, beta) præcis hvor langt vi ikke har opnået ligestilling:

Og vi vil forsøge at minimere denne fejl:

Hvorfor firkantet?

Vi leder ikke kun efter minimum af normen, men efter minimum af kvadratet af normen. Hvorfor? Selve minimumspunktet er sammenfaldende, og kvadratet giver en jævn funktion (en kvadratisk funktion af argumenterne (alfa, beta)), mens længden ganske enkelt giver en kegleformet funktion, der ikke kan differentieres ved minimumspunktet. Brr. En firkant er mere praktisk.

Det er klart, at fejlen minimeres, når vektoren e ortogonalt i forhold til det plan, som vektorerne spænder over jeg Og j.

Illustration

Med andre ord: vi leder efter en linje, således at summen af ​​de kvadrerede længder af afstandene fra alle punkter til denne linje er minimal:

OPDATERING: Jeg har et problem her, afstanden til den lige linje skal måles lodret og ikke ved ortogonal projektion. Denne kommentator har ret.

Illustration

Med helt andre ord (omhyggeligt, dårligt formaliseret, men det burde være klart): vi tager alle mulige linjer mellem alle par af punkter og leder efter den gennemsnitlige linje mellem alle:

Illustration

En anden forklaring er ligetil: vi fastgør en fjeder mellem alle datapunkter (her har vi tre) og den rette linje, som vi leder efter, og ligevægtstilstandens lige linje er præcis, hvad vi leder efter.

Minimum kvadratisk form

Så givet denne vektor b og et plan spændt ud af matrixens søjlevektorer EN(i dette tilfælde (x0,x1,x2) og (1,1,1)), leder vi efter vektoren e med et minimum kvadratisk længde. Det er klart, at minimumet kun kan opnås for vektoren e, ortogonalt i forhold til planet spændt over af matrixens søjlevektorer EN:

Med andre ord leder vi efter en vektor x=(alfa, beta), sådan at:

Lad mig minde dig om, at denne vektor x=(alfa, beta) er minimum af den kvadratiske funktion ||e(alfa, beta)||^2:

Her vil det være nyttigt at huske, at matricen også kan fortolkes som en kvadratisk form, f.eks. kan identitetsmatrixen ((1,0),(0,1)) fortolkes som en funktion x^2 + y^ 2:

kvadratisk form

Al denne gymnastik er kendt under navnet lineær regression.

Laplaces ligning med Dirichlet grænsebetingelse

Nu er den enkleste rigtige opgave: der er en vis trianguleret overflade, det er nødvendigt at glatte det. Lad os f.eks. indlæse en model af mit ansigt:

Den originale tilsagn er tilgængelig. For at minimere eksterne afhængigheder tog jeg koden til min softwarerenderer, allerede på Habré. For at løse et lineært system bruger jeg OpenNL, dette er en fremragende solver, som dog er meget svær at installere: du skal kopiere to filer (.h+.c) til mappen med dit projekt. Al udjævning udføres med følgende kode:

For (int d=0; d<3; d++) { nlNewContext(); nlSolverParameteri(NL_NB_VARIABLES, verts.size()); nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE); nlBegin(NL_SYSTEM); nlBegin(NL_MATRIX); for (int i=0; i<(int)verts.size(); i++) { nlBegin(NL_ROW); nlCoefficient(i, 1); nlRightHandSide(verts[i][d]); nlEnd(NL_ROW); } for (unsigned int i=0; i&ansigt = ansigter[i]; for (int j=0; j<3; j++) { nlBegin(NL_ROW); nlCoefficient(face[ j ], 1); nlCoefficient(face[(j+1)%3], -1); nlEnd(NL_ROW); } } nlEnd(NL_MATRIX); nlEnd(NL_SYSTEM); nlSolve(); for (int i=0; i<(int)verts.size(); i++) { verts[i][d] = nlGetVariable(i); } }

X-, Y- og Z-koordinater kan adskilles, jeg udglatter dem separat. Det vil sige, at jeg løser tre systemer af lineære ligninger, hver med et antal variable svarende til antallet af hjørner i min model. De første n rækker af matrix A har kun én 1 pr. række, og de første n rækker af vektor b har de oprindelige modelkoordinater. Det vil sige, at jeg binder en fjeder mellem toppunktets nye position og toppunktets gamle position - de nye skal ikke bevæge sig for langt fra de gamle.

Alle efterfølgende rækker af matrix A (faces.size()*3 = antal kanter af alle trekanter i nettet) har én forekomst af 1 og én forekomst af -1, hvor vektoren b har nul komponenter modsat. Det betyder, at jeg sætter en fjeder på hver kant af vores trekantede maske: alle kanter forsøger at få det samme toppunkt som deres start- og slutpunkt.

Endnu en gang: alle hjørner er variable, og de kan ikke bevæge sig langt fra deres oprindelige position, men samtidig forsøger de at blive lig hinanden.

Her er resultatet:

Alt ville være fint, modellen er virkelig glattet, men den har bevæget sig væk fra sin oprindelige kant. Lad os ændre koden lidt:

For (int i=0; i<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }

I vores matrix A tilføjer jeg for de hjørner, der er på kanten, ikke en række fra kategorien v_i = verts[i][d], men 1000*v_i = 1000*verts[i][d]. Hvad ændrer det? Og dette ændrer vores andengradsform for fejl. Nu vil en enkelt afvigelse fra toppen ved kanten ikke koste en enhed, som før, men 1000*1000 enheder. Det vil sige, at vi hængte en stærkere fjeder på de ekstreme hjørner, løsningen vil foretrække at strække de andre stærkere. Her er resultatet:

Lad os fordoble fjederstyrken mellem hjørnerne:
nlKoefficient(ansigt[ j ], 2); nlKoefficient(flade[(j+1)%3], -2);

Det er logisk, at overfladen er blevet glattere:

Og nu endda hundrede gange stærkere:

Hvad er dette? Forestil dig, at vi har dyppet en trådring i sæbevand. Som et resultat vil den resulterende sæbefilm forsøge at have den mindst mulige krumning og røre grænsen - vores trådring. Det er præcis, hvad vi fik ved at fikse kanten og bede om en glat overflade indeni. Tillykke, vi har netop løst Laplaces ligning med Dirichlets randbetingelser. Lyder fedt? Men i virkeligheden skal du bare løse et system af lineære ligninger.

Poissons ligning

Lad os huske et andet sejt navn.

Lad os sige, at jeg har et billede som dette:

Ser godt ud for alle, men jeg kan ikke lide stolen.

Jeg skærer billedet over i halve:



Og jeg vil vælge en stol med mine hænder:

Så vil jeg trække alt, hvad der er hvidt i masken til venstre side af billedet, og samtidig vil jeg gennem hele billedet sige, at forskellen mellem to nabopixel skal være lig med forskellen mellem to nabopixel til højre billede:

For (int i=0; i

Her er resultatet:

Kode og billeder tilgængelige

Hvis en bestemt fysisk størrelse afhænger af en anden størrelse, kan denne afhængighed studeres ved at måle y ved forskellige værdier af x. Som et resultat af målinger opnås en række værdier:

x 1, x 2, ..., xi, ..., xn;

y 1 , y 2 , ... , y i , ... , y n .

Baseret på data fra et sådant eksperiment er det muligt at konstruere en graf over afhængigheden y = ƒ(x). Den resulterende kurve gør det muligt at bedømme formen af ​​funktionen ƒ(x). Imidlertid forbliver de konstante koefficienter, der indgår i denne funktion, ukendte. De kan bestemmes ved hjælp af mindste kvadraters metode. Eksperimentelle punkter ligger som regel ikke nøjagtigt på kurven. Mindste kvadraters metode kræver, at summen af ​​kvadraterne af forsøgspunkternes afvigelser fra kurven, dvs. 2 var den mindste.

I praksis bliver denne metode oftest (og mest simpelt) brugt, hvis der er tale om en lineær sammenhæng, dvs. Hvornår

y = kx eller y = a + bx.

Lineær afhængighed er meget udbredt i fysik. Og selv når forholdet er ikke-lineært, forsøger de normalt at konstruere en graf for at få en lige linje. For eksempel, hvis det antages, at brydningsindekset for glas n er relateret til lysbølgelængden λ ved forholdet n = a + b/λ 2, så er afhængigheden af ​​n af λ -2 plottet på grafen.

Overvej afhængigheden y = kx(en lige linje, der går gennem oprindelsen). Lad os sammensætte værdien φ summen af ​​kvadraterne af afvigelserne af vores punkter fra den rette linje

Værdien af ​​φ er altid positiv og viser sig at være mindre, jo tættere vores punkter er på den rette linje. Mindste kvadraters metode siger, at værdien for k skal vælges således, at φ har et minimum


eller
(19)

Beregningen viser, at rod-middel-kvadrat-fejlen ved bestemmelse af værdien af ​​k er lig med

, (20)
hvor n er antallet af målinger.

Lad os nu overveje et lidt vanskeligere tilfælde, hvor punkterne skal opfylde formlen y = a + bx(en lige linje, der ikke går gennem origo).

Opgaven er at finde de bedste værdier af a og b fra det tilgængelige sæt af værdier x i, y i.

Lad os igen sammensætte den kvadratiske form φ, lig med summen af ​​de kvadrerede afvigelser af punkterne x i, y i fra den rette linje

og find værdierne af a og b, for hvilke φ har et minimum

;

.

.

Den fælles løsning af disse ligninger giver

(21)

De kvadratiske middelværdifejl ved bestemmelse af a og b er ens

(23)

.  (24)

Når man behandler måleresultater ved hjælp af denne metode, er det praktisk at opsummere alle data i en tabel, hvor alle mængder, der er inkluderet i formlerne (19)(24), er foreløbigt beregnet. Formerne for disse tabeller er givet i eksemplerne nedenfor.

Eksempel 1. Den grundlæggende ligning for dynamikken i rotationsbevægelse ε = M/J (en lige linje, der går gennem origo) blev undersøgt. Ved forskellige værdier af momentet M blev vinkelaccelerationen ε af et bestemt legeme målt. Det er nødvendigt at bestemme inertimomentet for denne krop. Resultaterne af målinger af kraftmomentet og vinkelaccelerationen er anført i anden og tredje kolonne tabel 5.

Tabel 5
n M, N m e, s-1 M 2 M e e - kM (ε - kM) 2
1 1.44 0.52 2.0736 0.7488 0.039432 0.001555
2 3.12 1.06 9.7344 3.3072 0.018768 0.000352
3 4.59 1.45 21.0681 6.6555 -0.08181 0.006693
4 5.90 1.92 34.81 11.328 -0.049 0.002401
5 7.45 2.56 55.5025 19.072 0.073725 0.005435
– – 123.1886 41.1115 – 0.016436

Ved hjælp af formel (19) bestemmer vi:

.

For at bestemme den gennemsnitlige kvadratiske fejl bruger vi formel (20)

0.005775kg-1 · m -2 .

Ifølge formel (18) har vi

; .

S J = (2,996 0,005775)/0,3337 = 0,05185 kg m2.

Efter at have sat reliabiliteten P = 0,95, ved hjælp af tabellen med Student-koefficienter for n = 5, finder vi t = 2,78 og bestemmer den absolutte fejl ΔJ = 2,78 0,05185 = 0,1441 ≈ 0,2 kg m2.

Lad os skrive resultaterne i formularen:

J = (3,0 ± 0,2) kg m2;


Eksempel 2. Lad os beregne temperaturkoefficienten for metalmodstand ved hjælp af mindste kvadraters metode. Modstanden afhænger lineært af temperaturen

Rt = RO (1 + α t°) = RO + R 0 α t°.

Det frie led bestemmer modstanden R 0 ved en temperatur på 0 ° C, og hældningskoefficienten er produktet af temperaturkoefficienten α og modstanden R 0 .

Resultaterne af målinger og beregninger er angivet i tabellen ( se tabel 6).

Tabel 6
n t°, s r, Ohm t-¯t (t-¯t) 2 (t-¯t)r r - bt - a (r-bt-a) 2,10-6
1 23 1.242 -62.8333 3948.028 -78.039 0.007673 58.8722
2 59 1.326 -26.8333 720.0278 -35.581 -0.00353 12.4959
3 84 1.386 -1.83333 3.361111 -2.541 -0.00965 93.1506
4 96 1.417 10.16667 103.3611 14.40617 -0.01039 107.898
5 120 1.512 34.16667 1167.361 51.66 0.021141 446.932
6 133 1.520 47.16667 2224.694 71.69333 -0.00524 27.4556
515 8.403 – 8166.833 21.5985 – 746.804
∑/n 85.83333 1.4005 – – – – –

Ved hjælp af formlerne (21), (22) bestemmer vi

R 0 = ¯ R- α R 0 ¯ t = 1,4005 - 0,002645 85,83333 = 1,1735 Ohm.

Lad os finde en fejl i definitionen af ​​α. Siden , så ifølge formel (18) har vi:

.

Ved at bruge formlerne (23), (24) har vi

;

0.014126 Ohm.

Efter at have sat reliabiliteten til P = 0,95, ved hjælp af tabellen med elevkoefficienter for n = 6, finder vi t = 2,57 og bestemmer den absolutte fejl Δα = 2,57 0,000132 = 0,000338 grader -1.

a = (23 ± 4) 10-4 hagl-1 ved P = 0,95.


Eksempel 3. Det er nødvendigt at bestemme linsens krumningsradius ved hjælp af Newtons ringe. Radierne af Newtons ringe r m blev målt, og antallet af disse ringe m blev bestemt. Radius af Newtons ringe er relateret til krumningsradius for linsen R og ringtallet ved ligningen

r2m = mλR - 2d0R,

hvor d 0 tykkelsen af ​​mellemrummet mellem linsen og den planparallelle plade (eller linsens deformation),

λ bølgelængde af indfaldende lys.

A = (600 ± 6) nm;
r2m = y;
m = x;
λR = b;
-2d 0 R = a,

så vil ligningen antage formen y = a + bx.

.

Resultaterne af målinger og beregninger indgår tabel 7.

Tabel 7
n x = m y = r 2, 10-2 mm 2 m -¯m (m -¯m) 2 (m -¯ m)y y - bx - a, 10 -4 (y - bx - a) 2, 10-6
1 1 6.101 -2.5 6.25 -0.152525 12.01 1.44229
2 2 11.834 -1.5 2.25 -0.17751 -9.6 0.930766
3 3 17.808 -0.5 0.25 -0.08904 -7.2 0.519086
4 4 23.814 0.5 0.25 0.11907 -1.6 0.0243955
5 5 29.812 1.5 2.25 0.44718 3.28 0.107646
6 6 35.760 2.5 6.25 0.894 3.12 0.0975819
21 125.129 – 17.5 1.041175 – 3.12176
∑/n 3.5 20.8548333 – – – – –

Det er meget udbredt i økonometri i form af en klar økonomisk fortolkning af dens parametre.

Lineær regression kommer ned til at finde en ligning af formen

eller

Formens ligning tillader baseret på specificerede parameterværdier x har teoretiske værdier af den resulterende karakteristik, der erstatter de faktiske værdier af faktoren i den x.

Konstruktionen af ​​lineær regression kommer ned til at estimere dens parametre - EN Og V. Lineære regressionsparameterestimater kan findes ved hjælp af forskellige metoder.

Den klassiske tilgang til at estimere lineære regressionsparametre er baseret på mindste kvadraters metode(MNC).

Mindste kvadraters metode giver os mulighed for at opnå sådanne parameterestimater EN Og V, hvor summen af ​​kvadrerede afvigelser af de faktiske værdier af den resulterende karakteristik (y) fra beregnet (teoretisk) minimum:

For at finde minimum af en funktion skal du beregne de partielle afledte for hver af parametrene EN Og b og sæt dem lig med nul.

Lad os betegne gennem S, derefter:

Ved at transformere formlen får vi følgende system af normale ligninger til at estimere parametre EN Og V:

Ved at løse systemet af normale ligninger (3.5) enten ved hjælp af metoden til sekventiel eliminering af variable eller ved metoden med determinanter, finder vi de nødvendige estimater af parametrene EN Og V.

Parameter V kaldet regressionskoefficienten. Dens værdi viser den gennemsnitlige ændring i resultatet med en ændring i faktoren med en enhed.

Regressionsligningen suppleres altid med en indikator for forbindelsens tæthed. Ved brug af lineær regression er en sådan indikator den lineære korrelationskoefficient. Der er forskellige modifikationer af den lineære korrelationskoefficientformel. Nogle af dem er angivet nedenfor:

Som bekendt er den lineære korrelationskoefficient inden for grænserne: -1 1.

For at vurdere kvaliteten af ​​udvælgelsen af ​​en lineær funktion beregnes kvadratet

Lineær korrelationskoefficient kaldet bestemmelseskoefficient. Bestemmelseskoefficienten karakteriserer variansandelen af ​​den resulterende karakteristik y, forklaret ved regression, i den totale varians af det resulterende træk:

Værdien 1 karakteriserer derfor variansandelen y, forårsaget af påvirkning af andre faktorer, der ikke er taget højde for i modellen.

Spørgsmål til selvkontrol

1. Essensen af ​​mindste kvadraters metode?

2. Hvor mange variable giver parvis regression?

3. Hvilken koefficient bestemmer tætheden af ​​sammenhængen mellem ændringer?

4. Inden for hvilke grænser bestemmes bestemmelseskoefficienten?

5. Estimering af parameter b i korrelations-regressionsanalyse?

1. Christopher Dougherty. Introduktion til økonometri. - M.: INFRA - M, 2001 - 402 s.

2. S.A. Borodich. Økonometri. Minsk LLC "New Knowledge" 2001.


3. R.U. Rakhmetova Kort kursus i økonometri. Tutorial. Almaty. 2004. -78p.

4. I.I. Eliseeva Økonometri. - M.: "Finans og statistik", 2002

5. Månedligt informations- og analytisk magasin.

Ikke-lineære økonomiske modeller. Ikke-lineære regressionsmodeller. Transformation af variabler.

Ikke-lineære økonomiske modeller..

Transformation af variabler.

Elasticitetskoefficient.

Hvis der er ikke-lineære forhold mellem økonomiske fænomener, så udtrykkes de ved hjælp af de tilsvarende ikke-lineære funktioner: for eksempel en ligesidet hyperbel , parabler af anden grad og osv.

Der er to klasser af ikke-lineære regressioner:

1. Regressioner, der er ikke-lineære med hensyn til de forklarende variabler, der indgår i analysen, men lineære med hensyn til de estimerede parametre, f.eks.

Polynomier af forskellige grader - , ;

Ligesidet hyperbel - ;

Semilogaritmisk funktion - .

2. Regressioner, der er ikke-lineære i de parametre, der estimeres, for eksempel:

Strøm - ;

Demonstrerende - ;

Eksponentiel -.

Den samlede sum af kvadrerede afvigelser af individuelle værdier af den resulterende karakteristik fra den gennemsnitlige værdi er forårsaget af indflydelsen af ​​mange årsager. Lad os betinget opdele hele sættet af årsager i to grupper: faktor under undersøgelse x Og andre faktorer.

Hvis faktoren ikke påvirker resultatet, så er regressionslinjen på grafen parallel med aksen Åh Og

Så skyldes hele variansen af ​​den resulterende karakteristik påvirkning af andre faktorer, og den samlede sum af kvadrerede afvigelser vil falde sammen med residualet. Hvis andre faktorer ikke påvirker resultatet, så y bundet Med x funktionelt og restsummen af ​​kvadrater er nul. I dette tilfælde er summen af ​​kvadrerede afvigelser forklaret af regression den samme som den samlede sum af kvadrater.

Da ikke alle punkter i korrelationsfeltet ligger på regressionslinjen, opstår deres spredning altid som et resultat af faktorens indflydelse x, altså regression Ved X, og forårsaget af andre årsager (uforklaret variation). Egnetheden af ​​en regressionslinje til prognose afhænger af hvilken del af den samlede variation af egenskaben forklarer den forklarede variation

Det er klart, at hvis summen af ​​kvadrerede afvigelser på grund af regression er større end restsummen af ​​kvadrater, så er regressionsligningen statistisk signifikant og faktoren x har en væsentlig indflydelse på resultatet u.

, dvs. med antallet af frihed til uafhængig variation af en karakteristik. Antallet af frihedsgrader er relateret til antallet af enheder af befolkningen n og antallet af konstanter bestemt ud fra det. I forhold til det undersøgte problem skal antallet af frihedsgrader vise, hvor mange uafhængige afvigelser fra P

Vurderingen af ​​betydningen af ​​regressionsligningen som helhed gives vha F-Fisher-kriterium. I dette tilfælde fremsættes en nulhypotese om, at regressionskoefficienten er lig nul, dvs. b = 0, og dermed faktoren x påvirker ikke resultatet u.

Den umiddelbare beregning af F-testen er forudgået af variansanalyse. Den centrale plads i den er optaget af dekomponeringen af ​​den samlede sum af kvadrerede afvigelser af en variabel fra gennemsnitsværdien i to dele - "forklaret" og "uforklaret":

- den samlede sum af kvadrerede afvigelser;

- summen af ​​kvadrerede afvigelser forklaret ved regression;

- Restsum af kvadrerede afvigelser.

Enhver sum af kvadrerede afvigelser er relateret til antallet af frihedsgrader , dvs. med antallet af frihed til uafhængig variation af en karakteristik. Antallet af frihedsgrader hænger sammen med antallet af befolkningsenheder n og med antallet af konstanter bestemt ud fra det. I forhold til det undersøgte problem skal antallet af frihedsgrader vise, hvor mange uafhængige afvigelser fra P muligt kræves for at danne en given sum af kvadrater.

Spredning pr. frihedsgradD.

F-forhold (F-test):

Hvis nulhypotesen er sand, så afviger faktor- og restvarianserne ikke fra hinanden. For H 0 er en gendrivelse nødvendig, således at faktorspredningen flere gange overstiger restdispersionen. Den engelske statistiker Snedekor udviklede tabeller med kritiske værdier F-relationer på forskellige niveauer af betydning af nulhypotesen og forskellige antal frihedsgrader. Tabelværdi F-kriterium er den maksimale værdi af forholdet mellem varianser, der kan forekomme i tilfælde af tilfældig divergens for et givet niveau af sandsynlighed for tilstedeværelsen af ​​nulhypotesen. Beregnet værdi F-relationer anses for pålidelige, hvis o er større end tabellen.

I dette tilfælde afvises nulhypotesen om fraværet af et forhold mellem tegn, og der drages en konklusion om betydningen af ​​dette forhold: F fakta > F tabel H 0 afvises.

Hvis værdien er mindre end den angivne F fakta ‹, F-tabel, så er sandsynligheden for nulhypotesen højere end et specificeret niveau og kan ikke afvises uden alvorlig risiko for at drage den forkerte konklusion om tilstedeværelsen af ​​et forhold. I dette tilfælde betragtes regressionsligningen som statistisk insignifikant. Men han afviger ikke.

Standardfejl for regressionskoefficient

For at vurdere betydningen af ​​regressionskoefficienten sammenlignes dens værdi med dens standardfejl, dvs. den faktiske værdi bestemmes t- Elevens prøve: som derefter sammenlignes med tabelværdien ved et bestemt signifikansniveau og antal frihedsgrader ( n- 2).

Standard parameter fejl EN:

Signifikansen af ​​den lineære korrelationskoefficient kontrolleres baseret på fejlens størrelse korrelationskoefficient t r:

Total egenskabsvarians x:

Multipel lineær regression

Modelbygning

Multipel regression repræsenterer en regression af en effektiv karakteristik med to eller flere faktorer, dvs. en model af formen

Regression kan give gode resultater i modellering, hvis indflydelsen fra andre faktorer, der påvirker studieobjektet, kan negligeres. Individuelle økonomiske variables adfærd kan ikke kontrolleres, det vil sige, at det ikke er muligt at sikre ligheden af ​​alle andre betingelser for at vurdere indflydelsen af ​​én faktor, der undersøges. I dette tilfælde bør du prøve at identificere indflydelsen af ​​andre faktorer ved at introducere dem i modellen, dvs. konstruere en multipel regressionsligning: y = a+b 1 x 1 +b 2 +…+b p x p + .

Hovedmålet med multipel regression er at bygge en model med et stort antal faktorer, mens man bestemmer indflydelsen af ​​hver af dem separat, såvel som deres kombinerede indvirkning på den modellerede indikator. Specifikationen af ​​modellen omfatter to rækker af problemstillinger: valg af faktorer og valg af type regressionsligning