Korrelasjons- og regresjonsanalyse i Excel: instruksjoner for utførelse. Regresjonsanalyse er en statistisk metode for å studere en tilfeldig variabels avhengighet av variabler Regresjonsfunksjon

Regresjonsanalyse

Regresjon (lineær) analyse- en statistisk metode for å studere innflytelsen av en eller flere uavhengige variabler på en avhengig variabel. Uavhengige variabler kalles ellers regressorer eller prediktorer, og avhengige variabler kalles kriteriumvariabler. Terminologi avhengig Og uavhengig variabler gjenspeiler bare den matematiske avhengigheten til variablene ( se falsk korrelasjon), i stedet for årsak-virkning-forhold.

Mål for regresjonsanalyse

  1. Bestemmelse av graden av bestemmelse av variasjonen av et kriterium (avhengig) variabel ved hjelp av prediktorer (uavhengige variabler)
  2. Forutsi verdien av en avhengig variabel ved å bruke den eller de uavhengige variablene
  3. Bestemme bidraget til individuelle uavhengige variabler til variasjonen av den avhengige variabelen

Regresjonsanalyse kan ikke brukes til å avgjøre om det er en sammenheng mellom variabler, siden tilstedeværelsen av en slik sammenheng er en forutsetning for å anvende analysen.

Matematisk definisjon av regresjon

Et strengt regresjonsforhold kan defineres som følger. La , være tilfeldige variabler med en gitt felles sannsynlighetsfordeling. Hvis det for hvert sett med verdier er definert en betinget matematisk forventning

(regresjonsligning i generell form),

så kalles funksjonen regresjon verdier av Y etter verdier, og grafen er regresjonslinje av , eller regresjonsligning.

Avhengigheten av manifesteres i endringen i gjennomsnittsverdiene til Y med en endring i . Selv om verdien for hvert fast sett med verdier forblir en tilfeldig variabel med en viss spredning.

For å avklare spørsmålet om hvor nøyaktig regresjonsanalyse estimerer endringen i Y ved endring, brukes gjennomsnittsverdien av dispersjonen av Y for forskjellige sett med verdier (faktisk snakker vi om spredningsmålet for den avhengige variabelen rundt regresjonslinjen).

Minste kvadraters metode (beregning av koeffisienter)

I praksis søkes regresjonslinjen oftest i form av en lineær funksjon (lineær regresjon), som best tilnærmer ønsket kurve. Dette gjøres ved å bruke minste kvadraters metode, når summen av de kvadrerte avvikene til de faktisk observerte fra estimatene deres er minimert (som betyr estimater som bruker en rett linje som påstår å representere det ønskede regresjonsforholdet):

(M - prøvestørrelse). Denne tilnærmingen er basert på det velkjente faktum at beløpet som vises i uttrykket ovenfor får en minimumsverdi nettopp for tilfellet når .

For å løse problemet med regresjonsanalyse ved hjelp av minste kvadraters metode, introduseres begrepet restfunksjoner:

Minimumsbetingelse for restfunksjonen:

Det resulterende systemet er et system av lineære ligninger med ukjente

Hvis vi representerer de frie leddene på venstre side av ligningene som en matrise

og koeffisientene for de ukjente på høyre side er matrisen

da får vi matriseligningen: , som lett løses ved Gauss-metoden. Den resulterende matrisen vil være en matrise som inneholder koeffisientene til regresjonslinjeligningen:

For å oppnå de beste estimatene er det nødvendig å oppfylle forutsetningene til OLS (Gauss–Markov-betingelser). I engelsk litteratur kalles slike estimater BLUE (Best Linear Unbiased Estimators).

Tolkning av regresjonsparametere

Parametrene er partielle korrelasjonskoeffisienter; tolkes som andelen av variansen til Y forklart ved å fikse påvirkningen til de gjenværende prediktorene, det vil si at den måler det individuelle bidraget til forklaringen av Y. Ved korrelerte prediktorer oppstår problemet med usikkerhet i estimatene, som blir avhengig av rekkefølgen prediktorene er inkludert i modellen. I slike tilfeller er det nødvendig å bruke korrelasjons- og trinnvise regresjonsanalysemetoder.

Når man snakker om ikke-lineære modeller for regresjonsanalyse, er det viktig å være oppmerksom på om vi snakker om ikke-linearitet i uavhengige variabler (fra et formelt synspunkt, lett redusert til lineær regresjon), eller om ikke-linearitet i de estimerte parametrene (som forårsaker alvorlige beregningsvansker). I tilfelle av ikke-linearitet av den første typen, fra et innholdsmessig synspunkt, er det viktig å fremheve utseendet i modellen av termer av formen , , som indikerer tilstedeværelsen av interaksjoner mellom funksjoner, etc. (se Multicollinearity).

se også

Linker

  • www.kgafk.ru - Forelesning om emnet "Regresjonsanalyse"
  • www.basegroup.ru - metoder for å velge variabler i regresjonsmodeller

Litteratur

  • Norman Draper, Harry Smith Anvendt regresjonsanalyse. Multippel regresjon = Anvendt regresjonsanalyse. - 3. utg. - M.: "Dialectics", 2007. - S. 912. - ISBN 0-471-17082-8
  • Robuste metoder for å estimere statistiske modeller: Monografi. - K.: PP "Sansparel", 2005. - S. 504. - ISBN 966-96574-0-7, UDC: 519.237.5:515.126.2, BBK 22.172+22.152
  • Radtsjenko Stanislav Grigorievich, Metodikk for regresjonsanalyse: Monografi. - K.: "Korniychuk", 2011. - S. 376. - ISBN 978-966-7599-72-0

Wikimedia Foundation. 2010.

I løpet av studiene møter studentene veldig ofte en rekke ligninger. En av dem - regresjonsligningen - er omtalt i denne artikkelen. Denne typen ligninger brukes spesifikt for å beskrive egenskapene til forholdet mellom matematiske parametere. Denne typen likhet brukes i statistikk og økonometri.

Definisjon av regresjon

I matematikk betyr regresjon en viss mengde som beskriver avhengigheten av gjennomsnittsverdien til et sett med data på verdiene til en annen mengde. Regresjonsligningen viser, som funksjon av en bestemt egenskap, gjennomsnittsverdien til en annen egenskap. Regresjonsfunksjonen har form av en enkel ligning y = x, der y fungerer som en avhengig variabel, og x som en uavhengig variabel (funksjonsfaktor). Faktisk er regresjon uttrykt som y = f (x).

Hva er typene forhold mellom variabler?

Generelt er det to motstridende typer sammenhenger: korrelasjon og regresjon.

Den første er preget av likheten mellom betingede variabler. I dette tilfellet er det ikke pålitelig kjent hvilken variabel som avhenger av den andre.

Hvis det ikke er likhet mellom variablene og betingelsene sier hvilken variabel som er forklarende og hvilken som er avhengig, så kan vi snakke om tilstedeværelsen av en sammenheng av den andre typen. For å konstruere en lineær regresjonsligning vil det være nødvendig å finne ut hvilken type sammenheng som observeres.

Typer regresjoner

I dag er det 7 forskjellige typer regresjon: hyperbolsk, lineær, multippel, ikke-lineær, parvis, invers, logaritmisk lineær.

Hyperbolsk, lineær og logaritmisk

Den lineære regresjonsligningen brukes i statistikk for å tydelig forklare parametrene til ligningen. Det ser ut som y = c+t*x+E. En hyperbolsk ligning har form av en regulær hyperbel y = c + m / x + E. En logaritmisk lineær ligning uttrykker forholdet ved hjelp av en logaritmisk funksjon: In y = In c + m * In x + In E.

Multippel og ikke-lineær

De to mer komplekse regresjonstypene er multiple og ikke-lineære. Multippel regresjonsligningen uttrykkes ved funksjonen y = f(x 1, x 2 ... x c) + E. I denne situasjonen fungerer y som en avhengig variabel, og x fungerer som en forklarende variabel. E-variabelen er stokastisk; den inkluderer påvirkning av andre faktorer i ligningen. Den ikke-lineære regresjonsligningen er litt kontroversiell. På den ene siden, i forhold til indikatorene tatt i betraktning, er den ikke lineær, men på den andre siden, i rollen som evaluering av indikatorer, er den lineær.

Inverse og parede typer regresjoner

En invers er en type funksjon som må konverteres til en lineær form. I de mest tradisjonelle applikasjonsprogrammene har den form av en funksjon y = 1/c + m*x+E. En parvis regresjonsligning viser forholdet mellom dataene som en funksjon av y = f (x) + E. Akkurat som i andre ligninger er y avhengig av x, og E er en stokastisk parameter.

Begrepet korrelasjon

Dette er en indikator som viser eksistensen av en sammenheng mellom to fenomener eller prosesser. Styrken til sammenhengen uttrykkes som en korrelasjonskoeffisient. Verdien svinger innenfor intervallet [-1;+1]. En negativ indikator indikerer tilstedeværelsen av tilbakemelding, en positiv indikator indikerer direkte tilbakemelding. Hvis koeffisienten tar en verdi lik 0, er det ingen sammenheng. Jo nærmere verdien er 1, jo sterkere er forholdet mellom parameterne; jo nærmere 0, jo svakere er det.

Metoder

Korrelasjonsparametriske metoder kan vurdere relasjonens styrke. De brukes på grunnlag av fordelingsestimering for å studere parametere som følger loven om normalfordeling.

Parametrene til den lineære regresjonsligningen er nødvendige for å identifisere typen avhengighet, funksjonen til regresjonsligningen og evaluere indikatorene for den valgte relasjonsformelen. Korrelasjonsfeltet brukes som ene. For å gjøre dette må alle eksisterende data avbildes grafisk. Alle kjente data skal plottes i et rektangulært todimensjonalt koordinatsystem. Slik dannes et korrelasjonsfelt. Verdiene til den beskrivende faktoren er markert langs abscisseaksen, mens verdiene til den avhengige faktoren er markert langs ordinataksen. Hvis det er en funksjonell sammenheng mellom parameterne, er de stilt opp i form av en linje.

Hvis korrelasjonskoeffisienten til slike data er mindre enn 30%, kan vi snakke om et nesten fullstendig fravær av forbindelse. Hvis det er mellom 30% og 70%, indikerer dette tilstedeværelsen av middels tette forbindelser. En 100 % indikator er bevis på en funksjonell forbindelse.

En ikke-lineær regresjonsligning, akkurat som en lineær, må suppleres med en korrelasjonsindeks (R).

Korrelasjon for multippel regresjon

Bestemmelseskoeffisienten er en indikator på kvadratet av multippelkorrelasjon. Han snakker om det nære forholdet mellom det presenterte settet med indikatorer og karakteristikken som studeres. Det kan også snakke om arten av påvirkningen av parametere på resultatet. Multippel regresjonsligningen estimeres ved å bruke denne indikatoren.

For å beregne den multiple korrelasjonsindikatoren, er det nødvendig å beregne indeksen.

Minste kvadratiske metode

Denne metoden er en måte å estimere regresjonsfaktorer på. Dens essens er å minimere summen av kvadrerte avvik oppnådd som et resultat av faktorens avhengighet av funksjonen.

En parvis lineær regresjonsligning kan estimeres ved å bruke en slik metode. Denne typen ligninger brukes når et paret lineært forhold oppdages mellom indikatorer.

Ligningsparametere

Hver parameter i den lineære regresjonsfunksjonen har en spesifikk betydning. Den sammenkoblede lineære regresjonsligningen inneholder to parametere: c og m. Parameteren m demonstrerer den gjennomsnittlige endringen i den endelige indikatoren til funksjonen y, forutsatt at variabelen x minker (øker) med én konvensjonell enhet. Hvis variabelen x er null, er funksjonen lik parameteren c. Hvis variabelen x ikke er null, har ikke faktoren c økonomisk betydning. Den eneste påvirkningen på funksjonen er tegnet foran faktoren c. Hvis det er et minus, kan vi si at endringen i resultatet er langsom sammenlignet med faktoren. Hvis det er et pluss, indikerer dette en akselerert endring i resultatet.

Hver parameter som endrer verdien av regresjonsligningen kan uttrykkes gjennom en ligning. For eksempel har faktor c formen c = y - mx.

Grupperte data

Det er oppgavebetingelser der all informasjon er gruppert etter attributt x, men for en viss gruppe er de tilsvarende gjennomsnittsverdiene til den avhengige indikatoren indikert. I dette tilfellet karakteriserer gjennomsnittsverdiene hvordan indikatoren avhengig av x endres. Dermed hjelper den grupperte informasjonen til å finne regresjonsligningen. Den brukes som en analyse av sammenhenger. Imidlertid har denne metoden sine ulemper. Dessverre er gjennomsnittsindikatorer ofte gjenstand for eksterne svingninger. Disse svingningene gjenspeiler ikke mønsteret i forholdet; de maskerer bare "støyen". Gjennomsnitt viser forholdsmønstre mye verre enn en lineær regresjonsligning. De kan imidlertid brukes som grunnlag for å finne en ligning. Ved å multiplisere tallet på en individuell populasjon med det tilsvarende gjennomsnittet kan man få summen y innenfor gruppen. Deretter må du legge sammen alle mottatte beløp og finne den endelige indikatoren y. Det er litt vanskeligere å gjøre beregninger med sumindikatoren xy. Hvis intervallene er små, kan vi betinget ta x-indikatoren for alle enheter (innenfor gruppen) til å være den samme. Du bør gange den med summen av y for å finne ut summen av produktene av x og y. Deretter legges alle mengdene sammen og den totale mengden xy oppnås.

Flere parvis regresjonsligning: vurdering av betydningen av et forhold

Som diskutert tidligere har multippel regresjon en funksjon av formen y = f (x 1,x 2,…,x m)+E. Oftest brukes en slik ligning for å løse problemet med tilbud og etterspørsel etter et produkt, renteinntekter på tilbakekjøpte aksjer, og for å studere årsakene til og typen av produksjonskostnadsfunksjonen. Den brukes også aktivt i en lang rekke makroøkonomiske studier og beregninger, men på mikroøkonomisk nivå brukes denne ligningen litt sjeldnere.

Hovedoppgaven med multippel regresjon er å bygge en modell av data som inneholder en enorm mengde informasjon for ytterligere å bestemme hvilken innflytelse hver av faktorene individuelt og i sin helhet har på indikatoren som må modelleres og dens koeffisienter. Regresjonsligningen kan anta en lang rekke verdier. I dette tilfellet, for å vurdere forholdet, brukes vanligvis to typer funksjoner: lineær og ikke-lineær.

Den lineære funksjonen er avbildet i form av følgende forhold: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. I dette tilfellet regnes a2, a m som "rene" regresjonskoeffisienter. De er nødvendige for å karakterisere den gjennomsnittlige endringen i parameter y med en endring (reduksjon eller økning) i hver tilsvarende parameter x med en enhet, med betingelsen om stabile verdier for andre indikatorer.

Ikke-lineære ligninger har for eksempel form av en potensfunksjon y=ax 1 b1 x 2 b2 ...x m bm. I dette tilfellet kalles indikatorene b 1, b 2 ..... b m elastisitetskoeffisienter, de viser hvordan resultatet vil endre seg (med hvor mye%) med en økning (reduksjon) i den tilsvarende indikatoren x med 1% og med en stabil indikator på andre faktorer.

Hvilke faktorer må tas i betraktning når man konstruerer multippel regresjon

For å kunne bygge multippel regresjon på riktig måte, er det nødvendig å finne ut hvilke faktorer som bør vies spesiell oppmerksomhet.

Det er nødvendig å ha en viss forståelse av arten av sammenhengene mellom økonomiske faktorer og det som modelleres. Faktorer som må inkluderes må oppfylle følgende kriterier:

  • Må være gjenstand for kvantitativ måling. For å bruke en faktor som beskriver kvaliteten til et objekt, bør det uansett gis en kvantitativ form.
  • Det skal ikke være noen interkorrelasjon av faktorer, eller funksjonelle sammenhenger. Slike handlinger fører oftest til irreversible konsekvenser - systemet med vanlige ligninger blir ubetinget, og dette medfører upålitelighet og uklare estimater.
  • Når det gjelder en enorm korrelasjonsindikator, er det ingen måte å finne ut den isolerte påvirkningen av faktorer på det endelige resultatet av indikatoren, derfor blir koeffisientene utolkbare.

Byggemetoder

Det finnes et stort antall metoder og metoder som forklarer hvordan du kan velge faktorer for en ligning. Imidlertid er alle disse metodene basert på valg av koeffisienter ved hjelp av en korrelasjonsindikator. Blant dem er:

  • Elimineringsmetode.
  • Byttemetode.
  • Trinnvis regresjonsanalyse.

Den første metoden innebærer å filtrere ut alle koeffisienter fra det totale settet. Den andre metoden innebærer å introdusere mange tilleggsfaktorer. Vel, den tredje er eliminering av faktorer som tidligere ble brukt for ligningen. Hver av disse metodene har rett til å eksistere. De har sine fordeler og ulemper, men de kan alle løse problemet med å eliminere unødvendige indikatorer på sin egen måte. Som regel er resultatene oppnådd ved hver enkelt metode ganske nærme.

Multivariate analysemetoder

Slike metoder for å bestemme faktorer er basert på vurdering av individuelle kombinasjoner av sammenhengende egenskaper. Disse inkluderer diskriminantanalyse, formgjenkjenning, hovedkomponentanalyse og klyngeanalyse. I tillegg er det også faktoranalyse, men det dukket opp på grunn av utviklingen av komponentmetoden. Alle gjelder under visse omstendigheter, underlagt visse betingelser og faktorer.

Begrepet regresjon. Avhengighet mellom variabler x Og y kan beskrives på forskjellige måter. Spesielt kan enhver form for forbindelse uttrykkes ved en generell ligning, hvor y behandles som en avhengig variabel, eller funksjoner fra en annen - uavhengig variabel x, kalt argument. Korrespondansen mellom et argument og en funksjon kan spesifiseres av en tabell, formel, graf osv. Å endre en funksjon avhengig av en endring i ett eller flere argumenter kalles regresjon. Alle virkemidler som brukes for å beskrive korrelasjoner utgjør innholdet regresjonsanalyse.

For å uttrykke regresjon, korrelasjonsligninger, eller regresjonsligninger, empiriske og teoretisk beregnede regresjonsserier, brukes grafene deres, kalt regresjonslinjer, samt lineære og ikke-lineære regresjonskoeffisienter.

Regresjonsindikatorer uttrykker korrelasjonsforholdet bilateralt, tar hensyn til endringer i gjennomsnittsverdiene til karakteristikken Y ved endring av verdier x Jeg skilt X, og omvendt viser en endring i gjennomsnittsverdiene til karakteristikken X i henhold til endrede verdier y Jeg skilt Y. Unntaket er tidsserier, eller tidsserier, som viser endringer i egenskaper over tid. Regresjonen til slike serier er ensidig.

Det finnes mange forskjellige former og typer korrelasjoner. Oppgaven kommer ned til å identifisere formen på forbindelsen i hvert enkelt tilfelle og uttrykke den med den tilsvarende korrelasjonsligningen, som lar oss forutse mulige endringer i en egenskap Y basert på kjente endringer i en annen X, relatert til den første korrelasjonsmessig.

12.1 Lineær regresjon

Regresjonsligning. Resultater av observasjoner utført på et bestemt biologisk objekt basert på korrelerte egenskaper x Og y, kan representeres av punkter på et plan ved å konstruere et system av rektangulære koordinater. Resultatet er et slags spredningsdiagram som lar en bedømme formen og nærheten til forholdet mellom varierende egenskaper. Ganske ofte ser dette forholdet ut som en rett linje eller kan tilnærmes med en rett linje.

Lineær sammenheng mellom variabler x Og y beskrives med en generell ligning, hvor a, b, c, d,... – parametere til ligningen som bestemmer sammenhengene mellom argumentene x 1 , x 2 , x 3 , …, x m og funksjoner.

I praksis blir ikke alle mulige argumenter tatt i betraktning, men bare noen argumenter; i det enkleste tilfellet, bare ett:

I den lineære regresjonsligningen (1) en er fribegrepet, og parameteren b bestemmer helningen til regresjonslinjen i forhold til de rektangulære koordinataksene. I analytisk geometri kalles denne parameteren skråningen, og i biometri – regresjonskoeffisient. En visuell representasjon av denne parameteren og posisjonen til regresjonslinjene Y Av X Og X Av Y i det rektangulære koordinatsystemet gir Fig. 1.

Ris. 1 Regresjonslinjer av Y ved X og X ved Y i systemet

rektangulære koordinater

Regresjonslinjer, som vist i fig. 1, skjærer hverandre i punktet O (,), som tilsvarer de aritmetiske gjennomsnittsverdiene av karakteristikker korrelert med hverandre Y Og X. Når du konstruerer regresjonsgrafer, plottes verdiene til den uavhengige variabelen X langs abscisseaksen, og verdiene til den avhengige variabelen, eller funksjon Y, plottes langs ordinataksen. Linje AB som går gjennom punkt O (, ) tilsvarer det fullstendige (funksjonelle) forholdet mellom variablene Y Og X, når korrelasjonskoeffisienten . Jo sterkere sammenheng mellom Y Og X, jo nærmere regresjonslinjene er AB, og omvendt, jo svakere forbindelsen mellom disse størrelsene er, jo mer fjerntliggende er regresjonslinjene fra AB. Hvis det ikke er noen sammenheng mellom egenskapene, står regresjonslinjene i rette vinkler på hverandre og .

Siden regresjonsindikatorer uttrykker korrelasjonsforholdet bilateralt, bør regresjonsligning (1) skrives som følger:

Den første formelen bestemmer gjennomsnittsverdiene når karakteristikken endres X per måleenhet, for den andre - gjennomsnittsverdier ved endring med én måleenhet for attributtet Y.

Regresjonskoeffisient. Regresjonskoeffisienten viser hvor mye i gjennomsnitt verdien av en egenskap y endres når målet til en annen, korrelert med, endres med en Y skilt X. Denne indikatoren bestemmes av formelen

Her er verdiene s multiplisert med størrelsen på klasseintervallene λ , hvis de ble funnet fra variasjonsserier eller korrelasjonstabeller.

Regresjonskoeffisienten kan beregnes uten å beregne standardavvik s y Og s x i henhold til formelen

Hvis korrelasjonskoeffisienten er ukjent, bestemmes regresjonskoeffisienten som følger:

Sammenheng mellom regresjon og korrelasjonskoeffisienter. Ved å sammenligne formler (11.1) (emne 11) og (12.5), ser vi: deres teller har samme verdi, noe som indikerer en sammenheng mellom disse indikatorene. Dette forholdet kommer til uttrykk i likheten

Dermed er korrelasjonskoeffisienten lik det geometriske gjennomsnittet av koeffisientene b yx Og b xy. Formel (6) tillater for det første basert på de kjente verdiene til regresjonskoeffisientene b yx Og b xy bestemme regresjonskoeffisienten R xy, og for det andre, sjekk riktigheten av beregningen av denne korrelasjonsindikatoren R xy mellom forskjellige egenskaper X Og Y.

I likhet med korrelasjonskoeffisienten karakteriserer regresjonskoeffisienten kun en lineær sammenheng og er ledsaget av et plusstegn for en positiv sammenheng og et minustegn for en negativ sammenheng.

Bestemmelse av lineære regresjonsparametere. Det er kjent at summen av kvadrerte avvik er en variant x Jeg fra gjennomsnittet er den minste verdien, dvs. denne teoremet danner grunnlaget for minste kvadraters metode. Angående lineær regresjon [se formel (1)] kravet til denne teoremet er tilfredsstilt av et visst system av ligninger kalt normal:

Felles løsning av disse ligningene med hensyn til parametere en Og b fører til følgende resultater:

;

;

, hvorfra og.

Tatt i betraktning den toveis karakteren av forholdet mellom variablene Y Og X, formel for å bestemme parameteren EN skal uttrykkes slik:

Og . (7)

Parameter b, eller regresjonskoeffisient, bestemmes av følgende formler:

Konstruksjon av empiriske regresjonsserier. Hvis det er et stort antall observasjoner, begynner regresjonsanalyse med konstruksjon av empiriske regresjonsserier. Empirisk regresjonsserie dannes ved å beregne verdiene til en varierende karakteristikk X gjennomsnittsverdier av en annen, korrelert med X skilt Y. Med andre ord, konstruksjonen av empiriske regresjonsserier kommer ned til å finne gruppegjennomsnitt fra de tilsvarende verdiene for egenskapene Y og X.

En empirisk regresjonsserie er en dobbel serie med tall som kan representeres av punkter på et plan, og deretter, ved å koble disse punktene med rette linjesegmenter, kan en empirisk regresjonslinje oppnås. Empiriske regresjonsserier, spesielt grafene deres, kalt regresjonslinjer, gi en klar ide om formen og graden av sammenhengen mellom ulike egenskaper.

Justering av empiriske regresjonsserier. Grafer over empiriske regresjonsserier viser seg som regel ikke å være jevne, men brutte linjer. Dette forklares av det faktum at sammen med hovedårsakene som bestemmer det generelle mønsteret i variabiliteten av korrelerte egenskaper, påvirkes størrelsen deres av påvirkningen av en rekke sekundære årsaker som forårsaker tilfeldige svingninger i regresjonsknutepunktene. For å identifisere hovedtendensen (trenden) til den konjugerte variasjonen av korrelerte egenskaper, er det nødvendig å erstatte brutte linjer med jevne, jevnt løpende regresjonslinjer. Prosessen med å erstatte brutte linjer med glatte kalles justering av empiriske serier Og regresjonslinjer.

Grafisk justering metode. Dette er den enkleste metoden som ikke krever beregningsarbeid. Dens essens koker ned til følgende. Den empiriske regresjonsserien er avbildet som en graf i et rektangulært koordinatsystem. Deretter er midtpunktene for regresjon visuelt skissert, langs hvilken en heltrukket linje er tegnet ved hjelp av en linjal eller et mønster. Ulempen med denne metoden er åpenbar: den utelukker ikke påvirkningen av forskerens individuelle egenskaper på resultatene av justering av empiriske regresjonslinjer. Derfor, i tilfeller der høyere nøyaktighet er nødvendig når man erstatter brutte regresjonslinjer med glatte, brukes andre metoder for å justere empiriske serier.

Glidende gjennomsnittsmetode. Essensen av denne metoden kommer ned til sekvensiell beregning av aritmetiske gjennomsnitt fra to eller tre tilstøtende ledd i den empiriske serien. Denne metoden er spesielt praktisk i tilfeller der den empiriske serien er representert av et stort antall termer, slik at tapet av to av dem - de ekstreme, som er uunngåelig med denne innrettingsmetoden, ikke vil påvirke strukturen merkbart.

Minste kvadratiske metode. Denne metoden ble foreslått på begynnelsen av 1800-tallet av A.M. Legendre og, uavhengig av ham, K. Gauss. Den lar deg justere empiriske serier mest nøyaktig. Denne metoden, som vist ovenfor, er basert på antakelsen om at summen av kvadrerte avvik er et alternativ x Jeg fra gjennomsnittet deres er det en minimumsverdi, det vil si derav navnet på metoden, som brukes ikke bare i økologi, men også i teknologi. Minste kvadraters metode er objektiv og universell; den brukes i en lang rekke tilfeller når man finner empiriske ligninger for regresjonsserier og bestemmer deres parametere.

Kravet til minste kvadraters metode er at de teoretiske punktene til regresjonslinjen skal oppnås på en slik måte at summen av de kvadrerte avvikene fra disse punktene for de empiriske observasjonene y Jeg var minimal, dvs.

Ved å beregne minimum av dette uttrykket i samsvar med prinsippene for matematisk analyse og transformere det på en bestemt måte, kan man få et system med s.k. normale ligninger, der de ukjente verdiene er de nødvendige parametrene til regresjonsligningen, og de kjente koeffisientene bestemmes av de empiriske verdiene til egenskapene, vanligvis summene av deres verdier og deres kryssprodukter.

Multippel lineær regresjon. Forholdet mellom flere variabler uttrykkes vanligvis ved en multippel regresjonsligning, som kan være lineær Og ikke-lineær. I sin enkleste form uttrykkes multippel regresjon som en ligning med to uavhengige variabler ( x, z):

Hvor en– fri term av ligningen; b Og c– parametere for ligningen. For å finne parametrene til ligning (10) (ved bruk av minste kvadraters metode), brukes følgende system med normale ligninger:

Dynamisk serie. Justering av rader. Endringer i egenskaper over tid danner den såkalte tidsserier eller dynamikk serien. Et karakteristisk trekk ved slike serier er at den uavhengige variabelen X her alltid er tidsfaktoren, og den avhengige variabelen Y er et skiftende trekk. Avhengig av regresjonsserien er forholdet mellom variablene X og Y ensidig, siden tidsfaktoren ikke er avhengig av variasjonen til egenskapene. Til tross for disse funksjonene, kan dynamikkserier sammenlignes med regresjonsserier og behandles med de samme metodene.

I likhet med regresjonsserier påvirkes empiriske dynamikkserier ikke bare av de viktigste, men også av en rekke sekundære (tilfeldige) faktorer som skjuler hovedtrenden i variabiliteten av egenskaper, som på statistikkspråket kalles trend.

Analyse av tidsserier begynner med å identifisere formen på trenden. For å gjøre dette er tidsserien avbildet som en linjegraf i et rektangulært koordinatsystem. I dette tilfellet plottes tidspunkter (år, måneder og andre tidsenheter) langs abscisseaksen, og verdiene til den avhengige variabelen Y plottes langs ordinataksen. Hvis det er en lineær sammenheng mellom variablene X og Y (lineær trend), minste kvadraters metode er den mest hensiktsmessige for å justere tidsserien er en regresjonsligning i form av avvik av leddene til serien til den avhengige variabelen Y fra det aritmetiske gjennomsnittet av serien til den uavhengige variabelen. variabel X:

Her er den lineære regresjonsparameteren.

Numeriske egenskaper for dynamikkserier. De viktigste generaliserende numeriske egenskapene til dynamikkserier inkluderer geometrisk gjennomsnitt og et aritmetisk gjennomsnitt nær det. De karakteriserer den gjennomsnittlige hastigheten der verdien av den avhengige variabelen endres over visse tidsperioder:

En vurdering av variasjonen til medlemmer av dynamikkserien er standardavvik. Når man velger regresjonsligninger for å beskrive tidsserier, tas formen på trenden i betraktning, som kan være lineær (eller redusert til lineær) og ikke-lineær. Riktigheten av valget av regresjonsligning bedømmes vanligvis av likheten mellom de empirisk observerte og beregnede verdiene til den avhengige variabelen. En mer nøyaktig løsning på dette problemet er regresjonsanalysen av variansmetoden (tema 12, avsnitt 4).

Korrelasjon av tidsserier. Det er ofte nødvendig å sammenligne dynamikken til parallelle tidsserier knyttet til hverandre ved visse generelle forhold, for eksempel for å finne ut sammenhengen mellom landbruksproduksjon og veksten av husdyrtall over en viss tidsperiode. I slike tilfeller er karakteristikken for forholdet mellom variablene X og Y korrelasjonskoeffisient R xy (i nærvær av en lineær trend).

Det er kjent at trenden til tidsserier som regel skjules av fluktuasjoner i rekken av den avhengige variabelen Y. Dette gir opphav til et todelt problem: måling av avhengigheten mellom sammenlignede serier, uten å ekskludere trenden, og måling av avhengighet mellom nabomedlemmer i samme serie, unntatt trenden. I det første tilfellet er indikatoren for nærhet av forbindelsen mellom de sammenlignede tidsseriene korrelasjonskoeffisient(hvis forholdet er lineært), i den andre – autokorrelasjonskoeffisient. Disse indikatorene har forskjellig betydning, selv om de er beregnet ved hjelp av de samme formlene (se emne 11).

Det er lett å se at verdien av autokorrelasjonskoeffisienten påvirkes av variabiliteten til seriemedlemmene til den avhengige variabelen: jo mindre seriemedlemmene avviker fra trenden, jo høyere er autokorrelasjonskoeffisienten, og omvendt.

Regresjonsanalyse er en metode for å etablere et analytisk uttrykk for den stokastiske avhengigheten mellom egenskapene som studeres. Regresjonsligningen viser hvordan gjennomsnittet endres når du endrer noen av x Jeg , og har formen:

Hvor y - avhengig variabel (den er alltid den samme);

X Jeg - uavhengige variabler (faktorer) (det kan være flere av dem).

Hvis det kun er én uavhengig variabel, er dette en enkel regresjonsanalyse. Hvis det er flere av dem ( P 2), da kalles en slik analyse multifaktoriell.

Regresjonsanalyse løser to hovedproblemer:

    å konstruere en regresjonsligning, dvs. finne type sammenheng mellom resultatindikatoren og uavhengige faktorer x 1 , x 2 , …, x n .

    vurdering av betydningen av den resulterende ligningen, dvs. bestemme hvor mye utvalgte faktoregenskaper forklarer variasjonen til en egenskap u.

Regresjonsanalyse brukes hovedsakelig til planlegging, samt for å utvikle et regelverk.

I motsetning til korrelasjonsanalyse, som kun svarer på spørsmålet om det er en sammenheng mellom de analyserte egenskapene, gir regresjonsanalyse også sitt formaliserte uttrykk. I tillegg, hvis korrelasjonsanalyse studerer noen sammenheng mellom faktorer, så studerer regresjonsanalyse ensidig avhengighet, dvs. et forhold som viser hvordan en endring i faktorkarakteristikker påvirker den effektive karakteristikken.

Regresjonsanalyse er en av de mest utviklede metodene for matematisk statistikk. For å implementere regresjonsanalyse er det strengt tatt nødvendig å oppfylle en rekke spesielle krav (spesielt, x l ,x 2 ,...,x n ;y må være uavhengige, normalfordelte stokastiske variabler med konstante varianser). I det virkelige liv er streng overholdelse av kravene til regresjon og korrelasjonsanalyse svært sjelden, men begge disse metodene er svært vanlige i økonomisk forskning. Avhengigheter i økonomi kan ikke bare være direkte, men også inverse og ikke-lineære. En regresjonsmodell kan bygges i nærvær av enhver avhengighet, men i multivariat analyse brukes bare lineære modeller av formen:

Regresjonsligningen er konstruert som regel ved å bruke minste kvadraters metode, hvis essens er å minimere summen av kvadrerte avvik av de faktiske verdiene til den resulterende karakteristikken fra dens beregnede verdier, dvs.:

Hvor T - antall observasjoner;

j =a+b 1 x 1 j +b 2 x 2 j + ... + b n X n j - beregnet verdi av resultatfaktoren.

Det anbefales å bestemme regresjonskoeffisienter ved hjelp av analytiske pakker for en personlig datamaskin eller en spesiell finansiell kalkulator. I det enkleste tilfellet, regresjonskoeffisientene til en en-faktor lineær regresjonsligning på formen y = a + bx kan bli funnet ved å bruke formlene:

Klyngeanalyse

Klyngeanalyse er en av metodene for flerdimensjonal analyse beregnet på å gruppere (klynge) en populasjon hvis elementer er preget av mange egenskaper. Verdiene til hver funksjon tjener som koordinatene til hver enhet av befolkningen som studeres i det flerdimensjonale rommet av funksjoner. Hver observasjon, preget av verdiene til flere indikatorer, kan representeres som et punkt i rommet til disse indikatorene, hvis verdier anses som koordinater i et flerdimensjonalt rom. Avstand mellom punktene R Og q Med k koordinater er definert som:

Hovedkriteriet for clustering er at forskjellene mellom klynger skal være mer signifikante enn mellom observasjoner tilordnet samme klynge, dvs. i et flerdimensjonalt rom må følgende ulikhet observeres:

Hvor r 1, 2 - avstand mellom klyngene 1 og 2.

Akkurat som prosedyrer for regresjonsanalyse, er klyngingsprosedyren ganske arbeidskrevende; det anbefales å utføre den på en datamaskin.

I statistisk modellering er regresjonsanalyse en studie som brukes til å evaluere sammenhengen mellom variabler. Denne matematiske metoden inkluderer mange andre metoder for å modellere og analysere flere variabler hvor fokus er på forholdet mellom en avhengig variabel og en eller flere uavhengige. Mer spesifikt hjelper regresjonsanalyse oss å forstå hvordan den typiske verdien av en avhengig variabel endres hvis en av de uavhengige variablene endres mens de andre uavhengige variablene forblir faste.

I alle tilfeller er målestimatet en funksjon av de uavhengige variablene og kalles en regresjonsfunksjon. I regresjonsanalyse er det også av interesse å karakterisere endringen i den avhengige variabelen som en funksjon av regresjon, som kan beskrives ved hjelp av en sannsynlighetsfordeling.

Problemer med regresjonsanalyse

Denne statistiske forskningsmetoden er mye brukt for prognoser, der bruken har betydelige fordeler, men noen ganger kan den føre til illusjon eller falske sammenhenger, så det anbefales å bruke den forsiktig i nevnte sak, siden for eksempel korrelasjon ikke betyr årsakssammenheng.

Det er utviklet et stort antall metoder for regresjonsanalyse, som lineær og ordinær minste kvadraters regresjon, som er parametriske. Essensen deres er at regresjonsfunksjonen er definert i form av et begrenset antall ukjente parametere som er estimert fra dataene. Ikke-parametrisk regresjon lar funksjonen ligge innenfor et spesifikt sett med funksjoner, som kan være uendelig dimensjonale.

Som en statistisk forskningsmetode avhenger regresjonsanalyse i praksis av formen på datagenereringsprosessen og hvordan den forholder seg til regresjonstilnærmingen. Siden den sanne formen for dataprosessen som genererer vanligvis er et ukjent tall, avhenger regresjonsanalyse av dataene ofte til en viss grad av antakelser om prosessen. Disse forutsetningene er noen ganger testbare hvis det er nok data tilgjengelig. Regresjonsmodeller er ofte nyttige selv når forutsetningene er moderat krenket, selv om de kanskje ikke gir maksimal effektivitet.

I en snevrere forstand kan regresjon referere spesifikt til estimering av kontinuerlige responsvariabler, i motsetning til de diskrete responsvariablene som brukes i klassifisering. Det kontinuerlige utgangsvariabeltilfellet kalles også metrisk regresjon for å skille det fra relaterte problemer.

Historie

Den tidligste formen for regresjon er den velkjente minste kvadraters metode. Den ble utgitt av Legendre i 1805 og Gauss i 1809. Legendre og Gauss brukte metoden på problemet med å bestemme ut fra astronomiske observasjoner banene til kropper rundt Solen (hovedsakelig kometer, men senere også nyoppdagede mindre planeter). Gauss publiserte en videreutvikling av minste kvadraters teori i 1821, inkludert en versjon av Gauss-Markov-teoremet.

Begrepet "regresjon" ble laget av Francis Galton på 1800-tallet for å beskrive et biologisk fenomen. Ideen var at høyden til etterkommere fra forfedrenes høyde har en tendens til å gå nedover mot det normale gjennomsnittet. For Galton hadde regresjon bare denne biologiske betydningen, men senere ble arbeidet hans videreført av Udney Yoley og Karl Pearson og brakt inn i en mer generell statistisk kontekst. I arbeidet til Yule og Pearson antas fellesfordelingen av respons- og forklaringsvariabler å være gaussisk. Denne antagelsen ble avvist av Fischer i artikler fra 1922 og 1925. Fisher foreslo at den betingede fordelingen av responsvariabelen er gaussisk, men fellesfordelingen trenger ikke være det. I denne forbindelse er Fischers forslag nærmere Gauss' formulering fra 1821. Før 1970 tok det noen ganger opptil 24 timer å få resultatet av en regresjonsanalyse.

Regresjonsanalysemetoder fortsetter å være et område for aktiv forskning. De siste tiårene er det utviklet nye metoder for robust regresjon; regresjoner som involverer korrelerte responser; regresjonsmetoder som imøtekommer ulike typer manglende data; ikke-parametrisk regresjon; Bayesianske regresjonsmetoder; regresjoner der prediktorvariabler måles med feil; regresjon med flere prediktorer enn observasjoner, og årsak-og-virkning inferens med regresjon.

Regresjonsmodeller

Regresjonsanalysemodeller inkluderer følgende variabler:

  • Ukjente parametere, betegnet beta, som kan være en skalar eller en vektor.
  • Uavhengige variabler, X.
  • Avhengige variabler, Y.

Ulike vitenskapsfelt der regresjonsanalyse brukes, bruker ulike termer i stedet for avhengige og uavhengige variabler, men i alle tilfeller relaterer regresjonsmodellen Y til en funksjon av X og β.

Tilnærmingen skrives vanligvis som E(Y | X) = F(X, β). For å utføre regresjonsanalyse må type funksjon f bestemmes. Mindre vanlig er det basert på kunnskap om forholdet mellom Y og X, som ikke er avhengig av data. Hvis slik kunnskap ikke er tilgjengelig, velges den fleksible eller praktiske formen F.

Avhengig variabel Y

La oss nå anta at vektoren med ukjente parametere β har lengde k. For å utføre regresjonsanalyse må brukeren gi informasjon om den avhengige variabelen Y:

  • Hvis N datapunkter av skjemaet (Y, X) blir observert, hvor N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Hvis nøyaktig N = K observeres og funksjonen F er lineær, kan ligningen Y = F(X, β) løses nøyaktig i stedet for omtrentlig. Dette tilsvarer å løse et sett med N-ligninger med N-ukjente (elementer β) som har en unik løsning så lenge X er lineært uavhengig. Hvis F er ikke-lineær, kan det hende at det ikke finnes noen løsning, eller det kan finnes mange løsninger.
  • Den vanligste situasjonen er hvor N > datapunkter blir observert. I dette tilfellet er det nok informasjon i dataene til å estimere en unik verdi for β som passer best til dataene, og en regresjonsmodell hvor applikasjonen til dataene kan sees på som et overbestemt system i β.

I sistnevnte tilfelle gir regresjonsanalyse verktøy for:

  • Å finne en løsning for de ukjente parameterne β, som for eksempel vil minimere avstanden mellom den målte og predikerte verdien til Y.
  • Under visse statistiske forutsetninger bruker regresjonsanalyse overflødig informasjon for å gi statistisk informasjon om de ukjente parameterne β og de predikerte verdiene til den avhengige variabelen Y.

Nødvendig antall uavhengige målinger

Tenk på en regresjonsmodell som har tre ukjente parametere: β 0 , β 1 og β 2 . Anta at eksperimentatoren gjør 10 målinger på samme verdi av den uavhengige variabelvektoren X. I dette tilfellet produserer ikke regresjonsanalyse et unikt sett med verdier. Det beste du kan gjøre er å estimere gjennomsnittet og standardavviket til den avhengige variabelen Y. På samme måte, ved å måle to forskjellige verdier av X, kan du få nok data for regresjon med to ukjente, men ikke med tre eller flere ukjente.

Hvis eksperimentørens målinger ble gjort ved tre forskjellige verdier av den uavhengige variabelvektoren X, vil regresjonsanalysen gi et unikt sett med estimater for de tre ukjente parameterne i β.

Ved generell lineær regresjon tilsvarer setningen ovenfor kravet om at matrisen X T X er inverterbar.

Statistiske forutsetninger

Når antallet målinger N er større enn antallet ukjente parametere k og målefeilene εi, så spres som regel overskuddsinformasjonen i målingene og brukes til statistiske prediksjoner angående de ukjente parameterne. Denne overflødige informasjonen kalles regresjonsgraden av frihet.

Grunnleggende forutsetninger

Klassiske antakelser for regresjonsanalyse inkluderer:

  • Sampling er representativt for inferensprediksjon.
  • Feilleddet er en tilfeldig variabel med et gjennomsnitt på null, som er betinget av forklaringsvariablene.
  • Uavhengige variabler måles uten feil.
  • Som uavhengige variabler (prediktorer) er de lineært uavhengige, det vil si at det ikke er mulig å uttrykke noen prediktor som en lineær kombinasjon av de andre.
  • Feilene er ukorrelerte, det vil si feilkovariansmatrisen til diagonalene og hvert ikke-nullelement er feilvariansen.
  • Feilvariansen er konstant på tvers av observasjoner (homoskedastisitet). Hvis ikke, kan vektede minste kvadrater eller andre metoder brukes.

Disse tilstrekkelige betingelsene for minste kvadraters estimering har de nødvendige egenskapene, spesielt betyr disse forutsetningene at parameterestimater vil være objektive, konsistente og effektive, spesielt når de tas i betraktning i klassen av lineære estimatorer. Det er viktig å merke seg at bevis sjelden tilfredsstiller betingelsene. Det vil si at metoden brukes selv om forutsetningene ikke stemmer. Variasjon fra forutsetningene kan noen ganger brukes som et mål på hvor nyttig modellen er. Mange av disse antakelsene kan lempes i mer avanserte metoder. Statistiske analyserapporter inkluderer typisk analyse av tester på prøvedata og metodikk for nytten av modellen.

I tillegg refererer variabler i noen tilfeller til verdier målt på punktplasseringer. Det kan være romlige trender og romlige autokorrelasjoner i variabler som bryter med statistiske forutsetninger. Geografisk vektet regresjon er den eneste metoden som håndterer slike data.

Et trekk ved lineær regresjon er at den avhengige variabelen, som er Yi, er en lineær kombinasjon av parametere. For eksempel bruker enkel lineær regresjon én uavhengig variabel, x i, og to parametere, β 0 og β 1, for å modellere n-punkter.

I multippel lineær regresjon er det flere uavhengige variabler eller funksjoner av dem.

Når et tilfeldig utvalg tas fra en populasjon, lar parameterne en få en lineær regresjonsmodell.

I dette aspektet er den mest populære metoden med minste kvadrater. Den brukes til å oppnå parameterestimater som minimerer summen av kvadrerte residualer. Denne typen minimering (som er typisk for lineær regresjon) av denne funksjonen fører til et sett med normale ligninger og et sett med lineære ligninger med parametere, som løses for å oppnå parameterestimater.

Under den videre forutsetningen at populasjonsfeil generelt spres, kan en forsker bruke disse standard feilestimatene til å lage konfidensintervaller og utføre hypotesetester om parameterne.

Ikke-lineær regresjonsanalyse

Et eksempel der funksjonen ikke er lineær med hensyn til parameterne indikerer at summen av kvadrater bør minimeres ved hjelp av en iterativ prosedyre. Dette introduserer mange komplikasjoner som definerer forskjellene mellom lineære og ikke-lineære minste kvadraters metoder. Følgelig er resultatene av regresjonsanalyse ved bruk av en ikke-lineær metode noen ganger uforutsigbare.

Beregning av effekt og prøvestørrelse

Det er generelt ingen konsistente metoder når det gjelder antall observasjoner kontra antall uavhengige variabler i modellen. Den første regelen ble foreslått av Dobra og Hardin og ser ut som N = t^n, der N er utvalgsstørrelsen, n er antall uavhengige variabler, og t er antall observasjoner som trengs for å oppnå ønsket nøyaktighet hvis modellen hadde bare én uavhengig variabel. For eksempel bygger en forsker en lineær regresjonsmodell ved hjelp av et datasett som inneholder 1000 pasienter (N). Hvis forskeren bestemmer at fem observasjoner er nødvendig for å nøyaktig definere linjen (m), er det maksimale antallet uavhengige variabler som modellen kan støtte 4.

Andre metoder

Selv om regresjonsmodellparametere vanligvis estimeres ved bruk av minste kvadraters metode, er det andre metoder som brukes mye sjeldnere. Dette er for eksempel følgende metoder:

  • Bayesianske metoder (for eksempel Bayesiansk lineær regresjon).
  • Prosentvis regresjon, brukt for situasjoner der reduksjon av prosentvise feil anses som mer hensiktsmessig.
  • Minste absolutte avvik, som er mer robust i nærvær av uteliggere som fører til kvantilregresjon.
  • Ikke-parametrisk regresjon, som krever et stort antall observasjoner og beregninger.
  • En fjernundervisningsberegning som læres for å finne en meningsfull avstandsberegning i et gitt inndatarom.

Programvare

Alle større statistiske programvarepakker utfører minste kvadraters regresjonsanalyse. Enkel lineær regresjon og multippel regresjonsanalyse kan brukes i enkelte regnearkapplikasjoner så vel som noen kalkulatorer. Selv om mange statistiske programvarepakker kan utføre ulike typer ikke-parametrisk og robust regresjon, er disse metodene mindre standardiserte; forskjellige programvarepakker implementerer forskjellige metoder. Spesialisert regresjonsprogramvare er utviklet for bruk innen områder som undersøkelsesanalyse og nevroimaging.