Mitmekordne lineaarne korrelatsioon. Kaks sõltumatut muutujat

Lineaarse regressiooni konstrueerimine, selle parameetrite ja nende olulisuse hindamine on Exceli analüüsipaketi (Regression) kasutamisel teostatav palju kiiremini. Vaatleme saadud tulemuste tõlgendamist üldjuhul ( k selgitavad muutujad) vastavalt näitele 3.6.

Laual regressioonistatistika on antud järgmised väärtused:

Mitu R – mitmekordne korrelatsioonikordaja;

R- ruut– määramiskoefitsient R 2 ;

Normaliseeritud R - ruut- kohandatud R 2 vabadusastmete arvu järgi kohandatud;

Standardviga– regressiooni standardviga S;

Tähelepanekud – vaatluste arv n.

Laual Dispersioonanalüüs on antud:

1. Veerg df - vabadusastmete arv, mis on võrdne

nööri jaoks Regressioon df = k;

nööri jaoks Ülejäänuddf = nk – 1;

nööri jaoks Kokkudf = n– 1.

2. Veerg SS – hälvete ruudu summa, mis on võrdne

nööri jaoks Regressioon ;

nööri jaoks Ülejäänud ;

nööri jaoks Kokku .

3. Veerg PRL valemiga määratud dispersioonid PRL = SS/df:

nööri jaoks Regressioon– tegurite hajutamine;

nööri jaoks Ülejäänud– jääkvariatsioon.

4. Veerg F - arvutatud väärtus F-kriteerium arvutatakse valemi abil

F = PRL(regressioon)/ PRL(ülejäänud).

5. Veerg Tähtsus F – arvutatule vastav olulisuse taseme väärtus F- statistika .

Tähtsus F= FDIST( F- statistika, df(regressioon), df(ülejäänud)).

Kui tähtsust F < стандартного уровня значимости, то R 2 on statistiliselt oluline.

Koefitsiendid Standardviga t-statistika P-väärtus Alumine 95% Top 95%
Y 65,92 11,74 5,61 0,00080 38,16 93,68
X 0,107 0,014 7,32 0,00016 0,0728 0,142

See tabel näitab:

1. Koefitsiendid– koefitsientide väärtused a, b.

2. Standardviga– regressioonikordajate standardvead S a, Sb.



3. t- statistika– arvutatud väärtused t - kriteeriumid arvutatakse valemiga:

t-statistika = koefitsiendid/standardviga.

4.R-väärtus (olulisus t) on arvutatud väärtusele vastav olulisuse taseme väärtus t- statistikat.

R-väärtus = STUDIDIST(t- statistika, df(ülejäänud)).

Kui R- tähendus< стандартного уровня значимости, то соответствующий коэффициент статистически значим.

5. Alumine 95% ja ülemine 95%– teoreetilise lineaarse regressiooni võrrandi koefitsientide 95% usaldusvahemiku alumine ja ülemine piir.

Ülejäänud osade TAGASIVÕTMINE
Vaatlus Ennustanud y Jäägid e
72,70 -29,70
82,91 -20,91
94,53 -4,53
105,72 5,27
117,56 12,44
129,70 19,29
144,22 20,77
166,49 24,50
268,13 -27,13

Laual Ülejäänud osade TAGASIVÕTMINE märgitud:

veerus Vaatlus– vaatlusnumber;

veerus Ennustati y – sõltuva muutuja arvutatud väärtused;

veerus Ülejäägid e – sõltuva muutuja vaadeldud ja arvutatud väärtuste erinevus.

Näide 3.6. Toidukulude kohta on andmed (kokkuleppelised ühikud). y ja sissetulek elaniku kohta xüheksale pererühmale:

x
y

Kasutades Exceli analüüsipaketi (Regression) tulemusi, analüüsime toidukulude sõltuvust sissetulekust elaniku kohta.

Regressioonanalüüsi tulemused kirjutatakse tavaliselt järgmisel kujul:

kus sulgudes on märgitud regressioonikordajate standardvead.

Regressioonikoefitsiendid A = 65,92 ja b= 0,107. vahelise suhtluse suund y Ja x määrab regressioonikordaja märgi b= 0,107, s.o. seos on otsene ja positiivne. Koefitsient b= 0,107 näitab, et sissetuleku elaniku kohta 1 võrra suurenedes tavapärane. ühikut toidukulud suurenevad 0,107 tavaühiku võrra. ühikut

Hindame saadud mudeli koefitsientide olulisust. Koefitsientide olulisus ( a, b) kontrollib t- test:

P-väärtus ( a) = 0,00080 < 0,01 < 0,05

P-väärtus ( b) = 0,00016 < 0,01 < 0,05,

seetõttu koefitsiendid ( a, b) on olulised 1% ja veelgi enam 5% olulisuse tasemel. Seega on regressioonikoefitsiendid olulised ja mudel on algandmetega adekvaatne.

Regressioonihinnangu tulemused ühilduvad mitte ainult regressioonikoefitsientide saadud väärtustega, vaid ka nende teatud komplektiga (usaldusvahemik). 95% tõenäosusega on koefitsientide usaldusvahemikud (38,16 – 93,68) a ja (0,0728 – 0,142) eest b.

Mudeli kvaliteeti hinnatakse determinatsioonikoefitsiendiga R 2 .

Suurusjärk R 2 = 0,884 tähendab, et sissetulekutegur elaniku kohta võib seletada 88,4% toidukulude kõikumist (hajumist).

Tähtsus R 2 on kontrollinud F- test: olulisus F = 0,00016 < 0,01 < 0,05, следовательно, R 2 on oluline 1% ja veelgi enam 5% olulisuse tasemel.

Paaripõhise lineaarse regressiooni korral saab korrelatsioonikordaja defineerida järgmiselt . Saadud korrelatsioonikordaja väärtus näitab, et seos toidukulude ja sissetulekute vahel inimese kohta on väga tihe.

Regressioonanalüüs on statistiline uurimismeetod, mis võimaldab näidata konkreetse parameetri sõltuvust ühest või mitmest sõltumatust muutujast. Arvutieelsel ajal oli selle kasutamine üsna keeruline, eriti kui tegemist oli suurte andmemahtudega. Täna, olles õppinud Excelis regressiooni koostama, saate keerukaid statistilisi probleeme lahendada vaid paari minutiga. Allpool on toodud konkreetsed näited majandusvaldkonnast.

Regressiooni tüübid

See mõiste ise võeti matemaatikas kasutusele 1886. aastal. Regressioon toimub:

  • lineaarne;
  • paraboolne;
  • rahusti;
  • eksponentsiaalne;
  • hüperboolne;
  • demonstratiivne;
  • logaritmiline.

Näide 1

Vaatleme probleemi, kuidas määrata lahkunud meeskonnaliikmete arvu sõltuvust 6 tööstusettevõtte keskmisest palgast.

Ülesanne. Kuues ettevõttes analüüsiti keskmist kuupalka ja omal soovil töölt lahkunud töötajate arvu. Tabeli kujul on meil:

Lõpetanud inimeste arv

Palk

30 000 rubla

35 000 rubla

40 000 rubla

45 000 rubla

50 000 rubla

55 000 rubla

60 000 rubla

Et määrata töölt lahkuvate töötajate arvu sõltuvust 6 ettevõtte keskmisest palgast, on regressioonimudelil võrrand Y = a 0 + a 1 x 1 +...+a k x k, kus x i on mõjutavad muutujad, a i on regressioonikoefitsiendid ja k tegurite arv.

Selle probleemi puhul on Y töötajatest lahkumise näitaja ja mõjuteguriks palk, mida tähistame X-ga.

Exceli tabeliprotsessori võimaluste kasutamine

Exceli regressioonianalüüsile peab eelnema sisseehitatud funktsioonide rakendamine olemasolevatele tabeliandmetele. Nendel eesmärkidel on siiski parem kasutada väga kasulikku lisandmoodulit "Analysis Pack". Selle aktiveerimiseks vajate:

  • minge vahekaardilt "Fail" jaotisesse "Valikud";
  • avanevas aknas valige rida "Lisandmoodulid";
  • klõpsake alloleval real "Haldamine" paremal asuval nupul "Mine";
  • märkige ruut nimetuse "Analüüsipakett" kõrval ja kinnitage oma tegevus, klõpsates "Ok".

Kui kõik on õigesti tehtud, ilmub Exceli töölehe kohal asuva vahekaardi "Andmed" paremale küljele vajalik nupp.

Excelis

Nüüd, kui meil on ökonomeetriliste arvutuste tegemiseks kõik vajalikud virtuaalsed tööriistad käepärast, saame hakata oma probleemi lahendama. Selle jaoks:

  • Klõpsake nuppu "Andmete analüüs";
  • avanevas aknas klõpsake nuppu "Regressioon";
  • Sisestage ilmuvale vahekaardile Y (töölt lahkuvate töötajate arv) ja X (nende palgad) väärtuste vahemik;
  • Kinnitame oma toimingud, vajutades nuppu "Ok".

Selle tulemusena täidab programm uue tabeli automaatselt regressioonanalüüsi andmetega. Märge! Excel võimaldab teil selleks eelistatud asukoha käsitsi määrata. Näiteks võib see olla sama leht, kus asuvad Y- ja X-väärtused, või isegi uus töövihik, mis on spetsiaalselt loodud selliste andmete salvestamiseks.

R-ruudu regressioonitulemuste analüüs

Excelis on vaadeldava näite andmete töötlemisel saadud andmed kujul:

Kõigepealt peaksite pöörama tähelepanu R-ruudu väärtusele. See tähistab määramiskoefitsienti. Selles näites on R-ruut = 0,755 (75,5%), st mudeli arvutatud parameetrid selgitavad vaadeldavate parameetrite vahelist seost 75,5%. Mida suurem on determinatsioonikoefitsiendi väärtus, seda sobivam on valitud mudel konkreetse ülesande jaoks. Seda peetakse tegelikku olukorda õigesti kirjeldavaks, kui R-ruudu väärtus on üle 0,8. Kui R-ruut<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Koefitsientide analüüs

Arv 64.1428 näitab, milline on Y väärtus, kui kõik meie vaadeldava mudeli muutujad xi nullitakse. Teisisõnu võib väita, et analüüsitava parameetri väärtust mõjutavad ka muud tegurid, mida konkreetses mudelis ei kirjeldata.

Järgmine koefitsient -0,16285, mis asub lahtris B18, näitab muutuja X mõju osakaalu Y-le. See tähendab, et töötajate keskmine kuupalk vaadeldava mudeli raames mõjutab loobujate arvu kaaluga -0,16285, s.o. selle mõju aste on täiesti väike. Märk "-" näitab, et koefitsient on negatiivne. See on ilmne, sest kõik teavad, et mida kõrgem on palk ettevõttes, seda vähem inimesi avaldab soovi tööleping lõpetada või töölt lahkuda.

Mitmekordne regressioon

See termin viitab suhtevõrrandile mitme sõltumatu muutujaga kujul:

y=f(x 1 +x 2 +…x m) + ε, kus y on resultanttunnus (sõltuv muutuja) ja x 1, x 2,…x m on faktorikarakteristikud (sõltumatud muutujad).

Parameetri hinnang

Mitmekordse regressiooni (MR) puhul kasutatakse vähimruutude meetodit (OLS). Lineaarvõrrandite kujul Y = a + b 1 x 1 +…+b m x m + ε konstrueerime normaalvõrrandite süsteemi (vt allpool)

Meetodi põhimõtte mõistmiseks kaaluge kahefaktorilist juhtumit. Siis on meil valemiga kirjeldatud olukord

Siit saame:

kus σ on indeksis kajastatud vastava tunnuse dispersioon.

OLS on rakendatav MR võrrandile standardskaalal. Sel juhul saame võrrandi:

milles t y, t x 1, … t xm on standardiseeritud muutujad, mille keskmised väärtused on 0; β i on standardsed regressioonikoefitsiendid ja standardhälve on 1.

Pange tähele, et kõik β i on antud juhul normaliseeritud ja tsentraliseeritud, seetõttu peetakse nende omavahelist võrdlemist õigeks ja vastuvõetavaks. Lisaks on tavaks tegurid välja sõeluda, jättes kõrvale need, mille βi väärtus on madalaim.

Probleem lineaarse regressiooni võrrandi kasutamisel

Oletame, et meil on konkreetse toote N hinnadünaamika tabel viimase 8 kuu jooksul. On vaja teha otsus selle partii ostmise otstarbekuse kohta hinnaga 1850 rubla / t.

kuu number

kuu nimi

toote hind N

1750 rubla tonni kohta

1755 rubla tonni kohta

1767 rubla tonni kohta

1760 rubla tonni kohta

1770 rubla tonni kohta

1790 rubla tonni kohta

1810 rubla tonni kohta

1840 rubla tonni kohta

Selle probleemi lahendamiseks Exceli tabeliprotsessoris peate kasutama tööriista "Andmeanalüüs", mis on juba tuntud ülaltoodud näitest. Järgmisena valige jaotis "Regressioon" ja määrake parameetrid. Tuleb meeles pidada, et väljale "Sisestusintervall Y" tuleb sisestada sõltuva muutuja väärtuste vahemik (antud juhul kaupade hinnad teatud aastakuudel) ja väljale "Sisestusvahemik X" - sõltumatu muutuja (kuu number). Kinnitage toiming, klõpsates "OK". Uuel lehel (kui nii on märgitud) saame andmed regressiooniks.

Nende abil konstrueerime lineaarvõrrandi kujul y=ax+b, kus parameetrid a ja b on kuu numbri nimetusega rea ​​koefitsiendid ning koefitsiendid ja sirged “Y-ristik” lehelt koos regressioonanalüüsi tulemused. Seega on ülesande 3 lineaarse regressiooni võrrand (LR) kirjutatud järgmiselt:

Toote hind N = 11.714* kuu number + 1727.54.

või algebralises tähistuses

y = 11,714 x + 1727,54

Tulemuste analüüs

Otsustamaks, kas saadud lineaarse regressiooni võrrand on adekvaatne, kasutatakse mitmekordse korrelatsiooni (MCC) ja määramise kordajaid, samuti Fisheri testi ja Studenti t-testi. Regressioonitulemustega Exceli tabelis nimetatakse neid vastavalt mitmekordseks R-iks, R-ruuduks, F-statistiks ja t-statistiks.

KMC R võimaldab hinnata sõltumatute ja sõltuvate muutujate vahelise tõenäosusliku seose lähedust. Selle kõrge väärtus näitab üsna tugevat seost muutujate “Kuu arv” ja “Toote N hind rublades 1 tonni kohta” vahel. Selle suhte olemus jääb aga teadmata.

Determinantkoefitsiendi R2 (RI) ruut on summaarse hajuvuse osakaalu arvnäitaja ja näitab hajumist, millise katseandmete osa, s.o. sõltuva muutuja väärtused vastavad lineaarse regressiooni võrrandile. Vaadeldava ülesande puhul on see väärtus 84,8%, st saadud SD kirjeldab statistilisi andmeid suure täpsusega.

F-statistikat, mida nimetatakse ka Fisheri testiks, kasutatakse lineaarse seose olulisuse hindamiseks, lükates ümber või kinnitades selle olemasolu hüpoteesi.

(Õpilase test) aitab hinnata koefitsiendi olulisust lineaarse seose tundmatu või vaba liikmega. Kui t-testi väärtus > tcr, siis hüpotees lineaarvõrrandi vaba liikme ebaolulisusest lükatakse ümber.

Vaadeldavas vabaliikme ülesandes saadi Exceli tööriistu kasutades, et t = 169,20903 ja p = 2,89E-12, st meil on null tõenäosus, et õige hüpotees vaba liikme ebaolulisusest lükatakse ümber. . Tundmatu koefitsiendi jaoks t=5,79405 ja p=0,001158. Teisisõnu, tõenäosus, et õige hüpotees tundmatu koefitsiendi ebaolulisuse kohta lükatakse ümber, on 0,12%.

Seega võib väita, et saadud lineaarse regressiooni võrrand on adekvaatne.

Aktsiapaketi ostmise otstarbekuse probleem

Excelis tehakse mitu regressiooni, kasutades sama andmeanalüüsi tööriista. Vaatleme konkreetset rakenduseprobleemi.

Ettevõtte NNN juhtkond peab otsustama MMM JSC 20% osaluse ostmise otstarbekuse üle. Paketi (SP) maksumus on 70 miljonit USA dollarit. NNN-i spetsialistid on kogunud andmeid sarnaste tehingute kohta. Aktsiapaketi väärtust otsustati hinnata selliste parameetrite järgi, väljendatuna miljonites USA dollarites:

  • võlgnevused (VK);
  • aasta käibe maht (VO);
  • saadaolevad arved (VD);
  • põhivara maksumus (COF).

Lisaks kasutatakse parameetrit ettevõtte palgavõlgnevus (V3 P) tuhandetes USA dollarites.

Lahendus Exceli tabeliprotsessori abil

Kõigepealt peate looma lähteandmete tabeli. See näeb välja selline:

  • avage aken "Andmete analüüs";
  • valige jaotis "Regressioon";
  • Sisestage väljale "Sisestusintervall Y" veerust G olevate sõltuvate muutujate väärtuste vahemik;
  • Klõpsake aknast "Sisestusintervall X" paremal asuval punase noolega ikooni ja tõstke esile kõigi väärtuste vahemik lehe veergudest B, C, D, F.

Märkige üksus "Uus tööleht" ja klõpsake "OK".

Hankige antud probleemi jaoks regressioonianalüüs.

Tulemuste uurimine ja järeldused

"Kogume" regressioonivõrrandi ülaltoodud Exceli tabelis esitatud ümardatud andmetest:

SP = 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

Tuntumal matemaatilisel kujul võib selle kirjutada järgmiselt:

y = 0,103 * x 1 + 0,541 * x 2 - 0,031 * x 3 + 0,405 * x 4 + 0,691 * x 5 - 265,844

MMM JSC andmed on esitatud tabelis:

Asendades need regressioonivõrrandisse, saame arvuks 64,72 miljonit USA dollarit. See tähendab, et MMM JSC aktsiaid ei tasu osta, kuna nende väärtus 70 miljonit USA dollarit on üsna paisutatud.

Nagu näha, võimaldas Exceli tabeli ja regressioonivõrrandi kasutamine teha teadliku otsuse väga konkreetse tehingu teostatavuse osas.

Nüüd teate, mis on regressioon. Eespool käsitletud Exceli näited aitavad teil lahendada ökonomeetria valdkonna praktilisi probleeme.

IN regressioonistatistika on näidatud mitmekordne korrelatsioonikordaja (mitmus R) ja sihikindlus (R-ruut) Y ja faktoriomaduste massiivi vahel (mis langeb kokku korrelatsioonianalüüsis varem saadud väärtustega)

Tabeli keskmine osa (dispersioonianalüüs) vajalik regressioonivõrrandi olulisuse testimiseks.

Tabeli alumine osa – täpne

üldiste regressioonikordajate bi lõpphinnangud bi, nende olulisuse testimine ja intervallhinnang.

Koefitsientide b vektori hinnang (veerg Koefitsiendid):

Siis on regressioonivõrrandi hinnang järgmine:

Vajalik on kontrollida regressioonivõrrandi olulisust ja sellest tulenevaid regressioonikordajaid.

Kontrollime regressioonivõrrandi olulisust tasemel b=0,05, s.o. hüpotees H0: в1=в2=в3=…=вk=0. Selleks arvutatakse F-statistika vaadeldav väärtus:

Excel näitab seda tulemustes dispersioonanalüüs:

QR=527.4296; Qost=1109.8673 =>

Veerus F väärtus on näidatud Fjälgitav.

F-jaotustabelitest või sisseehitatud statistilise funktsiooni abil FAVASTA lugeja n1=k=4 ja nimetaja n2=n-k-1=45 olulisuse taseme b=0,05 ja vabadusastmete arvu jaoks leiame F-statistika kriitilise väärtuse, mis on võrdne

Fcr = 2,578739184

Kuna F-statistika vaadeldav väärtus ületab selle kriitilist väärtust 8,1957 > 2,7587, lükatakse hüpotees koefitsientide vektori võrdsuse kohta kõrvale veatõenäosusega 0,05. Järelikult on vektori b=(b1,b2,b3,b4)T vähemalt üks element nullist oluliselt erinev.

Kontrollime regressioonivõrrandi üksikute koefitsientide olulisust, s.o. hüpotees .

Regressioonikordajate olulisuse testimine toimub olulisuse taseme t-statistika alusel.

t-statistika vaadeldud väärtused on näidatud veerus olevas tulemuste tabelis t- statistika.

Koefitsiendid (bi)

t-statistika (tob)

Y-ristmik

Muutuja X5

Muutuja X7

Muutuja X10

Muutuja X15

Neid tuleb võrrelda olulisuse taseme b=0,05 ja vabadusastmete arvuga n=n – k - 1 leitud kriitilise väärtusega tcr.

Selleks kasutame Exceli sisseehitatud statistilist funktsiooni STUDISPOBR, sisestades pakutud menüüsse tõenäosuse b = 0,05 ja vabadusastmete arvu n = n–k-1 = 50-4-1 = 45. (Tcr väärtused leiate matemaatilise statistika tabelitest.

Saame tcr = 2,014103359.

t-statistika vaadeldud väärtus on absoluutväärtuses väiksem kui kriitiline 2,0141>|-0,0872|, 2,0141>|0,2630|, 2,0141>|0,7300|, 2,0141>|-1,6629 |.

Järelikult ei lükata tagasi hüpoteesi, et need koefitsiendid on võrdsed nulliga, veatõenäosusega 0,05, s.t. vastavad koefitsiendid on ebaolulised.

Kui t-statistika vaadeldav väärtus on suurem kui kriitiline väärtus modulo |3,7658|>2,0141, siis hüpotees H0 lükatakse tagasi, s.o. - märkimisväärne

Regressioonikoefitsientide olulisust kontrollitakse ka saadud tabeli järgmiste veergudega:

Veerg lk- tähendus näitab mudeli parameetrite olulisust piiritasandil 5%, s.o. kui p≤0,05, siis loetakse vastav koefitsient oluliseks, kui p>0,05, siis ebaoluliseks.

Ja viimased veerud - madalam 95% Ja ülemine 95% Ja alumine 98% Ja top 98% - need on regressioonikoefitsientide intervallhinnangud kindla usaldusväärsuse tasemega r = 0,95 (alati väljastatud) ja r = 0,98 (väljastatakse vastava täiendava usaldusväärsuse määramisel).

Kui alumine ja ülemine piir on sama märgiga (null ei sisaldu usaldusvahemikus), siis loetakse vastav regressioonikordaja oluliseks, vastasel juhul ebaoluliseks

Nagu tabelist näha, koefitsiendi b3 puhul p-väärtus p=0,0005<0,05 и доверительные интервалы не включают ноль, т.е. по всем проверочным критериям этот коэффициент является значимым.

Astmelise regressioonianalüüsi algoritmi kohaselt, jättes välja ebaolulised regressorid, tuleb järgmises etapis jätta vaatlusest välja muutuja, millel on ebaoluline regressioonikordaja.

Juhul, kui regressioonihindamise käigus tuvastatakse mitu ebaolulist koefitsienti, jäetakse regressioonivõrrandist esimesena välja regressor, mille t-statistika () on absoluutväärtuses minimaalne. Selle põhimõtte kohaselt on järgmises etapis vaja välistada muutuja X5, millel on ebaoluline regressioonikoefitsient b2

REGRESSIOONALÜÜSI II ETAPP.

Mudel sisaldab tegurikarakteristikuid X7, X10, X15 ja välistab X5.

TULEMUSTE KOKKUVÕTE

Regressioonistatistika

Mitmus R

R-ruut

Normaliseeritud R-ruut

Standardviga

Tähelepanekud

Dispersioonanalüüs

(vabadusastmete arv n)

(kõrvalekallete ruudu summa Q)

(keskmine ruut MS = SS/n)

(Fobs = MSR/MSost)

Tähtsus F

Regressioon

Koefitsiendid

Standardviga

t-statistika

P-väärtus

Top 95% (bimax)

Madalam 98% (bimin)

Y-ristmik

Muutuja X7

Muutuja X10

Muutuja X15

Tänapäeval on lihtsast lineaarsest regressioonist ilmselt kuulnud kõik, kes vähegi andmekaeve vastu huvi tunnevad. Sellest on Habres juba kirjutatud ja Andrew Ng rääkis sellest üksikasjalikult ka oma kuulsas masinõppekursuses. Lineaarne regressioon on masinõppe üks põhilisi ja lihtsamaid meetodeid, kuid konstrueeritud mudeli kvaliteedi hindamise meetodeid mainitakse väga harva. Selles artiklis püüan seda tüütut väljajätmist R-keeles oleva funktsiooni summary.lm() tulemuste parsimise näitel veidi parandada. Samal ajal püüan esitada vajalikud valemid, seega kõik arvutused saab hõlpsasti programmeerida mis tahes muus keeles. See artikkel on mõeldud neile, kes on kuulnud, et lineaarset regressiooni saab ehitada, kuid pole kohanud statistilisi protseduure selle kvaliteedi hindamiseks.

Lineaarse regressiooni mudel

Niisiis, olgu siis mitu sõltumatut juhuslikku suurust X1, X2, ..., Xn (ennustajad) ja neist sõltuv väärtus Y (eeldatakse, et kõik vajalikud ennustajate teisendused on juba tehtud). Lisaks eeldame, et seos on lineaarne ja vead on normaalselt jaotunud, st

Kus I on n x n ruutmaatriks.

Seega on meil andmed, mis koosnevad suuruste Y ja Xi k vaatlusest ja me tahame hinnata koefitsiente. Standardmeetod koefitsientide hinnangute leidmiseks on vähimruutude meetod. Ja selle meetodi rakendamisel saadav analüütiline lahendus näeb välja järgmine:

Kus b kaanega - koefitsientide vektori hindamine, y on sõltuva muutuja väärtuste vektor ja X on maatriks suurusega k x n+1 (n on ennustajate arv, k on vaatluste arv), milles esimene veerg koosneb ühtedest, teine - esimese ennustaja, kolmanda - teise ja nii edasi väärtused ning olemasolevate vaatlustega kooskõlas olevad read.

Funktsioon summary.lm() ja saadud tulemuste hindamine

Vaatame nüüd näidet lineaarse regressioonimudeli loomisest R-s:
> raamatukogu(kaugel) > lm1<-lm(Species~Area+Elevation+Nearest+Scruz+Adjacent, data=gala) >summary(lm1) Call: lm(valem = Liigid ~ Pindala + Kõrgus + Lähim + Scruz + Kõrval, andmed = gala) Jäägid: Min 1Q Mediaan 3Q Max -111,679 -34,898 -7,862 33,460 182,584 St. Vea t väärtus Pr(>|t|) (Lõikepunkt) 7,068221 19,154198 0,369 0,715351 Pindala -0,023938 0,022422 -1,068 0,296318 Kõrgus 0,319,50658e *** Lähim 0,009144 1,054136 0,009 0,993151 Scruz -0,240524 0,215402 -1,117 0,275208 Kõrvuti -0,074805 0,017700 -4,226 0,000297 *** --- Signif. koodid: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' 1 Jääkstandardviga: 60,98 24 vabadusastmel Mitu R-ruutu: 0,7658, kohandatud R-ruut: 0-7171. statistika: 15,7 5 ja 24 DF kohta, p-väärtus: 6,838e-07
Tabel gala sisaldab mõningaid andmeid 30 Galapagose saare kohta. Vaatleme mudelit, kus Liigid – erinevate taimeliikide arv saarel sõltub lineaarselt mitmest teisest muutujast.

Vaatame funktsiooni summary.lm() väljundit.
Kõigepealt tuleb rida, mis tuletab meelde, kuidas mudel ehitati.
Seejärel tuleb info jääkide jaotuse kohta: miinimum, esimene kvartiil, mediaan, kolmas kvartiil, maksimum. Siinkohal oleks kasulik mitte ainult vaadelda mõningaid jääkide kvantiile, vaid ka testida nende normaalsust, näiteks Shapiro-Wilki testiga.
Järgmine - kõige huvitavam - teave koefitsientide kohta. Siin on vaja natuke teooriat.
Kõigepealt paneme kirja järgmise tulemuse:

piiriga sigma ruudus on tegeliku sigma ruudu erapooletu hinnang. Siin b on koefitsientide reaalvektor ja kaanega epsilon on jääkide vektor, kui võtta koefitsientideks vähimruutude meetodil saadud hinnangud. See tähendab, et eeldusel, et vead on normaalselt jaotatud, jaotub koefitsientide vektor ka reaalväärtuse ümber normaalselt ja selle dispersiooni saab hinnata erapooletult. See tähendab, et saate testida hüpoteesi koefitsientide nulliga võrdsuse kohta ja seetõttu kontrollida ennustajate olulisust, st seda, kas Xi väärtus mõjutab tõesti suuresti konstrueeritud mudeli kvaliteeti.
Selle hüpoteesi kontrollimiseks vajame järgmist statistikat, millel on Studenti jaotus, kui koefitsiendi bi tegelik väärtus on 0:

Kus
on koefitsiendi hinnangu standardviga ja t(k-n-1) on Studenti jaotus k-n-1 vabadusastmega.

Nüüd olete valmis jätkama faili summary.lm() väljundi sõelumist.
Järgnevalt on toodud vähimruutude meetodil saadud koefitsientide hinnangud, nende standardvead, t-statistika väärtused ja selle p-väärtused. Tavaliselt võrreldakse p-väärtust mõne üsna väikese eelvalitud lävega, näiteks 0,05 või 0,01. Ja kui p-statistiline väärtus osutub künnisest väiksemaks, siis hüpotees lükatakse tagasi, aga kui on rohkem, siis kahjuks midagi konkreetset öelda ei saa. Tuletan meelde, et sel juhul, kuna Studenti jaotus on sümmeetriline 0 suhtes, on p-väärtus võrdne 1-F(|t|)+F(-|t|), kus F on Studenti jaotuse funktsioon k-n-1 vabadusastmega . Samuti tähistab R kasulikult olulisi koefitsiente, mille p-väärtus on tärnidega piisavalt väike. See tähendab, et need koefitsiendid, mis väga väikese tõenäosusega on võrdsed 0-ga. Signifi real. koodid sisaldab tärnide dekodeerimist: kui neid on kolm, siis on p-väärtus 0 kuni 0,001, kui neid on kaks, siis on see 0,001 kuni 0,01 jne. Kui ikoone pole, on p-väärtus suurem kui 0,1.

Meie näites võime suure kindlusega väita, et ennustajad Elevation ja Adjacent mõjutavad liikide väärtust kõige tõenäolisemalt, kuid teiste ennustajate kohta ei saa midagi kindlat öelda. Tavaliselt eemaldatakse sellistel juhtudel ennustajad ükshaaval ja vaadatakse, kuidas muutuvad mudeli muud näitajad, näiteks BIC või Adjusted R-squared, millest räägitakse edasi.

Jääkstandardvea väärtus vastab lihtsalt sigma hinnangule koos ülemmääraga ja vabadusastmed arvutatakse kui k-n-1.

Ja nüüd kõige olulisem statistika, mida peaksite kõigepealt vaatama: R-ruut ja kohandatud R-ruut:

kus Yi on Y tegelikud väärtused igas vaatluses, Yi koos korgiga on mudeli ennustatud väärtused, Y koos ribaga on kõigi Yi tegelike väärtuste keskmine.

Alustame R-ruudu statistikast või, nagu seda mõnikord nimetatakse, määramiskoefitsiendist. See näitab, kui palju erineb mudeli tingimuslik dispersioon tegelike Y väärtuste dispersioonist Kui see koefitsient on 1 lähedal, siis on mudeli tingimuslik dispersioon üsna väike ja on väga tõenäoline, et mudel kirjeldab andmeid hästi. . Kui R-ruutkoefitsient on palju väiksem, näiteks väiksem kui 0,5, siis suure usaldusväärsusega ei kajasta mudel asjade tegelikku seisu.

R-ruudu statistikal on aga üks tõsine puudus: ennustajate arvu kasvades saab see statistika ainult kasvada. Seetõttu võib tunduda, et rohkemate ennustajatega mudel on parem kui vähemate ennustajatega mudel, isegi kui kõik uued ennustajad ei mõjuta sõltuvat muutujat. Siin saate meenutada Occami pardli põhimõtet. Seda järgides tasub võimalusel mudelis vabaneda tarbetutest ennustajatest, kuna see muutub lihtsamaks ja arusaadavamaks. Nendel eesmärkidel leiutati korrigeeritud R-ruudu statistika. See esindab tavalist R-ruutu, kuid paljude ennustajate eest on määratud karistus. Põhiidee: kui uued sõltumatud muutujad annavad suure panuse mudeli kvaliteeti, siis selle statistika väärtus suureneb, kui mitte, siis see vastupidi väheneb.

Näiteks kaaluge sama mudelit, mis varem, kuid nüüd jätame viie ennustaja asemel kaks:
> lm2<-lm(Species~Elevation+Adjacent, data=gala) >summary(lm2) Call: lm(valem = Liigid ~ Kõrgus + külgnev, andmed = gala) Jäägid: Min 1Q Mediaan 3Q Max -103,41 -34,33 -11,43 22,57 203,65 Koefitsiendid: Hinnang Std. Viga T Väärtus PR (> | T |) (Lõige ALLKIRJA, kui. koodid: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' 1 Jääkstandardviga: 60,86 27 vabadusastmel Mitu R-ruutu: 0,7376, kohandatud R-ruut: 0,718. statistika: 37,94 2 ja 27 DF kohta, p-väärtus: 1,434e-08
Nagu näete, on R-ruudu statistika väärtus vähenenud, kuid korrigeeritud R-ruudu väärtus on isegi veidi suurenenud.

Nüüd kontrollime hüpoteesi, et kõik ennustajate koefitsiendid on võrdsed nulliga. See tähendab, et hüpotees selle kohta, kas Y väärtus sõltub üldiselt Xi väärtustest lineaarselt. Selleks saate kasutada järgmist statistikat, mis juhul, kui hüpotees, et kõik koefitsiendid on võrdsed nulliga, on tõene, on


  1. Hinnake ehitatud mudeli kvaliteeti. Kas mudeli kvaliteet on võrreldes ühefaktorilise mudeliga paranenud? Hinnake oluliste tegurite mõju tulemusele elastsuskoefitsientide, - ja -koefitsientide abil.
Valitud mitme mudeli (6) kvaliteedi hindamiseks kasutame sarnaselt selle ülesande punktiga 1.4 määramiskoefitsienti R- ruut, keskmine suhteline lähendusviga ja F- Fisheri kriteerium.

Määramiskoefitsient R-ruut võetakse “Regressiooni” tulemustest (mudeli (6) tabel “Regressioonistatistika”).

Järelikult korteri hinna kõikumine (muutus). Y Selle võrrandi järgi on 76,77% seletatav piirkonna linna varieerumisega X 1 , tubade arv korteris X 2 ja elamispinda X 4 .

Kasutame algandmeid Y i ja regressioonitööriista leitud jäägid (tabel “Jäägi väljund” mudeli (6) jaoks). Arvutame suhtelised vead ja leiame keskmise väärtuse
.

Ülejäänud osade TAGASIVÕTMINE


Vaatlus

Ennustas Y

Ülejäägid

Rel. viga

1

45,95089273

-7,95089273

20,92340192

2

86,10296493

-23,90296493

38,42920407

3

94,84442678

30,15557322

24,12445858

4

84,17648426

-23,07648426

37,76838667

5

40,2537216

26,7462784

39,91981851

6

68,70572376

24,29427624

26,12287768

7

143,7464899

-25,7464899

21,81905923

8

106,0907598

25,90924022

19,62821228

9

135,357993

-42,85799303

46,33296544

10

114,4792566

-9,47925665

9,027863476

11

41,48765602

0,512343975

1,219866607

12

103,2329236

21,76707636

17,41366109

13

130,3567798

39,64322022

23,3195413

14

35,41901876

2,580981242

6,7920559

15

155,4129693

-24,91296925

19,0903979

16

84,32108188

0,678918123

0,798727204

17

98,0552279

-0,055227902

0,056355002

18

144,2104618

-16,21046182

12,66442329

19

122,8677535

-37,86775351

44,55029825

20

100,0221225

59,97787748

37,48617343

21

53,27196558

6,728034423

11,21339071

22

35,06605378

5,933946225

14,47303957

23

114,4792566

-24,47925665

27,19917406

24

113,1343153

-30,13431529

36,30640396

25

40,43190991

4,568090093

10,15131132

26

39,34427892

-0,344278918

0,882766457

27

144,4794501

-57,57945009

66,25943623

28

56,4827667

-16,4827667

41,20691675

29

95,38240332

-15,38240332

19,22800415

30

228,6988826

-1,698882564

0,748406416

31

222,8067278

12,19327221

5,188626473

32

38,81483144

1,185168555

2,962921389

33

48,36325811

18,63674189

27,81603267

34

126,6080021

-3,608002113

2,933335051

35

84,85052935

15,14947065

15,14947065

36

116,7991162

-11,79911625

11,23725357

37

84,17648426

-13,87648426

19,73895342

38

113,9412801

-31,94128011

38,95278062

39

215,494184

64,50581599

23,03779142

40

141,7795953

58,22040472

29,11020236

Keskmine

101,2375

22,51770962

Kasutades suhteliste vigade veergu, leiame keskmise väärtuse =22.51% (kasutades funktsiooni AVERAGE).

Võrdlusest selgub, et 22,51%>7%. Järelikult on mudeli täpsus ebarahuldav.

Kasutades F – Fisheri kriteerium Kontrollime mudeli kui terviku olulisust. Selleks paneme kirja “Regressiooni” tööriista kasutamise tulemused (mudeli (6) dispersioonanalüüsi tabel) F= 39,6702.

Funktsiooni FRIST abil leiame väärtuse F kr =3.252 olulisuse taseme jaoks α = 5% ja vabadusastmete arvud k 1 = 2 , k 2 = 37 .

F> F kr Seetõttu on mudeli (6) võrrand oluline, selle kasutamine on soovitatav, sõltuv muutuja Y on mudelis (6) sisalduvate faktorimuutujate poolt üsna hästi kirjeldatud X 1 , X 2. Ja X 4 .

Lisaks kasutades t – Üliõpilaste t test Kontrollime mudeli üksikute koefitsientide olulisust.

t– Regressioonivõrrandi kordajate statistika on toodud “Regressiooni” tööriista tulemustes. Valitud mudeli jaoks saadi järgmised väärtused (6):


Koefitsiendid

Standardviga

t-statistika

P-väärtus

Alumine 95%

Top 95%

Alumine 95,0%

Top 95,0%

Y-ristmik

-5,643572321

12,07285417

-0,46745966

0,642988

-30,1285

18,84131

-30,1285

18,84131

X4

2,591405557

0,461440597

5,61590284

2.27E-06

1,655561

3,52725

1,655561

3,52725

X1

6,85963077

9,185748512

0,74676884

0,460053

-11,7699

25,48919

-11,7699

25,48919

X2

-1,985156991

7,795346067

-0,25465925

0,800435

-17,7949

13,82454

-17,7949

13,82454

Kriitiline väärtus t kr leitud olulisuse taseme jaoks α=5% ja vabadusastmete arv k=40–2–1=37 . t kr =2.026 (STUDAR funktsioon).

Tasuta koefitsientide jaoks α =–5.643 statistika määratletud
, t kr Seetõttu ei ole vaba koefitsient oluline ja selle võib mudelist välja jätta.

Regressioonikordaja jaoks β 1 =6.859 statistika määratletud
, β 1 ei ole oluline, võib selle ja piirkondliku linnateguri mudelist eemaldada.

Regressioonikordaja jaoks β 2 =-1,985 statistika määratletud
, t kr, seega regressioonikordaja β 2 ei ole oluline, võib selle ja korteri tubade arvu teguri mudelist välja jätta.

Regressioonikordaja jaoks β 4 =2.591 statistika määratletud
, >t cr, seega regressioonikordaja β 4 on märkimisväärne, saab selle ja korteri elamispinna teguri mudelis säilitada.

Järeldused mudeli koefitsientide olulisuse kohta tehakse olulisuse tasemel α=5%. P-väärtuse veergu vaadates märgime, et vaba koefitsient α võib pidada oluliseks tasemel 0,64 = 64%; regressioonikoefitsient β 1 – tasemel 0,46 = 46%; regressioonikoefitsient β 2 – tasemel 0,8 = 80%; ja regressioonikordaja β 4 – tasemel 2,27E-06= 2,26691790951854E-06 = 0,0000002%.

Kui võrrandisse lisatakse uued faktorimuutujad, suureneb määramistegur automaatselt R 2 ja keskmine lähendusviga väheneb, kuigi mudeli kvaliteet alati ei parane. Seetõttu kasutame mudeli (3) ja valitud mitmikmudeli (6) kvaliteedi võrdlemiseks normaliseeritud määramiskoefitsiente.

Seega, kui lisada regressioonivõrrandisse tegur “piirkonna linn”. X 1 ja tegur “tubade arv korteris” X 2 mudeli kvaliteet on halvenenud, mis räägib tegurite eemaldamise kasuks X 1 ja X 2 mudelist.

Teeme täiendavaid arvutusi.

Keskmised elastsuskoefitsiendid lineaarse mudeli korral määratakse valemitega
.

Funktsiooni AVERAGE abil leiame: S Y, ainult teguri suurenemisega X 4 ühe standardhälbe võrra – suureneb 0,914 võrra S Y

Delta koefitsiendid määratakse valemitega
.

Leiame paaride korrelatsioonikordajad Excelis paketi "Andmeanalüüs" tööriista "Korrelatsioon" abil.


Y

X1

X2

X4

Y

1

X1

-0,01126

1

X2

0,751061

-0,0341

1

X4

0,874012

-0,0798

0,868524

1

Determinatsioonikoefitsient määrati varem ja see on 0,7677.

Arvutame delta koefitsiendid:

;

Alates Δ 1 1 Ja X 2 valesti valitud ja need tuleb mudelist eemaldada. See tähendab, et vastavalt saadud lineaarse kolme teguri mudeli võrrandile on saadud teguri muutus Y(korterihinnad) on 104% seletatav teguri mõjuga X 4 (korteri elamispind), teguri mõjul 4%. X 2 (tubade arv), 0,0859% võrra mõjutatuna faktorist X 1 (piirkonna linn).