Mitmekordne lineaarne korrelatsioon. Kaks sõltumatut muutujat

Lineaarse regressiooni konstrueerimine, selle parameetrite ja nende olulisuse hindamine on Exceli analüüsipaketi (Regression) kasutamisel teostatav palju kiiremini. Vaatleme saadud tulemuste tõlgendamist üldjuhul ( k selgitavad muutujad) vastavalt näitele 3.6.

Laual regressioonistatistika on antud järgmised väärtused:

Mitu R – mitmekordne korrelatsioonikordaja;

R- ruut– määramiskoefitsient R 2 ;

Normaliseeritud R - ruut- kohandatud R 2 vabadusastmete arvu järgi kohandatud;

Standardviga– regressiooni standardviga S;

Tähelepanekud – vaatluste arv n.

Laual Dispersioonanalüüs on antud:

1. Veerg df - vabadusastmete arv, mis on võrdne

nööri jaoks Regressioon df = k;

nööri jaoks Ülejäänuddf = n – k – 1;

nööri jaoks Kokkudf = n– 1.

2. Veerg SS – hälvete ruudu summa, mis on võrdne

nööri jaoks Regressioon ;

nööri jaoks Ülejäänud ;

nööri jaoks Kokku .

3. Veerg PRL valemiga määratud dispersioonid PRL = SS/df:

nööri jaoks Regressioon– tegurite hajutamine;

nööri jaoks Ülejäänud– jääkvariatsioon.

4. Veerg F - arvutatud väärtus F-kriteerium arvutatakse valemi abil

F = PRL(regressioon)/ PRL(ülejäänud).

5. Veerg Tähtsus F – arvutatule vastav olulisuse taseme väärtus F- statistika .

Tähtsus F= FDIST( F- statistika, df(regressioon), df(ülejäänud)).

Kui tähtsust F < стандартного уровня значимости, то R 2 on statistiliselt oluline.

	Koefitsiendid	Standardviga	t-statistika	P-väärtus	Alumine 95%	Top 95%
Y	65,92	11,74	5,61	0,00080	38,16	93,68
X	0,107	0,014	7,32	0,00016	0,0728	0,142

See tabel näitab:

1. Koefitsiendid– koefitsientide väärtused a, b.

2. Standardviga– regressioonikordajate standardvead S a, Sb.

3. t- statistika– arvutatud väärtused t - kriteeriumid arvutatakse valemiga:

t-statistika = koefitsiendid/standardviga.

4.R-väärtus (olulisus t) on arvutatud väärtusele vastav olulisuse taseme väärtus t- statistikat.

R-väärtus = STUDIDIST(t- statistika, df(ülejäänud)).

Kui R- tähendus< стандартного уровня значимости, то соответствующий коэффициент статистически значим.

5. Alumine 95% ja ülemine 95%– teoreetilise lineaarse regressiooni võrrandi koefitsientide 95% usaldusvahemiku alumine ja ülemine piir.

Ülejäänud osade TAGASIVÕTMINE
Vaatlus	Ennustanud y	Jäägid e
	72,70	-29,70
	82,91	-20,91
	94,53	-4,53
	105,72	5,27
	117,56	12,44
	129,70	19,29
	144,22	20,77
	166,49	24,50
	268,13	-27,13

Laual Ülejäänud osade TAGASIVÕTMINE märgitud:

veerus Vaatlus– vaatlusnumber;

veerus Ennustati y – sõltuva muutuja arvutatud väärtused;

veerus Ülejäägid e – sõltuva muutuja vaadeldud ja arvutatud väärtuste erinevus.

Näide 3.6. Toidukulude kohta on andmed (kokkuleppelised ühikud). y ja sissetulek elaniku kohta xüheksale pererühmale:

x
y

Kasutades Exceli analüüsipaketi (Regression) tulemusi, analüüsime toidukulude sõltuvust sissetulekust elaniku kohta.

Regressioonanalüüsi tulemused kirjutatakse tavaliselt järgmisel kujul:

kus sulgudes on märgitud regressioonikordajate standardvead.

Regressioonikoefitsiendid A = 65,92 ja b= 0,107. vahelise suhtluse suund y Ja x määrab regressioonikordaja märgi b= 0,107, s.o. seos on otsene ja positiivne. Koefitsient b= 0,107 näitab, et sissetuleku elaniku kohta 1 võrra suurenedes tavapärane. ühikut toidukulud suurenevad 0,107 tavaühiku võrra. ühikut

Hindame saadud mudeli koefitsientide olulisust. Koefitsientide olulisus ( a, b) kontrollib t- test:

P-väärtus ( a) = 0,00080 < 0,01 < 0,05

P-väärtus ( b) = 0,00016 < 0,01 < 0,05,

seetõttu koefitsiendid ( a, b) on olulised 1% ja veelgi enam 5% olulisuse tasemel. Seega on regressioonikoefitsiendid olulised ja mudel on algandmetega adekvaatne.

Regressioonihinnangu tulemused ühilduvad mitte ainult regressioonikoefitsientide saadud väärtustega, vaid ka nende teatud komplektiga (usaldusvahemik). 95% tõenäosusega on koefitsientide usaldusvahemikud (38,16 – 93,68) a ja (0,0728 – 0,142) eest b.

Mudeli kvaliteeti hinnatakse determinatsioonikoefitsiendiga R 2 .

Suurusjärk R 2 = 0,884 tähendab, et sissetulekutegur elaniku kohta võib seletada 88,4% toidukulude kõikumist (hajumist).

Tähtsus R 2 on kontrollinud F- test: olulisus F = 0,00016 < 0,01 < 0,05, следовательно, R 2 on oluline 1% ja veelgi enam 5% olulisuse tasemel.

Paaripõhise lineaarse regressiooni korral saab korrelatsioonikordaja defineerida järgmiselt . Saadud korrelatsioonikordaja väärtus näitab, et seos toidukulude ja sissetulekute vahel inimese kohta on väga tihe.

Regressioonanalüüs on statistiline uurimismeetod, mis võimaldab näidata konkreetse parameetri sõltuvust ühest või mitmest sõltumatust muutujast. Arvutieelsel ajal oli selle kasutamine üsna keeruline, eriti kui tegemist oli suurte andmemahtudega. Täna, olles õppinud Excelis regressiooni koostama, saate keerukaid statistilisi probleeme lahendada vaid paari minutiga. Allpool on toodud konkreetsed näited majandusvaldkonnast.

Regressiooni tüübid

See mõiste ise võeti matemaatikas kasutusele 1886. aastal. Regressioon toimub:

lineaarne;
paraboolne;
rahusti;
eksponentsiaalne;
hüperboolne;
demonstratiivne;
logaritmiline.

Näide 1

Vaatleme probleemi, kuidas määrata lahkunud meeskonnaliikmete arvu sõltuvust 6 tööstusettevõtte keskmisest palgast.

Ülesanne. Kuues ettevõttes analüüsiti keskmist kuupalka ja omal soovil töölt lahkunud töötajate arvu. Tabeli kujul on meil:


		Lõpetanud inimeste arv	Palk
			30 000 rubla
			35 000 rubla
			40 000 rubla
			45 000 rubla
			50 000 rubla
			55 000 rubla
			60 000 rubla

Et määrata töölt lahkuvate töötajate arvu sõltuvust 6 ettevõtte keskmisest palgast, on regressioonimudelil võrrand Y = a 0 + a 1 x 1 +...+a k x k, kus x i on mõjutavad muutujad, a i on regressioonikoefitsiendid ja k tegurite arv.

Selle probleemi puhul on Y töötajatest lahkumise näitaja ja mõjuteguriks palk, mida tähistame X-ga.

Exceli tabeliprotsessori võimaluste kasutamine

Exceli regressioonianalüüsile peab eelnema sisseehitatud funktsioonide rakendamine olemasolevatele tabeliandmetele. Nendel eesmärkidel on siiski parem kasutada väga kasulikku lisandmoodulit "Analysis Pack". Selle aktiveerimiseks vajate:

minge vahekaardilt "Fail" jaotisesse "Valikud";
avanevas aknas valige rida "Lisandmoodulid";
klõpsake alloleval real "Haldamine" paremal asuval nupul "Mine";
märkige ruut nimetuse "Analüüsipakett" kõrval ja kinnitage oma tegevus, klõpsates "Ok".

Kui kõik on õigesti tehtud, ilmub Exceli töölehe kohal asuva vahekaardi "Andmed" paremale küljele vajalik nupp.

Excelis

Nüüd, kui meil on ökonomeetriliste arvutuste tegemiseks kõik vajalikud virtuaalsed tööriistad käepärast, saame hakata oma probleemi lahendama. Selle jaoks:

Klõpsake nuppu "Andmete analüüs";
avanevas aknas klõpsake nuppu "Regressioon";
Sisestage ilmuvale vahekaardile Y (töölt lahkuvate töötajate arv) ja X (nende palgad) väärtuste vahemik;
Kinnitame oma toimingud, vajutades nuppu "Ok".

Selle tulemusena täidab programm uue tabeli automaatselt regressioonanalüüsi andmetega. Märge! Excel võimaldab teil selleks eelistatud asukoha käsitsi määrata. Näiteks võib see olla sama leht, kus asuvad Y- ja X-väärtused, või isegi uus töövihik, mis on spetsiaalselt loodud selliste andmete salvestamiseks.

R-ruudu regressioonitulemuste analüüs

Excelis on vaadeldava näite andmete töötlemisel saadud andmed kujul:

Kõigepealt peaksite pöörama tähelepanu R-ruudu väärtusele. See tähistab määramiskoefitsienti. Selles näites on R-ruut = 0,755 (75,5%), st mudeli arvutatud parameetrid selgitavad vaadeldavate parameetrite vahelist seost 75,5%. Mida suurem on determinatsioonikoefitsiendi väärtus, seda sobivam on valitud mudel konkreetse ülesande jaoks. Seda peetakse tegelikku olukorda õigesti kirjeldavaks, kui R-ruudu väärtus on üle 0,8. Kui R-ruut<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Koefitsientide analüüs

Arv 64.1428 näitab, milline on Y väärtus, kui kõik meie vaadeldava mudeli muutujad xi nullitakse. Teisisõnu võib väita, et analüüsitava parameetri väärtust mõjutavad ka muud tegurid, mida konkreetses mudelis ei kirjeldata.

Järgmine koefitsient -0,16285, mis asub lahtris B18, näitab muutuja X mõju osakaalu Y-le. See tähendab, et töötajate keskmine kuupalk vaadeldava mudeli raames mõjutab loobujate arvu kaaluga -0,16285, s.o. selle mõju aste on täiesti väike. Märk "-" näitab, et koefitsient on negatiivne. See on ilmne, sest kõik teavad, et mida kõrgem on palk ettevõttes, seda vähem inimesi avaldab soovi tööleping lõpetada või töölt lahkuda.

Mitmekordne regressioon

See termin viitab suhtevõrrandile mitme sõltumatu muutujaga kujul:

y=f(x 1 +x 2 +…x m) + ε, kus y on resultanttunnus (sõltuv muutuja) ja x 1, x 2,…x m on faktorikarakteristikud (sõltumatud muutujad).

Parameetri hinnang

Mitmekordse regressiooni (MR) puhul kasutatakse vähimruutude meetodit (OLS). Lineaarvõrrandite kujul Y = a + b 1 x 1 +…+b m x m + ε konstrueerime normaalvõrrandite süsteemi (vt allpool)

Meetodi põhimõtte mõistmiseks kaaluge kahefaktorilist juhtumit. Siis on meil valemiga kirjeldatud olukord

Siit saame:

kus σ on indeksis kajastatud vastava tunnuse dispersioon.

OLS on rakendatav MR võrrandile standardskaalal. Sel juhul saame võrrandi:

milles t y, t x 1, … t xm on standardiseeritud muutujad, mille keskmised väärtused on 0; β i on standardsed regressioonikoefitsiendid ja standardhälve on 1.

Pange tähele, et kõik β i on antud juhul normaliseeritud ja tsentraliseeritud, seetõttu peetakse nende omavahelist võrdlemist õigeks ja vastuvõetavaks. Lisaks on tavaks tegurid välja sõeluda, jättes kõrvale need, mille βi väärtus on madalaim.

Probleem lineaarse regressiooni võrrandi kasutamisel

Oletame, et meil on konkreetse toote N hinnadünaamika tabel viimase 8 kuu jooksul. On vaja teha otsus selle partii ostmise otstarbekuse kohta hinnaga 1850 rubla / t.


kuu number	kuu nimi	toote hind N
		1750 rubla tonni kohta
		1755 rubla tonni kohta
		1767 rubla tonni kohta
		1760 rubla tonni kohta
		1770 rubla tonni kohta
		1790 rubla tonni kohta
		1810 rubla tonni kohta
		1840 rubla tonni kohta

Selle probleemi lahendamiseks Exceli tabeliprotsessoris peate kasutama tööriista "Andmeanalüüs", mis on juba tuntud ülaltoodud näitest. Järgmisena valige jaotis "Regressioon" ja määrake parameetrid. Tuleb meeles pidada, et väljale "Sisestusintervall Y" tuleb sisestada sõltuva muutuja väärtuste vahemik (antud juhul kaupade hinnad teatud aastakuudel) ja väljale "Sisestusvahemik X" - sõltumatu muutuja (kuu number). Kinnitage toiming, klõpsates "OK". Uuel lehel (kui nii on märgitud) saame andmed regressiooniks.

Nende abil konstrueerime lineaarvõrrandi kujul y=ax+b, kus parameetrid a ja b on kuu numbri nimetusega rea koefitsiendid ning koefitsiendid ja sirged “Y-ristik” lehelt koos regressioonanalüüsi tulemused. Seega on ülesande 3 lineaarse regressiooni võrrand (LR) kirjutatud järgmiselt:

Toote hind N = 11.714* kuu number + 1727.54.

või algebralises tähistuses

y = 11,714 x + 1727,54

Tulemuste analüüs

Otsustamaks, kas saadud lineaarse regressiooni võrrand on adekvaatne, kasutatakse mitmekordse korrelatsiooni (MCC) ja määramise kordajaid, samuti Fisheri testi ja Studenti t-testi. Regressioonitulemustega Exceli tabelis nimetatakse neid vastavalt mitmekordseks R-iks, R-ruuduks, F-statistiks ja t-statistiks.

KMC R võimaldab hinnata sõltumatute ja sõltuvate muutujate vahelise tõenäosusliku seose lähedust. Selle kõrge väärtus näitab üsna tugevat seost muutujate “Kuu arv” ja “Toote N hind rublades 1 tonni kohta” vahel. Selle suhte olemus jääb aga teadmata.

Determinantkoefitsiendi R2 (RI) ruut on summaarse hajuvuse osakaalu arvnäitaja ja näitab hajumist, millise katseandmete osa, s.o. sõltuva muutuja väärtused vastavad lineaarse regressiooni võrrandile. Vaadeldava ülesande puhul on see väärtus 84,8%, st saadud SD kirjeldab statistilisi andmeid suure täpsusega.

F-statistikat, mida nimetatakse ka Fisheri testiks, kasutatakse lineaarse seose olulisuse hindamiseks, lükates ümber või kinnitades selle olemasolu hüpoteesi.

(Õpilase test) aitab hinnata koefitsiendi olulisust lineaarse seose tundmatu või vaba liikmega. Kui t-testi väärtus > tcr, siis hüpotees lineaarvõrrandi vaba liikme ebaolulisusest lükatakse ümber.

Vaadeldavas vabaliikme ülesandes saadi Exceli tööriistu kasutades, et t = 169,20903 ja p = 2,89E-12, st meil on null tõenäosus, et õige hüpotees vaba liikme ebaolulisusest lükatakse ümber. . Tundmatu koefitsiendi jaoks t=5,79405 ja p=0,001158. Teisisõnu, tõenäosus, et õige hüpotees tundmatu koefitsiendi ebaolulisuse kohta lükatakse ümber, on 0,12%.

Seega võib väita, et saadud lineaarse regressiooni võrrand on adekvaatne.

Aktsiapaketi ostmise otstarbekuse probleem

Excelis tehakse mitu regressiooni, kasutades sama andmeanalüüsi tööriista. Vaatleme konkreetset rakenduseprobleemi.

Ettevõtte NNN juhtkond peab otsustama MMM JSC 20% osaluse ostmise otstarbekuse üle. Paketi (SP) maksumus on 70 miljonit USA dollarit. NNN-i spetsialistid on kogunud andmeid sarnaste tehingute kohta. Aktsiapaketi väärtust otsustati hinnata selliste parameetrite järgi, väljendatuna miljonites USA dollarites:

võlgnevused (VK);
aasta käibe maht (VO);
saadaolevad arved (VD);
põhivara maksumus (COF).

Lisaks kasutatakse parameetrit ettevõtte palgavõlgnevus (V3 P) tuhandetes USA dollarites.

Lahendus Exceli tabeliprotsessori abil

Kõigepealt peate looma lähteandmete tabeli. See näeb välja selline:

avage aken "Andmete analüüs";
valige jaotis "Regressioon";
Sisestage väljale "Sisestusintervall Y" veerust G olevate sõltuvate muutujate väärtuste vahemik;
Klõpsake aknast "Sisestusintervall X" paremal asuval punase noolega ikooni ja tõstke esile kõigi väärtuste vahemik lehe veergudest B, C, D, F.

Märkige üksus "Uus tööleht" ja klõpsake "OK".

Hankige antud probleemi jaoks regressioonianalüüs.

Tulemuste uurimine ja järeldused

"Kogume" regressioonivõrrandi ülaltoodud Exceli tabelis esitatud ümardatud andmetest:

SP = 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

Tuntumal matemaatilisel kujul võib selle kirjutada järgmiselt:

y = 0,103 * x 1 + 0,541 * x 2 - 0,031 * x 3 + 0,405 * x 4 + 0,691 * x 5 - 265,844

MMM JSC andmed on esitatud tabelis:

Asendades need regressioonivõrrandisse, saame arvuks 64,72 miljonit USA dollarit. See tähendab, et MMM JSC aktsiaid ei tasu osta, kuna nende väärtus 70 miljonit USA dollarit on üsna paisutatud.

Nagu näha, võimaldas Exceli tabeli ja regressioonivõrrandi kasutamine teha teadliku otsuse väga konkreetse tehingu teostatavuse osas.

Nüüd teate, mis on regressioon. Eespool käsitletud Exceli näited aitavad teil lahendada ökonomeetria valdkonna praktilisi probleeme.

IN regressioonistatistika on näidatud mitmekordne korrelatsioonikordaja (mitmus R) ja sihikindlus (R-ruut) Y ja faktoriomaduste massiivi vahel (mis langeb kokku korrelatsioonianalüüsis varem saadud väärtustega)

Tabeli keskmine osa (dispersioonianalüüs) vajalik regressioonivõrrandi olulisuse testimiseks.

Tabeli alumine osa – täpne

üldiste regressioonikordajate bi lõpphinnangud bi, nende olulisuse testimine ja intervallhinnang.

Koefitsientide b vektori hinnang (veerg Koefitsiendid):

Siis on regressioonivõrrandi hinnang järgmine:

Vajalik on kontrollida regressioonivõrrandi olulisust ja sellest tulenevaid regressioonikordajaid.

Kontrollime regressioonivõrrandi olulisust tasemel b=0,05, s.o. hüpotees H0: в1=в2=в3=…=вk=0. Selleks arvutatakse F-statistika vaadeldav väärtus:

Excel näitab seda tulemustes dispersioonanalüüs:

QR=527.4296; Qost=1109.8673 =>

Veerus F väärtus on näidatud Fjälgitav.

F-jaotustabelitest või sisseehitatud statistilise funktsiooni abil FAVASTA lugeja n1=k=4 ja nimetaja n2=n-k-1=45 olulisuse taseme b=0,05 ja vabadusastmete arvu jaoks leiame F-statistika kriitilise väärtuse, mis on võrdne

Fcr = 2,578739184

Kuna F-statistika vaadeldav väärtus ületab selle kriitilist väärtust 8,1957 > 2,7587, lükatakse hüpotees koefitsientide vektori võrdsuse kohta kõrvale veatõenäosusega 0,05. Järelikult on vektori b=(b1,b2,b3,b4)T vähemalt üks element nullist oluliselt erinev.

Kontrollime regressioonivõrrandi üksikute koefitsientide olulisust, s.o. hüpotees .

Regressioonikordajate olulisuse testimine toimub olulisuse taseme t-statistika alusel.

t-statistika vaadeldud väärtused on näidatud veerus olevas tulemuste tabelis t- statistika.

	Koefitsiendid (bi)	t-statistika (tob)
Y-ristmik
Muutuja X5
Muutuja X7
Muutuja X10
Muutuja X15

Neid tuleb võrrelda olulisuse taseme b=0,05 ja vabadusastmete arvuga n=n – k - 1 leitud kriitilise väärtusega tcr.

Selleks kasutame Exceli sisseehitatud statistilist funktsiooni STUDISPOBR, sisestades pakutud menüüsse tõenäosuse b = 0,05 ja vabadusastmete arvu n = n–k-1 = 50-4-1 = 45. (Tcr väärtused leiate matemaatilise statistika tabelitest.

Saame tcr = 2,014103359.

t-statistika vaadeldud väärtus on absoluutväärtuses väiksem kui kriitiline 2,0141>|-0,0872|, 2,0141>|0,2630|, 2,0141>|0,7300|, 2,0141>|-1,6629 |.

Järelikult ei lükata tagasi hüpoteesi, et need koefitsiendid on võrdsed nulliga, veatõenäosusega 0,05, s.t. vastavad koefitsiendid on ebaolulised.

Kui t-statistika vaadeldav väärtus on suurem kui kriitiline väärtus modulo |3,7658|>2,0141, siis hüpotees H0 lükatakse tagasi, s.o. - märkimisväärne

Regressioonikoefitsientide olulisust kontrollitakse ka saadud tabeli järgmiste veergudega:

Veerg lk- tähendus näitab mudeli parameetrite olulisust piiritasandil 5%, s.o. kui p≤0,05, siis loetakse vastav koefitsient oluliseks, kui p>0,05, siis ebaoluliseks.

Ja viimased veerud - madalam 95% Ja ülemine 95% Ja alumine 98% Ja top 98% - need on regressioonikoefitsientide intervallhinnangud kindla usaldusväärsuse tasemega r = 0,95 (alati väljastatud) ja r = 0,98 (väljastatakse vastava täiendava usaldusväärsuse määramisel).

Kui alumine ja ülemine piir on sama märgiga (null ei sisaldu usaldusvahemikus), siis loetakse vastav regressioonikordaja oluliseks, vastasel juhul ebaoluliseks

Nagu tabelist näha, koefitsiendi b3 puhul p-väärtus p=0,0005<0,05 и доверительные интервалы не включают ноль, т.е. по всем проверочным критериям этот коэффициент является значимым.

Astmelise regressioonianalüüsi algoritmi kohaselt, jättes välja ebaolulised regressorid, tuleb järgmises etapis jätta vaatlusest välja muutuja, millel on ebaoluline regressioonikordaja.

Juhul, kui regressioonihindamise käigus tuvastatakse mitu ebaolulist koefitsienti, jäetakse regressioonivõrrandist esimesena välja regressor, mille t-statistika () on absoluutväärtuses minimaalne. Selle põhimõtte kohaselt on järgmises etapis vaja välistada muutuja X5, millel on ebaoluline regressioonikoefitsient b2

REGRESSIOONALÜÜSI II ETAPP.

Mudel sisaldab tegurikarakteristikuid X7, X10, X15 ja välistab X5.

TULEMUSTE KOKKUVÕTE

Regressioonistatistika

Mitmus R

R-ruut

Normaliseeritud R-ruut

Standardviga

Tähelepanekud

Dispersioonanalüüs

(vabadusastmete arv n)

(kõrvalekallete ruudu summa Q)

(keskmine ruut MS = SS/n)

(Fobs = MSR/MSost)

Tähtsus F

Regressioon

Koefitsiendid

Standardviga

t-statistika

P-väärtus

Top 95% (bimax)

Madalam 98% (bimin)

Y-ristmik

Muutuja X7

Muutuja X10

Muutuja X15

Tänapäeval on lihtsast lineaarsest regressioonist ilmselt kuulnud kõik, kes vähegi andmekaeve vastu huvi tunnevad. Sellest on Habres juba kirjutatud ja Andrew Ng rääkis sellest üksikasjalikult ka oma kuulsas masinõppekursuses. Lineaarne regressioon on masinõppe üks põhilisi ja lihtsamaid meetodeid, kuid konstrueeritud mudeli kvaliteedi hindamise meetodeid mainitakse väga harva. Selles artiklis püüan seda tüütut väljajätmist R-keeles oleva funktsiooni summary.lm() tulemuste parsimise näitel veidi parandada. Samal ajal püüan esitada vajalikud valemid, seega kõik arvutused saab hõlpsasti programmeerida mis tahes muus keeles. See artikkel on mõeldud neile, kes on kuulnud, et lineaarset regressiooni saab ehitada, kuid pole kohanud statistilisi protseduure selle kvaliteedi hindamiseks.

Lineaarse regressiooni mudel

Niisiis, olgu siis mitu sõltumatut juhuslikku suurust X1, X2, ..., Xn (ennustajad) ja neist sõltuv väärtus Y (eeldatakse, et kõik vajalikud ennustajate teisendused on juba tehtud). Lisaks eeldame, et seos on lineaarne ja vead on normaalselt jaotunud, st

Kus I on n x n ruutmaatriks.

Seega on meil andmed, mis koosnevad suuruste Y ja Xi k vaatlusest ja me tahame hinnata koefitsiente. Standardmeetod koefitsientide hinnangute leidmiseks on vähimruutude meetod. Ja selle meetodi rakendamisel saadav analüütiline lahendus näeb välja järgmine:

Kus b kaanega - koefitsientide vektori hindamine, y on sõltuva muutuja väärtuste vektor ja X on maatriks suurusega k x n+1 (n on ennustajate arv, k on vaatluste arv), milles esimene veerg koosneb ühtedest, teine - esimese ennustaja, kolmanda - teise ja nii edasi väärtused ning olemasolevate vaatlustega kooskõlas olevad read.

Funktsioon summary.lm() ja saadud tulemuste hindamine

Vaatame nüüd näidet lineaarse regressioonimudeli loomisest R-s:
> raamatukogu(kaugel) > lm1<-lm(Species~Area+Elevation+Nearest+Scruz+Adjacent, data=gala) >summary(lm1) Call: lm(valem = Liigid ~ Pindala + Kõrgus + Lähim + Scruz + Kõrval, andmed = gala) Jäägid: Min 1Q Mediaan 3Q Max -111,679 -34,898 -7,862 33,460 182,584 St. Vea t väärtus Pr(>|t|) (Lõikepunkt) 7,068221 19,154198 0,369 0,715351 Pindala -0,023938 0,022422 -1,068 0,296318 Kõrgus 0,319,50658e *** Lähim 0,009144 1,054136 0,009 0,993151 Scruz -0,240524 0,215402 -1,117 0,275208 Kõrvuti -0,074805 0,017700 -4,226 0,000297 *** --- Signif. koodid: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' 1 Jääkstandardviga: 60,98 24 vabadusastmel Mitu R-ruutu: 0,7658, kohandatud R-ruut: 0-7171. statistika: 15,7 5 ja 24 DF kohta, p-väärtus: 6,838e-07
Tabel gala sisaldab mõningaid andmeid 30 Galapagose saare kohta. Vaatleme mudelit, kus Liigid – erinevate taimeliikide arv saarel sõltub lineaarselt mitmest teisest muutujast.

Vaatame funktsiooni summary.lm() väljundit.
Kõigepealt tuleb rida, mis tuletab meelde, kuidas mudel ehitati.
Seejärel tuleb info jääkide jaotuse kohta: miinimum, esimene kvartiil, mediaan, kolmas kvartiil, maksimum. Siinkohal oleks kasulik mitte ainult vaadelda mõningaid jääkide kvantiile, vaid ka testida nende normaalsust, näiteks Shapiro-Wilki testiga.
Järgmine - kõige huvitavam - teave koefitsientide kohta. Siin on vaja natuke teooriat.
Kõigepealt paneme kirja järgmise tulemuse:

piiriga sigma ruudus on tegeliku sigma ruudu erapooletu hinnang. Siin b on koefitsientide reaalvektor ja kaanega epsilon on jääkide vektor, kui võtta koefitsientideks vähimruutude meetodil saadud hinnangud. See tähendab, et eeldusel, et vead on normaalselt jaotatud, jaotub koefitsientide vektor ka reaalväärtuse ümber normaalselt ja selle dispersiooni saab hinnata erapooletult. See tähendab, et saate testida hüpoteesi koefitsientide nulliga võrdsuse kohta ja seetõttu kontrollida ennustajate olulisust, st seda, kas Xi väärtus mõjutab tõesti suuresti konstrueeritud mudeli kvaliteeti.
Selle hüpoteesi kontrollimiseks vajame järgmist statistikat, millel on Studenti jaotus, kui koefitsiendi bi tegelik väärtus on 0:

Kus
on koefitsiendi hinnangu standardviga ja t(k-n-1) on Studenti jaotus k-n-1 vabadusastmega.

Nüüd olete valmis jätkama faili summary.lm() väljundi sõelumist.
Järgnevalt on toodud vähimruutude meetodil saadud koefitsientide hinnangud, nende standardvead, t-statistika väärtused ja selle p-väärtused. Tavaliselt võrreldakse p-väärtust mõne üsna väikese eelvalitud lävega, näiteks 0,05 või 0,01. Ja kui p-statistiline väärtus osutub künnisest väiksemaks, siis hüpotees lükatakse tagasi, aga kui on rohkem, siis kahjuks midagi konkreetset öelda ei saa. Tuletan meelde, et sel juhul, kuna Studenti jaotus on sümmeetriline 0 suhtes, on p-väärtus võrdne 1-F(|t|)+F(-|t|), kus F on Studenti jaotuse funktsioon k-n-1 vabadusastmega . Samuti tähistab R kasulikult olulisi koefitsiente, mille p-väärtus on tärnidega piisavalt väike. See tähendab, et need koefitsiendid, mis väga väikese tõenäosusega on võrdsed 0-ga. Signifi real. koodid sisaldab tärnide dekodeerimist: kui neid on kolm, siis on p-väärtus 0 kuni 0,001, kui neid on kaks, siis on see 0,001 kuni 0,01 jne. Kui ikoone pole, on p-väärtus suurem kui 0,1.

Meie näites võime suure kindlusega väita, et ennustajad Elevation ja Adjacent mõjutavad liikide väärtust kõige tõenäolisemalt, kuid teiste ennustajate kohta ei saa midagi kindlat öelda. Tavaliselt eemaldatakse sellistel juhtudel ennustajad ükshaaval ja vaadatakse, kuidas muutuvad mudeli muud näitajad, näiteks BIC või Adjusted R-squared, millest räägitakse edasi.

Jääkstandardvea väärtus vastab lihtsalt sigma hinnangule koos ülemmääraga ja vabadusastmed arvutatakse kui k-n-1.

Ja nüüd kõige olulisem statistika, mida peaksite kõigepealt vaatama: R-ruut ja kohandatud R-ruut:

kus Yi on Y tegelikud väärtused igas vaatluses, Yi koos korgiga on mudeli ennustatud väärtused, Y koos ribaga on kõigi Yi tegelike väärtuste keskmine.

Alustame R-ruudu statistikast või, nagu seda mõnikord nimetatakse, määramiskoefitsiendist. See näitab, kui palju erineb mudeli tingimuslik dispersioon tegelike Y väärtuste dispersioonist Kui see koefitsient on 1 lähedal, siis on mudeli tingimuslik dispersioon üsna väike ja on väga tõenäoline, et mudel kirjeldab andmeid hästi. . Kui R-ruutkoefitsient on palju väiksem, näiteks väiksem kui 0,5, siis suure usaldusväärsusega ei kajasta mudel asjade tegelikku seisu.

R-ruudu statistikal on aga üks tõsine puudus: ennustajate arvu kasvades saab see statistika ainult kasvada. Seetõttu võib tunduda, et rohkemate ennustajatega mudel on parem kui vähemate ennustajatega mudel, isegi kui kõik uued ennustajad ei mõjuta sõltuvat muutujat. Siin saate meenutada Occami pardli põhimõtet. Seda järgides tasub võimalusel mudelis vabaneda tarbetutest ennustajatest, kuna see muutub lihtsamaks ja arusaadavamaks. Nendel eesmärkidel leiutati korrigeeritud R-ruudu statistika. See esindab tavalist R-ruutu, kuid paljude ennustajate eest on määratud karistus. Põhiidee: kui uued sõltumatud muutujad annavad suure panuse mudeli kvaliteeti, siis selle statistika väärtus suureneb, kui mitte, siis see vastupidi väheneb.

Näiteks kaaluge sama mudelit, mis varem, kuid nüüd jätame viie ennustaja asemel kaks:
> lm2<-lm(Species~Elevation+Adjacent, data=gala) >summary(lm2) Call: lm(valem = Liigid ~ Kõrgus + külgnev, andmed = gala) Jäägid: Min 1Q Mediaan 3Q Max -103,41 -34,33 -11,43 22,57 203,65 Koefitsiendid: Hinnang Std. Viga T Väärtus PR (> | T |) (Lõige ALLKIRJA, kui. koodid: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' 1 Jääkstandardviga: 60,86 27 vabadusastmel Mitu R-ruutu: 0,7376, kohandatud R-ruut: 0,718. statistika: 37,94 2 ja 27 DF kohta, p-väärtus: 1,434e-08
Nagu näete, on R-ruudu statistika väärtus vähenenud, kuid korrigeeritud R-ruudu väärtus on isegi veidi suurenenud.

Nüüd kontrollime hüpoteesi, et kõik ennustajate koefitsiendid on võrdsed nulliga. See tähendab, et hüpotees selle kohta, kas Y väärtus sõltub üldiselt Xi väärtustest lineaarselt. Selleks saate kasutada järgmist statistikat, mis juhul, kui hüpotees, et kõik koefitsiendid on võrdsed nulliga, on tõene, on

Hinnake ehitatud mudeli kvaliteeti. Kas mudeli kvaliteet on võrreldes ühefaktorilise mudeliga paranenud? Hinnake oluliste tegurite mõju tulemusele elastsuskoefitsientide, - ja -koefitsientide abil.

Valitud mitme mudeli (6) kvaliteedi hindamiseks kasutame sarnaselt selle ülesande punktiga 1.4 määramiskoefitsienti R- ruut, keskmine suhteline lähendusviga ja F- Fisheri kriteerium.

Määramiskoefitsient R-ruut võetakse “Regressiooni” tulemustest (mudeli (6) tabel “Regressioonistatistika”).

Järelikult korteri hinna kõikumine (muutus). Y Selle võrrandi järgi on 76,77% seletatav piirkonna linna varieerumisega X 1 , tubade arv korteris X 2 ja elamispinda X 4 .

Kasutame algandmeid Y i ja regressioonitööriista leitud jäägid (tabel “Jäägi väljund” mudeli (6) jaoks). Arvutame suhtelised vead ja leiame keskmise väärtuse
.

Ülejäänud osade TAGASIVÕTMINE

Vaatlus	Ennustas Y	Ülejäägid	Rel. viga
1	45,95089273	-7,95089273	20,92340192
2	86,10296493	-23,90296493	38,42920407
3	94,84442678	30,15557322	24,12445858
4	84,17648426	-23,07648426	37,76838667
5	40,2537216	26,7462784	39,91981851
6	68,70572376	24,29427624	26,12287768
7	143,7464899	-25,7464899	21,81905923
8	106,0907598	25,90924022	19,62821228
9	135,357993	-42,85799303	46,33296544
10	114,4792566	-9,47925665	9,027863476
11	41,48765602	0,512343975	1,219866607
12	103,2329236	21,76707636	17,41366109
13	130,3567798	39,64322022	23,3195413
14	35,41901876	2,580981242	6,7920559
15	155,4129693	-24,91296925	19,0903979
16	84,32108188	0,678918123	0,798727204
17	98,0552279	-0,055227902	0,056355002
18	144,2104618	-16,21046182	12,66442329
19	122,8677535	-37,86775351	44,55029825
20	100,0221225	59,97787748	37,48617343
21	53,27196558	6,728034423	11,21339071
22	35,06605378	5,933946225	14,47303957
23	114,4792566	-24,47925665	27,19917406
24	113,1343153	-30,13431529	36,30640396
25	40,43190991	4,568090093	10,15131132
26	39,34427892	-0,344278918	0,882766457
27	144,4794501	-57,57945009	66,25943623
28	56,4827667	-16,4827667	41,20691675
29	95,38240332	-15,38240332	19,22800415
30	228,6988826	-1,698882564	0,748406416
31	222,8067278	12,19327221	5,188626473
32	38,81483144	1,185168555	2,962921389
33	48,36325811	18,63674189	27,81603267
34	126,6080021	-3,608002113	2,933335051
35	84,85052935	15,14947065	15,14947065
36	116,7991162	-11,79911625	11,23725357
37	84,17648426	-13,87648426	19,73895342
38	113,9412801	-31,94128011	38,95278062
39	215,494184	64,50581599	23,03779142
40	141,7795953	58,22040472	29,11020236
Keskmine	101,2375		22,51770962

Kasutades suhteliste vigade veergu, leiame keskmise väärtuse =22.51% (kasutades funktsiooni AVERAGE).

Võrdlusest selgub, et 22,51%>7%. Järelikult on mudeli täpsus ebarahuldav.

Kasutades F – Fisheri kriteerium Kontrollime mudeli kui terviku olulisust. Selleks paneme kirja “Regressiooni” tööriista kasutamise tulemused (mudeli (6) dispersioonanalüüsi tabel) F= 39,6702.

Funktsiooni FRIST abil leiame väärtuse F kr =3.252 olulisuse taseme jaoks α = 5% ja vabadusastmete arvud k 1 = 2 , k 2 = 37 .

F> F kr Seetõttu on mudeli (6) võrrand oluline, selle kasutamine on soovitatav, sõltuv muutuja Y on mudelis (6) sisalduvate faktorimuutujate poolt üsna hästi kirjeldatud X 1 , X 2. Ja X 4 .

Lisaks kasutades t – Üliõpilaste t test Kontrollime mudeli üksikute koefitsientide olulisust.

t– Regressioonivõrrandi kordajate statistika on toodud “Regressiooni” tööriista tulemustes. Valitud mudeli jaoks saadi järgmised väärtused (6):

	Koefitsiendid	Standardviga	t-statistika	P-väärtus	Alumine 95%	Top 95%	Alumine 95,0%	Top 95,0%
Y-ristmik	-5,643572321	12,07285417	-0,46745966	0,642988	-30,1285	18,84131	-30,1285	18,84131
X4	2,591405557	0,461440597	5,61590284	2.27E-06	1,655561	3,52725	1,655561	3,52725
X1	6,85963077	9,185748512	0,74676884	0,460053	-11,7699	25,48919	-11,7699	25,48919
X2	-1,985156991	7,795346067	-0,25465925	0,800435	-17,7949	13,82454	-17,7949	13,82454

Kriitiline väärtus t kr leitud olulisuse taseme jaoks α=5% ja vabadusastmete arv k=40–2–1=37 . t kr =2.026 (STUDAR funktsioon).

Tasuta koefitsientide jaoks α =–5.643 statistika määratletud
, t kr Seetõttu ei ole vaba koefitsient oluline ja selle võib mudelist välja jätta.

Regressioonikordaja jaoks β 1 =6.859 statistika määratletud
, β 1 ei ole oluline, võib selle ja piirkondliku linnateguri mudelist eemaldada.

Regressioonikordaja jaoks β 2 =-1,985 statistika määratletud
, t kr, seega regressioonikordaja β 2 ei ole oluline, võib selle ja korteri tubade arvu teguri mudelist välja jätta.

Regressioonikordaja jaoks β 4 =2.591 statistika määratletud
, >t cr, seega regressioonikordaja β 4 on märkimisväärne, saab selle ja korteri elamispinna teguri mudelis säilitada.

Järeldused mudeli koefitsientide olulisuse kohta tehakse olulisuse tasemel α=5%. P-väärtuse veergu vaadates märgime, et vaba koefitsient α võib pidada oluliseks tasemel 0,64 = 64%; regressioonikoefitsient β 1 – tasemel 0,46 = 46%; regressioonikoefitsient β 2 – tasemel 0,8 = 80%; ja regressioonikordaja β 4 – tasemel 2,27E-06= 2,26691790951854E-06 = 0,0000002%.

Kui võrrandisse lisatakse uued faktorimuutujad, suureneb määramistegur automaatselt R 2 ja keskmine lähendusviga väheneb, kuigi mudeli kvaliteet alati ei parane. Seetõttu kasutame mudeli (3) ja valitud mitmikmudeli (6) kvaliteedi võrdlemiseks normaliseeritud määramiskoefitsiente.

Seega, kui lisada regressioonivõrrandisse tegur “piirkonna linn”. X 1 ja tegur “tubade arv korteris” X 2 mudeli kvaliteet on halvenenud, mis räägib tegurite eemaldamise kasuks X 1 ja X 2 mudelist.

Teeme täiendavaid arvutusi.

Keskmised elastsuskoefitsiendid lineaarse mudeli korral määratakse valemitega
.

Funktsiooni AVERAGE abil leiame: S Y, ainult teguri suurenemisega X 4 ühe standardhälbe võrra – suureneb 0,914 võrra S Y

Delta koefitsiendid määratakse valemitega
.

Leiame paaride korrelatsioonikordajad Excelis paketi "Andmeanalüüs" tööriista "Korrelatsioon" abil.

	Y	X1	X2	X4
Y	1
X1	-0,01126	1
X2	0,751061	-0,0341	1
X4	0,874012	-0,0798	0,868524	1

Determinatsioonikoefitsient määrati varem ja see on 0,7677.

Arvutame delta koefitsiendid:

;

Alates Δ 1 1 Ja X 2 valesti valitud ja need tuleb mudelist eemaldada. See tähendab, et vastavalt saadud lineaarse kolme teguri mudeli võrrandile on saadud teguri muutus Y(korterihinnad) on 104% seletatav teguri mõjuga X 4 (korteri elamispind), teguri mõjul 4%. X 2 (tubade arv), 0,0859% võrra mõjutatuna faktorist X 1 (piirkonna linn).