Lineaarse regressiooni konstrueerimine, selle parameetrite ja nende olulisuse hindamine on Exceli analüüsipaketi (Regression) kasutamisel teostatav palju kiiremini. Vaatleme saadud tulemuste tõlgendamist üldjuhul ( k selgitavad muutujad) vastavalt näitele 3.6.
Laual regressioonistatistika on antud järgmised väärtused:
Mitu R – mitmekordne korrelatsioonikordaja;
R- ruut– määramiskoefitsient R 2 ;
Normaliseeritud R - ruut- kohandatud R 2 vabadusastmete arvu järgi kohandatud;
Standardviga– regressiooni standardviga S;
Tähelepanekud – vaatluste arv n.
Laual Dispersioonanalüüs on antud:
1. Veerg df - vabadusastmete arv, mis on võrdne
nööri jaoks Regressioon df = k;
nööri jaoks Ülejäänuddf = n – k – 1;
nööri jaoks Kokkudf = n– 1.
2. Veerg SS – hälvete ruudu summa, mis on võrdne
nööri jaoks Regressioon ;
nööri jaoks Ülejäänud ;
nööri jaoks Kokku .
3. Veerg PRL valemiga määratud dispersioonid PRL = SS/df:
nööri jaoks Regressioon– tegurite hajutamine;
nööri jaoks Ülejäänud– jääkvariatsioon.
4. Veerg F - arvutatud väärtus F-kriteerium arvutatakse valemi abil
F = PRL(regressioon)/ PRL(ülejäänud).
5. Veerg Tähtsus F – arvutatule vastav olulisuse taseme väärtus F- statistika .
Tähtsus F= FDIST( F- statistika, df(regressioon), df(ülejäänud)).
Kui tähtsust F < стандартного уровня значимости, то R 2 on statistiliselt oluline.
Koefitsiendid | Standardviga | t-statistika | P-väärtus | Alumine 95% | Top 95% | |
Y | 65,92 | 11,74 | 5,61 | 0,00080 | 38,16 | 93,68 |
X | 0,107 | 0,014 | 7,32 | 0,00016 | 0,0728 | 0,142 |
See tabel näitab:
1. Koefitsiendid– koefitsientide väärtused a, b.
2. Standardviga– regressioonikordajate standardvead S a, Sb.
3. t- statistika– arvutatud väärtused t - kriteeriumid arvutatakse valemiga:
t-statistika = koefitsiendid/standardviga.
4.R-väärtus (olulisus t) on arvutatud väärtusele vastav olulisuse taseme väärtus t- statistikat.
R-väärtus = STUDIDIST(t- statistika, df(ülejäänud)).
Kui R- tähendus< стандартного уровня значимости, то соответствующий коэффициент статистически значим.
5. Alumine 95% ja ülemine 95%– teoreetilise lineaarse regressiooni võrrandi koefitsientide 95% usaldusvahemiku alumine ja ülemine piir.
Ülejäänud osade TAGASIVÕTMINE | ||
Vaatlus | Ennustanud y | Jäägid e |
72,70 | -29,70 | |
82,91 | -20,91 | |
94,53 | -4,53 | |
105,72 | 5,27 | |
117,56 | 12,44 | |
129,70 | 19,29 | |
144,22 | 20,77 | |
166,49 | 24,50 | |
268,13 | -27,13 |
Laual Ülejäänud osade TAGASIVÕTMINE märgitud:
veerus Vaatlus– vaatlusnumber;
veerus Ennustati y – sõltuva muutuja arvutatud väärtused;
veerus Ülejäägid e – sõltuva muutuja vaadeldud ja arvutatud väärtuste erinevus.
Näide 3.6. Toidukulude kohta on andmed (kokkuleppelised ühikud). y ja sissetulek elaniku kohta xüheksale pererühmale:
x | |||||||||
y |
Kasutades Exceli analüüsipaketi (Regression) tulemusi, analüüsime toidukulude sõltuvust sissetulekust elaniku kohta.
Regressioonanalüüsi tulemused kirjutatakse tavaliselt järgmisel kujul:
kus sulgudes on märgitud regressioonikordajate standardvead.
Regressioonikoefitsiendid A = 65,92 ja b= 0,107. vahelise suhtluse suund y Ja x määrab regressioonikordaja märgi b= 0,107, s.o. seos on otsene ja positiivne. Koefitsient b= 0,107 näitab, et sissetuleku elaniku kohta 1 võrra suurenedes tavapärane. ühikut toidukulud suurenevad 0,107 tavaühiku võrra. ühikut
Hindame saadud mudeli koefitsientide olulisust. Koefitsientide olulisus ( a, b) kontrollib t- test:
P-väärtus ( a) = 0,00080 < 0,01 < 0,05
P-väärtus ( b) = 0,00016 < 0,01 < 0,05,
seetõttu koefitsiendid ( a, b) on olulised 1% ja veelgi enam 5% olulisuse tasemel. Seega on regressioonikoefitsiendid olulised ja mudel on algandmetega adekvaatne.
Regressioonihinnangu tulemused ühilduvad mitte ainult regressioonikoefitsientide saadud väärtustega, vaid ka nende teatud komplektiga (usaldusvahemik). 95% tõenäosusega on koefitsientide usaldusvahemikud (38,16 – 93,68) a ja (0,0728 – 0,142) eest b.
Mudeli kvaliteeti hinnatakse determinatsioonikoefitsiendiga R 2 .
Suurusjärk R 2 = 0,884 tähendab, et sissetulekutegur elaniku kohta võib seletada 88,4% toidukulude kõikumist (hajumist).
Tähtsus R 2 on kontrollinud F- test: olulisus F = 0,00016 < 0,01 < 0,05, следовательно, R 2 on oluline 1% ja veelgi enam 5% olulisuse tasemel.
Paaripõhise lineaarse regressiooni korral saab korrelatsioonikordaja defineerida järgmiselt . Saadud korrelatsioonikordaja väärtus näitab, et seos toidukulude ja sissetulekute vahel inimese kohta on väga tihe.
Regressioonanalüüs on statistiline uurimismeetod, mis võimaldab näidata konkreetse parameetri sõltuvust ühest või mitmest sõltumatust muutujast. Arvutieelsel ajal oli selle kasutamine üsna keeruline, eriti kui tegemist oli suurte andmemahtudega. Täna, olles õppinud Excelis regressiooni koostama, saate keerukaid statistilisi probleeme lahendada vaid paari minutiga. Allpool on toodud konkreetsed näited majandusvaldkonnast.
Regressiooni tüübid
See mõiste ise võeti matemaatikas kasutusele 1886. aastal. Regressioon toimub:
- lineaarne;
- paraboolne;
- rahusti;
- eksponentsiaalne;
- hüperboolne;
- demonstratiivne;
- logaritmiline.
Näide 1
Vaatleme probleemi, kuidas määrata lahkunud meeskonnaliikmete arvu sõltuvust 6 tööstusettevõtte keskmisest palgast.
Ülesanne. Kuues ettevõttes analüüsiti keskmist kuupalka ja omal soovil töölt lahkunud töötajate arvu. Tabeli kujul on meil:
Lõpetanud inimeste arv | Palk |
||
30 000 rubla |
|||
35 000 rubla |
|||
40 000 rubla |
|||
45 000 rubla |
|||
50 000 rubla |
|||
55 000 rubla |
|||
60 000 rubla |
Et määrata töölt lahkuvate töötajate arvu sõltuvust 6 ettevõtte keskmisest palgast, on regressioonimudelil võrrand Y = a 0 + a 1 x 1 +...+a k x k, kus x i on mõjutavad muutujad, a i on regressioonikoefitsiendid ja k tegurite arv.
Selle probleemi puhul on Y töötajatest lahkumise näitaja ja mõjuteguriks palk, mida tähistame X-ga.
Exceli tabeliprotsessori võimaluste kasutamine
Exceli regressioonianalüüsile peab eelnema sisseehitatud funktsioonide rakendamine olemasolevatele tabeliandmetele. Nendel eesmärkidel on siiski parem kasutada väga kasulikku lisandmoodulit "Analysis Pack". Selle aktiveerimiseks vajate:
- minge vahekaardilt "Fail" jaotisesse "Valikud";
- avanevas aknas valige rida "Lisandmoodulid";
- klõpsake alloleval real "Haldamine" paremal asuval nupul "Mine";
- märkige ruut nimetuse "Analüüsipakett" kõrval ja kinnitage oma tegevus, klõpsates "Ok".
Kui kõik on õigesti tehtud, ilmub Exceli töölehe kohal asuva vahekaardi "Andmed" paremale küljele vajalik nupp.
Excelis
Nüüd, kui meil on ökonomeetriliste arvutuste tegemiseks kõik vajalikud virtuaalsed tööriistad käepärast, saame hakata oma probleemi lahendama. Selle jaoks:
- Klõpsake nuppu "Andmete analüüs";
- avanevas aknas klõpsake nuppu "Regressioon";
- Sisestage ilmuvale vahekaardile Y (töölt lahkuvate töötajate arv) ja X (nende palgad) väärtuste vahemik;
- Kinnitame oma toimingud, vajutades nuppu "Ok".
Selle tulemusena täidab programm uue tabeli automaatselt regressioonanalüüsi andmetega. Märge! Excel võimaldab teil selleks eelistatud asukoha käsitsi määrata. Näiteks võib see olla sama leht, kus asuvad Y- ja X-väärtused, või isegi uus töövihik, mis on spetsiaalselt loodud selliste andmete salvestamiseks.
R-ruudu regressioonitulemuste analüüs
Excelis on vaadeldava näite andmete töötlemisel saadud andmed kujul:
Kõigepealt peaksite pöörama tähelepanu R-ruudu väärtusele. See tähistab määramiskoefitsienti. Selles näites on R-ruut = 0,755 (75,5%), st mudeli arvutatud parameetrid selgitavad vaadeldavate parameetrite vahelist seost 75,5%. Mida suurem on determinatsioonikoefitsiendi väärtus, seda sobivam on valitud mudel konkreetse ülesande jaoks. Seda peetakse tegelikku olukorda õigesti kirjeldavaks, kui R-ruudu väärtus on üle 0,8. Kui R-ruut<0,5, то такой анализа регрессии в Excel нельзя считать резонным.
Koefitsientide analüüs
Arv 64.1428 näitab, milline on Y väärtus, kui kõik meie vaadeldava mudeli muutujad xi nullitakse. Teisisõnu võib väita, et analüüsitava parameetri väärtust mõjutavad ka muud tegurid, mida konkreetses mudelis ei kirjeldata.
Järgmine koefitsient -0,16285, mis asub lahtris B18, näitab muutuja X mõju osakaalu Y-le. See tähendab, et töötajate keskmine kuupalk vaadeldava mudeli raames mõjutab loobujate arvu kaaluga -0,16285, s.o. selle mõju aste on täiesti väike. Märk "-" näitab, et koefitsient on negatiivne. See on ilmne, sest kõik teavad, et mida kõrgem on palk ettevõttes, seda vähem inimesi avaldab soovi tööleping lõpetada või töölt lahkuda.
Mitmekordne regressioon
See termin viitab suhtevõrrandile mitme sõltumatu muutujaga kujul:
y=f(x 1 +x 2 +…x m) + ε, kus y on resultanttunnus (sõltuv muutuja) ja x 1, x 2,…x m on faktorikarakteristikud (sõltumatud muutujad).
Parameetri hinnang
Mitmekordse regressiooni (MR) puhul kasutatakse vähimruutude meetodit (OLS). Lineaarvõrrandite kujul Y = a + b 1 x 1 +…+b m x m + ε konstrueerime normaalvõrrandite süsteemi (vt allpool)
Meetodi põhimõtte mõistmiseks kaaluge kahefaktorilist juhtumit. Siis on meil valemiga kirjeldatud olukord
Siit saame:
kus σ on indeksis kajastatud vastava tunnuse dispersioon.
OLS on rakendatav MR võrrandile standardskaalal. Sel juhul saame võrrandi:
milles t y, t x 1, … t xm on standardiseeritud muutujad, mille keskmised väärtused on 0; β i on standardsed regressioonikoefitsiendid ja standardhälve on 1.
Pange tähele, et kõik β i on antud juhul normaliseeritud ja tsentraliseeritud, seetõttu peetakse nende omavahelist võrdlemist õigeks ja vastuvõetavaks. Lisaks on tavaks tegurid välja sõeluda, jättes kõrvale need, mille βi väärtus on madalaim.
Probleem lineaarse regressiooni võrrandi kasutamisel
Oletame, et meil on konkreetse toote N hinnadünaamika tabel viimase 8 kuu jooksul. On vaja teha otsus selle partii ostmise otstarbekuse kohta hinnaga 1850 rubla / t.
kuu number | kuu nimi | toote hind N |
|
1750 rubla tonni kohta |
|||
1755 rubla tonni kohta |
|||
1767 rubla tonni kohta |
|||
1760 rubla tonni kohta |
|||
1770 rubla tonni kohta |
|||
1790 rubla tonni kohta |
|||
1810 rubla tonni kohta |
|||
1840 rubla tonni kohta |
|||
Selle probleemi lahendamiseks Exceli tabeliprotsessoris peate kasutama tööriista "Andmeanalüüs", mis on juba tuntud ülaltoodud näitest. Järgmisena valige jaotis "Regressioon" ja määrake parameetrid. Tuleb meeles pidada, et väljale "Sisestusintervall Y" tuleb sisestada sõltuva muutuja väärtuste vahemik (antud juhul kaupade hinnad teatud aastakuudel) ja väljale "Sisestusvahemik X" - sõltumatu muutuja (kuu number). Kinnitage toiming, klõpsates "OK". Uuel lehel (kui nii on märgitud) saame andmed regressiooniks.
Nende abil konstrueerime lineaarvõrrandi kujul y=ax+b, kus parameetrid a ja b on kuu numbri nimetusega rea koefitsiendid ning koefitsiendid ja sirged “Y-ristik” lehelt koos regressioonanalüüsi tulemused. Seega on ülesande 3 lineaarse regressiooni võrrand (LR) kirjutatud järgmiselt:
Toote hind N = 11.714* kuu number + 1727.54.
või algebralises tähistuses
y = 11,714 x + 1727,54
Tulemuste analüüs
Otsustamaks, kas saadud lineaarse regressiooni võrrand on adekvaatne, kasutatakse mitmekordse korrelatsiooni (MCC) ja määramise kordajaid, samuti Fisheri testi ja Studenti t-testi. Regressioonitulemustega Exceli tabelis nimetatakse neid vastavalt mitmekordseks R-iks, R-ruuduks, F-statistiks ja t-statistiks.
KMC R võimaldab hinnata sõltumatute ja sõltuvate muutujate vahelise tõenäosusliku seose lähedust. Selle kõrge väärtus näitab üsna tugevat seost muutujate “Kuu arv” ja “Toote N hind rublades 1 tonni kohta” vahel. Selle suhte olemus jääb aga teadmata.
Determinantkoefitsiendi R2 (RI) ruut on summaarse hajuvuse osakaalu arvnäitaja ja näitab hajumist, millise katseandmete osa, s.o. sõltuva muutuja väärtused vastavad lineaarse regressiooni võrrandile. Vaadeldava ülesande puhul on see väärtus 84,8%, st saadud SD kirjeldab statistilisi andmeid suure täpsusega.
F-statistikat, mida nimetatakse ka Fisheri testiks, kasutatakse lineaarse seose olulisuse hindamiseks, lükates ümber või kinnitades selle olemasolu hüpoteesi.
(Õpilase test) aitab hinnata koefitsiendi olulisust lineaarse seose tundmatu või vaba liikmega. Kui t-testi väärtus > tcr, siis hüpotees lineaarvõrrandi vaba liikme ebaolulisusest lükatakse ümber.
Vaadeldavas vabaliikme ülesandes saadi Exceli tööriistu kasutades, et t = 169,20903 ja p = 2,89E-12, st meil on null tõenäosus, et õige hüpotees vaba liikme ebaolulisusest lükatakse ümber. . Tundmatu koefitsiendi jaoks t=5,79405 ja p=0,001158. Teisisõnu, tõenäosus, et õige hüpotees tundmatu koefitsiendi ebaolulisuse kohta lükatakse ümber, on 0,12%.
Seega võib väita, et saadud lineaarse regressiooni võrrand on adekvaatne.
Aktsiapaketi ostmise otstarbekuse probleem
Excelis tehakse mitu regressiooni, kasutades sama andmeanalüüsi tööriista. Vaatleme konkreetset rakenduseprobleemi.
Ettevõtte NNN juhtkond peab otsustama MMM JSC 20% osaluse ostmise otstarbekuse üle. Paketi (SP) maksumus on 70 miljonit USA dollarit. NNN-i spetsialistid on kogunud andmeid sarnaste tehingute kohta. Aktsiapaketi väärtust otsustati hinnata selliste parameetrite järgi, väljendatuna miljonites USA dollarites:
- võlgnevused (VK);
- aasta käibe maht (VO);
- saadaolevad arved (VD);
- põhivara maksumus (COF).
Lisaks kasutatakse parameetrit ettevõtte palgavõlgnevus (V3 P) tuhandetes USA dollarites.
Lahendus Exceli tabeliprotsessori abil
Kõigepealt peate looma lähteandmete tabeli. See näeb välja selline:
- avage aken "Andmete analüüs";
- valige jaotis "Regressioon";
- Sisestage väljale "Sisestusintervall Y" veerust G olevate sõltuvate muutujate väärtuste vahemik;
- Klõpsake aknast "Sisestusintervall X" paremal asuval punase noolega ikooni ja tõstke esile kõigi väärtuste vahemik lehe veergudest B, C, D, F.
Märkige üksus "Uus tööleht" ja klõpsake "OK".
Hankige antud probleemi jaoks regressioonianalüüs.
Tulemuste uurimine ja järeldused
"Kogume" regressioonivõrrandi ülaltoodud Exceli tabelis esitatud ümardatud andmetest:
SP = 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.
Tuntumal matemaatilisel kujul võib selle kirjutada järgmiselt:
y = 0,103 * x 1 + 0,541 * x 2 - 0,031 * x 3 + 0,405 * x 4 + 0,691 * x 5 - 265,844
MMM JSC andmed on esitatud tabelis:
Asendades need regressioonivõrrandisse, saame arvuks 64,72 miljonit USA dollarit. See tähendab, et MMM JSC aktsiaid ei tasu osta, kuna nende väärtus 70 miljonit USA dollarit on üsna paisutatud.
Nagu näha, võimaldas Exceli tabeli ja regressioonivõrrandi kasutamine teha teadliku otsuse väga konkreetse tehingu teostatavuse osas.
Nüüd teate, mis on regressioon. Eespool käsitletud Exceli näited aitavad teil lahendada ökonomeetria valdkonna praktilisi probleeme.
IN regressioonistatistika on näidatud mitmekordne korrelatsioonikordaja (mitmus R) ja sihikindlus (R-ruut) Y ja faktoriomaduste massiivi vahel (mis langeb kokku korrelatsioonianalüüsis varem saadud väärtustega)
Tabeli keskmine osa (dispersioonianalüüs) vajalik regressioonivõrrandi olulisuse testimiseks.
Tabeli alumine osa – täpne
üldiste regressioonikordajate bi lõpphinnangud bi, nende olulisuse testimine ja intervallhinnang.
Koefitsientide b vektori hinnang (veerg Koefitsiendid):
Siis on regressioonivõrrandi hinnang järgmine:
Vajalik on kontrollida regressioonivõrrandi olulisust ja sellest tulenevaid regressioonikordajaid.
Kontrollime regressioonivõrrandi olulisust tasemel b=0,05, s.o. hüpotees H0: в1=в2=в3=…=вk=0. Selleks arvutatakse F-statistika vaadeldav väärtus:
Excel näitab seda tulemustes dispersioonanalüüs:
QR=527.4296; Qost=1109.8673 =>
Veerus F väärtus on näidatud Fjälgitav.
F-jaotustabelitest või sisseehitatud statistilise funktsiooni abil FAVASTA lugeja n1=k=4 ja nimetaja n2=n-k-1=45 olulisuse taseme b=0,05 ja vabadusastmete arvu jaoks leiame F-statistika kriitilise väärtuse, mis on võrdne
Fcr = 2,578739184
Kuna F-statistika vaadeldav väärtus ületab selle kriitilist väärtust 8,1957 > 2,7587, lükatakse hüpotees koefitsientide vektori võrdsuse kohta kõrvale veatõenäosusega 0,05. Järelikult on vektori b=(b1,b2,b3,b4)T vähemalt üks element nullist oluliselt erinev.
Kontrollime regressioonivõrrandi üksikute koefitsientide olulisust, s.o. hüpotees .
Regressioonikordajate olulisuse testimine toimub olulisuse taseme t-statistika alusel.
t-statistika vaadeldud väärtused on näidatud veerus olevas tulemuste tabelis t- statistika.
Koefitsiendid (bi) |
t-statistika (tob) |
||
Y-ristmik | |||
Muutuja X5 | |||
Muutuja X7 | |||
Muutuja X10 | |||
Muutuja X15 |
Neid tuleb võrrelda olulisuse taseme b=0,05 ja vabadusastmete arvuga n=n – k - 1 leitud kriitilise väärtusega tcr.
Selleks kasutame Exceli sisseehitatud statistilist funktsiooni STUDISPOBR, sisestades pakutud menüüsse tõenäosuse b = 0,05 ja vabadusastmete arvu n = n–k-1 = 50-4-1 = 45. (Tcr väärtused leiate matemaatilise statistika tabelitest.
Saame tcr = 2,014103359.
t-statistika vaadeldud väärtus on absoluutväärtuses väiksem kui kriitiline 2,0141>|-0,0872|, 2,0141>|0,2630|, 2,0141>|0,7300|, 2,0141>|-1,6629 |.
Järelikult ei lükata tagasi hüpoteesi, et need koefitsiendid on võrdsed nulliga, veatõenäosusega 0,05, s.t. vastavad koefitsiendid on ebaolulised.
Kui t-statistika vaadeldav väärtus on suurem kui kriitiline väärtus modulo |3,7658|>2,0141, siis hüpotees H0 lükatakse tagasi, s.o. - märkimisväärne
Regressioonikoefitsientide olulisust kontrollitakse ka saadud tabeli järgmiste veergudega:
Veerg lk- tähendus näitab mudeli parameetrite olulisust piiritasandil 5%, s.o. kui p≤0,05, siis loetakse vastav koefitsient oluliseks, kui p>0,05, siis ebaoluliseks.
Ja viimased veerud - madalam 95% Ja ülemine 95% Ja alumine 98% Ja top 98% - need on regressioonikoefitsientide intervallhinnangud kindla usaldusväärsuse tasemega r = 0,95 (alati väljastatud) ja r = 0,98 (väljastatakse vastava täiendava usaldusväärsuse määramisel).
Kui alumine ja ülemine piir on sama märgiga (null ei sisaldu usaldusvahemikus), siis loetakse vastav regressioonikordaja oluliseks, vastasel juhul ebaoluliseks
Nagu tabelist näha, koefitsiendi b3 puhul p-väärtus p=0,0005<0,05 и доверительные интервалы не включают ноль, т.е. по всем проверочным критериям этот коэффициент является значимым.
Astmelise regressioonianalüüsi algoritmi kohaselt, jättes välja ebaolulised regressorid, tuleb järgmises etapis jätta vaatlusest välja muutuja, millel on ebaoluline regressioonikordaja.
Juhul, kui regressioonihindamise käigus tuvastatakse mitu ebaolulist koefitsienti, jäetakse regressioonivõrrandist esimesena välja regressor, mille t-statistika () on absoluutväärtuses minimaalne. Selle põhimõtte kohaselt on järgmises etapis vaja välistada muutuja X5, millel on ebaoluline regressioonikoefitsient b2
REGRESSIOONALÜÜSI II ETAPP.
Mudel sisaldab tegurikarakteristikuid X7, X10, X15 ja välistab X5.
TULEMUSTE KOKKUVÕTE | ||||||||||||||||||
Regressioonistatistika | ||||||||||||||||||
Mitmus R | ||||||||||||||||||
R-ruut | ||||||||||||||||||
Normaliseeritud R-ruut | ||||||||||||||||||
Standardviga | ||||||||||||||||||
Tähelepanekud | ||||||||||||||||||
Dispersioonanalüüs | ||||||||||||||||||
(vabadusastmete arv n) |
(kõrvalekallete ruudu summa Q) |
(keskmine ruut MS = SS/n) |
(Fobs = MSR/MSost) |
Tähtsus F |
||||||||||||||
Regressioon | ||||||||||||||||||
Koefitsiendid |
Standardviga |
t-statistika |
P-väärtus |
Top 95% (bimax) |
Madalam 98% (bimin) | |||||||||||||
Y-ristmik | ||||||||||||||||||
Muutuja X7 | ||||||||||||||||||
Muutuja X10 | ||||||||||||||||||
Muutuja X15 | ||||||||||||||||||
Lineaarse regressiooni mudel
Niisiis, olgu siis mitu sõltumatut juhuslikku suurust X1, X2, ..., Xn (ennustajad) ja neist sõltuv väärtus Y (eeldatakse, et kõik vajalikud ennustajate teisendused on juba tehtud). Lisaks eeldame, et seos on lineaarne ja vead on normaalselt jaotunud, stKus I on n x n ruutmaatriks.
Seega on meil andmed, mis koosnevad suuruste Y ja Xi k vaatlusest ja me tahame hinnata koefitsiente. Standardmeetod koefitsientide hinnangute leidmiseks on vähimruutude meetod. Ja selle meetodi rakendamisel saadav analüütiline lahendus näeb välja järgmine:
Kus b kaanega - koefitsientide vektori hindamine, y on sõltuva muutuja väärtuste vektor ja X on maatriks suurusega k x n+1 (n on ennustajate arv, k on vaatluste arv), milles esimene veerg koosneb ühtedest, teine - esimese ennustaja, kolmanda - teise ja nii edasi väärtused ning olemasolevate vaatlustega kooskõlas olevad read.
Funktsioon summary.lm() ja saadud tulemuste hindamine
Vaatame nüüd näidet lineaarse regressioonimudeli loomisest R-s:> raamatukogu(kaugel) > lm1<-lm(Species~Area+Elevation+Nearest+Scruz+Adjacent, data=gala) >summary(lm1) Call: lm(valem = Liigid ~ Pindala + Kõrgus + Lähim + Scruz + Kõrval, andmed = gala) Jäägid: Min 1Q Mediaan 3Q Max -111,679 -34,898 -7,862 33,460 182,584 St. Vea t väärtus Pr(>|t|) (Lõikepunkt) 7,068221 19,154198 0,369 0,715351 Pindala -0,023938 0,022422 -1,068 0,296318 Kõrgus 0,319,50658e *** Lähim 0,009144 1,054136 0,009 0,993151 Scruz -0,240524 0,215402 -1,117 0,275208 Kõrvuti -0,074805 0,017700 -4,226 0,000297 *** --- Signif. koodid: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' 1 Jääkstandardviga: 60,98 24 vabadusastmel Mitu R-ruutu: 0,7658, kohandatud R-ruut: 0-7171. statistika: 15,7 5 ja 24 DF kohta, p-väärtus: 6,838e-07
Tabel gala sisaldab mõningaid andmeid 30 Galapagose saare kohta. Vaatleme mudelit, kus Liigid – erinevate taimeliikide arv saarel sõltub lineaarselt mitmest teisest muutujast.
Vaatame funktsiooni summary.lm() väljundit.
Kõigepealt tuleb rida, mis tuletab meelde, kuidas mudel ehitati.
Seejärel tuleb info jääkide jaotuse kohta: miinimum, esimene kvartiil, mediaan, kolmas kvartiil, maksimum. Siinkohal oleks kasulik mitte ainult vaadelda mõningaid jääkide kvantiile, vaid ka testida nende normaalsust, näiteks Shapiro-Wilki testiga.
Järgmine - kõige huvitavam - teave koefitsientide kohta. Siin on vaja natuke teooriat.
Kõigepealt paneme kirja järgmise tulemuse:
piiriga sigma ruudus on tegeliku sigma ruudu erapooletu hinnang. Siin b on koefitsientide reaalvektor ja kaanega epsilon on jääkide vektor, kui võtta koefitsientideks vähimruutude meetodil saadud hinnangud. See tähendab, et eeldusel, et vead on normaalselt jaotatud, jaotub koefitsientide vektor ka reaalväärtuse ümber normaalselt ja selle dispersiooni saab hinnata erapooletult. See tähendab, et saate testida hüpoteesi koefitsientide nulliga võrdsuse kohta ja seetõttu kontrollida ennustajate olulisust, st seda, kas Xi väärtus mõjutab tõesti suuresti konstrueeritud mudeli kvaliteeti.
Selle hüpoteesi kontrollimiseks vajame järgmist statistikat, millel on Studenti jaotus, kui koefitsiendi bi tegelik väärtus on 0:
Kus
on koefitsiendi hinnangu standardviga ja t(k-n-1) on Studenti jaotus k-n-1 vabadusastmega.
Nüüd olete valmis jätkama faili summary.lm() väljundi sõelumist.
Järgnevalt on toodud vähimruutude meetodil saadud koefitsientide hinnangud, nende standardvead, t-statistika väärtused ja selle p-väärtused. Tavaliselt võrreldakse p-väärtust mõne üsna väikese eelvalitud lävega, näiteks 0,05 või 0,01. Ja kui p-statistiline väärtus osutub künnisest väiksemaks, siis hüpotees lükatakse tagasi, aga kui on rohkem, siis kahjuks midagi konkreetset öelda ei saa. Tuletan meelde, et sel juhul, kuna Studenti jaotus on sümmeetriline 0 suhtes, on p-väärtus võrdne 1-F(|t|)+F(-|t|), kus F on Studenti jaotuse funktsioon k-n-1 vabadusastmega . Samuti tähistab R kasulikult olulisi koefitsiente, mille p-väärtus on tärnidega piisavalt väike. See tähendab, et need koefitsiendid, mis väga väikese tõenäosusega on võrdsed 0-ga. Signifi real. koodid sisaldab tärnide dekodeerimist: kui neid on kolm, siis on p-väärtus 0 kuni 0,001, kui neid on kaks, siis on see 0,001 kuni 0,01 jne. Kui ikoone pole, on p-väärtus suurem kui 0,1.
Meie näites võime suure kindlusega väita, et ennustajad Elevation ja Adjacent mõjutavad liikide väärtust kõige tõenäolisemalt, kuid teiste ennustajate kohta ei saa midagi kindlat öelda. Tavaliselt eemaldatakse sellistel juhtudel ennustajad ükshaaval ja vaadatakse, kuidas muutuvad mudeli muud näitajad, näiteks BIC või Adjusted R-squared, millest räägitakse edasi.
Jääkstandardvea väärtus vastab lihtsalt sigma hinnangule koos ülemmääraga ja vabadusastmed arvutatakse kui k-n-1.
Ja nüüd kõige olulisem statistika, mida peaksite kõigepealt vaatama: R-ruut ja kohandatud R-ruut:
kus Yi on Y tegelikud väärtused igas vaatluses, Yi koos korgiga on mudeli ennustatud väärtused, Y koos ribaga on kõigi Yi tegelike väärtuste keskmine.
Alustame R-ruudu statistikast või, nagu seda mõnikord nimetatakse, määramiskoefitsiendist. See näitab, kui palju erineb mudeli tingimuslik dispersioon tegelike Y väärtuste dispersioonist Kui see koefitsient on 1 lähedal, siis on mudeli tingimuslik dispersioon üsna väike ja on väga tõenäoline, et mudel kirjeldab andmeid hästi. . Kui R-ruutkoefitsient on palju väiksem, näiteks väiksem kui 0,5, siis suure usaldusväärsusega ei kajasta mudel asjade tegelikku seisu.
R-ruudu statistikal on aga üks tõsine puudus: ennustajate arvu kasvades saab see statistika ainult kasvada. Seetõttu võib tunduda, et rohkemate ennustajatega mudel on parem kui vähemate ennustajatega mudel, isegi kui kõik uued ennustajad ei mõjuta sõltuvat muutujat. Siin saate meenutada Occami pardli põhimõtet. Seda järgides tasub võimalusel mudelis vabaneda tarbetutest ennustajatest, kuna see muutub lihtsamaks ja arusaadavamaks. Nendel eesmärkidel leiutati korrigeeritud R-ruudu statistika. See esindab tavalist R-ruutu, kuid paljude ennustajate eest on määratud karistus. Põhiidee: kui uued sõltumatud muutujad annavad suure panuse mudeli kvaliteeti, siis selle statistika väärtus suureneb, kui mitte, siis see vastupidi väheneb.
Näiteks kaaluge sama mudelit, mis varem, kuid nüüd jätame viie ennustaja asemel kaks:
> lm2<-lm(Species~Elevation+Adjacent, data=gala)
>summary(lm2) Call: lm(valem = Liigid ~ Kõrgus + külgnev, andmed = gala) Jäägid: Min 1Q Mediaan 3Q Max -103,41 -34,33 -11,43 22,57 203,65 Koefitsiendid: Hinnang Std. Viga T Väärtus PR (> | T |) (Lõige ALLKIRJA, kui. koodid: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' 1 Jääkstandardviga: 60,86 27 vabadusastmel Mitu R-ruutu: 0,7376, kohandatud R-ruut: 0,718. statistika: 37,94 2 ja 27 DF kohta, p-väärtus: 1,434e-08
Nagu näete, on R-ruudu statistika väärtus vähenenud, kuid korrigeeritud R-ruudu väärtus on isegi veidi suurenenud.
Nüüd kontrollime hüpoteesi, et kõik ennustajate koefitsiendid on võrdsed nulliga. See tähendab, et hüpotees selle kohta, kas Y väärtus sõltub üldiselt Xi väärtustest lineaarselt. Selleks saate kasutada järgmist statistikat, mis juhul, kui hüpotees, et kõik koefitsiendid on võrdsed nulliga, on tõene, on
Hinnake ehitatud mudeli kvaliteeti. Kas mudeli kvaliteet on võrreldes ühefaktorilise mudeliga paranenud? Hinnake oluliste tegurite mõju tulemusele elastsuskoefitsientide, - ja -koefitsientide abil.
Määramiskoefitsient R-ruut võetakse “Regressiooni” tulemustest (mudeli (6) tabel “Regressioonistatistika”).
Järelikult korteri hinna kõikumine (muutus). Y Selle võrrandi järgi on 76,77% seletatav piirkonna linna varieerumisega X 1 , tubade arv korteris X 2 ja elamispinda X 4 .
Kasutame algandmeid Y i ja regressioonitööriista leitud jäägid (tabel “Jäägi väljund” mudeli (6) jaoks). Arvutame suhtelised vead ja leiame keskmise väärtuse
.
Ülejäänud osade TAGASIVÕTMINE
Vaatlus | Ennustas Y | Ülejäägid | Rel. viga |
1 | 45,95089273 | -7,95089273 | 20,92340192 |
2 | 86,10296493 | -23,90296493 | 38,42920407 |
3 | 94,84442678 | 30,15557322 | 24,12445858 |
4 | 84,17648426 | -23,07648426 | 37,76838667 |
5 | 40,2537216 | 26,7462784 | 39,91981851 |
6 | 68,70572376 | 24,29427624 | 26,12287768 |
7 | 143,7464899 | -25,7464899 | 21,81905923 |
8 | 106,0907598 | 25,90924022 | 19,62821228 |
9 | 135,357993 | -42,85799303 | 46,33296544 |
10 | 114,4792566 | -9,47925665 | 9,027863476 |
11 | 41,48765602 | 0,512343975 | 1,219866607 |
12 | 103,2329236 | 21,76707636 | 17,41366109 |
13 | 130,3567798 | 39,64322022 | 23,3195413 |
14 | 35,41901876 | 2,580981242 | 6,7920559 |
15 | 155,4129693 | -24,91296925 | 19,0903979 |
16 | 84,32108188 | 0,678918123 | 0,798727204 |
17 | 98,0552279 | -0,055227902 | 0,056355002 |
18 | 144,2104618 | -16,21046182 | 12,66442329 |
19 | 122,8677535 | -37,86775351 | 44,55029825 |
20 | 100,0221225 | 59,97787748 | 37,48617343 |
21 | 53,27196558 | 6,728034423 | 11,21339071 |
22 | 35,06605378 | 5,933946225 | 14,47303957 |
23 | 114,4792566 | -24,47925665 | 27,19917406 |
24 | 113,1343153 | -30,13431529 | 36,30640396 |
25 | 40,43190991 | 4,568090093 | 10,15131132 |
26 | 39,34427892 | -0,344278918 | 0,882766457 |
27 | 144,4794501 | -57,57945009 | 66,25943623 |
28 | 56,4827667 | -16,4827667 | 41,20691675 |
29 | 95,38240332 | -15,38240332 | 19,22800415 |
30 | 228,6988826 | -1,698882564 | 0,748406416 |
31 | 222,8067278 | 12,19327221 | 5,188626473 |
32 | 38,81483144 | 1,185168555 | 2,962921389 |
33 | 48,36325811 | 18,63674189 | 27,81603267 |
34 | 126,6080021 | -3,608002113 | 2,933335051 |
35 | 84,85052935 | 15,14947065 | 15,14947065 |
36 | 116,7991162 | -11,79911625 | 11,23725357 |
37 | 84,17648426 | -13,87648426 | 19,73895342 |
38 | 113,9412801 | -31,94128011 | 38,95278062 |
39 | 215,494184 | 64,50581599 | 23,03779142 |
40 | 141,7795953 | 58,22040472 | 29,11020236 |
Keskmine | 101,2375 | 22,51770962 |
Kasutades suhteliste vigade veergu, leiame keskmise väärtuse =22.51% (kasutades funktsiooni AVERAGE).
Võrdlusest selgub, et 22,51%>7%. Järelikult on mudeli täpsus ebarahuldav.
Kasutades F – Fisheri kriteerium Kontrollime mudeli kui terviku olulisust. Selleks paneme kirja “Regressiooni” tööriista kasutamise tulemused (mudeli (6) dispersioonanalüüsi tabel) F= 39,6702.
Funktsiooni FRIST abil leiame väärtuse F kr =3.252 olulisuse taseme jaoks α = 5% ja vabadusastmete arvud k 1 = 2 , k 2 = 37 .
F> F kr Seetõttu on mudeli (6) võrrand oluline, selle kasutamine on soovitatav, sõltuv muutuja Y on mudelis (6) sisalduvate faktorimuutujate poolt üsna hästi kirjeldatud X 1 , X 2. Ja X 4 .
Lisaks kasutades t – Üliõpilaste t test Kontrollime mudeli üksikute koefitsientide olulisust.
t– Regressioonivõrrandi kordajate statistika on toodud “Regressiooni” tööriista tulemustes. Valitud mudeli jaoks saadi järgmised väärtused (6):
Koefitsiendid | Standardviga | t-statistika | P-väärtus | Alumine 95% | Top 95% | Alumine 95,0% | Top 95,0% |
|
Y-ristmik | -5,643572321 | 12,07285417 | -0,46745966 | 0,642988 | -30,1285 | 18,84131 | -30,1285 | 18,84131 |
X4 | 2,591405557 | 0,461440597 | 5,61590284 | 2.27E-06 | 1,655561 | 3,52725 | 1,655561 | 3,52725 |
X1 | 6,85963077 | 9,185748512 | 0,74676884 | 0,460053 | -11,7699 | 25,48919 | -11,7699 | 25,48919 |
X2 | -1,985156991 | 7,795346067 | -0,25465925 | 0,800435 | -17,7949 | 13,82454 | -17,7949 | 13,82454 |
Kriitiline väärtus t kr leitud olulisuse taseme jaoks α=5% ja vabadusastmete arv k=40–2–1=37 . t kr =2.026 (STUDAR funktsioon).
Tasuta koefitsientide jaoks α
=–5.643
statistika määratletud
, t kr Seetõttu ei ole vaba koefitsient oluline ja selle võib mudelist välja jätta.
Regressioonikordaja jaoks β
1
=6.859
statistika määratletud
, β
1
ei ole oluline, võib selle ja piirkondliku linnateguri mudelist eemaldada.
Regressioonikordaja jaoks β
2
=-1,985
statistika määratletud
, t kr, seega regressioonikordaja β
2
ei ole oluline, võib selle ja korteri tubade arvu teguri mudelist välja jätta.
Regressioonikordaja jaoks β
4
=2.591
statistika määratletud
, >t cr, seega regressioonikordaja β
4
on märkimisväärne, saab selle ja korteri elamispinna teguri mudelis säilitada.
Järeldused mudeli koefitsientide olulisuse kohta tehakse olulisuse tasemel α=5%. P-väärtuse veergu vaadates märgime, et vaba koefitsient α võib pidada oluliseks tasemel 0,64 = 64%; regressioonikoefitsient β 1 – tasemel 0,46 = 46%; regressioonikoefitsient β 2 – tasemel 0,8 = 80%; ja regressioonikordaja β 4 – tasemel 2,27E-06= 2,26691790951854E-06 = 0,0000002%.
Kui võrrandisse lisatakse uued faktorimuutujad, suureneb määramistegur automaatselt R 2
ja keskmine lähendusviga väheneb, kuigi mudeli kvaliteet alati ei parane. Seetõttu kasutame mudeli (3) ja valitud mitmikmudeli (6) kvaliteedi võrdlemiseks normaliseeritud määramiskoefitsiente.
Seega, kui lisada regressioonivõrrandisse tegur “piirkonna linn”. X 1 ja tegur “tubade arv korteris” X 2 mudeli kvaliteet on halvenenud, mis räägib tegurite eemaldamise kasuks X 1 ja X 2 mudelist.
Teeme täiendavaid arvutusi.
Keskmised elastsuskoefitsiendid
lineaarse mudeli korral määratakse valemitega
.
Funktsiooni AVERAGE abil leiame: S Y, ainult teguri suurenemisega X 4 ühe standardhälbe võrra – suureneb 0,914 võrra S Y
Delta koefitsiendid
määratakse valemitega
.
Leiame paaride korrelatsioonikordajad Excelis paketi "Andmeanalüüs" tööriista "Korrelatsioon" abil.
Y | X1 | X2 | X4 |
|
Y | 1 | |||
X1 | -0,01126 | 1 | ||
X2 | 0,751061 | -0,0341 | 1 | |
X4 | 0,874012 | -0,0798 | 0,868524 | 1 |
Determinatsioonikoefitsient määrati varem ja see on 0,7677.
Arvutame delta koefitsiendid:
;
Alates Δ 1 1
Ja X 2
valesti valitud ja need tuleb mudelist eemaldada. See tähendab, et vastavalt saadud lineaarse kolme teguri mudeli võrrandile on saadud teguri muutus Y(korterihinnad) on 104% seletatav teguri mõjuga X 4
(korteri elamispind), teguri mõjul 4%. X 2
(tubade arv), 0,0859% võrra mõjutatuna faktorist X 1
(piirkonna linn).