ఎక్సెల్ విశ్లేషణ ప్యాకేజీ (రిగ్రెషన్) ఉపయోగిస్తున్నప్పుడు లీనియర్ రిగ్రెషన్ నిర్మాణం, దాని పారామితుల మూల్యాంకనం మరియు వాటి ప్రాముఖ్యత చాలా వేగంగా నిర్వహించబడతాయి. సాధారణ సందర్భంలో పొందిన ఫలితాల వివరణను పరిశీలిద్దాం ( కెవివరణాత్మక వేరియబుల్స్) ఉదాహరణ 3.6 ప్రకారం.
పట్టికలో తిరోగమన గణాంకాలుకింది విలువలు ఇవ్వబడ్డాయి:
బహుళ ఆర్ - బహుళ సహసంబంధ గుణకం;
ఆర్- చతురస్రం- నిర్ధారణ గుణకం ఆర్ 2 ;
సాధారణీకరించబడింది ఆర్ - చతురస్రం- సర్దుబాటు ఆర్ 2 స్వేచ్ఛ డిగ్రీల సంఖ్యకు సర్దుబాటు చేయబడింది;
ప్రామాణిక లోపం- రిగ్రెషన్ ప్రామాణిక లోపం ఎస్;
పరిశీలనలు -పరిశీలనల సంఖ్య n.
పట్టికలో వైవిధ్యం యొక్క విశ్లేషణఇవ్వబడ్డాయి:
1. కాలమ్ df - సమానమైన స్వేచ్ఛ డిగ్రీల సంఖ్య
స్ట్రింగ్ కోసం తిరోగమనం df = కె;
స్ట్రింగ్ కోసం శేషంdf = n – కె – 1;
స్ట్రింగ్ కోసం మొత్తంdf = n– 1.
2. కాలమ్ SS -సమానమైన స్క్వేర్డ్ విచలనాల మొత్తం
స్ట్రింగ్ కోసం తిరోగమనం ;
స్ట్రింగ్ కోసం శేషం ;
స్ట్రింగ్ కోసం మొత్తం .
3. కాలమ్ కుమారిఫార్ములా ద్వారా నిర్ణయించబడిన వ్యత్యాసాలు కుమారి = SS/df:
స్ట్రింగ్ కోసం తిరోగమనం- కారకం వ్యాప్తి;
స్ట్రింగ్ కోసం శేషం- అవశేష వైవిధ్యం.
4. కాలమ్ ఎఫ్ - లెక్కించిన విలువ ఎఫ్సూత్రం ఉపయోగించి లెక్కించిన ప్రమాణం
ఎఫ్ = కుమారి(రిగ్రెషన్)/ కుమారి(సశేషం).
5. కాలమ్ ప్రాముఖ్యత ఎఫ్ - లెక్కించిన దానికి అనుగుణంగా ప్రాముఖ్యత స్థాయి విలువ ఎఫ్- గణాంకాలు .
ప్రాముఖ్యత ఎఫ్= FDIST( F-గణాంకాలు, df(తిరోగమనం), df(సశేషం)).
ప్రాముఖ్యత ఉంటే ఎఫ్ < стандартного уровня значимости, то ఆర్ 2 గణాంకపరంగా ముఖ్యమైనది.
అసమానత | ప్రామాణిక లోపం | t-గణాంకాలు | పి-విలువ | దిగువ 95% | టాప్ 95% | |
వై | 65,92 | 11,74 | 5,61 | 0,00080 | 38,16 | 93,68 |
X | 0,107 | 0,014 | 7,32 | 0,00016 | 0,0728 | 0,142 |
ఈ పట్టిక చూపిస్తుంది:
1. అసమానత- గుణకం విలువలు a, బి.
2. ప్రామాణిక లోపం- రిగ్రెషన్ కోఎఫీషియంట్స్ యొక్క ప్రామాణిక లోపాలు ఎస్ ఎ, Sb.
3. t-గణాంకాలు- లెక్కించిన విలువలు t - సూత్రం ద్వారా లెక్కించబడిన ప్రమాణాలు:
t-statistic = గుణకాలు/ప్రామాణిక లోపం.
4.ఆర్-విలువ (ముఖ్యత t) లెక్కించిన దానికి సంబంధించిన ప్రాముఖ్యత స్థాయి విలువ t-గణాంకాలు.
ఆర్-విలువ = విద్యార్థి(t- గణాంకాలు, df(సశేషం)).
ఉంటే ఆర్-అర్థం< стандартного уровня значимости, то соответствующий коэффициент статистически значим.
5. దిగువ 95% మరియు ఎగువ 95%- సైద్ధాంతిక లీనియర్ రిగ్రెషన్ సమీకరణం యొక్క గుణకాల కోసం 95% విశ్వాస అంతరాల దిగువ మరియు ఎగువ పరిమితులు.
మిగిలిన వాటి ఉపసంహరణ | ||
పరిశీలన | అంచనా వేసిన వై | అవశేషాలు ఇ |
72,70 | -29,70 | |
82,91 | -20,91 | |
94,53 | -4,53 | |
105,72 | 5,27 | |
117,56 | 12,44 | |
129,70 | 19,29 | |
144,22 | 20,77 | |
166,49 | 24,50 | |
268,13 | -27,13 |
పట్టికలో మిగిలిన వాటి ఉపసంహరణసూచించబడింది:
నిలువు వరుసలో పరిశీలన- పరిశీలన సంఖ్య;
నిలువు వరుసలో ముందే చెప్పబడింది వై - డిపెండెంట్ వేరియబుల్ యొక్క లెక్కించిన విలువలు;
నిలువు వరుసలో మిగిలిపోయినవి ఇ - డిపెండెంట్ వేరియబుల్ యొక్క గమనించిన మరియు లెక్కించిన విలువల మధ్య వ్యత్యాసం.
ఉదాహరణ 3.6.ఆహార ఖర్చులపై డేటా (సాంప్రదాయ యూనిట్లు) ఉన్నాయి వైమరియు తలసరి ఆదాయం xతొమ్మిది సమూహాల కుటుంబాలకు:
x | |||||||||
వై |
Excel విశ్లేషణ ప్యాకేజీ (రిగ్రెషన్) ఫలితాలను ఉపయోగించి, తలసరి ఆదాయంపై ఆహార ఖర్చుల ఆధారపడటాన్ని మేము విశ్లేషిస్తాము.
రిగ్రెషన్ విశ్లేషణ యొక్క ఫలితాలు సాధారణంగా రూపంలో వ్రాయబడతాయి:
ఇక్కడ రిగ్రెషన్ కోఎఫీషియంట్స్ యొక్క ప్రామాణిక లోపాలు కుండలీకరణాల్లో సూచించబడతాయి.
తిరోగమన గుణకాలు ఎ = 65,92 మరియు బి= 0.107. మధ్య కమ్యూనికేషన్ యొక్క దిశ వైమరియు xరిగ్రెషన్ కోఎఫీషియంట్ యొక్క చిహ్నాన్ని నిర్ణయిస్తుంది బి= 0.107, అనగా. కనెక్షన్ ప్రత్యక్షంగా మరియు సానుకూలంగా ఉంటుంది. గుణకం బి= 0.107 తలసరి ఆదాయంలో 1 సంప్రదాయ పెరుగుదలతో చూపిస్తుంది. యూనిట్లు ఆహార ఖర్చులు 0.107 సంప్రదాయ యూనిట్లు పెరుగుతాయి. యూనిట్లు
ఫలిత నమూనా యొక్క కోఎఫీషియంట్స్ యొక్క ప్రాముఖ్యతను మనం అంచనా వేద్దాం. గుణకాల యొక్క ప్రాముఖ్యత ( ఎ, బి) ద్వారా తనిఖీ చేయబడింది t-పరీక్ష:
పి-విలువ ( a) = 0,00080 < 0,01 < 0,05
పి-విలువ ( బి) = 0,00016 < 0,01 < 0,05,
కాబట్టి, గుణకాలు ( ఎ, బి) 1% స్థాయిలో ముఖ్యమైనవి, ఇంకా ఎక్కువగా 5% ప్రాముఖ్యత స్థాయిలో ఉంటాయి. అందువలన, రిగ్రెషన్ కోఎఫీషియంట్స్ ముఖ్యమైనవి మరియు మోడల్ అసలు డేటాకు సరిపోతుంది.
రిగ్రెషన్ అంచనా ఫలితాలు రిగ్రెషన్ కోఎఫీషియంట్స్ యొక్క పొందిన విలువలతో మాత్రమే కాకుండా, వాటి యొక్క నిర్దిష్ట సెట్ (విశ్వాస విరామం)తో కూడా అనుకూలంగా ఉంటాయి. 95% సంభావ్యతతో, కోఎఫీషియంట్ల విశ్వాస విరామాలు (38.16 – 93.68) aమరియు (0.0728 - 0.142) కోసం బి.
మోడల్ యొక్క నాణ్యత నిర్ణయం యొక్క గుణకం ద్వారా అంచనా వేయబడుతుంది ఆర్ 2 .
పరిమాణం ఆర్ 2 = 0.884 అంటే తలసరి ఆదాయ కారకం ఆహార ఖర్చులలో 88.4% వైవిధ్యాన్ని (స్కాటర్) వివరించగలదు.
ప్రాముఖ్యత ఆర్ 2 ద్వారా తనిఖీ చేయబడింది F-పరీక్ష: ప్రాముఖ్యత ఎఫ్ = 0,00016 < 0,01 < 0,05, следовательно, ఆర్ 2 1% స్థాయిలో ముఖ్యమైనది మరియు 5% ప్రాముఖ్యత స్థాయిలో మరింత ఎక్కువగా ఉంటుంది.
పెయిర్వైస్ లీనియర్ రిగ్రెషన్ విషయంలో, కోరిలేషన్ కోఎఫీషియంట్ని ఇలా నిర్వచించవచ్చు . సహసంబంధ గుణకం యొక్క పొందిన విలువ ఆహార ఖర్చులు మరియు తలసరి ఆదాయం మధ్య సంబంధం చాలా దగ్గరగా ఉందని సూచిస్తుంది.
రిగ్రెషన్ విశ్లేషణ అనేది ఒకటి లేదా అంతకంటే ఎక్కువ స్వతంత్ర వేరియబుల్స్పై నిర్దిష్ట పరామితి యొక్క ఆధారపడటాన్ని చూపించడానికి మిమ్మల్ని అనుమతించే గణాంక పరిశోధన పద్ధతి. కంప్యూటర్ పూర్వ యుగంలో, దాని ఉపయోగం చాలా కష్టంగా ఉండేది, ప్రత్యేకించి పెద్ద మొత్తంలో డేటా విషయానికి వస్తే. ఈ రోజు, ఎక్సెల్లో రిగ్రెషన్ను ఎలా నిర్మించాలో నేర్చుకున్న తర్వాత, మీరు సంక్లిష్టమైన గణాంక సమస్యలను కేవలం రెండు నిమిషాల్లో పరిష్కరించవచ్చు. ఆర్థిక శాస్త్రం నుండి నిర్దిష్ట ఉదాహరణలు క్రింద ఉన్నాయి.
రిగ్రెషన్ రకాలు
ఈ భావన 1886లో గణితంలో ప్రవేశపెట్టబడింది. తిరోగమనం జరుగుతుంది:
- సరళ;
- పారాబొలిక్;
- మత్తుమందు;
- ఘాతాంక;
- అతిశయోక్తి;
- ప్రదర్శనాత్మక;
- లాగరిథమిక్.
ఉదాహరణ 1
6 పారిశ్రామిక సంస్థలలో సగటు జీతంపై నిష్క్రమించిన జట్టు సభ్యుల సంఖ్యపై ఆధారపడటాన్ని నిర్ణయించే సమస్యను పరిశీలిద్దాం.
టాస్క్. ఆరు ఎంటర్ప్రైజెస్లో, సగటు నెలవారీ జీతం మరియు స్వచ్ఛందంగా నిష్క్రమించిన ఉద్యోగుల సంఖ్యను విశ్లేషించారు. పట్టిక రూపంలో మనకు ఉన్నాయి:
విడిచిపెట్టిన వ్యక్తుల సంఖ్య | జీతం |
||
30,000 రూబిళ్లు |
|||
35,000 రూబిళ్లు |
|||
40,000 రూబిళ్లు |
|||
45,000 రూబిళ్లు |
|||
50,000 రూబిళ్లు |
|||
55,000 రూబిళ్లు |
|||
60,000 రూబిళ్లు |
6 ఎంటర్ప్రైజెస్లో సగటు జీతంపై నిష్క్రమించే కార్మికుల సంఖ్యపై ఆధారపడటాన్ని నిర్ణయించే పని కోసం, రిగ్రెషన్ మోడల్ Y = a 0 + a 1 x 1 +...+a k x k అనే సమీకరణ రూపాన్ని కలిగి ఉంటుంది, ఇక్కడ x i ప్రభావితం చేసే వేరియబుల్స్, a i అనేది రిగ్రెషన్ కోఎఫీషియంట్స్, మరియు k అనేది కారకాల సంఖ్య.
ఈ సమస్య కోసం, Y అనేది ఉద్యోగులను విడిచిపెట్టడానికి సూచిక, మరియు ప్రభావితం చేసే అంశం జీతం, దీనిని మేము X ద్వారా సూచిస్తాము.
Excel స్ప్రెడ్షీట్ ప్రాసెసర్ యొక్క సామర్థ్యాలను ఉపయోగించడం
ఇప్పటికే ఉన్న పట్టిక డేటాకు అంతర్నిర్మిత ఫంక్షన్లను వర్తింపజేయడం ద్వారా Excelలో రిగ్రెషన్ విశ్లేషణ తప్పనిసరిగా చేయాలి. అయితే, ఈ ప్రయోజనాల కోసం చాలా ఉపయోగకరమైన “విశ్లేషణ ప్యాక్” యాడ్-ఆన్ను ఉపయోగించడం మంచిది. దీన్ని సక్రియం చేయడానికి మీకు ఇది అవసరం:
- "ఫైల్" ట్యాబ్ నుండి "ఐచ్ఛికాలు" విభాగానికి వెళ్లండి;
- తెరుచుకునే విండోలో, "యాడ్-ఆన్లు" అనే పంక్తిని ఎంచుకోండి;
- "నిర్వహణ" లైన్ యొక్క కుడి వైపున ఉన్న "గో" బటన్పై క్లిక్ చేయండి;
- "విశ్లేషణ ప్యాకేజీ" పేరు పక్కన ఉన్న పెట్టెను ఎంచుకోండి మరియు "సరే" క్లిక్ చేయడం ద్వారా మీ చర్యలను నిర్ధారించండి.
ప్రతిదీ సరిగ్గా జరిగితే, అవసరమైన బటన్ ఎక్సెల్ వర్క్షీట్ పైన ఉన్న “డేటా” ట్యాబ్ యొక్క కుడి వైపున కనిపిస్తుంది.
Excel లో
ఇప్పుడు ఎకనామెట్రిక్ గణనలను నిర్వహించడానికి అవసరమైన అన్ని వర్చువల్ సాధనాలను మేము కలిగి ఉన్నాము, మేము మా సమస్యను పరిష్కరించడం ప్రారంభించవచ్చు. దీని కొరకు:
- "డేటా విశ్లేషణ" బటన్పై క్లిక్ చేయండి;
- తెరుచుకునే విండోలో, "రిగ్రెషన్" బటన్పై క్లిక్ చేయండి;
- కనిపించే ట్యాబ్లో, Y (ఉద్యోగులను విడిచిపెట్టిన వారి సంఖ్య) మరియు X (వారి జీతాలు) కోసం విలువల పరిధిని నమోదు చేయండి;
- "సరే" బటన్ను నొక్కడం ద్వారా మేము మా చర్యలను నిర్ధారిస్తాము.
ఫలితంగా, ప్రోగ్రామ్ స్వయంచాలకంగా రిగ్రెషన్ విశ్లేషణ డేటాతో కొత్త స్ప్రెడ్షీట్ను నింపుతుంది. గమనిక! ఈ ప్రయోజనం కోసం మీరు ఇష్టపడే స్థానాన్ని మాన్యువల్గా సెట్ చేయడానికి Excel మిమ్మల్ని అనుమతిస్తుంది. ఉదాహరణకు, ఇది Y మరియు X విలువలు ఉన్న అదే షీట్ కావచ్చు లేదా అటువంటి డేటాను నిల్వ చేయడానికి ప్రత్యేకంగా రూపొందించబడిన కొత్త వర్క్బుక్ కూడా కావచ్చు.
R-స్క్వేర్డ్ కోసం రిగ్రెషన్ ఫలితాల విశ్లేషణ
Excelలో, పరిశీలనలో ఉన్న ఉదాహరణలో డేటాను ప్రాసెస్ చేస్తున్నప్పుడు పొందిన డేటా రూపం కలిగి ఉంటుంది:
అన్నింటిలో మొదటిది, మీరు R- స్క్వేర్డ్ విలువకు శ్రద్ద ఉండాలి. ఇది నిర్ణయం యొక్క గుణకాన్ని సూచిస్తుంది. ఈ ఉదాహరణలో, R-స్క్వేర్ = 0.755 (75.5%), అనగా, మోడల్ యొక్క లెక్కించిన పారామితులు 75.5% ద్వారా పరిశీలనలో ఉన్న పారామితుల మధ్య సంబంధాన్ని వివరిస్తాయి. నిర్ణయం యొక్క గుణకం యొక్క అధిక విలువ, ఎంచుకున్న మోడల్ నిర్దిష్ట పని కోసం మరింత అనుకూలంగా ఉంటుంది. R-స్క్వేర్ విలువ 0.8 కంటే ఎక్కువగా ఉన్నప్పుడు వాస్తవ పరిస్థితిని సరిగ్గా వివరించడానికి ఇది పరిగణించబడుతుంది. R-స్క్వేర్ ఉంటే<0,5, то такой анализа регрессии в Excel нельзя считать резонным.
అసమానత విశ్లేషణ
64.1428 సంఖ్య మేము పరిశీలిస్తున్న మోడల్లోని అన్ని వేరియబుల్స్ xiని సున్నాకి రీసెట్ చేస్తే Y విలువ ఎంత ఉంటుందో చూపిస్తుంది. మరో మాటలో చెప్పాలంటే, విశ్లేషించబడిన పరామితి యొక్క విలువ నిర్దిష్ట నమూనాలో వివరించబడని ఇతర కారకాలచే కూడా ప్రభావితమవుతుందని వాదించవచ్చు.
సెల్ B18లో ఉన్న తదుపరి గుణకం -0.16285, Y పై వేరియబుల్ X ప్రభావం యొక్క బరువును చూపుతుంది. దీని అర్థం, పరిశీలనలో ఉన్న మోడల్లోని ఉద్యోగుల సగటు నెలవారీ జీతం -0.16285 బరువుతో విడిచిపెట్టిన వారి సంఖ్యను ప్రభావితం చేస్తుంది, అనగా. దాని ప్రభావం యొక్క డిగ్రీ పూర్తిగా చిన్నది. "-" సంకేతం గుణకం ప్రతికూలంగా ఉందని సూచిస్తుంది. ఇది స్పష్టంగా ఉంది, ఎందుకంటే సంస్థలో ఎక్కువ జీతం లభిస్తుందని అందరికీ తెలుసు, తక్కువ మంది వ్యక్తులు ఉపాధి ఒప్పందాన్ని ముగించాలని లేదా నిష్క్రమించాలని కోరికను వ్యక్తం చేస్తారు.
బహుళ తిరోగమనం
ఈ పదం రూపం యొక్క అనేక స్వతంత్ర వేరియబుల్స్తో సంబంధ సమీకరణాన్ని సూచిస్తుంది:
y=f(x 1 +x 2 +…x m) + ε, ఇక్కడ y అనేది ఫలిత లక్షణం (డిపెండెంట్ వేరియబుల్), మరియు x 1, x 2,…x m అనేది ఫ్యాక్టర్ లక్షణాలు (స్వతంత్ర వేరియబుల్స్).
పారామీటర్ అంచనా
మల్టిపుల్ రిగ్రెషన్ (MR) కోసం, ఇది అతి తక్కువ చతురస్రాల పద్ధతి (OLS) ఉపయోగించి నిర్వహించబడుతుంది. Y = a + b 1 x 1 +...+b m x m + ε రూపం యొక్క సరళ సమీకరణాల కోసం మేము సాధారణ సమీకరణాల వ్యవస్థను నిర్మిస్తాము (క్రింద చూడండి)
పద్ధతి యొక్క సూత్రాన్ని అర్థం చేసుకోవడానికి, రెండు-కారకాల కేసును పరిగణించండి. అప్పుడు మేము సూత్రం ద్వారా వివరించిన పరిస్థితిని కలిగి ఉన్నాము
ఇక్కడ నుండి మనం పొందుతాము:
ఇక్కడ σ అనేది సూచికలో ప్రతిబింబించే సంబంధిత లక్షణం యొక్క వైవిధ్యం.
OLS అనేది ప్రామాణిక స్కేల్లో MR సమీకరణానికి వర్తిస్తుంది. ఈ సందర్భంలో మనం సమీకరణాన్ని పొందుతాము:
దీనిలో t y, t x 1, … t xm ప్రామాణిక వేరియబుల్స్, వీటికి సగటు విలువలు 0కి సమానం; β i అనేది ప్రామాణిక రిగ్రెషన్ కోఎఫీషియంట్స్, మరియు ప్రామాణిక విచలనం 1.
దయచేసి ఈ సందర్భంలో అన్ని β iలు సాధారణీకరించబడినవి మరియు కేంద్రీకృతమైనవిగా పేర్కొనబడ్డాయి, అందువల్ల వాటి పరస్పర పోలిక సరైనది మరియు ఆమోదయోగ్యమైనదిగా పరిగణించబడుతుంది. అదనంగా, తక్కువ βi విలువలు ఉన్న వాటిని విస్మరించడం ద్వారా కారకాలను పరీక్షించడం ఆచారం.
లీనియర్ రిగ్రెషన్ ఈక్వేషన్ ఉపయోగించడంలో సమస్య
మేము గత 8 నెలల్లో నిర్దిష్ట ఉత్పత్తి N కోసం ధర డైనమిక్స్ పట్టికను కలిగి ఉన్నామని అనుకుందాం. 1850 రూబిళ్లు / t ధర వద్ద దాని బ్యాచ్ కొనుగోలు చేయడం యొక్క సలహాపై నిర్ణయం తీసుకోవడం అవసరం.
నెల సంఖ్య | నెల పేరు | ఉత్పత్తి ధర N |
|
టన్నుకు 1750 రూబిళ్లు |
|||
టన్నుకు 1755 రూబిళ్లు |
|||
టన్నుకు 1767 రూబిళ్లు |
|||
టన్నుకు 1760 రూబిళ్లు |
|||
టన్నుకు 1770 రూబిళ్లు |
|||
టన్నుకు 1790 రూబిళ్లు |
|||
టన్నుకు 1810 రూబిళ్లు |
|||
టన్నుకు 1840 రూబిళ్లు |
|||
Excel స్ప్రెడ్షీట్ ప్రాసెసర్లో ఈ సమస్యను పరిష్కరించడానికి, మీరు పైన అందించిన ఉదాహరణ నుండి ఇప్పటికే తెలిసిన “డేటా విశ్లేషణ” సాధనాన్ని ఉపయోగించాలి. తరువాత, "రిగ్రెషన్" విభాగాన్ని ఎంచుకుని, పారామితులను సెట్ చేయండి. “ఇన్పుట్ విరామం Y” ఫీల్డ్లో డిపెండెంట్ వేరియబుల్ (ఈ సందర్భంలో, సంవత్సరంలోని నిర్దిష్ట నెలల్లో వస్తువుల ధరలు) మరియు “ఇన్పుట్ విరామం X”లో విలువల శ్రేణి తప్పనిసరిగా నమోదు చేయబడాలని గుర్తుంచుకోవాలి. - స్వతంత్ర వేరియబుల్ కోసం (నెల సంఖ్య). "సరే" క్లిక్ చేయడం ద్వారా చర్యను నిర్ధారించండి. కొత్త షీట్లో (అలా సూచించినట్లయితే) మేము రిగ్రెషన్ కోసం డేటాను పొందుతాము.
వాటిని ఉపయోగించి, మేము ఫారమ్ y=ax+b యొక్క సరళ సమీకరణాన్ని నిర్మిస్తాము, ఇక్కడ పారామితులు a మరియు b అనేవి నెల సంఖ్య పేరు మరియు గుణకాలు మరియు పంక్తులతో షీట్ నుండి “Y-ఖండన” అనే రేఖ యొక్క గుణకాలు. రిగ్రెషన్ విశ్లేషణ ఫలితాలు. అందువలన, టాస్క్ 3 కోసం లీనియర్ రిగ్రెషన్ ఈక్వేషన్ (LR) ఇలా వ్రాయబడింది:
ఉత్పత్తి ధర N = 11.714* నెల సంఖ్య + 1727.54.
లేదా బీజగణిత సంజ్ఞామానంలో
y = 11.714 x + 1727.54
ఫలితాల విశ్లేషణ
ఫలితంగా వచ్చే లీనియర్ రిగ్రెషన్ ఈక్వేషన్ సరిపోతుందో లేదో నిర్ణయించడానికి, మల్టిపుల్ కోరిలేషన్ (MCC) మరియు డిటర్మినేషన్ యొక్క గుణకాలు ఉపయోగించబడతాయి, అలాగే ఫిషర్ టెస్ట్ మరియు స్టూడెంట్ టి టెస్ట్లు ఉపయోగించబడతాయి. రిగ్రెషన్ ఫలితాలతో Excel స్ప్రెడ్షీట్లో, వాటిని వరుసగా బహుళ R, R-స్క్వేర్డ్, F-స్టాటిస్టిక్ మరియు t-స్టాటిస్టిక్ అని పిలుస్తారు.
KMC R స్వతంత్ర మరియు డిపెండెంట్ వేరియబుల్స్ మధ్య సంభావ్య సంబంధం యొక్క సన్నిహితతను అంచనా వేయడం సాధ్యం చేస్తుంది. దీని అధిక విలువ వేరియబుల్స్ "నెల సంఖ్య" మరియు "1 టన్నుకు రూబిళ్లలో ఉత్పత్తి N ధర" మధ్య చాలా బలమైన కనెక్షన్ను సూచిస్తుంది. అయితే, ఈ సంబంధం యొక్క స్వభావం ఇంకా తెలియదు.
గుణకం యొక్క వర్గము R2 (RI) అనేది మొత్తం స్కాటర్ యొక్క నిష్పత్తి యొక్క సంఖ్యా లక్షణం మరియు ప్రయోగాత్మక డేటాలోని ఏ భాగం యొక్క స్కాటర్ను చూపుతుంది, అనగా. డిపెండెంట్ వేరియబుల్ యొక్క విలువలు లీనియర్ రిగ్రెషన్ సమీకరణానికి అనుగుణంగా ఉంటాయి. పరిశీలనలో ఉన్న సమస్యలో, ఈ విలువ 84.8%కి సమానం, అనగా, గణాంక డేటా ఫలితంగా వచ్చే SD ద్వారా అధిక స్థాయి ఖచ్చితత్వంతో వివరించబడింది.
F-గణాంకాలు, ఫిషర్ పరీక్ష అని కూడా పిలుస్తారు, ఇది ఒక సరళ సంబంధం యొక్క ప్రాముఖ్యతను అంచనా వేయడానికి, దాని ఉనికి యొక్క పరికల్పనను తిరస్కరించడానికి లేదా నిర్ధారించడానికి ఉపయోగించబడుతుంది.
(విద్యార్థుల పరీక్ష) సరళ సంబంధం యొక్క తెలియని లేదా ఉచిత పదంతో గుణకం యొక్క ప్రాముఖ్యతను అంచనా వేయడానికి సహాయపడుతుంది. t-test విలువ > tcr అయితే, అప్పుడు సరళ సమీకరణం యొక్క ఉచిత పదం యొక్క అల్పత గురించి పరికల్పన తిరస్కరించబడుతుంది.
ఉచిత పదం కోసం పరిశీలనలో ఉన్న సమస్యలో, Excel సాధనాలను ఉపయోగించి, t = 169.20903, మరియు p = 2.89E-12 అని పొందబడింది, అనగా, ఉచిత పదం యొక్క ప్రాముఖ్యత గురించి సరైన పరికల్పన తిరస్కరించబడటానికి మేము సున్నా సంభావ్యతను కలిగి ఉన్నాము. . తెలియని t=5.79405, మరియు p=0.001158 కోసం గుణకం కోసం. మరో మాటలో చెప్పాలంటే, తెలియని వ్యక్తికి గుణకం యొక్క అతితక్కువ గురించి సరైన పరికల్పన తిరస్కరించబడే సంభావ్యత 0.12%.
అందువల్ల, ఫలిత సరళ రిగ్రెషన్ సమీకరణం సరిపోతుందని వాదించవచ్చు.
షేర్ల బ్లాక్ను కొనుగోలు చేయడం సాధ్యాసాధ్యాల సమస్య
Excelలో బహుళ రిగ్రెషన్ అదే డేటా విశ్లేషణ సాధనాన్ని ఉపయోగించి నిర్వహించబడుతుంది. నిర్దిష్ట అప్లికేషన్ సమస్యను పరిశీలిద్దాం.
MMM JSCలో 20% వాటాను కొనుగోలు చేయాలనే సలహాపై NNN కంపెనీ నిర్వహణ తప్పనిసరిగా నిర్ణయించాలి. ప్యాకేజీ ధర (SP) 70 మిలియన్ US డాలర్లు. NNN నిపుణులు ఇలాంటి లావాదేవీలపై డేటాను సేకరించారు. మిలియన్ల US డాలర్లలో వ్యక్తీకరించబడిన అటువంటి పారామితుల ప్రకారం షేర్ల బ్లాక్ విలువను అంచనా వేయాలని నిర్ణయించబడింది:
- చెల్లించవలసిన ఖాతాలు (VK);
- వార్షిక టర్నోవర్ వాల్యూమ్ (VO);
- స్వీకరించదగిన ఖాతాలు (VD);
- స్థిర ఆస్తుల ధర (COF).
అదనంగా, వేల US డాలర్లలో ఎంటర్ప్రైజ్ వేతన బకాయిల (V3 P) పరామితి ఉపయోగించబడుతుంది.
ఎక్సెల్ స్ప్రెడ్షీట్ ప్రాసెసర్ ఉపయోగించి పరిష్కారం
అన్నింటిలో మొదటిది, మీరు సోర్స్ డేటా యొక్క పట్టికను సృష్టించాలి. ఇది ఇలా కనిపిస్తుంది:
- "డేటా విశ్లేషణ" విండోకు కాల్ చేయండి;
- "రిగ్రెషన్" విభాగాన్ని ఎంచుకోండి;
- “ఇన్పుట్ విరామం Y” బాక్స్లో, కాలమ్ G నుండి డిపెండెంట్ వేరియబుల్స్ విలువల పరిధిని నమోదు చేయండి;
- "ఇన్పుట్ ఇంటర్వెల్ X" విండోకు కుడి వైపున ఎరుపు బాణం ఉన్న చిహ్నంపై క్లిక్ చేయండి మరియు షీట్లోని B, C, D, F నిలువు వరుసల నుండి అన్ని విలువల పరిధిని హైలైట్ చేయండి.
"కొత్త వర్క్షీట్" అంశాన్ని గుర్తించి, "సరే" క్లిక్ చేయండి.
ఇచ్చిన సమస్య కోసం రిగ్రెషన్ విశ్లేషణను పొందండి.
ఫలితాలు మరియు ముగింపుల అధ్యయనం
మేము Excel స్ప్రెడ్షీట్లో పైన అందించిన గుండ్రని డేటా నుండి రిగ్రెషన్ సమీకరణాన్ని "సేకరిస్తాము":
SP = 0.103*SOF + 0.541*VO - 0.031*VK +0.405*VD +0.691*VZP - 265.844.
బాగా తెలిసిన గణిత రూపంలో, దీనిని ఇలా వ్రాయవచ్చు:
y = 0.103*x1 + 0.541*x2 - 0.031*x3 +0.405*x4 +0.691*x5 - 265.844
MMM JSC కోసం డేటా పట్టికలో ప్రదర్శించబడింది:
వాటిని రిగ్రెషన్ ఈక్వేషన్లో భర్తీ చేస్తే, మనకు 64.72 మిలియన్ US డాలర్లు లభిస్తాయి. దీని అర్థం MMM JSC యొక్క షేర్లను కొనుగోలు చేయడం విలువైనది కాదు, ఎందుకంటే వాటి విలువ 70 మిలియన్ US డాలర్లు చాలా ఎక్కువ.
మీరు చూడగలిగినట్లుగా, Excel స్ప్రెడ్షీట్ మరియు రిగ్రెషన్ ఈక్వేషన్ యొక్క ఉపయోగం చాలా నిర్దిష్ట లావాదేవీ యొక్క సాధ్యాసాధ్యాలకు సంబంధించి సమాచారంతో కూడిన నిర్ణయం తీసుకోవడాన్ని సాధ్యం చేసింది.
రిగ్రెషన్ అంటే ఏమిటో ఇప్పుడు మీకు తెలుసు. పైన చర్చించిన Excel ఉదాహరణలు ఎకనామెట్రిక్స్ రంగంలో ఆచరణాత్మక సమస్యలను పరిష్కరించడంలో మీకు సహాయపడతాయి.
IN తిరోగమన గణాంకాలుబహుళ సహసంబంధ గుణకం సూచించబడింది (బహువచనం R)మరియు సంకల్పం (R-స్క్వేర్డ్) Y మరియు కారకాల లక్షణాల శ్రేణి మధ్య (ఇది సహసంబంధ విశ్లేషణలో గతంలో పొందిన విలువలతో సమానంగా ఉంటుంది)
పట్టిక మధ్య భాగం (వ్యత్యాసాల విశ్లేషణ)రిగ్రెషన్ సమీకరణం యొక్క ప్రాముఖ్యతను పరీక్షించడానికి అవసరం.
పట్టిక దిగువన - ఖచ్చితమైనది
సాధారణ రిగ్రెషన్ కోఎఫీషియంట్స్ ద్వి యొక్క తుది అంచనాలు ద్వి, వాటి ప్రాముఖ్యత మరియు విరామ అంచనాను పరీక్షించడం.
కోఎఫీషియంట్స్ b వెక్టర్ అంచనా (కాలమ్ అసమానత):
అప్పుడు రిగ్రెషన్ సమీకరణ అంచనా రూపాన్ని కలిగి ఉంటుంది:
రిగ్రెషన్ సమీకరణం యొక్క ప్రాముఖ్యతను మరియు ఫలితంగా వచ్చే రిగ్రెషన్ కోఎఫీషియంట్లను తనిఖీ చేయడం అవసరం.
b=0.05 స్థాయిలో రిగ్రెషన్ సమీకరణం యొక్క ప్రాముఖ్యతను తనిఖీ చేద్దాం, అనగా. పరికల్పన H0: в1=в2=в3=…=вk=0. దీన్ని చేయడానికి, F-గణాంకం యొక్క గమనించిన విలువ లెక్కించబడుతుంది:
Excel దీన్ని ఫలితాలలో చూపుతుంది వైవిధ్యం యొక్క విశ్లేషణ:
QR=527.4296; Qost=1109.8673 =>
నిలువు వరుసలో ఎఫ్విలువ సూచించబడుతుంది ఎఫ్గమనించదగినది.
F-పంపిణీ పట్టికల నుండి లేదా అంతర్నిర్మిత స్టాటిస్టికల్ ఫంక్షన్ని ఉపయోగించడం ఎఫ్కనుగొనండిప్రాముఖ్యత స్థాయి b=0.05 మరియు న్యూమరేటర్ n1=k=4 మరియు హారం n2=n-k-1=45 ఫ్రీక్వెన్సీ డిగ్రీల సంఖ్య కోసం మేము F-గణాంకాల యొక్క క్లిష్టమైన విలువను సమానంగా కనుగొంటాము
Fcr = 2.578739184
F-గణాంకం యొక్క గమనించిన విలువ దాని క్లిష్టమైన విలువ 8.1957 > 2.7587ను మించిపోయింది కాబట్టి, గుణకాల వెక్టర్ యొక్క సమానత్వం గురించి పరికల్పన 0.05 యొక్క లోపం సంభావ్యతతో తిరస్కరించబడింది. పర్యవసానంగా, వెక్టర్ b=(b1,b2,b3,b4)T యొక్క కనీసం ఒక మూలకం సున్నా నుండి గణనీయంగా భిన్నంగా ఉంటుంది.
రిగ్రెషన్ సమీకరణం యొక్క వ్యక్తిగత గుణకాల యొక్క ప్రాముఖ్యతను తనిఖీ చేద్దాం, అనగా. పరికల్పన .
రిగ్రెషన్ కోఎఫీషియంట్స్ యొక్క ప్రాముఖ్యతను పరీక్షించడం ప్రాముఖ్యత స్థాయికి t-గణాంకాల ఆధారంగా నిర్వహించబడుతుంది.
t-గణాంకాల యొక్క గమనించిన విలువలు కాలమ్లోని ఫలితాల పట్టికలో సూచించబడ్డాయి t- గణాంకాలు.
గుణకాలు (ద్వి) |
t-గణాంకాలు (టాబ్) |
||
Y-ఖండన | |||
వేరియబుల్ X5 | |||
వేరియబుల్ X7 | |||
వేరియబుల్ X10 | |||
వేరియబుల్ X15 |
వాటిని ప్రాముఖ్యత స్థాయి b=0.05 మరియు n=n – k - 1 డిగ్రీల ఫ్రీక్వెన్సీ కోసం కనుగొనబడిన క్లిష్టమైన విలువ tcrతో పోల్చాలి.
దీన్ని చేయడానికి, మేము అంతర్నిర్మిత Excel స్టాటిస్టికల్ ఫంక్షన్ని ఉపయోగిస్తాము స్టడీస్పోబర్,ప్రతిపాదిత మెనూలోకి ప్రవేశించడం ద్వారా సంభావ్యత b = 0.05 మరియు స్వేచ్ఛ డిగ్రీల సంఖ్య n = n-k-1 = 50-4-1 = 45. (మీరు గణిత గణాంకాల పట్టికల నుండి tcr విలువలను కనుగొనవచ్చు.
మనకు tcr = 2.014103359 వస్తుంది.
t-గణాంకాల యొక్క గమనించిన విలువ కోసం సంపూర్ణ విలువ 2.0141>|-0.0872|, 2.0141>|0.2630|, 2.0141>|0.7300|, 2.0141>|-1.6629 |
పర్యవసానంగా, ఈ గుణకాలు సున్నాకి సమానం అనే పరికల్పన 0.05 లోపం సంభావ్యతతో తిరస్కరించబడదు, అనగా. సంబంధిత గుణకాలు చాలా తక్కువగా ఉంటాయి.
t-గణాంకాల యొక్క గమనించిన విలువ క్లిష్టమైన విలువ మాడ్యులో |3.7658|>2.0141 కంటే ఎక్కువగా ఉంటుంది, కాబట్టి, పరికల్పన H0 తిరస్కరించబడింది, అనగా. - ముఖ్యమైనది
రిగ్రెషన్ కోఎఫీషియంట్స్ యొక్క ప్రాముఖ్యత కూడా ఫలిత పట్టికలోని క్రింది నిలువు వరుసల ద్వారా తనిఖీ చేయబడుతుంది:
కాలమ్ p-అర్థం 5% సరిహద్దు స్థాయిలో మోడల్ పారామితుల యొక్క ప్రాముఖ్యతను చూపుతుంది, అనగా. p≤0.05 అయితే, సంబంధిత గుణకం ముఖ్యమైనదిగా పరిగణించబడుతుంది, p>0.05 అయితే, అది అంతగా ఉండదు.
మరియు చివరి నిలువు వరుసలు - తక్కువ 95%మరియు ఎగువ 95%మరియు దిగువ 98%మరియు టాప్ 98% -ఇవి r = 0.95 (ఎల్లప్పుడూ జారీ చేయబడినవి) మరియు r = 0.98 (సంబంధిత అదనపు విశ్వసనీయతను సెట్ చేసినప్పుడు జారీ చేయబడినవి) కోసం పేర్కొన్న విశ్వసనీయత స్థాయిలతో రిగ్రెషన్ కోఎఫీషియంట్స్ యొక్క విరామ అంచనాలు.
దిగువ మరియు ఎగువ పరిమితులు ఒకే గుర్తును కలిగి ఉంటే (విశ్వాస విరామంలో సున్నా చేర్చబడలేదు), అప్పుడు సంబంధిత రిగ్రెషన్ కోఎఫీషియంట్ ముఖ్యమైనదిగా పరిగణించబడుతుంది, లేకుంటే అది చాలా తక్కువగా పరిగణించబడుతుంది
పట్టిక నుండి చూడగలిగినట్లుగా, గుణకం b3 p-విలువ p=0.0005 కోసం<0,05 и доверительные интервалы не включают ноль, т.е. по всем проверочным критериям этот коэффициент является значимым.
అతితక్కువ రిగ్రెసర్లను మినహాయించడంతో స్టెప్వైస్ రిగ్రెషన్ విశ్లేషణ యొక్క అల్గోరిథం ప్రకారం, తదుపరి దశలో ఒక ముఖ్యమైన రిగ్రెషన్ కోఎఫీషియంట్ ఉన్న వేరియబుల్ను పరిగణనలోకి తీసుకోవడం నుండి మినహాయించడం అవసరం.
రిగ్రెషన్ అసెస్మెంట్ సమయంలో అనేక ముఖ్యమైన గుణకాలు గుర్తించబడినప్పుడు, రిగ్రెషన్ సమీకరణం నుండి మినహాయించబడిన మొదటిది రిగ్రెసర్, దీని కోసం t-గణాంకం () సంపూర్ణ విలువలో తక్కువగా ఉంటుంది. ఈ సూత్రం ప్రకారం, తదుపరి దశలో వేరియబుల్ X5 మినహాయించాల్సిన అవసరం ఉంది, ఇది చాలా తక్కువ రిగ్రెషన్ కోఎఫీషియంట్ b2 కలిగి ఉంటుంది.
తిరోగమన విశ్లేషణ యొక్క II దశ.
మోడల్ X7, X10, X15 కారకాల లక్షణాలను కలిగి ఉంటుంది మరియు X5ని మినహాయిస్తుంది.
ఫలితాల ముగింపు | ||||||||||||||||||
తిరోగమన గణాంకాలు | ||||||||||||||||||
బహువచనం ఆర్ | ||||||||||||||||||
R-స్క్వేర్ | ||||||||||||||||||
సాధారణీకరించిన R-స్క్వేర్డ్ | ||||||||||||||||||
ప్రామాణిక లోపం | ||||||||||||||||||
పరిశీలనలు | ||||||||||||||||||
వైవిధ్యం యొక్క విశ్లేషణ | ||||||||||||||||||
(స్వేచ్ఛ డిగ్రీల సంఖ్య n) |
(స్క్వేర్డ్ విచలనాల మొత్తం Q) |
(సగటు చదరపు MS=SS/n) |
(ఫోబ్స్ = MSR/MSost) |
ప్రాముఖ్యత ఎఫ్ |
||||||||||||||
తిరోగమనం | ||||||||||||||||||
అసమానత |
ప్రామాణిక లోపం |
t-స్టా-టిస్టిక్స్ |
పి-విలువ |
టాప్ 95% (బైమాక్స్) |
తక్కువ 98% (బిమిన్) | |||||||||||||
Y-ఖండన | ||||||||||||||||||
వేరియబుల్ X7 | ||||||||||||||||||
వేరియబుల్ X10 | ||||||||||||||||||
వేరియబుల్ X15 | ||||||||||||||||||
లీనియర్ రిగ్రెషన్ మోడల్
కాబట్టి, అనేక స్వతంత్ర యాదృచ్ఛిక వేరియబుల్స్ X1, X2, ..., Xn (ప్రిడిక్టర్లు) మరియు వాటిపై ఆధారపడిన విలువ Y (ప్రిడిక్టర్ల యొక్క అవసరమైన అన్ని పరివర్తనలు ఇప్పటికే చేయబడ్డాయి అని భావించబడుతుంది). అంతేకాకుండా, సంబంధం సరళంగా ఉంటుందని మరియు లోపాలు సాధారణంగా పంపిణీ చేయబడతాయని మేము అనుకుంటాము, అనగాI ఎక్కడ n x n యూనిట్ స్క్వేర్ మ్యాట్రిక్స్.
కాబట్టి, మేము Y మరియు Xi పరిమాణాల యొక్క k పరిశీలనలతో కూడిన డేటాను కలిగి ఉన్నాము మరియు మేము గుణకాలను అంచనా వేయాలనుకుంటున్నాము. గుణకం అంచనాలను కనుగొనడానికి ప్రామాణిక పద్ధతి తక్కువ చతురస్రాల పద్ధతి. మరియు ఈ పద్ధతిని వర్తింపజేయడం ద్వారా పొందగలిగే విశ్లేషణాత్మక పరిష్కారం ఇలా కనిపిస్తుంది:
ఎక్కడ బిమూతతో - కోఎఫీషియంట్స్ వెక్టర్ అంచనా, వైడిపెండెంట్ వేరియబుల్ యొక్క విలువల వెక్టర్, మరియు X అనేది పరిమాణం k x n+1 యొక్క మాతృక (n అనేది ప్రిడిక్టర్ల సంఖ్య, k అనేది పరిశీలనల సంఖ్య), దీనిలో మొదటి నిలువు వరుస వాటిని కలిగి ఉంటుంది, రెండవది - మొదటి ప్రిడిక్టర్ యొక్క విలువలు, మూడవది - రెండవది మరియు మొదలైనవి మరియు ఇప్పటికే ఉన్న పరిశీలనలకు అనుగుణంగా వరుసలు.
summary.lm() ఫంక్షన్ మరియు ఫలిత ఫలితాల మూల్యాంకనం
ఇప్పుడు R లో లీనియర్ రిగ్రెషన్ మోడల్ను నిర్మించే ఉదాహరణను చూద్దాం:> లైబ్రరీ(దూరం) > lm1<-lm(Species~Area+Elevation+Nearest+Scruz+Adjacent, data=gala) >సారాంశం(lm1) కాల్: lm(ఫార్ములా = జాతులు ~ ప్రాంతం + ఎలివేషన్ + సమీప + స్క్రజ్ + ప్రక్కనే, డేటా = గాలా) అవశేషాలు: కనిష్ట 1Q మధ్యస్థం 3Q గరిష్టం -111.679 -34.898 -7.862 33.460 182.584 STdsd.584 లోపం t విలువ Pr(>|t|) (అంతరాయం) 7.068221 19.154198 0.369 0.715351 ప్రాంతం -0.023938 0.022422 -1.068 0.296318 ఎలివేషన్ 0.36050.36505 *** సమీప 0.009144 1.054136 0.009 0.993151 స్క్రూజ్ -0.240524 0.215402 -1.117 0.275208 ప్రక్కనే -0.074805 0.017700 -4.226 0.000297 *** --- Signif. కోడ్లు: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 అవశేష ప్రామాణిక లోపం: 60.98 24 డిగ్రీల స్వేచ్ఛపై బహుళ R-స్క్వేర్డ్: 0.7658, సర్దుబాటు చేసిన R-స్క్వేర్డ్: F-71. గణాంకాలు: 5 మరియు 24 DFలో 15.7, p-విలువ: 6.838e-07
టేబుల్ గాలాలో 30 గాలాపాగోస్ దీవుల గురించి కొంత సమాచారం ఉంది. మేము నమూనాను పరిశీలిస్తాము, ఇక్కడ జాతులు - ద్వీపంలోని వివిధ వృక్ష జాతుల సంఖ్య అనేక ఇతర వేరియబుల్స్పై సరళంగా ఆధారపడి ఉంటుంది.
summary.lm() ఫంక్షన్ యొక్క అవుట్పుట్ని చూద్దాం.
మొదట మోడల్ ఎలా నిర్మించబడిందో గుర్తుచేసే ఒక లైన్ వస్తుంది.
అప్పుడు అవశేషాల పంపిణీ గురించి సమాచారం వస్తుంది: కనిష్ట, మొదటి క్వార్టైల్, మధ్యస్థ, మూడవ త్రైమాసికం, గరిష్టం. ఈ సమయంలో అవశేషాల యొక్క కొన్ని పరిమాణాలను చూడటమే కాకుండా, వాటిని సాధారణత కోసం పరీక్షించడానికి కూడా ఉపయోగకరంగా ఉంటుంది, ఉదాహరణకు షాపిరో-విల్క్ పరీక్షతో.
తదుపరి - అత్యంత ఆసక్తికరమైన - గుణకాల గురించి సమాచారం. ఇక్కడ ఒక చిన్న సిద్ధాంతం అవసరం.
మొదట మేము ఈ క్రింది ఫలితాన్ని వ్రాస్తాము:
క్యాప్డ్ సిగ్మా స్క్వేర్డ్ నిజమైన సిగ్మా స్క్వేర్డ్కు నిష్పాక్షికమైన అంచనా. ఇక్కడ బిగుణకాల యొక్క నిజమైన వెక్టార్, మరియు మూతతో కూడిన ఎప్సిలాన్ అనేది అవశేషాల వెక్టర్, మనం కనీసం చతురస్రాల పద్ధతి ద్వారా పొందిన అంచనాలను గుణకాలుగా తీసుకుంటే. అంటే, లోపాలు సాధారణంగా పంపిణీ చేయబడతాయనే భావనలో, గుణకాల యొక్క వెక్టర్ కూడా వాస్తవ విలువ చుట్టూ సాధారణంగా పంపిణీ చేయబడుతుంది మరియు దాని వ్యత్యాసాన్ని నిష్పాక్షికంగా అంచనా వేయవచ్చు. దీని అర్థం మీరు సున్నాకి గుణకాల సమానత్వం కోసం పరికల్పనను పరీక్షించవచ్చు మరియు అందువల్ల ప్రిడిక్టర్ల యొక్క ప్రాముఖ్యతను తనిఖీ చేయవచ్చు, అంటే, Xi విలువ నిజంగా నిర్మించిన మోడల్ నాణ్యతను బాగా ప్రభావితం చేస్తుందో లేదో.
ఈ పరికల్పనను పరీక్షించడానికి, మాకు ఈ క్రింది గణాంకాలు అవసరం, గుణకం ద్వి యొక్క వాస్తవ విలువ 0 అయితే విద్యార్థి పంపిణీని కలిగి ఉంటుంది:
ఎక్కడ గుణకం అంచనా యొక్క ప్రామాణిక లోపం, మరియు t(k-n-1) అనేది k-n-1 డిగ్రీల స్వేచ్ఛతో విద్యార్థి పంపిణీ.
ఇప్పుడు మీరు summary.lm() అవుట్పుట్ని అన్వయించడాన్ని కొనసాగించడానికి సిద్ధంగా ఉన్నారు.
కాబట్టి, కిందివి తక్కువ చతురస్రాల పద్ధతి ద్వారా పొందిన గుణకాల అంచనాలు, వాటి ప్రామాణిక లోపాలు, t-గణాంక విలువలు మరియు దాని కోసం p-విలువలు. సాధారణంగా p-విలువ 0.05 లేదా 0.01 వంటి చాలా చిన్న ముందుగా ఎంచుకున్న థ్రెషోల్డ్తో పోల్చబడుతుంది. మరియు p-గణాంక విలువ థ్రెషోల్డ్ కంటే తక్కువగా మారినట్లయితే, అప్పుడు పరికల్పన తిరస్కరించబడుతుంది, కానీ అది ఎక్కువగా ఉంటే, దురదృష్టవశాత్తు, కాంక్రీటుగా ఏమీ చెప్పలేము. ఈ సందర్భంలో, విద్యార్థి పంపిణీ 0 గురించి సుష్టంగా ఉన్నందున, p-విలువ 1-F(|t|)+F(-|t|)కి సమానంగా ఉంటుందని నేను మీకు గుర్తు చేస్తాను, ఇక్కడ F అనేది విద్యార్థి పంపిణీ ఫంక్షన్ k-n-1 డిగ్రీల స్వేచ్ఛతో . అలాగే, R అనేది ఆస్టరిస్క్లతో p-విలువ తగినంత తక్కువగా ఉండే ముఖ్యమైన గుణకాలను సూచిస్తుంది. అంటే, చాలా తక్కువ సంభావ్యతతో ఆ గుణకాలు 0కి సమానం. Signif లైన్లో. సంకేతాలు ఆస్టరిస్క్ల డీకోడింగ్ను కలిగి ఉంటాయి: వాటిలో మూడు ఉంటే, p-విలువ 0 నుండి 0.001 వరకు ఉంటుంది, రెండు ఉంటే, అది 0.001 నుండి 0.01 వరకు ఉంటుంది. చిహ్నాలు లేకుంటే, p-విలువ 0.1 కంటే ఎక్కువగా ఉంటుంది.
మా ఉదాహరణలో, ఎలివేషన్ మరియు ప్రక్కనే ఉన్న ప్రిడిక్టర్లు నిజంగా జాతుల విలువను ఎక్కువగా ప్రభావితం చేస్తాయని మేము గొప్ప విశ్వాసంతో చెప్పగలము, అయితే ఇతర ప్రిడిక్టర్ల గురించి ఖచ్చితంగా ఏమీ చెప్పలేము. సాధారణంగా, అటువంటి సందర్భాలలో, ప్రిడిక్టర్లు ఒక్కొక్కటిగా తీసివేయబడతాయి మరియు మోడల్ యొక్క ఇతర సూచికలు ఎలా మారతాయో చూడండి, ఉదాహరణకు BIC లేదా సర్దుబాటు చేయబడిన R-స్క్వేర్డ్, ఇది మరింత చర్చించబడుతుంది.
అవశేష ప్రామాణిక లోపం విలువ కేవలం టోపీతో సిగ్మా అంచనాకు అనుగుణంగా ఉంటుంది మరియు స్వేచ్ఛ యొక్క డిగ్రీలు k-n-1గా గణించబడతాయి.
మరియు ఇప్పుడు మీరు ముందుగా చూడవలసిన ముఖ్యమైన గణాంకాలు: R-స్క్వేర్డ్ మరియు సర్దుబాటు చేయబడిన R-స్క్వేర్డ్:
ఇక్కడ Yi అనేది ప్రతి పరిశీలనలో Y యొక్క నిజమైన విలువలు, టోపీతో Yi అనేది మోడల్ ద్వారా అంచనా వేయబడిన విలువలు, ఒక బార్తో Y అనేది Yi యొక్క అన్ని వాస్తవ విలువలపై సగటు.
R-స్క్వేర్డ్ స్టాటిస్టిక్తో ప్రారంభిద్దాం లేదా కొన్నిసార్లు దీనిని డిటర్మినేషన్ కోఎఫీషియంట్ అని పిలుస్తారు. ఈ గుణకం 1కి దగ్గరగా ఉన్నట్లయితే, మోడల్ యొక్క నియత వైవిధ్యం వాస్తవ Y విలువల వ్యత్యాసం నుండి ఎంత భిన్నంగా ఉందో చూపిస్తుంది, అప్పుడు మోడల్ యొక్క నియత వ్యత్యాసం చాలా తక్కువగా ఉంటుంది మరియు మోడల్ డేటాను బాగా వివరించే అవకాశం ఉంది. . R- స్క్వేర్డ్ కోఎఫీషియంట్ చాలా తక్కువగా ఉంటే, ఉదాహరణకు, 0.5 కంటే తక్కువ, అప్పుడు, అధిక స్థాయి విశ్వాసంతో, మోడల్ వాస్తవ వ్యవహారాల స్థితిని ప్రతిబింబించదు.
అయితే, R-స్క్వేర్డ్ స్టాటిస్టిక్లో ఒక తీవ్రమైన లోపం ఉంది: ప్రిడిక్టర్ల సంఖ్య పెరిగేకొద్దీ, ఈ గణాంకం మాత్రమే పెరుగుతుంది. అందువల్ల, అన్ని కొత్త ప్రిడిక్టర్లు డిపెండెంట్ వేరియబుల్పై ప్రభావం చూపనప్పటికీ, తక్కువ ఉన్న మోడల్ కంటే ఎక్కువ ప్రిడిక్టర్లు ఉన్న మోడల్ మెరుగ్గా ఉన్నట్లు కనిపించవచ్చు. ఇక్కడ మీరు Occam యొక్క రేజర్ సూత్రాన్ని గుర్తుంచుకోవచ్చు. దీన్ని అనుసరించడం, వీలైతే, మోడల్లోని అనవసరమైన ప్రిడిక్టర్లను వదిలించుకోవడం విలువైనదే, ఎందుకంటే ఇది సరళమైనది మరియు మరింత అర్థమయ్యేలా మారుతుంది. ఈ ప్రయోజనాల కోసం, సర్దుబాటు చేయబడిన R-స్క్వేర్డ్ స్టాటిస్టిక్ కనుగొనబడింది. ఇది సాధారణ R-స్క్వేర్ను సూచిస్తుంది, అయితే పెద్ద సంఖ్యలో ప్రిడిక్టర్లకు పెనాల్టీ ఉంటుంది. ప్రధాన ఆలోచన: కొత్త స్వతంత్ర వేరియబుల్స్ మోడల్ యొక్క నాణ్యతకు పెద్ద సహకారం అందించినట్లయితే, ఈ గణాంకం యొక్క విలువ పెరుగుతుంది, అయితే, దీనికి విరుద్ధంగా, అది తగ్గుతుంది.
ఉదాహరణకు, మునుపటి మాదిరిగానే అదే మోడల్ను పరిగణించండి, కానీ ఇప్పుడు ఐదు ప్రిడిక్టర్లకు బదులుగా, రెండింటిని వదిలివేద్దాం:
>lm2<-lm(Species~Elevation+Adjacent, data=gala)
>సారాంశం(lm2) కాల్: lm(ఫార్ములా = జాతులు ~ ఎలివేషన్ + ప్రక్కనే, డేటా = గాలా) అవశేషాలు: కనిష్ట 1Q మధ్యస్థ 3Q గరిష్టం -103.41 -34.33 -11.43 22.57 203.65 కోఎఫీషియంట్స్: ఎస్టిమేట్ Std. లోపం T విలువ PR (> | T |) (అంతరాయం) 1.43287 15.02469 0.095 0.924727 ఎలివేషన్ 0.27657 0.03176 8.707 2.53E -09 *** ప్రక్కనే --0480.040.060. ---- ఉంటే సంతకం చేయండి. కోడ్లు: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 అవశేష ప్రామాణిక లోపం: 27 డిగ్రీల స్వేచ్ఛపై 60.86 బహుళ R-స్క్వేర్డ్: 0.7376, సర్దుబాటు చేసిన R-స్క్వేర్డ్: F-718. గణాంకాలు: 2 మరియు 27 DFలో 37.94, p-విలువ: 1.434e-08
మీరు చూడగలిగినట్లుగా, R-స్క్వేర్డ్ స్టాటిస్టిక్ విలువ తగ్గింది, అయితే సర్దుబాటు చేయబడిన R-స్క్వేర్డ్ విలువ కొద్దిగా పెరిగింది.
ఇప్పుడు ప్రిడిక్టర్ల యొక్క అన్ని గుణకాలు సున్నాకి సమానం అనే పరికల్పనను తనిఖీ చేద్దాం. అంటే, Y యొక్క విలువ సాధారణంగా Xi యొక్క విలువలపై ఆధారపడి ఉంటుందా అనే పరికల్పన. దీన్ని చేయడానికి, మీరు క్రింది గణాంకాలను ఉపయోగించవచ్చు, అన్ని గుణకాలు సున్నాకి సమానం అనే పరికల్పన నిజమైతే,
నిర్మించిన మోడల్ నాణ్యతను అంచనా వేయండి. సింగిల్ ఫ్యాక్టర్ మోడల్తో పోలిస్తే మోడల్ నాణ్యత మెరుగుపడిందా? స్థితిస్థాపకత గుణకాలు, - మరియు -గుణకాలను ఉపయోగించి ఫలితంపై ముఖ్యమైన కారకాల ప్రభావాన్ని అంచనా వేయండి.
నిర్ధారణ గుణకం ఆర్-స్క్వేర్డ్ "రిగ్రెషన్" ఫలితాల నుండి తీసుకోబడుతుంది (మోడల్ (6) కోసం టేబుల్ "రిగ్రెషన్ గణాంకాలు").
పర్యవసానంగా, అపార్ట్మెంట్ ధరలో వైవిధ్యం (మార్పు). వైఈ సమీకరణం ప్రకారం, 76.77% ప్రాంతం యొక్క నగరం యొక్క వైవిధ్యం ద్వారా వివరించబడింది X 1 , అపార్ట్మెంట్లో గదుల సంఖ్య X 2 మరియు నివాస స్థలం X 4 .
మేము అసలు డేటాను ఉపయోగిస్తాము వై iమరియు అవశేషాలు రిగ్రెషన్ సాధనం ద్వారా కనుగొనబడ్డాయి (మోడల్ (6) కోసం టేబుల్ “మిగిలిన అవుట్పుట్”). సంబంధిత లోపాలను లెక్కించి, సగటు విలువను కనుగొనండి
.
మిగిలిన వాటి ఉపసంహరణ
పరిశీలన | ఊహించిన వై | మిగిలిపోయినవి | Rel. లోపం |
1 | 45,95089273 | -7,95089273 | 20,92340192 |
2 | 86,10296493 | -23,90296493 | 38,42920407 |
3 | 94,84442678 | 30,15557322 | 24,12445858 |
4 | 84,17648426 | -23,07648426 | 37,76838667 |
5 | 40,2537216 | 26,7462784 | 39,91981851 |
6 | 68,70572376 | 24,29427624 | 26,12287768 |
7 | 143,7464899 | -25,7464899 | 21,81905923 |
8 | 106,0907598 | 25,90924022 | 19,62821228 |
9 | 135,357993 | -42,85799303 | 46,33296544 |
10 | 114,4792566 | -9,47925665 | 9,027863476 |
11 | 41,48765602 | 0,512343975 | 1,219866607 |
12 | 103,2329236 | 21,76707636 | 17,41366109 |
13 | 130,3567798 | 39,64322022 | 23,3195413 |
14 | 35,41901876 | 2,580981242 | 6,7920559 |
15 | 155,4129693 | -24,91296925 | 19,0903979 |
16 | 84,32108188 | 0,678918123 | 0,798727204 |
17 | 98,0552279 | -0,055227902 | 0,056355002 |
18 | 144,2104618 | -16,21046182 | 12,66442329 |
19 | 122,8677535 | -37,86775351 | 44,55029825 |
20 | 100,0221225 | 59,97787748 | 37,48617343 |
21 | 53,27196558 | 6,728034423 | 11,21339071 |
22 | 35,06605378 | 5,933946225 | 14,47303957 |
23 | 114,4792566 | -24,47925665 | 27,19917406 |
24 | 113,1343153 | -30,13431529 | 36,30640396 |
25 | 40,43190991 | 4,568090093 | 10,15131132 |
26 | 39,34427892 | -0,344278918 | 0,882766457 |
27 | 144,4794501 | -57,57945009 | 66,25943623 |
28 | 56,4827667 | -16,4827667 | 41,20691675 |
29 | 95,38240332 | -15,38240332 | 19,22800415 |
30 | 228,6988826 | -1,698882564 | 0,748406416 |
31 | 222,8067278 | 12,19327221 | 5,188626473 |
32 | 38,81483144 | 1,185168555 | 2,962921389 |
33 | 48,36325811 | 18,63674189 | 27,81603267 |
34 | 126,6080021 | -3,608002113 | 2,933335051 |
35 | 84,85052935 | 15,14947065 | 15,14947065 |
36 | 116,7991162 | -11,79911625 | 11,23725357 |
37 | 84,17648426 | -13,87648426 | 19,73895342 |
38 | 113,9412801 | -31,94128011 | 38,95278062 |
39 | 215,494184 | 64,50581599 | 23,03779142 |
40 | 141,7795953 | 58,22040472 | 29,11020236 |
సగటు | 101,2375 | 22,51770962 |
సంబంధిత లోపాల కాలమ్ని ఉపయోగించి మనం సగటు విలువను కనుగొంటాము =22.51% (AVERAGE ఫంక్షన్ని ఉపయోగించి).
పోలిక 22.51%>7% అని చూపిస్తుంది. పర్యవసానంగా, మోడల్ యొక్క ఖచ్చితత్వం సంతృప్తికరంగా లేదు.
ఉపయోగించడం ద్వార ఎఫ్ - ఫిషర్ ప్రమాణం మొత్తంగా మోడల్ యొక్క ప్రాముఖ్యతను తనిఖీ చేద్దాం. దీన్ని చేయడానికి, మేము "రిగ్రెషన్" సాధనాన్ని ఉపయోగించి ఫలితాల నుండి వ్రాస్తాము (మోడల్ (6) కోసం టేబుల్ "వ్యత్యాసాల విశ్లేషణ") ఎఫ్= 39,6702.
FRIST ఫంక్షన్ ఉపయోగించి మేము విలువను కనుగొంటాము ఎఫ్ cr =3.252 ప్రాముఖ్యత స్థాయి కోసం α = 5%, మరియు స్వేచ్ఛ డిగ్రీల సంఖ్యలు కె 1 = 2 , కె 2 = 37 .
ఎఫ్> ఎఫ్ cr, కాబట్టి, మోడల్ (6) యొక్క సమీకరణం ముఖ్యమైనది, దాని ఉపయోగం మంచిది, డిపెండెంట్ వేరియబుల్ వైమోడల్ (6)లో చేర్చబడిన ఫ్యాక్టర్ వేరియబుల్స్ ద్వారా బాగా వివరించబడింది X 1 , X 2. మరియు X 4 .
అదనంగా ఉపయోగించడం t -విద్యార్థుల టి పరీక్ష మోడల్ యొక్క వ్యక్తిగత గుణకాల యొక్క ప్రాముఖ్యతను తనిఖీ చేద్దాం.
t-రిగ్రెషన్ సమీకరణం యొక్క గుణకాల గణాంకాలు "రిగ్రెషన్" సాధనం యొక్క ఫలితాలలో ఇవ్వబడ్డాయి. ఎంచుకున్న మోడల్ (6) కోసం క్రింది విలువలు పొందబడ్డాయి:
అసమానత | ప్రామాణిక లోపం | t-గణాంకం | పి-విలువ | దిగువ 95% | టాప్ 95% | దిగువ 95.0% | టాప్ 95.0% |
|
Y-ఖండన | -5,643572321 | 12,07285417 | -0,46745966 | 0,642988 | -30,1285 | 18,84131 | -30,1285 | 18,84131 |
X4 | 2,591405557 | 0,461440597 | 5,61590284 | 2.27E-06 | 1,655561 | 3,52725 | 1,655561 | 3,52725 |
X1 | 6,85963077 | 9,185748512 | 0,74676884 | 0,460053 | -11,7699 | 25,48919 | -11,7699 | 25,48919 |
X2 | -1,985156991 | 7,795346067 | -0,25465925 | 0,800435 | -17,7949 | 13,82454 | -17,7949 | 13,82454 |
క్లిష్టమైన విలువ t crప్రాముఖ్యత స్థాయి కోసం కనుగొనబడింది α=5%మరియు స్వేచ్ఛ డిగ్రీల సంఖ్య కె=40–2–1=37 . t cr =2.026 (STUDAR ఫంక్షన్).
ఉచిత అసమానత కోసం α
=–5.643
గణాంకాలు నిర్వచించబడ్డాయి ,
t crఅందువల్ల, ఉచిత గుణకం ముఖ్యమైనది కాదు మరియు మోడల్ నుండి మినహాయించబడుతుంది.
రిగ్రెషన్ కోఎఫీషియంట్ కోసం β
1
=6.859
గణాంకాలు నిర్వచించబడ్డాయి ,
β
1
ముఖ్యమైనది కాదు, ఇది మరియు ప్రాంతీయ నగర కారకాన్ని మోడల్ నుండి తీసివేయవచ్చు.
రిగ్రెషన్ కోఎఫీషియంట్ కోసం β
2
=-1,985
గణాంకాలు నిర్వచించబడ్డాయి ,
t cr, కాబట్టి, రిగ్రెషన్ కోఎఫీషియంట్ β
2
ముఖ్యమైనది కాదు, ఇది మరియు అపార్ట్మెంట్లోని గదుల సంఖ్య యొక్క కారకాన్ని మోడల్ నుండి మినహాయించవచ్చు.
రిగ్రెషన్ కోఎఫీషియంట్ కోసం β
4
=2.591
గణాంకాలు నిర్వచించబడ్డాయి ,
> t cr, కాబట్టి, రిగ్రెషన్ కోఎఫీషియంట్ β
4
ముఖ్యమైనది, ఇది మరియు అపార్ట్మెంట్ యొక్క నివాస ప్రాంతం యొక్క కారకాన్ని మోడల్లో ఉంచవచ్చు.
మోడల్ కోఎఫీషియంట్స్ యొక్క ప్రాముఖ్యత గురించి ముగింపులు ప్రాముఖ్యత స్థాయిలో చేయబడతాయి α=5%. P- విలువ కాలమ్ను చూస్తే, ఉచిత గుణకం అని మేము గమనించాము α 0.64 = 64% స్థాయిలో ముఖ్యమైనదిగా పరిగణించవచ్చు; తిరోగమన గుణకం β 1 - 0.46 = 46% స్థాయిలో; తిరోగమన గుణకం β 2 - 0.8 = 80% స్థాయిలో; మరియు రిగ్రెషన్ కోఎఫీషియంట్ β 4 – 2.27E-06= 2.26691790951854E-06 = 0.0000002% స్థాయిలో.
సమీకరణానికి కొత్త కారకం వేరియబుల్స్ జోడించబడినప్పుడు, నిర్ణయ గుణకం స్వయంచాలకంగా పెరుగుతుంది ఆర్ 2
మరియు సగటు ఉజ్జాయింపు లోపం తగ్గుతుంది, అయినప్పటికీ మోడల్ నాణ్యత ఎల్లప్పుడూ మెరుగుపడదు. అందువల్ల, మోడల్ (3) మరియు ఎంచుకున్న బహుళ మోడల్ (6) నాణ్యతను సరిపోల్చడానికి, మేము సాధారణీకరించిన గుణకాల నిర్ధారణను ఉపయోగిస్తాము.
అందువల్ల, రిగ్రెషన్ సమీకరణానికి "ప్రాంతం యొక్క నగరం" అనే కారకాన్ని జోడించేటప్పుడు X 1 మరియు అంశం "అపార్ట్మెంట్లోని గదుల సంఖ్య" X 2 మోడల్ యొక్క నాణ్యత క్షీణించింది, ఇది కారకాలను తొలగించడానికి అనుకూలంగా మాట్లాడుతుంది X 1 మరియు Xమోడల్ నుండి 2.
తదుపరి లెక్కలు చేద్దాం.
సగటు స్థితిస్థాపకత గుణకాలు
సరళ నమూనా విషయంలో సూత్రాల ద్వారా నిర్ణయించబడతాయి .
AVERAGE ఫంక్షన్ని ఉపయోగించి మనం కనుగొన్నాము: S వై, కారకంలో మాత్రమే పెరుగుదలతో X 4 ఒక ప్రామాణిక విచలనం ద్వారా - 0.914 పెరుగుతుంది ఎస్ వై
డెల్టా కోఎఫీషియంట్స్
సూత్రాల ద్వారా నిర్ణయించబడతాయి .
ఎక్సెల్లోని "డేటా అనాలిసిస్" ప్యాకేజీ యొక్క "కోరిలేషన్" సాధనాన్ని ఉపయోగించి జత సహసంబంధ గుణకాలను కనుగొనండి.
వై | X1 | X2 | X4 |
|
వై | 1 | |||
X1 | -0,01126 | 1 | ||
X2 | 0,751061 | -0,0341 | 1 | |
X4 | 0,874012 | -0,0798 | 0,868524 | 1 |
నిర్ణయం యొక్క గుణకం ముందుగా నిర్ణయించబడింది మరియు 0.7677కి సమానం.
డెల్టా గుణకాలను గణిద్దాం:
;
Δ 1 నుండి 1
మరియు X 2
తప్పుగా ఎంపిక చేయబడింది మరియు వాటిని మోడల్ నుండి తీసివేయాలి. దీనర్థం, ఫలిత రేఖీయ మూడు-కారకాల నమూనా యొక్క సమీకరణం ప్రకారం, ఫలిత కారకంలో మార్పు వై(అపార్ట్మెంట్ ధరలు) కారకం ప్రభావంతో 104% వివరించబడింది X 4
(అపార్ట్మెంట్ యొక్క నివాస ప్రాంతం), 4% కారకం ద్వారా ప్రభావితమవుతుంది X 2
(గదుల సంఖ్య), కారకం ద్వారా 0.0859% ప్రభావితం చేయబడింది X 1
(ప్రాంతం యొక్క నగరం).