బహుళ సరళ సహసంబంధం. రెండు స్వతంత్ర వేరియబుల్స్

ఎక్సెల్ విశ్లేషణ ప్యాకేజీ (రిగ్రెషన్) ఉపయోగిస్తున్నప్పుడు లీనియర్ రిగ్రెషన్ నిర్మాణం, దాని పారామితుల మూల్యాంకనం మరియు వాటి ప్రాముఖ్యత చాలా వేగంగా నిర్వహించబడతాయి. సాధారణ సందర్భంలో పొందిన ఫలితాల వివరణను పరిశీలిద్దాం ( కెవివరణాత్మక వేరియబుల్స్) ఉదాహరణ 3.6 ప్రకారం.

పట్టికలో తిరోగమన గణాంకాలుకింది విలువలు ఇవ్వబడ్డాయి:

బహుళ ఆర్ - బహుళ సహసంబంధ గుణకం;

ఆర్- చతురస్రం- నిర్ధారణ గుణకం ఆర్ 2 ;

సాధారణీకరించబడింది ఆర్ - చతురస్రం- సర్దుబాటు ఆర్ 2 స్వేచ్ఛ డిగ్రీల సంఖ్యకు సర్దుబాటు చేయబడింది;

ప్రామాణిక లోపం- రిగ్రెషన్ ప్రామాణిక లోపం ఎస్;

పరిశీలనలు -పరిశీలనల సంఖ్య n.

పట్టికలో వైవిధ్యం యొక్క విశ్లేషణఇవ్వబడ్డాయి:

1. కాలమ్ df - సమానమైన స్వేచ్ఛ డిగ్రీల సంఖ్య

స్ట్రింగ్ కోసం తిరోగమనం df = కె;

స్ట్రింగ్ కోసం శేషంdf = nకె – 1;

స్ట్రింగ్ కోసం మొత్తంdf = n– 1.

2. కాలమ్ SS -సమానమైన స్క్వేర్డ్ విచలనాల మొత్తం

స్ట్రింగ్ కోసం తిరోగమనం ;

స్ట్రింగ్ కోసం శేషం ;

స్ట్రింగ్ కోసం మొత్తం .

3. కాలమ్ కుమారిఫార్ములా ద్వారా నిర్ణయించబడిన వ్యత్యాసాలు కుమారి = SS/df:

స్ట్రింగ్ కోసం తిరోగమనం- కారకం వ్యాప్తి;

స్ట్రింగ్ కోసం శేషం- అవశేష వైవిధ్యం.

4. కాలమ్ ఎఫ్ - లెక్కించిన విలువ ఎఫ్సూత్రం ఉపయోగించి లెక్కించిన ప్రమాణం

ఎఫ్ = కుమారి(రిగ్రెషన్)/ కుమారి(సశేషం).

5. కాలమ్ ప్రాముఖ్యత ఎఫ్ - లెక్కించిన దానికి అనుగుణంగా ప్రాముఖ్యత స్థాయి విలువ ఎఫ్- గణాంకాలు .

ప్రాముఖ్యత ఎఫ్= FDIST( F-గణాంకాలు, df(తిరోగమనం), df(సశేషం)).

ప్రాముఖ్యత ఉంటే ఎఫ్ < стандартного уровня значимости, то ఆర్ 2 గణాంకపరంగా ముఖ్యమైనది.

అసమానత ప్రామాణిక లోపం t-గణాంకాలు పి-విలువ దిగువ 95% టాప్ 95%
వై 65,92 11,74 5,61 0,00080 38,16 93,68
X 0,107 0,014 7,32 0,00016 0,0728 0,142

ఈ పట్టిక చూపిస్తుంది:

1. అసమానత- గుణకం విలువలు a, బి.

2. ప్రామాణిక లోపం- రిగ్రెషన్ కోఎఫీషియంట్స్ యొక్క ప్రామాణిక లోపాలు ఎస్ ఎ, Sb.



3. t-గణాంకాలు- లెక్కించిన విలువలు t - సూత్రం ద్వారా లెక్కించబడిన ప్రమాణాలు:

t-statistic = గుణకాలు/ప్రామాణిక లోపం.

4.ఆర్-విలువ (ముఖ్యత t) లెక్కించిన దానికి సంబంధించిన ప్రాముఖ్యత స్థాయి విలువ t-గణాంకాలు.

ఆర్-విలువ = విద్యార్థి(t- గణాంకాలు, df(సశేషం)).

ఉంటే ఆర్-అర్థం< стандартного уровня значимости, то соответствующий коэффициент статистически значим.

5. దిగువ 95% మరియు ఎగువ 95%- సైద్ధాంతిక లీనియర్ రిగ్రెషన్ సమీకరణం యొక్క గుణకాల కోసం 95% విశ్వాస అంతరాల దిగువ మరియు ఎగువ పరిమితులు.

మిగిలిన వాటి ఉపసంహరణ
పరిశీలన అంచనా వేసిన వై అవశేషాలు ఇ
72,70 -29,70
82,91 -20,91
94,53 -4,53
105,72 5,27
117,56 12,44
129,70 19,29
144,22 20,77
166,49 24,50
268,13 -27,13

పట్టికలో మిగిలిన వాటి ఉపసంహరణసూచించబడింది:

నిలువు వరుసలో పరిశీలన- పరిశీలన సంఖ్య;

నిలువు వరుసలో ముందే చెప్పబడింది వై - డిపెండెంట్ వేరియబుల్ యొక్క లెక్కించిన విలువలు;

నిలువు వరుసలో మిగిలిపోయినవి - డిపెండెంట్ వేరియబుల్ యొక్క గమనించిన మరియు లెక్కించిన విలువల మధ్య వ్యత్యాసం.

ఉదాహరణ 3.6.ఆహార ఖర్చులపై డేటా (సాంప్రదాయ యూనిట్లు) ఉన్నాయి వైమరియు తలసరి ఆదాయం xతొమ్మిది సమూహాల కుటుంబాలకు:

x
వై

Excel విశ్లేషణ ప్యాకేజీ (రిగ్రెషన్) ఫలితాలను ఉపయోగించి, తలసరి ఆదాయంపై ఆహార ఖర్చుల ఆధారపడటాన్ని మేము విశ్లేషిస్తాము.

రిగ్రెషన్ విశ్లేషణ యొక్క ఫలితాలు సాధారణంగా రూపంలో వ్రాయబడతాయి:

ఇక్కడ రిగ్రెషన్ కోఎఫీషియంట్స్ యొక్క ప్రామాణిక లోపాలు కుండలీకరణాల్లో సూచించబడతాయి.

తిరోగమన గుణకాలు = 65,92 మరియు బి= 0.107. మధ్య కమ్యూనికేషన్ యొక్క దిశ వైమరియు xరిగ్రెషన్ కోఎఫీషియంట్ యొక్క చిహ్నాన్ని నిర్ణయిస్తుంది బి= 0.107, అనగా. కనెక్షన్ ప్రత్యక్షంగా మరియు సానుకూలంగా ఉంటుంది. గుణకం బి= 0.107 తలసరి ఆదాయంలో 1 సంప్రదాయ పెరుగుదలతో చూపిస్తుంది. యూనిట్లు ఆహార ఖర్చులు 0.107 సంప్రదాయ యూనిట్లు పెరుగుతాయి. యూనిట్లు

ఫలిత నమూనా యొక్క కోఎఫీషియంట్స్ యొక్క ప్రాముఖ్యతను మనం అంచనా వేద్దాం. గుణకాల యొక్క ప్రాముఖ్యత ( ఎ, బి) ద్వారా తనిఖీ చేయబడింది t-పరీక్ష:

పి-విలువ ( a) = 0,00080 < 0,01 < 0,05

పి-విలువ ( బి) = 0,00016 < 0,01 < 0,05,

కాబట్టి, గుణకాలు ( ఎ, బి) 1% స్థాయిలో ముఖ్యమైనవి, ఇంకా ఎక్కువగా 5% ప్రాముఖ్యత స్థాయిలో ఉంటాయి. అందువలన, రిగ్రెషన్ కోఎఫీషియంట్స్ ముఖ్యమైనవి మరియు మోడల్ అసలు డేటాకు సరిపోతుంది.

రిగ్రెషన్ అంచనా ఫలితాలు రిగ్రెషన్ కోఎఫీషియంట్స్ యొక్క పొందిన విలువలతో మాత్రమే కాకుండా, వాటి యొక్క నిర్దిష్ట సెట్ (విశ్వాస విరామం)తో కూడా అనుకూలంగా ఉంటాయి. 95% సంభావ్యతతో, కోఎఫీషియంట్‌ల విశ్వాస విరామాలు (38.16 – 93.68) aమరియు (0.0728 - 0.142) కోసం బి.

మోడల్ యొక్క నాణ్యత నిర్ణయం యొక్క గుణకం ద్వారా అంచనా వేయబడుతుంది ఆర్ 2 .

పరిమాణం ఆర్ 2 = 0.884 అంటే తలసరి ఆదాయ కారకం ఆహార ఖర్చులలో 88.4% వైవిధ్యాన్ని (స్కాటర్) వివరించగలదు.

ప్రాముఖ్యత ఆర్ 2 ద్వారా తనిఖీ చేయబడింది F-పరీక్ష: ప్రాముఖ్యత ఎఫ్ = 0,00016 < 0,01 < 0,05, следовательно, ఆర్ 2 1% స్థాయిలో ముఖ్యమైనది మరియు 5% ప్రాముఖ్యత స్థాయిలో మరింత ఎక్కువగా ఉంటుంది.

పెయిర్‌వైస్ లీనియర్ రిగ్రెషన్ విషయంలో, కోరిలేషన్ కోఎఫీషియంట్‌ని ఇలా నిర్వచించవచ్చు . సహసంబంధ గుణకం యొక్క పొందిన విలువ ఆహార ఖర్చులు మరియు తలసరి ఆదాయం మధ్య సంబంధం చాలా దగ్గరగా ఉందని సూచిస్తుంది.

రిగ్రెషన్ విశ్లేషణ అనేది ఒకటి లేదా అంతకంటే ఎక్కువ స్వతంత్ర వేరియబుల్స్‌పై నిర్దిష్ట పరామితి యొక్క ఆధారపడటాన్ని చూపించడానికి మిమ్మల్ని అనుమతించే గణాంక పరిశోధన పద్ధతి. కంప్యూటర్ పూర్వ యుగంలో, దాని ఉపయోగం చాలా కష్టంగా ఉండేది, ప్రత్యేకించి పెద్ద మొత్తంలో డేటా విషయానికి వస్తే. ఈ రోజు, ఎక్సెల్‌లో రిగ్రెషన్‌ను ఎలా నిర్మించాలో నేర్చుకున్న తర్వాత, మీరు సంక్లిష్టమైన గణాంక సమస్యలను కేవలం రెండు నిమిషాల్లో పరిష్కరించవచ్చు. ఆర్థిక శాస్త్రం నుండి నిర్దిష్ట ఉదాహరణలు క్రింద ఉన్నాయి.

రిగ్రెషన్ రకాలు

ఈ భావన 1886లో గణితంలో ప్రవేశపెట్టబడింది. తిరోగమనం జరుగుతుంది:

  • సరళ;
  • పారాబొలిక్;
  • మత్తుమందు;
  • ఘాతాంక;
  • అతిశయోక్తి;
  • ప్రదర్శనాత్మక;
  • లాగరిథమిక్.

ఉదాహరణ 1

6 పారిశ్రామిక సంస్థలలో సగటు జీతంపై నిష్క్రమించిన జట్టు సభ్యుల సంఖ్యపై ఆధారపడటాన్ని నిర్ణయించే సమస్యను పరిశీలిద్దాం.

టాస్క్. ఆరు ఎంటర్‌ప్రైజెస్‌లో, సగటు నెలవారీ జీతం మరియు స్వచ్ఛందంగా నిష్క్రమించిన ఉద్యోగుల సంఖ్యను విశ్లేషించారు. పట్టిక రూపంలో మనకు ఉన్నాయి:

విడిచిపెట్టిన వ్యక్తుల సంఖ్య

జీతం

30,000 రూబిళ్లు

35,000 రూబిళ్లు

40,000 రూబిళ్లు

45,000 రూబిళ్లు

50,000 రూబిళ్లు

55,000 రూబిళ్లు

60,000 రూబిళ్లు

6 ఎంటర్‌ప్రైజెస్‌లో సగటు జీతంపై నిష్క్రమించే కార్మికుల సంఖ్యపై ఆధారపడటాన్ని నిర్ణయించే పని కోసం, రిగ్రెషన్ మోడల్ Y = a 0 + a 1 x 1 +...+a k x k అనే సమీకరణ రూపాన్ని కలిగి ఉంటుంది, ఇక్కడ x i ప్రభావితం చేసే వేరియబుల్స్, a i అనేది రిగ్రెషన్ కోఎఫీషియంట్స్, మరియు k అనేది కారకాల సంఖ్య.

ఈ సమస్య కోసం, Y అనేది ఉద్యోగులను విడిచిపెట్టడానికి సూచిక, మరియు ప్రభావితం చేసే అంశం జీతం, దీనిని మేము X ద్వారా సూచిస్తాము.

Excel స్ప్రెడ్‌షీట్ ప్రాసెసర్ యొక్క సామర్థ్యాలను ఉపయోగించడం

ఇప్పటికే ఉన్న పట్టిక డేటాకు అంతర్నిర్మిత ఫంక్షన్‌లను వర్తింపజేయడం ద్వారా Excelలో రిగ్రెషన్ విశ్లేషణ తప్పనిసరిగా చేయాలి. అయితే, ఈ ప్రయోజనాల కోసం చాలా ఉపయోగకరమైన “విశ్లేషణ ప్యాక్” యాడ్-ఆన్‌ను ఉపయోగించడం మంచిది. దీన్ని సక్రియం చేయడానికి మీకు ఇది అవసరం:

  • "ఫైల్" ట్యాబ్ నుండి "ఐచ్ఛికాలు" విభాగానికి వెళ్లండి;
  • తెరుచుకునే విండోలో, "యాడ్-ఆన్లు" అనే పంక్తిని ఎంచుకోండి;
  • "నిర్వహణ" లైన్ యొక్క కుడి వైపున ఉన్న "గో" బటన్‌పై క్లిక్ చేయండి;
  • "విశ్లేషణ ప్యాకేజీ" పేరు పక్కన ఉన్న పెట్టెను ఎంచుకోండి మరియు "సరే" క్లిక్ చేయడం ద్వారా మీ చర్యలను నిర్ధారించండి.

ప్రతిదీ సరిగ్గా జరిగితే, అవసరమైన బటన్ ఎక్సెల్ వర్క్‌షీట్ పైన ఉన్న “డేటా” ట్యాబ్ యొక్క కుడి వైపున కనిపిస్తుంది.

Excel లో

ఇప్పుడు ఎకనామెట్రిక్ గణనలను నిర్వహించడానికి అవసరమైన అన్ని వర్చువల్ సాధనాలను మేము కలిగి ఉన్నాము, మేము మా సమస్యను పరిష్కరించడం ప్రారంభించవచ్చు. దీని కొరకు:

  • "డేటా విశ్లేషణ" బటన్పై క్లిక్ చేయండి;
  • తెరుచుకునే విండోలో, "రిగ్రెషన్" బటన్పై క్లిక్ చేయండి;
  • కనిపించే ట్యాబ్‌లో, Y (ఉద్యోగులను విడిచిపెట్టిన వారి సంఖ్య) మరియు X (వారి జీతాలు) కోసం విలువల పరిధిని నమోదు చేయండి;
  • "సరే" బటన్‌ను నొక్కడం ద్వారా మేము మా చర్యలను నిర్ధారిస్తాము.

ఫలితంగా, ప్రోగ్రామ్ స్వయంచాలకంగా రిగ్రెషన్ విశ్లేషణ డేటాతో కొత్త స్ప్రెడ్‌షీట్‌ను నింపుతుంది. గమనిక! ఈ ప్రయోజనం కోసం మీరు ఇష్టపడే స్థానాన్ని మాన్యువల్‌గా సెట్ చేయడానికి Excel మిమ్మల్ని అనుమతిస్తుంది. ఉదాహరణకు, ఇది Y మరియు X విలువలు ఉన్న అదే షీట్ కావచ్చు లేదా అటువంటి డేటాను నిల్వ చేయడానికి ప్రత్యేకంగా రూపొందించబడిన కొత్త వర్క్‌బుక్ కూడా కావచ్చు.

R-స్క్వేర్డ్ కోసం రిగ్రెషన్ ఫలితాల విశ్లేషణ

Excelలో, పరిశీలనలో ఉన్న ఉదాహరణలో డేటాను ప్రాసెస్ చేస్తున్నప్పుడు పొందిన డేటా రూపం కలిగి ఉంటుంది:

అన్నింటిలో మొదటిది, మీరు R- స్క్వేర్డ్ విలువకు శ్రద్ద ఉండాలి. ఇది నిర్ణయం యొక్క గుణకాన్ని సూచిస్తుంది. ఈ ఉదాహరణలో, R-స్క్వేర్ = 0.755 (75.5%), అనగా, మోడల్ యొక్క లెక్కించిన పారామితులు 75.5% ద్వారా పరిశీలనలో ఉన్న పారామితుల మధ్య సంబంధాన్ని వివరిస్తాయి. నిర్ణయం యొక్క గుణకం యొక్క అధిక విలువ, ఎంచుకున్న మోడల్ నిర్దిష్ట పని కోసం మరింత అనుకూలంగా ఉంటుంది. R-స్క్వేర్ విలువ 0.8 కంటే ఎక్కువగా ఉన్నప్పుడు వాస్తవ పరిస్థితిని సరిగ్గా వివరించడానికి ఇది పరిగణించబడుతుంది. R-స్క్వేర్ ఉంటే<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

అసమానత విశ్లేషణ

64.1428 సంఖ్య మేము పరిశీలిస్తున్న మోడల్‌లోని అన్ని వేరియబుల్స్ xiని సున్నాకి రీసెట్ చేస్తే Y విలువ ఎంత ఉంటుందో చూపిస్తుంది. మరో మాటలో చెప్పాలంటే, విశ్లేషించబడిన పరామితి యొక్క విలువ నిర్దిష్ట నమూనాలో వివరించబడని ఇతర కారకాలచే కూడా ప్రభావితమవుతుందని వాదించవచ్చు.

సెల్ B18లో ఉన్న తదుపరి గుణకం -0.16285, Y పై వేరియబుల్ X ప్రభావం యొక్క బరువును చూపుతుంది. దీని అర్థం, పరిశీలనలో ఉన్న మోడల్‌లోని ఉద్యోగుల సగటు నెలవారీ జీతం -0.16285 బరువుతో విడిచిపెట్టిన వారి సంఖ్యను ప్రభావితం చేస్తుంది, అనగా. దాని ప్రభావం యొక్క డిగ్రీ పూర్తిగా చిన్నది. "-" సంకేతం గుణకం ప్రతికూలంగా ఉందని సూచిస్తుంది. ఇది స్పష్టంగా ఉంది, ఎందుకంటే సంస్థలో ఎక్కువ జీతం లభిస్తుందని అందరికీ తెలుసు, తక్కువ మంది వ్యక్తులు ఉపాధి ఒప్పందాన్ని ముగించాలని లేదా నిష్క్రమించాలని కోరికను వ్యక్తం చేస్తారు.

బహుళ తిరోగమనం

ఈ పదం రూపం యొక్క అనేక స్వతంత్ర వేరియబుల్స్‌తో సంబంధ సమీకరణాన్ని సూచిస్తుంది:

y=f(x 1 +x 2 +…x m) + ε, ఇక్కడ y అనేది ఫలిత లక్షణం (డిపెండెంట్ వేరియబుల్), మరియు x 1, x 2,…x m అనేది ఫ్యాక్టర్ లక్షణాలు (స్వతంత్ర వేరియబుల్స్).

పారామీటర్ అంచనా

మల్టిపుల్ రిగ్రెషన్ (MR) కోసం, ఇది అతి తక్కువ చతురస్రాల పద్ధతి (OLS) ఉపయోగించి నిర్వహించబడుతుంది. Y = a + b 1 x 1 +...+b m x m + ε రూపం యొక్క సరళ సమీకరణాల కోసం మేము సాధారణ సమీకరణాల వ్యవస్థను నిర్మిస్తాము (క్రింద చూడండి)

పద్ధతి యొక్క సూత్రాన్ని అర్థం చేసుకోవడానికి, రెండు-కారకాల కేసును పరిగణించండి. అప్పుడు మేము సూత్రం ద్వారా వివరించిన పరిస్థితిని కలిగి ఉన్నాము

ఇక్కడ నుండి మనం పొందుతాము:

ఇక్కడ σ అనేది సూచికలో ప్రతిబింబించే సంబంధిత లక్షణం యొక్క వైవిధ్యం.

OLS అనేది ప్రామాణిక స్కేల్‌లో MR సమీకరణానికి వర్తిస్తుంది. ఈ సందర్భంలో మనం సమీకరణాన్ని పొందుతాము:

దీనిలో t y, t x 1, … t xm ప్రామాణిక వేరియబుల్స్, వీటికి సగటు విలువలు 0కి సమానం; β i అనేది ప్రామాణిక రిగ్రెషన్ కోఎఫీషియంట్స్, మరియు ప్రామాణిక విచలనం 1.

దయచేసి ఈ సందర్భంలో అన్ని β iలు సాధారణీకరించబడినవి మరియు కేంద్రీకృతమైనవిగా పేర్కొనబడ్డాయి, అందువల్ల వాటి పరస్పర పోలిక సరైనది మరియు ఆమోదయోగ్యమైనదిగా పరిగణించబడుతుంది. అదనంగా, తక్కువ βi విలువలు ఉన్న వాటిని విస్మరించడం ద్వారా కారకాలను పరీక్షించడం ఆచారం.

లీనియర్ రిగ్రెషన్ ఈక్వేషన్ ఉపయోగించడంలో సమస్య

మేము గత 8 నెలల్లో నిర్దిష్ట ఉత్పత్తి N కోసం ధర డైనమిక్స్ పట్టికను కలిగి ఉన్నామని అనుకుందాం. 1850 రూబిళ్లు / t ధర వద్ద దాని బ్యాచ్ కొనుగోలు చేయడం యొక్క సలహాపై నిర్ణయం తీసుకోవడం అవసరం.

నెల సంఖ్య

నెల పేరు

ఉత్పత్తి ధర N

టన్నుకు 1750 రూబిళ్లు

టన్నుకు 1755 రూబిళ్లు

టన్నుకు 1767 రూబిళ్లు

టన్నుకు 1760 రూబిళ్లు

టన్నుకు 1770 రూబిళ్లు

టన్నుకు 1790 రూబిళ్లు

టన్నుకు 1810 రూబిళ్లు

టన్నుకు 1840 రూబిళ్లు

Excel స్ప్రెడ్‌షీట్ ప్రాసెసర్‌లో ఈ సమస్యను పరిష్కరించడానికి, మీరు పైన అందించిన ఉదాహరణ నుండి ఇప్పటికే తెలిసిన “డేటా విశ్లేషణ” సాధనాన్ని ఉపయోగించాలి. తరువాత, "రిగ్రెషన్" విభాగాన్ని ఎంచుకుని, పారామితులను సెట్ చేయండి. “ఇన్‌పుట్ విరామం Y” ఫీల్డ్‌లో డిపెండెంట్ వేరియబుల్ (ఈ సందర్భంలో, సంవత్సరంలోని నిర్దిష్ట నెలల్లో వస్తువుల ధరలు) మరియు “ఇన్‌పుట్ విరామం X”లో విలువల శ్రేణి తప్పనిసరిగా నమోదు చేయబడాలని గుర్తుంచుకోవాలి. - స్వతంత్ర వేరియబుల్ కోసం (నెల సంఖ్య). "సరే" క్లిక్ చేయడం ద్వారా చర్యను నిర్ధారించండి. కొత్త షీట్‌లో (అలా సూచించినట్లయితే) మేము రిగ్రెషన్ కోసం డేటాను పొందుతాము.

వాటిని ఉపయోగించి, మేము ఫారమ్ y=ax+b యొక్క సరళ సమీకరణాన్ని నిర్మిస్తాము, ఇక్కడ పారామితులు a మరియు b అనేవి నెల సంఖ్య పేరు మరియు గుణకాలు మరియు పంక్తులతో షీట్ నుండి “Y-ఖండన” అనే రేఖ యొక్క గుణకాలు. రిగ్రెషన్ విశ్లేషణ ఫలితాలు. అందువలన, టాస్క్ 3 కోసం లీనియర్ రిగ్రెషన్ ఈక్వేషన్ (LR) ఇలా వ్రాయబడింది:

ఉత్పత్తి ధర N = 11.714* నెల సంఖ్య + 1727.54.

లేదా బీజగణిత సంజ్ఞామానంలో

y = 11.714 x + 1727.54

ఫలితాల విశ్లేషణ

ఫలితంగా వచ్చే లీనియర్ రిగ్రెషన్ ఈక్వేషన్ సరిపోతుందో లేదో నిర్ణయించడానికి, మల్టిపుల్ కోరిలేషన్ (MCC) మరియు డిటర్మినేషన్ యొక్క గుణకాలు ఉపయోగించబడతాయి, అలాగే ఫిషర్ టెస్ట్ మరియు స్టూడెంట్ టి టెస్ట్‌లు ఉపయోగించబడతాయి. రిగ్రెషన్ ఫలితాలతో Excel స్ప్రెడ్‌షీట్‌లో, వాటిని వరుసగా బహుళ R, R-స్క్వేర్డ్, F-స్టాటిస్టిక్ మరియు t-స్టాటిస్టిక్ అని పిలుస్తారు.

KMC R స్వతంత్ర మరియు డిపెండెంట్ వేరియబుల్స్ మధ్య సంభావ్య సంబంధం యొక్క సన్నిహితతను అంచనా వేయడం సాధ్యం చేస్తుంది. దీని అధిక విలువ వేరియబుల్స్ "నెల సంఖ్య" మరియు "1 టన్నుకు రూబిళ్లలో ఉత్పత్తి N ధర" మధ్య చాలా బలమైన కనెక్షన్‌ను సూచిస్తుంది. అయితే, ఈ సంబంధం యొక్క స్వభావం ఇంకా తెలియదు.

గుణకం యొక్క వర్గము R2 (RI) అనేది మొత్తం స్కాటర్ యొక్క నిష్పత్తి యొక్క సంఖ్యా లక్షణం మరియు ప్రయోగాత్మక డేటాలోని ఏ భాగం యొక్క స్కాటర్‌ను చూపుతుంది, అనగా. డిపెండెంట్ వేరియబుల్ యొక్క విలువలు లీనియర్ రిగ్రెషన్ సమీకరణానికి అనుగుణంగా ఉంటాయి. పరిశీలనలో ఉన్న సమస్యలో, ఈ విలువ 84.8%కి సమానం, అనగా, గణాంక డేటా ఫలితంగా వచ్చే SD ద్వారా అధిక స్థాయి ఖచ్చితత్వంతో వివరించబడింది.

F-గణాంకాలు, ఫిషర్ పరీక్ష అని కూడా పిలుస్తారు, ఇది ఒక సరళ సంబంధం యొక్క ప్రాముఖ్యతను అంచనా వేయడానికి, దాని ఉనికి యొక్క పరికల్పనను తిరస్కరించడానికి లేదా నిర్ధారించడానికి ఉపయోగించబడుతుంది.

(విద్యార్థుల పరీక్ష) సరళ సంబంధం యొక్క తెలియని లేదా ఉచిత పదంతో గుణకం యొక్క ప్రాముఖ్యతను అంచనా వేయడానికి సహాయపడుతుంది. t-test విలువ > tcr అయితే, అప్పుడు సరళ సమీకరణం యొక్క ఉచిత పదం యొక్క అల్పత గురించి పరికల్పన తిరస్కరించబడుతుంది.

ఉచిత పదం కోసం పరిశీలనలో ఉన్న సమస్యలో, Excel సాధనాలను ఉపయోగించి, t = 169.20903, మరియు p = 2.89E-12 అని పొందబడింది, అనగా, ఉచిత పదం యొక్క ప్రాముఖ్యత గురించి సరైన పరికల్పన తిరస్కరించబడటానికి మేము సున్నా సంభావ్యతను కలిగి ఉన్నాము. . తెలియని t=5.79405, మరియు p=0.001158 కోసం గుణకం కోసం. మరో మాటలో చెప్పాలంటే, తెలియని వ్యక్తికి గుణకం యొక్క అతితక్కువ గురించి సరైన పరికల్పన తిరస్కరించబడే సంభావ్యత 0.12%.

అందువల్ల, ఫలిత సరళ రిగ్రెషన్ సమీకరణం సరిపోతుందని వాదించవచ్చు.

షేర్ల బ్లాక్‌ను కొనుగోలు చేయడం సాధ్యాసాధ్యాల సమస్య

Excelలో బహుళ రిగ్రెషన్ అదే డేటా విశ్లేషణ సాధనాన్ని ఉపయోగించి నిర్వహించబడుతుంది. నిర్దిష్ట అప్లికేషన్ సమస్యను పరిశీలిద్దాం.

MMM JSCలో 20% వాటాను కొనుగోలు చేయాలనే సలహాపై NNN కంపెనీ నిర్వహణ తప్పనిసరిగా నిర్ణయించాలి. ప్యాకేజీ ధర (SP) 70 మిలియన్ US డాలర్లు. NNN నిపుణులు ఇలాంటి లావాదేవీలపై డేటాను సేకరించారు. మిలియన్ల US డాలర్లలో వ్యక్తీకరించబడిన అటువంటి పారామితుల ప్రకారం షేర్ల బ్లాక్ విలువను అంచనా వేయాలని నిర్ణయించబడింది:

  • చెల్లించవలసిన ఖాతాలు (VK);
  • వార్షిక టర్నోవర్ వాల్యూమ్ (VO);
  • స్వీకరించదగిన ఖాతాలు (VD);
  • స్థిర ఆస్తుల ధర (COF).

అదనంగా, వేల US డాలర్లలో ఎంటర్‌ప్రైజ్ వేతన బకాయిల (V3 P) పరామితి ఉపయోగించబడుతుంది.

ఎక్సెల్ స్ప్రెడ్‌షీట్ ప్రాసెసర్ ఉపయోగించి పరిష్కారం

అన్నింటిలో మొదటిది, మీరు సోర్స్ డేటా యొక్క పట్టికను సృష్టించాలి. ఇది ఇలా కనిపిస్తుంది:

  • "డేటా విశ్లేషణ" విండోకు కాల్ చేయండి;
  • "రిగ్రెషన్" విభాగాన్ని ఎంచుకోండి;
  • “ఇన్‌పుట్ విరామం Y” బాక్స్‌లో, కాలమ్ G నుండి డిపెండెంట్ వేరియబుల్స్ విలువల పరిధిని నమోదు చేయండి;
  • "ఇన్‌పుట్ ఇంటర్వెల్ X" విండోకు కుడి వైపున ఎరుపు బాణం ఉన్న చిహ్నంపై క్లిక్ చేయండి మరియు షీట్‌లోని B, C, D, F నిలువు వరుసల నుండి అన్ని విలువల పరిధిని హైలైట్ చేయండి.

"కొత్త వర్క్‌షీట్" అంశాన్ని గుర్తించి, "సరే" క్లిక్ చేయండి.

ఇచ్చిన సమస్య కోసం రిగ్రెషన్ విశ్లేషణను పొందండి.

ఫలితాలు మరియు ముగింపుల అధ్యయనం

మేము Excel స్ప్రెడ్‌షీట్‌లో పైన అందించిన గుండ్రని డేటా నుండి రిగ్రెషన్ సమీకరణాన్ని "సేకరిస్తాము":

SP = 0.103*SOF + 0.541*VO - 0.031*VK +0.405*VD +0.691*VZP - 265.844.

బాగా తెలిసిన గణిత రూపంలో, దీనిని ఇలా వ్రాయవచ్చు:

y = 0.103*x1 + 0.541*x2 - 0.031*x3 +0.405*x4 +0.691*x5 - 265.844

MMM JSC కోసం డేటా పట్టికలో ప్రదర్శించబడింది:

వాటిని రిగ్రెషన్ ఈక్వేషన్‌లో భర్తీ చేస్తే, మనకు 64.72 మిలియన్ US డాలర్లు లభిస్తాయి. దీని అర్థం MMM JSC యొక్క షేర్లను కొనుగోలు చేయడం విలువైనది కాదు, ఎందుకంటే వాటి విలువ 70 మిలియన్ US డాలర్లు చాలా ఎక్కువ.

మీరు చూడగలిగినట్లుగా, Excel స్ప్రెడ్‌షీట్ మరియు రిగ్రెషన్ ఈక్వేషన్ యొక్క ఉపయోగం చాలా నిర్దిష్ట లావాదేవీ యొక్క సాధ్యాసాధ్యాలకు సంబంధించి సమాచారంతో కూడిన నిర్ణయం తీసుకోవడాన్ని సాధ్యం చేసింది.

రిగ్రెషన్ అంటే ఏమిటో ఇప్పుడు మీకు తెలుసు. పైన చర్చించిన Excel ఉదాహరణలు ఎకనామెట్రిక్స్ రంగంలో ఆచరణాత్మక సమస్యలను పరిష్కరించడంలో మీకు సహాయపడతాయి.

IN తిరోగమన గణాంకాలుబహుళ సహసంబంధ గుణకం సూచించబడింది (బహువచనం R)మరియు సంకల్పం (R-స్క్వేర్డ్) Y మరియు కారకాల లక్షణాల శ్రేణి మధ్య (ఇది సహసంబంధ విశ్లేషణలో గతంలో పొందిన విలువలతో సమానంగా ఉంటుంది)

పట్టిక మధ్య భాగం (వ్యత్యాసాల విశ్లేషణ)రిగ్రెషన్ సమీకరణం యొక్క ప్రాముఖ్యతను పరీక్షించడానికి అవసరం.

పట్టిక దిగువన - ఖచ్చితమైనది

సాధారణ రిగ్రెషన్ కోఎఫీషియంట్స్ ద్వి యొక్క తుది అంచనాలు ద్వి, వాటి ప్రాముఖ్యత మరియు విరామ అంచనాను పరీక్షించడం.

కోఎఫీషియంట్స్ b వెక్టర్ అంచనా (కాలమ్ అసమానత):

అప్పుడు రిగ్రెషన్ సమీకరణ అంచనా రూపాన్ని కలిగి ఉంటుంది:

రిగ్రెషన్ సమీకరణం యొక్క ప్రాముఖ్యతను మరియు ఫలితంగా వచ్చే రిగ్రెషన్ కోఎఫీషియంట్‌లను తనిఖీ చేయడం అవసరం.

b=0.05 స్థాయిలో రిగ్రెషన్ సమీకరణం యొక్క ప్రాముఖ్యతను తనిఖీ చేద్దాం, అనగా. పరికల్పన H0: в1=в2=в3=…=вk=0. దీన్ని చేయడానికి, F-గణాంకం యొక్క గమనించిన విలువ లెక్కించబడుతుంది:

Excel దీన్ని ఫలితాలలో చూపుతుంది వైవిధ్యం యొక్క విశ్లేషణ:

QR=527.4296; Qost=1109.8673 =>

నిలువు వరుసలో ఎఫ్విలువ సూచించబడుతుంది ఎఫ్గమనించదగినది.

F-పంపిణీ పట్టికల నుండి లేదా అంతర్నిర్మిత స్టాటిస్టికల్ ఫంక్షన్‌ని ఉపయోగించడం ఎఫ్కనుగొనండిప్రాముఖ్యత స్థాయి b=0.05 మరియు న్యూమరేటర్ n1=k=4 మరియు హారం n2=n-k-1=45 ఫ్రీక్వెన్సీ డిగ్రీల సంఖ్య కోసం మేము F-గణాంకాల యొక్క క్లిష్టమైన విలువను సమానంగా కనుగొంటాము

Fcr = 2.578739184

F-గణాంకం యొక్క గమనించిన విలువ దాని క్లిష్టమైన విలువ 8.1957 > 2.7587ను మించిపోయింది కాబట్టి, గుణకాల వెక్టర్ యొక్క సమానత్వం గురించి పరికల్పన 0.05 యొక్క లోపం సంభావ్యతతో తిరస్కరించబడింది. పర్యవసానంగా, వెక్టర్ b=(b1,b2,b3,b4)T యొక్క కనీసం ఒక మూలకం సున్నా నుండి గణనీయంగా భిన్నంగా ఉంటుంది.

రిగ్రెషన్ సమీకరణం యొక్క వ్యక్తిగత గుణకాల యొక్క ప్రాముఖ్యతను తనిఖీ చేద్దాం, అనగా. పరికల్పన .

రిగ్రెషన్ కోఎఫీషియంట్స్ యొక్క ప్రాముఖ్యతను పరీక్షించడం ప్రాముఖ్యత స్థాయికి t-గణాంకాల ఆధారంగా నిర్వహించబడుతుంది.

t-గణాంకాల యొక్క గమనించిన విలువలు కాలమ్‌లోని ఫలితాల పట్టికలో సూచించబడ్డాయి t- గణాంకాలు.

గుణకాలు (ద్వి)

t-గణాంకాలు (టాబ్)

Y-ఖండన

వేరియబుల్ X5

వేరియబుల్ X7

వేరియబుల్ X10

వేరియబుల్ X15

వాటిని ప్రాముఖ్యత స్థాయి b=0.05 మరియు n=n – k - 1 డిగ్రీల ఫ్రీక్వెన్సీ కోసం కనుగొనబడిన క్లిష్టమైన విలువ tcrతో పోల్చాలి.

దీన్ని చేయడానికి, మేము అంతర్నిర్మిత Excel స్టాటిస్టికల్ ఫంక్షన్‌ని ఉపయోగిస్తాము స్టడీస్పోబర్,ప్రతిపాదిత మెనూలోకి ప్రవేశించడం ద్వారా సంభావ్యత b = 0.05 మరియు స్వేచ్ఛ డిగ్రీల సంఖ్య n = n-k-1 = 50-4-1 = 45. (మీరు గణిత గణాంకాల పట్టికల నుండి tcr విలువలను కనుగొనవచ్చు.

మనకు tcr = 2.014103359 వస్తుంది.

t-గణాంకాల యొక్క గమనించిన విలువ కోసం సంపూర్ణ విలువ 2.0141>|-0.0872|, 2.0141>|0.2630|, 2.0141>|0.7300|, 2.0141>|-1.6629 |

పర్యవసానంగా, ఈ గుణకాలు సున్నాకి సమానం అనే పరికల్పన 0.05 లోపం సంభావ్యతతో తిరస్కరించబడదు, అనగా. సంబంధిత గుణకాలు చాలా తక్కువగా ఉంటాయి.

t-గణాంకాల యొక్క గమనించిన విలువ క్లిష్టమైన విలువ మాడ్యులో |3.7658|>2.0141 కంటే ఎక్కువగా ఉంటుంది, కాబట్టి, పరికల్పన H0 తిరస్కరించబడింది, అనగా. - ముఖ్యమైనది

రిగ్రెషన్ కోఎఫీషియంట్స్ యొక్క ప్రాముఖ్యత కూడా ఫలిత పట్టికలోని క్రింది నిలువు వరుసల ద్వారా తనిఖీ చేయబడుతుంది:

కాలమ్ p-అర్థం 5% సరిహద్దు స్థాయిలో మోడల్ పారామితుల యొక్క ప్రాముఖ్యతను చూపుతుంది, అనగా. p≤0.05 అయితే, సంబంధిత గుణకం ముఖ్యమైనదిగా పరిగణించబడుతుంది, p>0.05 అయితే, అది అంతగా ఉండదు.

మరియు చివరి నిలువు వరుసలు - తక్కువ 95%మరియు ఎగువ 95%మరియు దిగువ 98%మరియు టాప్ 98% -ఇవి r = 0.95 (ఎల్లప్పుడూ జారీ చేయబడినవి) మరియు r = 0.98 (సంబంధిత అదనపు విశ్వసనీయతను సెట్ చేసినప్పుడు జారీ చేయబడినవి) కోసం పేర్కొన్న విశ్వసనీయత స్థాయిలతో రిగ్రెషన్ కోఎఫీషియంట్స్ యొక్క విరామ అంచనాలు.

దిగువ మరియు ఎగువ పరిమితులు ఒకే గుర్తును కలిగి ఉంటే (విశ్వాస విరామంలో సున్నా చేర్చబడలేదు), అప్పుడు సంబంధిత రిగ్రెషన్ కోఎఫీషియంట్ ముఖ్యమైనదిగా పరిగణించబడుతుంది, లేకుంటే అది చాలా తక్కువగా పరిగణించబడుతుంది

పట్టిక నుండి చూడగలిగినట్లుగా, గుణకం b3 p-విలువ p=0.0005 కోసం<0,05 и доверительные интервалы не включают ноль, т.е. по всем проверочным критериям этот коэффициент является значимым.

అతితక్కువ రిగ్రెసర్‌లను మినహాయించడంతో స్టెప్‌వైస్ రిగ్రెషన్ విశ్లేషణ యొక్క అల్గోరిథం ప్రకారం, తదుపరి దశలో ఒక ముఖ్యమైన రిగ్రెషన్ కోఎఫీషియంట్ ఉన్న వేరియబుల్‌ను పరిగణనలోకి తీసుకోవడం నుండి మినహాయించడం అవసరం.

రిగ్రెషన్ అసెస్‌మెంట్ సమయంలో అనేక ముఖ్యమైన గుణకాలు గుర్తించబడినప్పుడు, రిగ్రెషన్ సమీకరణం నుండి మినహాయించబడిన మొదటిది రిగ్రెసర్, దీని కోసం t-గణాంకం () సంపూర్ణ విలువలో తక్కువగా ఉంటుంది. ఈ సూత్రం ప్రకారం, తదుపరి దశలో వేరియబుల్ X5 మినహాయించాల్సిన అవసరం ఉంది, ఇది చాలా తక్కువ రిగ్రెషన్ కోఎఫీషియంట్ b2 కలిగి ఉంటుంది.

తిరోగమన విశ్లేషణ యొక్క II దశ.

మోడల్ X7, X10, X15 కారకాల లక్షణాలను కలిగి ఉంటుంది మరియు X5ని మినహాయిస్తుంది.

ఫలితాల ముగింపు

తిరోగమన గణాంకాలు

బహువచనం ఆర్

R-స్క్వేర్

సాధారణీకరించిన R-స్క్వేర్డ్

ప్రామాణిక లోపం

పరిశీలనలు

వైవిధ్యం యొక్క విశ్లేషణ

(స్వేచ్ఛ డిగ్రీల సంఖ్య n)

(స్క్వేర్డ్ విచలనాల మొత్తం Q)

(సగటు చదరపు MS=SS/n)

(ఫోబ్స్ = MSR/MSost)

ప్రాముఖ్యత ఎఫ్

తిరోగమనం

అసమానత

ప్రామాణిక లోపం

t-స్టా-టిస్టిక్స్

పి-విలువ

టాప్ 95% (బైమాక్స్)

తక్కువ 98% (బిమిన్)

Y-ఖండన

వేరియబుల్ X7

వేరియబుల్ X10

వేరియబుల్ X15

ఈ రోజు, డేటా మైనింగ్‌లో కొంచెం ఆసక్తి ఉన్న ప్రతి ఒక్కరూ బహుశా సాధారణ సరళ రిగ్రెషన్ గురించి విన్నారు. ఇది ఇప్పటికే హబ్రేలో వ్రాయబడింది మరియు ఆండ్రూ ంగ్ తన ప్రసిద్ధ మెషీన్ లెర్నింగ్ కోర్సులో దాని గురించి వివరంగా మాట్లాడాడు. మెషిన్ లెర్నింగ్ యొక్క ప్రాథమిక మరియు సరళమైన పద్ధతుల్లో లీనియర్ రిగ్రెషన్ ఒకటి, అయితే నిర్మించిన నమూనా యొక్క నాణ్యతను అంచనా వేసే పద్ధతులు చాలా అరుదుగా ప్రస్తావించబడ్డాయి. ఈ ఆర్టికల్‌లో, సారాంశం.lm() ఫంక్షన్‌ని R భాషలో అన్వయించే ఉదాహరణను ఉపయోగించి నేను ఈ బాధించే లోపాన్ని కొద్దిగా సరిచేయడానికి ప్రయత్నిస్తాను, అదే సమయంలో, నేను అవసరమైన సూత్రాలను అందించడానికి ప్రయత్నిస్తాను ఏదైనా ఇతర భాషలో సులభంగా ప్రోగ్రామ్ చేయవచ్చు. ఈ వ్యాసం లీనియర్ రిగ్రెషన్‌ను నిర్మించవచ్చని విన్న వారి కోసం ఉద్దేశించబడింది, కానీ దాని నాణ్యతను అంచనా వేయడానికి గణాంక విధానాలను ఎదుర్కోలేదు.

లీనియర్ రిగ్రెషన్ మోడల్

కాబట్టి, అనేక స్వతంత్ర యాదృచ్ఛిక వేరియబుల్స్ X1, X2, ..., Xn (ప్రిడిక్టర్లు) మరియు వాటిపై ఆధారపడిన విలువ Y (ప్రిడిక్టర్ల యొక్క అవసరమైన అన్ని పరివర్తనలు ఇప్పటికే చేయబడ్డాయి అని భావించబడుతుంది). అంతేకాకుండా, సంబంధం సరళంగా ఉంటుందని మరియు లోపాలు సాధారణంగా పంపిణీ చేయబడతాయని మేము అనుకుంటాము, అనగా

I ఎక్కడ n x n యూనిట్ స్క్వేర్ మ్యాట్రిక్స్.

కాబట్టి, మేము Y మరియు Xi పరిమాణాల యొక్క k పరిశీలనలతో కూడిన డేటాను కలిగి ఉన్నాము మరియు మేము గుణకాలను అంచనా వేయాలనుకుంటున్నాము. గుణకం అంచనాలను కనుగొనడానికి ప్రామాణిక పద్ధతి తక్కువ చతురస్రాల పద్ధతి. మరియు ఈ పద్ధతిని వర్తింపజేయడం ద్వారా పొందగలిగే విశ్లేషణాత్మక పరిష్కారం ఇలా కనిపిస్తుంది:

ఎక్కడ బిమూతతో - కోఎఫీషియంట్స్ వెక్టర్ అంచనా, వైడిపెండెంట్ వేరియబుల్ యొక్క విలువల వెక్టర్, మరియు X అనేది పరిమాణం k x n+1 యొక్క మాతృక (n అనేది ప్రిడిక్టర్ల సంఖ్య, k అనేది పరిశీలనల సంఖ్య), దీనిలో మొదటి నిలువు వరుస వాటిని కలిగి ఉంటుంది, రెండవది - మొదటి ప్రిడిక్టర్ యొక్క విలువలు, మూడవది - రెండవది మరియు మొదలైనవి మరియు ఇప్పటికే ఉన్న పరిశీలనలకు అనుగుణంగా వరుసలు.

summary.lm() ఫంక్షన్ మరియు ఫలిత ఫలితాల మూల్యాంకనం

ఇప్పుడు R లో లీనియర్ రిగ్రెషన్ మోడల్‌ను నిర్మించే ఉదాహరణను చూద్దాం:
> లైబ్రరీ(దూరం) > lm1<-lm(Species~Area+Elevation+Nearest+Scruz+Adjacent, data=gala) >సారాంశం(lm1) కాల్: lm(ఫార్ములా = జాతులు ~ ప్రాంతం + ఎలివేషన్ + సమీప + స్క్రజ్ + ప్రక్కనే, డేటా = గాలా) అవశేషాలు: కనిష్ట 1Q మధ్యస్థం 3Q గరిష్టం -111.679 -34.898 -7.862 33.460 182.584 STdsd.584 లోపం t విలువ Pr(>|t|) (అంతరాయం) 7.068221 19.154198 0.369 0.715351 ప్రాంతం -0.023938 0.022422 -1.068 0.296318 ఎలివేషన్ 0.36050.36505 *** సమీప 0.009144 1.054136 0.009 0.993151 స్క్రూజ్ -0.240524 0.215402 -1.117 0.275208 ప్రక్కనే -0.074805 0.017700 -4.226 0.000297 *** --- Signif. కోడ్‌లు: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 అవశేష ప్రామాణిక లోపం: 60.98 24 డిగ్రీల స్వేచ్ఛపై బహుళ R-స్క్వేర్డ్: 0.7658, సర్దుబాటు చేసిన R-స్క్వేర్డ్: F-71. గణాంకాలు: 5 మరియు 24 DFలో 15.7, p-విలువ: 6.838e-07
టేబుల్ గాలాలో 30 గాలాపాగోస్ దీవుల గురించి కొంత సమాచారం ఉంది. మేము నమూనాను పరిశీలిస్తాము, ఇక్కడ జాతులు - ద్వీపంలోని వివిధ వృక్ష జాతుల సంఖ్య అనేక ఇతర వేరియబుల్స్‌పై సరళంగా ఆధారపడి ఉంటుంది.

summary.lm() ఫంక్షన్ యొక్క అవుట్‌పుట్‌ని చూద్దాం.
మొదట మోడల్ ఎలా నిర్మించబడిందో గుర్తుచేసే ఒక లైన్ వస్తుంది.
అప్పుడు అవశేషాల పంపిణీ గురించి సమాచారం వస్తుంది: కనిష్ట, మొదటి క్వార్టైల్, మధ్యస్థ, మూడవ త్రైమాసికం, గరిష్టం. ఈ సమయంలో అవశేషాల యొక్క కొన్ని పరిమాణాలను చూడటమే కాకుండా, వాటిని సాధారణత కోసం పరీక్షించడానికి కూడా ఉపయోగకరంగా ఉంటుంది, ఉదాహరణకు షాపిరో-విల్క్ పరీక్షతో.
తదుపరి - అత్యంత ఆసక్తికరమైన - గుణకాల గురించి సమాచారం. ఇక్కడ ఒక చిన్న సిద్ధాంతం అవసరం.
మొదట మేము ఈ క్రింది ఫలితాన్ని వ్రాస్తాము:

క్యాప్డ్ సిగ్మా స్క్వేర్డ్ నిజమైన సిగ్మా స్క్వేర్డ్‌కు నిష్పాక్షికమైన అంచనా. ఇక్కడ బిగుణకాల యొక్క నిజమైన వెక్టార్, మరియు మూతతో కూడిన ఎప్సిలాన్ అనేది అవశేషాల వెక్టర్, మనం కనీసం చతురస్రాల పద్ధతి ద్వారా పొందిన అంచనాలను గుణకాలుగా తీసుకుంటే. అంటే, లోపాలు సాధారణంగా పంపిణీ చేయబడతాయనే భావనలో, గుణకాల యొక్క వెక్టర్ కూడా వాస్తవ విలువ చుట్టూ సాధారణంగా పంపిణీ చేయబడుతుంది మరియు దాని వ్యత్యాసాన్ని నిష్పాక్షికంగా అంచనా వేయవచ్చు. దీని అర్థం మీరు సున్నాకి గుణకాల సమానత్వం కోసం పరికల్పనను పరీక్షించవచ్చు మరియు అందువల్ల ప్రిడిక్టర్ల యొక్క ప్రాముఖ్యతను తనిఖీ చేయవచ్చు, అంటే, Xi విలువ నిజంగా నిర్మించిన మోడల్ నాణ్యతను బాగా ప్రభావితం చేస్తుందో లేదో.
ఈ పరికల్పనను పరీక్షించడానికి, మాకు ఈ క్రింది గణాంకాలు అవసరం, గుణకం ద్వి యొక్క వాస్తవ విలువ 0 అయితే విద్యార్థి పంపిణీని కలిగి ఉంటుంది:

ఎక్కడ
గుణకం అంచనా యొక్క ప్రామాణిక లోపం, మరియు t(k-n-1) అనేది k-n-1 డిగ్రీల స్వేచ్ఛతో విద్యార్థి పంపిణీ.

ఇప్పుడు మీరు summary.lm() అవుట్‌పుట్‌ని అన్వయించడాన్ని కొనసాగించడానికి సిద్ధంగా ఉన్నారు.
కాబట్టి, కిందివి తక్కువ చతురస్రాల పద్ధతి ద్వారా పొందిన గుణకాల అంచనాలు, వాటి ప్రామాణిక లోపాలు, t-గణాంక విలువలు మరియు దాని కోసం p-విలువలు. సాధారణంగా p-విలువ 0.05 లేదా 0.01 వంటి చాలా చిన్న ముందుగా ఎంచుకున్న థ్రెషోల్డ్‌తో పోల్చబడుతుంది. మరియు p-గణాంక విలువ థ్రెషోల్డ్ కంటే తక్కువగా మారినట్లయితే, అప్పుడు పరికల్పన తిరస్కరించబడుతుంది, కానీ అది ఎక్కువగా ఉంటే, దురదృష్టవశాత్తు, కాంక్రీటుగా ఏమీ చెప్పలేము. ఈ సందర్భంలో, విద్యార్థి పంపిణీ 0 గురించి సుష్టంగా ఉన్నందున, p-విలువ 1-F(|t|)+F(-|t|)కి సమానంగా ఉంటుందని నేను మీకు గుర్తు చేస్తాను, ఇక్కడ F అనేది విద్యార్థి పంపిణీ ఫంక్షన్ k-n-1 డిగ్రీల స్వేచ్ఛతో . అలాగే, R అనేది ఆస్టరిస్క్‌లతో p-విలువ తగినంత తక్కువగా ఉండే ముఖ్యమైన గుణకాలను సూచిస్తుంది. అంటే, చాలా తక్కువ సంభావ్యతతో ఆ గుణకాలు 0కి సమానం. Signif లైన్‌లో. సంకేతాలు ఆస్టరిస్క్‌ల డీకోడింగ్‌ను కలిగి ఉంటాయి: వాటిలో మూడు ఉంటే, p-విలువ 0 నుండి 0.001 వరకు ఉంటుంది, రెండు ఉంటే, అది 0.001 నుండి 0.01 వరకు ఉంటుంది. చిహ్నాలు లేకుంటే, p-విలువ 0.1 కంటే ఎక్కువగా ఉంటుంది.

మా ఉదాహరణలో, ఎలివేషన్ మరియు ప్రక్కనే ఉన్న ప్రిడిక్టర్లు నిజంగా జాతుల విలువను ఎక్కువగా ప్రభావితం చేస్తాయని మేము గొప్ప విశ్వాసంతో చెప్పగలము, అయితే ఇతర ప్రిడిక్టర్ల గురించి ఖచ్చితంగా ఏమీ చెప్పలేము. సాధారణంగా, అటువంటి సందర్భాలలో, ప్రిడిక్టర్లు ఒక్కొక్కటిగా తీసివేయబడతాయి మరియు మోడల్ యొక్క ఇతర సూచికలు ఎలా మారతాయో చూడండి, ఉదాహరణకు BIC లేదా సర్దుబాటు చేయబడిన R-స్క్వేర్డ్, ఇది మరింత చర్చించబడుతుంది.

అవశేష ప్రామాణిక లోపం విలువ కేవలం టోపీతో సిగ్మా అంచనాకు అనుగుణంగా ఉంటుంది మరియు స్వేచ్ఛ యొక్క డిగ్రీలు k-n-1గా గణించబడతాయి.

మరియు ఇప్పుడు మీరు ముందుగా చూడవలసిన ముఖ్యమైన గణాంకాలు: R-స్క్వేర్డ్ మరియు సర్దుబాటు చేయబడిన R-స్క్వేర్డ్:

ఇక్కడ Yi అనేది ప్రతి పరిశీలనలో Y యొక్క నిజమైన విలువలు, టోపీతో Yi అనేది మోడల్ ద్వారా అంచనా వేయబడిన విలువలు, ఒక బార్‌తో Y అనేది Yi యొక్క అన్ని వాస్తవ విలువలపై సగటు.

R-స్క్వేర్డ్ స్టాటిస్టిక్‌తో ప్రారంభిద్దాం లేదా కొన్నిసార్లు దీనిని డిటర్మినేషన్ కోఎఫీషియంట్ అని పిలుస్తారు. ఈ గుణకం 1కి దగ్గరగా ఉన్నట్లయితే, మోడల్ యొక్క నియత వైవిధ్యం వాస్తవ Y విలువల వ్యత్యాసం నుండి ఎంత భిన్నంగా ఉందో చూపిస్తుంది, అప్పుడు మోడల్ యొక్క నియత వ్యత్యాసం చాలా తక్కువగా ఉంటుంది మరియు మోడల్ డేటాను బాగా వివరించే అవకాశం ఉంది. . R- స్క్వేర్డ్ కోఎఫీషియంట్ చాలా తక్కువగా ఉంటే, ఉదాహరణకు, 0.5 కంటే తక్కువ, అప్పుడు, అధిక స్థాయి విశ్వాసంతో, మోడల్ వాస్తవ వ్యవహారాల స్థితిని ప్రతిబింబించదు.

అయితే, R-స్క్వేర్డ్ స్టాటిస్టిక్‌లో ఒక తీవ్రమైన లోపం ఉంది: ప్రిడిక్టర్ల సంఖ్య పెరిగేకొద్దీ, ఈ గణాంకం మాత్రమే పెరుగుతుంది. అందువల్ల, అన్ని కొత్త ప్రిడిక్టర్‌లు డిపెండెంట్ వేరియబుల్‌పై ప్రభావం చూపనప్పటికీ, తక్కువ ఉన్న మోడల్ కంటే ఎక్కువ ప్రిడిక్టర్‌లు ఉన్న మోడల్ మెరుగ్గా ఉన్నట్లు కనిపించవచ్చు. ఇక్కడ మీరు Occam యొక్క రేజర్ సూత్రాన్ని గుర్తుంచుకోవచ్చు. దీన్ని అనుసరించడం, వీలైతే, మోడల్‌లోని అనవసరమైన ప్రిడిక్టర్లను వదిలించుకోవడం విలువైనదే, ఎందుకంటే ఇది సరళమైనది మరియు మరింత అర్థమయ్యేలా మారుతుంది. ఈ ప్రయోజనాల కోసం, సర్దుబాటు చేయబడిన R-స్క్వేర్డ్ స్టాటిస్టిక్ కనుగొనబడింది. ఇది సాధారణ R-స్క్వేర్‌ను సూచిస్తుంది, అయితే పెద్ద సంఖ్యలో ప్రిడిక్టర్‌లకు పెనాల్టీ ఉంటుంది. ప్రధాన ఆలోచన: కొత్త స్వతంత్ర వేరియబుల్స్ మోడల్ యొక్క నాణ్యతకు పెద్ద సహకారం అందించినట్లయితే, ఈ గణాంకం యొక్క విలువ పెరుగుతుంది, అయితే, దీనికి విరుద్ధంగా, అది తగ్గుతుంది.

ఉదాహరణకు, మునుపటి మాదిరిగానే అదే మోడల్‌ను పరిగణించండి, కానీ ఇప్పుడు ఐదు ప్రిడిక్టర్‌లకు బదులుగా, రెండింటిని వదిలివేద్దాం:
>lm2<-lm(Species~Elevation+Adjacent, data=gala) >సారాంశం(lm2) కాల్: lm(ఫార్ములా = జాతులు ~ ఎలివేషన్ + ప్రక్కనే, డేటా = గాలా) అవశేషాలు: కనిష్ట 1Q మధ్యస్థ 3Q గరిష్టం -103.41 -34.33 -11.43 22.57 203.65 కోఎఫీషియంట్స్: ఎస్టిమేట్ Std. లోపం T విలువ PR (> | T |) (అంతరాయం) 1.43287 15.02469 0.095 0.924727 ఎలివేషన్ 0.27657 0.03176 8.707 2.53E -09 *** ప్రక్కనే --0480.040.060. ---- ఉంటే సంతకం చేయండి. కోడ్‌లు: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 అవశేష ప్రామాణిక లోపం: 27 డిగ్రీల స్వేచ్ఛపై 60.86 బహుళ R-స్క్వేర్డ్: 0.7376, సర్దుబాటు చేసిన R-స్క్వేర్డ్: F-718. గణాంకాలు: 2 మరియు 27 DFలో 37.94, p-విలువ: 1.434e-08
మీరు చూడగలిగినట్లుగా, R-స్క్వేర్డ్ స్టాటిస్టిక్ విలువ తగ్గింది, అయితే సర్దుబాటు చేయబడిన R-స్క్వేర్డ్ విలువ కొద్దిగా పెరిగింది.

ఇప్పుడు ప్రిడిక్టర్ల యొక్క అన్ని గుణకాలు సున్నాకి సమానం అనే పరికల్పనను తనిఖీ చేద్దాం. అంటే, Y యొక్క విలువ సాధారణంగా Xi యొక్క విలువలపై ఆధారపడి ఉంటుందా అనే పరికల్పన. దీన్ని చేయడానికి, మీరు క్రింది గణాంకాలను ఉపయోగించవచ్చు, అన్ని గుణకాలు సున్నాకి సమానం అనే పరికల్పన నిజమైతే,


  1. నిర్మించిన మోడల్ నాణ్యతను అంచనా వేయండి. సింగిల్ ఫ్యాక్టర్ మోడల్‌తో పోలిస్తే మోడల్ నాణ్యత మెరుగుపడిందా? స్థితిస్థాపకత గుణకాలు, - మరియు -గుణకాలను ఉపయోగించి ఫలితంపై ముఖ్యమైన కారకాల ప్రభావాన్ని అంచనా వేయండి.
ఎంచుకున్న బహుళ మోడల్ (6) నాణ్యతను అంచనా వేయడానికి, ఈ సమస్య యొక్క పేరా 1.4 మాదిరిగానే, మేము నిర్ధారణ గుణకాన్ని ఉపయోగిస్తాము ఆర్- చదరపు, సగటు సాపేక్ష ఉజ్జాయింపు లోపం మరియు ఎఫ్- ఫిషర్ ప్రమాణం.

నిర్ధారణ గుణకం ఆర్-స్క్వేర్డ్ "రిగ్రెషన్" ఫలితాల నుండి తీసుకోబడుతుంది (మోడల్ (6) కోసం టేబుల్ "రిగ్రెషన్ గణాంకాలు").

పర్యవసానంగా, అపార్ట్మెంట్ ధరలో వైవిధ్యం (మార్పు). వైఈ సమీకరణం ప్రకారం, 76.77% ప్రాంతం యొక్క నగరం యొక్క వైవిధ్యం ద్వారా వివరించబడింది X 1 , అపార్ట్మెంట్లో గదుల సంఖ్య X 2 మరియు నివాస స్థలం X 4 .

మేము అసలు డేటాను ఉపయోగిస్తాము వై iమరియు అవశేషాలు రిగ్రెషన్ సాధనం ద్వారా కనుగొనబడ్డాయి (మోడల్ (6) కోసం టేబుల్ “మిగిలిన అవుట్‌పుట్”). సంబంధిత లోపాలను లెక్కించి, సగటు విలువను కనుగొనండి
.

మిగిలిన వాటి ఉపసంహరణ


పరిశీలన

ఊహించిన వై

మిగిలిపోయినవి

Rel. లోపం

1

45,95089273

-7,95089273

20,92340192

2

86,10296493

-23,90296493

38,42920407

3

94,84442678

30,15557322

24,12445858

4

84,17648426

-23,07648426

37,76838667

5

40,2537216

26,7462784

39,91981851

6

68,70572376

24,29427624

26,12287768

7

143,7464899

-25,7464899

21,81905923

8

106,0907598

25,90924022

19,62821228

9

135,357993

-42,85799303

46,33296544

10

114,4792566

-9,47925665

9,027863476

11

41,48765602

0,512343975

1,219866607

12

103,2329236

21,76707636

17,41366109

13

130,3567798

39,64322022

23,3195413

14

35,41901876

2,580981242

6,7920559

15

155,4129693

-24,91296925

19,0903979

16

84,32108188

0,678918123

0,798727204

17

98,0552279

-0,055227902

0,056355002

18

144,2104618

-16,21046182

12,66442329

19

122,8677535

-37,86775351

44,55029825

20

100,0221225

59,97787748

37,48617343

21

53,27196558

6,728034423

11,21339071

22

35,06605378

5,933946225

14,47303957

23

114,4792566

-24,47925665

27,19917406

24

113,1343153

-30,13431529

36,30640396

25

40,43190991

4,568090093

10,15131132

26

39,34427892

-0,344278918

0,882766457

27

144,4794501

-57,57945009

66,25943623

28

56,4827667

-16,4827667

41,20691675

29

95,38240332

-15,38240332

19,22800415

30

228,6988826

-1,698882564

0,748406416

31

222,8067278

12,19327221

5,188626473

32

38,81483144

1,185168555

2,962921389

33

48,36325811

18,63674189

27,81603267

34

126,6080021

-3,608002113

2,933335051

35

84,85052935

15,14947065

15,14947065

36

116,7991162

-11,79911625

11,23725357

37

84,17648426

-13,87648426

19,73895342

38

113,9412801

-31,94128011

38,95278062

39

215,494184

64,50581599

23,03779142

40

141,7795953

58,22040472

29,11020236

సగటు

101,2375

22,51770962

సంబంధిత లోపాల కాలమ్‌ని ఉపయోగించి మనం సగటు విలువను కనుగొంటాము =22.51% (AVERAGE ఫంక్షన్‌ని ఉపయోగించి).

పోలిక 22.51%>7% అని చూపిస్తుంది. పర్యవసానంగా, మోడల్ యొక్క ఖచ్చితత్వం సంతృప్తికరంగా లేదు.

ఉపయోగించడం ద్వార ఎఫ్ - ఫిషర్ ప్రమాణం మొత్తంగా మోడల్ యొక్క ప్రాముఖ్యతను తనిఖీ చేద్దాం. దీన్ని చేయడానికి, మేము "రిగ్రెషన్" సాధనాన్ని ఉపయోగించి ఫలితాల నుండి వ్రాస్తాము (మోడల్ (6) కోసం టేబుల్ "వ్యత్యాసాల విశ్లేషణ") ఎఫ్= 39,6702.

FRIST ఫంక్షన్ ఉపయోగించి మేము విలువను కనుగొంటాము ఎఫ్ cr =3.252 ప్రాముఖ్యత స్థాయి కోసం α = 5%, మరియు స్వేచ్ఛ డిగ్రీల సంఖ్యలు కె 1 = 2 , కె 2 = 37 .

ఎఫ్> ఎఫ్ cr, కాబట్టి, మోడల్ (6) యొక్క సమీకరణం ముఖ్యమైనది, దాని ఉపయోగం మంచిది, డిపెండెంట్ వేరియబుల్ వైమోడల్ (6)లో చేర్చబడిన ఫ్యాక్టర్ వేరియబుల్స్ ద్వారా బాగా వివరించబడింది X 1 , X 2. మరియు X 4 .

అదనంగా ఉపయోగించడం t -విద్యార్థుల టి పరీక్ష మోడల్ యొక్క వ్యక్తిగత గుణకాల యొక్క ప్రాముఖ్యతను తనిఖీ చేద్దాం.

t-రిగ్రెషన్ సమీకరణం యొక్క గుణకాల గణాంకాలు "రిగ్రెషన్" సాధనం యొక్క ఫలితాలలో ఇవ్వబడ్డాయి. ఎంచుకున్న మోడల్ (6) కోసం క్రింది విలువలు పొందబడ్డాయి:


అసమానత

ప్రామాణిక లోపం

t-గణాంకం

పి-విలువ

దిగువ 95%

టాప్ 95%

దిగువ 95.0%

టాప్ 95.0%

Y-ఖండన

-5,643572321

12,07285417

-0,46745966

0,642988

-30,1285

18,84131

-30,1285

18,84131

X4

2,591405557

0,461440597

5,61590284

2.27E-06

1,655561

3,52725

1,655561

3,52725

X1

6,85963077

9,185748512

0,74676884

0,460053

-11,7699

25,48919

-11,7699

25,48919

X2

-1,985156991

7,795346067

-0,25465925

0,800435

-17,7949

13,82454

-17,7949

13,82454

క్లిష్టమైన విలువ t crప్రాముఖ్యత స్థాయి కోసం కనుగొనబడింది α=5%మరియు స్వేచ్ఛ డిగ్రీల సంఖ్య కె=40–2–1=37 . t cr =2.026 (STUDAR ఫంక్షన్).

ఉచిత అసమానత కోసం α =–5.643 గణాంకాలు నిర్వచించబడ్డాయి
, t crఅందువల్ల, ఉచిత గుణకం ముఖ్యమైనది కాదు మరియు మోడల్ నుండి మినహాయించబడుతుంది.

రిగ్రెషన్ కోఎఫీషియంట్ కోసం β 1 =6.859 గణాంకాలు నిర్వచించబడ్డాయి
, β 1 ముఖ్యమైనది కాదు, ఇది మరియు ప్రాంతీయ నగర కారకాన్ని మోడల్ నుండి తీసివేయవచ్చు.

రిగ్రెషన్ కోఎఫీషియంట్ కోసం β 2 =-1,985 గణాంకాలు నిర్వచించబడ్డాయి
, t cr, కాబట్టి, రిగ్రెషన్ కోఎఫీషియంట్ β 2 ముఖ్యమైనది కాదు, ఇది మరియు అపార్ట్మెంట్లోని గదుల సంఖ్య యొక్క కారకాన్ని మోడల్ నుండి మినహాయించవచ్చు.

రిగ్రెషన్ కోఎఫీషియంట్ కోసం β 4 =2.591 గణాంకాలు నిర్వచించబడ్డాయి
, > t cr, కాబట్టి, రిగ్రెషన్ కోఎఫీషియంట్ β 4 ముఖ్యమైనది, ఇది మరియు అపార్ట్మెంట్ యొక్క నివాస ప్రాంతం యొక్క కారకాన్ని మోడల్‌లో ఉంచవచ్చు.

మోడల్ కోఎఫీషియంట్స్ యొక్క ప్రాముఖ్యత గురించి ముగింపులు ప్రాముఖ్యత స్థాయిలో చేయబడతాయి α=5%. P- విలువ కాలమ్‌ను చూస్తే, ఉచిత గుణకం అని మేము గమనించాము α 0.64 = 64% స్థాయిలో ముఖ్యమైనదిగా పరిగణించవచ్చు; తిరోగమన గుణకం β 1 - 0.46 = 46% స్థాయిలో; తిరోగమన గుణకం β 2 - 0.8 = 80% స్థాయిలో; మరియు రిగ్రెషన్ కోఎఫీషియంట్ β 4 – 2.27E-06= 2.26691790951854E-06 = 0.0000002% స్థాయిలో.

సమీకరణానికి కొత్త కారకం వేరియబుల్స్ జోడించబడినప్పుడు, నిర్ణయ గుణకం స్వయంచాలకంగా పెరుగుతుంది ఆర్ 2 మరియు సగటు ఉజ్జాయింపు లోపం తగ్గుతుంది, అయినప్పటికీ మోడల్ నాణ్యత ఎల్లప్పుడూ మెరుగుపడదు. అందువల్ల, మోడల్ (3) మరియు ఎంచుకున్న బహుళ మోడల్ (6) నాణ్యతను సరిపోల్చడానికి, మేము సాధారణీకరించిన గుణకాల నిర్ధారణను ఉపయోగిస్తాము.

అందువల్ల, రిగ్రెషన్ సమీకరణానికి "ప్రాంతం యొక్క నగరం" అనే కారకాన్ని జోడించేటప్పుడు X 1 మరియు అంశం "అపార్ట్‌మెంట్‌లోని గదుల సంఖ్య" X 2 మోడల్ యొక్క నాణ్యత క్షీణించింది, ఇది కారకాలను తొలగించడానికి అనుకూలంగా మాట్లాడుతుంది X 1 మరియు Xమోడల్ నుండి 2.

తదుపరి లెక్కలు చేద్దాం.

సగటు స్థితిస్థాపకత గుణకాలు సరళ నమూనా విషయంలో సూత్రాల ద్వారా నిర్ణయించబడతాయి
.

AVERAGE ఫంక్షన్‌ని ఉపయోగించి మనం కనుగొన్నాము: S వై, కారకంలో మాత్రమే పెరుగుదలతో X 4 ఒక ప్రామాణిక విచలనం ద్వారా - 0.914 పెరుగుతుంది ఎస్ వై

డెల్టా కోఎఫీషియంట్స్ సూత్రాల ద్వారా నిర్ణయించబడతాయి
.

ఎక్సెల్‌లోని "డేటా అనాలిసిస్" ప్యాకేజీ యొక్క "కోరిలేషన్" సాధనాన్ని ఉపయోగించి జత సహసంబంధ గుణకాలను కనుగొనండి.


వై

X1

X2

X4

వై

1

X1

-0,01126

1

X2

0,751061

-0,0341

1

X4

0,874012

-0,0798

0,868524

1

నిర్ణయం యొక్క గుణకం ముందుగా నిర్ణయించబడింది మరియు 0.7677కి సమానం.

డెల్టా గుణకాలను గణిద్దాం:

;

Δ 1 నుండి 1 మరియు X 2 తప్పుగా ఎంపిక చేయబడింది మరియు వాటిని మోడల్ నుండి తీసివేయాలి. దీనర్థం, ఫలిత రేఖీయ మూడు-కారకాల నమూనా యొక్క సమీకరణం ప్రకారం, ఫలిత కారకంలో మార్పు వై(అపార్ట్‌మెంట్ ధరలు) కారకం ప్రభావంతో 104% వివరించబడింది X 4 (అపార్ట్‌మెంట్ యొక్క నివాస ప్రాంతం), 4% కారకం ద్వారా ప్రభావితమవుతుంది X 2 (గదుల సంఖ్య), కారకం ద్వారా 0.0859% ప్రభావితం చేయబడింది X 1 (ప్రాంతం యొక్క నగరం).