బహుళ సరళ సహసంబంధం. రెండు స్వతంత్ర వేరియబుల్స్

ఎక్సెల్ విశ్లేషణ ప్యాకేజీ (రిగ్రెషన్) ఉపయోగిస్తున్నప్పుడు లీనియర్ రిగ్రెషన్ నిర్మాణం, దాని పారామితుల మూల్యాంకనం మరియు వాటి ప్రాముఖ్యత చాలా వేగంగా నిర్వహించబడతాయి. సాధారణ సందర్భంలో పొందిన ఫలితాల వివరణను పరిశీలిద్దాం ( కెవివరణాత్మక వేరియబుల్స్) ఉదాహరణ 3.6 ప్రకారం.

పట్టికలో తిరోగమన గణాంకాలుకింది విలువలు ఇవ్వబడ్డాయి:

బహుళ ఆర్ - బహుళ సహసంబంధ గుణకం;

ఆర్- చతురస్రం- నిర్ధారణ గుణకం ఆర్ 2 ;

సాధారణీకరించబడింది ఆర్ - చతురస్రం- సర్దుబాటు ఆర్ 2 స్వేచ్ఛ డిగ్రీల సంఖ్యకు సర్దుబాటు చేయబడింది;

ప్రామాణిక లోపం- రిగ్రెషన్ ప్రామాణిక లోపం ఎస్;

పరిశీలనలు -పరిశీలనల సంఖ్య n.

పట్టికలో వైవిధ్యం యొక్క విశ్లేషణఇవ్వబడ్డాయి:

1. కాలమ్ df - సమానమైన స్వేచ్ఛ డిగ్రీల సంఖ్య

స్ట్రింగ్ కోసం తిరోగమనం df = కె;

స్ట్రింగ్ కోసం శేషంdf = n – కె – 1;

స్ట్రింగ్ కోసం మొత్తంdf = n– 1.

2. కాలమ్ SS -సమానమైన స్క్వేర్డ్ విచలనాల మొత్తం

స్ట్రింగ్ కోసం తిరోగమనం ;

స్ట్రింగ్ కోసం శేషం ;

స్ట్రింగ్ కోసం మొత్తం .

3. కాలమ్ కుమారిఫార్ములా ద్వారా నిర్ణయించబడిన వ్యత్యాసాలు కుమారి = SS/df:

స్ట్రింగ్ కోసం తిరోగమనం- కారకం వ్యాప్తి;

స్ట్రింగ్ కోసం శేషం- అవశేష వైవిధ్యం.

4. కాలమ్ ఎఫ్ - లెక్కించిన విలువ ఎఫ్సూత్రం ఉపయోగించి లెక్కించిన ప్రమాణం

ఎఫ్ = కుమారి(రిగ్రెషన్)/ కుమారి(సశేషం).

5. కాలమ్ ప్రాముఖ్యత ఎఫ్ - లెక్కించిన దానికి అనుగుణంగా ప్రాముఖ్యత స్థాయి విలువ ఎఫ్- గణాంకాలు .

ప్రాముఖ్యత ఎఫ్= FDIST( F-గణాంకాలు, df(తిరోగమనం), df(సశేషం)).

ప్రాముఖ్యత ఉంటే ఎఫ్ < стандартного уровня значимости, то ఆర్ 2 గణాంకపరంగా ముఖ్యమైనది.

	అసమానత	ప్రామాణిక లోపం	t-గణాంకాలు	పి-విలువ	దిగువ 95%	టాప్ 95%
వై	65,92	11,74	5,61	0,00080	38,16	93,68
X	0,107	0,014	7,32	0,00016	0,0728	0,142

ఈ పట్టిక చూపిస్తుంది:

1. అసమానత- గుణకం విలువలు a, బి.

2. ప్రామాణిక లోపం- రిగ్రెషన్ కోఎఫీషియంట్స్ యొక్క ప్రామాణిక లోపాలు ఎస్ ఎ, Sb.

3. t-గణాంకాలు- లెక్కించిన విలువలు t - సూత్రం ద్వారా లెక్కించబడిన ప్రమాణాలు:

t-statistic = గుణకాలు/ప్రామాణిక లోపం.

4.ఆర్-విలువ (ముఖ్యత t) లెక్కించిన దానికి సంబంధించిన ప్రాముఖ్యత స్థాయి విలువ t-గణాంకాలు.

ఆర్-విలువ = విద్యార్థి(t- గణాంకాలు, df(సశేషం)).

ఉంటే ఆర్-అర్థం< стандартного уровня значимости, то соответствующий коэффициент статистически значим.

5. దిగువ 95% మరియు ఎగువ 95%- సైద్ధాంతిక లీనియర్ రిగ్రెషన్ సమీకరణం యొక్క గుణకాల కోసం 95% విశ్వాస అంతరాల దిగువ మరియు ఎగువ పరిమితులు.

మిగిలిన వాటి ఉపసంహరణ
పరిశీలన	అంచనా వేసిన వై	అవశేషాలు ఇ
	72,70	-29,70
	82,91	-20,91
	94,53	-4,53
	105,72	5,27
	117,56	12,44
	129,70	19,29
	144,22	20,77
	166,49	24,50
	268,13	-27,13

పట్టికలో మిగిలిన వాటి ఉపసంహరణసూచించబడింది:

నిలువు వరుసలో పరిశీలన- పరిశీలన సంఖ్య;

నిలువు వరుసలో ముందే చెప్పబడింది వై - డిపెండెంట్ వేరియబుల్ యొక్క లెక్కించిన విలువలు;

నిలువు వరుసలో మిగిలిపోయినవి ఇ - డిపెండెంట్ వేరియబుల్ యొక్క గమనించిన మరియు లెక్కించిన విలువల మధ్య వ్యత్యాసం.

ఉదాహరణ 3.6.ఆహార ఖర్చులపై డేటా (సాంప్రదాయ యూనిట్లు) ఉన్నాయి వైమరియు తలసరి ఆదాయం xతొమ్మిది సమూహాల కుటుంబాలకు:

x
వై

Excel విశ్లేషణ ప్యాకేజీ (రిగ్రెషన్) ఫలితాలను ఉపయోగించి, తలసరి ఆదాయంపై ఆహార ఖర్చుల ఆధారపడటాన్ని మేము విశ్లేషిస్తాము.

రిగ్రెషన్ విశ్లేషణ యొక్క ఫలితాలు సాధారణంగా రూపంలో వ్రాయబడతాయి:

ఇక్కడ రిగ్రెషన్ కోఎఫీషియంట్స్ యొక్క ప్రామాణిక లోపాలు కుండలీకరణాల్లో సూచించబడతాయి.

తిరోగమన గుణకాలు ఎ = 65,92 మరియు బి= 0.107. మధ్య కమ్యూనికేషన్ యొక్క దిశ వైమరియు xరిగ్రెషన్ కోఎఫీషియంట్ యొక్క చిహ్నాన్ని నిర్ణయిస్తుంది బి= 0.107, అనగా. కనెక్షన్ ప్రత్యక్షంగా మరియు సానుకూలంగా ఉంటుంది. గుణకం బి= 0.107 తలసరి ఆదాయంలో 1 సంప్రదాయ పెరుగుదలతో చూపిస్తుంది. యూనిట్లు ఆహార ఖర్చులు 0.107 సంప్రదాయ యూనిట్లు పెరుగుతాయి. యూనిట్లు

ఫలిత నమూనా యొక్క కోఎఫీషియంట్స్ యొక్క ప్రాముఖ్యతను మనం అంచనా వేద్దాం. గుణకాల యొక్క ప్రాముఖ్యత ( ఎ, బి) ద్వారా తనిఖీ చేయబడింది t-పరీక్ష:

పి-విలువ ( a) = 0,00080 < 0,01 < 0,05

పి-విలువ ( బి) = 0,00016 < 0,01 < 0,05,

కాబట్టి, గుణకాలు ( ఎ, బి) 1% స్థాయిలో ముఖ్యమైనవి, ఇంకా ఎక్కువగా 5% ప్రాముఖ్యత స్థాయిలో ఉంటాయి. అందువలన, రిగ్రెషన్ కోఎఫీషియంట్స్ ముఖ్యమైనవి మరియు మోడల్ అసలు డేటాకు సరిపోతుంది.

రిగ్రెషన్ అంచనా ఫలితాలు రిగ్రెషన్ కోఎఫీషియంట్స్ యొక్క పొందిన విలువలతో మాత్రమే కాకుండా, వాటి యొక్క నిర్దిష్ట సెట్ (విశ్వాస విరామం)తో కూడా అనుకూలంగా ఉంటాయి. 95% సంభావ్యతతో, కోఎఫీషియంట్‌ల విశ్వాస విరామాలు (38.16 – 93.68) aమరియు (0.0728 - 0.142) కోసం బి.

మోడల్ యొక్క నాణ్యత నిర్ణయం యొక్క గుణకం ద్వారా అంచనా వేయబడుతుంది ఆర్ 2 .

పరిమాణం ఆర్ 2 = 0.884 అంటే తలసరి ఆదాయ కారకం ఆహార ఖర్చులలో 88.4% వైవిధ్యాన్ని (స్కాటర్) వివరించగలదు.

ప్రాముఖ్యత ఆర్ 2 ద్వారా తనిఖీ చేయబడింది F-పరీక్ష: ప్రాముఖ్యత ఎఫ్ = 0,00016 < 0,01 < 0,05, следовательно, ఆర్ 2 1% స్థాయిలో ముఖ్యమైనది మరియు 5% ప్రాముఖ్యత స్థాయిలో మరింత ఎక్కువగా ఉంటుంది.

పెయిర్‌వైస్ లీనియర్ రిగ్రెషన్ విషయంలో, కోరిలేషన్ కోఎఫీషియంట్‌ని ఇలా నిర్వచించవచ్చు . సహసంబంధ గుణకం యొక్క పొందిన విలువ ఆహార ఖర్చులు మరియు తలసరి ఆదాయం మధ్య సంబంధం చాలా దగ్గరగా ఉందని సూచిస్తుంది.

రిగ్రెషన్ విశ్లేషణ అనేది ఒకటి లేదా అంతకంటే ఎక్కువ స్వతంత్ర వేరియబుల్స్‌పై నిర్దిష్ట పరామితి యొక్క ఆధారపడటాన్ని చూపించడానికి మిమ్మల్ని అనుమతించే గణాంక పరిశోధన పద్ధతి. కంప్యూటర్ పూర్వ యుగంలో, దాని ఉపయోగం చాలా కష్టంగా ఉండేది, ప్రత్యేకించి పెద్ద మొత్తంలో డేటా విషయానికి వస్తే. ఈ రోజు, ఎక్సెల్‌లో రిగ్రెషన్‌ను ఎలా నిర్మించాలో నేర్చుకున్న తర్వాత, మీరు సంక్లిష్టమైన గణాంక సమస్యలను కేవలం రెండు నిమిషాల్లో పరిష్కరించవచ్చు. ఆర్థిక శాస్త్రం నుండి నిర్దిష్ట ఉదాహరణలు క్రింద ఉన్నాయి.

రిగ్రెషన్ రకాలు

ఈ భావన 1886లో గణితంలో ప్రవేశపెట్టబడింది. తిరోగమనం జరుగుతుంది:

సరళ;
పారాబొలిక్;
మత్తుమందు;
ఘాతాంక;
అతిశయోక్తి;
ప్రదర్శనాత్మక;
లాగరిథమిక్.

ఉదాహరణ 1

6 పారిశ్రామిక సంస్థలలో సగటు జీతంపై నిష్క్రమించిన జట్టు సభ్యుల సంఖ్యపై ఆధారపడటాన్ని నిర్ణయించే సమస్యను పరిశీలిద్దాం.

టాస్క్. ఆరు ఎంటర్‌ప్రైజెస్‌లో, సగటు నెలవారీ జీతం మరియు స్వచ్ఛందంగా నిష్క్రమించిన ఉద్యోగుల సంఖ్యను విశ్లేషించారు. పట్టిక రూపంలో మనకు ఉన్నాయి:


		విడిచిపెట్టిన వ్యక్తుల సంఖ్య	జీతం
			30,000 రూబిళ్లు
			35,000 రూబిళ్లు
			40,000 రూబిళ్లు
			45,000 రూబిళ్లు
			50,000 రూబిళ్లు
			55,000 రూబిళ్లు
			60,000 రూబిళ్లు

6 ఎంటర్‌ప్రైజెస్‌లో సగటు జీతంపై నిష్క్రమించే కార్మికుల సంఖ్యపై ఆధారపడటాన్ని నిర్ణయించే పని కోసం, రిగ్రెషన్ మోడల్ Y = a 0 + a 1 x 1 +...+a k x k అనే సమీకరణ రూపాన్ని కలిగి ఉంటుంది, ఇక్కడ x i ప్రభావితం చేసే వేరియబుల్స్, a i అనేది రిగ్రెషన్ కోఎఫీషియంట్స్, మరియు k అనేది కారకాల సంఖ్య.

ఈ సమస్య కోసం, Y అనేది ఉద్యోగులను విడిచిపెట్టడానికి సూచిక, మరియు ప్రభావితం చేసే అంశం జీతం, దీనిని మేము X ద్వారా సూచిస్తాము.

Excel స్ప్రెడ్‌షీట్ ప్రాసెసర్ యొక్క సామర్థ్యాలను ఉపయోగించడం

ఇప్పటికే ఉన్న పట్టిక డేటాకు అంతర్నిర్మిత ఫంక్షన్‌లను వర్తింపజేయడం ద్వారా Excelలో రిగ్రెషన్ విశ్లేషణ తప్పనిసరిగా చేయాలి. అయితే, ఈ ప్రయోజనాల కోసం చాలా ఉపయోగకరమైన “విశ్లేషణ ప్యాక్” యాడ్-ఆన్‌ను ఉపయోగించడం మంచిది. దీన్ని సక్రియం చేయడానికి మీకు ఇది అవసరం:

"ఫైల్" ట్యాబ్ నుండి "ఐచ్ఛికాలు" విభాగానికి వెళ్లండి;
తెరుచుకునే విండోలో, "యాడ్-ఆన్లు" అనే పంక్తిని ఎంచుకోండి;
"నిర్వహణ" లైన్ యొక్క కుడి వైపున ఉన్న "గో" బటన్‌పై క్లిక్ చేయండి;
"విశ్లేషణ ప్యాకేజీ" పేరు పక్కన ఉన్న పెట్టెను ఎంచుకోండి మరియు "సరే" క్లిక్ చేయడం ద్వారా మీ చర్యలను నిర్ధారించండి.

ప్రతిదీ సరిగ్గా జరిగితే, అవసరమైన బటన్ ఎక్సెల్ వర్క్‌షీట్ పైన ఉన్న “డేటా” ట్యాబ్ యొక్క కుడి వైపున కనిపిస్తుంది.

Excel లో

ఇప్పుడు ఎకనామెట్రిక్ గణనలను నిర్వహించడానికి అవసరమైన అన్ని వర్చువల్ సాధనాలను మేము కలిగి ఉన్నాము, మేము మా సమస్యను పరిష్కరించడం ప్రారంభించవచ్చు. దీని కొరకు:

"డేటా విశ్లేషణ" బటన్పై క్లిక్ చేయండి;
తెరుచుకునే విండోలో, "రిగ్రెషన్" బటన్పై క్లిక్ చేయండి;
కనిపించే ట్యాబ్‌లో, Y (ఉద్యోగులను విడిచిపెట్టిన వారి సంఖ్య) మరియు X (వారి జీతాలు) కోసం విలువల పరిధిని నమోదు చేయండి;
"సరే" బటన్‌ను నొక్కడం ద్వారా మేము మా చర్యలను నిర్ధారిస్తాము.

ఫలితంగా, ప్రోగ్రామ్ స్వయంచాలకంగా రిగ్రెషన్ విశ్లేషణ డేటాతో కొత్త స్ప్రెడ్‌షీట్‌ను నింపుతుంది. గమనిక! ఈ ప్రయోజనం కోసం మీరు ఇష్టపడే స్థానాన్ని మాన్యువల్‌గా సెట్ చేయడానికి Excel మిమ్మల్ని అనుమతిస్తుంది. ఉదాహరణకు, ఇది Y మరియు X విలువలు ఉన్న అదే షీట్ కావచ్చు లేదా అటువంటి డేటాను నిల్వ చేయడానికి ప్రత్యేకంగా రూపొందించబడిన కొత్త వర్క్‌బుక్ కూడా కావచ్చు.

R-స్క్వేర్డ్ కోసం రిగ్రెషన్ ఫలితాల విశ్లేషణ

Excelలో, పరిశీలనలో ఉన్న ఉదాహరణలో డేటాను ప్రాసెస్ చేస్తున్నప్పుడు పొందిన డేటా రూపం కలిగి ఉంటుంది:

అన్నింటిలో మొదటిది, మీరు R- స్క్వేర్డ్ విలువకు శ్రద్ద ఉండాలి. ఇది నిర్ణయం యొక్క గుణకాన్ని సూచిస్తుంది. ఈ ఉదాహరణలో, R-స్క్వేర్ = 0.755 (75.5%), అనగా, మోడల్ యొక్క లెక్కించిన పారామితులు 75.5% ద్వారా పరిశీలనలో ఉన్న పారామితుల మధ్య సంబంధాన్ని వివరిస్తాయి. నిర్ణయం యొక్క గుణకం యొక్క అధిక విలువ, ఎంచుకున్న మోడల్ నిర్దిష్ట పని కోసం మరింత అనుకూలంగా ఉంటుంది. R-స్క్వేర్ విలువ 0.8 కంటే ఎక్కువగా ఉన్నప్పుడు వాస్తవ పరిస్థితిని సరిగ్గా వివరించడానికి ఇది పరిగణించబడుతుంది. R-స్క్వేర్ ఉంటే<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

అసమానత విశ్లేషణ

64.1428 సంఖ్య మేము పరిశీలిస్తున్న మోడల్‌లోని అన్ని వేరియబుల్స్ xiని సున్నాకి రీసెట్ చేస్తే Y విలువ ఎంత ఉంటుందో చూపిస్తుంది. మరో మాటలో చెప్పాలంటే, విశ్లేషించబడిన పరామితి యొక్క విలువ నిర్దిష్ట నమూనాలో వివరించబడని ఇతర కారకాలచే కూడా ప్రభావితమవుతుందని వాదించవచ్చు.

సెల్ B18లో ఉన్న తదుపరి గుణకం -0.16285, Y పై వేరియబుల్ X ప్రభావం యొక్క బరువును చూపుతుంది. దీని అర్థం, పరిశీలనలో ఉన్న మోడల్‌లోని ఉద్యోగుల సగటు నెలవారీ జీతం -0.16285 బరువుతో విడిచిపెట్టిన వారి సంఖ్యను ప్రభావితం చేస్తుంది, అనగా. దాని ప్రభావం యొక్క డిగ్రీ పూర్తిగా చిన్నది. "-" సంకేతం గుణకం ప్రతికూలంగా ఉందని సూచిస్తుంది. ఇది స్పష్టంగా ఉంది, ఎందుకంటే సంస్థలో ఎక్కువ జీతం లభిస్తుందని అందరికీ తెలుసు, తక్కువ మంది వ్యక్తులు ఉపాధి ఒప్పందాన్ని ముగించాలని లేదా నిష్క్రమించాలని కోరికను వ్యక్తం చేస్తారు.

బహుళ తిరోగమనం

ఈ పదం రూపం యొక్క అనేక స్వతంత్ర వేరియబుల్స్‌తో సంబంధ సమీకరణాన్ని సూచిస్తుంది:

y=f(x 1 +x 2 +…x m) + ε, ఇక్కడ y అనేది ఫలిత లక్షణం (డిపెండెంట్ వేరియబుల్), మరియు x 1, x 2,…x m అనేది ఫ్యాక్టర్ లక్షణాలు (స్వతంత్ర వేరియబుల్స్).

పారామీటర్ అంచనా

మల్టిపుల్ రిగ్రెషన్ (MR) కోసం, ఇది అతి తక్కువ చతురస్రాల పద్ధతి (OLS) ఉపయోగించి నిర్వహించబడుతుంది. Y = a + b 1 x 1 +...+b m x m + ε రూపం యొక్క సరళ సమీకరణాల కోసం మేము సాధారణ సమీకరణాల వ్యవస్థను నిర్మిస్తాము (క్రింద చూడండి)

పద్ధతి యొక్క సూత్రాన్ని అర్థం చేసుకోవడానికి, రెండు-కారకాల కేసును పరిగణించండి. అప్పుడు మేము సూత్రం ద్వారా వివరించిన పరిస్థితిని కలిగి ఉన్నాము

ఇక్కడ నుండి మనం పొందుతాము:

ఇక్కడ σ అనేది సూచికలో ప్రతిబింబించే సంబంధిత లక్షణం యొక్క వైవిధ్యం.

OLS అనేది ప్రామాణిక స్కేల్‌లో MR సమీకరణానికి వర్తిస్తుంది. ఈ సందర్భంలో మనం సమీకరణాన్ని పొందుతాము:

దీనిలో t y, t x 1, … t xm ప్రామాణిక వేరియబుల్స్, వీటికి సగటు విలువలు 0కి సమానం; β i అనేది ప్రామాణిక రిగ్రెషన్ కోఎఫీషియంట్స్, మరియు ప్రామాణిక విచలనం 1.

దయచేసి ఈ సందర్భంలో అన్ని β iలు సాధారణీకరించబడినవి మరియు కేంద్రీకృతమైనవిగా పేర్కొనబడ్డాయి, అందువల్ల వాటి పరస్పర పోలిక సరైనది మరియు ఆమోదయోగ్యమైనదిగా పరిగణించబడుతుంది. అదనంగా, తక్కువ βi విలువలు ఉన్న వాటిని విస్మరించడం ద్వారా కారకాలను పరీక్షించడం ఆచారం.

లీనియర్ రిగ్రెషన్ ఈక్వేషన్ ఉపయోగించడంలో సమస్య

మేము గత 8 నెలల్లో నిర్దిష్ట ఉత్పత్తి N కోసం ధర డైనమిక్స్ పట్టికను కలిగి ఉన్నామని అనుకుందాం. 1850 రూబిళ్లు / t ధర వద్ద దాని బ్యాచ్ కొనుగోలు చేయడం యొక్క సలహాపై నిర్ణయం తీసుకోవడం అవసరం.


నెల సంఖ్య	నెల పేరు	ఉత్పత్తి ధర N
		టన్నుకు 1750 రూబిళ్లు
		టన్నుకు 1755 రూబిళ్లు
		టన్నుకు 1767 రూబిళ్లు
		టన్నుకు 1760 రూబిళ్లు
		టన్నుకు 1770 రూబిళ్లు
		టన్నుకు 1790 రూబిళ్లు
		టన్నుకు 1810 రూబిళ్లు
		టన్నుకు 1840 రూబిళ్లు

Excel స్ప్రెడ్‌షీట్ ప్రాసెసర్‌లో ఈ సమస్యను పరిష్కరించడానికి, మీరు పైన అందించిన ఉదాహరణ నుండి ఇప్పటికే తెలిసిన “డేటా విశ్లేషణ” సాధనాన్ని ఉపయోగించాలి. తరువాత, "రిగ్రెషన్" విభాగాన్ని ఎంచుకుని, పారామితులను సెట్ చేయండి. “ఇన్‌పుట్ విరామం Y” ఫీల్డ్‌లో డిపెండెంట్ వేరియబుల్ (ఈ సందర్భంలో, సంవత్సరంలోని నిర్దిష్ట నెలల్లో వస్తువుల ధరలు) మరియు “ఇన్‌పుట్ విరామం X”లో విలువల శ్రేణి తప్పనిసరిగా నమోదు చేయబడాలని గుర్తుంచుకోవాలి. - స్వతంత్ర వేరియబుల్ కోసం (నెల సంఖ్య). "సరే" క్లిక్ చేయడం ద్వారా చర్యను నిర్ధారించండి. కొత్త షీట్‌లో (అలా సూచించినట్లయితే) మేము రిగ్రెషన్ కోసం డేటాను పొందుతాము.

వాటిని ఉపయోగించి, మేము ఫారమ్ y=ax+b యొక్క సరళ సమీకరణాన్ని నిర్మిస్తాము, ఇక్కడ పారామితులు a మరియు b అనేవి నెల సంఖ్య పేరు మరియు గుణకాలు మరియు పంక్తులతో షీట్ నుండి “Y-ఖండన” అనే రేఖ యొక్క గుణకాలు. రిగ్రెషన్ విశ్లేషణ ఫలితాలు. అందువలన, టాస్క్ 3 కోసం లీనియర్ రిగ్రెషన్ ఈక్వేషన్ (LR) ఇలా వ్రాయబడింది:

ఉత్పత్తి ధర N = 11.714* నెల సంఖ్య + 1727.54.

లేదా బీజగణిత సంజ్ఞామానంలో

y = 11.714 x + 1727.54

ఫలితాల విశ్లేషణ

ఫలితంగా వచ్చే లీనియర్ రిగ్రెషన్ ఈక్వేషన్ సరిపోతుందో లేదో నిర్ణయించడానికి, మల్టిపుల్ కోరిలేషన్ (MCC) మరియు డిటర్మినేషన్ యొక్క గుణకాలు ఉపయోగించబడతాయి, అలాగే ఫిషర్ టెస్ట్ మరియు స్టూడెంట్ టి టెస్ట్‌లు ఉపయోగించబడతాయి. రిగ్రెషన్ ఫలితాలతో Excel స్ప్రెడ్‌షీట్‌లో, వాటిని వరుసగా బహుళ R, R-స్క్వేర్డ్, F-స్టాటిస్టిక్ మరియు t-స్టాటిస్టిక్ అని పిలుస్తారు.

KMC R స్వతంత్ర మరియు డిపెండెంట్ వేరియబుల్స్ మధ్య సంభావ్య సంబంధం యొక్క సన్నిహితతను అంచనా వేయడం సాధ్యం చేస్తుంది. దీని అధిక విలువ వేరియబుల్స్ "నెల సంఖ్య" మరియు "1 టన్నుకు రూబిళ్లలో ఉత్పత్తి N ధర" మధ్య చాలా బలమైన కనెక్షన్‌ను సూచిస్తుంది. అయితే, ఈ సంబంధం యొక్క స్వభావం ఇంకా తెలియదు.

గుణకం యొక్క వర్గము R2 (RI) అనేది మొత్తం స్కాటర్ యొక్క నిష్పత్తి యొక్క సంఖ్యా లక్షణం మరియు ప్రయోగాత్మక డేటాలోని ఏ భాగం యొక్క స్కాటర్‌ను చూపుతుంది, అనగా. డిపెండెంట్ వేరియబుల్ యొక్క విలువలు లీనియర్ రిగ్రెషన్ సమీకరణానికి అనుగుణంగా ఉంటాయి. పరిశీలనలో ఉన్న సమస్యలో, ఈ విలువ 84.8%కి సమానం, అనగా, గణాంక డేటా ఫలితంగా వచ్చే SD ద్వారా అధిక స్థాయి ఖచ్చితత్వంతో వివరించబడింది.

F-గణాంకాలు, ఫిషర్ పరీక్ష అని కూడా పిలుస్తారు, ఇది ఒక సరళ సంబంధం యొక్క ప్రాముఖ్యతను అంచనా వేయడానికి, దాని ఉనికి యొక్క పరికల్పనను తిరస్కరించడానికి లేదా నిర్ధారించడానికి ఉపయోగించబడుతుంది.

(విద్యార్థుల పరీక్ష) సరళ సంబంధం యొక్క తెలియని లేదా ఉచిత పదంతో గుణకం యొక్క ప్రాముఖ్యతను అంచనా వేయడానికి సహాయపడుతుంది. t-test విలువ > tcr అయితే, అప్పుడు సరళ సమీకరణం యొక్క ఉచిత పదం యొక్క అల్పత గురించి పరికల్పన తిరస్కరించబడుతుంది.

ఉచిత పదం కోసం పరిశీలనలో ఉన్న సమస్యలో, Excel సాధనాలను ఉపయోగించి, t = 169.20903, మరియు p = 2.89E-12 అని పొందబడింది, అనగా, ఉచిత పదం యొక్క ప్రాముఖ్యత గురించి సరైన పరికల్పన తిరస్కరించబడటానికి మేము సున్నా సంభావ్యతను కలిగి ఉన్నాము. . తెలియని t=5.79405, మరియు p=0.001158 కోసం గుణకం కోసం. మరో మాటలో చెప్పాలంటే, తెలియని వ్యక్తికి గుణకం యొక్క అతితక్కువ గురించి సరైన పరికల్పన తిరస్కరించబడే సంభావ్యత 0.12%.

అందువల్ల, ఫలిత సరళ రిగ్రెషన్ సమీకరణం సరిపోతుందని వాదించవచ్చు.

షేర్ల బ్లాక్‌ను కొనుగోలు చేయడం సాధ్యాసాధ్యాల సమస్య

Excelలో బహుళ రిగ్రెషన్ అదే డేటా విశ్లేషణ సాధనాన్ని ఉపయోగించి నిర్వహించబడుతుంది. నిర్దిష్ట అప్లికేషన్ సమస్యను పరిశీలిద్దాం.

MMM JSCలో 20% వాటాను కొనుగోలు చేయాలనే సలహాపై NNN కంపెనీ నిర్వహణ తప్పనిసరిగా నిర్ణయించాలి. ప్యాకేజీ ధర (SP) 70 మిలియన్ US డాలర్లు. NNN నిపుణులు ఇలాంటి లావాదేవీలపై డేటాను సేకరించారు. మిలియన్ల US డాలర్లలో వ్యక్తీకరించబడిన అటువంటి పారామితుల ప్రకారం షేర్ల బ్లాక్ విలువను అంచనా వేయాలని నిర్ణయించబడింది:

చెల్లించవలసిన ఖాతాలు (VK);
వార్షిక టర్నోవర్ వాల్యూమ్ (VO);
స్వీకరించదగిన ఖాతాలు (VD);
స్థిర ఆస్తుల ధర (COF).

అదనంగా, వేల US డాలర్లలో ఎంటర్‌ప్రైజ్ వేతన బకాయిల (V3 P) పరామితి ఉపయోగించబడుతుంది.

ఎక్సెల్ స్ప్రెడ్‌షీట్ ప్రాసెసర్ ఉపయోగించి పరిష్కారం

అన్నింటిలో మొదటిది, మీరు సోర్స్ డేటా యొక్క పట్టికను సృష్టించాలి. ఇది ఇలా కనిపిస్తుంది:

"డేటా విశ్లేషణ" విండోకు కాల్ చేయండి;
"రిగ్రెషన్" విభాగాన్ని ఎంచుకోండి;
“ఇన్‌పుట్ విరామం Y” బాక్స్‌లో, కాలమ్ G నుండి డిపెండెంట్ వేరియబుల్స్ విలువల పరిధిని నమోదు చేయండి;
"ఇన్‌పుట్ ఇంటర్వెల్ X" విండోకు కుడి వైపున ఎరుపు బాణం ఉన్న చిహ్నంపై క్లిక్ చేయండి మరియు షీట్‌లోని B, C, D, F నిలువు వరుసల నుండి అన్ని విలువల పరిధిని హైలైట్ చేయండి.

"కొత్త వర్క్‌షీట్" అంశాన్ని గుర్తించి, "సరే" క్లిక్ చేయండి.

ఇచ్చిన సమస్య కోసం రిగ్రెషన్ విశ్లేషణను పొందండి.

ఫలితాలు మరియు ముగింపుల అధ్యయనం

మేము Excel స్ప్రెడ్‌షీట్‌లో పైన అందించిన గుండ్రని డేటా నుండి రిగ్రెషన్ సమీకరణాన్ని "సేకరిస్తాము":

SP = 0.103*SOF + 0.541*VO - 0.031*VK +0.405*VD +0.691*VZP - 265.844.

బాగా తెలిసిన గణిత రూపంలో, దీనిని ఇలా వ్రాయవచ్చు:

y = 0.103*x1 + 0.541*x2 - 0.031*x3 +0.405*x4 +0.691*x5 - 265.844

MMM JSC కోసం డేటా పట్టికలో ప్రదర్శించబడింది:

వాటిని రిగ్రెషన్ ఈక్వేషన్‌లో భర్తీ చేస్తే, మనకు 64.72 మిలియన్ US డాలర్లు లభిస్తాయి. దీని అర్థం MMM JSC యొక్క షేర్లను కొనుగోలు చేయడం విలువైనది కాదు, ఎందుకంటే వాటి విలువ 70 మిలియన్ US డాలర్లు చాలా ఎక్కువ.

మీరు చూడగలిగినట్లుగా, Excel స్ప్రెడ్‌షీట్ మరియు రిగ్రెషన్ ఈక్వేషన్ యొక్క ఉపయోగం చాలా నిర్దిష్ట లావాదేవీ యొక్క సాధ్యాసాధ్యాలకు సంబంధించి సమాచారంతో కూడిన నిర్ణయం తీసుకోవడాన్ని సాధ్యం చేసింది.

రిగ్రెషన్ అంటే ఏమిటో ఇప్పుడు మీకు తెలుసు. పైన చర్చించిన Excel ఉదాహరణలు ఎకనామెట్రిక్స్ రంగంలో ఆచరణాత్మక సమస్యలను పరిష్కరించడంలో మీకు సహాయపడతాయి.

IN తిరోగమన గణాంకాలుబహుళ సహసంబంధ గుణకం సూచించబడింది (బహువచనం R)మరియు సంకల్పం (R-స్క్వేర్డ్) Y మరియు కారకాల లక్షణాల శ్రేణి మధ్య (ఇది సహసంబంధ విశ్లేషణలో గతంలో పొందిన విలువలతో సమానంగా ఉంటుంది)

పట్టిక మధ్య భాగం (వ్యత్యాసాల విశ్లేషణ)రిగ్రెషన్ సమీకరణం యొక్క ప్రాముఖ్యతను పరీక్షించడానికి అవసరం.

పట్టిక దిగువన - ఖచ్చితమైనది

సాధారణ రిగ్రెషన్ కోఎఫీషియంట్స్ ద్వి యొక్క తుది అంచనాలు ద్వి, వాటి ప్రాముఖ్యత మరియు విరామ అంచనాను పరీక్షించడం.

కోఎఫీషియంట్స్ b వెక్టర్ అంచనా (కాలమ్ అసమానత):

అప్పుడు రిగ్రెషన్ సమీకరణ అంచనా రూపాన్ని కలిగి ఉంటుంది:

రిగ్రెషన్ సమీకరణం యొక్క ప్రాముఖ్యతను మరియు ఫలితంగా వచ్చే రిగ్రెషన్ కోఎఫీషియంట్‌లను తనిఖీ చేయడం అవసరం.

b=0.05 స్థాయిలో రిగ్రెషన్ సమీకరణం యొక్క ప్రాముఖ్యతను తనిఖీ చేద్దాం, అనగా. పరికల్పన H0: в1=в2=в3=…=вk=0. దీన్ని చేయడానికి, F-గణాంకం యొక్క గమనించిన విలువ లెక్కించబడుతుంది:

Excel దీన్ని ఫలితాలలో చూపుతుంది వైవిధ్యం యొక్క విశ్లేషణ:

QR=527.4296; Qost=1109.8673 =>

నిలువు వరుసలో ఎఫ్విలువ సూచించబడుతుంది ఎఫ్గమనించదగినది.

F-పంపిణీ పట్టికల నుండి లేదా అంతర్నిర్మిత స్టాటిస్టికల్ ఫంక్షన్‌ని ఉపయోగించడం ఎఫ్కనుగొనండిప్రాముఖ్యత స్థాయి b=0.05 మరియు న్యూమరేటర్ n1=k=4 మరియు హారం n2=n-k-1=45 ఫ్రీక్వెన్సీ డిగ్రీల సంఖ్య కోసం మేము F-గణాంకాల యొక్క క్లిష్టమైన విలువను సమానంగా కనుగొంటాము

Fcr = 2.578739184

F-గణాంకం యొక్క గమనించిన విలువ దాని క్లిష్టమైన విలువ 8.1957 > 2.7587ను మించిపోయింది కాబట్టి, గుణకాల వెక్టర్ యొక్క సమానత్వం గురించి పరికల్పన 0.05 యొక్క లోపం సంభావ్యతతో తిరస్కరించబడింది. పర్యవసానంగా, వెక్టర్ b=(b1,b2,b3,b4)T యొక్క కనీసం ఒక మూలకం సున్నా నుండి గణనీయంగా భిన్నంగా ఉంటుంది.

రిగ్రెషన్ సమీకరణం యొక్క వ్యక్తిగత గుణకాల యొక్క ప్రాముఖ్యతను తనిఖీ చేద్దాం, అనగా. పరికల్పన .

రిగ్రెషన్ కోఎఫీషియంట్స్ యొక్క ప్రాముఖ్యతను పరీక్షించడం ప్రాముఖ్యత స్థాయికి t-గణాంకాల ఆధారంగా నిర్వహించబడుతుంది.

t-గణాంకాల యొక్క గమనించిన విలువలు కాలమ్‌లోని ఫలితాల పట్టికలో సూచించబడ్డాయి t- గణాంకాలు.

	గుణకాలు (ద్వి)	t-గణాంకాలు (టాబ్)
Y-ఖండన
వేరియబుల్ X5
వేరియబుల్ X7
వేరియబుల్ X10
వేరియబుల్ X15

వాటిని ప్రాముఖ్యత స్థాయి b=0.05 మరియు n=n – k - 1 డిగ్రీల ఫ్రీక్వెన్సీ కోసం కనుగొనబడిన క్లిష్టమైన విలువ tcrతో పోల్చాలి.

దీన్ని చేయడానికి, మేము అంతర్నిర్మిత Excel స్టాటిస్టికల్ ఫంక్షన్‌ని ఉపయోగిస్తాము స్టడీస్పోబర్,ప్రతిపాదిత మెనూలోకి ప్రవేశించడం ద్వారా సంభావ్యత b = 0.05 మరియు స్వేచ్ఛ డిగ్రీల సంఖ్య n = n-k-1 = 50-4-1 = 45. (మీరు గణిత గణాంకాల పట్టికల నుండి tcr విలువలను కనుగొనవచ్చు.

మనకు tcr = 2.014103359 వస్తుంది.

t-గణాంకాల యొక్క గమనించిన విలువ కోసం సంపూర్ణ విలువ 2.0141>|-0.0872|, 2.0141>|0.2630|, 2.0141>|0.7300|, 2.0141>|-1.6629 |

పర్యవసానంగా, ఈ గుణకాలు సున్నాకి సమానం అనే పరికల్పన 0.05 లోపం సంభావ్యతతో తిరస్కరించబడదు, అనగా. సంబంధిత గుణకాలు చాలా తక్కువగా ఉంటాయి.

t-గణాంకాల యొక్క గమనించిన విలువ క్లిష్టమైన విలువ మాడ్యులో |3.7658|>2.0141 కంటే ఎక్కువగా ఉంటుంది, కాబట్టి, పరికల్పన H0 తిరస్కరించబడింది, అనగా. - ముఖ్యమైనది

రిగ్రెషన్ కోఎఫీషియంట్స్ యొక్క ప్రాముఖ్యత కూడా ఫలిత పట్టికలోని క్రింది నిలువు వరుసల ద్వారా తనిఖీ చేయబడుతుంది:

కాలమ్ p-అర్థం 5% సరిహద్దు స్థాయిలో మోడల్ పారామితుల యొక్క ప్రాముఖ్యతను చూపుతుంది, అనగా. p≤0.05 అయితే, సంబంధిత గుణకం ముఖ్యమైనదిగా పరిగణించబడుతుంది, p>0.05 అయితే, అది అంతగా ఉండదు.

మరియు చివరి నిలువు వరుసలు - తక్కువ 95%మరియు ఎగువ 95%మరియు దిగువ 98%మరియు టాప్ 98% -ఇవి r = 0.95 (ఎల్లప్పుడూ జారీ చేయబడినవి) మరియు r = 0.98 (సంబంధిత అదనపు విశ్వసనీయతను సెట్ చేసినప్పుడు జారీ చేయబడినవి) కోసం పేర్కొన్న విశ్వసనీయత స్థాయిలతో రిగ్రెషన్ కోఎఫీషియంట్స్ యొక్క విరామ అంచనాలు.

దిగువ మరియు ఎగువ పరిమితులు ఒకే గుర్తును కలిగి ఉంటే (విశ్వాస విరామంలో సున్నా చేర్చబడలేదు), అప్పుడు సంబంధిత రిగ్రెషన్ కోఎఫీషియంట్ ముఖ్యమైనదిగా పరిగణించబడుతుంది, లేకుంటే అది చాలా తక్కువగా పరిగణించబడుతుంది

పట్టిక నుండి చూడగలిగినట్లుగా, గుణకం b3 p-విలువ p=0.0005 కోసం<0,05 и доверительные интервалы не включают ноль, т.е. по всем проверочным критериям этот коэффициент является значимым.

అతితక్కువ రిగ్రెసర్‌లను మినహాయించడంతో స్టెప్‌వైస్ రిగ్రెషన్ విశ్లేషణ యొక్క అల్గోరిథం ప్రకారం, తదుపరి దశలో ఒక ముఖ్యమైన రిగ్రెషన్ కోఎఫీషియంట్ ఉన్న వేరియబుల్‌ను పరిగణనలోకి తీసుకోవడం నుండి మినహాయించడం అవసరం.

రిగ్రెషన్ అసెస్‌మెంట్ సమయంలో అనేక ముఖ్యమైన గుణకాలు గుర్తించబడినప్పుడు, రిగ్రెషన్ సమీకరణం నుండి మినహాయించబడిన మొదటిది రిగ్రెసర్, దీని కోసం t-గణాంకం () సంపూర్ణ విలువలో తక్కువగా ఉంటుంది. ఈ సూత్రం ప్రకారం, తదుపరి దశలో వేరియబుల్ X5 మినహాయించాల్సిన అవసరం ఉంది, ఇది చాలా తక్కువ రిగ్రెషన్ కోఎఫీషియంట్ b2 కలిగి ఉంటుంది.

తిరోగమన విశ్లేషణ యొక్క II దశ.

మోడల్ X7, X10, X15 కారకాల లక్షణాలను కలిగి ఉంటుంది మరియు X5ని మినహాయిస్తుంది.

ఫలితాల ముగింపు

తిరోగమన గణాంకాలు

బహువచనం ఆర్

R-స్క్వేర్

సాధారణీకరించిన R-స్క్వేర్డ్

ప్రామాణిక లోపం

పరిశీలనలు

వైవిధ్యం యొక్క విశ్లేషణ

(స్వేచ్ఛ డిగ్రీల సంఖ్య n)

(స్క్వేర్డ్ విచలనాల మొత్తం Q)

(సగటు చదరపు MS=SS/n)

(ఫోబ్స్ = MSR/MSost)

ప్రాముఖ్యత ఎఫ్

తిరోగమనం

అసమానత

ప్రామాణిక లోపం

t-స్టా-టిస్టిక్స్

పి-విలువ

టాప్ 95% (బైమాక్స్)

తక్కువ 98% (బిమిన్)

Y-ఖండన

వేరియబుల్ X7

వేరియబుల్ X10

వేరియబుల్ X15

ఈ రోజు, డేటా మైనింగ్‌లో కొంచెం ఆసక్తి ఉన్న ప్రతి ఒక్కరూ బహుశా సాధారణ సరళ రిగ్రెషన్ గురించి విన్నారు. ఇది ఇప్పటికే హబ్రేలో వ్రాయబడింది మరియు ఆండ్రూ ంగ్ తన ప్రసిద్ధ మెషీన్ లెర్నింగ్ కోర్సులో దాని గురించి వివరంగా మాట్లాడాడు. మెషిన్ లెర్నింగ్ యొక్క ప్రాథమిక మరియు సరళమైన పద్ధతుల్లో లీనియర్ రిగ్రెషన్ ఒకటి, అయితే నిర్మించిన నమూనా యొక్క నాణ్యతను అంచనా వేసే పద్ధతులు చాలా అరుదుగా ప్రస్తావించబడ్డాయి. ఈ ఆర్టికల్‌లో, సారాంశం.lm() ఫంక్షన్‌ని R భాషలో అన్వయించే ఉదాహరణను ఉపయోగించి నేను ఈ బాధించే లోపాన్ని కొద్దిగా సరిచేయడానికి ప్రయత్నిస్తాను, అదే సమయంలో, నేను అవసరమైన సూత్రాలను అందించడానికి ప్రయత్నిస్తాను ఏదైనా ఇతర భాషలో సులభంగా ప్రోగ్రామ్ చేయవచ్చు. ఈ వ్యాసం లీనియర్ రిగ్రెషన్‌ను నిర్మించవచ్చని విన్న వారి కోసం ఉద్దేశించబడింది, కానీ దాని నాణ్యతను అంచనా వేయడానికి గణాంక విధానాలను ఎదుర్కోలేదు.

లీనియర్ రిగ్రెషన్ మోడల్

కాబట్టి, అనేక స్వతంత్ర యాదృచ్ఛిక వేరియబుల్స్ X1, X2, ..., Xn (ప్రిడిక్టర్లు) మరియు వాటిపై ఆధారపడిన విలువ Y (ప్రిడిక్టర్ల యొక్క అవసరమైన అన్ని పరివర్తనలు ఇప్పటికే చేయబడ్డాయి అని భావించబడుతుంది). అంతేకాకుండా, సంబంధం సరళంగా ఉంటుందని మరియు లోపాలు సాధారణంగా పంపిణీ చేయబడతాయని మేము అనుకుంటాము, అనగా

I ఎక్కడ n x n యూనిట్ స్క్వేర్ మ్యాట్రిక్స్.

కాబట్టి, మేము Y మరియు Xi పరిమాణాల యొక్క k పరిశీలనలతో కూడిన డేటాను కలిగి ఉన్నాము మరియు మేము గుణకాలను అంచనా వేయాలనుకుంటున్నాము. గుణకం అంచనాలను కనుగొనడానికి ప్రామాణిక పద్ధతి తక్కువ చతురస్రాల పద్ధతి. మరియు ఈ పద్ధతిని వర్తింపజేయడం ద్వారా పొందగలిగే విశ్లేషణాత్మక పరిష్కారం ఇలా కనిపిస్తుంది:

ఎక్కడ బిమూతతో - కోఎఫీషియంట్స్ వెక్టర్ అంచనా, వైడిపెండెంట్ వేరియబుల్ యొక్క విలువల వెక్టర్, మరియు X అనేది పరిమాణం k x n+1 యొక్క మాతృక (n అనేది ప్రిడిక్టర్ల సంఖ్య, k అనేది పరిశీలనల సంఖ్య), దీనిలో మొదటి నిలువు వరుస వాటిని కలిగి ఉంటుంది, రెండవది - మొదటి ప్రిడిక్టర్ యొక్క విలువలు, మూడవది - రెండవది మరియు మొదలైనవి మరియు ఇప్పటికే ఉన్న పరిశీలనలకు అనుగుణంగా వరుసలు.

summary.lm() ఫంక్షన్ మరియు ఫలిత ఫలితాల మూల్యాంకనం

ఇప్పుడు R లో లీనియర్ రిగ్రెషన్ మోడల్‌ను నిర్మించే ఉదాహరణను చూద్దాం:
> లైబ్రరీ(దూరం) > lm1<-lm(Species~Area+Elevation+Nearest+Scruz+Adjacent, data=gala) >సారాంశం(lm1) కాల్: lm(ఫార్ములా = జాతులు ~ ప్రాంతం + ఎలివేషన్ + సమీప + స్క్రజ్ + ప్రక్కనే, డేటా = గాలా) అవశేషాలు: కనిష్ట 1Q మధ్యస్థం 3Q గరిష్టం -111.679 -34.898 -7.862 33.460 182.584 STdsd.584 లోపం t విలువ Pr(>|t|) (అంతరాయం) 7.068221 19.154198 0.369 0.715351 ప్రాంతం -0.023938 0.022422 -1.068 0.296318 ఎలివేషన్ 0.36050.36505 *** సమీప 0.009144 1.054136 0.009 0.993151 స్క్రూజ్ -0.240524 0.215402 -1.117 0.275208 ప్రక్కనే -0.074805 0.017700 -4.226 0.000297 *** --- Signif. కోడ్‌లు: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 అవశేష ప్రామాణిక లోపం: 60.98 24 డిగ్రీల స్వేచ్ఛపై బహుళ R-స్క్వేర్డ్: 0.7658, సర్దుబాటు చేసిన R-స్క్వేర్డ్: F-71. గణాంకాలు: 5 మరియు 24 DFలో 15.7, p-విలువ: 6.838e-07
టేబుల్ గాలాలో 30 గాలాపాగోస్ దీవుల గురించి కొంత సమాచారం ఉంది. మేము నమూనాను పరిశీలిస్తాము, ఇక్కడ జాతులు - ద్వీపంలోని వివిధ వృక్ష జాతుల సంఖ్య అనేక ఇతర వేరియబుల్స్‌పై సరళంగా ఆధారపడి ఉంటుంది.

summary.lm() ఫంక్షన్ యొక్క అవుట్‌పుట్‌ని చూద్దాం.
మొదట మోడల్ ఎలా నిర్మించబడిందో గుర్తుచేసే ఒక లైన్ వస్తుంది.
అప్పుడు అవశేషాల పంపిణీ గురించి సమాచారం వస్తుంది: కనిష్ట, మొదటి క్వార్టైల్, మధ్యస్థ, మూడవ త్రైమాసికం, గరిష్టం. ఈ సమయంలో అవశేషాల యొక్క కొన్ని పరిమాణాలను చూడటమే కాకుండా, వాటిని సాధారణత కోసం పరీక్షించడానికి కూడా ఉపయోగకరంగా ఉంటుంది, ఉదాహరణకు షాపిరో-విల్క్ పరీక్షతో.
తదుపరి - అత్యంత ఆసక్తికరమైన - గుణకాల గురించి సమాచారం. ఇక్కడ ఒక చిన్న సిద్ధాంతం అవసరం.
మొదట మేము ఈ క్రింది ఫలితాన్ని వ్రాస్తాము:

క్యాప్డ్ సిగ్మా స్క్వేర్డ్ నిజమైన సిగ్మా స్క్వేర్డ్‌కు నిష్పాక్షికమైన అంచనా. ఇక్కడ బిగుణకాల యొక్క నిజమైన వెక్టార్, మరియు మూతతో కూడిన ఎప్సిలాన్ అనేది అవశేషాల వెక్టర్, మనం కనీసం చతురస్రాల పద్ధతి ద్వారా పొందిన అంచనాలను గుణకాలుగా తీసుకుంటే. అంటే, లోపాలు సాధారణంగా పంపిణీ చేయబడతాయనే భావనలో, గుణకాల యొక్క వెక్టర్ కూడా వాస్తవ విలువ చుట్టూ సాధారణంగా పంపిణీ చేయబడుతుంది మరియు దాని వ్యత్యాసాన్ని నిష్పాక్షికంగా అంచనా వేయవచ్చు. దీని అర్థం మీరు సున్నాకి గుణకాల సమానత్వం కోసం పరికల్పనను పరీక్షించవచ్చు మరియు అందువల్ల ప్రిడిక్టర్ల యొక్క ప్రాముఖ్యతను తనిఖీ చేయవచ్చు, అంటే, Xi విలువ నిజంగా నిర్మించిన మోడల్ నాణ్యతను బాగా ప్రభావితం చేస్తుందో లేదో.
ఈ పరికల్పనను పరీక్షించడానికి, మాకు ఈ క్రింది గణాంకాలు అవసరం, గుణకం ద్వి యొక్క వాస్తవ విలువ 0 అయితే విద్యార్థి పంపిణీని కలిగి ఉంటుంది:

ఎక్కడ
గుణకం అంచనా యొక్క ప్రామాణిక లోపం, మరియు t(k-n-1) అనేది k-n-1 డిగ్రీల స్వేచ్ఛతో విద్యార్థి పంపిణీ.

ఇప్పుడు మీరు summary.lm() అవుట్‌పుట్‌ని అన్వయించడాన్ని కొనసాగించడానికి సిద్ధంగా ఉన్నారు.
కాబట్టి, కిందివి తక్కువ చతురస్రాల పద్ధతి ద్వారా పొందిన గుణకాల అంచనాలు, వాటి ప్రామాణిక లోపాలు, t-గణాంక విలువలు మరియు దాని కోసం p-విలువలు. సాధారణంగా p-విలువ 0.05 లేదా 0.01 వంటి చాలా చిన్న ముందుగా ఎంచుకున్న థ్రెషోల్డ్‌తో పోల్చబడుతుంది. మరియు p-గణాంక విలువ థ్రెషోల్డ్ కంటే తక్కువగా మారినట్లయితే, అప్పుడు పరికల్పన తిరస్కరించబడుతుంది, కానీ అది ఎక్కువగా ఉంటే, దురదృష్టవశాత్తు, కాంక్రీటుగా ఏమీ చెప్పలేము. ఈ సందర్భంలో, విద్యార్థి పంపిణీ 0 గురించి సుష్టంగా ఉన్నందున, p-విలువ 1-F(|t|)+F(-|t|)కి సమానంగా ఉంటుందని నేను మీకు గుర్తు చేస్తాను, ఇక్కడ F అనేది విద్యార్థి పంపిణీ ఫంక్షన్ k-n-1 డిగ్రీల స్వేచ్ఛతో . అలాగే, R అనేది ఆస్టరిస్క్‌లతో p-విలువ తగినంత తక్కువగా ఉండే ముఖ్యమైన గుణకాలను సూచిస్తుంది. అంటే, చాలా తక్కువ సంభావ్యతతో ఆ గుణకాలు 0కి సమానం. Signif లైన్‌లో. సంకేతాలు ఆస్టరిస్క్‌ల డీకోడింగ్‌ను కలిగి ఉంటాయి: వాటిలో మూడు ఉంటే, p-విలువ 0 నుండి 0.001 వరకు ఉంటుంది, రెండు ఉంటే, అది 0.001 నుండి 0.01 వరకు ఉంటుంది. చిహ్నాలు లేకుంటే, p-విలువ 0.1 కంటే ఎక్కువగా ఉంటుంది.

మా ఉదాహరణలో, ఎలివేషన్ మరియు ప్రక్కనే ఉన్న ప్రిడిక్టర్లు నిజంగా జాతుల విలువను ఎక్కువగా ప్రభావితం చేస్తాయని మేము గొప్ప విశ్వాసంతో చెప్పగలము, అయితే ఇతర ప్రిడిక్టర్ల గురించి ఖచ్చితంగా ఏమీ చెప్పలేము. సాధారణంగా, అటువంటి సందర్భాలలో, ప్రిడిక్టర్లు ఒక్కొక్కటిగా తీసివేయబడతాయి మరియు మోడల్ యొక్క ఇతర సూచికలు ఎలా మారతాయో చూడండి, ఉదాహరణకు BIC లేదా సర్దుబాటు చేయబడిన R-స్క్వేర్డ్, ఇది మరింత చర్చించబడుతుంది.

అవశేష ప్రామాణిక లోపం విలువ కేవలం టోపీతో సిగ్మా అంచనాకు అనుగుణంగా ఉంటుంది మరియు స్వేచ్ఛ యొక్క డిగ్రీలు k-n-1గా గణించబడతాయి.

మరియు ఇప్పుడు మీరు ముందుగా చూడవలసిన ముఖ్యమైన గణాంకాలు: R-స్క్వేర్డ్ మరియు సర్దుబాటు చేయబడిన R-స్క్వేర్డ్:

ఇక్కడ Yi అనేది ప్రతి పరిశీలనలో Y యొక్క నిజమైన విలువలు, టోపీతో Yi అనేది మోడల్ ద్వారా అంచనా వేయబడిన విలువలు, ఒక బార్‌తో Y అనేది Yi యొక్క అన్ని వాస్తవ విలువలపై సగటు.

R-స్క్వేర్డ్ స్టాటిస్టిక్‌తో ప్రారంభిద్దాం లేదా కొన్నిసార్లు దీనిని డిటర్మినేషన్ కోఎఫీషియంట్ అని పిలుస్తారు. ఈ గుణకం 1కి దగ్గరగా ఉన్నట్లయితే, మోడల్ యొక్క నియత వైవిధ్యం వాస్తవ Y విలువల వ్యత్యాసం నుండి ఎంత భిన్నంగా ఉందో చూపిస్తుంది, అప్పుడు మోడల్ యొక్క నియత వ్యత్యాసం చాలా తక్కువగా ఉంటుంది మరియు మోడల్ డేటాను బాగా వివరించే అవకాశం ఉంది. . R- స్క్వేర్డ్ కోఎఫీషియంట్ చాలా తక్కువగా ఉంటే, ఉదాహరణకు, 0.5 కంటే తక్కువ, అప్పుడు, అధిక స్థాయి విశ్వాసంతో, మోడల్ వాస్తవ వ్యవహారాల స్థితిని ప్రతిబింబించదు.

అయితే, R-స్క్వేర్డ్ స్టాటిస్టిక్‌లో ఒక తీవ్రమైన లోపం ఉంది: ప్రిడిక్టర్ల సంఖ్య పెరిగేకొద్దీ, ఈ గణాంకం మాత్రమే పెరుగుతుంది. అందువల్ల, అన్ని కొత్త ప్రిడిక్టర్‌లు డిపెండెంట్ వేరియబుల్‌పై ప్రభావం చూపనప్పటికీ, తక్కువ ఉన్న మోడల్ కంటే ఎక్కువ ప్రిడిక్టర్‌లు ఉన్న మోడల్ మెరుగ్గా ఉన్నట్లు కనిపించవచ్చు. ఇక్కడ మీరు Occam యొక్క రేజర్ సూత్రాన్ని గుర్తుంచుకోవచ్చు. దీన్ని అనుసరించడం, వీలైతే, మోడల్‌లోని అనవసరమైన ప్రిడిక్టర్లను వదిలించుకోవడం విలువైనదే, ఎందుకంటే ఇది సరళమైనది మరియు మరింత అర్థమయ్యేలా మారుతుంది. ఈ ప్రయోజనాల కోసం, సర్దుబాటు చేయబడిన R-స్క్వేర్డ్ స్టాటిస్టిక్ కనుగొనబడింది. ఇది సాధారణ R-స్క్వేర్‌ను సూచిస్తుంది, అయితే పెద్ద సంఖ్యలో ప్రిడిక్టర్‌లకు పెనాల్టీ ఉంటుంది. ప్రధాన ఆలోచన: కొత్త స్వతంత్ర వేరియబుల్స్ మోడల్ యొక్క నాణ్యతకు పెద్ద సహకారం అందించినట్లయితే, ఈ గణాంకం యొక్క విలువ పెరుగుతుంది, అయితే, దీనికి విరుద్ధంగా, అది తగ్గుతుంది.

ఉదాహరణకు, మునుపటి మాదిరిగానే అదే మోడల్‌ను పరిగణించండి, కానీ ఇప్పుడు ఐదు ప్రిడిక్టర్‌లకు బదులుగా, రెండింటిని వదిలివేద్దాం:
>lm2<-lm(Species~Elevation+Adjacent, data=gala) >సారాంశం(lm2) కాల్: lm(ఫార్ములా = జాతులు ~ ఎలివేషన్ + ప్రక్కనే, డేటా = గాలా) అవశేషాలు: కనిష్ట 1Q మధ్యస్థ 3Q గరిష్టం -103.41 -34.33 -11.43 22.57 203.65 కోఎఫీషియంట్స్: ఎస్టిమేట్ Std. లోపం T విలువ PR (> | T |) (అంతరాయం) 1.43287 15.02469 0.095 0.924727 ఎలివేషన్ 0.27657 0.03176 8.707 2.53E -09 *** ప్రక్కనే --0480.040.060. ---- ఉంటే సంతకం చేయండి. కోడ్‌లు: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 అవశేష ప్రామాణిక లోపం: 27 డిగ్రీల స్వేచ్ఛపై 60.86 బహుళ R-స్క్వేర్డ్: 0.7376, సర్దుబాటు చేసిన R-స్క్వేర్డ్: F-718. గణాంకాలు: 2 మరియు 27 DFలో 37.94, p-విలువ: 1.434e-08
మీరు చూడగలిగినట్లుగా, R-స్క్వేర్డ్ స్టాటిస్టిక్ విలువ తగ్గింది, అయితే సర్దుబాటు చేయబడిన R-స్క్వేర్డ్ విలువ కొద్దిగా పెరిగింది.

ఇప్పుడు ప్రిడిక్టర్ల యొక్క అన్ని గుణకాలు సున్నాకి సమానం అనే పరికల్పనను తనిఖీ చేద్దాం. అంటే, Y యొక్క విలువ సాధారణంగా Xi యొక్క విలువలపై ఆధారపడి ఉంటుందా అనే పరికల్పన. దీన్ని చేయడానికి, మీరు క్రింది గణాంకాలను ఉపయోగించవచ్చు, అన్ని గుణకాలు సున్నాకి సమానం అనే పరికల్పన నిజమైతే,

నిర్మించిన మోడల్ నాణ్యతను అంచనా వేయండి. సింగిల్ ఫ్యాక్టర్ మోడల్‌తో పోలిస్తే మోడల్ నాణ్యత మెరుగుపడిందా? స్థితిస్థాపకత గుణకాలు, - మరియు -గుణకాలను ఉపయోగించి ఫలితంపై ముఖ్యమైన కారకాల ప్రభావాన్ని అంచనా వేయండి.

ఎంచుకున్న బహుళ మోడల్ (6) నాణ్యతను అంచనా వేయడానికి, ఈ సమస్య యొక్క పేరా 1.4 మాదిరిగానే, మేము నిర్ధారణ గుణకాన్ని ఉపయోగిస్తాము ఆర్- చదరపు, సగటు సాపేక్ష ఉజ్జాయింపు లోపం మరియు ఎఫ్- ఫిషర్ ప్రమాణం.

నిర్ధారణ గుణకం ఆర్-స్క్వేర్డ్ "రిగ్రెషన్" ఫలితాల నుండి తీసుకోబడుతుంది (మోడల్ (6) కోసం టేబుల్ "రిగ్రెషన్ గణాంకాలు").

పర్యవసానంగా, అపార్ట్మెంట్ ధరలో వైవిధ్యం (మార్పు). వైఈ సమీకరణం ప్రకారం, 76.77% ప్రాంతం యొక్క నగరం యొక్క వైవిధ్యం ద్వారా వివరించబడింది X 1 , అపార్ట్మెంట్లో గదుల సంఖ్య X 2 మరియు నివాస స్థలం X 4 .

మేము అసలు డేటాను ఉపయోగిస్తాము వై iమరియు అవశేషాలు రిగ్రెషన్ సాధనం ద్వారా కనుగొనబడ్డాయి (మోడల్ (6) కోసం టేబుల్ “మిగిలిన అవుట్‌పుట్”). సంబంధిత లోపాలను లెక్కించి, సగటు విలువను కనుగొనండి
.

మిగిలిన వాటి ఉపసంహరణ

పరిశీలన	ఊహించిన వై	మిగిలిపోయినవి	Rel. లోపం
1	45,95089273	-7,95089273	20,92340192
2	86,10296493	-23,90296493	38,42920407
3	94,84442678	30,15557322	24,12445858
4	84,17648426	-23,07648426	37,76838667
5	40,2537216	26,7462784	39,91981851
6	68,70572376	24,29427624	26,12287768
7	143,7464899	-25,7464899	21,81905923
8	106,0907598	25,90924022	19,62821228
9	135,357993	-42,85799303	46,33296544
10	114,4792566	-9,47925665	9,027863476
11	41,48765602	0,512343975	1,219866607
12	103,2329236	21,76707636	17,41366109
13	130,3567798	39,64322022	23,3195413
14	35,41901876	2,580981242	6,7920559
15	155,4129693	-24,91296925	19,0903979
16	84,32108188	0,678918123	0,798727204
17	98,0552279	-0,055227902	0,056355002
18	144,2104618	-16,21046182	12,66442329
19	122,8677535	-37,86775351	44,55029825
20	100,0221225	59,97787748	37,48617343
21	53,27196558	6,728034423	11,21339071
22	35,06605378	5,933946225	14,47303957
23	114,4792566	-24,47925665	27,19917406
24	113,1343153	-30,13431529	36,30640396
25	40,43190991	4,568090093	10,15131132
26	39,34427892	-0,344278918	0,882766457
27	144,4794501	-57,57945009	66,25943623
28	56,4827667	-16,4827667	41,20691675
29	95,38240332	-15,38240332	19,22800415
30	228,6988826	-1,698882564	0,748406416
31	222,8067278	12,19327221	5,188626473
32	38,81483144	1,185168555	2,962921389
33	48,36325811	18,63674189	27,81603267
34	126,6080021	-3,608002113	2,933335051
35	84,85052935	15,14947065	15,14947065
36	116,7991162	-11,79911625	11,23725357
37	84,17648426	-13,87648426	19,73895342
38	113,9412801	-31,94128011	38,95278062
39	215,494184	64,50581599	23,03779142
40	141,7795953	58,22040472	29,11020236
సగటు	101,2375		22,51770962

సంబంధిత లోపాల కాలమ్‌ని ఉపయోగించి మనం సగటు విలువను కనుగొంటాము =22.51% (AVERAGE ఫంక్షన్‌ని ఉపయోగించి).

పోలిక 22.51%>7% అని చూపిస్తుంది. పర్యవసానంగా, మోడల్ యొక్క ఖచ్చితత్వం సంతృప్తికరంగా లేదు.

ఉపయోగించడం ద్వార ఎఫ్ - ఫిషర్ ప్రమాణం మొత్తంగా మోడల్ యొక్క ప్రాముఖ్యతను తనిఖీ చేద్దాం. దీన్ని చేయడానికి, మేము "రిగ్రెషన్" సాధనాన్ని ఉపయోగించి ఫలితాల నుండి వ్రాస్తాము (మోడల్ (6) కోసం టేబుల్ "వ్యత్యాసాల విశ్లేషణ") ఎఫ్= 39,6702.

FRIST ఫంక్షన్ ఉపయోగించి మేము విలువను కనుగొంటాము ఎఫ్ cr =3.252 ప్రాముఖ్యత స్థాయి కోసం α = 5%, మరియు స్వేచ్ఛ డిగ్రీల సంఖ్యలు కె 1 = 2 , కె 2 = 37 .

ఎఫ్> ఎఫ్ cr, కాబట్టి, మోడల్ (6) యొక్క సమీకరణం ముఖ్యమైనది, దాని ఉపయోగం మంచిది, డిపెండెంట్ వేరియబుల్ వైమోడల్ (6)లో చేర్చబడిన ఫ్యాక్టర్ వేరియబుల్స్ ద్వారా బాగా వివరించబడింది X 1 , X 2. మరియు X 4 .

అదనంగా ఉపయోగించడం t -విద్యార్థుల టి పరీక్ష మోడల్ యొక్క వ్యక్తిగత గుణకాల యొక్క ప్రాముఖ్యతను తనిఖీ చేద్దాం.

t-రిగ్రెషన్ సమీకరణం యొక్క గుణకాల గణాంకాలు "రిగ్రెషన్" సాధనం యొక్క ఫలితాలలో ఇవ్వబడ్డాయి. ఎంచుకున్న మోడల్ (6) కోసం క్రింది విలువలు పొందబడ్డాయి:

	అసమానత	ప్రామాణిక లోపం	t-గణాంకం	పి-విలువ	దిగువ 95%	టాప్ 95%	దిగువ 95.0%	టాప్ 95.0%
Y-ఖండన	-5,643572321	12,07285417	-0,46745966	0,642988	-30,1285	18,84131	-30,1285	18,84131
X4	2,591405557	0,461440597	5,61590284	2.27E-06	1,655561	3,52725	1,655561	3,52725
X1	6,85963077	9,185748512	0,74676884	0,460053	-11,7699	25,48919	-11,7699	25,48919
X2	-1,985156991	7,795346067	-0,25465925	0,800435	-17,7949	13,82454	-17,7949	13,82454

క్లిష్టమైన విలువ t crప్రాముఖ్యత స్థాయి కోసం కనుగొనబడింది α=5%మరియు స్వేచ్ఛ డిగ్రీల సంఖ్య కె=40–2–1=37 . t cr =2.026 (STUDAR ఫంక్షన్).

ఉచిత అసమానత కోసం α =–5.643 గణాంకాలు నిర్వచించబడ్డాయి
, t crఅందువల్ల, ఉచిత గుణకం ముఖ్యమైనది కాదు మరియు మోడల్ నుండి మినహాయించబడుతుంది.

రిగ్రెషన్ కోఎఫీషియంట్ కోసం β 1 =6.859 గణాంకాలు నిర్వచించబడ్డాయి
, β 1 ముఖ్యమైనది కాదు, ఇది మరియు ప్రాంతీయ నగర కారకాన్ని మోడల్ నుండి తీసివేయవచ్చు.

రిగ్రెషన్ కోఎఫీషియంట్ కోసం β 2 =-1,985 గణాంకాలు నిర్వచించబడ్డాయి
, t cr, కాబట్టి, రిగ్రెషన్ కోఎఫీషియంట్ β 2 ముఖ్యమైనది కాదు, ఇది మరియు అపార్ట్మెంట్లోని గదుల సంఖ్య యొక్క కారకాన్ని మోడల్ నుండి మినహాయించవచ్చు.

రిగ్రెషన్ కోఎఫీషియంట్ కోసం β 4 =2.591 గణాంకాలు నిర్వచించబడ్డాయి
, > t cr, కాబట్టి, రిగ్రెషన్ కోఎఫీషియంట్ β 4 ముఖ్యమైనది, ఇది మరియు అపార్ట్మెంట్ యొక్క నివాస ప్రాంతం యొక్క కారకాన్ని మోడల్‌లో ఉంచవచ్చు.

మోడల్ కోఎఫీషియంట్స్ యొక్క ప్రాముఖ్యత గురించి ముగింపులు ప్రాముఖ్యత స్థాయిలో చేయబడతాయి α=5%. P- విలువ కాలమ్‌ను చూస్తే, ఉచిత గుణకం అని మేము గమనించాము α 0.64 = 64% స్థాయిలో ముఖ్యమైనదిగా పరిగణించవచ్చు; తిరోగమన గుణకం β 1 - 0.46 = 46% స్థాయిలో; తిరోగమన గుణకం β 2 - 0.8 = 80% స్థాయిలో; మరియు రిగ్రెషన్ కోఎఫీషియంట్ β 4 – 2.27E-06= 2.26691790951854E-06 = 0.0000002% స్థాయిలో.

సమీకరణానికి కొత్త కారకం వేరియబుల్స్ జోడించబడినప్పుడు, నిర్ణయ గుణకం స్వయంచాలకంగా పెరుగుతుంది ఆర్ 2 మరియు సగటు ఉజ్జాయింపు లోపం తగ్గుతుంది, అయినప్పటికీ మోడల్ నాణ్యత ఎల్లప్పుడూ మెరుగుపడదు. అందువల్ల, మోడల్ (3) మరియు ఎంచుకున్న బహుళ మోడల్ (6) నాణ్యతను సరిపోల్చడానికి, మేము సాధారణీకరించిన గుణకాల నిర్ధారణను ఉపయోగిస్తాము.

అందువల్ల, రిగ్రెషన్ సమీకరణానికి "ప్రాంతం యొక్క నగరం" అనే కారకాన్ని జోడించేటప్పుడు X 1 మరియు అంశం "అపార్ట్‌మెంట్‌లోని గదుల సంఖ్య" X 2 మోడల్ యొక్క నాణ్యత క్షీణించింది, ఇది కారకాలను తొలగించడానికి అనుకూలంగా మాట్లాడుతుంది X 1 మరియు Xమోడల్ నుండి 2.

తదుపరి లెక్కలు చేద్దాం.

సగటు స్థితిస్థాపకత గుణకాలు సరళ నమూనా విషయంలో సూత్రాల ద్వారా నిర్ణయించబడతాయి
.

AVERAGE ఫంక్షన్‌ని ఉపయోగించి మనం కనుగొన్నాము: S వై, కారకంలో మాత్రమే పెరుగుదలతో X 4 ఒక ప్రామాణిక విచలనం ద్వారా - 0.914 పెరుగుతుంది ఎస్ వై

డెల్టా కోఎఫీషియంట్స్ సూత్రాల ద్వారా నిర్ణయించబడతాయి
.

ఎక్సెల్‌లోని "డేటా అనాలిసిస్" ప్యాకేజీ యొక్క "కోరిలేషన్" సాధనాన్ని ఉపయోగించి జత సహసంబంధ గుణకాలను కనుగొనండి.

	వై	X1	X2	X4
వై	1
X1	-0,01126	1
X2	0,751061	-0,0341	1
X4	0,874012	-0,0798	0,868524	1

నిర్ణయం యొక్క గుణకం ముందుగా నిర్ణయించబడింది మరియు 0.7677కి సమానం.

డెల్టా గుణకాలను గణిద్దాం:

;

Δ 1 నుండి 1 మరియు X 2 తప్పుగా ఎంపిక చేయబడింది మరియు వాటిని మోడల్ నుండి తీసివేయాలి. దీనర్థం, ఫలిత రేఖీయ మూడు-కారకాల నమూనా యొక్క సమీకరణం ప్రకారం, ఫలిత కారకంలో మార్పు వై(అపార్ట్‌మెంట్ ధరలు) కారకం ప్రభావంతో 104% వివరించబడింది X 4 (అపార్ట్‌మెంట్ యొక్క నివాస ప్రాంతం), 4% కారకం ద్వారా ప్రభావితమవుతుంది X 2 (గదుల సంఖ్య), కారకం ద్వారా 0.0859% ప్రభావితం చేయబడింది X 1 (ప్రాంతం యొక్క నగరం).