หลังจากการปรับระดับเราจะได้ฟังก์ชันในรูปแบบต่อไปนี้: g (x) = x + 1 3 + 1 .
เราสามารถประมาณข้อมูลนี้ได้โดยใช้ความสัมพันธ์เชิงเส้น y = a x + b โดยการคำนวณพารามิเตอร์ที่เกี่ยวข้อง เมื่อต้องการทำเช่นนี้ เราจำเป็นต้องใช้วิธีที่เรียกว่ากำลังสองน้อยที่สุด คุณจะต้องวาดภาพเพื่อตรวจสอบว่าเส้นใดจะจัดแนวข้อมูลการทดลองได้ดีที่สุด
ยานเดกซ์ RTB R-A-339285-1
OLS คืออะไร (วิธีกำลังสองน้อยที่สุด)
สิ่งสำคัญที่เราต้องทำคือการหาค่าสัมประสิทธิ์ของการพึ่งพาเชิงเส้นซึ่งค่าของฟังก์ชันของตัวแปรสองตัว F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 จะเป็น เล็กที่สุด กล่าวอีกนัยหนึ่งสำหรับค่าบางค่าของ a และ b ผลรวมของการเบี่ยงเบนกำลังสองของข้อมูลที่นำเสนอจากเส้นตรงผลลัพธ์จะมีค่าต่ำสุด นี่คือความหมายของวิธีกำลังสองน้อยที่สุด สิ่งที่เราต้องทำเพื่อแก้ตัวอย่างคือการหาจุดสิ้นสุดของฟังก์ชันของตัวแปรสองตัว
วิธีหาสูตรคำนวณสัมประสิทธิ์
เพื่อที่จะได้สูตรในการคำนวณค่าสัมประสิทธิ์ คุณต้องสร้างและแก้ระบบสมการที่มีตัวแปรสองตัว ในการทำเช่นนี้ เราคำนวณอนุพันธ์ย่อยของนิพจน์ F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 เทียบกับ a และ b แล้วเทียบให้เป็น 0
δ F (a , b) δ a = 0 δ F (a , b) δ b = 0 ⇔ - 2 ∑ i = 1 n (y i - (a x i + b)) x i = 0 - 2 ∑ i = 1 n ( y i - (a x i + b)) = 0 ⇔ a ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + ∑ i = 1 n b = ∑ i = 1 n y i ⇔ a ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + n b = ∑ i = 1 n y i
ในการแก้ระบบสมการ คุณสามารถใช้วิธีใดก็ได้ เช่น การแทนที่ หรือวิธีของแครเมอร์ ด้วยเหตุนี้เราจึงควรมีสูตรที่สามารถใช้คำนวณค่าสัมประสิทธิ์โดยใช้วิธีกำลังสองน้อยที่สุดได้
n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 n x i n
เราได้คำนวณค่าของตัวแปรที่ฟังก์ชัน
F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 จะใช้ค่าต่ำสุด ในย่อหน้าที่สาม เราจะพิสูจน์ว่าทำไมมันจึงเป็นเช่นนี้
นี่คือการประยุกต์ใช้วิธีกำลังสองน้อยที่สุดในทางปฏิบัติ สูตรที่ใช้ค้นหาพารามิเตอร์ a ประกอบด้วย ∑ i = 1 n x i, ∑ i = 1 n y i, ∑ i = 1 n x i y i, ∑ i = 1 n x i 2 รวมถึงพารามิเตอร์ด้วย
n – หมายถึงจำนวนข้อมูลการทดลอง เราแนะนำให้คุณคำนวณแต่ละจำนวนเงินแยกกัน ค่าของสัมประสิทธิ์ b จะถูกคำนวณทันทีหลังจาก a
กลับไปที่ตัวอย่างเดิม
ตัวอย่างที่ 1
ตรงนี้เรามี n เท่ากับ 5. เพื่อให้สะดวกยิ่งขึ้นในการคำนวณจำนวนเงินที่ต้องการซึ่งรวมอยู่ในสูตรสัมประสิทธิ์ เรามากรอกตารางกันดีกว่า
ฉัน = 1 | ผม=2 | ผม=3 | ผม=4 | ผม=5 | ∑ ผม = 1 5 | |
x ฉัน | 0 | 1 | 2 | 4 | 5 | 12 |
ใช่แล้ว | 2 , 1 | 2 , 4 | 2 , 6 | 2 , 8 | 3 | 12 , 9 |
x ฉัน ฉัน ฉัน | 0 | 2 , 4 | 5 , 2 | 11 , 2 | 15 | 33 , 8 |
x ฉัน 2 | 0 | 1 | 4 | 16 | 25 | 46 |
สารละลาย
แถวที่สี่รวมข้อมูลที่ได้รับโดยการคูณค่าจากแถวที่สองด้วยค่าของแถวที่สามสำหรับแต่ละ i บรรทัดที่ห้าประกอบด้วยข้อมูลจากบรรทัดที่สอง กำลังสอง คอลัมน์สุดท้ายจะแสดงผลรวมของค่าของแต่ละแถว
ลองใช้วิธีกำลังสองน้อยที่สุดในการคำนวณค่าสัมประสิทธิ์ a และ b ที่เราต้องการ ในการดำเนินการนี้ให้แทนที่ค่าที่ต้องการจากคอลัมน์สุดท้ายแล้วคำนวณจำนวนเงิน:
n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 n x i n ⇒ a = 5 33, 8 - 12 12, 9 5 46 - 12 2 b = 12, 9 - ก 12 5 ⇒ ก µ 0, 165 ข ต้อ 2, 184
ปรากฎว่าเส้นตรงโดยประมาณที่ต้องการจะมีลักษณะดังนี้ y = 0, 165 x + 2, 184 ตอนนี้เราต้องพิจารณาว่าบรรทัดใดจะประมาณข้อมูลได้ดีกว่า - g (x) = x + 1 3 + 1 หรือ 0, 165 x + 2, 184 ลองประมาณโดยใช้วิธีกำลังสองน้อยที่สุด
ในการคำนวณข้อผิดพลาด เราจำเป็นต้องค้นหาผลรวมของการเบี่ยงเบนกำลังสองของข้อมูลจากเส้นตรง σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 และ σ 2 = ∑ i = 1 n (y i - g (x i)) 2 ค่าต่ำสุดจะสอดคล้องกับเส้นที่เหมาะสมกว่า
σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 = = ∑ i = 1 5 (y i - (0, 165 x i + 2, 184)) 2 data 0, 019 σ 2 = ∑ i = 1 n (y i - g (x i)) 2 = = ∑ i = 1 5 (y i - (x i + 1 3 + 1)) 2 data 0.096
คำตอบ:ตั้งแต่ σ 1< σ 2 , то прямой, наилучшим образом аппроксимирующей исходные данные, будет
y = 0.165 x + 2.184
วิธีกำลังสองน้อยที่สุดจะแสดงไว้อย่างชัดเจนในภาพประกอบกราฟิก เส้นสีแดงทำเครื่องหมายเส้นตรง g (x) = x + 1 3 + 1 เส้นสีน้ำเงินทำเครื่องหมาย y = 0, 165 x + 2, 184 ข้อมูลต้นฉบับจะแสดงด้วยจุดสีชมพู
ให้เราอธิบายว่าทำไมจึงต้องมีการประมาณประเภทนี้
สามารถใช้ในงานที่ต้องการการปรับข้อมูลให้เรียบ เช่นเดียวกับงานที่ต้องแก้ไขหรือคาดการณ์ข้อมูล ตัวอย่างเช่น ในปัญหาที่กล่าวถึงข้างต้น เราสามารถหาค่าของปริมาณที่สังเกตได้ y ที่ x = 3 หรือที่ x = 6 เราได้อุทิศบทความแยกต่างหากให้กับตัวอย่างดังกล่าว
หลักฐานของวิธี OLS
เพื่อให้ฟังก์ชันรับค่าต่ำสุดเมื่อคำนวณ a และ b จำเป็นที่จุดที่กำหนดเมทริกซ์ของรูปแบบกำลังสองของส่วนต่างของฟังก์ชันของรูปแบบ F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 เป็นบวกแน่นอน มาดูกันว่าควรมีลักษณะอย่างไร
ตัวอย่างที่ 2
เรามีส่วนต่างลำดับที่สองของแบบฟอร์มต่อไปนี้:
d 2 F (a ; b) = δ 2 F (a ; b) δ a 2 d 2 a + 2 δ 2 F (a ; b) δ a δ b d a d b + δ 2 F (a ; b) δ b 2 d 2ข
สารละลาย
δ 2 F (a ; b) δ a 2 = δ δ F (a ; b) δ a δ a = = δ - 2 ∑ i = 1 n (y i - (a x i + b)) x i δ a = 2 ∑ i = 1 n (x i) 2 δ 2 F (a; b) δ a δ b = δ δ F (a; b) δ a δ b = = δ - 2 ∑ i = 1 n (y i - (a x i + b) ) x i δ b = 2 ∑ i = 1 n x i δ 2 F (a ; b) δ b 2 = δ δ F (a ; b) δ b δ b = δ - 2 ∑ i = 1 n (y i - (a x i + b)) δ b = 2 ∑ i = 1 n (1) = 2 n
กล่าวอีกนัยหนึ่ง เราสามารถเขียนได้ดังนี้: d 2 F (a ; b) = 2 ∑ i = 1 n (x i) 2 d 2 a + 2 2 ∑ x i i = 1 n d a d b + (2 n) d 2 b
เราได้เมทริกซ์ที่มีรูปแบบกำลังสอง M = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n
ในกรณีนี้ค่าของแต่ละองค์ประกอบจะไม่เปลี่ยนแปลงขึ้นอยู่กับ a และ b . เมทริกซ์นี้เป็นค่าบวกแน่นอนหรือไม่? เพื่อตอบคำถามนี้ ลองตรวจสอบว่ารองเชิงมุมของมันเป็นบวกหรือไม่
เราคำนวณตัวรองเชิงมุมของลำดับแรก: 2 ∑ i = 1 n (x i) 2 > 0 เนื่องจากจุด x ฉันไม่ตรง ความไม่เท่าเทียมกันจึงเข้มงวด เราจะจำสิ่งนี้ไว้ในการคำนวณต่อไป
เราคำนวณผู้เยาว์เชิงมุมลำดับที่สอง:
d e t (M) = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n = 4 n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2
หลังจากนี้ เราจะพิสูจน์อสมการ n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 โดยใช้การอุปนัยทางคณิตศาสตร์
- ลองตรวจสอบว่าอสมการนี้ใช้ได้กับ n ใดๆ ก็ตามหรือไม่ ลองเอา 2 มาคำนวณ:
2 ∑ ผม = 1 2 (x i) 2 - ∑ ผม = 1 2 x ผม 2 = 2 x 1 2 + x 2 2 - x 1 + x 2 2 = = x 1 2 - 2 x 1 x 2 + x 2 2 = x 1 + x 2 2 > 0
เราได้รับความเท่าเทียมกันที่ถูกต้อง (หากค่า x 1 และ x 2 ไม่ตรงกัน)
- ให้เราสมมุติว่าอสมการนี้จะเป็นจริงสำหรับ n นั่นคือ n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 – จริง
- ตอนนี้เราจะพิสูจน์ความถูกต้องของ n + 1 เช่น นั่น (n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 > 0, ถ้า n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 .
เราคำนวณ:
(n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 = = (n + 1) ∑ i = 1 n (x i) 2 + x n + 1 2 - ∑ i = 1 n x i + x n + 1 2 = = n ∑ i = 1 n (x i) 2 + n x n + 1 2 + ∑ i = 1 n (x i) 2 + x n + 1 2 - - ∑ i = 1 n x i 2 + 2 x n + 1 ∑ i = 1 n x i + x n + 1 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + n x n + 1 2 - x n + 1 ∑ i = 1 n x i + ∑ i = 1 n (x i) 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + x n + 1 2 - 2 x n + 1 x 1 + x 1 2 + + x n + 1 2 - 2 x n + 1 x 2 + x 2 2 + . - - + xn + 1 2 - 2 xn + 1 x 1 + xn 2 = = n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + + (xn + 1 - x 1) 2 + (x n + 1 - x 2) 2 + . - - + (x n - 1 - x n) 2 > 0
นิพจน์ที่อยู่ในวงเล็บปีกกาจะมากกว่า 0 (ขึ้นอยู่กับสิ่งที่เราสมมติในขั้นตอนที่ 2) และพจน์ที่เหลือจะมากกว่า 0 เนื่องจากล้วนเป็นตัวเลขกำลังสองทั้งหมด เราได้พิสูจน์ความไม่เท่าเทียมกันแล้ว
คำตอบ: a และ b ที่พบจะสอดคล้องกับค่าที่น้อยที่สุดของฟังก์ชัน F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 ซึ่งหมายความว่าพวกมันเป็นพารามิเตอร์ที่ต้องการของวิธีกำลังสองน้อยที่สุด (แอลเอสเอ็ม).
หากคุณสังเกตเห็นข้อผิดพลาดในข้อความ โปรดไฮไลต์แล้วกด Ctrl+Enter
วิธีกำลังสองน้อยที่สุดใช้ในการประมาณค่าพารามิเตอร์ของสมการถดถอยวิธีหนึ่งในการศึกษาความสัมพันธ์แบบสุ่มระหว่างคุณลักษณะคือการวิเคราะห์การถดถอย
การวิเคราะห์การถดถอยเป็นที่มาของสมการการถดถอย โดยใช้ค่าเฉลี่ยของตัวแปรสุ่ม (คุณลักษณะผลลัพธ์) ซึ่งสามารถหาได้หากทราบค่าของตัวแปรอื่น (หรืออื่นๆ) (คุณลักษณะปัจจัย) ประกอบด้วยขั้นตอนต่อไปนี้:
- การเลือกรูปแบบการเชื่อมต่อ (ประเภทของสมการถดถอยเชิงวิเคราะห์)
- การประมาณค่าพารามิเตอร์สมการ
- การประเมินคุณภาพของสมการถดถอยเชิงวิเคราะห์
ในกรณีของความสัมพันธ์เชิงเส้นตรงแบบคู่ สมการการถดถอยจะอยู่ในรูปแบบ: y i =a+b·x i +u i พารามิเตอร์ a และ b ของสมการนี้ประมาณจากข้อมูลการสังเกตทางสถิติ x และ y ผลลัพธ์ของการประเมินดังกล่าวคือสมการ โดยที่ คือค่าประมาณของพารามิเตอร์ a และ b คือค่าของคุณลักษณะผลลัพธ์ (ตัวแปร) ที่ได้รับจากสมการการถดถอย (ค่าที่คำนวณได้)
ส่วนใหญ่มักใช้ในการประมาณค่าพารามิเตอร์ วิธีกำลังสองน้อยที่สุด (LSM)
วิธีกำลังสองน้อยที่สุดให้การประมาณค่าพารามิเตอร์ของสมการถดถอยที่ดีที่สุด (สม่ำเสมอ มีประสิทธิภาพ และไม่เอนเอียง) แต่เฉพาะในกรณีที่เป็นไปตามสมมติฐานบางประการเกี่ยวกับเทอมสุ่ม (u) และตัวแปรอิสระ (x) (ดูสมมติฐาน OLS)
ปัญหาการประมาณค่าพารามิเตอร์ของสมการคู่เชิงเส้นโดยใช้วิธีกำลังสองน้อยที่สุดมีดังต่อไปนี้: เพื่อให้ได้ค่าประมาณของพารามิเตอร์ ซึ่งผลรวมของการเบี่ยงเบนกำลังสองของค่าที่แท้จริงของคุณลักษณะผลลัพธ์ - y ฉัน จากค่าที่คำนวณได้ - มีค่าน้อยที่สุด
อย่างเป็นทางการ เกณฑ์ OLSสามารถเขียนได้ดังนี้: .
การจำแนกวิธีกำลังสองน้อยที่สุด
- วิธีกำลังสองน้อยที่สุด
- วิธีความน่าจะเป็นสูงสุด (สำหรับแบบจำลองการถดถอยเชิงเส้นแบบคลาสสิกปกติ จะถือว่าค่าปกติของค่าตกค้างของการถดถอย)
- วิธี OLS กำลังสองน้อยที่สุดทั่วไปใช้ในกรณีของความสัมพันธ์อัตโนมัติของข้อผิดพลาด และในกรณีของความแตกต่าง
- วิธีกำลังสองน้อยที่สุดแบบถ่วงน้ำหนัก (กรณีพิเศษของ OLS ที่มีค่าตกค้างเฮเทอโรเซดาสติก)
เรามาอธิบายประเด็นกันดีกว่า วิธีกำลังสองน้อยที่สุดแบบคลาสสิกแบบกราฟิก- ในการดำเนินการนี้ เราจะสร้างแผนภูมิกระจายตามข้อมูลเชิงสังเกต (x i, y i, i=1;n) ในระบบพิกัดสี่เหลี่ยม (แผนภูมิกระจายดังกล่าวเรียกว่าฟิลด์สหสัมพันธ์) ลองเลือกเส้นตรงที่ใกล้กับจุดของสนามความสัมพันธ์มากที่สุด ตามวิธีกำลังสองน้อยที่สุด เส้นจะถูกเลือกเพื่อให้ผลรวมของกำลังสองของระยะทางแนวตั้งระหว่างจุดของเขตข้อมูลสหสัมพันธ์และเส้นนี้มีค่าน้อยที่สุด
สัญกรณ์ทางคณิตศาสตร์สำหรับปัญหานี้: .
เราทราบค่าของ y i และ x i =1...n ซึ่งเป็นข้อมูลเชิงสังเกต ในฟังก์ชัน S พวกมันแทนค่าคงที่ ตัวแปรในฟังก์ชันนี้เป็นค่าประมาณที่จำเป็นของพารามิเตอร์ - , ในการค้นหาฟังก์ชันขั้นต่ำของตัวแปรสองตัว จำเป็นต้องคำนวณอนุพันธ์ย่อยของฟังก์ชันนี้สำหรับแต่ละพารามิเตอร์และจัดให้เป็นศูนย์ เช่น .
เป็นผลให้เราได้ระบบสมการเชิงเส้นปกติ 2 แบบ:
ในการแก้ปัญหาระบบนี้ เราจะพบการประมาณค่าพารามิเตอร์ที่ต้องการ:
ความถูกต้องของการคำนวณพารามิเตอร์ของสมการถดถอยสามารถตรวจสอบได้โดยการเปรียบเทียบจำนวน (อาจมีความคลาดเคลื่อนบางประการเนื่องจากการปัดเศษของการคำนวณ)
ในการคำนวณค่าประมาณพารามิเตอร์ คุณสามารถสร้างตารางที่ 1 ได้
เครื่องหมายของสัมประสิทธิ์การถดถอย b บ่งบอกถึงทิศทางของความสัมพันธ์ (ถ้า b >0 ความสัมพันธ์จะเป็นทางตรง ถ้า b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
อย่างเป็นทางการ ค่าของพารามิเตอร์ a คือค่าเฉลี่ยของ y โดยที่ x เท่ากับศูนย์ หากแอตทริบิวต์-ปัจจัยไม่มีและไม่สามารถมีค่าเป็นศูนย์ได้ การตีความพารามิเตอร์ a ข้างต้นก็ไม่สมเหตุสมผล
การประเมินความใกล้ชิดของความสัมพันธ์ระหว่างคุณลักษณะ
ดำเนินการโดยใช้สัมประสิทธิ์สหสัมพันธ์เชิงเส้นคู่ - r x,y สามารถคำนวณได้โดยใช้สูตร: - นอกจากนี้ ค่าสัมประสิทธิ์สหสัมพันธ์คู่เชิงเส้นสามารถหาได้จากค่าสัมประสิทธิ์การถดถอย b: .
ช่วงของค่าที่ยอมรับได้ของค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นคือตั้งแต่ –1 ถึง +1 สัญลักษณ์ของค่าสัมประสิทธิ์สหสัมพันธ์บ่งบอกถึงทิศทางของความสัมพันธ์ ถ้า r x, y >0 แสดงว่าการเชื่อมต่อเป็นแบบตรง ถ้า r x, y<0, то связь обратная.
หากสัมประสิทธิ์นี้ใกล้เคียงกับความสามัคคีในขนาด ความสัมพันธ์ระหว่างคุณลักษณะต่างๆ ก็สามารถตีความได้ว่าเป็นความสัมพันธ์เชิงเส้นที่ค่อนข้างใกล้เคียงกัน หากโมดูลมีค่าเท่ากับหนึ่ง ê r x , y ê =1 ความสัมพันธ์ระหว่างคุณลักษณะต่างๆ จะเป็นเชิงเส้นเชิงฟังก์ชัน หากจุดสนใจ x และ y มีความเป็นอิสระเชิงเส้น ดังนั้น r x,y จะใกล้เคียงกับ 0
ในการคำนวณ r x,y คุณสามารถใช้ตารางที่ 1 ได้เช่นกัน
ตารางที่ 1
ไม่มีข้อสังเกต | x ฉัน | ใช่แล้ว | x ฉัน ∙y ฉัน | ||
1 | x1 | คุณ 1 | x 1 ปี 1 | ||
2 | x2 | คุณ 2 | x 2 ปี 2 | ||
... | |||||
n | เอ็กซ์เอ็น | ใช่ | x ไม่ ใช่ | ||
ผลรวมคอลัมน์ | ∑x | ∑ใช่ | ∑xy | ||
ค่าเฉลี่ย |
,
โดยที่ d 2 คือความแปรปรวนของ y อธิบายโดยสมการถดถอย
e 2 - ความแปรปรวนของ y ที่เหลือ (ไม่ได้อธิบายโดยสมการถดถอย)
s 2 y - ผลต่างรวม (ทั้งหมด) ของ y
ค่าสัมประสิทธิ์การกำหนดลักษณะสัดส่วนของความแปรผัน (การกระจายตัว) ของคุณลักษณะผลลัพธ์ y อธิบายโดยการถดถอย (และด้วยเหตุนี้ ตัวประกอบ x) ในรูปแบบรวม (การกระจายตัว) y ค่าสัมประสิทธิ์การกำหนด R 2 yx ใช้ค่าตั้งแต่ 0 ถึง 1 ดังนั้นค่า 1-R 2 yx จะแสดงลักษณะของสัดส่วนของความแปรปรวน y ที่เกิดจากอิทธิพลของปัจจัยอื่น ๆ ที่ไม่ได้คำนึงถึงในแบบจำลองและข้อผิดพลาดของข้อกำหนด
ด้วยการถดถอยเชิงเส้นคู่ R 2 yx = r 2 yx
มีการใช้กันอย่างแพร่หลายในเศรษฐมิติในรูปแบบของการตีความพารามิเตอร์ทางเศรษฐกิจที่ชัดเจน
การถดถอยเชิงเส้นลงมาเพื่อค้นหาสมการของรูปแบบ
หรือ
สมการของแบบฟอร์ม อนุญาตตามค่าพารามิเตอร์ที่ระบุ เอ็กซ์มีค่าทางทฤษฎีของลักษณะผลลัพธ์โดยแทนที่ค่าที่แท้จริงของปัจจัยลงไป เอ็กซ์.
การสร้างการถดถอยเชิงเส้นนั้นมาจากการประมาณค่าพารามิเตอร์ - กและ วี.การประมาณค่าพารามิเตอร์การถดถอยเชิงเส้นสามารถพบได้โดยใช้วิธีการต่างๆ
วิธีการดั้งเดิมในการประมาณค่าพารามิเตอร์การถดถอยเชิงเส้นนั้นยึดตาม วิธีกำลังสองน้อยที่สุด(เอ็มเอ็นซี).
วิธีกำลังสองน้อยที่สุดช่วยให้เราสามารถประมาณค่าพารามิเตอร์ดังกล่าวได้ กและ วีซึ่งผลรวมของการเบี่ยงเบนกำลังสองของค่าที่แท้จริงของลักษณะผลลัพธ์ (ญ)จากการคำนวณ (ทางทฤษฎี) ขั้นต่ำ:
ในการหาค่าต่ำสุดของฟังก์ชัน คุณต้องคำนวณอนุพันธ์ย่อยของพารามิเตอร์แต่ละตัว กและ ขและตั้งค่าให้เท่ากับศูนย์
มาแสดงกันเถอะ ผ่าน S จากนั้น:
การแปลงสูตรเราได้รับระบบสมการปกติต่อไปนี้สำหรับการประมาณค่าพารามิเตอร์ กและ วี:
การแก้ระบบสมการปกติ (3.5) ไม่ว่าจะโดยวิธีการกำจัดตัวแปรตามลำดับหรือโดยวิธีการกำหนดเราจะพบการประมาณค่าพารามิเตอร์ที่ต้องการ กและ วี.
พารามิเตอร์ วีเรียกว่าสัมประสิทธิ์การถดถอย ค่าของมันแสดงการเปลี่ยนแปลงโดยเฉลี่ยของผลลัพธ์โดยมีการเปลี่ยนแปลงปัจจัยหนึ่งหน่วย
สมการถดถอยจะเสริมด้วยตัวบ่งชี้ความใกล้ชิดของการเชื่อมต่อเสมอ เมื่อใช้การถดถอยเชิงเส้น ตัวบ่งชี้ดังกล่าวคือค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้น มีการปรับเปลี่ยนสูตรสัมประสิทธิ์สหสัมพันธ์เชิงเส้นที่แตกต่างกัน บางส่วนได้รับด้านล่าง:
ดังที่ทราบ ค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นอยู่ภายในขีดจำกัด: -1 ≤ ≤ 1.
เพื่อประเมินคุณภาพของการเลือกฟังก์ชันเชิงเส้น จะมีการคำนวณกำลังสอง
สัมประสิทธิ์สหสัมพันธ์เชิงเส้นที่เรียกว่า ค่าสัมประสิทธิ์การตัดสินใจค่าสัมประสิทธิ์การกำหนดลักษณะสัดส่วนของความแปรปรวนของลักษณะผลลัพธ์ ใช่อธิบายโดยการถดถอย ในความแปรปรวนรวมของลักษณะผลลัพธ์:
ดังนั้น ค่า 1 จึงแสดงถึงส่วนแบ่งของความแปรปรวน ใช่เกิดจากอิทธิพลของปัจจัยอื่นๆ ที่ไม่ได้นำมาพิจารณาในแบบจำลอง
คำถามเพื่อการควบคุมตนเอง
1. สาระสำคัญของวิธีกำลังสองน้อยที่สุด?
2. การถดถอยแบบคู่มีตัวแปรกี่ตัว?
3. ค่าสัมประสิทธิ์ใดกำหนดความใกล้ชิดของการเชื่อมต่อระหว่างการเปลี่ยนแปลง?
4. ค่าสัมประสิทธิ์การตัดสินใจถูกกำหนดไว้ภายในขอบเขตใด?
5. การประมาณค่าพารามิเตอร์ b ในการวิเคราะห์สหสัมพันธ์-การถดถอย?
1. คริสโตเฟอร์ โดเฮอร์ตี้ เศรษฐมิติเบื้องต้น - อ.: INFRA - ม. 2544 - 402 หน้า
2. เอส.เอ. โบโรดิช. เศรษฐมิติ. Minsk LLC "ความรู้ใหม่" 2544
3. ร.ศ. Rakhmetova หลักสูตรระยะสั้นทางเศรษฐมิติ คู่มือการศึกษา อัลมาตี 2004. -78น.
4. II. เอลิเซวา เศรษฐมิติ. - อ.: “การเงินและสถิติ”, 2545
5. ข้อมูลรายเดือนและนิตยสารเชิงวิเคราะห์
แบบจำลองเศรษฐศาสตร์ไม่เชิงเส้น ตัวแบบการถดถอยแบบไม่เชิงเส้น การเปลี่ยนแปลงของตัวแปร
โมเดลเศรษฐกิจไม่เชิงเส้น..
การเปลี่ยนแปลงของตัวแปร
ค่าสัมประสิทธิ์ความยืดหยุ่น
หากมีความสัมพันธ์แบบไม่เชิงเส้นระหว่างปรากฏการณ์ทางเศรษฐกิจ ก็จะแสดงออกมาโดยใช้ฟังก์ชันไม่เชิงเส้นที่สอดคล้องกัน เช่น ไฮเปอร์โบลาด้านเท่ากันหมด , พาราโบลาของระดับที่สอง และอื่น ๆ
การถดถอยแบบไม่เชิงเส้นมีสองประเภท:
1. การถดถอยที่ไม่เชิงเส้นตามตัวแปรอธิบายที่รวมอยู่ในการวิเคราะห์ แต่เป็นเส้นตรงตามพารามิเตอร์ที่ประมาณไว้ เช่น
พหุนามขององศาต่างๆ - , ;
ไฮเปอร์โบลาด้านเท่ากันหมด - ;
ฟังก์ชันเซมิลอการิทึม - .
2. การถดถอยที่ไม่เป็นเชิงเส้นในพารามิเตอร์ที่กำลังประมาณ ตัวอย่างเช่น:
พลัง - ;
สาธิต - ;
เอ็กซ์โปเนนเชียล - .
ผลรวมของการเบี่ยงเบนกำลังสองของแต่ละค่าของลักษณะผลลัพธ์ ที่จากค่าเฉลี่ยนั้นเกิดจากอิทธิพลของหลายสาเหตุ ให้เราแบ่งเหตุผลทั้งหมดออกเป็นสองกลุ่มอย่างมีเงื่อนไข: ปัจจัยที่กำลังศึกษา xและ ปัจจัยอื่นๆ
หากปัจจัยไม่ส่งผลต่อผลลัพธ์ เส้นการถดถอยบนกราฟจะขนานกับแกน โอ้และ
จากนั้นความแปรปรวนทั้งหมดของลักษณะผลลัพธ์นั้นเกิดจากอิทธิพลของปัจจัยอื่น ๆ และผลรวมของการเบี่ยงเบนกำลังสองจะตรงกับค่าคงเหลือ หากปัจจัยอื่นไม่ส่งผลต่อผลลัพธ์แล้ว คุณผูกอยู่กับ เอ็กซ์ตามหน้าที่และผลรวมที่เหลือของกำลังสองเป็นศูนย์ ในกรณีนี้ ผลรวมของการเบี่ยงเบนกำลังสองซึ่งอธิบายโดยการถดถอยจะเท่ากับผลรวมของกำลังสองทั้งหมด
เนื่องจากไม่ใช่ทุกจุดของสนามความสัมพันธ์จะอยู่บนเส้นถดถอย การกระจัดกระจายจึงเกิดขึ้นเสมออันเป็นผลมาจากอิทธิพลของปัจจัย เอ็กซ์นั่นคือการถดถอย ที่โดย เอ็กซ์,และเกิดจากสาเหตุอื่น (ความแปรผันที่ไม่สามารถอธิบายได้) ความเหมาะสมของเส้นการถดถอยในการพยากรณ์ขึ้นอยู่กับส่วนใดของการแปรผันรวมของลักษณะ ที่อธิบายความแปรผันที่อธิบายไว้
แน่นอนว่า หากผลรวมของการเบี่ยงเบนกำลังสองเนื่องจากการถดถอยมากกว่าผลรวมที่เหลือของกำลังสอง สมการการถดถอยจะมีนัยสำคัญทางสถิติและเป็นปัจจัย เอ็กซ์มีผลกระทบอย่างมีนัยสำคัญต่อผลลัพธ์ คุณ
, นั่นคือด้วยจำนวนอิสระของการแปรผันที่เป็นอิสระของคุณลักษณะ จำนวนระดับความเป็นอิสระสัมพันธ์กับจำนวนหน่วยประชากร n และจำนวนค่าคงที่ที่กำหนดจากมัน ในความสัมพันธ์กับปัญหาที่กำลังศึกษา จำนวนระดับความเป็นอิสระควรแสดงจำนวนค่าเบี่ยงเบนอิสระจาก n
การประเมินนัยสำคัญของสมการถดถอยโดยรวมจะใช้ เอฟ-เกณฑ์ชาวประมง ในกรณีนี้ มีการเสนอสมมติฐานว่างว่าสัมประสิทธิ์การถดถอยเท่ากับศูนย์ นั่นคือ ข = 0 และด้วยเหตุนี้จึงเป็นปัจจัย เอ็กซ์ไม่ส่งผลกระทบต่อผลลัพธ์ คุณ
การคำนวณการทดสอบ F ในทันทีนั้นนำหน้าด้วยการวิเคราะห์ความแปรปรวน จุดศูนย์กลางในนั้นถูกครอบครองโดยการสลายตัวของผลรวมของการเบี่ยงเบนกำลังสองของตัวแปร ที่จากค่าเฉลี่ย ที่ออกเป็นสองส่วน - "อธิบาย" และ "ไม่ได้อธิบาย":
- ผลรวมของการเบี่ยงเบนกำลังสอง;
- ผลรวมของการเบี่ยงเบนกำลังสองที่อธิบายโดยการถดถอย
- ผลรวมที่เหลือของการเบี่ยงเบนกำลังสอง
ผลรวมของการเบี่ยงเบนกำลังสองสัมพันธ์กับจำนวนดีกรีอิสระ , นั่นคือด้วยจำนวนอิสระของการแปรผันที่เป็นอิสระของคุณลักษณะ จำนวนองศาอิสระสัมพันธ์กับจำนวนหน่วยประชากร nและด้วยจำนวนค่าคงที่ที่กำหนดจากมัน ในความสัมพันธ์กับปัญหาที่กำลังศึกษา จำนวนระดับความเป็นอิสระควรแสดงจำนวนค่าเบี่ยงเบนอิสระจาก nเป็นไปได้ที่จำเป็นในการสร้างผลรวมของกำลังสองที่กำหนด
การกระจายตัวต่อระดับความเป็นอิสระดี.
อัตราส่วน F (การทดสอบ F):
ถ้าสมมุติฐานว่างเป็นจริงแล้วปัจจัยและความแปรปรวนคงเหลือไม่แตกต่างกัน สำหรับ H 0 จำเป็นต้องมีการพิสูจน์เพื่อให้การกระจายตัวของปัจจัยเกินการกระจายตัวของสารตกค้างหลายครั้ง Snedekor นักสถิติชาวอังกฤษได้พัฒนาตารางค่าวิกฤต เอฟ-ความสัมพันธ์ในระดับนัยสำคัญต่างๆ ของสมมติฐานว่างและระดับความเป็นอิสระที่แตกต่างกัน ค่าตาราง เอฟ-เกณฑ์คือค่าสูงสุดของอัตราส่วนของความแปรปรวนที่สามารถเกิดขึ้นได้ในกรณีของความแตกต่างแบบสุ่มสำหรับระดับความน่าจะเป็นของการมีอยู่ของสมมติฐานที่เป็นโมฆะ ค่าที่คำนวณได้ เอฟ-ความสัมพันธ์จะถือว่าเชื่อถือได้ถ้า o มากกว่าตาราง
ในกรณีนี้ สมมติฐานว่างเกี่ยวกับการไม่มีความสัมพันธ์ระหว่างสัญญาณต่างๆ จะถูกปฏิเสธ และได้ข้อสรุปเกี่ยวกับความสำคัญของความสัมพันธ์นี้: F ข้อเท็จจริง > ตาราง F H 0 ถูกปฏิเสธ
หากค่าน้อยกว่าตาราง F ข้อเท็จจริง ‹, ตาราง Fดังนั้นความน่าจะเป็นของสมมติฐานว่างจะสูงกว่าระดับที่ระบุและไม่สามารถปฏิเสธได้หากไม่มีความเสี่ยงร้ายแรงในการสรุปข้อสรุปที่ผิดเกี่ยวกับการมีอยู่ของความสัมพันธ์ ในกรณีนี้ สมการการถดถอยถือว่าไม่มีนัยสำคัญทางสถิติ แต่เขาไม่เบี่ยงเบน
ค่าคลาดเคลื่อนมาตรฐานของสัมประสิทธิ์การถดถอย
เพื่อประเมินความสำคัญของสัมประสิทธิ์การถดถอย ค่าของมันจะถูกเปรียบเทียบกับข้อผิดพลาดมาตรฐาน เช่น กำหนดค่าจริง ที-แบบทดสอบของนักเรียน: ซึ่งนำไปเปรียบเทียบกับค่าตารางในระดับนัยสำคัญและจำนวนระดับความเป็นอิสระ ( n- 2).
ข้อผิดพลาดของพารามิเตอร์มาตรฐาน ก:
ความสำคัญของค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นได้รับการตรวจสอบตามขนาดของข้อผิดพลาด ค่าสัมประสิทธิ์สหสัมพันธ์ ทีอาร์:
ความแปรปรวนลักษณะรวม เอ็กซ์:
การถดถอยเชิงเส้นพหุคูณ
การสร้างแบบจำลอง
การถดถอยหลายครั้งแสดงถึงการถดถอยของคุณลักษณะที่มีประสิทธิผลด้วยปัจจัยตั้งแต่ 2 ตัวขึ้นไป เช่น แบบจำลองของแบบฟอร์ม
การถดถอยสามารถให้ผลลัพธ์ที่ดีในการสร้างแบบจำลองได้ หากสามารถละเลยอิทธิพลของปัจจัยอื่นที่ส่งผลต่อวัตถุประสงค์ของการศึกษาได้ ไม่สามารถควบคุมพฤติกรรมของตัวแปรทางเศรษฐกิจแต่ละตัวได้ กล่าวคือ ไม่สามารถรับประกันความเท่าเทียมกันของเงื่อนไขอื่น ๆ ทั้งหมดในการประเมินอิทธิพลของปัจจัยหนึ่งที่อยู่ในการศึกษา ในกรณีนี้ คุณควรพยายามระบุอิทธิพลของปัจจัยอื่นๆ ด้วยการนำปัจจัยเหล่านั้นเข้าไปในแบบจำลอง เช่น สร้างสมการการถดถอยพหุคูณ: y = a+b 1 x 1 +b 2 +…+b p x p + .
เป้าหมายหลักของการถดถอยพหุคูณคือการสร้างแบบจำลองที่มีปัจจัยจำนวนมาก ในขณะเดียวกันก็กำหนดอิทธิพลของปัจจัยแต่ละอย่างแยกกัน รวมถึงผลกระทบรวมที่มีต่อตัวบ่งชี้ที่เป็นแบบจำลอง ข้อกำหนดของแบบจำลองประกอบด้วยประเด็นสองช่วง ได้แก่ การเลือกปัจจัย และการเลือกประเภทของสมการการถดถอย
วิธีกำลังสองน้อยที่สุด
วิธีกำลังสองน้อยที่สุด ( OLS, OLS, กำลังสองน้อยสุดสามัญ) - หนึ่งในวิธีพื้นฐานของการวิเคราะห์การถดถอยสำหรับการประมาณค่าพารามิเตอร์ที่ไม่รู้จักของแบบจำลองการถดถอยโดยใช้ข้อมูลตัวอย่าง วิธีการนี้ขึ้นอยู่กับการลดผลรวมของกำลังสองของเศษที่เหลือจากการถดถอยให้เหลือน้อยที่สุด
ควรสังเกตว่าวิธีกำลังสองน้อยที่สุดนั้นสามารถเรียกได้ว่าเป็นวิธีการในการแก้ปัญหาในพื้นที่ใดๆ ถ้าการแก้ปัญหาเป็นไปตามหรือเป็นไปตามเกณฑ์บางประการในการลดผลรวมของกำลังสองของฟังก์ชันบางอย่างของตัวแปรที่ต้องการให้เหลือน้อยที่สุด ดังนั้น วิธีกำลังสองน้อยที่สุดยังสามารถใช้สำหรับการประมาณค่า (การประมาณ) ของฟังก์ชันที่กำหนดโดยฟังก์ชันอื่น (ที่ง่ายกว่า) เมื่อค้นหาชุดของปริมาณที่เป็นไปตามสมการหรือข้อจำกัด ซึ่งจำนวนเกินจำนวนเหล่านี้ ฯลฯ
สาระสำคัญของ MNC
ให้แบบจำลอง (พาราเมตริก) ของความสัมพันธ์ความน่าจะเป็น (การถดถอย) ระหว่างตัวแปร (อธิบาย) ได้รับ ยและปัจจัยหลายประการ (ตัวแปรอธิบาย) x
เวกเตอร์ของพารามิเตอร์แบบจำลองที่ไม่รู้จักอยู่ที่ไหน
- ข้อผิดพลาดของโมเดลแบบสุ่มให้มีการสังเกตตัวอย่างค่าของตัวแปรเหล่านี้ด้วย อนุญาต เป็นหมายเลขสังเกต () จากนั้นเป็นค่าของตัวแปรในการสังเกตครั้งที่ 3 จากนั้นสำหรับค่าที่กำหนดของพารามิเตอร์ b คุณสามารถคำนวณค่าทางทฤษฎี (แบบจำลอง) ของตัวแปรที่อธิบาย y:
ขนาดของสิ่งตกค้างขึ้นอยู่กับค่าของพารามิเตอร์ b
สาระสำคัญของวิธีกำลังสองน้อยที่สุด (ธรรมดา, คลาสสิก) คือการค้นหาพารามิเตอร์ดังกล่าว b ซึ่งผลรวมของกำลังสองของส่วนที่เหลือ (อังกฤษ. ผลรวมที่เหลือของกำลังสอง) จะน้อยที่สุด:
ในกรณีทั่วไป ปัญหานี้สามารถแก้ไขได้โดยวิธีการปรับให้เหมาะสมเชิงตัวเลข (การย่อขนาด) ในกรณีนี้พวกเขาพูดถึง กำลังสองน้อยที่สุดแบบไม่เชิงเส้น(NLS หรือ NLLS - ภาษาอังกฤษ) กำลังสองน้อยที่สุดที่ไม่ใช่เชิงเส้น- ในหลายกรณี เป็นไปได้ที่จะได้รับโซลูชันเชิงวิเคราะห์ ในการแก้ปัญหาการย่อเล็กสุดจำเป็นต้องค้นหาจุดที่คงที่ของฟังก์ชันโดยสร้างความแตกต่างด้วยพารามิเตอร์ที่ไม่รู้จัก b เท่ากับอนุพันธ์ให้เป็นศูนย์และแก้ระบบสมการผลลัพธ์:
หากข้อผิดพลาดแบบสุ่มของแบบจำลองมีการกระจายตามปกติ มีความแปรปรวนเท่ากัน และไม่มีความสัมพันธ์กัน การประมาณค่าพารามิเตอร์ OLS จะเหมือนกับการประมาณโอกาสสูงสุด (MLM)
OLS ในกรณีของโมเดลเชิงเส้น
ปล่อยให้การพึ่งพาการถดถอยเป็นเส้นตรง:
อนุญาต ยเป็นเวกเตอร์คอลัมน์ของการสังเกตของตัวแปรที่อธิบายและเป็นเมทริกซ์ของการสังเกตปัจจัย (แถวของเมทริกซ์เป็นเวกเตอร์ของค่าตัวประกอบในการสังเกตที่กำหนด คอลัมน์เป็นเวกเตอร์ของค่าของปัจจัยที่กำหนด ในการสังเกตทั้งหมด) การแสดงเมทริกซ์ของโมเดลเชิงเส้นคือ:
จากนั้นเวกเตอร์ของการประมาณค่าของตัวแปรที่อธิบายและเวกเตอร์ของเศษการถดถอยจะเท่ากัน
ดังนั้นผลรวมของกำลังสองของเศษการถดถอยจะเท่ากับ
การแยกฟังก์ชันนี้ด้วยความเคารพต่อเวกเตอร์ของพารามิเตอร์และการทำให้อนุพันธ์เป็นศูนย์เราจะได้ระบบสมการ (ในรูปแบบเมทริกซ์):
.การแก้ระบบสมการนี้ให้สูตรทั่วไปสำหรับการประมาณค่ากำลังสองน้อยที่สุดสำหรับแบบจำลองเชิงเส้น:
เพื่อวัตถุประสงค์ในการวิเคราะห์ การแสดงสูตรหลังนี้มีประโยชน์ หากอยู่ในแบบจำลองการถดถอยข้อมูล อยู่ตรงกลางจากนั้นในการแทนค่านี้ เมทริกซ์ตัวแรกมีความหมายของเมทริกซ์ความแปรปรวนร่วมตัวอย่างของปัจจัย และเมทริกซ์ตัวที่สองคือเวกเตอร์ของความแปรปรวนร่วมของปัจจัยที่มีตัวแปรตาม หากนอกเหนือจากข้อมูลแล้วยัง ทำให้เป็นมาตรฐานถึง MSE (นั่นคือท้ายที่สุดแล้ว ได้มาตรฐาน) จากนั้นเมทริกซ์แรกมีความหมายของเมทริกซ์ความสัมพันธ์ตัวอย่างของปัจจัย เวกเตอร์ที่สอง - เวกเตอร์ของความสัมพันธ์ตัวอย่างของปัจจัยกับตัวแปรตาม
คุณสมบัติที่สำคัญของการประมาณค่า OLS สำหรับแบบจำลอง มีค่าคงที่- เส้นการถดถอยที่สร้างขึ้นจะผ่านจุดศูนย์ถ่วงของข้อมูลตัวอย่าง นั่นคือมีความเท่าเทียมกัน:
โดยเฉพาะอย่างยิ่ง ในกรณีที่รุนแรง เมื่อตัวถดถอยตัวเดียวเป็นค่าคงที่ เราจะพบว่าการประมาณค่า OLS ของพารามิเตอร์ตัวเดียว (ค่าคงที่นั้นเอง) เท่ากับค่าเฉลี่ยของตัวแปรที่อธิบาย นั่นคือค่าเฉลี่ยเลขคณิตซึ่งเป็นที่รู้จักในเรื่องคุณสมบัติที่ดีจากกฎของจำนวนจำนวนมากก็เป็นค่าประมาณกำลังสองน้อยที่สุดเช่นกันซึ่งเป็นไปตามเกณฑ์ของผลรวมขั้นต่ำของการเบี่ยงเบนกำลังสองจากนั้น
ตัวอย่าง: การถดถอยที่ง่ายที่สุด (ตามคู่)
ในกรณีของการถดถอยเชิงเส้นแบบคู่ สูตรการคำนวณจะง่ายขึ้น (คุณสามารถทำได้โดยไม่ต้องใช้พีชคณิตเมทริกซ์):
คุณสมบัติของตัวประมาณค่า OLS
ก่อนอื่น เราทราบว่าสำหรับโมเดลเชิงเส้น การประมาณค่า OLS เป็นการประมาณเชิงเส้น ดังต่อไปนี้จากสูตรข้างต้น สำหรับการประมาณค่า OLS ที่เป็นกลาง มีความจำเป็นและเพียงพอในการตอบสนองเงื่อนไขที่สำคัญที่สุดของการวิเคราะห์การถดถอย: ความคาดหวังทางคณิตศาสตร์ของข้อผิดพลาดแบบสุ่มตามเงื่อนไขของปัจจัย จะต้องเท่ากับศูนย์ โดยเฉพาะอย่างยิ่งเงื่อนไขนี้จะเป็นที่พอใจหาก
- ความคาดหวังทางคณิตศาสตร์ของข้อผิดพลาดแบบสุ่มคือศูนย์ และ
- ปัจจัยและข้อผิดพลาดแบบสุ่มเป็นตัวแปรสุ่มอิสระ
เงื่อนไขที่สอง - เงื่อนไขของปัจจัยภายนอก - เป็นเงื่อนไขพื้นฐาน หากไม่ตรงตามคุณสมบัตินี้ เราสามารถสรุปได้ว่าการประมาณการเกือบทั้งหมดจะไม่เป็นที่น่าพอใจอย่างยิ่ง โดยจะไม่สอดคล้องกันด้วยซ้ำ (นั่นคือ แม้แต่ข้อมูลจำนวนมากก็ไม่อนุญาตให้เรารับการประมาณการคุณภาพสูงในกรณีนี้ ). ในกรณีคลาสสิก มีการตั้งสมมติฐานที่หนักแน่นกว่าเกี่ยวกับการกำหนดปัจจัยต่างๆ ซึ่งตรงข้ามกับข้อผิดพลาดแบบสุ่ม ซึ่งหมายความว่าเป็นไปตามเงื่อนไขภายนอกโดยอัตโนมัติ ในกรณีทั่วไป เพื่อความสอดคล้องของการประมาณการ ก็เพียงพอแล้วที่จะเป็นไปตามเงื่อนไขภายนอกร่วมกับการลู่เข้าของเมทริกซ์กับเมทริกซ์ที่ไม่ใช่เอกพจน์เมื่อขนาดตัวอย่างเพิ่มขึ้นจนถึงค่าอนันต์
เพื่อให้ นอกจากความสม่ำเสมอและความเป็นกลางแล้ว การประมาณค่ากำลังสองน้อยที่สุด (ปกติ) ให้มีประสิทธิภาพด้วย (ค่าที่ดีที่สุดในกลุ่มการประมาณค่าที่ไม่เอนเอียงเชิงเส้น) จะต้องมีคุณสมบัติเพิ่มเติมของข้อผิดพลาดแบบสุ่ม:
สมมติฐานเหล่านี้สามารถกำหนดสูตรสำหรับเมทริกซ์ความแปรปรวนร่วมของเวกเตอร์ข้อผิดพลาดแบบสุ่มได้
เรียกว่าแบบจำลองเชิงเส้นที่ตรงตามเงื่อนไขเหล่านี้ คลาสสิค- การประมาณค่า OLS สำหรับการถดถอยเชิงเส้นแบบคลาสสิกนั้นมีความเป็นกลาง สม่ำเสมอ และมีประสิทธิภาพมากที่สุดในกลุ่มของการประมาณค่าที่ไม่เอนเอียงเชิงเส้นทั้งหมด (ในวรรณคดีอังกฤษ บางครั้งจะใช้ตัวย่อ สีฟ้า (ตัวประมาณค่าเชิงเส้นแบบไม่มีฐานที่ดีที่สุด) - การประมาณค่าที่เป็นกลางเชิงเส้นที่ดีที่สุด ในวรรณคดีรัสเซียมักอ้างถึงทฤษฎีบทเกาส์-มาร์คอฟ) ตามที่แสดงได้ง่าย เมทริกซ์ความแปรปรวนร่วมของเวกเตอร์ของการประมาณค่าสัมประสิทธิ์จะเท่ากับ:
OLS ทั่วไป
วิธีกำลังสองน้อยที่สุดทำให้สามารถสรุปได้กว้างๆ แทนที่จะลดผลรวมของกำลังสองของส่วนที่เหลือให้เหลือน้อยที่สุด เราสามารถลดรูปแบบกำลังสองที่แน่นอนของเวกเตอร์ของส่วนที่เหลือให้เหลือน้อยที่สุด โดยที่เมทริกซ์น้ำหนักแน่นอนเชิงบวกแบบสมมาตรบางตัว กำลังสองน้อยที่สุดแบบธรรมดาเป็นกรณีพิเศษของแนวทางนี้ โดยที่เมทริกซ์น้ำหนักจะเป็นสัดส่วนกับเมทริกซ์เอกลักษณ์ ดังที่ทราบจากทฤษฎีเมทริกซ์สมมาตร (หรือตัวดำเนินการ) สำหรับเมทริกซ์ดังกล่าวจะมีการสลายตัว ดังนั้น ฟังก์ชันที่ระบุจึงสามารถแสดงได้ดังต่อไปนี้ กล่าวคือ ฟังก์ชันนี้สามารถแสดงเป็นผลรวมของกำลังสองของ "เศษที่เหลือ" ที่ถูกแปลงบางส่วน ดังนั้นเราจึงสามารถแยกแยะคลาสของวิธีกำลังสองน้อยที่สุดได้ - วิธี LS (กำลังสองน้อยที่สุด)
ได้รับการพิสูจน์แล้ว (ทฤษฎีบทของเอตเคน) ว่าสำหรับแบบจำลองการถดถอยเชิงเส้นทั่วไป (ซึ่งไม่มีข้อจำกัดใดๆ กำหนดไว้กับเมทริกซ์ความแปรปรวนร่วมของข้อผิดพลาดแบบสุ่ม) สิ่งที่เรียกว่าการประมาณการที่มีประสิทธิผลมากที่สุด (ในกลุ่มของการประมาณค่าที่ไม่เอนเอียงเชิงเส้น) กำลังสองน้อยที่สุดทั่วไป (GLS - กำลังสองน้อยที่สุดทั่วไป)- วิธี LS ที่มีเมทริกซ์น้ำหนักเท่ากับเมทริกซ์ความแปรปรวนร่วมผกผันของข้อผิดพลาดแบบสุ่ม:
จะเห็นได้ว่าสูตรสำหรับการประมาณค่าพารามิเตอร์ของแบบจำลองเชิงเส้นของ GLS มีรูปแบบ
เมทริกซ์ความแปรปรวนร่วมของการประมาณค่าเหล่านี้จะเท่ากับตามนั้น
ในความเป็นจริง สาระสำคัญของ OLS อยู่ที่การแปลง (P) บางอย่าง (เชิงเส้น) ของข้อมูลต้นฉบับและการประยุกต์ใช้ OLS ธรรมดากับข้อมูลที่แปลงแล้ว วัตถุประสงค์ของการแปลงนี้คือ สำหรับข้อมูลที่แปลงแล้ว ข้อผิดพลาดแบบสุ่มเป็นไปตามสมมติฐานดั้งเดิมอยู่แล้ว
OLS แบบถ่วงน้ำหนัก
ในกรณีของเมทริกซ์น้ำหนักแนวทแยง (และด้วยเหตุนี้จึงเป็นเมทริกซ์ความแปรปรวนร่วมของข้อผิดพลาดแบบสุ่ม) เราจะเรียกว่ากำลังสองน้อยที่สุดแบบถ่วงน้ำหนัก (WLS) ในกรณีนี้ ผลรวมถ่วงน้ำหนักของกำลังสองของส่วนที่เหลือของแบบจำลองจะลดลง กล่าวคือ การสังเกตแต่ละครั้งจะได้รับ "น้ำหนัก" ซึ่งเป็นสัดส่วนผกผันกับความแปรปรวนของข้อผิดพลาดแบบสุ่มในการสังเกตนี้: ข้อมูลจะถูกแปลงโดยการถ่วงน้ำหนักการสังเกต (หารด้วยจำนวนที่เป็นสัดส่วนกับค่าเบี่ยงเบนมาตรฐานโดยประมาณของข้อผิดพลาดแบบสุ่ม) และ OLS ธรรมดาจะถูกนำไปใช้กับข้อมูลที่ถ่วงน้ำหนัก
กรณีพิเศษบางประการของการใช้ MNC ในทางปฏิบัติ
การประมาณของการพึ่งพาเชิงเส้น
ให้เราพิจารณากรณีที่เป็นผลจากการศึกษาการพึ่งพาปริมาณสเกลาร์บางอย่างกับปริมาณสเกลาร์ที่แน่นอน (เช่น การพึ่งพาแรงดันไฟฟ้าต่อความแรงของกระแส: ที่ไหน เป็นค่าคงที่ ความต้านทานของ ตัวนำ) ทำการวัดปริมาณเหล่านี้ซึ่งเป็นผลมาจากค่าและค่าที่สอดคล้องกัน ข้อมูลการวัดจะต้องบันทึกไว้ในตาราง
โต๊ะ. ผลการวัด
หมายเลขการวัด | ||
---|---|---|
1 | ||
2 | ||
3 | ||
4 | ||
5 | ||
6 |
คำถามคือ: สามารถเลือกค่าสัมประสิทธิ์ใดเพื่ออธิบายการพึ่งพาได้ดีที่สุด? ตามวิธีกำลังสองน้อยที่สุดค่านี้ควรเป็นผลรวมของการเบี่ยงเบนกำลังสองของค่าจากค่า
น้อยที่สุด
ผลรวมของการเบี่ยงเบนกำลังสองจะมีค่าสูงสุดหนึ่งค่า - ค่าต่ำสุดซึ่งทำให้เราสามารถใช้สูตรนี้ได้ ให้เราค้นหาค่าของสัมประสิทธิ์จากสูตรนี้ เมื่อต้องการทำเช่นนี้ เราแปลงด้านซ้ายดังนี้:
สูตรสุดท้ายช่วยให้เราสามารถหาค่าสัมประสิทธิ์ซึ่งเป็นค่าที่จำเป็นในโจทย์ได้
เรื่องราว
จนกระทั่งต้นศตวรรษที่ 19 นักวิทยาศาสตร์ไม่มีกฎเกณฑ์ที่แน่นอนในการแก้ระบบสมการซึ่งจำนวนไม่ทราบค่าน้อยกว่าจำนวนสมการ ก่อนหน้านั้นมีการใช้เทคนิคส่วนตัวซึ่งขึ้นอยู่กับประเภทของสมการและความเฉลียวฉลาดของเครื่องคิดเลข ดังนั้นเครื่องคิดเลขที่แตกต่างกันซึ่งใช้ข้อมูลเชิงสังเกตเดียวกันจึงได้ข้อสรุปที่ต่างกัน Gauss (1795) เป็นคนแรกที่ใช้วิธีการนี้ และ Legendre (1805) ค้นพบและเผยแพร่โดยอิสระภายใต้ชื่อสมัยใหม่ (ฝรั่งเศส. Méthode des moindres quarrés - ลาปลาซเชื่อมโยงวิธีการนี้เข้ากับทฤษฎีความน่าจะเป็น และนักคณิตศาสตร์ชาวอเมริกัน แอดเรน (1808) ได้พิจารณาการประยุกต์ใช้ทฤษฎีความน่าจะเป็นของมัน วิธีการนี้แพร่หลายและปรับปรุงโดยการวิจัยเพิ่มเติมโดย Encke, Bessel, Hansen และคนอื่นๆ
การใช้ทางเลือกอื่นของ OLS
แนวคิดของวิธีกำลังสองน้อยที่สุดยังสามารถใช้ในกรณีอื่นที่ไม่เกี่ยวข้องโดยตรงกับการวิเคราะห์การถดถอย ความจริงก็คือผลรวมของกำลังสองเป็นหนึ่งในการวัดความใกล้ชิดที่ใช้กันทั่วไปสำหรับเวกเตอร์ (เมตริกแบบยูคลิดในปริภูมิมิติจำกัด)
แอปพลิเคชั่นหนึ่งคือ “คำตอบ” ของระบบสมการเชิงเส้นซึ่งจำนวนสมการมากกว่าจำนวนตัวแปร
โดยที่เมทริกซ์ไม่ใช่สี่เหลี่ยมจัตุรัส แต่เป็นขนาดสี่เหลี่ยมจัตุรัส .
ในกรณีทั่วไป ระบบสมการดังกล่าวไม่มีวิธีแก้ปัญหา (หากอันดับนั้นมากกว่าจำนวนตัวแปรจริงๆ) ดังนั้น ระบบนี้สามารถ "แก้ไข" ได้เฉพาะในแง่ของการเลือกเวกเตอร์ดังกล่าวเพื่อลด "ระยะห่าง" ระหว่างเวกเตอร์และ ในการทำเช่นนี้ คุณสามารถใช้เกณฑ์ในการลดผลรวมของกำลังสองของความแตกต่างระหว่างด้านซ้ายและด้านขวาของสมการของระบบได้ กล่าวคือ เป็นเรื่องง่ายที่จะแสดงให้เห็นว่าการแก้ปัญหาการย่อเล็กสุดนี้นำไปสู่การแก้ระบบสมการต่อไปนี้