หาค่าสัมประสิทธิ์โดยใช้วิธีกำลังสองน้อยที่สุด ตัวอย่างการแก้ปัญหาเฉพาะ

หลังจากการปรับระดับเราจะได้ฟังก์ชันในรูปแบบต่อไปนี้: g (x) = x + 1 3 + 1 .

เราสามารถประมาณข้อมูลนี้ได้โดยใช้ความสัมพันธ์เชิงเส้น y = a x + b โดยการคำนวณพารามิเตอร์ที่เกี่ยวข้อง เมื่อต้องการทำเช่นนี้ เราจำเป็นต้องใช้วิธีที่เรียกว่ากำลังสองน้อยที่สุด คุณจะต้องวาดภาพเพื่อตรวจสอบว่าเส้นใดจะจัดแนวข้อมูลการทดลองได้ดีที่สุด

ยานเดกซ์ RTB R-A-339285-1

OLS คืออะไร (วิธีกำลังสองน้อยที่สุด)

สิ่งสำคัญที่เราต้องทำคือการหาค่าสัมประสิทธิ์ของการพึ่งพาเชิงเส้นซึ่งค่าของฟังก์ชันของตัวแปรสองตัว F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 จะเป็น เล็กที่สุด กล่าวอีกนัยหนึ่งสำหรับค่าบางค่าของ a และ b ผลรวมของการเบี่ยงเบนกำลังสองของข้อมูลที่นำเสนอจากเส้นตรงผลลัพธ์จะมีค่าต่ำสุด นี่คือความหมายของวิธีกำลังสองน้อยที่สุด สิ่งที่เราต้องทำเพื่อแก้ตัวอย่างคือการหาจุดสิ้นสุดของฟังก์ชันของตัวแปรสองตัว

วิธีหาสูตรคำนวณสัมประสิทธิ์

เพื่อที่จะได้สูตรในการคำนวณค่าสัมประสิทธิ์ คุณต้องสร้างและแก้ระบบสมการที่มีตัวแปรสองตัว ในการทำเช่นนี้ เราคำนวณอนุพันธ์ย่อยของนิพจน์ F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 เทียบกับ a และ b แล้วเทียบให้เป็น 0

δ F (a , b) δ a = 0 δ F (a , b) δ b = 0 ⇔ - 2 ∑ i = 1 n (y i - (a x i + b)) x i = 0 - 2 ∑ i = 1 n ( y i - (a x i + b)) = 0 ⇔ a ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + ∑ i = 1 n b = ∑ i = 1 n y i ⇔ a ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + n b = ∑ i = 1 n y i

ในการแก้ระบบสมการ คุณสามารถใช้วิธีใดก็ได้ เช่น การแทนที่ หรือวิธีของแครเมอร์ ด้วยเหตุนี้เราจึงควรมีสูตรที่สามารถใช้คำนวณค่าสัมประสิทธิ์โดยใช้วิธีกำลังสองน้อยที่สุดได้

n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 n x i n

เราได้คำนวณค่าของตัวแปรที่ฟังก์ชัน
F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 จะใช้ค่าต่ำสุด ในย่อหน้าที่สาม เราจะพิสูจน์ว่าทำไมมันจึงเป็นเช่นนี้

นี่คือการประยุกต์ใช้วิธีกำลังสองน้อยที่สุดในทางปฏิบัติ สูตรที่ใช้ค้นหาพารามิเตอร์ a ประกอบด้วย ∑ i = 1 n x i, ∑ i = 1 n y i, ∑ i = 1 n x i y i, ∑ i = 1 n x i 2 รวมถึงพารามิเตอร์ด้วย
n – หมายถึงจำนวนข้อมูลการทดลอง เราแนะนำให้คุณคำนวณแต่ละจำนวนเงินแยกกัน ค่าของสัมประสิทธิ์ b จะถูกคำนวณทันทีหลังจาก a

กลับไปที่ตัวอย่างเดิม

ตัวอย่างที่ 1

ตรงนี้เรามี n เท่ากับ 5. เพื่อให้สะดวกยิ่งขึ้นในการคำนวณจำนวนเงินที่ต้องการซึ่งรวมอยู่ในสูตรสัมประสิทธิ์ เรามากรอกตารางกันดีกว่า

ฉัน = 1 ผม=2 ผม=3 ผม=4 ผม=5 ∑ ผม = 1 5
x ฉัน 0 1 2 4 5 12
ใช่แล้ว 2 , 1 2 , 4 2 , 6 2 , 8 3 12 , 9
x ฉัน ฉัน ฉัน 0 2 , 4 5 , 2 11 , 2 15 33 , 8
x ฉัน 2 0 1 4 16 25 46

สารละลาย

แถวที่สี่รวมข้อมูลที่ได้รับโดยการคูณค่าจากแถวที่สองด้วยค่าของแถวที่สามสำหรับแต่ละ i บรรทัดที่ห้าประกอบด้วยข้อมูลจากบรรทัดที่สอง กำลังสอง คอลัมน์สุดท้ายจะแสดงผลรวมของค่าของแต่ละแถว

ลองใช้วิธีกำลังสองน้อยที่สุดในการคำนวณค่าสัมประสิทธิ์ a และ b ที่เราต้องการ ในการดำเนินการนี้ให้แทนที่ค่าที่ต้องการจากคอลัมน์สุดท้ายแล้วคำนวณจำนวนเงิน:

n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 n x i n ⇒ a = 5 33, 8 - 12 12, 9 5 46 - 12 2 b = 12, 9 - ก 12 5 ⇒ ก µ 0, 165 ข ต้อ 2, 184

ปรากฎว่าเส้นตรงโดยประมาณที่ต้องการจะมีลักษณะดังนี้ y = 0, 165 x + 2, 184 ตอนนี้เราต้องพิจารณาว่าบรรทัดใดจะประมาณข้อมูลได้ดีกว่า - g (x) = x + 1 3 + 1 หรือ 0, 165 x + 2, 184 ลองประมาณโดยใช้วิธีกำลังสองน้อยที่สุด

ในการคำนวณข้อผิดพลาด เราจำเป็นต้องค้นหาผลรวมของการเบี่ยงเบนกำลังสองของข้อมูลจากเส้นตรง σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 และ σ 2 = ∑ i = 1 n (y i - g (x i)) 2 ค่าต่ำสุดจะสอดคล้องกับเส้นที่เหมาะสมกว่า

σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 = = ∑ i = 1 5 (y i - (0, 165 x i + 2, 184)) 2 data 0, 019 σ 2 = ∑ i = 1 n (y i - g (x i)) 2 = = ∑ i = 1 5 (y i - (x i + 1 3 + 1)) 2 data 0.096

คำตอบ:ตั้งแต่ σ 1< σ 2 , то прямой, наилучшим образом аппроксимирующей исходные данные, будет
y = 0.165 x + 2.184

วิธีกำลังสองน้อยที่สุดจะแสดงไว้อย่างชัดเจนในภาพประกอบกราฟิก เส้นสีแดงทำเครื่องหมายเส้นตรง g (x) = x + 1 3 + 1 เส้นสีน้ำเงินทำเครื่องหมาย y = 0, 165 x + 2, 184 ข้อมูลต้นฉบับจะแสดงด้วยจุดสีชมพู

ให้เราอธิบายว่าทำไมจึงต้องมีการประมาณประเภทนี้

สามารถใช้ในงานที่ต้องการการปรับข้อมูลให้เรียบ เช่นเดียวกับงานที่ต้องแก้ไขหรือคาดการณ์ข้อมูล ตัวอย่างเช่น ในปัญหาที่กล่าวถึงข้างต้น เราสามารถหาค่าของปริมาณที่สังเกตได้ y ที่ x = 3 หรือที่ x = 6 เราได้อุทิศบทความแยกต่างหากให้กับตัวอย่างดังกล่าว

หลักฐานของวิธี OLS

เพื่อให้ฟังก์ชันรับค่าต่ำสุดเมื่อคำนวณ a และ b จำเป็นที่จุดที่กำหนดเมทริกซ์ของรูปแบบกำลังสองของส่วนต่างของฟังก์ชันของรูปแบบ F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 เป็นบวกแน่นอน มาดูกันว่าควรมีลักษณะอย่างไร

ตัวอย่างที่ 2

เรามีส่วนต่างลำดับที่สองของแบบฟอร์มต่อไปนี้:

d 2 F (a ; b) = δ 2 F (a ; b) δ a 2 d 2 a + 2 δ 2 F (a ; b) δ a δ b d a d b + δ 2 F (a ; b) δ b 2 d 2ข

สารละลาย

δ 2 F (a ; b) δ a 2 = δ δ F (a ; b) δ a δ a = = δ - 2 ∑ i = 1 n (y i - (a x i + b)) x i δ a = 2 ∑ i = 1 n (x i) 2 δ 2 F (a; b) δ a δ b = δ δ F (a; b) δ a δ b = = δ - 2 ∑ i = 1 n (y i - (a x i + b) ) x i δ b = 2 ∑ i = 1 n x i δ 2 F (a ; b) δ b 2 = δ δ F (a ; b) δ b δ b = δ - 2 ∑ i = 1 n (y i - (a x i + b)) δ b = 2 ∑ i = 1 n (1) = 2 n

กล่าวอีกนัยหนึ่ง เราสามารถเขียนได้ดังนี้: d 2 F (a ; b) = 2 ∑ i = 1 n (x i) 2 d 2 a + 2 2 ∑ x i i = 1 n d a d b + (2 n) d 2 b

เราได้เมทริกซ์ที่มีรูปแบบกำลังสอง M = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n

ในกรณีนี้ค่าของแต่ละองค์ประกอบจะไม่เปลี่ยนแปลงขึ้นอยู่กับ a และ b . เมทริกซ์นี้เป็นค่าบวกแน่นอนหรือไม่? เพื่อตอบคำถามนี้ ลองตรวจสอบว่ารองเชิงมุมของมันเป็นบวกหรือไม่

เราคำนวณตัวรองเชิงมุมของลำดับแรก: 2 ∑ i = 1 n (x i) 2 > 0 เนื่องจากจุด x ฉันไม่ตรง ความไม่เท่าเทียมกันจึงเข้มงวด เราจะจำสิ่งนี้ไว้ในการคำนวณต่อไป

เราคำนวณผู้เยาว์เชิงมุมลำดับที่สอง:

d e t (M) = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n = 4 n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2

หลังจากนี้ เราจะพิสูจน์อสมการ n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 โดยใช้การอุปนัยทางคณิตศาสตร์

  1. ลองตรวจสอบว่าอสมการนี้ใช้ได้กับ n ใดๆ ก็ตามหรือไม่ ลองเอา 2 มาคำนวณ:

2 ∑ ผม = 1 2 (x i) 2 - ∑ ผม = 1 2 x ผม 2 = 2 x 1 2 + x 2 2 - x 1 + x 2 2 = = x 1 2 - 2 x 1 x 2 + x 2 2 = x 1 + x 2 2 > 0

เราได้รับความเท่าเทียมกันที่ถูกต้อง (หากค่า x 1 และ x 2 ไม่ตรงกัน)

  1. ให้เราสมมุติว่าอสมการนี้จะเป็นจริงสำหรับ n นั่นคือ n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 – จริง
  2. ตอนนี้เราจะพิสูจน์ความถูกต้องของ n + 1 เช่น นั่น (n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 > 0, ถ้า n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 .

เราคำนวณ:

(n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 = = (n + 1) ∑ i = 1 n (x i) 2 + x n + 1 2 - ∑ i = 1 n x i + x n + 1 2 = = n ∑ i = 1 n (x i) 2 + n x n + 1 2 + ∑ i = 1 n (x i) 2 + x n + 1 2 - - ∑ i = 1 n x i 2 + 2 x n + 1 ∑ i = 1 n x i + x n + 1 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + n x n + 1 2 - x n + 1 ∑ i = 1 n x i + ∑ i = 1 n (x i) 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + x n + 1 2 - 2 x n + 1 x 1 + x 1 2 + + x n + 1 2 - 2 x n + 1 x 2 + x 2 2 + . - - + xn + 1 2 - 2 xn + 1 x 1 + xn 2 = = n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + + (xn + 1 - x 1) 2 + (x n + 1 - x 2) 2 + . - - + (x n - 1 - x n) 2 > 0

นิพจน์ที่อยู่ในวงเล็บปีกกาจะมากกว่า 0 (ขึ้นอยู่กับสิ่งที่เราสมมติในขั้นตอนที่ 2) และพจน์ที่เหลือจะมากกว่า 0 เนื่องจากล้วนเป็นตัวเลขกำลังสองทั้งหมด เราได้พิสูจน์ความไม่เท่าเทียมกันแล้ว

คำตอบ: a และ b ที่พบจะสอดคล้องกับค่าที่น้อยที่สุดของฟังก์ชัน F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 ซึ่งหมายความว่าพวกมันเป็นพารามิเตอร์ที่ต้องการของวิธีกำลังสองน้อยที่สุด (แอลเอสเอ็ม).

หากคุณสังเกตเห็นข้อผิดพลาดในข้อความ โปรดไฮไลต์แล้วกด Ctrl+Enter

วิธีกำลังสองน้อยที่สุดใช้ในการประมาณค่าพารามิเตอร์ของสมการถดถอย
จำนวนบรรทัด (แหล่งข้อมูล)

วิธีหนึ่งในการศึกษาความสัมพันธ์แบบสุ่มระหว่างคุณลักษณะคือการวิเคราะห์การถดถอย
การวิเคราะห์การถดถอยเป็นที่มาของสมการการถดถอย โดยใช้ค่าเฉลี่ยของตัวแปรสุ่ม (คุณลักษณะผลลัพธ์) ซึ่งสามารถหาได้หากทราบค่าของตัวแปรอื่น (หรืออื่นๆ) (คุณลักษณะปัจจัย) ประกอบด้วยขั้นตอนต่อไปนี้:

  1. การเลือกรูปแบบการเชื่อมต่อ (ประเภทของสมการถดถอยเชิงวิเคราะห์)
  2. การประมาณค่าพารามิเตอร์สมการ
  3. การประเมินคุณภาพของสมการถดถอยเชิงวิเคราะห์
ส่วนใหญ่แล้ว รูปแบบเชิงเส้นจะใช้เพื่ออธิบายความสัมพันธ์ทางสถิติของคุณลักษณะต่างๆ การมุ่งเน้นไปที่ความสัมพันธ์เชิงเส้นอธิบายได้จากการตีความพารามิเตอร์ทางเศรษฐศาสตร์ที่ชัดเจน การแปรผันของตัวแปรที่จำกัด และความจริงที่ว่าในกรณีส่วนใหญ่ของความสัมพันธ์แบบไม่เชิงเส้นจะถูกแปลง (โดยลอการิทึมหรือการแทนที่ตัวแปร) ให้เป็นรูปแบบเชิงเส้นเพื่อทำการคำนวณ .
ในกรณีของความสัมพันธ์เชิงเส้นตรงแบบคู่ สมการการถดถอยจะอยู่ในรูปแบบ: y i =a+b·x i +u i พารามิเตอร์ a และ b ของสมการนี้ประมาณจากข้อมูลการสังเกตทางสถิติ x และ y ผลลัพธ์ของการประเมินดังกล่าวคือสมการ โดยที่ คือค่าประมาณของพารามิเตอร์ a และ b คือค่าของคุณลักษณะผลลัพธ์ (ตัวแปร) ที่ได้รับจากสมการการถดถอย (ค่าที่คำนวณได้)

ส่วนใหญ่มักใช้ในการประมาณค่าพารามิเตอร์ วิธีกำลังสองน้อยที่สุด (LSM)
วิธีกำลังสองน้อยที่สุดให้การประมาณค่าพารามิเตอร์ของสมการถดถอยที่ดีที่สุด (สม่ำเสมอ มีประสิทธิภาพ และไม่เอนเอียง) แต่เฉพาะในกรณีที่เป็นไปตามสมมติฐานบางประการเกี่ยวกับเทอมสุ่ม (u) และตัวแปรอิสระ (x) (ดูสมมติฐาน OLS)

ปัญหาการประมาณค่าพารามิเตอร์ของสมการคู่เชิงเส้นโดยใช้วิธีกำลังสองน้อยที่สุดมีดังต่อไปนี้: เพื่อให้ได้ค่าประมาณของพารามิเตอร์ ซึ่งผลรวมของการเบี่ยงเบนกำลังสองของค่าที่แท้จริงของคุณลักษณะผลลัพธ์ - y ฉัน จากค่าที่คำนวณได้ - มีค่าน้อยที่สุด
อย่างเป็นทางการ เกณฑ์ OLSสามารถเขียนได้ดังนี้: .

การจำแนกวิธีกำลังสองน้อยที่สุด

  1. วิธีกำลังสองน้อยที่สุด
  2. วิธีความน่าจะเป็นสูงสุด (สำหรับแบบจำลองการถดถอยเชิงเส้นแบบคลาสสิกปกติ จะถือว่าค่าปกติของค่าตกค้างของการถดถอย)
  3. วิธี OLS กำลังสองน้อยที่สุดทั่วไปใช้ในกรณีของความสัมพันธ์อัตโนมัติของข้อผิดพลาด และในกรณีของความแตกต่าง
  4. วิธีกำลังสองน้อยที่สุดแบบถ่วงน้ำหนัก (กรณีพิเศษของ OLS ที่มีค่าตกค้างเฮเทอโรเซดาสติก)

เรามาอธิบายประเด็นกันดีกว่า วิธีกำลังสองน้อยที่สุดแบบคลาสสิกแบบกราฟิก- ในการดำเนินการนี้ เราจะสร้างแผนภูมิกระจายตามข้อมูลเชิงสังเกต (x i, y i, i=1;n) ในระบบพิกัดสี่เหลี่ยม (แผนภูมิกระจายดังกล่าวเรียกว่าฟิลด์สหสัมพันธ์) ลองเลือกเส้นตรงที่ใกล้กับจุดของสนามความสัมพันธ์มากที่สุด ตามวิธีกำลังสองน้อยที่สุด เส้นจะถูกเลือกเพื่อให้ผลรวมของกำลังสองของระยะทางแนวตั้งระหว่างจุดของเขตข้อมูลสหสัมพันธ์และเส้นนี้มีค่าน้อยที่สุด

สัญกรณ์ทางคณิตศาสตร์สำหรับปัญหานี้: .
เราทราบค่าของ y i และ x i =1...n ซึ่งเป็นข้อมูลเชิงสังเกต ในฟังก์ชัน S พวกมันแทนค่าคงที่ ตัวแปรในฟังก์ชันนี้เป็นค่าประมาณที่จำเป็นของพารามิเตอร์ - , ในการค้นหาฟังก์ชันขั้นต่ำของตัวแปรสองตัว จำเป็นต้องคำนวณอนุพันธ์ย่อยของฟังก์ชันนี้สำหรับแต่ละพารามิเตอร์และจัดให้เป็นศูนย์ เช่น .
เป็นผลให้เราได้ระบบสมการเชิงเส้นปกติ 2 แบบ:
ในการแก้ปัญหาระบบนี้ เราจะพบการประมาณค่าพารามิเตอร์ที่ต้องการ:

ความถูกต้องของการคำนวณพารามิเตอร์ของสมการถดถอยสามารถตรวจสอบได้โดยการเปรียบเทียบจำนวน (อาจมีความคลาดเคลื่อนบางประการเนื่องจากการปัดเศษของการคำนวณ)
ในการคำนวณค่าประมาณพารามิเตอร์ คุณสามารถสร้างตารางที่ 1 ได้
เครื่องหมายของสัมประสิทธิ์การถดถอย b บ่งบอกถึงทิศทางของความสัมพันธ์ (ถ้า b >0 ความสัมพันธ์จะเป็นทางตรง ถ้า b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
อย่างเป็นทางการ ค่าของพารามิเตอร์ a คือค่าเฉลี่ยของ y โดยที่ x เท่ากับศูนย์ หากแอตทริบิวต์-ปัจจัยไม่มีและไม่สามารถมีค่าเป็นศูนย์ได้ การตีความพารามิเตอร์ a ข้างต้นก็ไม่สมเหตุสมผล

การประเมินความใกล้ชิดของความสัมพันธ์ระหว่างคุณลักษณะ ดำเนินการโดยใช้สัมประสิทธิ์สหสัมพันธ์เชิงเส้นคู่ - r x,y สามารถคำนวณได้โดยใช้สูตร: - นอกจากนี้ ค่าสัมประสิทธิ์สหสัมพันธ์คู่เชิงเส้นสามารถหาได้จากค่าสัมประสิทธิ์การถดถอย b: .
ช่วงของค่าที่ยอมรับได้ของค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นคือตั้งแต่ –1 ถึง +1 สัญลักษณ์ของค่าสัมประสิทธิ์สหสัมพันธ์บ่งบอกถึงทิศทางของความสัมพันธ์ ถ้า r x, y >0 แสดงว่าการเชื่อมต่อเป็นแบบตรง ถ้า r x, y<0, то связь обратная.
หากสัมประสิทธิ์นี้ใกล้เคียงกับความสามัคคีในขนาด ความสัมพันธ์ระหว่างคุณลักษณะต่างๆ ก็สามารถตีความได้ว่าเป็นความสัมพันธ์เชิงเส้นที่ค่อนข้างใกล้เคียงกัน หากโมดูลมีค่าเท่ากับหนึ่ง ê r x , y ê =1 ความสัมพันธ์ระหว่างคุณลักษณะต่างๆ จะเป็นเชิงเส้นเชิงฟังก์ชัน หากจุดสนใจ x และ y มีความเป็นอิสระเชิงเส้น ดังนั้น r x,y จะใกล้เคียงกับ 0
ในการคำนวณ r x,y คุณสามารถใช้ตารางที่ 1 ได้เช่นกัน

ตารางที่ 1

ไม่มีข้อสังเกตx ฉันใช่แล้วx ฉัน ∙y ฉัน
1 x1คุณ 1x 1 ปี 1
2 x2คุณ 2x 2 ปี 2
...
nเอ็กซ์เอ็นใช่x ไม่ ใช่
ผลรวมคอลัมน์∑x∑ใช่∑xy
ค่าเฉลี่ย
เพื่อประเมินคุณภาพของสมการการถดถอยที่เกิดขึ้น ให้คำนวณค่าสัมประสิทธิ์การกำหนดทางทฤษฎี - R 2 yx:

,
โดยที่ d 2 คือความแปรปรวนของ y อธิบายโดยสมการถดถอย
e 2 - ความแปรปรวนของ y ที่เหลือ (ไม่ได้อธิบายโดยสมการถดถอย)
s 2 y - ผลต่างรวม (ทั้งหมด) ของ y
ค่าสัมประสิทธิ์การกำหนดลักษณะสัดส่วนของความแปรผัน (การกระจายตัว) ของคุณลักษณะผลลัพธ์ y อธิบายโดยการถดถอย (และด้วยเหตุนี้ ตัวประกอบ x) ในรูปแบบรวม (การกระจายตัว) y ค่าสัมประสิทธิ์การกำหนด R 2 yx ใช้ค่าตั้งแต่ 0 ถึง 1 ดังนั้นค่า 1-R 2 yx จะแสดงลักษณะของสัดส่วนของความแปรปรวน y ที่เกิดจากอิทธิพลของปัจจัยอื่น ๆ ที่ไม่ได้คำนึงถึงในแบบจำลองและข้อผิดพลาดของข้อกำหนด
ด้วยการถดถอยเชิงเส้นคู่ R 2 yx = r 2 yx

มีการใช้กันอย่างแพร่หลายในเศรษฐมิติในรูปแบบของการตีความพารามิเตอร์ทางเศรษฐกิจที่ชัดเจน

การถดถอยเชิงเส้นลงมาเพื่อค้นหาสมการของรูปแบบ

หรือ

สมการของแบบฟอร์ม อนุญาตตามค่าพารามิเตอร์ที่ระบุ เอ็กซ์มีค่าทางทฤษฎีของลักษณะผลลัพธ์โดยแทนที่ค่าที่แท้จริงของปัจจัยลงไป เอ็กซ์.

การสร้างการถดถอยเชิงเส้นนั้นมาจากการประมาณค่าพารามิเตอร์ - และ วี.การประมาณค่าพารามิเตอร์การถดถอยเชิงเส้นสามารถพบได้โดยใช้วิธีการต่างๆ

วิธีการดั้งเดิมในการประมาณค่าพารามิเตอร์การถดถอยเชิงเส้นนั้นยึดตาม วิธีกำลังสองน้อยที่สุด(เอ็มเอ็นซี).

วิธีกำลังสองน้อยที่สุดช่วยให้เราสามารถประมาณค่าพารามิเตอร์ดังกล่าวได้ และ วีซึ่งผลรวมของการเบี่ยงเบนกำลังสองของค่าที่แท้จริงของลักษณะผลลัพธ์ (ญ)จากการคำนวณ (ทางทฤษฎี) ขั้นต่ำ:

ในการหาค่าต่ำสุดของฟังก์ชัน คุณต้องคำนวณอนุพันธ์ย่อยของพารามิเตอร์แต่ละตัว และ และตั้งค่าให้เท่ากับศูนย์

มาแสดงกันเถอะ ผ่าน S จากนั้น:

การแปลงสูตรเราได้รับระบบสมการปกติต่อไปนี้สำหรับการประมาณค่าพารามิเตอร์ และ วี:

การแก้ระบบสมการปกติ (3.5) ไม่ว่าจะโดยวิธีการกำจัดตัวแปรตามลำดับหรือโดยวิธีการกำหนดเราจะพบการประมาณค่าพารามิเตอร์ที่ต้องการ และ วี.

พารามิเตอร์ วีเรียกว่าสัมประสิทธิ์การถดถอย ค่าของมันแสดงการเปลี่ยนแปลงโดยเฉลี่ยของผลลัพธ์โดยมีการเปลี่ยนแปลงปัจจัยหนึ่งหน่วย

สมการถดถอยจะเสริมด้วยตัวบ่งชี้ความใกล้ชิดของการเชื่อมต่อเสมอ เมื่อใช้การถดถอยเชิงเส้น ตัวบ่งชี้ดังกล่าวคือค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้น มีการปรับเปลี่ยนสูตรสัมประสิทธิ์สหสัมพันธ์เชิงเส้นที่แตกต่างกัน บางส่วนได้รับด้านล่าง:

ดังที่ทราบ ค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นอยู่ภายในขีดจำกัด: -1 1.

เพื่อประเมินคุณภาพของการเลือกฟังก์ชันเชิงเส้น จะมีการคำนวณกำลังสอง

สัมประสิทธิ์สหสัมพันธ์เชิงเส้นที่เรียกว่า ค่าสัมประสิทธิ์การตัดสินใจค่าสัมประสิทธิ์การกำหนดลักษณะสัดส่วนของความแปรปรวนของลักษณะผลลัพธ์ ใช่อธิบายโดยการถดถอย ในความแปรปรวนรวมของลักษณะผลลัพธ์:

ดังนั้น ค่า 1 จึงแสดงถึงส่วนแบ่งของความแปรปรวน ใช่เกิดจากอิทธิพลของปัจจัยอื่นๆ ที่ไม่ได้นำมาพิจารณาในแบบจำลอง

คำถามเพื่อการควบคุมตนเอง

1. สาระสำคัญของวิธีกำลังสองน้อยที่สุด?

2. การถดถอยแบบคู่มีตัวแปรกี่ตัว?

3. ค่าสัมประสิทธิ์ใดกำหนดความใกล้ชิดของการเชื่อมต่อระหว่างการเปลี่ยนแปลง?

4. ค่าสัมประสิทธิ์การตัดสินใจถูกกำหนดไว้ภายในขอบเขตใด?

5. การประมาณค่าพารามิเตอร์ b ในการวิเคราะห์สหสัมพันธ์-การถดถอย?

1. คริสโตเฟอร์ โดเฮอร์ตี้ เศรษฐมิติเบื้องต้น - อ.: INFRA - ม. 2544 - 402 หน้า

2. เอส.เอ. โบโรดิช. เศรษฐมิติ. Minsk LLC "ความรู้ใหม่" 2544


3. ร.ศ. Rakhmetova หลักสูตรระยะสั้นทางเศรษฐมิติ คู่มือการศึกษา อัลมาตี 2004. -78น.

4. II. เอลิเซวา เศรษฐมิติ. - อ.: “การเงินและสถิติ”, 2545

5. ข้อมูลรายเดือนและนิตยสารเชิงวิเคราะห์

แบบจำลองเศรษฐศาสตร์ไม่เชิงเส้น ตัวแบบการถดถอยแบบไม่เชิงเส้น การเปลี่ยนแปลงของตัวแปร

โมเดลเศรษฐกิจไม่เชิงเส้น..

การเปลี่ยนแปลงของตัวแปร

ค่าสัมประสิทธิ์ความยืดหยุ่น

หากมีความสัมพันธ์แบบไม่เชิงเส้นระหว่างปรากฏการณ์ทางเศรษฐกิจ ก็จะแสดงออกมาโดยใช้ฟังก์ชันไม่เชิงเส้นที่สอดคล้องกัน เช่น ไฮเปอร์โบลาด้านเท่ากันหมด , พาราโบลาของระดับที่สอง และอื่น ๆ

การถดถอยแบบไม่เชิงเส้นมีสองประเภท:

1. การถดถอยที่ไม่เชิงเส้นตามตัวแปรอธิบายที่รวมอยู่ในการวิเคราะห์ แต่เป็นเส้นตรงตามพารามิเตอร์ที่ประมาณไว้ เช่น

พหุนามขององศาต่างๆ - , ;

ไฮเปอร์โบลาด้านเท่ากันหมด - ;

ฟังก์ชันเซมิลอการิทึม - .

2. การถดถอยที่ไม่เป็นเชิงเส้นในพารามิเตอร์ที่กำลังประมาณ ตัวอย่างเช่น:

พลัง - ;

สาธิต - ;

เอ็กซ์โปเนนเชียล - .

ผลรวมของการเบี่ยงเบนกำลังสองของแต่ละค่าของลักษณะผลลัพธ์ ที่จากค่าเฉลี่ยนั้นเกิดจากอิทธิพลของหลายสาเหตุ ให้เราแบ่งเหตุผลทั้งหมดออกเป็นสองกลุ่มอย่างมีเงื่อนไข: ปัจจัยที่กำลังศึกษา xและ ปัจจัยอื่นๆ

หากปัจจัยไม่ส่งผลต่อผลลัพธ์ เส้นการถดถอยบนกราฟจะขนานกับแกน โอ้และ

จากนั้นความแปรปรวนทั้งหมดของลักษณะผลลัพธ์นั้นเกิดจากอิทธิพลของปัจจัยอื่น ๆ และผลรวมของการเบี่ยงเบนกำลังสองจะตรงกับค่าคงเหลือ หากปัจจัยอื่นไม่ส่งผลต่อผลลัพธ์แล้ว คุณผูกอยู่กับ เอ็กซ์ตามหน้าที่และผลรวมที่เหลือของกำลังสองเป็นศูนย์ ในกรณีนี้ ผลรวมของการเบี่ยงเบนกำลังสองซึ่งอธิบายโดยการถดถอยจะเท่ากับผลรวมของกำลังสองทั้งหมด

เนื่องจากไม่ใช่ทุกจุดของสนามความสัมพันธ์จะอยู่บนเส้นถดถอย การกระจัดกระจายจึงเกิดขึ้นเสมออันเป็นผลมาจากอิทธิพลของปัจจัย เอ็กซ์นั่นคือการถดถอย ที่โดย เอ็กซ์,และเกิดจากสาเหตุอื่น (ความแปรผันที่ไม่สามารถอธิบายได้) ความเหมาะสมของเส้นการถดถอยในการพยากรณ์ขึ้นอยู่กับส่วนใดของการแปรผันรวมของลักษณะ ที่อธิบายความแปรผันที่อธิบายไว้

แน่นอนว่า หากผลรวมของการเบี่ยงเบนกำลังสองเนื่องจากการถดถอยมากกว่าผลรวมที่เหลือของกำลังสอง สมการการถดถอยจะมีนัยสำคัญทางสถิติและเป็นปัจจัย เอ็กซ์มีผลกระทบอย่างมีนัยสำคัญต่อผลลัพธ์ คุณ

, นั่นคือด้วยจำนวนอิสระของการแปรผันที่เป็นอิสระของคุณลักษณะ จำนวนระดับความเป็นอิสระสัมพันธ์กับจำนวนหน่วยประชากร n และจำนวนค่าคงที่ที่กำหนดจากมัน ในความสัมพันธ์กับปัญหาที่กำลังศึกษา จำนวนระดับความเป็นอิสระควรแสดงจำนวนค่าเบี่ยงเบนอิสระจาก n

การประเมินนัยสำคัญของสมการถดถอยโดยรวมจะใช้ เอฟ-เกณฑ์ชาวประมง ในกรณีนี้ มีการเสนอสมมติฐานว่างว่าสัมประสิทธิ์การถดถอยเท่ากับศูนย์ นั่นคือ ข = 0 และด้วยเหตุนี้จึงเป็นปัจจัย เอ็กซ์ไม่ส่งผลกระทบต่อผลลัพธ์ คุณ

การคำนวณการทดสอบ F ในทันทีนั้นนำหน้าด้วยการวิเคราะห์ความแปรปรวน จุดศูนย์กลางในนั้นถูกครอบครองโดยการสลายตัวของผลรวมของการเบี่ยงเบนกำลังสองของตัวแปร ที่จากค่าเฉลี่ย ที่ออกเป็นสองส่วน - "อธิบาย" และ "ไม่ได้อธิบาย":

- ผลรวมของการเบี่ยงเบนกำลังสอง;

- ผลรวมของการเบี่ยงเบนกำลังสองที่อธิบายโดยการถดถอย

- ผลรวมที่เหลือของการเบี่ยงเบนกำลังสอง

ผลรวมของการเบี่ยงเบนกำลังสองสัมพันธ์กับจำนวนดีกรีอิสระ , นั่นคือด้วยจำนวนอิสระของการแปรผันที่เป็นอิสระของคุณลักษณะ จำนวนองศาอิสระสัมพันธ์กับจำนวนหน่วยประชากร nและด้วยจำนวนค่าคงที่ที่กำหนดจากมัน ในความสัมพันธ์กับปัญหาที่กำลังศึกษา จำนวนระดับความเป็นอิสระควรแสดงจำนวนค่าเบี่ยงเบนอิสระจาก nเป็นไปได้ที่จำเป็นในการสร้างผลรวมของกำลังสองที่กำหนด

การกระจายตัวต่อระดับความเป็นอิสระดี.

อัตราส่วน F (การทดสอบ F):

ถ้าสมมุติฐานว่างเป็นจริงแล้วปัจจัยและความแปรปรวนคงเหลือไม่แตกต่างกัน สำหรับ H 0 จำเป็นต้องมีการพิสูจน์เพื่อให้การกระจายตัวของปัจจัยเกินการกระจายตัวของสารตกค้างหลายครั้ง Snedekor นักสถิติชาวอังกฤษได้พัฒนาตารางค่าวิกฤต เอฟ-ความสัมพันธ์ในระดับนัยสำคัญต่างๆ ของสมมติฐานว่างและระดับความเป็นอิสระที่แตกต่างกัน ค่าตาราง เอฟ-เกณฑ์คือค่าสูงสุดของอัตราส่วนของความแปรปรวนที่สามารถเกิดขึ้นได้ในกรณีของความแตกต่างแบบสุ่มสำหรับระดับความน่าจะเป็นของการมีอยู่ของสมมติฐานที่เป็นโมฆะ ค่าที่คำนวณได้ เอฟ-ความสัมพันธ์จะถือว่าเชื่อถือได้ถ้า o มากกว่าตาราง

ในกรณีนี้ สมมติฐานว่างเกี่ยวกับการไม่มีความสัมพันธ์ระหว่างสัญญาณต่างๆ จะถูกปฏิเสธ และได้ข้อสรุปเกี่ยวกับความสำคัญของความสัมพันธ์นี้: F ข้อเท็จจริง > ตาราง F H 0 ถูกปฏิเสธ

หากค่าน้อยกว่าตาราง F ข้อเท็จจริง ‹, ตาราง Fดังนั้นความน่าจะเป็นของสมมติฐานว่างจะสูงกว่าระดับที่ระบุและไม่สามารถปฏิเสธได้หากไม่มีความเสี่ยงร้ายแรงในการสรุปข้อสรุปที่ผิดเกี่ยวกับการมีอยู่ของความสัมพันธ์ ในกรณีนี้ สมการการถดถอยถือว่าไม่มีนัยสำคัญทางสถิติ แต่เขาไม่เบี่ยงเบน

ค่าคลาดเคลื่อนมาตรฐานของสัมประสิทธิ์การถดถอย

เพื่อประเมินความสำคัญของสัมประสิทธิ์การถดถอย ค่าของมันจะถูกเปรียบเทียบกับข้อผิดพลาดมาตรฐาน เช่น กำหนดค่าจริง ที-แบบทดสอบของนักเรียน: ซึ่งนำไปเปรียบเทียบกับค่าตารางในระดับนัยสำคัญและจำนวนระดับความเป็นอิสระ ( n- 2).

ข้อผิดพลาดของพารามิเตอร์มาตรฐาน :

ความสำคัญของค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นได้รับการตรวจสอบตามขนาดของข้อผิดพลาด ค่าสัมประสิทธิ์สหสัมพันธ์ ทีอาร์:

ความแปรปรวนลักษณะรวม เอ็กซ์:

การถดถอยเชิงเส้นพหุคูณ

การสร้างแบบจำลอง

การถดถอยหลายครั้งแสดงถึงการถดถอยของคุณลักษณะที่มีประสิทธิผลด้วยปัจจัยตั้งแต่ 2 ตัวขึ้นไป เช่น แบบจำลองของแบบฟอร์ม

การถดถอยสามารถให้ผลลัพธ์ที่ดีในการสร้างแบบจำลองได้ หากสามารถละเลยอิทธิพลของปัจจัยอื่นที่ส่งผลต่อวัตถุประสงค์ของการศึกษาได้ ไม่สามารถควบคุมพฤติกรรมของตัวแปรทางเศรษฐกิจแต่ละตัวได้ กล่าวคือ ไม่สามารถรับประกันความเท่าเทียมกันของเงื่อนไขอื่น ๆ ทั้งหมดในการประเมินอิทธิพลของปัจจัยหนึ่งที่อยู่ในการศึกษา ในกรณีนี้ คุณควรพยายามระบุอิทธิพลของปัจจัยอื่นๆ ด้วยการนำปัจจัยเหล่านั้นเข้าไปในแบบจำลอง เช่น สร้างสมการการถดถอยพหุคูณ: y = a+b 1 x 1 +b 2 +…+b p x p + .

เป้าหมายหลักของการถดถอยพหุคูณคือการสร้างแบบจำลองที่มีปัจจัยจำนวนมาก ในขณะเดียวกันก็กำหนดอิทธิพลของปัจจัยแต่ละอย่างแยกกัน รวมถึงผลกระทบรวมที่มีต่อตัวบ่งชี้ที่เป็นแบบจำลอง ข้อกำหนดของแบบจำลองประกอบด้วยประเด็นสองช่วง ได้แก่ การเลือกปัจจัย และการเลือกประเภทของสมการการถดถอย

วิธีกำลังสองน้อยที่สุด

วิธีกำลังสองน้อยที่สุด ( OLS, OLS, กำลังสองน้อยสุดสามัญ) - หนึ่งในวิธีพื้นฐานของการวิเคราะห์การถดถอยสำหรับการประมาณค่าพารามิเตอร์ที่ไม่รู้จักของแบบจำลองการถดถอยโดยใช้ข้อมูลตัวอย่าง วิธีการนี้ขึ้นอยู่กับการลดผลรวมของกำลังสองของเศษที่เหลือจากการถดถอยให้เหลือน้อยที่สุด

ควรสังเกตว่าวิธีกำลังสองน้อยที่สุดนั้นสามารถเรียกได้ว่าเป็นวิธีการในการแก้ปัญหาในพื้นที่ใดๆ ถ้าการแก้ปัญหาเป็นไปตามหรือเป็นไปตามเกณฑ์บางประการในการลดผลรวมของกำลังสองของฟังก์ชันบางอย่างของตัวแปรที่ต้องการให้เหลือน้อยที่สุด ดังนั้น วิธีกำลังสองน้อยที่สุดยังสามารถใช้สำหรับการประมาณค่า (การประมาณ) ของฟังก์ชันที่กำหนดโดยฟังก์ชันอื่น (ที่ง่ายกว่า) เมื่อค้นหาชุดของปริมาณที่เป็นไปตามสมการหรือข้อจำกัด ซึ่งจำนวนเกินจำนวนเหล่านี้ ฯลฯ

สาระสำคัญของ MNC

ให้แบบจำลอง (พาราเมตริก) ของความสัมพันธ์ความน่าจะเป็น (การถดถอย) ระหว่างตัวแปร (อธิบาย) ได้รับ และปัจจัยหลายประการ (ตัวแปรอธิบาย) x

เวกเตอร์ของพารามิเตอร์แบบจำลองที่ไม่รู้จักอยู่ที่ไหน

- ข้อผิดพลาดของโมเดลแบบสุ่ม

ให้มีการสังเกตตัวอย่างค่าของตัวแปรเหล่านี้ด้วย อนุญาต เป็นหมายเลขสังเกต () จากนั้นเป็นค่าของตัวแปรในการสังเกตครั้งที่ 3 จากนั้นสำหรับค่าที่กำหนดของพารามิเตอร์ b คุณสามารถคำนวณค่าทางทฤษฎี (แบบจำลอง) ของตัวแปรที่อธิบาย y:

ขนาดของสิ่งตกค้างขึ้นอยู่กับค่าของพารามิเตอร์ b

สาระสำคัญของวิธีกำลังสองน้อยที่สุด (ธรรมดา, คลาสสิก) คือการค้นหาพารามิเตอร์ดังกล่าว b ซึ่งผลรวมของกำลังสองของส่วนที่เหลือ (อังกฤษ. ผลรวมที่เหลือของกำลังสอง) จะน้อยที่สุด:

ในกรณีทั่วไป ปัญหานี้สามารถแก้ไขได้โดยวิธีการปรับให้เหมาะสมเชิงตัวเลข (การย่อขนาด) ในกรณีนี้พวกเขาพูดถึง กำลังสองน้อยที่สุดแบบไม่เชิงเส้น(NLS หรือ NLLS - ภาษาอังกฤษ) กำลังสองน้อยที่สุดที่ไม่ใช่เชิงเส้น- ในหลายกรณี เป็นไปได้ที่จะได้รับโซลูชันเชิงวิเคราะห์ ในการแก้ปัญหาการย่อเล็กสุดจำเป็นต้องค้นหาจุดที่คงที่ของฟังก์ชันโดยสร้างความแตกต่างด้วยพารามิเตอร์ที่ไม่รู้จัก b เท่ากับอนุพันธ์ให้เป็นศูนย์และแก้ระบบสมการผลลัพธ์:

หากข้อผิดพลาดแบบสุ่มของแบบจำลองมีการกระจายตามปกติ มีความแปรปรวนเท่ากัน และไม่มีความสัมพันธ์กัน การประมาณค่าพารามิเตอร์ OLS จะเหมือนกับการประมาณโอกาสสูงสุด (MLM)

OLS ในกรณีของโมเดลเชิงเส้น

ปล่อยให้การพึ่งพาการถดถอยเป็นเส้นตรง:

อนุญาต เป็นเวกเตอร์คอลัมน์ของการสังเกตของตัวแปรที่อธิบายและเป็นเมทริกซ์ของการสังเกตปัจจัย (แถวของเมทริกซ์เป็นเวกเตอร์ของค่าตัวประกอบในการสังเกตที่กำหนด คอลัมน์เป็นเวกเตอร์ของค่าของปัจจัยที่กำหนด ในการสังเกตทั้งหมด) การแสดงเมทริกซ์ของโมเดลเชิงเส้นคือ:

จากนั้นเวกเตอร์ของการประมาณค่าของตัวแปรที่อธิบายและเวกเตอร์ของเศษการถดถอยจะเท่ากัน

ดังนั้นผลรวมของกำลังสองของเศษการถดถอยจะเท่ากับ

การแยกฟังก์ชันนี้ด้วยความเคารพต่อเวกเตอร์ของพารามิเตอร์และการทำให้อนุพันธ์เป็นศูนย์เราจะได้ระบบสมการ (ในรูปแบบเมทริกซ์):

.

การแก้ระบบสมการนี้ให้สูตรทั่วไปสำหรับการประมาณค่ากำลังสองน้อยที่สุดสำหรับแบบจำลองเชิงเส้น:

เพื่อวัตถุประสงค์ในการวิเคราะห์ การแสดงสูตรหลังนี้มีประโยชน์ หากอยู่ในแบบจำลองการถดถอยข้อมูล อยู่ตรงกลางจากนั้นในการแทนค่านี้ เมทริกซ์ตัวแรกมีความหมายของเมทริกซ์ความแปรปรวนร่วมตัวอย่างของปัจจัย และเมทริกซ์ตัวที่สองคือเวกเตอร์ของความแปรปรวนร่วมของปัจจัยที่มีตัวแปรตาม หากนอกเหนือจากข้อมูลแล้วยัง ทำให้เป็นมาตรฐานถึง MSE (นั่นคือท้ายที่สุดแล้ว ได้มาตรฐาน) จากนั้นเมทริกซ์แรกมีความหมายของเมทริกซ์ความสัมพันธ์ตัวอย่างของปัจจัย เวกเตอร์ที่สอง - เวกเตอร์ของความสัมพันธ์ตัวอย่างของปัจจัยกับตัวแปรตาม

คุณสมบัติที่สำคัญของการประมาณค่า OLS สำหรับแบบจำลอง มีค่าคงที่- เส้นการถดถอยที่สร้างขึ้นจะผ่านจุดศูนย์ถ่วงของข้อมูลตัวอย่าง นั่นคือมีความเท่าเทียมกัน:

โดยเฉพาะอย่างยิ่ง ในกรณีที่รุนแรง เมื่อตัวถดถอยตัวเดียวเป็นค่าคงที่ เราจะพบว่าการประมาณค่า OLS ของพารามิเตอร์ตัวเดียว (ค่าคงที่นั้นเอง) เท่ากับค่าเฉลี่ยของตัวแปรที่อธิบาย นั่นคือค่าเฉลี่ยเลขคณิตซึ่งเป็นที่รู้จักในเรื่องคุณสมบัติที่ดีจากกฎของจำนวนจำนวนมากก็เป็นค่าประมาณกำลังสองน้อยที่สุดเช่นกันซึ่งเป็นไปตามเกณฑ์ของผลรวมขั้นต่ำของการเบี่ยงเบนกำลังสองจากนั้น

ตัวอย่าง: การถดถอยที่ง่ายที่สุด (ตามคู่)

ในกรณีของการถดถอยเชิงเส้นแบบคู่ สูตรการคำนวณจะง่ายขึ้น (คุณสามารถทำได้โดยไม่ต้องใช้พีชคณิตเมทริกซ์):

คุณสมบัติของตัวประมาณค่า OLS

ก่อนอื่น เราทราบว่าสำหรับโมเดลเชิงเส้น การประมาณค่า OLS เป็นการประมาณเชิงเส้น ดังต่อไปนี้จากสูตรข้างต้น สำหรับการประมาณค่า OLS ที่เป็นกลาง มีความจำเป็นและเพียงพอในการตอบสนองเงื่อนไขที่สำคัญที่สุดของการวิเคราะห์การถดถอย: ความคาดหวังทางคณิตศาสตร์ของข้อผิดพลาดแบบสุ่มตามเงื่อนไขของปัจจัย จะต้องเท่ากับศูนย์ โดยเฉพาะอย่างยิ่งเงื่อนไขนี้จะเป็นที่พอใจหาก

  1. ความคาดหวังทางคณิตศาสตร์ของข้อผิดพลาดแบบสุ่มคือศูนย์ และ
  2. ปัจจัยและข้อผิดพลาดแบบสุ่มเป็นตัวแปรสุ่มอิสระ

เงื่อนไขที่สอง - เงื่อนไขของปัจจัยภายนอก - เป็นเงื่อนไขพื้นฐาน หากไม่ตรงตามคุณสมบัตินี้ เราสามารถสรุปได้ว่าการประมาณการเกือบทั้งหมดจะไม่เป็นที่น่าพอใจอย่างยิ่ง โดยจะไม่สอดคล้องกันด้วยซ้ำ (นั่นคือ แม้แต่ข้อมูลจำนวนมากก็ไม่อนุญาตให้เรารับการประมาณการคุณภาพสูงในกรณีนี้ ). ในกรณีคลาสสิก มีการตั้งสมมติฐานที่หนักแน่นกว่าเกี่ยวกับการกำหนดปัจจัยต่างๆ ซึ่งตรงข้ามกับข้อผิดพลาดแบบสุ่ม ซึ่งหมายความว่าเป็นไปตามเงื่อนไขภายนอกโดยอัตโนมัติ ในกรณีทั่วไป เพื่อความสอดคล้องของการประมาณการ ก็เพียงพอแล้วที่จะเป็นไปตามเงื่อนไขภายนอกร่วมกับการลู่เข้าของเมทริกซ์กับเมทริกซ์ที่ไม่ใช่เอกพจน์เมื่อขนาดตัวอย่างเพิ่มขึ้นจนถึงค่าอนันต์

เพื่อให้ นอกจากความสม่ำเสมอและความเป็นกลางแล้ว การประมาณค่ากำลังสองน้อยที่สุด (ปกติ) ให้มีประสิทธิภาพด้วย (ค่าที่ดีที่สุดในกลุ่มการประมาณค่าที่ไม่เอนเอียงเชิงเส้น) จะต้องมีคุณสมบัติเพิ่มเติมของข้อผิดพลาดแบบสุ่ม:

สมมติฐานเหล่านี้สามารถกำหนดสูตรสำหรับเมทริกซ์ความแปรปรวนร่วมของเวกเตอร์ข้อผิดพลาดแบบสุ่มได้

เรียกว่าแบบจำลองเชิงเส้นที่ตรงตามเงื่อนไขเหล่านี้ คลาสสิค- การประมาณค่า OLS สำหรับการถดถอยเชิงเส้นแบบคลาสสิกนั้นมีความเป็นกลาง สม่ำเสมอ และมีประสิทธิภาพมากที่สุดในกลุ่มของการประมาณค่าที่ไม่เอนเอียงเชิงเส้นทั้งหมด (ในวรรณคดีอังกฤษ บางครั้งจะใช้ตัวย่อ สีฟ้า (ตัวประมาณค่าเชิงเส้นแบบไม่มีฐานที่ดีที่สุด) - การประมาณค่าที่เป็นกลางเชิงเส้นที่ดีที่สุด ในวรรณคดีรัสเซียมักอ้างถึงทฤษฎีบทเกาส์-มาร์คอฟ) ตามที่แสดงได้ง่าย เมทริกซ์ความแปรปรวนร่วมของเวกเตอร์ของการประมาณค่าสัมประสิทธิ์จะเท่ากับ:

OLS ทั่วไป

วิธีกำลังสองน้อยที่สุดทำให้สามารถสรุปได้กว้างๆ แทนที่จะลดผลรวมของกำลังสองของส่วนที่เหลือให้เหลือน้อยที่สุด เราสามารถลดรูปแบบกำลังสองที่แน่นอนของเวกเตอร์ของส่วนที่เหลือให้เหลือน้อยที่สุด โดยที่เมทริกซ์น้ำหนักแน่นอนเชิงบวกแบบสมมาตรบางตัว กำลังสองน้อยที่สุดแบบธรรมดาเป็นกรณีพิเศษของแนวทางนี้ โดยที่เมทริกซ์น้ำหนักจะเป็นสัดส่วนกับเมทริกซ์เอกลักษณ์ ดังที่ทราบจากทฤษฎีเมทริกซ์สมมาตร (หรือตัวดำเนินการ) สำหรับเมทริกซ์ดังกล่าวจะมีการสลายตัว ดังนั้น ฟังก์ชันที่ระบุจึงสามารถแสดงได้ดังต่อไปนี้ กล่าวคือ ฟังก์ชันนี้สามารถแสดงเป็นผลรวมของกำลังสองของ "เศษที่เหลือ" ที่ถูกแปลงบางส่วน ดังนั้นเราจึงสามารถแยกแยะคลาสของวิธีกำลังสองน้อยที่สุดได้ - วิธี LS (กำลังสองน้อยที่สุด)

ได้รับการพิสูจน์แล้ว (ทฤษฎีบทของเอตเคน) ว่าสำหรับแบบจำลองการถดถอยเชิงเส้นทั่วไป (ซึ่งไม่มีข้อจำกัดใดๆ กำหนดไว้กับเมทริกซ์ความแปรปรวนร่วมของข้อผิดพลาดแบบสุ่ม) สิ่งที่เรียกว่าการประมาณการที่มีประสิทธิผลมากที่สุด (ในกลุ่มของการประมาณค่าที่ไม่เอนเอียงเชิงเส้น) กำลังสองน้อยที่สุดทั่วไป (GLS - กำลังสองน้อยที่สุดทั่วไป)- วิธี LS ที่มีเมทริกซ์น้ำหนักเท่ากับเมทริกซ์ความแปรปรวนร่วมผกผันของข้อผิดพลาดแบบสุ่ม:

จะเห็นได้ว่าสูตรสำหรับการประมาณค่าพารามิเตอร์ของแบบจำลองเชิงเส้นของ GLS มีรูปแบบ

เมทริกซ์ความแปรปรวนร่วมของการประมาณค่าเหล่านี้จะเท่ากับตามนั้น

ในความเป็นจริง สาระสำคัญของ OLS อยู่ที่การแปลง (P) บางอย่าง (เชิงเส้น) ของข้อมูลต้นฉบับและการประยุกต์ใช้ OLS ธรรมดากับข้อมูลที่แปลงแล้ว วัตถุประสงค์ของการแปลงนี้คือ สำหรับข้อมูลที่แปลงแล้ว ข้อผิดพลาดแบบสุ่มเป็นไปตามสมมติฐานดั้งเดิมอยู่แล้ว

OLS แบบถ่วงน้ำหนัก

ในกรณีของเมทริกซ์น้ำหนักแนวทแยง (และด้วยเหตุนี้จึงเป็นเมทริกซ์ความแปรปรวนร่วมของข้อผิดพลาดแบบสุ่ม) เราจะเรียกว่ากำลังสองน้อยที่สุดแบบถ่วงน้ำหนัก (WLS) ในกรณีนี้ ผลรวมถ่วงน้ำหนักของกำลังสองของส่วนที่เหลือของแบบจำลองจะลดลง กล่าวคือ การสังเกตแต่ละครั้งจะได้รับ "น้ำหนัก" ซึ่งเป็นสัดส่วนผกผันกับความแปรปรวนของข้อผิดพลาดแบบสุ่มในการสังเกตนี้: ข้อมูลจะถูกแปลงโดยการถ่วงน้ำหนักการสังเกต (หารด้วยจำนวนที่เป็นสัดส่วนกับค่าเบี่ยงเบนมาตรฐานโดยประมาณของข้อผิดพลาดแบบสุ่ม) และ OLS ธรรมดาจะถูกนำไปใช้กับข้อมูลที่ถ่วงน้ำหนัก

กรณีพิเศษบางประการของการใช้ MNC ในทางปฏิบัติ

การประมาณของการพึ่งพาเชิงเส้น

ให้เราพิจารณากรณีที่เป็นผลจากการศึกษาการพึ่งพาปริมาณสเกลาร์บางอย่างกับปริมาณสเกลาร์ที่แน่นอน (เช่น การพึ่งพาแรงดันไฟฟ้าต่อความแรงของกระแส: ที่ไหน เป็นค่าคงที่ ความต้านทานของ ตัวนำ) ทำการวัดปริมาณเหล่านี้ซึ่งเป็นผลมาจากค่าและค่าที่สอดคล้องกัน ข้อมูลการวัดจะต้องบันทึกไว้ในตาราง

โต๊ะ. ผลการวัด

หมายเลขการวัด
1
2
3
4
5
6

คำถามคือ: สามารถเลือกค่าสัมประสิทธิ์ใดเพื่ออธิบายการพึ่งพาได้ดีที่สุด? ตามวิธีกำลังสองน้อยที่สุดค่านี้ควรเป็นผลรวมของการเบี่ยงเบนกำลังสองของค่าจากค่า

น้อยที่สุด

ผลรวมของการเบี่ยงเบนกำลังสองจะมีค่าสูงสุดหนึ่งค่า - ค่าต่ำสุดซึ่งทำให้เราสามารถใช้สูตรนี้ได้ ให้เราค้นหาค่าของสัมประสิทธิ์จากสูตรนี้ เมื่อต้องการทำเช่นนี้ เราแปลงด้านซ้ายดังนี้:

สูตรสุดท้ายช่วยให้เราสามารถหาค่าสัมประสิทธิ์ซึ่งเป็นค่าที่จำเป็นในโจทย์ได้

เรื่องราว

จนกระทั่งต้นศตวรรษที่ 19 นักวิทยาศาสตร์ไม่มีกฎเกณฑ์ที่แน่นอนในการแก้ระบบสมการซึ่งจำนวนไม่ทราบค่าน้อยกว่าจำนวนสมการ ก่อนหน้านั้นมีการใช้เทคนิคส่วนตัวซึ่งขึ้นอยู่กับประเภทของสมการและความเฉลียวฉลาดของเครื่องคิดเลข ดังนั้นเครื่องคิดเลขที่แตกต่างกันซึ่งใช้ข้อมูลเชิงสังเกตเดียวกันจึงได้ข้อสรุปที่ต่างกัน Gauss (1795) เป็นคนแรกที่ใช้วิธีการนี้ และ Legendre (1805) ค้นพบและเผยแพร่โดยอิสระภายใต้ชื่อสมัยใหม่ (ฝรั่งเศส. Méthode des moindres quarrés - ลาปลาซเชื่อมโยงวิธีการนี้เข้ากับทฤษฎีความน่าจะเป็น และนักคณิตศาสตร์ชาวอเมริกัน แอดเรน (1808) ได้พิจารณาการประยุกต์ใช้ทฤษฎีความน่าจะเป็นของมัน วิธีการนี้แพร่หลายและปรับปรุงโดยการวิจัยเพิ่มเติมโดย Encke, Bessel, Hansen และคนอื่นๆ

การใช้ทางเลือกอื่นของ OLS

แนวคิดของวิธีกำลังสองน้อยที่สุดยังสามารถใช้ในกรณีอื่นที่ไม่เกี่ยวข้องโดยตรงกับการวิเคราะห์การถดถอย ความจริงก็คือผลรวมของกำลังสองเป็นหนึ่งในการวัดความใกล้ชิดที่ใช้กันทั่วไปสำหรับเวกเตอร์ (เมตริกแบบยูคลิดในปริภูมิมิติจำกัด)

แอปพลิเคชั่นหนึ่งคือ “คำตอบ” ของระบบสมการเชิงเส้นซึ่งจำนวนสมการมากกว่าจำนวนตัวแปร

โดยที่เมทริกซ์ไม่ใช่สี่เหลี่ยมจัตุรัส แต่เป็นขนาดสี่เหลี่ยมจัตุรัส .

ในกรณีทั่วไป ระบบสมการดังกล่าวไม่มีวิธีแก้ปัญหา (หากอันดับนั้นมากกว่าจำนวนตัวแปรจริงๆ) ดังนั้น ระบบนี้สามารถ "แก้ไข" ได้เฉพาะในแง่ของการเลือกเวกเตอร์ดังกล่าวเพื่อลด "ระยะห่าง" ระหว่างเวกเตอร์และ ในการทำเช่นนี้ คุณสามารถใช้เกณฑ์ในการลดผลรวมของกำลังสองของความแตกต่างระหว่างด้านซ้ายและด้านขวาของสมการของระบบได้ กล่าวคือ เป็นเรื่องง่ายที่จะแสดงให้เห็นว่าการแก้ปัญหาการย่อเล็กสุดนี้นำไปสู่การแก้ระบบสมการต่อไปนี้