Nhiều mối tương quan tuyến tính. Hai biến độc lập

Việc xây dựng hồi quy tuyến tính, đánh giá các tham số của nó và tầm quan trọng của chúng có thể được thực hiện nhanh hơn nhiều khi sử dụng gói phân tích Excel (Regression). Chúng ta hãy xem xét việc giải thích kết quả thu được trong trường hợp chung ( k biến giải thích) theo ví dụ 3.6.

trong bảng thống kê hồi quy các giá trị sau được đưa ra:

Nhiều R – hệ số tương quan bội;

R- quảng trường– hệ số xác định R 2 ;

Chuẩn hóa R - quảng trường– điều chỉnh R 2 được điều chỉnh theo số bậc tự do;

Lỗi tiêu chuẩn– sai số chuẩn hồi quy S;

Quan sát – số lượng quan sát N.

trong bảng Phân tích phương saiđược đưa ra:

1. Cột df - số bậc tự do bằng

cho chuỗi Hồi quy df = k;

cho chuỗi còn lạidf = Nk – 1;

cho chuỗi Tổng cộngdf = N– 1.

2. Cột SS – tổng độ lệch bình phương bằng

cho chuỗi Hồi quy ;

cho chuỗi còn lại ;

cho chuỗi Tổng cộng .

3. Cột bệnh đa xơ cứng phương sai được xác định theo công thức bệnh đa xơ cứng = SS/df:

cho chuỗi Hồi quy– sự phân tán yếu tố;

cho chuỗi còn lại- phương sai dư.

4. Cột F - giá trị tính toán F-tiêu chí được tính bằng công thức

F = bệnh đa xơ cứng(hồi quy)/ bệnh đa xơ cứng(phần còn lại).

5. Cột Ý nghĩa F – giá trị mức ý nghĩa tương ứng với giá trị tính toán F-thống kê .

Ý nghĩa F= FDIST( F- thống kê, df(hồi quy), df(phần còn lại)).

Nếu ý nghĩa F < стандартного уровня значимости, то R 2 có ý nghĩa thống kê.

Tỷ lệ cược Lỗi tiêu chuẩn thống kê t giá trị P Dưới 95% 95% hàng đầu
Y 65,92 11,74 5,61 0,00080 38,16 93,68
X 0,107 0,014 7,32 0,00016 0,0728 0,142

Bảng này cho thấy:

1. Tỷ lệ cược– giá trị hệ số Một, b.

2. Lỗi tiêu chuẩn– sai số chuẩn của hệ số hồi quy S a, S b.



3. t- thống kê– giá trị tính toán t - Chỉ tiêu tính theo công thức:

t-statistic = Hệ số/Sai số chuẩn.

4.R-giá trị (ý nghĩa t) là giá trị mức ý nghĩa tương ứng với giá trị được tính toán t- số liệu thống kê.

R-giá trị = NGHIÊN CỨU(t-thống kê, df(phần còn lại)).

Nếu như R-nghĩa< стандартного уровня значимости, то соответствующий коэффициент статистически значим.

5. 95% dưới cùng và 95% trên cùng– giới hạn dưới và giới hạn trên của khoảng tin cậy 95% đối với các hệ số của phương trình hồi quy tuyến tính lý thuyết.

RÚT TIỀN Phần còn lại
Quan sát Dự đoán y dư lượng e
72,70 -29,70
82,91 -20,91
94,53 -4,53
105,72 5,27
117,56 12,44
129,70 19,29
144,22 20,77
166,49 24,50
268,13 -27,13

trong bảng RÚT TIỀN Phần còn lại chỉ ra:

trong cột Quan sát- số quan sát;

trong cột được báo trước y – giá trị tính toán của biến phụ thuộc;

trong cột Thức ăn thừa e – chênh lệch giữa giá trị quan sát và giá trị tính toán của biến phụ thuộc.

Ví dụ 3.6. Có dữ liệu (đơn vị thông thường) về chi phí thực phẩm y và thu nhập bình quân đầu người x cho chín nhóm gia đình:

x
y

Sử dụng kết quả của gói phân tích Excel (Regression), chúng ta sẽ phân tích sự phụ thuộc của chi phí lương thực vào thu nhập bình quân đầu người.

Kết quả phân tích hồi quy thường được viết dưới dạng:

trong đó sai số chuẩn của các hệ số hồi quy được ghi trong ngoặc đơn.

Hệ số hồi quy MỘT = 65,92 và b= 0,107. Hướng giao tiếp giữa yx xác định dấu của hệ số hồi quy b= 0,107, tức là kết nối là trực tiếp và tích cực. hệ số b= 0,107 cho thấy thu nhập bình quân đầu người tăng thêm 1 lần như thường lệ. đơn vị chi phí thực phẩm tăng 0,107 đơn vị thông thường. đơn vị

Chúng ta hãy đánh giá ý nghĩa của các hệ số của mô hình kết quả. Ý nghĩa của các hệ số ( một, b) được kiểm tra bởi t-Bài kiểm tra:

Giá trị P ( Một) = 0,00080 < 0,01 < 0,05

Giá trị P ( b) = 0,00016 < 0,01 < 0,05,

do đó, các hệ số ( một, b) có ý nghĩa ở mức ý nghĩa 1% và thậm chí còn cao hơn ở mức ý nghĩa 5%. Như vậy, các hệ số hồi quy là có ý nghĩa và mô hình phù hợp với dữ liệu gốc.

Các kết quả ước lượng hồi quy không chỉ tương thích với các giá trị thu được của các hệ số hồi quy mà còn tương thích với một tập hợp nhất định của chúng (khoảng tin cậy). Với xác suất 95%, khoảng tin cậy cho các hệ số là (38,16 – 93,68) cho Một và (0,0728 – 0,142) cho b.

Chất lượng của mô hình được đánh giá bằng hệ số xác định R 2 .

Kích cỡ R 2 = 0,884 có nghĩa là hệ số thu nhập bình quân đầu người có thể giải thích 88,4% sự biến động (phân tán) trong chi phí thực phẩm.

Ý nghĩa R 2 được kiểm tra bởi F- kiểm tra: ý nghĩa F = 0,00016 < 0,01 < 0,05, следовательно, R 2 có ý nghĩa ở mức ý nghĩa 1% và thậm chí còn cao hơn ở mức ý nghĩa 5%.

Trong trường hợp hồi quy tuyến tính theo cặp, hệ số tương quan có thể được định nghĩa là . Giá trị hệ số tương quan thu được cho thấy mối quan hệ giữa chi phí lương thực thực phẩm và thu nhập bình quân đầu người là rất chặt chẽ.

Phân tích hồi quy là một phương pháp nghiên cứu thống kê cho phép bạn chỉ ra sự phụ thuộc của một tham số cụ thể vào một hoặc nhiều biến độc lập. Trong thời kỳ tiền máy tính, việc sử dụng nó khá khó khăn, đặc biệt là khi có khối lượng dữ liệu lớn. Ngày nay, sau khi học cách xây dựng hồi quy trong Excel, bạn có thể giải quyết các vấn đề thống kê phức tạp chỉ trong vài phút. Dưới đây là những ví dụ cụ thể từ lĩnh vực kinh tế.

Các loại hồi quy

Bản thân khái niệm này đã được đưa vào toán học vào năm 1886. Hồi quy xảy ra:

  • tuyến tính;
  • parabol;
  • nghiêm trang;
  • hàm mũ;
  • hyperbol;
  • biểu tình;
  • logarit.

Ví dụ 1

Xét bài toán xác định sự phụ thuộc của số lượng thành viên trong nhóm nghỉ việc vào mức lương bình quân tại 6 doanh nghiệp công nghiệp.

Nhiệm vụ. Tại sáu doanh nghiệp, mức lương bình quân tháng và số lượng nhân viên tự nguyện nghỉ việc được phân tích. Ở dạng bảng ta có:

Số người bỏ cuộc

Lương

30.000 rúp

35.000 rúp

40.000 rúp

45.000 rúp

50.000 rúp

55.000 rúp

60.000 rúp

Để xác định sự phụ thuộc của số lao động nghỉ việc vào mức lương bình quân tại 6 doanh nghiệp, mô hình hồi quy có dạng phương trình Y = a 0 + a 1 x 1 +...+a k x k, trong đó x i là các biến ảnh hưởng, a i là hệ số hồi quy và k là số lượng nhân tố.

Đối với bài toán này, Y là chỉ số về số lượng nhân viên nghỉ việc và yếu tố ảnh hưởng là tiền lương, được ký hiệu là X.

Sử dụng các khả năng của bộ xử lý bảng tính Excel

Phân tích hồi quy trong Excel phải được thực hiện trước bằng cách áp dụng các hàm dựng sẵn cho dữ liệu dạng bảng hiện có. Tuy nhiên, với những mục đích này, tốt hơn hết bạn nên sử dụng tiện ích bổ sung “Gói phân tích” rất hữu ích. Để kích hoạt nó, bạn cần:

  • từ tab “Tệp”, hãy chuyển đến phần “Tùy chọn”;
  • trong cửa sổ mở ra, chọn dòng “Tiện ích bổ sung”;
  • nhấp vào nút “Đi” nằm bên dưới, bên phải dòng “Quản lý”;
  • đánh dấu vào ô bên cạnh tên “Gói phân tích” và xác nhận hành động của bạn bằng cách nhấp vào “Ok”.

Nếu mọi thứ được thực hiện chính xác, nút bắt buộc sẽ xuất hiện ở phía bên phải của tab “Dữ liệu”, nằm phía trên bảng tính Excel.

trong Excel

Bây giờ chúng ta đã có sẵn tất cả các công cụ ảo cần thiết để thực hiện các phép tính kinh tế lượng, chúng ta có thể bắt đầu giải quyết vấn đề của mình. Để làm điều này:

  • Nhấp vào nút “Phân tích dữ liệu”;
  • trong cửa sổ mở ra, nhấp vào nút “Hồi quy”;
  • trong tab xuất hiện, nhập phạm vi giá trị cho Y (số lượng nhân viên nghỉ việc) và cho X (lương của họ);
  • Chúng tôi xác nhận hành động của mình bằng cách nhấn nút “Ok”.

Kết quả là chương trình sẽ tự động điền dữ liệu phân tích hồi quy vào bảng tính mới. Hãy chú ý! Excel cho phép bạn đặt thủ công vị trí bạn thích cho mục đích này. Ví dụ: đây có thể là cùng một trang tính chứa các giá trị Y và X hoặc thậm chí là một sổ làm việc mới được thiết kế đặc biệt để lưu trữ dữ liệu đó.

Phân tích kết quả hồi quy cho R bình phương

Trong Excel, dữ liệu thu được trong quá trình xử lý dữ liệu trong ví dụ đang xem xét có dạng:

Trước hết, bạn nên chú ý đến giá trị bình phương R. Nó đại diện cho hệ số xác định. Trong ví dụ này, R-square = 0,755 (75,5%), tức là các tham số tính toán của mô hình giải thích được mối quan hệ giữa các tham số đang xem xét là 75,5%. Giá trị của hệ số xác định càng cao thì mô hình được chọn càng phù hợp cho một nhiệm vụ cụ thể. Nó được coi là mô tả chính xác tình huống thực tế khi giá trị bình phương R trên 0,8. Nếu R bình phương<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Phân tích tỷ lệ cược

Số 64,1428 cho biết giá trị của Y sẽ là bao nhiêu nếu tất cả các biến xi trong mô hình mà chúng ta đang xem xét được đặt lại về 0. Nói cách khác, có thể lập luận rằng giá trị của tham số được phân tích cũng bị ảnh hưởng bởi các yếu tố khác không được mô tả trong một mô hình cụ thể.

Hệ số tiếp theo -0,16285, nằm trong ô B18, hiển thị trọng số ảnh hưởng của biến X đến Y. Điều này có nghĩa là mức lương trung bình hàng tháng của nhân viên trong mô hình đang được xem xét ảnh hưởng đến số người bỏ việc có trọng số -0,16285, tức là. mức độ ảnh hưởng của nó là hoàn toàn nhỏ. Dấu "-" cho biết hệ số âm. Điều này là hiển nhiên, vì mọi người đều biết rằng mức lương ở doanh nghiệp càng cao thì càng ít người bày tỏ mong muốn chấm dứt hợp đồng lao động hoặc nghỉ việc.

Hồi quy bội

Thuật ngữ này đề cập đến một phương trình quan hệ với một số biến độc lập có dạng:

y=f(x 1 +x 2 +…x m) + ε, trong đó y là đặc tính tổng hợp (biến phụ thuộc), và x 1, x 2,…x m là đặc điểm nhân tố (biến độc lập).

Ước tính tham số

Đối với hồi quy bội (MR), nó được thực hiện bằng phương pháp bình phương tối thiểu (OLS). Đối với các phương trình tuyến tính có dạng Y = a + b 1 x 1 +…+b m x m + ε ta xây dựng hệ phương trình chuẩn (xem bên dưới)

Để hiểu nguyên tắc của phương pháp, hãy xem xét trường hợp hai yếu tố. Khi đó ta có tình huống được mô tả bằng công thức

Từ đây chúng tôi nhận được:

trong đó σ là phương sai của đặc điểm tương ứng được phản ánh trong chỉ mục.

OLS có thể áp dụng cho phương trình MR trên thang đo chuẩn hóa. Trong trường hợp này chúng ta nhận được phương trình:

trong đó ty y, t x 1, ... t xm là các biến chuẩn hóa, có giá trị trung bình bằng 0; β i là hệ số hồi quy chuẩn hóa và độ lệch chuẩn là 1.

Xin lưu ý rằng tất cả β i trong trường hợp này được chỉ định là chuẩn hóa và tập trung, do đó việc so sánh chúng với nhau được coi là chính xác và có thể chấp nhận được. Ngoài ra, thông thường người ta sàng lọc các yếu tố bằng cách loại bỏ những yếu tố có giá trị βi thấp nhất.

Vấn đề sử dụng phương trình hồi quy tuyến tính

Giả sử chúng ta có một bảng diễn biến giá của một sản phẩm cụ thể N trong 8 tháng qua. Cần phải đưa ra quyết định về việc có nên mua một lô với mức giá 1850 rúp/tấn hay không.

số tháng

tên tháng

giá sản phẩm N

1750 rúp mỗi tấn

1755 rúp mỗi tấn

1767 rúp mỗi tấn

1760 rúp mỗi tấn

1770 rúp mỗi tấn

1790 rúp mỗi tấn

1810 rúp mỗi tấn

1840 rúp mỗi tấn

Để giải quyết vấn đề này trong bộ xử lý bảng tính Excel, bạn cần sử dụng công cụ "Phân tích dữ liệu", đã được biết đến từ ví dụ được trình bày ở trên. Tiếp theo, chọn phần “Hồi quy” và đặt tham số. Cần phải nhớ rằng trong trường “Khoảng đầu vào Y”, phải nhập một loạt giá trị cho biến phụ thuộc (trong trường hợp này là giá hàng hóa trong các tháng cụ thể trong năm) và trong “Khoảng đầu vào X” - đối với biến độc lập (số tháng). Xác nhận hành động bằng cách nhấp vào “Ok”. Trên một trang tính mới (nếu được chỉ định), chúng tôi thu được dữ liệu hồi quy.

Bằng cách sử dụng chúng, chúng ta xây dựng một phương trình tuyến tính có dạng y=ax+b, trong đó các tham số a và b là các hệ số của đường thẳng có tên số tháng và các hệ số và đường “Giao điểm Y” từ trang tính với kết quả phân tích hồi quy. Do đó, phương trình hồi quy tuyến tính (LR) cho nhiệm vụ 3 được viết là:

Giá sản phẩm N = 11,714* số tháng + 1727,54.

hoặc trong ký hiệu đại số

y = 11,714 x + 1727,54

Phân tích kết quả

Để quyết định liệu phương trình hồi quy tuyến tính thu được có phù hợp hay không, các hệ số tương quan bội (MCC) và phép xác định được sử dụng, cũng như phép thử Fisher và phép thử t của Sinh viên. Trong bảng tính Excel có kết quả hồi quy, chúng lần lượt được gọi là bội số R, R bình phương, F-statistic và t-statistic.

KMC R giúp đánh giá mức độ gần gũi của mối quan hệ xác suất giữa các biến độc lập và biến phụ thuộc. Giá trị cao của nó cho thấy mối liên hệ khá chặt chẽ giữa các biến “Số tháng” và “Giá sản phẩm N tính bằng rúp trên 1 tấn”. Tuy nhiên, bản chất của mối quan hệ này vẫn chưa được biết.

Bình phương của hệ số xác định R2 (RI) là một đặc tính số của tỷ lệ của tổng độ phân tán và biểu thị độ phân tán của phần nào của dữ liệu thực nghiệm, tức là. giá trị của biến phụ thuộc tương ứng với phương trình hồi quy tuyến tính. Trong bài toán đang được xem xét, giá trị này bằng 84,8%, tức là dữ liệu thống kê được mô tả với độ chính xác cao bằng SD kết quả.

Thống kê F, còn được gọi là phép thử Fisher, được sử dụng để đánh giá tầm quan trọng của mối quan hệ tuyến tính, bác bỏ hoặc xác nhận giả thuyết về sự tồn tại của nó.

(Bài kiểm tra của học sinh) giúp đánh giá tầm quan trọng của hệ số đối với một số hạng chưa biết hoặc tự do của mối quan hệ tuyến tính. Nếu giá trị của t-test > tcr thì giả thuyết về sự vô nghĩa của số hạng tự do của phương trình tuyến tính bị bác bỏ.

Trong bài toán đang xem xét số hạng tự do, sử dụng công cụ Excel, ta thu được t = 169,20903 và p = 2,89E-12, tức là chúng ta có xác suất bằng 0 rằng giả thuyết đúng về tầm quan trọng của số hạng tự do sẽ bị bác bỏ . Đối với hệ số của ẩn số t=5,79405 và p=0,001158. Nói cách khác, xác suất mà giả thuyết đúng về sự không đáng kể của hệ số đối với ẩn số sẽ bị bác bỏ là 0,12%.

Vì vậy, có thể lập luận rằng phương trình hồi quy tuyến tính thu được là phù hợp.

Vấn đề về tính khả thi của việc mua một khối cổ phiếu

Hồi quy bội trong Excel được thực hiện bằng cùng một công cụ Phân tích dữ liệu. Hãy xem xét một vấn đề ứng dụng cụ thể.

Ban lãnh đạo công ty NNN phải quyết định xem có nên mua 20% cổ phần của Công ty Cổ phần MMM hay không. Chi phí của gói (SP) là 70 triệu đô la Mỹ. Các chuyên gia của NNN đã thu thập dữ liệu về các giao dịch tương tự. Người ta quyết định đánh giá giá trị cổ phần theo các thông số như vậy, được biểu thị bằng hàng triệu đô la Mỹ, như:

  • khoản phải trả (VK);
  • khối lượng doanh thu hàng năm (VO);
  • các khoản phải thu (VD);
  • nguyên giá tài sản cố định (COF).

Ngoài ra, thông số nợ lương của doanh nghiệp (V3 P) tính bằng nghìn đô la Mỹ cũng được sử dụng.

Giải pháp sử dụng bộ xử lý bảng tính Excel

Trước hết, bạn cần tạo một bảng dữ liệu nguồn. Nó trông như thế này:

  • gọi cửa sổ “Phân tích dữ liệu”;
  • chọn phần “Hồi quy”;
  • Trong ô “Nhập khoảng Y”, nhập khoảng giá trị của các biến phụ thuộc từ cột G;
  • Nhấp vào biểu tượng có mũi tên màu đỏ ở bên phải cửa sổ “Khoảng thời gian nhập X” và đánh dấu phạm vi của tất cả các giá trị từ các cột B, C, D, F trên trang tính.

Đánh dấu mục “Bảng tính mới” và nhấp vào “Ok”.

Có được một phân tích hồi quy cho một vấn đề nhất định.

Nghiên cứu kết quả và kết luận

Chúng tôi “thu thập” phương trình hồi quy từ dữ liệu được làm tròn được trình bày ở trên trên bảng tính Excel:

SP = 0,103*SOF + 0,541*VO - 0,031*VK +0,405*VD +0,691*VZP - 265,844.

Ở dạng toán học quen thuộc hơn, nó có thể được viết là:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

Số liệu của MMMJSC được trình bày trong bảng:

Thay chúng vào phương trình hồi quy, chúng ta có được con số 64,72 triệu đô la Mỹ. Điều này có nghĩa là cổ phiếu của MMMJSC không đáng mua vì giá trị 70 triệu đô la Mỹ của chúng là khá cao.

Như bạn có thể thấy, việc sử dụng bảng tính Excel và phương trình hồi quy giúp bạn có thể đưa ra quyết định sáng suốt về tính khả thi của một giao dịch rất cụ thể.

Bây giờ bạn đã biết hồi quy là gì. Các ví dụ Excel được thảo luận ở trên sẽ giúp bạn giải quyết các vấn đề thực tế trong lĩnh vực kinh tế lượng.

TRONG thống kê hồi quy hệ số tương quan bội được chỉ định (số nhiều R) và quyết tâm (R bình phương) giữa Y và mảng đặc tính nhân tố (trùng với các giá trị thu được trước đó trong phân tích tương quan)

Phần giữa của bảng (Phân tích phương sai) cần thiết để kiểm tra ý nghĩa của phương trình hồi quy.

Cuối bảng - chính xác

ước tính cuối cùng bi của các hệ số hồi quy tổng quát bi, kiểm tra tầm quan trọng và ước lượng khoảng của chúng.

Ước lượng vectơ của hệ số b (cột Tỷ lệ cược):

Khi đó ước lượng phương trình hồi quy có dạng:

Cần kiểm tra ý nghĩa của phương trình hồi quy và các hệ số hồi quy thu được.

Hãy kiểm tra ý nghĩa của phương trình hồi quy ở mức b=0,05, tức là giả thuyết H0: в1=в2=в3=…=вk=0. Để làm điều này, giá trị quan sát được của thống kê F được tính:

Excel hiển thị điều này trong kết quả phân tích phương sai:

QR=527,4296; Qost=1109.8673 =>

Trong cột F giá trị được chỉ định Fcó thể quan sát được.

Từ bảng phân phối F hoặc sử dụng hàm thống kê tích hợp FPHÁT HIỆNđối với mức ý nghĩa b=0,05 và số bậc tự do của tử số n1=k=4 và mẫu số n2=n-k-1=45, chúng ta tìm thấy giá trị tới hạn của thống kê F bằng

Fcr = 2,578739184

Vì giá trị quan sát được của thống kê F vượt quá giá trị tới hạn của nó 8,1957 > 2,7587, nên giả thuyết về sự bằng nhau của vectơ các hệ số bị bác bỏ với xác suất sai số là 0,05. Do đó, ít nhất một phần tử của vectơ b=(b1,b2,b3,b4)T khác 0 đáng kể.

Hãy kiểm tra tầm quan trọng của các hệ số riêng lẻ của phương trình hồi quy, tức là giả thuyết .

Việc kiểm định ý nghĩa của các hệ số hồi quy được thực hiện trên cơ sở thống kê t đối với mức ý nghĩa.

Các giá trị quan sát của thống kê t được biểu thị trong bảng kết quả ở cột t-thống kê.

Hệ số (bi)

thống kê t (tob)

Giao lộ chữ Y

Biến X5

Biến X7

Biến X10

Biến X15

Chúng phải được so sánh với giá trị tới hạn tcr tìm được đối với mức ý nghĩa b=0,05 và số bậc tự do n=n – k - 1.

Để làm điều này, chúng tôi sử dụng chức năng thống kê Excel tích hợp NGHIÊN CỨU, bằng cách nhập vào menu đề xuất xác suất b = 0,05 và số bậc tự do n = n–k-1 = 50-4-1 = 45. (Bạn có thể tìm thấy các giá trị của tcr từ các bảng thống kê toán học.

Chúng tôi nhận được tcr = 2.014103359.

Đối với giá trị quan sát được của thống kê t nhỏ hơn tới hạn theo giá trị tuyệt đối 2,0141>|-0,0872|, 2,0141>|0,2630|, 2,0141>|0,7300|, 2,0141>|-1,6629 |.

Do đó, giả thuyết cho rằng các hệ số này bằng 0 không bị bác bỏ với xác suất sai số là 0,05, tức là. các hệ số tương ứng là không đáng kể.

Đối với giá trị quan sát được của thống kê t lớn hơn giá trị tới hạn modulo |3,7658|>2,0141, do đó, giả thuyết H0 bị bác bỏ, tức là. - có ý nghĩa

Tầm quan trọng của các hệ số hồi quy cũng được kiểm tra bằng các cột sau của bảng kết quả:

Cột P-nghĩa cho thấy tầm quan trọng của các tham số mô hình ở mức biên 5%, tức là nếu p<0,05 thì hệ số tương ứng được coi là có ý nghĩa, nếu p>0,05 thì không có ý nghĩa.

Và các cột cuối cùng - thấp hơn 95%trên 95%dưới 98%98% hàng đầu -đây là ước tính khoảng của các hệ số hồi quy với mức độ tin cậy được chỉ định cho r = 0,95 (luôn được ban hành) và r = 0,98 (được ban hành khi độ tin cậy bổ sung tương ứng được đặt).

Nếu giới hạn dưới và giới hạn trên có cùng dấu (không bao gồm số 0 trong khoảng tin cậy) thì hệ số hồi quy tương ứng được coi là đáng kể, nếu không thì được coi là không đáng kể.

Như có thể thấy từ bảng, với hệ số b3 giá trị p p=0,0005<0,05 и доверительные интервалы не включают ноль, т.е. по всем проверочным критериям этот коэффициент является значимым.

Theo thuật toán phân tích hồi quy từng bước có loại trừ các biến hồi quy không đáng kể, ở giai đoạn tiếp theo cần loại khỏi xem xét một biến có hệ số hồi quy không đáng kể.

Trong trường hợp khi một số hệ số không đáng kể được xác định trong quá trình đánh giá hồi quy, hệ số đầu tiên bị loại khỏi phương trình hồi quy là biến giải thích có thống kê t () có giá trị tuyệt đối tối thiểu. Theo nguyên tắc này, ở giai đoạn tiếp theo cần loại trừ biến X5 có hệ số hồi quy b2 không đáng kể.

PHÂN TÍCH GIAI ĐOẠN II.

Mô hình bao gồm các đặc điểm nhân tố X7, X10, X15 và loại trừ X5.

KẾT LUẬN KẾT QUẢ

Thống kê hồi quy

số nhiều R

R-vuông

Bình phương R chuẩn hóa

Lỗi tiêu chuẩn

Quan sát

Phân tích phương sai

(số bậc tự do n)

(tổng độ lệch bình phương Q)

(bình phương trung bình MS=SS/n)

(Fob = MSR/MSrest)

Ý nghĩa F

Hồi quy

Tỷ lệ cược

Lỗi tiêu chuẩn

thống kê t

Giá trị P

Top 95% (bimax)

Thấp hơn 98% (bimin)

Giao lộ chữ Y

Biến X7

Biến X10

Biến X15

Ngày nay, tất cả những ai thậm chí hơi quan tâm đến việc khai thác dữ liệu đều có thể đã nghe nói về hồi quy tuyến tính đơn giản. Nó đã được viết trên Habré và Andrew Ng cũng đã nói chi tiết về nó trong khóa học máy học nổi tiếng của mình. Hồi quy tuyến tính là một trong những phương pháp cơ bản và đơn giản nhất của machine learning nhưng các phương pháp đánh giá chất lượng của mô hình được xây dựng rất ít được nhắc đến. Trong bài viết này, tôi sẽ cố gắng sửa một chút thiếu sót khó chịu này bằng cách sử dụng ví dụ phân tích kết quả của hàm summary.lm() trong ngôn ngữ R. Đồng thời, tôi sẽ cố gắng cung cấp các công thức cần thiết để mọi phép tính đều được thực hiện. có thể dễ dàng lập trình bằng bất kỳ ngôn ngữ nào khác. Bài viết này dành cho những người đã nghe nói rằng hồi quy tuyến tính có thể được xây dựng nhưng chưa gặp phải các quy trình thống kê để đánh giá chất lượng của nó.

Mô hình hồi quy tuyến tính

Vì vậy, giả sử có một số biến ngẫu nhiên độc lập X1, X2, ..., Xn (các biến dự đoán) và giá trị Y phụ thuộc vào chúng (giả định rằng tất cả các phép biến đổi cần thiết của các biến dự đoán đã được thực hiện). Hơn nữa, chúng tôi giả định rằng mối quan hệ là tuyến tính và các sai số có phân phối chuẩn, nghĩa là

Với I là ma trận vuông đơn vị n x n.

Vì vậy, chúng tôi có dữ liệu gồm k quan sát về giá trị Y và Xi và chúng tôi muốn ước tính các hệ số. Phương pháp tiêu chuẩn để tìm ước tính hệ số là phương pháp bình phương nhỏ nhất. Và giải pháp phân tích có thể thu được bằng cách áp dụng phương pháp này trông như thế này:

Ở đâu b có nắp - ước tính vectơ của các hệ số, y là vectơ giá trị của biến phụ thuộc và X là ma trận có kích thước k x n+1 (n là số lượng yếu tố dự đoán, k là số lượng quan sát), trong đó cột đầu tiên gồm 1, cột thứ hai - các giá trị của yếu tố dự đoán đầu tiên, thứ ba - thứ hai, v.v. và các hàng phù hợp với các quan sát hiện có.

Hàm summary.lm() và đánh giá kết quả thu được

Bây giờ hãy xem một ví dụ về xây dựng mô hình hồi quy tuyến tính trong R:
> thư viện (ở xa) > lm1<-lm(Species~Area+Elevation+Nearest+Scruz+Adjacent, data=gala) >tóm tắt(lm1) Gọi: lm(công thức = Loài ~ Diện tích + Độ cao + Gần nhất + Scruz + Liền kề, dữ liệu = gala) Phần dư: Tối thiểu 1Q Trung bình 3Q Tối đa -111,679 -34,898 -7,862 33,460 182,584 Hệ số: Ước tính Std. Giá trị lỗi Pr(>|t|) (Giao điểm) 7.068221 19.154198 0.369 0.715351 Diện tích -0.023938 0.022422 -1.068 0.296318 Độ cao 0.319465 0.053663 5.953 3.82e-06 *** est 09144 1,054136 0,009 0,993151 Scruz -0,240524 0,215402 -1,117 0,275208 Liền kề -0,074805 0,017700 -4,226 0,000297 *** --- Ý nghĩa. mã: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 1 Lỗi chuẩn dư: 60,98 trên 24 bậc tự do Nhiều R bình phương: 0,7658, R bình phương đã điều chỉnh: 0,7171 F- thống kê: 15,7 trên 5 và 24 DF, giá trị p: 6,838e-07
Bảng dạ tiệc chứa một số dữ liệu về 30 Quần đảo Galapagos. Chúng ta sẽ xem xét một mô hình trong đó Loài - số lượng loài thực vật khác nhau trên đảo phụ thuộc tuyến tính vào một số biến số khác.

Hãy xem kết quả đầu ra của hàm summary.lm().
Đầu tiên là dòng nhắc nhở cách xây dựng mô hình.
Sau đó là thông tin về sự phân bổ phần dư: tối thiểu, tứ phân vị thứ nhất, trung vị, tứ phân vị thứ ba, tối đa. Tại thời điểm này, sẽ rất hữu ích không chỉ khi xem xét một số lượng tử của phần dư mà còn kiểm tra tính quy phạm của chúng, ví dụ như với phép thử Shapiro-Wilk.
Tiếp theo - thú vị nhất - thông tin về các hệ số. Ở đây cần có một chút lý thuyết.
Đầu tiên ta viết kết quả sau:

với bình phương sigma giới hạn là ước tính không thiên vị cho bình phương sigma thực. Đây b là vectơ thực của các hệ số và epsilon có nắp là vectơ của phần dư, nếu chúng ta lấy các ước tính thu được bằng phương pháp bình phương tối thiểu làm hệ số. Nghĩa là, với giả định rằng các sai số có phân phối chuẩn thì vectơ hệ số cũng sẽ phân bố chuẩn xung quanh giá trị thực và phương sai của nó có thể được ước tính không thiên vị. Điều này có nghĩa là bạn có thể kiểm tra giả thuyết về sự bằng nhau của các hệ số bằng 0 và do đó kiểm tra tầm quan trọng của các yếu tố dự đoán, nghĩa là liệu giá trị của Xi có thực sự ảnh hưởng lớn đến chất lượng của mô hình được xây dựng hay không.
Để kiểm tra giả thuyết này, chúng ta cần các số liệu thống kê sau, có phân phối Sinh viên nếu giá trị thực của hệ số bi là 0:

Ở đâu
là sai số chuẩn của ước lượng hệ số và t(k-n-1) là phân bố Sinh viên với k-n-1 bậc tự do.

Bây giờ bạn đã sẵn sàng tiếp tục phân tích đầu ra của summary.lm().
Vì vậy, những gì sau đây là ước tính về các hệ số thu được bằng phương pháp bình phương tối thiểu, sai số chuẩn, giá trị thống kê t và giá trị p cho nó. Thông thường, giá trị p được so sánh với một số ngưỡng khá nhỏ được chọn trước, chẳng hạn như 0,05 hoặc 0,01. Và nếu giá trị thống kê p nhỏ hơn ngưỡng thì giả thuyết sẽ bị bác bỏ, nhưng thật không may, nếu nó lớn hơn thì không thể nói gì cụ thể. Hãy để tôi nhắc bạn rằng trong trường hợp này, vì phân phối Sinh viên đối xứng về 0, nên giá trị p sẽ bằng 1-F(|t|)+F(-|t|), trong đó F là hàm phân phối Sinh viên với k-n-1 bậc tự do. Ngoài ra, R biểu thị một cách hữu ích các hệ số quan trọng mà giá trị p đủ nhỏ bằng dấu hoa thị. Nghĩa là, những hệ số có xác suất rất thấp đều bằng 0. Trong dòng Signif. mã chứa phần giải mã của các dấu hoa thị: nếu có ba trong số chúng thì giá trị p là từ 0 đến 0,001, nếu có hai dấu hoa thị thì giá trị p là từ 0,001 đến 0,01, v.v. Nếu không có biểu tượng thì giá trị p lớn hơn 0,1.

Trong ví dụ của chúng tôi, chúng tôi có thể tự tin nói rằng các yếu tố dự đoán Độ cao và Liền kề thực sự rất có thể ảnh hưởng đến giá trị của Loài, nhưng không thể nói gì chắc chắn về các yếu tố dự đoán khác. Thông thường, trong những trường hợp như vậy, các yếu tố dự đoán sẽ bị loại bỏ lần lượt và xem xét các chỉ số khác của mô hình thay đổi như thế nào, ví dụ như BIC hoặc Bình phương R đã điều chỉnh, sẽ được thảo luận thêm.

Giá trị sai số chuẩn còn lại tương ứng đơn giản với ước tính sigma có nắp và bậc tự do được tính bằng k-n-1.

Và bây giờ là số liệu thống kê quan trọng nhất mà bạn nên xem xét đầu tiên: Bình phương R và Bình phương R đã điều chỉnh:

trong đó Yi là giá trị thực của Y trong mỗi quan sát, Yi có nắp là các giá trị được mô hình dự đoán, Y có thanh là giá trị trung bình trên tất cả các giá trị thực của Yi.

Hãy bắt đầu với thống kê R bình phương, hay đôi khi nó được gọi là hệ số xác định. Nó cho thấy phương sai có điều kiện của mô hình khác bao nhiêu so với phương sai của giá trị Y thực tế. Nếu hệ số này gần bằng 1 thì phương sai có điều kiện của mô hình khá nhỏ và rất có thể mô hình mô tả tốt dữ liệu. . Nếu hệ số bình phương R nhỏ hơn nhiều, chẳng hạn như nhỏ hơn 0,5, thì với độ tin cậy cao, mô hình không phản ánh tình trạng thực tế của sự việc.

Tuy nhiên, thống kê R bình phương có một nhược điểm nghiêm trọng: khi số lượng yếu tố dự đoán tăng lên, thống kê này chỉ có thể tăng lên. Do đó, có vẻ như một mô hình có nhiều yếu tố dự đoán sẽ tốt hơn mô hình có ít yếu tố dự đoán hơn, ngay cả khi tất cả các yếu tố dự đoán mới không ảnh hưởng đến biến phụ thuộc. Ở đây bạn có thể nhớ nguyên lý của dao cạo Occam. Nếu có thể, hãy làm theo nó để loại bỏ những yếu tố dự đoán không cần thiết trong mô hình, vì nó trở nên đơn giản và dễ hiểu hơn. Với những mục đích này, thống kê R bình phương đã điều chỉnh đã được phát minh. Nó đại diện cho bình phương R thông thường, nhưng có một hình phạt đối với một số lượng lớn các yếu tố dự đoán. Ý tưởng chính: nếu các biến độc lập mới đóng góp lớn vào chất lượng của mô hình thì giá trị của thống kê này sẽ tăng lên, nếu không thì ngược lại nó sẽ giảm đi.

Ví dụ: hãy xem xét mô hình tương tự như trước, nhưng bây giờ thay vì năm yếu tố dự đoán, hãy để lại hai yếu tố:
>lm2<-lm(Species~Elevation+Adjacent, data=gala) >tóm tắt(lm2) Gọi: lm(công thức = Loài ~ Độ cao + Liền kề, dữ liệu = gala) Phần dư: Tối thiểu 1Q Trung vị 3Q Tối đa -103,41 -34,33 -11,43 22,57 203,65 Hệ số: Ước tính Std. Lỗi t giá trị Pr(>|t|) (Đoạn chặn) 1.43287 15.02469 0.095 0.924727 Độ cao 0.27657 0.03176 8.707 2.53e-09 *** Liền kề -0.06889 0.01549 -4.447 0.000134 *** --- . mã: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 1 Lỗi chuẩn dư: 60,86 trên 27 bậc tự do Nhiều R bình phương: 0,7376, R bình phương đã điều chỉnh: 0,7181 F- thống kê: 37,94 trên 2 và 27 DF, giá trị p: 1,434e-08
Như bạn có thể thấy, giá trị của thống kê R bình phương đã giảm, nhưng giá trị của R bình phương được điều chỉnh thậm chí còn tăng nhẹ.

Bây giờ hãy kiểm tra giả thuyết rằng tất cả các hệ số của các yếu tố dự đoán đều bằng 0. Nghĩa là, một giả thuyết về việc liệu giá trị của Y nói chung có phụ thuộc tuyến tính vào các giá trị của Xi hay không. Để làm điều này, bạn có thể sử dụng số liệu thống kê sau, nếu giả thuyết rằng tất cả các hệ số bằng 0 là đúng thì có


  1. Đánh giá chất lượng của mô hình đã xây dựng. Chất lượng của mô hình có cải thiện hơn so với mô hình đơn nhân tố không? Đánh giá ảnh hưởng của các yếu tố quan trọng đến kết quả bằng cách sử dụng các hệ số đàn hồi, hệ số - và -.
Để đánh giá chất lượng của mô hình bội đã chọn (6), tương tự như đoạn 1.4 của bài toán này, chúng tôi sử dụng hệ số xác định R- bình phương, sai số xấp xỉ tương đối trung bình và F-Tiêu chí Fisher.

Hệ số xác định R-squared sẽ được lấy từ kết quả của “Regression” (bảng “Regression stats” cho mô hình (6)).

Do đó, sự biến động (thay đổi) về giá căn hộ Y Theo phương trình này, 76,77% được giải thích là do sự biến đổi của thành phố trong khu vực X 1 , số phòng trong căn hộ X 2 và không gian sống X 4 .

Chúng tôi sử dụng dữ liệu gốc Y Tôi và phần dư được tìm thấy bởi công cụ Hồi quy (bảng “Đầu ra của phần còn lại” cho mô hình (6)). Hãy tính sai số tương đối và tìm giá trị trung bình
.

RÚT TIỀN Phần còn lại


Quan sát

Dự đoán Y

Thức ăn thừa

Liên quan. lỗi

1

45,95089273

-7,95089273

20,92340192

2

86,10296493

-23,90296493

38,42920407

3

94,84442678

30,15557322

24,12445858

4

84,17648426

-23,07648426

37,76838667

5

40,2537216

26,7462784

39,91981851

6

68,70572376

24,29427624

26,12287768

7

143,7464899

-25,7464899

21,81905923

8

106,0907598

25,90924022

19,62821228

9

135,357993

-42,85799303

46,33296544

10

114,4792566

-9,47925665

9,027863476

11

41,48765602

0,512343975

1,219866607

12

103,2329236

21,76707636

17,41366109

13

130,3567798

39,64322022

23,3195413

14

35,41901876

2,580981242

6,7920559

15

155,4129693

-24,91296925

19,0903979

16

84,32108188

0,678918123

0,798727204

17

98,0552279

-0,055227902

0,056355002

18

144,2104618

-16,21046182

12,66442329

19

122,8677535

-37,86775351

44,55029825

20

100,0221225

59,97787748

37,48617343

21

53,27196558

6,728034423

11,21339071

22

35,06605378

5,933946225

14,47303957

23

114,4792566

-24,47925665

27,19917406

24

113,1343153

-30,13431529

36,30640396

25

40,43190991

4,568090093

10,15131132

26

39,34427892

-0,344278918

0,882766457

27

144,4794501

-57,57945009

66,25943623

28

56,4827667

-16,4827667

41,20691675

29

95,38240332

-15,38240332

19,22800415

30

228,6988826

-1,698882564

0,748406416

31

222,8067278

12,19327221

5,188626473

32

38,81483144

1,185168555

2,962921389

33

48,36325811

18,63674189

27,81603267

34

126,6080021

-3,608002113

2,933335051

35

84,85052935

15,14947065

15,14947065

36

116,7991162

-11,79911625

11,23725357

37

84,17648426

-13,87648426

19,73895342

38

113,9412801

-31,94128011

38,95278062

39

215,494184

64,50581599

23,03779142

40

141,7795953

58,22040472

29,11020236

Trung bình

101,2375

22,51770962

Sử dụng cột sai số tương đối ta tìm giá trị trung bình =22.51% (sử dụng hàm AVERAGE).

So sánh cho thấy 22,51%>7%. Vì vậy, độ chính xác của mô hình không đạt yêu cầu.

Bằng cách sử dụng F – Tiêu chí Fisher Hãy kiểm tra ý nghĩa của toàn bộ mô hình. Để làm điều này, chúng tôi sẽ ghi lại kết quả của việc sử dụng công cụ “Hồi quy” (bảng “phân tích phương sai” cho mô hình (6)) F= 39,6702.

Sử dụng hàm FRIST chúng ta tìm giá trị F cr =3.252 về mức ý nghĩa α = 5%, và số bậc tự do k 1 = 2 , k 2 = 37 .

F> F cr, do đó, phương trình của mô hình (6) có ý nghĩa, nên sử dụng nó, biến phụ thuộc Yđược mô tả khá tốt bởi các biến nhân tố có trong mô hình (6) X 1 , X 2. Và X 4 .

Ngoài ra sử dụng t –Bài kiểm tra t của học sinh Hãy kiểm tra ý nghĩa của các hệ số riêng lẻ của mô hình.

t–Thống kê các hệ số của phương trình hồi quy được đưa ra trong kết quả của công cụ “Regression”. Các giá trị sau đã thu được cho mô hình đã chọn (6):


Tỷ lệ cược

Lỗi tiêu chuẩn

thống kê t

Giá trị P

Dưới 95%

95% hàng đầu

Dưới cùng 95,0%

Top 95,0%

Giao lộ chữ Y

-5,643572321

12,07285417

-0,46745966

0,642988

-30,1285

18,84131

-30,1285

18,84131

X4

2,591405557

0,461440597

5,61590284

2.27E-06

1,655561

3,52725

1,655561

3,52725

X1

6,85963077

9,185748512

0,74676884

0,460053

-11,7699

25,48919

-11,7699

25,48919

X2

-1,985156991

7,795346067

-0,25465925

0,800435

-17,7949

13,82454

-17,7949

13,82454

Giá trị tới hạn t crđược tìm thấy ở mức ý nghĩa α=5% và số bậc tự do k=40–2–1=37 . t cr =2.026 (chức năng STUDAR).

Để có tỷ lệ cược miễn phí α =–5.643 thống kê được xác định
, t cr Do đó, hệ số tự do không có ý nghĩa và có thể bị loại khỏi mô hình.

Đối với hệ số hồi quy β 1 =6.859 thống kê được xác định
, β 1 không đáng kể, nó và yếu tố thành phố vùng có thể được loại bỏ khỏi mô hình.

Đối với hệ số hồi quy β 2 =-1,985 thống kê được xác định
, t cr, do đó, hệ số hồi quy β 2 không đáng kể, nó và hệ số số phòng trong căn hộ có thể bị loại khỏi mô hình.

Đối với hệ số hồi quy β 4 =2.591 thống kê được xác định
, >t cr, do đó, hệ số hồi quy β 4 là đáng kể, nó và yếu tố diện tích sống của căn hộ có thể được giữ lại trong mô hình.

Kết luận về ý nghĩa của các hệ số trong mô hình được đưa ra ở mức ý nghĩa α=5%. Nhìn vào cột giá trị P, chúng tôi lưu ý rằng hệ số tự do α có thể coi là có ý nghĩa ở mức 0,64 = 64%; hệ số hồi quy β 1 – ở mức 0,46 = 46%; hệ số hồi quy β 2 – ở mức 0,8 = 80%; và hệ số hồi quy β 4 – ở mức 2,27E-06= 2,26691790951854E-06 = 0,0000002%.

Khi thêm các biến nhân tố mới vào phương trình, hệ số xác định sẽ tự động tăng R 2 và sai số xấp xỉ trung bình giảm đi, mặc dù chất lượng của mô hình không phải lúc nào cũng được cải thiện. Do đó, để so sánh chất lượng của mô hình (3) và mô hình bội được chọn (6), chúng tôi sử dụng hệ số xác định chuẩn hóa.

Như vậy, khi thêm yếu tố “thành phố vùng” vào phương trình hồi quy X 1 và hệ số “số phòng trong căn hộ” X 2 chất lượng của mô hình đã xấu đi, điều này có lợi cho việc loại bỏ các yếu tố X 1 và X 2 từ mô hình.

Hãy thực hiện các tính toán tiếp theo.

Hệ số đàn hồi trung bình trong trường hợp mô hình tuyến tính được xác định bởi các công thức
.

Sử dụng hàm AVERAGE ta tìm được: S Y, chỉ tăng hệ số X 4 thêm một độ lệch chuẩn – tăng 0,914 S Y

hệ số delta được xác định bởi các công thức
.

Chúng ta hãy tìm các hệ số tương quan cặp bằng công cụ "Tương quan" của gói "Phân tích dữ liệu" trong Excel.


Y

X1

X2

X4

Y

1

X1

-0,01126

1

X2

0,751061

-0,0341

1

X4

0,874012

-0,0798

0,868524

1

Hệ số xác định được xác định trước đó bằng 0,7677.

Hãy tính hệ số delta:

;

Vì Δ 1 1 X 2 được chọn kém và chúng cần được loại bỏ khỏi mô hình. Điều này có nghĩa là theo phương trình của mô hình ba nhân tố tuyến tính thu được, sự thay đổi của nhân tố kết quả Y(giá căn hộ) được giải thích 104% do ảnh hưởng của yếu tố X 4 (diện tích sinh hoạt của căn hộ), do 4% ảnh hưởng bởi yếu tố X 2 (số phòng), 0,0859% chịu ảnh hưởng của yếu tố X 1 (thành phố trong vùng).