Dữ liệu để phân tích hồi quy. Phân tích hồi quy trong Microsoft Excel

Mục đích chính của phân tích hồi quy bao gồm việc xác định hình thức phân tích của giao tiếp trong đó sự thay đổi trong đặc tính hiệu quả là do ảnh hưởng của một hoặc nhiều đặc điểm yếu tố và tập hợp tất cả các yếu tố khác cũng ảnh hưởng đến đặc tính hiệu quả được lấy làm giá trị không đổi và trung bình.
Vấn đề phân tích hồi quy:
a) Xác lập hình thức phụ thuộc. Về bản chất và hình thức của mối quan hệ giữa các hiện tượng, có sự phân biệt giữa hồi quy tuyến tính dương và phi tuyến và hồi quy tuyến tính và phi tuyến âm.
b) Xác định hàm hồi quy dưới dạng phương trình toán học loại này hay loại khác và xác lập mức độ ảnh hưởng của các biến giải thích đến biến phụ thuộc.
c) Ước lượng các giá trị chưa biết của biến phụ thuộc. Sử dụng hàm hồi quy, bạn có thể tái tạo các giá trị của biến phụ thuộc trong khoảng giá trị được chỉ định của các biến giải thích (tức là giải quyết vấn đề nội suy) hoặc đánh giá quá trình của quá trình nằm ngoài khoảng đã chỉ định (tức là, giải bài toán ngoại suy). Kết quả là ước tính giá trị của biến phụ thuộc.

Hồi quy cặp là phương trình biểu diễn mối quan hệ giữa hai biến y và x: , trong đó y là biến phụ thuộc (thuộc tính kết quả); x là một biến giải thích độc lập (hệ số tính năng).

Có hồi quy tuyến tính và phi tuyến tính.
Hồi quy tuyến tính: y = a + bx + ε
Hồi quy phi tuyến được chia thành hai loại: hồi quy phi tuyến đối với các biến giải thích có trong phân tích, nhưng tuyến tính đối với các tham số ước tính và hồi quy phi tuyến đối với các tham số ước tính.
Các hồi quy phi tuyến tính trong các biến giải thích:

Các hồi quy phi tuyến tính đối với các tham số ước tính: Việc xây dựng phương trình hồi quy bắt nguồn từ việc ước tính các tham số của nó. Để ước lượng các tham số của hồi quy tuyến tính theo tham số, phương pháp bình phương tối thiểu (OLS) được sử dụng. Phương pháp bình phương tối thiểu cho phép thu được các ước tính tham số như vậy tại đó tổng độ lệch bình phương của các giá trị thực tế của đặc tính hiệu dụng y so với các giá trị lý thuyết là tối thiểu, tức là.
.
Đối với các phương trình tuyến tính và phi tuyến có thể rút gọn về phương trình tuyến tính, hệ sau được giải đối với a và b:

Bạn có thể sử dụng các công thức làm sẵn theo hệ thống này:

Mức độ chặt chẽ của mối liên hệ giữa các hiện tượng đang nghiên cứu được đánh giá bằng hệ số tuyến tính tương quan cặp đối với hồi quy tuyến tính:

và chỉ số tương quan - đối với hồi quy phi tuyến:

Chất lượng của mô hình được xây dựng sẽ được đánh giá bằng hệ số (chỉ số) xác định cũng như sai số trung bình của phép tính gần đúng.
Sai số gần đúng trung bình - độ lệch trung bình của giá trị tính toán so với giá trị thực tế:
.
Giới hạn cho phép của các giá trị không quá 8-10%.
Hệ số co giãn trung bình biểu thị bằng bao nhiêu phần trăm mà kết quả y sẽ thay đổi so với giá trị trung bình khi hệ số x thay đổi 1% so với giá trị trung bình của nó:
.

Mục đích của việc phân tích phương sai là phân tích phương sai của biến phụ thuộc:
,
tổng của các độ lệch bình phương là bao nhiêu;
- tổng các độ lệch bình phương do hồi quy (“được giải thích” hoặc “giai thừa”);
- tổng dư của bình phương độ lệch.
Tỷ lệ phương sai giải thích bằng hồi quy trong tổng phương sai của đặc tính y thu được được đặc trưng bởi hệ số (chỉ số) xác định R2:

Hệ số xác định là bình phương của hệ số hoặc chỉ số tương quan.

Kiểm định F - đánh giá chất lượng của phương trình hồi quy - bao gồm việc kiểm tra giả thuyết Không về mức độ không đáng kể về mặt thống kê của phương trình hồi quy và chỉ số về mức độ gần gũi của mối quan hệ. Để thực hiện điều này, một so sánh được thực hiện giữa thực tế F thực tế và các giá trị quan trọng trong bảng F (dạng bảng) của tiêu chí Fisher F. Thực tế F được xác định từ tỉ số giữa giá trị hệ số và phương sai dư tính cho một bậc tự do:
,
trong đó n là số đơn vị dân số; m là số tham số của biến x.
Bảng F là giá trị lớn nhất có thể có của tiêu chí dưới tác động của các yếu tố ngẫu nhiên ở bậc tự do và mức ý nghĩa a cho trước. Mức ý nghĩa a là xác suất bác bỏ giả thuyết đúng, cho rằng nó đúng. Thông thường a được lấy bằng 0,05 hoặc 0,01.
Nếu bảng F< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >Thực tế, khi đó giả thuyết H o không bị bác bỏ và sự không có ý nghĩa thống kê cũng như độ tin cậy của phương trình hồi quy được thừa nhận.
Để đánh giá ý nghĩa thống kê của hồi quy và hệ số tương quan, bài kiểm tra t của Học sinh và khoảng tin cậy cho từng chỉ số sẽ được tính toán. Một giả thuyết được đưa ra về tính chất ngẫu nhiên của các chỉ số, tức là về sự khác biệt không đáng kể của chúng so với số 0. Việc đánh giá tầm quan trọng của hồi quy và hệ số tương quan bằng t-test của Sinh viên được thực hiện bằng cách so sánh giá trị của chúng với độ lớn của sai số ngẫu nhiên:
; ; .
Sai số ngẫu nhiên của các tham số hồi quy tuyến tính và hệ số tương quan được xác định theo công thức:



So sánh các giá trị thực tế và quan trọng (dạng bảng) của thống kê t - bảng t và t Fact - chúng ta chấp nhận hoặc bác bỏ giả thuyết H o.
Mối quan hệ giữa Fisher F-test và thống kê t-Student được thể hiện bằng đẳng thức

Nếu bảng t< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t là thực tế giả thuyết H o không bị bác bỏ và tính chất ngẫu nhiên của sự hình thành a, b or được thừa nhận.
Để tính khoảng tin cậy, chúng tôi xác định sai số D tối đa cho mỗi chỉ báo:
, .
Công thức tính khoảng tin cậy như sau:
; ;
; ;
Nếu số 0 nằm trong khoảng tin cậy, tức là Nếu giới hạn dưới là âm và giới hạn trên là dương thì tham số ước tính được lấy bằng 0 vì nó không thể nhận đồng thời cả giá trị dương và âm.
Giá trị dự báo được xác định bằng cách thay thế giá trị (dự báo) tương ứng vào phương trình hồi quy. Sai số chuẩn trung bình của dự báo được tính:
,
Ở đâu
và khoảng tin cậy cho dự báo được xây dựng:
; ;
Ở đâu .

Giải pháp ví dụ

Nhiệm vụ số 1. Đối với bảy vùng lãnh thổ của vùng Ural vào năm 199X, giá trị của hai đặc điểm đã được biết đến.
Bảng 1.
Yêu cầu: 1. Để mô tả sự phụ thuộc của y vào x, hãy tính tham số của các hàm số sau:
a) tuyến tính;
b) lũy thừa (trước tiên bạn phải thực hiện quy trình tuyến tính hóa các biến bằng cách lấy logarit của cả hai phần);
c) mang tính trình diễn;
d) một hyperbol đều (bạn cũng cần tìm ra cách tuyến tính hóa trước mô hình này).
2. Đánh giá từng mô hình bằng cách sử dụng sai số gần đúng trung bình và phép kiểm F của Fisher.

Giải pháp (Phương án số 1)

Để tính các tham số a và b của hồi quy tuyến tính (có thể thực hiện tính toán bằng máy tính).
giải hệ phương trình chuẩn tắc cho MỘTb:
Dựa vào số liệu ban đầu, chúng tôi tính toán :
y x yx x 2 năm 2 A tôi
tôi 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Tổng cộng 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Thứ Tư. nghĩa (Tổng cộng/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
S 5,74 5,86 X X X X X X
s 2 32,92 34,34 X X X X X X


Phương trình hồi quy: y = 76,88 - 0,35X. Với mức tăng lương trung bình hàng ngày thêm 1 chà. tỷ trọng chi phí mua thực phẩm giảm trung bình 0,35 điểm phần trăm.
Hãy tính hệ số tương quan cặp tuyến tính:

Kết nối vừa phải, nghịch đảo.
Hãy xác định hệ số xác định:

Sự thay đổi 12,7% trong kết quả được giải thích bởi sự thay đổi của hệ số x. Thay thế các giá trị thực tế vào phương trình hồi quy X, hãy xác định các giá trị lý thuyết (được tính toán) . Hãy tìm giá trị của sai số gần đúng trung bình:

Trung bình, giá trị tính toán sai lệch so với thực tế 8,1%.
Hãy tính tiêu chí F:

kể từ 1< F < ¥ , cần được xem xét F -1 .
Giá trị kết quả cho thấy sự cần thiết phải chấp nhận giả thuyết Nhưng ôi tính chất ngẫu nhiên của sự phụ thuộc đã xác định và ý nghĩa thống kê của các tham số của phương trình và chỉ số về mức độ gần gũi của kết nối.
1b. Việc xây dựng mô hình nguồn được bắt đầu bằng quy trình tuyến tính hóa các biến. Trong ví dụ này, tuyến tính hóa được thực hiện bằng cách lấy logarit của cả hai vế của phương trình:


Ở đâuY=lg(y), X=lg(x), C=lg(a).

Để tính toán, chúng tôi sử dụng dữ liệu trong bảng. 1.3.

Bảng 1.3

Y X YX Y2 X 2 A tôi
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Tổng cộng 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Giá trị trung bình 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ 2 0,0018 0,0023 X X X X X X X

Hãy tính C và b:


Chúng ta nhận được một phương trình tuyến tính: .
Sau khi thực hiện thế năng của nó, chúng tôi nhận được:

Thay thế các giá trị thực tế vào phương trình này X, chúng tôi thu được các giá trị lý thuyết của kết quả. Sử dụng chúng, chúng ta sẽ tính toán các chỉ số: độ chặt của kết nối - chỉ số tương quan và sai số xấp xỉ trung bình

Các đặc điểm của mô hình định luật lũy thừa chỉ ra rằng nó mô tả mối quan hệ tốt hơn một chút so với hàm tuyến tính.

1c. Xây dựng phương trình của đường cong hàm mũ

trước đó là quy trình tuyến tính hóa các biến bằng cách lấy logarit của cả hai vế của phương trình:

Để tính toán, chúng tôi sử dụng dữ liệu bảng.

Y x yx Y2 x 2 A tôi
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Tổng cộng 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Thứ Tư. zn. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ 2 0,0018 34,339 X X X X X X X

Giá trị của tham số hồi quy A và TRONG lên tới:


Phương trình tuyến tính thu được là: . Chúng ta hãy xác định phương trình kết quả và viết nó ở dạng thông thường:

Chúng ta sẽ đánh giá mức độ gần gũi của kết nối thông qua chỉ số tương quan:

Phương pháp phân tích hồi quy được sử dụng để xác định các thông số kinh tế kỹ thuật của sản phẩm thuộc một chuỗi thông số cụ thể nhằm xây dựng và căn chỉnh các mối quan hệ giá trị. Phương pháp này được sử dụng để phân tích và chứng minh mức độ và tỷ lệ giá của các sản phẩm được đặc trưng bởi sự hiện diện của một hoặc nhiều thông số kinh tế và kỹ thuật phản ánh các đặc tính chính của người tiêu dùng. Phân tích hồi quy cho phép chúng ta tìm ra công thức thực nghiệm mô tả sự phụ thuộc của giá vào các thông số kinh tế và kỹ thuật của sản phẩm:

P=f(X1X2,...,Xn),

trong đó P là giá trị đơn giá của sản phẩm, rub.; (X1, X2,...Xn) - các thông số kinh tế kỹ thuật của sản phẩm.

Phương pháp phân tích hồi quy - phương pháp tiên tiến nhất trong số các phương pháp tham số quy chuẩn được sử dụng - có hiệu quả khi thực hiện các phép tính dựa trên việc sử dụng các hệ thống và công nghệ thông tin hiện đại. Ứng dụng của nó bao gồm các bước chính sau:

  • xác định nhóm thông số phân loại sản phẩm;
  • lựa chọn các thông số ảnh hưởng nhiều nhất đến giá của sản phẩm;
  • lựa chọn và giải thích hình thức liên hệ giữa các thay đổi về giá khi các thông số thay đổi;
  • xây dựng hệ phương trình chuẩn và tính hệ số hồi quy.

Nhóm tiêu chuẩn chính của sản phẩm, giá của sản phẩm phải được cân bằng, là một chuỗi tham số, trong đó các sản phẩm có thể được nhóm thành các thiết kế khác nhau tùy thuộc vào ứng dụng, điều kiện vận hành và yêu cầu, v.v. Khi hình thành chuỗi tham số, các phương pháp phân loại tự động có thể được sử dụng để cho phép phân biệt các nhóm đồng nhất với tổng khối lượng sản phẩm. Việc lựa chọn các thông số kinh tế, kỹ thuật được thực hiện dựa trên các yêu cầu cơ bản sau:

  • các thông số được lựa chọn bao gồm các thông số ghi trong tiêu chuẩn, thông số kỹ thuật; ngoài các thông số kỹ thuật (công suất, khả năng tải, tốc độ, v.v.), các chỉ số về số sê-ri sản phẩm, hệ số phức tạp, độ thống nhất, v.v. được sử dụng;
  • tập hợp các tham số được chọn phải mô tả đầy đủ đặc tính thiết kế, công nghệ và vận hành của các sản phẩm có trong chuỗi và có mối tương quan khá chặt chẽ với giá cả;
  • các tham số không nên phụ thuộc lẫn nhau.

Để chọn các thông số kỹ thuật và kinh tế có ảnh hưởng đáng kể đến giá, người ta tính toán ma trận hệ số tương quan cặp. Dựa vào độ lớn của các hệ số tương quan giữa các tham số, người ta có thể đánh giá mức độ gần gũi của mối liên hệ giữa chúng. Đồng thời, mối tương quan gần bằng 0 cho thấy ảnh hưởng không đáng kể của tham số này đến giá cả. Việc lựa chọn cuối cùng các thông số kỹ thuật và kinh tế được thực hiện trong quá trình phân tích hồi quy từng bước bằng công nghệ máy tính và các chương trình tiêu chuẩn phù hợp.

Trong thực hành định giá, tập hợp các chức năng sau được sử dụng:

tuyến tính

P = ao + alXl + ... + antXn,

công suất tuyến tính

P = ao + a1X1 + ... + anXn + (an+1Xn) (an+1Xn) +... + (an+nXn2) (an+nXn2)

logarit nghịch đảo

P = a0 + a1: Trong X1 + ... + an: Trong Xn,

quyền lực

P = a0 (X1^a1) (X2^a2) .. (Xn^an)

biểu thị

P = e^(a1+a1X1+...+anXn)

hyperbol

P = ao + a1:X1 + a2:X2 + ... + ap:Xn,

trong đó P là sự cân bằng giá; X1 X2,..., Xn - giá trị các thông số kinh tế kỹ thuật của sản phẩm thuộc dãy; a0, a1..., аn - các hệ số tính được của phương trình hồi quy.

Trong thực tế nghiên cứu về định giá, tùy theo hình thức quan hệ giữa giá cả với các thông số kỹ thuật, kinh tế mà có thể sử dụng các phương trình hồi quy khác. Loại chức năng kết nối giữa giá và một tập hợp các thông số kỹ thuật và kinh tế có thể được đặt trước hoặc chọn tự động trong quá trình xử lý máy tính. Mức độ gần nhau của mối tương quan giữa giá và tập hợp thông số được đánh giá bằng giá trị của hệ số tương quan bội. Sự gần gũi của nó với một cho thấy một kết nối chặt chẽ. Sử dụng phương trình hồi quy, sẽ thu được các giá trị giá cân bằng (được tính toán) cho các sản phẩm của một chuỗi tham số nhất định. Để đánh giá kết quả cân bằng, người ta tính các giá trị tương đối của độ lệch của giá trị tính toán so với giá trị thực tế:

Tsr = Rf - Rr: R x 100

trong đó Рф, Рр - giá thực tế và giá tính toán.

Giá trị CR không được vượt quá 8-10%. Trong trường hợp giá trị tính toán có sai lệch đáng kể so với giá trị thực tế, cần điều tra:

  • tính đúng đắn của việc hình thành chuỗi tham số, vì nó có thể chứa các sản phẩm có tham số khác biệt rõ rệt so với các sản phẩm khác trong chuỗi. Họ phải bị loại trừ;
  • lựa chọn đúng các thông số kỹ thuật và kinh tế. Có thể có một tập hợp các tham số có mối tương quan yếu với giá cả. Trong trường hợp này cần tiếp tục tìm kiếm và chọn tham số.

Quy trình và phương pháp tiến hành phân tích hồi quy, tìm các tham số chưa biết của phương trình và đánh giá tính kinh tế của kết quả thu được được thực hiện theo yêu cầu của thống kê toán học.

Trong các tác phẩm của ông có từ năm 1908. Ông mô tả nó bằng ví dụ về công việc của một đại lý bán bất động sản. Trong hồ sơ của mình, chuyên gia bán nhà theo dõi rất nhiều dữ liệu đầu vào cho từng tòa nhà cụ thể. Căn cứ vào kết quả đấu giá đã xác định được yếu tố nào có ảnh hưởng lớn nhất đến giá giao dịch.

Phân tích một số lượng lớn các giao dịch mang lại kết quả thú vị. Giá cuối cùng bị ảnh hưởng bởi nhiều yếu tố, đôi khi dẫn đến những kết luận nghịch lý và thậm chí là “ngoại lệ” rõ ràng khi một căn nhà có tiềm năng ban đầu cao được bán với giá giảm.

Ví dụ thứ hai về việc áp dụng phân tích như vậy là công việc được giao nhiệm vụ xác định mức lương của nhân viên. Sự phức tạp của nhiệm vụ nằm ở chỗ nó không yêu cầu phân phối một số tiền cố định cho mọi người mà là sự tương ứng chặt chẽ với công việc cụ thể được thực hiện. Sự xuất hiện của nhiều bài toán có lời giải tương tự trên thực tế đòi hỏi phải nghiên cứu chúng chi tiết hơn ở cấp độ toán học.

Một vị trí quan trọng đã được phân bổ cho phần “phân tích hồi quy”, phần này kết hợp các phương pháp thực tế được sử dụng để nghiên cứu các phụ thuộc thuộc khái niệm hồi quy. Những mối quan hệ này được quan sát giữa dữ liệu thu được từ các nghiên cứu thống kê.

Trong số nhiều nhiệm vụ cần giải quyết, có ba mục tiêu chính: xác định phương trình hồi quy tổng quát; xây dựng ước tính các tham số chưa biết là một phần của phương trình hồi quy; kiểm định các giả thuyết hồi quy thống kê. Trong quá trình nghiên cứu mối quan hệ nảy sinh giữa một cặp đại lượng thu được do quan sát thực nghiệm và tạo thành một chuỗi (tập hợp) loại (x1, y1),..., (xn, yn), người ta dựa vào các quy định của lý thuyết hồi quy và giả định rằng đối với một đại lượng Y có phân bố xác suất nhất định, trong khi X còn lại không đổi.

Kết quả Y phụ thuộc vào giá trị của biến X; sự phụ thuộc này có thể được xác định bằng nhiều mẫu khác nhau, trong khi độ chính xác của kết quả thu được bị ảnh hưởng bởi bản chất của các quan sát và mục đích phân tích. Mô hình thử nghiệm dựa trên những giả định nhất định được đơn giản hóa nhưng hợp lý. Điều kiện chính là tham số X là đại lượng được kiểm soát. Giá trị của nó được đặt trước khi bắt đầu thử nghiệm.

Nếu một cặp biến không được kiểm soát XY được sử dụng trong quá trình thử nghiệm thì phân tích hồi quy được thực hiện theo cách tương tự, nhưng các phương pháp được sử dụng để diễn giải kết quả, trong đó nghiên cứu mối quan hệ của các biến ngẫu nhiên đang nghiên cứu. không phải là một chủ đề trừu tượng Họ tìm thấy ứng dụng trong cuộc sống trong nhiều lĩnh vực hoạt động khác nhau của con người.

Trong tài liệu khoa học, thuật ngữ phân tích hồi quy tuyến tính được sử dụng rộng rãi để định nghĩa phương pháp trên. Đối với biến X, thuật ngữ biến hồi quy hoặc biến dự đoán được sử dụng và các biến Y phụ thuộc còn được gọi là biến tiêu chí. Thuật ngữ này chỉ phản ánh sự phụ thuộc toán học của các biến chứ không phản ánh mối quan hệ nhân quả.

Phân tích hồi quy là phương pháp phổ biến nhất được sử dụng để xử lý kết quả của nhiều quan sát khác nhau. Sự phụ thuộc vật lý và sinh học được nghiên cứu bằng phương pháp này, nó được thực hiện cả về kinh tế và công nghệ. Rất nhiều lĩnh vực khác sử dụng mô hình phân tích hồi quy. Phân tích phương sai và phân tích thống kê đa biến phối hợp chặt chẽ với phương pháp nghiên cứu này.

Nếu có mối tương quan giữa yếu tố và đặc tính hiệu suất, các bác sĩ thường phải xác định xem giá trị của một đặc tính có thể thay đổi ở mức độ nào khi đặc tính kia thay đổi thành đơn vị đo lường được chấp nhận chung hoặc đơn vị đo do chính nhà nghiên cứu thiết lập.

Ví dụ, trọng lượng cơ thể của học sinh lớp 1 (trai hay gái) sẽ thay đổi như thế nào nếu chiều cao của chúng tăng thêm 1 cm?

Thông thường, phương pháp phân tích hồi quy được sử dụng để phát triển các thang đo và tiêu chuẩn quy phạm về phát triển thể chất.

  1. Định nghĩa hồi quy. Hồi quy là một hàm cho phép, từ giá trị trung bình của một đặc tính, xác định giá trị trung bình của một đặc tính khác có tương quan với đặc tính đầu tiên.

    Với mục đích này, hệ số hồi quy và một số tham số khác được sử dụng. Ví dụ: bạn có thể tính toán số lần cảm lạnh trung bình ở các giá trị nhất định của nhiệt độ không khí trung bình hàng tháng trong thời kỳ thu đông.

  2. Xác định hệ số hồi quy. Hệ số hồi quy là giá trị tuyệt đối mà theo đó, tính trung bình, giá trị của một đặc tính thay đổi khi một đặc tính liên quan khác thay đổi theo một đơn vị đo cụ thể.
  3. Công thức hệ số hồi quy. R y/x = r xy x (σ y / σ x)
    trong đó R у/х - hệ số hồi quy;
    r xy - hệ số tương quan giữa đặc tính x và y;
    (σ y và σ x) - độ lệch chuẩn của đặc tính x và y.

    Trong ví dụ của chúng tôi;
    σ x = 4,6 (độ lệch chuẩn của nhiệt độ không khí thời kỳ thu đông;
    σ y = 8,65 (độ lệch chuẩn của số bệnh truyền nhiễm, cảm lạnh).
    Do đó, R y/x là hệ số hồi quy.
    R у/х = -0,96 x (4,6 / 8,65) = 1,8, tức là Khi nhiệt độ không khí trung bình tháng (x) giảm 1 độ thì số bệnh truyền nhiễm, cảm lạnh (y) trung bình trong thời kỳ thu đông sẽ thay đổi 1,8 trường hợp.

  4. phương trình hồi quy. y = M y + R y/x (x - M x)
    trong đó y là giá trị trung bình của đặc tính, cần xác định khi giá trị trung bình của đặc tính khác thay đổi (x);
    x là giá trị trung bình đã biết của đặc tính khác;
    R y/x - hệ số hồi quy;
    M x, My - giá trị trung bình đã biết của đặc tính x và y.

    Ví dụ, số lượng bệnh truyền nhiễm và cảm lạnh trung bình (y) có thể được xác định mà không cần các phép đo đặc biệt ở bất kỳ giá trị trung bình nào của nhiệt độ không khí trung bình hàng tháng (x). Vậy nếu x = - 9°, R y/x = 1,8 bệnh, M x = -7°, M y = 20 bệnh thì y = 20 + 1,8 x (9-7) = 20 + 3 ,6 = 23,6 bệnh tật.
    Phương trình này được áp dụng trong trường hợp mối quan hệ tuyến tính giữa hai đặc điểm (x và y).

  5. Mục đích của phương trình hồi quy. Phương trình hồi quy được sử dụng để xây dựng đường hồi quy. Cách thứ hai giúp có thể xác định bất kỳ giá trị trung bình (y) nào của một đặc tính mà không cần các phép đo đặc biệt nếu giá trị (x) của đặc tính khác thay đổi. Dựa trên những dữ liệu này, một biểu đồ được xây dựng - đường hồi quy, có thể được sử dụng để xác định số lần cảm lạnh trung bình ở bất kỳ giá trị nào của nhiệt độ trung bình hàng tháng trong phạm vi giữa các giá trị tính toán của số lần cảm lạnh.
  6. Hồi quy Sigma (công thức).
    trong đó σ Rу/х - sigma (độ lệch chuẩn) của hồi quy;
    σ y - độ lệch chuẩn của đặc tính y;
    r xy - hệ số tương quan giữa đặc điểm x và y.

    Vậy nếu σ y là độ lệch chuẩn của số lần cảm = 8,65; r xy - hệ số tương quan giữa số đợt cảm (y) và nhiệt độ không khí trung bình tháng trong thời kỳ thu đông (x) bằng - 0,96, khi đó

  7. Phép gán sigma hồi quy. Đưa ra mô tả về thước đo độ đa dạng của đặc tính thu được (y).

    Ví dụ, nó đặc trưng cho sự đa dạng của số lần cảm lạnh ở một giá trị nhất định của nhiệt độ không khí trung bình hàng tháng trong thời kỳ thu đông. Như vậy, số lần cảm lạnh trung bình ở nhiệt độ không khí x 1 = -6° có thể dao động từ 15,78 bệnh đến 20,62 bệnh.
    Với x 2 = -9°, số lần cảm trung bình có thể dao động từ 21,18 bệnh đến 26,02 bệnh, v.v.

    Sigma hồi quy được sử dụng để xây dựng thang hồi quy, phản ánh độ lệch của các giá trị của đặc tính kết quả so với giá trị trung bình của nó được vẽ trên đường hồi quy.

  8. Dữ liệu cần thiết để tính toán và vẽ đồ thị thang hồi quy
    • hệ số hồi quy - R у/х;
    • phương trình hồi quy - y = M y + R y/x (x-M x);
    • sigma hồi quy - σ Rx/y
  9. Trình tự tính toán và biểu diễn đồ thị của thang hồi quy.
    • xác định hệ số hồi quy bằng công thức (xem đoạn 3). Ví dụ, cần xác định trung bình trọng lượng cơ thể sẽ thay đổi bao nhiêu (ở một độ tuổi nhất định tùy theo giới tính) nếu chiều cao trung bình thay đổi 1 cm.
    • bằng cách sử dụng công thức phương trình hồi quy (xem điểm 4), chẳng hạn, hãy xác định trọng lượng cơ thể sẽ ở mức trung bình (y, y 2, y 3 ...) * đối với một giá trị chiều cao nhất định (x, x 2, x 3 . ..) .
      ________________
      * Giá trị của “y” phải được tính cho ít nhất ba giá trị đã biết của “x”.

      Đồng thời, biết được giá trị trung bình của cân nặng và chiều cao cơ thể (M x và M y) ở một độ tuổi và giới tính nhất định

    • tính sigma hồi quy, biết các giá trị tương ứng của σ y và r xy và thay các giá trị của chúng vào công thức (xem đoạn 6).
    • dựa trên các giá trị đã biết x 1, x 2, x 3 và các giá trị trung bình tương ứng y 1, y 2 y 3, cũng như giá trị nhỏ nhất (y - σ rу/х) và lớn nhất (y + σ rу /х) các giá trị (y) xây dựng thang hồi quy.

      Để biểu thị bằng đồ họa thang hồi quy, các giá trị x, x2, x3 (trục tọa) trước tiên được đánh dấu trên biểu đồ, tức là. một đường hồi quy được xây dựng, ví dụ, sự phụ thuộc của trọng lượng cơ thể (y) vào chiều cao (x).

      Sau đó, tại các điểm tương ứng tại 1, y 2, y 3, các giá trị số của sigma hồi quy được ghi nhận, tức là. trên đồ thị tìm các giá trị nhỏ nhất và lớn nhất của 1, y 2, y 3.

  10. Ứng dụng thực tế của thang hồi quy. Các thang đo và tiêu chuẩn quy chuẩn đang được phát triển, đặc biệt là về phát triển thể chất. Sử dụng thang đo tiêu chuẩn, bạn có thể đưa ra đánh giá cá nhân về sự phát triển của trẻ. Trong trường hợp này, sự phát triển thể chất được đánh giá là hài hòa nếu, ví dụ, ở một độ cao nhất định, trọng lượng cơ thể của trẻ nằm trong khoảng một sigma hồi quy về đơn vị trọng lượng cơ thể tính toán trung bình - (y) đối với một chiều cao nhất định (x) ( y ± 1 σ Ry/x).

    Sự phát triển thể chất được coi là không hài hòa về trọng lượng cơ thể nếu trọng lượng cơ thể của trẻ ở một chiều cao nhất định nằm trong sigma thứ hai của hồi quy: (y ± 2 σ Ry/x)

    Sự phát triển thể chất sẽ không hài hòa rõ rệt do thừa và không đủ trọng lượng cơ thể nếu trọng lượng cơ thể ở một chiều cao nhất định nằm trong sigma thứ ba của hồi quy (y ± 3 σ Ry/x).

Theo kết quả nghiên cứu thống kê về sự phát triển thể chất của bé trai 5 tuổi, được biết chiều cao trung bình (x) của các em là 109 cm, trọng lượng cơ thể trung bình (y) là 19 kg. Hệ số tương quan giữa chiều cao và cân nặng là +0,9, độ lệch chuẩn được trình bày trong bảng.

Yêu cầu:

  • tính hệ số hồi quy;
  • sử dụng phương trình hồi quy, xác định cân nặng dự kiến ​​của bé trai 5 tuổi với chiều cao x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • tính toán sigma hồi quy, xây dựng thang hồi quy và trình bày kết quả của giải pháp đó bằng đồ họa;
  • rút ra kết luận phù hợp.

Các điều kiện của bài toán và kết quả giải quyết của nó được trình bày trong bảng tóm tắt.

Bảng 1

Điều kiện vấn đề Kết quả giải quyết vấn đề
phương trình hồi quy sigma hồi quy thang hồi quy (trọng lượng cơ thể dự kiến ​​(tính bằng kg))
M σ r xy R y/x X bạn σ Rx/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Chiều cao (x) 109 cm ± 4,4cm +0,9 0,16 100cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Khối lượng cơ thể (y) 19 kg ± 0,8 kg 110 cm 19,16 kg 18,81 kg 19,51 kg
120 cm 20,76 kg 20,41 kg 21,11 kg

Giải pháp.

Phần kết luận. Do đó, thang hồi quy trong giới hạn của các giá trị tính toán của trọng lượng cơ thể giúp xác định nó ở bất kỳ giá trị chiều cao nào khác hoặc đánh giá sự phát triển cá nhân của trẻ. Để làm điều này, hãy khôi phục đường vuông góc với đường hồi quy.

  1. Vlasov V.V. Dịch tễ học. - M.: GEOTAR-MED, 2004. - 464 tr.
  2. Lisitsyn Yu.P. Y tế công cộng và chăm sóc sức khỏe. Sách giáo khoa dành cho đại học. - M.: GEOTAR-MED, 2007. - 512 tr.
  3. Bác sĩ V.A., Yuryev V.K. Giáo trình về y tế công cộng và chăm sóc sức khỏe: Phần 1. Y tế công cộng. - M.: Y học, 2003. - 368 tr.
  4. Minyaev V.A., Vishnykov N.I. và các tổ chức y tế xã hội và chăm sóc sức khỏe khác (Sách hướng dẫn gồm 2 tập). - St. Petersburg, 1998. -528 tr.
  5. Kucherenko V.Z., Agarkov N.M. và các tổ chức khác. Tổ chức vệ sinh và chăm sóc sức khỏe xã hội (Hướng dẫn) - Moscow, 2000. - 432 tr.
  6. S. Glanz. Thống kê y tế và sinh học. Dịch từ tiếng Anh - M., Praktika, 1998. - 459 tr.

Sau khi phân tích tương quan cho thấy sự hiện diện của mối quan hệ thống kê giữa các biến và đánh giá mức độ gần gũi của chúng, chúng ta thường chuyển sang mô tả toán học về một loại phụ thuộc cụ thể bằng phân tích hồi quy. Với mục đích này, một lớp hàm được chọn để kết nối chỉ báo kết quả y và các đối số x 1, x 2, ..., x k, các đối số có nhiều thông tin nhất được chọn, ước tính các giá trị chưa biết của các tham số của phương trình truyền thông được tính toán và các thuộc tính của phương trình kết quả được phân tích.

Hàm f(x 1, x 2,..., x k) mô tả sự phụ thuộc của giá trị trung bình của đặc tính kết quả y vào các giá trị đã cho của các đối số được gọi là hàm hồi quy (phương trình). Thuật ngữ “hồi quy” (tiếng Latin -regression - rút lui, quay trở lại một cái gì đó) được giới thiệu bởi nhà tâm lý học và nhân chủng học người Anh F. Galton và chỉ liên quan đến các chi tiết cụ thể của một trong những ví dụ cụ thể đầu tiên mà khái niệm này được sử dụng. Do đó, khi xử lý dữ liệu thống kê liên quan đến phân tích tính di truyền của chiều cao, F. Galton nhận thấy rằng nếu những người cha lệch so với chiều cao trung bình của tất cả những người cha một khoảng x inch thì con trai của họ sẽ lệch so với chiều cao trung bình của tất cả những người con trai ít hơn x. inch. Xu hướng được xác định được gọi là “hồi quy về mức trung bình”. Kể từ đó, thuật ngữ “hồi quy” đã được sử dụng rộng rãi trong tài liệu thống kê, mặc dù trong nhiều trường hợp nó không mô tả chính xác khái niệm phụ thuộc thống kê.

Để mô tả chính xác phương trình hồi quy, cần phải biết quy luật phân phối của chỉ số hiệu quả y. Trong thực hành thống kê, người ta thường phải tự giới hạn mình trong việc tìm kiếm các phép tính gần đúng phù hợp cho hàm hồi quy thực chưa biết, vì nhà nghiên cứu không có kiến ​​thức chính xác về luật phân bố xác suất có điều kiện của chỉ báo kết quả được phân tích y cho các giá trị đã cho của lý lẽ x.

Hãy xem xét mối quan hệ giữa f(x) = M(y1x) đúng, hồi quy mô hình? và ước lượng hồi quy y. Giả sử chỉ số hiệu dụng y có liên hệ với đối số x theo quan hệ:

đâu là một biến ngẫu nhiên có luật phân phối chuẩn, và Me = 0 và De = y 2. Hàm hồi quy thực trong trường hợp này có dạng: f (x) = M(y/x) = 2x 1,5.

Giả sử rằng chúng ta không biết dạng chính xác của phương trình hồi quy thực, nhưng chúng ta có chín quan sát về một biến ngẫu nhiên hai chiều liên quan bởi quan hệ yi = 2x1,5 + e và được trình bày trong Hình 2. 1

Hình 1 - Vị trí tương đối của chân lý f(x) và lý thuyết? mô hình hồi quy

Vị trí các điểm trong hình. 1 có cho phép chúng ta giới hạn mình vào lớp phụ thuộc tuyến tính của dạng không? = trong 0 + trong 1 x. Sử dụng phương pháp bình phương tối thiểu, chúng ta tìm được ước lượng của phương trình hồi quy y = b 0 + b 1 x. Để so sánh, trong hình. 1 trình bày đồ thị hàm hồi quy thực y = 2x 1,5, hàm hồi quy xấp xỉ lý thuyết? = trong 0 + trong 1 x .

Vì chúng ta đã mắc sai lầm khi chọn loại hàm hồi quy và điều này khá phổ biến trong thực tiễn nghiên cứu thống kê nên các kết luận và ước tính thống kê của chúng ta sẽ trở thành sai lầm. Và cho dù chúng ta có tăng số lượng quan sát đến mức nào đi nữa thì ước tính mẫu y của chúng ta sẽ không gần với hàm hồi quy thực f(x). Nếu chúng ta đã chọn đúng lớp hàm hồi quy thì sự thiếu chính xác trong việc mô tả f(x) bằng cách sử dụng? chỉ có thể được giải thích bởi những hạn chế của mẫu.

Để khôi phục tốt nhất, từ dữ liệu thống kê ban đầu, giá trị điều kiện của chỉ báo hiệu dụng y(x) và hàm hồi quy chưa biết f(x) = M(y/x), các tiêu chí đầy đủ (hàm mất mát) sau đây là phổ biến nhất thường được sử dụng.

Phương pháp bình phương tối thiểu. Theo đó, bình phương độ lệch của các giá trị quan sát được của chỉ tiêu hiệu dụng y, (i = 1,2,..., n) so với các giá trị của mô hình,? = f(x i), trong đó x i là giá trị của vectơ đối số trong quan sát thứ i: ?(y i - f(x i) 2 > min. Hồi quy thu được được gọi là bình phương trung bình.

Phương pháp mô-đun nhỏ nhất Theo đó, tổng độ lệch tuyệt đối của các giá trị quan sát được của chỉ báo hiệu quả so với các giá trị mô-đun được giảm thiểu. Và chúng tôi nhận được,? = f(x i), hồi quy trung vị tuyệt đối có nghĩa là gì? |y tôi - f(x i)| > phút.

Phân tích hồi quy là phương pháp phân tích thống kê sự phụ thuộc của biến ngẫu nhiên y vào biến x j = (j=1,2,..., k), được coi trong phân tích hồi quy là biến không ngẫu nhiên, bất kể luật phân phối thực của xj.

Người ta thường giả định rằng biến ngẫu nhiên y có quy luật phân phối chuẩn với kỳ vọng toán học có điều kiện y là hàm của các đối số x/ (/ = 1, 2,..., k) và phương sai không đổi y 2 độc lập của các lập luận.

Nhìn chung, mô hình phân tích hồi quy tuyến tính có dạng:

Y = Y k j=0 V. j ts j(x 1 , x 2 . . .. ,x k)+E

trong đó q j là hàm số nào đó của các biến của nó - x 1, x 2. . .. ,x k, E là biến ngẫu nhiên có kỳ vọng toán học bằng 0 và phương sai y 2.

Trong phân tích hồi quy, loại phương trình hồi quy được chọn dựa trên bản chất vật lý của hiện tượng đang được nghiên cứu và kết quả quan sát.

Ước tính các tham số chưa biết của phương trình hồi quy thường được tìm thấy bằng phương pháp bình phương tối thiểu. Dưới đây chúng tôi sẽ giải quyết vấn đề này chi tiết hơn.

Phương trình hồi quy tuyến tính hai biến. Chúng ta hãy giả sử, dựa trên phân tích hiện tượng đang nghiên cứu, rằng trên y “trung bình” là một hàm tuyến tính của x, tức là có một phương trình hồi quy

y=M(y/x)=in 0 + in 1 x)

trong đó M(y1x) là kỳ vọng toán học có điều kiện của biến ngẫu nhiên y đối với x cho trước; ở mức 0 và ở mức 1 - các tham số chưa biết của dân số nói chung, phải được ước tính dựa trên kết quả quan sát mẫu.

Giả sử rằng để ước tính các tham số tại 0 và 1, một mẫu có kích thước n được lấy từ tổng thể hai chiều (x, y), trong đó (x, y,) là kết quả của quan sát thứ i (i = 1 , 2,..., n) . Trong trường hợp này, mô hình phân tích hồi quy có dạng:

y j = in 0 + in 1 x+e j .

trong đó e j là các biến ngẫu nhiên có phân phối chuẩn độc lập với kỳ vọng toán học bằng 0 và phương sai y 2, tức là M e j. = 0;

D e j .= y 2 với mọi i = 1, 2,..., n.

Theo phương pháp bình phương tối thiểu, khi ước tính các tham số chưa biết tại 0 và 1, người ta nên lấy các giá trị như vậy của các đặc tính mẫu b 0 và b 1 để giảm thiểu tổng bình phương độ lệch của các giá trị kết quả đặc trưng cho i từ kỳ vọng toán học có điều kiện? Tôi

Chúng tôi sẽ xem xét phương pháp xác định ảnh hưởng của đặc điểm tiếp thị đến lợi nhuận của doanh nghiệp bằng cách sử dụng ví dụ về 17 doanh nghiệp điển hình có quy mô và chỉ số hoạt động kinh tế trung bình.

Khi giải quyết vấn đề, các đặc điểm sau đã được tính đến, được xác định là quan trọng nhất (quan trọng) nhờ khảo sát bằng bảng câu hỏi:

* hoạt động đổi mới của doanh nghiệp;

* lập kế hoạch về chủng loại sản phẩm được sản xuất;

* Xây dựng chính sách giá;

* quan hệ công chúng;

* hệ thống bán hàng;

* Hệ thống khuyến khích nhân viên.

Dựa trên hệ thống so sánh theo các yếu tố, các ma trận vuông kề nhau được xây dựng, trong đó tính giá trị mức độ ưu tiên tương đối cho từng yếu tố: hoạt động đổi mới của doanh nghiệp, lập kế hoạch về chủng loại sản phẩm, hình thành chính sách giá cả, quảng cáo. , quan hệ công chúng, hệ thống bán hàng, hệ thống khuyến khích nhân viên.

Ước tính mức độ ưu tiên cho yếu tố “mối quan hệ với công chúng” được đưa ra từ kết quả khảo sát các chuyên gia doanh nghiệp. Các ký hiệu sau được chấp nhận: > (tốt hơn), > (tốt hơn hoặc tương tự), = (giống nhau),< (хуже или одинаково), <

Tiếp theo, bài toán đánh giá toàn diện trình độ marketing của doanh nghiệp đã được giải quyết. Khi tính toán chỉ báo, tầm quan trọng (trọng lượng) của các đặc tính từng phần được xem xét đã được xác định và vấn đề tích chập tuyến tính của các chỉ báo từng phần đã được giải quyết. Việc xử lý dữ liệu được thực hiện bằng các chương trình được phát triển đặc biệt.

Tiếp theo, người ta tính toán đánh giá toàn diện về trình độ tiếp thị của doanh nghiệp - hệ số tiếp thị được ghi trong Bảng 1. Ngoài ra, bảng còn bao gồm các chỉ số đặc trưng cho toàn bộ doanh nghiệp. Dữ liệu trong bảng sẽ được sử dụng để thực hiện phân tích hồi quy. Thuộc tính kết quả là lợi nhuận. Cùng với hệ số tiếp thị, các chỉ số sau được sử dụng làm chỉ số yếu tố: khối lượng tổng sản lượng, chi phí tài sản cố định, số lượng nhân viên và hệ số chuyên môn hóa.

Bảng 1 - Dữ liệu ban đầu cho phân tích hồi quy


Theo số liệu bảng và trên cơ sở các nhân tố có hệ số tương quan có giá trị lớn nhất, hàm hồi quy về sự phụ thuộc của lợi nhuận vào các nhân tố đã được xây dựng.

Phương trình hồi quy trong trường hợp của chúng tôi sẽ có dạng:

Ảnh hưởng định lượng của các yếu tố được thảo luận ở trên đến số tiền lợi nhuận được biểu thị bằng các hệ số của phương trình hồi quy. Chúng cho thấy giá trị của nó thay đổi bao nhiêu nghìn rúp khi đặc tính của yếu tố thay đổi một đơn vị. Như sau từ phương trình, việc tăng hệ số hỗn hợp tiếp thị lên một đơn vị sẽ làm tăng lợi nhuận thêm 1547,7 nghìn rúp. Điều này cho thấy việc cải thiện hoạt động marketing có tiềm năng rất lớn trong việc nâng cao hiệu quả kinh tế của doanh nghiệp.

Khi nghiên cứu hiệu quả marketing, yếu tố được quan tâm và quan tâm nhất chính là yếu tố X5 – hệ số marketing. Theo lý thuyết thống kê, ưu điểm của phương trình hồi quy bội hiện có là khả năng đánh giá mức độ ảnh hưởng riêng biệt của từng yếu tố, trong đó có yếu tố tiếp thị.

Kết quả phân tích hồi quy có ứng dụng rộng hơn so với việc tính toán các tham số của phương trình. Tiêu chí để phân loại doanh nghiệp (Kef) là tương đối tốt hơn hoặc tương đối kém hơn dựa trên chỉ số tương đối của kết quả:

trong đó Y Facti là giá trị thực tế của doanh nghiệp thứ i, nghìn rúp;

Y được tính - số lợi nhuận của doanh nghiệp thứ i, thu được bằng cách tính toán bằng phương trình hồi quy

Về mặt vấn đề đang được giải quyết, giá trị này được gọi là “hệ số hiệu quả”. Hoạt động của doanh nghiệp có thể được coi là có hiệu quả trong trường hợp giá trị của hệ số lớn hơn một. Điều này có nghĩa là lợi nhuận thực tế lớn hơn lợi nhuận trung bình của mẫu.

Giá trị lợi nhuận thực tế và ước tính được trình bày trong bảng. 2.

Bảng 2 - Phân tích đặc tính thu được trong mô hình hồi quy

Phân tích bảng cho thấy trong trường hợp của chúng tôi, hoạt động của các doanh nghiệp 3, 5, 7, 9, 12, 14, 15, 17 trong giai đoạn được xem xét có thể được coi là thành công.