Phân tích tương quan và hồi quy trong Excel: hướng dẫn thực hiện. Phân tích hồi quy là một phương pháp thống kê để nghiên cứu sự phụ thuộc của một biến ngẫu nhiên vào các biến.

Phân tích hồi quy

hồi quy (tuyến tính) Phân tích- phương pháp thống kê để nghiên cứu ảnh hưởng của một hoặc nhiều biến độc lập đến biến phụ thuộc. Các biến độc lập còn được gọi là biến hồi quy hoặc biến dự đoán, và biến phụ thuộc được gọi là biến tiêu chí. Thuật ngữ sự phụ thuộcđộc lập các biến chỉ phản ánh sự phụ thuộc toán học của các biến ( xem Tương quan sai), chứ không phải là mối quan hệ nhân quả.

Mục tiêu của phân tích hồi quy

  1. Xác định mức độ xác định độ biến thiên của một biến tiêu chí (phụ thuộc) bằng các yếu tố dự báo (biến độc lập)
  2. Dự đoán giá trị của biến phụ thuộc bằng cách sử dụng (các) biến độc lập
  3. Xác định sự đóng góp của từng biến độc lập vào sự biến thiên của biến phụ thuộc

Phân tích hồi quy không thể được sử dụng để xác định liệu có mối quan hệ giữa các biến hay không, vì sự hiện diện của mối quan hệ đó là điều kiện tiên quyết để áp dụng phân tích.

Định nghĩa toán học của hồi quy

Một mối quan hệ hồi quy chặt chẽ có thể được định nghĩa như sau. Đặt , là các biến ngẫu nhiên có phân bố xác suất chung cho trước. Nếu đối với mỗi bộ giá trị, một kỳ vọng toán học có điều kiện được xác định

(phương trình hồi quy ở dạng tổng quát),

sau đó hàm được gọi hồi quy các giá trị của Y theo các giá trị và đồ thị của nó là đường Hồi quy bởi , hoặc phương trình hồi quy.

Sự phụ thuộc vào được thể hiện ở sự thay đổi giá trị trung bình của Y với sự thay đổi về . Mặc dù, đối với mỗi bộ giá trị cố định, giá trị vẫn là một biến ngẫu nhiên với độ phân tán nhất định.

Để làm rõ câu hỏi phân tích hồi quy ước tính chính xác sự thay đổi của Y khi thay đổi như thế nào, giá trị trung bình của độ phân tán của Y đối với các tập hợp giá trị khác nhau được sử dụng (trên thực tế, chúng ta đang nói về thước đo độ phân tán của biến phụ thuộc). xung quanh đường hồi quy).

Phương pháp bình phương tối thiểu (tính hệ số)

Trong thực tế, đường hồi quy thường được tìm kiếm ở dạng hàm tuyến tính (hồi quy tuyến tính), gần đúng nhất với đường cong mong muốn. Điều này được thực hiện bằng cách sử dụng phương pháp bình phương tối thiểu, khi tổng độ lệch bình phương của những giá trị thực tế được quan sát so với ước tính của chúng được giảm thiểu (nghĩa là ước tính sử dụng đường thẳng nhằm biểu thị mối quan hệ hồi quy mong muốn):

(M - cỡ mẫu). Cách tiếp cận này dựa trên thực tế nổi tiếng là số tiền xuất hiện trong biểu thức trên có giá trị tối thiểu chính xác cho trường hợp khi .

Để giải bài toán phân tích hồi quy bằng phương pháp bình phương tối thiểu, khái niệm này được đưa ra hàm dư:

Điều kiện tối thiểu cho hàm dư:

Hệ thống kết quả là một hệ phương trình tuyến tính với ẩn số

Nếu chúng ta biểu diễn các số hạng tự do ở vế trái của phương trình dưới dạng ma trận

và các hệ số của ẩn số ở vế phải là ma trận

thì ta thu được phương trình ma trận: , được giải dễ dàng bằng phương pháp Gauss. Ma trận kết quả sẽ là ma trận chứa các hệ số của phương trình đường hồi quy:

Để có được ước tính tốt nhất, cần phải đáp ứng các điều kiện tiên quyết của OLS (điều kiện Gauss–Markov). Trong tài liệu tiếng Anh, những ước tính như vậy được gọi là BLUE (Công cụ ước tính không thiên vị tuyến tính tốt nhất).

Giải thích các tham số hồi quy

Các tham số là hệ số tương quan từng phần; được hiểu là tỷ lệ phương sai của Y được giải thích bằng cách ấn định ảnh hưởng của các yếu tố dự đoán còn lại, nghĩa là nó đo lường sự đóng góp của từng cá nhân vào việc giải thích Y. Trong trường hợp các yếu tố dự đoán tương quan, vấn đề về độ không chắc chắn trong các ước tính sẽ phát sinh, trở nên phụ thuộc vào thứ tự mà các yếu tố dự đoán được đưa vào mô hình. Trong những trường hợp như vậy, cần sử dụng phương pháp phân tích tương quan và hồi quy từng bước.

Khi nói về các mô hình phân tích hồi quy phi tuyến, điều quan trọng là phải chú ý xem chúng ta đang nói về tính phi tuyến trong các biến độc lập (theo quan điểm hình thức, dễ dàng quy giản thành hồi quy tuyến tính), hay về tính phi tuyến trong các tham số ước lượng (gây ra những hậu quả nghiêm trọng). khó khăn về tính toán). Trong trường hợp phi tuyến thuộc loại thứ nhất, từ quan điểm thực chất, điều quan trọng là phải làm nổi bật sự xuất hiện trong mô hình của các thuật ngữ có dạng , , biểu thị sự hiện diện của các tương tác giữa các đặc điểm, v.v. (xem Đa cộng tuyến).

Xem thêm

Liên kết

  • www.kgafk.ru - Bài giảng chủ đề “Phân tích hồi quy”
  • www.basegroup.ru - phương pháp chọn biến trong mô hình hồi quy

Văn học

  • Norman Draper, Harry Smith Phân tích hồi quy ứng dụng. Hồi quy bội = Phân tích hồi quy ứng dụng. - tái bản lần thứ 3. - M.: “Biện chứng”, 2007. - P. 912. - ISBN 0-471-17082-8
  • Các phương pháp mạnh mẽ để ước lượng mô hình thống kê: Chuyên khảo. - K.: PP "Sansparel", 2005. - P. 504. - ISBN 966-96574-0-7, UDC: 519.237.5:515.126.2, BBK 22.172+22.152
  • Radchenko Stanislav Grigorievich, Phương pháp phân tích hồi quy: Chuyên khảo. - K.: "Korniychuk", 2011. - P. 376. - ISBN 978-966-7599-72-0

Quỹ Wikimedia. 2010.

Trong quá trình học tập, học sinh rất thường xuyên gặp phải nhiều phương trình khác nhau. Một trong số đó - phương trình hồi quy - sẽ được thảo luận trong bài viết này. Loại phương trình này được sử dụng đặc biệt để mô tả các đặc điểm của mối quan hệ giữa các tham số toán học. Loại đẳng thức này được sử dụng trong thống kê và kinh tế lượng.

Định nghĩa hồi quy

Trong toán học, hồi quy có nghĩa là một đại lượng nhất định mô tả sự phụ thuộc của giá trị trung bình của một tập hợp dữ liệu vào giá trị của đại lượng khác. Phương trình hồi quy cho thấy, như một hàm của một đặc tính cụ thể, giá trị trung bình của một đặc tính khác. Hàm hồi quy có dạng phương trình đơn giản y = x, trong đó y đóng vai trò là biến phụ thuộc và x là biến độc lập (hệ số đặc trưng). Trong thực tế, hồi quy được biểu diễn dưới dạng y = f(x).

Các loại mối quan hệ giữa các biến là gì?

Nhìn chung, có hai loại mối quan hệ đối lập nhau: tương quan và hồi quy.

Đầu tiên được đặc trưng bởi sự bình đẳng của các biến có điều kiện. Trong trường hợp này, không thể biết chắc chắn biến nào phụ thuộc vào biến kia.

Nếu không có sự bình đẳng giữa các biến và các điều kiện cho biết biến nào là giải thích và biến nào là phụ thuộc, thì chúng ta có thể nói về sự hiện diện của mối liên hệ thuộc loại thứ hai. Để xây dựng một phương trình hồi quy tuyến tính, cần phải tìm ra loại mối quan hệ nào được quan sát.

Các loại hồi quy

Ngày nay, có 7 loại hồi quy khác nhau: hyperbol, tuyến tính, bội số, phi tuyến, cặp đôi, nghịch đảo, tuyến tính logarit.

Hyperbol, tuyến tính và logarit

Phương trình hồi quy tuyến tính được sử dụng trong thống kê để giải thích rõ ràng các tham số của phương trình. Có vẻ như y = c+t*x+E. Phương trình hyperbol có dạng hyperbol đều y = c + m / x + E. Phương trình tuyến tính logarit biểu thị mối quan hệ bằng hàm logarit: In y = In c + m * In x + In E.

Nhiều và phi tuyến

Hai loại hồi quy phức tạp hơn là bội số và phi tuyến. Phương trình hồi quy bội được biểu thị bằng hàm y = f(x 1, x 2 ... x c) + E. Trong tình huống này, y đóng vai trò là biến phụ thuộc và x đóng vai trò là biến giải thích. Biến E là ngẫu nhiên; nó bao gồm ảnh hưởng của các yếu tố khác trong phương trình. Phương trình hồi quy phi tuyến còn gây tranh cãi. Một mặt, so với các chỉ số được xem xét, nó không tuyến tính, nhưng mặt khác, trong vai trò đánh giá các chỉ số, nó có tính tuyến tính.

Các loại hồi quy nghịch đảo và theo cặp

Nghịch đảo là một loại hàm cần được chuyển đổi sang dạng tuyến tính. Trong hầu hết các chương trình ứng dụng truyền thống, nó có dạng hàm y = 1/c + m*x+E. Phương trình hồi quy theo cặp cho thấy mối quan hệ giữa dữ liệu dưới dạng hàm của y = f (x) + E. Cũng giống như trong các phương trình khác, y phụ thuộc vào x và E là tham số ngẫu nhiên.

Khái niệm tương quan

Đây là chỉ báo thể hiện sự tồn tại mối quan hệ giữa hai hiện tượng hoặc quá trình. Sức mạnh của mối quan hệ được thể hiện dưới dạng hệ số tương quan. Giá trị của nó dao động trong khoảng [-1;+1]. Chỉ báo tiêu cực cho biết sự hiện diện của phản hồi, chỉ báo tích cực cho biết phản hồi trực tiếp. Nếu hệ số lấy giá trị bằng 0 thì không có mối quan hệ. Giá trị càng gần 1 thì mối quan hệ giữa các tham số càng chặt chẽ; càng gần 0 thì mối quan hệ giữa các tham số càng yếu.

phương pháp

Phương pháp tham số tương quan có thể đánh giá độ mạnh của mối quan hệ. Chúng được sử dụng trên cơ sở ước lượng phân phối để nghiên cứu các tham số tuân theo quy luật phân phối chuẩn.

Các tham số của phương trình hồi quy tuyến tính cần thiết để xác định loại phụ thuộc, hàm số của phương trình hồi quy và đánh giá các chỉ tiêu của công thức quan hệ đã chọn. Trường tương quan được sử dụng làm phương pháp nhận dạng kết nối. Để làm được điều này, tất cả dữ liệu hiện có phải được mô tả bằng đồ họa. Tất cả dữ liệu đã biết phải được vẽ trong hệ tọa độ hai chiều hình chữ nhật. Đây là cách một trường tương quan được hình thành. Các giá trị của hệ số mô tả được đánh dấu dọc theo trục hoành, trong khi các giá trị của hệ số phụ thuộc được đánh dấu dọc theo trục tọa độ. Nếu có mối quan hệ chức năng giữa các tham số thì chúng sẽ được xếp thành một đường thẳng.

Nếu hệ số tương quan của dữ liệu đó nhỏ hơn 30%, chúng ta có thể nói về sự thiếu kết nối gần như hoàn toàn. Nếu nó nằm trong khoảng từ 30% đến 70% thì điều này cho thấy sự hiện diện của các kết nối gần trung bình. Chỉ báo 100% là bằng chứng về sự kết nối chức năng.

Một phương trình hồi quy phi tuyến tính, giống như phương trình tuyến tính, phải được bổ sung chỉ số tương quan (R).

Tương quan cho hồi quy bội

Hệ số xác định là một chỉ số của bình phương của nhiều mối tương quan. Ông nói về mối quan hệ chặt chẽ của bộ chỉ số được trình bày với đặc điểm đang được nghiên cứu. Nó cũng có thể nói về bản chất ảnh hưởng của các thông số đến kết quả. Phương trình hồi quy bội được ước tính bằng cách sử dụng chỉ báo này.

Để tính chỉ số tương quan bội, cần phải tính chỉ số của nó.

Phương pháp bình phương tối thiểu

Phương pháp này là một cách để ước tính các yếu tố hồi quy. Bản chất của nó là giảm thiểu tổng bình phương độ lệch thu được do sự phụ thuộc của hệ số vào hàm.

Phương trình hồi quy tuyến tính từng cặp có thể được ước tính bằng phương pháp như vậy. Loại phương trình này được sử dụng khi phát hiện mối quan hệ tuyến tính theo cặp giữa các chỉ báo.

Tham số phương trình

Mỗi tham số của hàm hồi quy tuyến tính đều có một ý nghĩa cụ thể. Phương trình hồi quy tuyến tính ghép đôi chứa hai tham số: c và m, tham số m biểu thị sự thay đổi trung bình trong chỉ báo cuối cùng của hàm y, với điều kiện biến x giảm (tăng) một đơn vị quy ước. Nếu biến x bằng 0 thì hàm bằng tham số c. Nếu biến x khác 0 thì hệ số c không có ý nghĩa kinh tế. Ảnh hưởng duy nhất đến hàm số là dấu đứng trước thừa số c. Nếu có điểm trừ thì có thể nói rằng sự thay đổi của kết quả là chậm so với hệ số. Nếu có một điểm cộng, thì điều này cho thấy sự thay đổi nhanh chóng trong kết quả.

Mỗi tham số làm thay đổi giá trị của phương trình hồi quy có thể được biểu diễn thông qua một phương trình. Ví dụ: hệ số c có dạng c = y - mx.

Dữ liệu được nhóm

Có những điều kiện nhiệm vụ trong đó tất cả thông tin được nhóm theo thuộc tính x, nhưng đối với một nhóm nhất định, giá trị trung bình tương ứng của chỉ báo phụ thuộc được chỉ định. Trong trường hợp này, các giá trị trung bình mô tả cách chỉ báo tùy thuộc vào x thay đổi. Vì vậy, thông tin được nhóm lại giúp tìm ra phương trình hồi quy. Nó được sử dụng như một phân tích các mối quan hệ. Tuy nhiên, phương pháp này có nhược điểm của nó. Thật không may, các chỉ số trung bình thường chịu sự biến động từ bên ngoài. Những biến động này không phản ánh khuôn mẫu của mối quan hệ; chúng chỉ che giấu “sự ồn ào” của nó. Các giá trị trung bình cho thấy các mô hình mối quan hệ tồi tệ hơn nhiều so với phương trình hồi quy tuyến tính. Tuy nhiên, chúng có thể được sử dụng làm cơ sở để tìm một phương trình. Bằng cách nhân số lượng của một quần thể riêng lẻ với giá trị trung bình tương ứng, người ta có thể thu được tổng y trong nhóm. Tiếp theo, bạn cần cộng tất cả số tiền nhận được và tìm chỉ số cuối cùng y. Việc tính toán với chỉ báo tổng xy sẽ khó hơn một chút. Nếu các khoảng nhỏ, chúng ta có thể lấy chỉ báo x một cách có điều kiện cho tất cả các đơn vị (trong nhóm) là giống nhau. Bạn nên nhân nó với tổng của y để tìm ra tổng của các tích của x và y. Tiếp theo, tất cả số tiền được cộng lại với nhau và thu được tổng số xy.

Phương trình hồi quy nhiều cặp: đánh giá tầm quan trọng của mối quan hệ

Như đã thảo luận trước đó, hồi quy bội có hàm dạng y = f (x 1,x 2,…,x m)+E. Thông thường, phương trình như vậy được sử dụng để giải quyết vấn đề cung và cầu đối với một sản phẩm, thu nhập lãi từ cổ phiếu được mua lại và để nghiên cứu nguyên nhân cũng như loại hàm chi phí sản xuất. Nó cũng được sử dụng tích cực trong nhiều nghiên cứu và tính toán kinh tế vĩ mô, nhưng ở cấp độ kinh tế vi mô, phương trình này ít được sử dụng hơn một chút.

Nhiệm vụ chính của hồi quy bội là xây dựng một mô hình dữ liệu chứa một lượng thông tin khổng lồ để xác định thêm những gì ảnh hưởng đến từng yếu tố riêng lẻ và trong tổng thể của chúng đối với chỉ báo cần được mô hình hóa và các hệ số của nó. Phương trình hồi quy có thể có nhiều giá trị khác nhau. Trong trường hợp này, để đánh giá mối quan hệ, hai loại hàm thường được sử dụng: tuyến tính và phi tuyến.

Hàm tuyến tính được biểu diễn dưới dạng quan hệ sau: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. Trong trường hợp này, a2, a m được coi là hệ số hồi quy “thuần túy”. Chúng cần thiết để mô tả sự thay đổi trung bình của tham số y với sự thay đổi (giảm hoặc tăng) ở mỗi tham số x tương ứng một đơn vị, với điều kiện giá trị ổn định của các chỉ số khác.

Ví dụ, các phương trình phi tuyến có dạng hàm lũy thừa y=ax 1 b1 x 2 b2 ...x m bm. Trong trường hợp này, các chỉ số b 1, b 2..... b m được gọi là hệ số đàn hồi, chúng cho thấy kết quả sẽ thay đổi như thế nào (bao nhiêu%) khi chỉ báo x tương ứng tăng (giảm) 1% và với một chỉ số ổn định của các yếu tố khác.

Những yếu tố nào cần được tính đến khi xây dựng hồi quy bội

Để xây dựng hồi quy bội đúng, cần tìm ra yếu tố nào cần đặc biệt chú ý.

Cần phải có một số hiểu biết về bản chất của mối quan hệ giữa các yếu tố kinh tế và những gì đang được mô hình hóa. Các yếu tố cần đưa vào phải đáp ứng các tiêu chí sau:

  • Phải được đo lường định lượng. Để sử dụng một yếu tố mô tả chất lượng của một đối tượng, trong mọi trường hợp nó phải được đưa ra ở dạng định lượng.
  • Không nên có sự tương quan giữa các yếu tố hoặc mối quan hệ chức năng. Những hành động như vậy thường dẫn đến những hậu quả không thể khắc phục được - hệ phương trình thông thường trở nên vô điều kiện và điều này kéo theo những ước tính không đáng tin cậy và không rõ ràng.
  • Trong trường hợp chỉ báo tương quan rất lớn, không có cách nào để tìm ra ảnh hưởng riêng biệt của các yếu tố đến kết quả cuối cùng của chỉ báo, do đó, các hệ số trở nên không thể giải thích được.

Phương pháp xây dựng

Có rất nhiều phương pháp và phương pháp giải thích cách bạn có thể chọn các thừa số cho một phương trình. Tuy nhiên, tất cả các phương pháp này đều dựa trên việc lựa chọn các hệ số sử dụng chỉ báo tương quan. Trong số đó có:

  • Phương pháp loại bỏ.
  • Phương pháp chuyển đổi.
  • Phân tích hồi quy từng bước.

Phương pháp đầu tiên liên quan đến việc lọc ra tất cả các hệ số từ tập hợp tổng. Phương pháp thứ hai liên quan đến việc giới thiệu nhiều yếu tố bổ sung. Vâng, thứ ba là loại bỏ các yếu tố đã được sử dụng trước đây cho phương trình. Mỗi phương pháp này đều có quyền tồn tại. Chúng đều có ưu và nhược điểm, nhưng chúng đều có thể giải quyết vấn đề loại bỏ các chỉ số không cần thiết theo cách riêng của mình. Theo quy định, kết quả thu được của từng phương pháp riêng lẻ khá gần nhau.

Phương pháp phân tích đa biến

Các phương pháp xác định các yếu tố như vậy dựa trên việc xem xét sự kết hợp riêng lẻ của các đặc điểm có liên quan với nhau. Chúng bao gồm phân tích phân biệt, nhận dạng hình dạng, phân tích thành phần chính và phân tích cụm. Ngoài ra còn có phương pháp phân tích nhân tố nhưng nó xuất hiện do sự phát triển của phương pháp thành phần. Tất cả đều áp dụng trong những trường hợp nhất định, tùy thuộc vào những điều kiện và yếu tố nhất định.

Khái niệm hồi quy. Sự phụ thuộc giữa các biến xy có thể được mô tả theo những cách khác nhau. Đặc biệt, bất kỳ dạng kết nối nào cũng có thể được biểu diễn bằng một phương trình tổng quát, trong đó yđược coi là một biến phụ thuộc, hoặc chức năng từ một biến khác - biến độc lập x, được gọi là lý lẽ. Sự tương ứng giữa một đối số và một hàm có thể được xác định bằng bảng, công thức, đồ thị, v.v. Việc thay đổi một hàm tùy thuộc vào sự thay đổi của một hoặc nhiều đối số được gọi là hồi quy. Tất cả các phương tiện được sử dụng để mô tả mối tương quan đều cấu thành nên nội dung Phân tích hồi quy.

Để biểu thị hồi quy, phương trình tương quan hoặc phương trình hồi quy, chuỗi hồi quy được tính toán theo kinh nghiệm và lý thuyết, đồ thị của chúng, được gọi là đường hồi quy, cũng như hệ số hồi quy tuyến tính và phi tuyến được sử dụng.

Các chỉ số hồi quy thể hiện mối quan hệ tương quan song phương, có tính đến sự thay đổi về giá trị trung bình của đặc tính Y khi thay đổi giá trị x Tôi dấu hiệu X và ngược lại, cho thấy sự thay đổi về giá trị trung bình của đặc tính X theo giá trị thay đổi y Tôi dấu hiệu Y. Ngoại lệ là chuỗi thời gian hoặc chuỗi thời gian, hiển thị những thay đổi về đặc điểm theo thời gian. Sự hồi quy của chuỗi như vậy là một chiều.

Có nhiều hình thức và loại tương quan khác nhau. Nhiệm vụ bao gồm việc xác định dạng kết nối trong từng trường hợp cụ thể và biểu thị nó bằng phương trình tương quan tương ứng, cho phép chúng ta dự đoán những thay đổi có thể có trong một đặc tính. Y dựa trên những thay đổi đã biết ở một nơi khác X, liên quan đến mối tương quan đầu tiên.

12.1 Hồi quy tuyến tính

Phương trình hồi quy. Kết quả quan sát được thực hiện trên một đối tượng sinh học cụ thể dựa trên các đặc điểm tương quan xy, có thể được biểu diễn bằng các điểm trên mặt phẳng bằng cách xây dựng hệ tọa độ hình chữ nhật. Kết quả là một loại sơ đồ phân tán cho phép người ta đánh giá hình thức và mức độ gần gũi của mối quan hệ giữa các đặc điểm khác nhau. Thông thường, mối quan hệ này trông giống như một đường thẳng hoặc có thể gần đúng bằng một đường thẳng.

Mối quan hệ tuyến tính giữa các biến xyđược mô tả bằng một phương trình tổng quát, trong đó A B C D,... – tham số của phương trình xác định mối quan hệ giữa các đối số x 1 , x 2 , x 3 , …, x tôi và chức năng.

Trong thực tế, không phải tất cả các đối số có thể đều được tính đến mà chỉ một số đối số; trong trường hợp đơn giản nhất, chỉ có một:

Trong phương trình hồi quy tuyến tính (1) Một là thuật ngữ tự do và tham số b xác định độ dốc của đường hồi quy so với các trục tọa độ hình chữ nhật. Trong hình học giải tích, tham số này được gọi là dốc, và trong sinh trắc học – hệ số hồi quy. Hình ảnh trực quan của tham số này và vị trí của các đường hồi quy Y Qua XX Qua Y trong hệ tọa độ chữ nhật cho Hình 1.

Cơm. 1 Đường hồi quy của Y theo X và X theo Y trong hệ thống

Tọa độ hình chữ nhật

Các đường hồi quy như hình 1 cắt nhau tại điểm O (,), tương ứng với các giá trị trung bình số học của các đặc tính tương quan với nhau YX. Khi xây dựng đồ thị hồi quy, các giá trị của biến độc lập X được vẽ dọc theo trục hoành, còn các giá trị của biến phụ thuộc hay hàm Y được vẽ dọc theo trục hoành. Đường AB đi qua điểm O (, ) tương ứng với mối quan hệ (chức năng) đầy đủ giữa các biến YX, khi hệ số tương quan . Sự liên kết giữa YX, các đường hồi quy càng gần AB và ngược lại, mối liên hệ giữa các đại lượng này càng yếu thì các đường hồi quy càng xa AB. Nếu không có mối liên hệ giữa các đặc điểm thì các đường hồi quy vuông góc với nhau và .

Vì các chỉ số hồi quy thể hiện mối quan hệ tương quan song phương nên phương trình hồi quy (1) nên được viết như sau:

Công thức đầu tiên xác định giá trị trung bình khi đặc tính thay đổi X trên một đơn vị đo, đối với giá trị thứ hai - trung bình khi thay đổi một đơn vị đo của thuộc tính Y.

Hệ số hồi quy. Hệ số hồi quy cho biết giá trị trung bình của một đặc tính là bao nhiêu y thay đổi khi thước đo của cái khác, tương quan với, thay đổi bởi cái này Y dấu hiệu X. Chỉ tiêu này được xác định theo công thức

Đây là những giá trị S nhân với kích thước của các khoảng lớp λ , nếu chúng được tìm thấy từ chuỗi biến thể hoặc bảng tương quan.

Hệ số hồi quy có thể được tính mà không cần tính độ lệch chuẩn S yS x theo công thức

Trường hợp chưa biết hệ số tương quan thì hệ số hồi quy được xác định như sau:

Mối liên hệ giữa hồi quy và hệ số tương quan. So sánh công thức (11.1) (đề 11) và (12.5), ta thấy: tử số của chúng có cùng giá trị thể hiện mối liên hệ giữa các chỉ tiêu này. Mối quan hệ này được thể hiện bằng sự bình đẳng

Như vậy, hệ số tương quan bằng giá trị trung bình hình học của các hệ số b yxb xy. Công thức (6) trước hết cho phép dựa trên các giá trị đã biết của các hệ số hồi quy b yxb xy xác định hệ số hồi quy R xy và thứ hai, kiểm tra tính đúng đắn của phép tính chỉ báo tương quan này R xy giữa các đặc điểm khác nhau XY.

Giống như hệ số tương quan, hệ số hồi quy chỉ đặc trưng cho mối quan hệ tuyến tính và đi kèm với dấu cộng cho mối quan hệ tích cực và dấu trừ cho mối quan hệ tiêu cực.

Xác định các tham số hồi quy tuyến tính.Được biết, tổng bình phương độ lệch là một biến thể x Tôi từ giá trị trung bình là giá trị nhỏ nhất, tức là Định lý này tạo thành cơ sở của phương pháp bình phương tối thiểu. Về hồi quy tuyến tính [xem công thức (1)] yêu cầu của định lý này được thỏa mãn bởi một hệ phương trình nhất định gọi là Bình thường:

Giải pháp chung của các phương trình này đối với các tham số Mộtb dẫn đến các kết quả sau:

;

;

, từ đâu và.

Xem xét tính chất hai chiều của mối quan hệ giữa các biến YX, công thức xác định tham số MỘT nên được thể hiện như thế này:

Và . (7)

Tham số b, hay hệ số hồi quy, được xác định theo công thức sau:

Xây dựng chuỗi hồi quy thực nghiệm. Nếu có nhiều quan sát, phân tích hồi quy bắt đầu bằng việc xây dựng chuỗi hồi quy thực nghiệm. Chuỗi hồi quy thực nghiệmđược hình thành bằng cách tính toán các giá trị của một đặc tính khác nhau X giá trị trung bình của người khác, tương quan với X dấu hiệu Y. Nói cách khác, việc xây dựng chuỗi hồi quy thực nghiệm bắt nguồn từ việc tìm giá trị trung bình của nhóm từ các giá trị tương ứng của đặc điểm Y và X.

Chuỗi hồi quy thực nghiệm là một chuỗi kép các số có thể được biểu diễn bằng các điểm trên mặt phẳng và sau đó, bằng cách kết nối các điểm này với các đoạn thẳng, có thể thu được đường hồi quy thực nghiệm. Chuỗi hồi quy thực nghiệm, đặc biệt là đồ thị của chúng, được gọi là đường hồi quy, đưa ra ý tưởng rõ ràng về hình thức và mức độ gần gũi của mối tương quan giữa các đặc điểm khác nhau.

Căn chỉnh chuỗi hồi quy thực nghiệm.Đồ thị của chuỗi hồi quy thực nghiệm thường không phải là những đường thẳng mà là những đường đứt đoạn. Điều này được giải thích bởi thực tế là, cùng với các nguyên nhân chính quyết định mô hình chung về tính biến thiên của các đặc điểm tương quan, độ lớn của chúng bị ảnh hưởng bởi ảnh hưởng của nhiều nguyên nhân phụ gây ra biến động ngẫu nhiên ở các điểm nút của hồi quy. Để xác định xu hướng (xu hướng) chính của sự biến thiên liên hợp của các đặc tính tương quan, cần thay thế các đường gãy bằng các đường hồi quy chạy trơn tru, trôi chảy. Quá trình thay thế những đường gãy bằng những đường trơn được gọi là sự liên kết của chuỗi thực nghiệmđường hồi quy.

Phương pháp căn chỉnh đồ họa.Đây là phương pháp đơn giản nhất không yêu cầu công việc tính toán. Bản chất của nó tóm tắt như sau. Chuỗi hồi quy thực nghiệm được mô tả dưới dạng biểu đồ trong hệ tọa độ hình chữ nhật. Sau đó, các điểm giữa của hồi quy được phác thảo một cách trực quan, dọc theo đó một đường liền nét được vẽ bằng thước hoặc mẫu. Nhược điểm của phương pháp này là rõ ràng: nó không loại trừ ảnh hưởng của các đặc tính riêng lẻ của nhà nghiên cứu đến kết quả căn chỉnh các đường hồi quy thực nghiệm. Do đó, trong trường hợp cần độ chính xác cao hơn khi thay thế các đường hồi quy bị đứt bằng các đường hồi quy trơn thì các phương pháp căn chỉnh chuỗi thực nghiệm khác sẽ được sử dụng.

Phương pháp trung bình động. Bản chất của phương pháp này là tính toán tuần tự các giá trị trung bình số học từ hai hoặc ba số hạng liền kề của chuỗi thực nghiệm. Phương pháp này đặc biệt thuận tiện trong trường hợp chuỗi thực nghiệm được biểu thị bằng một số lượng lớn các số hạng, do đó việc mất đi hai trong số chúng - những số hạng cực trị, điều không thể tránh khỏi với phương pháp căn chỉnh này, sẽ không ảnh hưởng đáng kể đến cấu trúc của nó.

Phương pháp bình phương tối thiểu. Phương pháp này được đề xuất vào đầu thế kỷ 19 bởi A.M. Legendre và, độc lập với ông, K. Gauss. Nó cho phép bạn căn chỉnh chính xác nhất chuỗi kinh nghiệm. Phương pháp này, như được trình bày ở trên, dựa trên giả định rằng tổng độ lệch bình phương là một tùy chọn x Tôi từ mức trung bình của chúng có một giá trị tối thiểu, tức là. Do đó, tên của phương pháp này không chỉ được sử dụng trong sinh thái học mà còn trong công nghệ. Phương pháp bình phương tối thiểu là khách quan và phổ quát; nó được sử dụng trong nhiều trường hợp khi tìm các phương trình thực nghiệm cho chuỗi hồi quy và xác định các tham số của chúng.

Yêu cầu của phương pháp bình phương tối thiểu là các điểm lý thuyết của đường hồi quy phải đạt được sao cho tổng bình phương độ lệch so với các điểm này đối với các quan sát thực nghiệm. y Tôi là tối thiểu, tức là

Bằng cách tính mức tối thiểu của biểu thức này theo các nguyên tắc phân tích toán học và biến đổi nó theo một cách nhất định, người ta có thể thu được một hệ thống gọi là phương trình bình thường, trong đó các giá trị chưa biết là các tham số bắt buộc của phương trình hồi quy và các hệ số đã biết được xác định bởi các giá trị thực nghiệm của các đặc tính, thường là tổng các giá trị và tích chéo của chúng.

Hồi quy tuyến tính bội. Mối quan hệ giữa một số biến thường được biểu thị bằng phương trình hồi quy bội, có thể tuyến tínhphi tuyến. Ở dạng đơn giản nhất, hồi quy bội được biểu thị dưới dạng phương trình với hai biến độc lập ( x, z):

Ở đâu Một– số hạng tự do của phương trình; bc– các tham số của phương trình. Để tìm các tham số của phương trình (10) (sử dụng phương pháp bình phương tối thiểu), người ta sử dụng hệ phương trình chuẩn sau:

Chuỗi năng động. Căn chỉnh các hàng. Những thay đổi về đặc điểm theo thời gian được gọi là chuỗi thời gian hoặc chuỗi động lực học. Đặc điểm đặc trưng của những chuỗi như vậy là biến độc lập X ở đây luôn là yếu tố thời gian và biến phụ thuộc Y là đặc điểm thay đổi. Tùy thuộc vào chuỗi hồi quy, mối quan hệ giữa các biến X và Y là một chiều, vì hệ số thời gian không phụ thuộc vào độ biến thiên của các đặc tính. Bất chấp những đặc điểm này, chuỗi động lực có thể được coi là chuỗi hồi quy và được xử lý bằng các phương pháp tương tự.

Giống như chuỗi hồi quy, chuỗi động lực thực nghiệm không chỉ bị ảnh hưởng bởi những yếu tố chính mà còn bởi nhiều yếu tố phụ (ngẫu nhiên) che khuất xu hướng chính về tính biến thiên của các đặc điểm, mà theo ngôn ngữ thống kê được gọi là xu hướng.

Phân tích chuỗi thời gian bắt đầu bằng việc xác định hình dạng của xu hướng. Để làm điều này, chuỗi thời gian được mô tả dưới dạng biểu đồ đường trong hệ tọa độ hình chữ nhật. Trong trường hợp này, các điểm thời gian (năm, tháng và các đơn vị thời gian khác) được vẽ dọc theo trục hoành độ và các giá trị của biến phụ thuộc Y được vẽ dọc theo trục tọa độ. Nếu có mối quan hệ tuyến tính giữa các biến X và Y (xu hướng tuyến tính), phương pháp bình phương tối thiểu là thích hợp nhất để căn chỉnh chuỗi thời gian là phương trình hồi quy dưới dạng độ lệch các số hạng của chuỗi của biến phụ thuộc Y so với trung bình số học của chuỗi độc lập. biến X:

Đây là tham số hồi quy tuyến tính.

Đặc tính số của chuỗi động lực. Các đặc tính số tổng quát chính của chuỗi động lực học bao gồm trung bình hình học và một trung bình số học gần với nó. Chúng mô tả tốc độ trung bình mà tại đó giá trị của biến phụ thuộc thay đổi trong một khoảng thời gian nhất định:

Việc đánh giá tính biến thiên của các thành phần trong chuỗi động lực là độ lệch chuẩn. Khi chọn các phương trình hồi quy để mô tả chuỗi thời gian, hình dạng của xu hướng sẽ được tính đến, có thể là tuyến tính (hoặc giảm xuống tuyến tính) và phi tuyến. Tính đúng đắn của việc lựa chọn phương trình hồi quy thường được đánh giá bởi sự giống nhau của các giá trị được quan sát và tính toán theo kinh nghiệm của biến phụ thuộc. Một giải pháp chính xác hơn cho vấn đề này là phân tích hồi quy phương pháp phương sai (chủ đề 12, đoạn 4).

Sự tương quan của chuỗi thời gian. Thường cần phải so sánh động lực của các chuỗi thời gian song song có liên quan với nhau bởi những điều kiện chung nhất định, chẳng hạn để tìm ra mối quan hệ giữa sản xuất nông nghiệp và sự tăng trưởng số lượng vật nuôi trong một khoảng thời gian nhất định. Trong những trường hợp như vậy, đặc điểm của mối quan hệ giữa biến X và Y là Hệ số tương quan R xy (khi có xu hướng tuyến tính).

Được biết, xu hướng của chuỗi thời gian, như một quy luật, bị che khuất bởi những biến động trong chuỗi của biến phụ thuộc Y. Điều này dẫn đến một vấn đề gồm hai mặt: đo lường sự phụ thuộc giữa các chuỗi được so sánh, không loại trừ xu hướng, và đo lường sự phụ thuộc giữa các chuỗi được so sánh, mà không loại trừ xu hướng. sự phụ thuộc giữa các thành viên lân cận của cùng một chuỗi, loại trừ xu hướng. Trong trường hợp đầu tiên, chỉ số về mức độ gần gũi của mối liên hệ giữa chuỗi thời gian được so sánh là Hệ số tương quan(nếu mối quan hệ là tuyến tính), trong trường hợp thứ hai – hệ số tự tương quan. Các chỉ số này có ý nghĩa khác nhau, mặc dù chúng được tính bằng cùng một công thức (xem chủ đề 11).

Dễ dàng nhận thấy giá trị của hệ số tự tương quan bị ảnh hưởng bởi độ biến thiên của các thành viên chuỗi của biến phụ thuộc: các thành viên chuỗi càng ít lệch khỏi xu hướng thì hệ số tự tương quan càng cao và ngược lại.

Phân tích hồi quy là phương pháp thiết lập biểu thức phân tích cho sự phụ thuộc ngẫu nhiên giữa các đặc điểm đang nghiên cứu. Phương trình hồi quy cho thấy mức trung bình thay đổi như thế nào Tại khi thay đổi bất kỳ x Tôi , và có dạng:

Ở đâu y - biến phụ thuộc (nó luôn giống nhau);

X Tôi - các biến (yếu tố) độc lập (có thể có một vài trong số chúng).

Nếu chỉ có một biến độc lập thì đây là phân tích hồi quy đơn giản. Nếu có một vài trong số họ ( P 2), thì việc phân tích như vậy được gọi là đa yếu tố.

Phân tích hồi quy giải quyết hai vấn đề chính:

    xây dựng một phương trình hồi quy, tức là tìm ra loại mối quan hệ giữa chỉ số kết quả và các yếu tố độc lập x 1 , x 2 , …, x N .

    đánh giá tầm quan trọng của phương trình kết quả, tức là xác định mức độ đặc điểm của yếu tố được lựa chọn giải thích sự biến đổi của một đặc điểm bạn.

Phân tích hồi quy được sử dụng chủ yếu để lập kế hoạch cũng như để phát triển khung pháp lý.

Không giống như phân tích tương quan, chỉ trả lời câu hỏi liệu có mối quan hệ giữa các đặc điểm được phân tích hay không, phân tích hồi quy cũng cung cấp biểu thức chính thức của nó. Ngoài ra, nếu phân tích tương quan nghiên cứu bất kỳ mối quan hệ nào giữa các yếu tố, thì phân tích hồi quy nghiên cứu sự phụ thuộc một phía, tức là. một mối quan hệ cho thấy sự thay đổi trong đặc điểm của yếu tố ảnh hưởng như thế nào đến đặc tính hiệu quả.

Phân tích hồi quy là một trong những phương pháp thống kê toán học phát triển nhất. Nói đúng ra, để thực hiện phân tích hồi quy cần phải đáp ứng một số yêu cầu đặc biệt (cụ thể là x tôi ,x 2 ,...,x N ;y phải là các biến ngẫu nhiên độc lập, có phân phối chuẩn với phương sai không đổi). Trong thực tế, việc tuân thủ nghiêm ngặt các yêu cầu của phân tích hồi quy và tương quan là rất hiếm, nhưng cả hai phương pháp này đều rất phổ biến trong nghiên cứu kinh tế. Sự phụ thuộc trong kinh tế học không chỉ có thể trực tiếp mà còn có thể nghịch đảo và phi tuyến tính. Một mô hình hồi quy có thể được xây dựng khi có bất kỳ sự phụ thuộc nào, tuy nhiên, trong phân tích đa biến chỉ sử dụng các mô hình tuyến tính có dạng:

Phương trình hồi quy được xây dựng, theo quy tắc, sử dụng phương pháp bình phương tối thiểu, bản chất của phương pháp này là giảm thiểu tổng độ lệch bình phương của các giá trị thực của đặc tính thu được từ các giá trị tính toán của nó, tức là:

Ở đâu T - số lượng quan sát;

j =a+b 1 x 1 j + b 2 x 2 j + ... + b N X N j - giá trị tính toán của hệ số kết quả.

Nên xác định hệ số hồi quy bằng cách sử dụng các gói phân tích cho máy tính cá nhân hoặc máy tính tài chính đặc biệt. Trong trường hợp đơn giản nhất, các hệ số hồi quy của phương trình hồi quy tuyến tính một nhân tố có dạng y = a + bx có thể được tìm thấy bằng cách sử dụng các công thức:

Phân tích cluster

Phân tích cụm là một trong những phương pháp phân tích đa chiều nhằm mục đích nhóm (phân cụm) một quần thể có các phần tử được đặc trưng bởi nhiều đặc điểm. Các giá trị của từng đặc điểm đóng vai trò là tọa độ của từng đơn vị dân số được nghiên cứu trong không gian đa chiều của các đặc điểm. Mỗi quan sát, được đặc trưng bởi các giá trị của một số chỉ báo, có thể được biểu diễn dưới dạng một điểm trong không gian của các chỉ báo này, các giá trị của chúng được coi là tọa độ trong không gian đa chiều. Khoảng cách giữa các điểm Rq Với k tọa độ được xác định là:

Tiêu chí chính để phân cụm là sự khác biệt giữa các cụm phải lớn hơn so với giữa các quan sát được gán cho cùng một cụm, tức là. trong không gian đa chiều phải tuân theo sự bất đẳng thức sau:

Ở đâu r 1, 2 - khoảng cách giữa cụm 1 và 2.

Cũng giống như các quy trình phân tích hồi quy, quy trình phân cụm khá tốn công sức, nên thực hiện trên máy tính.

Trong mô hình thống kê, phân tích hồi quy là một nghiên cứu được sử dụng để đánh giá mối quan hệ giữa các biến. Phương pháp toán học này bao gồm nhiều phương pháp khác để lập mô hình và phân tích nhiều biến, trong đó trọng tâm là mối quan hệ giữa một biến phụ thuộc và một hoặc nhiều biến độc lập. Cụ thể hơn, phân tích hồi quy giúp chúng ta hiểu giá trị điển hình của một biến phụ thuộc thay đổi như thế nào nếu một trong các biến độc lập thay đổi trong khi các biến độc lập khác vẫn cố định.

Trong mọi trường hợp, ước tính mục tiêu là hàm của các biến độc lập và được gọi là hàm hồi quy. Trong phân tích hồi quy, điều quan tâm là mô tả sự thay đổi của biến phụ thuộc như một hàm hồi quy, có thể được mô tả bằng cách sử dụng phân bố xác suất.

Vấn đề phân tích hồi quy

Phương pháp nghiên cứu thống kê này được sử dụng rộng rãi để dự báo, trong đó việc sử dụng nó có lợi thế đáng kể, nhưng đôi khi nó có thể dẫn đến ảo tưởng hoặc các mối quan hệ sai lầm, vì vậy nên sử dụng nó một cách cẩn thận trong vấn đề nói trên, vì chẳng hạn như tương quan không có nghĩa là nhân quả.

Một số lượng lớn các phương pháp đã được phát triển để phân tích hồi quy, chẳng hạn như hồi quy bình phương tối thiểu tuyến tính và bình phương nhỏ nhất thông thường, là phương pháp tham số. Bản chất của chúng là hàm hồi quy được xác định theo số lượng hữu hạn các tham số chưa biết được ước tính từ dữ liệu. Hồi quy không tham số cho phép hàm của nó nằm trong một tập hợp hàm cụ thể, có thể là vô hạn chiều.

Là một phương pháp nghiên cứu thống kê, phân tích hồi quy trong thực tế phụ thuộc vào hình thức của quá trình tạo dữ liệu và mối liên hệ của nó với phương pháp hồi quy. Vì dạng thực của quá trình tạo dữ liệu thường là một số không xác định nên việc phân tích hồi quy dữ liệu thường phụ thuộc ở một mức độ nào đó vào các giả định về quy trình. Những giả định này đôi khi có thể kiểm chứng được nếu có đủ dữ liệu. Các mô hình hồi quy thường hữu ích ngay cả khi các giả định bị vi phạm ở mức độ vừa phải, mặc dù chúng có thể không hoạt động ở hiệu suất cao nhất.

Theo nghĩa hẹp hơn, hồi quy có thể đề cập cụ thể đến việc ước tính các biến phản hồi liên tục, trái ngược với các biến phản hồi rời rạc được sử dụng trong phân loại. Trường hợp biến đầu ra liên tục còn được gọi là hồi quy số liệu để phân biệt với các vấn đề liên quan.

Câu chuyện

Hình thức hồi quy sớm nhất là phương pháp bình phương tối thiểu nổi tiếng. Nó được Legendre công bố năm 1805 và Gauss năm 1809. Legendre và Gauss đã áp dụng phương pháp này cho bài toán xác định từ quan sát thiên văn quỹ đạo của các vật thể quay quanh Mặt trời (chủ yếu là sao chổi, nhưng sau này cũng có các hành tinh nhỏ mới được phát hiện). Gauss công bố sự phát triển tiếp theo của lý thuyết bình phương tối thiểu vào năm 1821, bao gồm một phiên bản của định lý Gauss–Markov.

Thuật ngữ “hồi quy” được Francis Galton đặt ra vào thế kỷ 19 để mô tả một hiện tượng sinh học. Ý tưởng là chiều cao của con cháu so với tổ tiên của họ có xu hướng giảm xuống mức trung bình bình thường. Đối với Galton, hồi quy chỉ có ý nghĩa sinh học này, nhưng sau đó công trình của ông được Udney Yoley và Karl Pearson tiếp tục và đưa vào bối cảnh thống kê tổng quát hơn. Trong nghiên cứu của Yule và Pearson, sự phân phối chung của các biến phản ứng và giải thích được giả định là Gaussian. Giả định này đã bị Fischer bác bỏ trong các bài báo năm 1922 và 1925. Fisher gợi ý rằng phân phối có điều kiện của biến phản hồi là Gaussian, nhưng phân phối chung thì không nhất thiết phải như vậy. Về mặt này, đề xuất của Fischer gần với công thức của Gauss năm 1821 hơn. Trước năm 1970, đôi khi phải mất tới 24 giờ mới có được kết quả phân tích hồi quy.

Phương pháp phân tích hồi quy tiếp tục là một lĩnh vực nghiên cứu tích cực. Trong những thập kỷ gần đây, các phương pháp mới đã được phát triển để hồi quy mạnh mẽ; hồi quy liên quan đến các phản ứng tương quan; phương pháp hồi quy phù hợp với các loại dữ liệu bị thiếu khác nhau; hồi quy không tham số; phương pháp hồi quy Bayes; hồi quy trong đó các biến dự đoán được đo lường có sai số; hồi quy với nhiều yếu tố dự đoán hơn là quan sát và suy luận nguyên nhân và kết quả với hồi quy.

Mô hình hồi quy

Mô hình phân tích hồi quy bao gồm các biến sau:

  • Tham số không xác định, beta được chỉ định, có thể là vô hướng hoặc vectơ.
  • Các biến độc lập, X.
  • Các biến phụ thuộc, Y.

Các lĩnh vực khoa học khác nhau sử dụng phân tích hồi quy, sử dụng các thuật ngữ khác nhau thay cho các biến phụ thuộc và độc lập, nhưng trong mọi trường hợp, mô hình hồi quy liên hệ Y với hàm của X và β.

Phép tính gần đúng thường được viết là E(Y | X) = F(X, β). Để thực hiện phân tích hồi quy, loại hàm f phải được xác định. Ít phổ biến hơn, nó dựa trên kiến ​​thức về mối quan hệ giữa Y và X, không dựa vào dữ liệu. Nếu kiến ​​thức đó không có thì chọn hình thức F linh hoạt hoặc thuận tiện.

Biến phụ thuộc Y

Bây giờ chúng ta giả sử rằng vectơ có tham số chưa biết β có độ dài k. Để thực hiện phân tích hồi quy, người dùng phải cung cấp thông tin về biến phụ thuộc Y:

  • Nếu N điểm dữ liệu có dạng (Y, X) được quan sát, trong đó N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Nếu quan sát chính xác N = K và hàm F là tuyến tính thì phương trình Y = F(X, β) có thể được giải một cách chính xác thay vì xấp xỉ. Điều này tương đương với việc giải một tập hợp các phương trình N với N-ẩn số (các phần tử β) có nghiệm duy nhất miễn là X độc lập tuyến tính. Nếu F phi tuyến thì có thể không có nghiệm hoặc có thể tồn tại nhiều nghiệm.
  • Tình huống phổ biến nhất là khi quan sát thấy N > điểm dữ liệu. Trong trường hợp này, có đủ thông tin trong dữ liệu để ước tính một giá trị duy nhất cho β phù hợp nhất với dữ liệu và mô hình hồi quy trong đó ứng dụng vào dữ liệu có thể được xem như một hệ thống được xác định quá mức trong β.

Trong trường hợp sau, phân tích hồi quy cung cấp các công cụ để:

  • Tìm nghiệm cho các tham số chưa biết β, ví dụ, sẽ giảm thiểu khoảng cách giữa giá trị đo được và giá trị dự đoán của Y.
  • Theo các giả định thống kê nhất định, phân tích hồi quy sử dụng thông tin dư thừa để cung cấp thông tin thống kê về các tham số chưa biết β và các giá trị dự đoán của biến phụ thuộc Y.

Số lượng phép đo độc lập cần thiết

Hãy xem xét một mô hình hồi quy có ba tham số chưa biết: β 0 , β 1 và β 2 . Giả sử người thí nghiệm thực hiện 10 phép đo trên cùng một giá trị của vectơ biến độc lập X. Trong trường hợp này, phân tích hồi quy không tạo ra một tập hợp giá trị duy nhất. Điều tốt nhất bạn có thể làm là ước tính giá trị trung bình và độ lệch chuẩn của biến phụ thuộc Y. Tương tự, bằng cách đo hai giá trị khác nhau của X, bạn có thể thu được đủ dữ liệu để hồi quy với hai ẩn số, nhưng không phải với ba ẩn số trở lên.

Nếu phép đo của người thí nghiệm được thực hiện ở ba giá trị khác nhau của vectơ biến độc lập X, thì phân tích hồi quy sẽ cung cấp một bộ ước tính duy nhất cho ba tham số chưa biết trong β.

Trong trường hợp hồi quy tuyến tính tổng quát, phát biểu trên tương đương với yêu cầu ma trận X T X khả nghịch.

Giả định thống kê

Khi số lượng phép đo N lớn hơn số lượng tham số k chưa biết và sai số đo ε i, thì theo quy luật, thông tin dư thừa có trong các phép đo sẽ được phổ biến và sử dụng để dự đoán thống kê về các tham số chưa biết. Thông tin dư thừa này được gọi là mức độ tự do hồi quy.

Giả định cơ bản

Các giả định cổ điển cho phân tích hồi quy bao gồm:

  • Lấy mẫu là đại diện của dự đoán suy luận.
  • Sai số là một biến ngẫu nhiên có giá trị trung bình bằng 0, phụ thuộc vào các biến giải thích.
  • Các biến độc lập được đo lường không có sai số.
  • Là các biến độc lập (các yếu tố dự đoán), chúng độc lập tuyến tính, nghĩa là không thể biểu thị bất kỳ yếu tố dự đoán nào dưới dạng kết hợp tuyến tính của các yếu tố khác.
  • Các sai số không tương quan, tức là ma trận hiệp phương sai sai số của các đường chéo và mỗi phần tử khác 0 chính là phương sai sai số.
  • Phương sai sai số là không đổi qua các quan sát (tính đồng nhất). Nếu không, có thể sử dụng bình phương tối thiểu có trọng số hoặc các phương pháp khác.

Những điều kiện đủ để ước lượng bình phương tối thiểu này có các thuộc tính cần thiết; đặc biệt, những giả định này có nghĩa là ước lượng tham số sẽ khách quan, nhất quán và hiệu quả, đặc biệt khi được tính đến trong lớp các công cụ ước lượng tuyến tính. Điều quan trọng cần lưu ý là bằng chứng hiếm khi thỏa mãn các điều kiện. Nghĩa là, phương pháp này được sử dụng ngay cả khi các giả định không đúng. Sự khác biệt so với các giả định đôi khi có thể được sử dụng làm thước đo mức độ hữu ích của mô hình. Nhiều giả định trong số này có thể được nới lỏng bằng các phương pháp tiên tiến hơn. Báo cáo phân tích thống kê thường bao gồm phân tích các thử nghiệm trên dữ liệu mẫu và phương pháp luận về tính hữu ích của mô hình.

Ngoài ra, các biến trong một số trường hợp đề cập đến các giá trị được đo tại các vị trí điểm. Có thể có các xu hướng không gian và sự tự tương quan về mặt không gian trong các biến vi phạm các giả định thống kê. Hồi quy trọng số địa lý là phương pháp duy nhất xử lý dữ liệu đó.

Một đặc điểm của hồi quy tuyến tính là biến phụ thuộc, tức là Yi, là sự kết hợp tuyến tính của các tham số. Ví dụ, hồi quy tuyến tính đơn giản sử dụng một biến độc lập, x i và hai tham số β 0 và β 1 để mô hình hóa n điểm.

Trong hồi quy tuyến tính bội, có nhiều biến hoặc hàm độc lập của chúng.

Khi một mẫu ngẫu nhiên được lấy từ dân số, các tham số của nó cho phép người ta thu được mô hình hồi quy tuyến tính mẫu.

Ở khía cạnh này, phổ biến nhất là phương pháp bình phương tối thiểu. Nó được sử dụng để thu được các ước tính tham số nhằm giảm thiểu tổng số dư bình phương. Kiểu giảm thiểu này (điển hình của hồi quy tuyến tính) của hàm này dẫn đến một tập hợp các phương trình thông thường và một tập hợp các phương trình tuyến tính với các tham số, được giải để thu được ước tính tham số.

Với giả định thêm rằng sai số tổng thể được lan truyền rộng rãi, nhà nghiên cứu có thể sử dụng các ước tính sai số chuẩn này để tạo khoảng tin cậy và tiến hành kiểm tra giả thuyết về các tham số của nó.

Phân tích hồi quy phi tuyến

Một ví dụ trong đó hàm không tuyến tính đối với các tham số chỉ ra rằng tổng bình phương phải được giảm thiểu bằng cách sử dụng quy trình lặp. Điều này đưa ra nhiều sự phức tạp xác định sự khác biệt giữa phương pháp bình phương tối thiểu tuyến tính và phi tuyến. Do đó, kết quả phân tích hồi quy khi sử dụng phương pháp phi tuyến đôi khi không thể đoán trước được.

Tính toán công suất và cỡ mẫu

Nhìn chung không có phương pháp nhất quán nào liên quan đến số lượng quan sát so với số lượng biến độc lập trong mô hình. Quy tắc đầu tiên được Dobra và Hardin đề xuất và có dạng N = t^n, trong đó N là cỡ mẫu, n là số lượng biến độc lập và t là số lượng quan sát cần thiết để đạt được độ chính xác mong muốn nếu mô hình có chỉ có một biến độc lập. Ví dụ: một nhà nghiên cứu xây dựng mô hình hồi quy tuyến tính bằng cách sử dụng bộ dữ liệu chứa 1000 bệnh nhân (N). Nếu nhà nghiên cứu quyết định rằng cần có 5 quan sát để xác định chính xác đường (m), thì số lượng biến độc lập tối đa mà mô hình có thể hỗ trợ là 4.

Các phương pháp khác

Mặc dù các tham số của mô hình hồi quy thường được ước tính bằng phương pháp bình phương tối thiểu, nhưng có những phương pháp khác được sử dụng ít thường xuyên hơn. Ví dụ: đây là các phương pháp sau:

  • Phương pháp Bayesian (ví dụ, hồi quy tuyến tính Bayesian).
  • Hồi quy phần trăm, được sử dụng cho các tình huống trong đó việc giảm lỗi phần trăm được coi là phù hợp hơn.
  • Độ lệch tuyệt đối nhỏ nhất, mạnh hơn khi có các giá trị ngoại lệ dẫn đến hồi quy lượng tử.
  • Hồi quy không tham số, đòi hỏi số lượng lớn các quan sát và tính toán.
  • Một thước đo học từ xa được học để tìm một thước đo khoảng cách có ý nghĩa trong một không gian đầu vào nhất định.

Phần mềm

Tất cả các gói phần mềm thống kê chính đều thực hiện phân tích hồi quy bình phương nhỏ nhất. Hồi quy tuyến tính đơn giản và phân tích hồi quy bội có thể được sử dụng trong một số ứng dụng bảng tính cũng như một số máy tính. Mặc dù nhiều gói phần mềm thống kê có thể thực hiện nhiều loại hồi quy mạnh mẽ và phi tham số khác nhau, nhưng các phương pháp này ít được tiêu chuẩn hóa hơn; các gói phần mềm khác nhau thực hiện các phương pháp khác nhau. Phần mềm hồi quy chuyên dụng đã được phát triển để sử dụng trong các lĩnh vực như phân tích kiểm tra và hình ảnh thần kinh.