Giá trị tới hạn của phép kiểm tra chi bình phương. Điều kiện và hạn chế khi sử dụng phép kiểm chi bình phương Pearson

Việc nghiên cứu định lượng các hiện tượng sinh học nhất thiết đòi hỏi phải tạo ra các giả thuyết để giải thích những hiện tượng này. Để kiểm tra một giả thuyết cụ thể, một loạt các thí nghiệm đặc biệt được thực hiện và dữ liệu thực tế thu được được so sánh với dữ liệu dự kiến ​​​​về mặt lý thuyết theo giả thuyết này. Nếu có sự trùng hợp ngẫu nhiên thì đây có thể là lý do đủ để chấp nhận giả thuyết. Nếu dữ liệu thực nghiệm không phù hợp lắm với dữ liệu dự kiến ​​về mặt lý thuyết thì sẽ nảy sinh nghi ngờ lớn về tính đúng đắn của giả thuyết đề xuất.

Mức độ mà dữ liệu thực tế tương ứng với dự kiến ​​(giả thuyết) được đo bằng kiểm định chi bình phương:

 giá trị quan sát thực tế của đặc tính trong Tôi- số hoặc dấu hiệu (chỉ báo) dự kiến ​​về mặt lý thuyết cho một nhóm nhất định, k-số lượng nhóm dữ liệu.

Tiêu chí này được K. Pearson đề xuất vào năm 1900 và đôi khi được gọi là tiêu chí Pearson.

Nhiệm vụ. Trong số 164 trẻ thừa hưởng yếu tố từ cha hoặc mẹ, có 46 trẻ mắc yếu tố này, 50 trẻ mắc yếu tố này và 68 trẻ mắc cả hai yếu tố. Tính toán tần số dự kiến ​​cho tỷ lệ 1:2:1 giữa các nhóm và xác định mức độ thống nhất của dữ liệu thực nghiệm bằng phép thử Pearson.

Giải pháp: Tỷ lệ tần số quan sát được là 46:68:50, theo lý thuyết dự kiến ​​là 41:82:41.

Hãy đặt mức ý nghĩa là 0,05. Giá trị trong bảng của tiêu chí Pearson cho mức ý nghĩa này với số bậc tự do bằng nhau hóa ra là 5,99. Do đó, giả thuyết về sự tương ứng của dữ liệu thực nghiệm với dữ liệu lý thuyết có thể được chấp nhận, vì, .

Lưu ý rằng khi tính toán kiểm định chi bình phương, chúng ta không còn áp đặt các điều kiện về tính chuẩn tắc tất yếu của phân phối. Kiểm định chi bình phương có thể được sử dụng cho bất kỳ phân bố nào mà chúng ta có thể tự do lựa chọn trong các giả định của mình. Có một số tính phổ quát của tiêu chí này.

Một ứng dụng khác của kiểm định Pearson là so sánh phân bố thực nghiệm với phân bố chuẩn Gauss. Hơn nữa, nó có thể được phân loại thành một nhóm tiêu chí để kiểm tra tính quy phạm của phân phối. Hạn chế duy nhất là tổng số giá trị (tùy chọn) khi sử dụng tiêu chí này phải đủ lớn (ít nhất là 40) và số lượng giá trị trong các lớp (khoảng) riêng lẻ phải ít nhất là 5. Nếu không, các khoảng liền kề nên được kết hợp. Số bậc tự do khi kiểm tra tính chuẩn của phân bố phải được tính như sau:

    1. Tiêu chí Fisher.

Thử nghiệm tham số này được sử dụng để kiểm tra giả thuyết khống rằng phương sai của các quần thể có phân bố chuẩn là bằng nhau.

Hoặc.

Với cỡ mẫu nhỏ, việc sử dụng bài kiểm tra của Học sinh chỉ có thể đúng nếu phương sai bằng nhau. Vì vậy, trước khi kiểm tra sự bằng nhau của các phương tiện mẫu, cần đảm bảo tính hợp lệ của việc sử dụng bài kiểm tra t của Sinh viên.

Ở đâu N 1 , N 2 cỡ mẫu, 1 , 2 số bậc tự do của các mẫu này.

Khi sử dụng bảng, bạn nên chú ý rằng số bậc tự do của mẫu có độ phân tán lớn hơn được chọn làm số cột của bảng và đối với độ phân tán nhỏ hơn làm số hàng của bảng.

Đối với mức ý nghĩa , chúng ta tìm giá trị bảng từ các bảng thống kê toán học. Nếu thì giả thuyết về sự bằng nhau của phương sai bị bác bỏ đối với mức ý nghĩa đã chọn.

Ví dụ. Tác dụng của coban đối với trọng lượng cơ thể của thỏ đã được nghiên cứu. Thí nghiệm được thực hiện trên hai nhóm động vật: thực nghiệm và đối chứng. Các đối tượng thử nghiệm đã nhận được một chất bổ sung chế độ ăn uống dưới dạng dung dịch nước coban clorua. Trong quá trình thí nghiệm, mức tăng cân được tính bằng gam:

Điều khiển

Bộ Giáo dục và Khoa học Liên bang Nga

Cơ quan Giáo dục Liên bang Thành phố Irkutsk

Đại học Kinh tế và Luật bang Baikal

Khoa Tin học và Điều khiển học

Phân bố chi bình phương và ứng dụng của nó

Kolmykova Anna Andreevna

sinh viên năm thứ 2

nhóm IS-09-1

Irkutsk 2010

Giới thiệu

1. Phân bố chi bình phương

Ứng dụng

Phần kết luận

Danh sách tài liệu được sử dụng

Giới thiệu

Những cách tiếp cận, ý tưởng và kết quả của lý thuyết xác suất được sử dụng trong cuộc sống của chúng ta như thế nào?

Cơ sở là mô hình xác suất của một hiện tượng hoặc quá trình thực tế, tức là một mô hình toán học trong đó các mối quan hệ khách quan được thể hiện dưới dạng lý thuyết xác suất. Xác suất được sử dụng chủ yếu để mô tả những điều không chắc chắn phải được tính đến khi đưa ra quyết định. Điều này đề cập đến cả những cơ hội (rủi ro) không mong muốn và những cơ hội hấp dẫn (“cơ hội may mắn”). Đôi khi tính ngẫu nhiên được cố tình đưa vào một tình huống, chẳng hạn như khi rút thăm, chọn ngẫu nhiên các đơn vị để kiểm soát, tiến hành xổ số hoặc tiến hành khảo sát người tiêu dùng.

Lý thuyết xác suất cho phép sử dụng một xác suất để tính toán những xác suất khác mà nhà nghiên cứu quan tâm.

Mô hình xác suất của một hiện tượng hoặc quá trình là nền tảng của thống kê toán học. Hai chuỗi khái niệm song song được sử dụng - những khái niệm liên quan đến lý thuyết (mô hình xác suất) và những khái niệm liên quan đến thực tiễn (lấy mẫu kết quả quan sát). Ví dụ, xác suất lý thuyết tương ứng với tần số tìm thấy từ mẫu. Kỳ vọng toán học (chuỗi lý thuyết) tương ứng với trung bình số học mẫu (chuỗi thực tế). Theo nguyên tắc, các đặc tính của mẫu là ước tính của các đặc tính lý thuyết. Đồng thời, các đại lượng liên quan đến chuỗi lý thuyết “nằm trong đầu các nhà nghiên cứu”, liên quan đến thế giới ý tưởng (theo triết gia Hy Lạp cổ đại Plato), và không có sẵn để đo lường trực tiếp. Các nhà nghiên cứu chỉ có dữ liệu mẫu mà họ cố gắng thiết lập các thuộc tính của mô hình xác suất lý thuyết mà họ quan tâm.

Tại sao chúng ta cần một mô hình xác suất? Thực tế là chỉ với sự trợ giúp của nó, các đặc tính được thiết lập từ việc phân tích một mẫu cụ thể mới có thể được chuyển sang các mẫu khác, cũng như cho toàn bộ cái gọi là tổng thể chung. Thuật ngữ "dân số" được sử dụng khi đề cập đến một tập hợp lớn nhưng hữu hạn các đơn vị đang được nghiên cứu. Ví dụ: về tổng số cư dân của Nga hoặc tổng số người tiêu dùng cà phê hòa tan ở Moscow. Mục tiêu của các cuộc khảo sát tiếp thị hoặc xã hội học là chuyển các tuyên bố thu được từ một mẫu hàng trăm hoặc hàng nghìn người sang quần thể vài triệu người. Trong kiểm soát chất lượng, một lô sản phẩm đóng vai trò như một tổng thể chung.

Để chuyển kết luận từ một mẫu sang một tổng thể lớn hơn đòi hỏi một số giả định về mối quan hệ giữa các đặc điểm của mẫu với các đặc điểm của tổng thể lớn hơn này. Những giả định này dựa trên một mô hình xác suất thích hợp.

Tất nhiên, có thể xử lý dữ liệu mẫu mà không cần sử dụng mô hình xác suất này hay mô hình xác suất khác. Ví dụ: bạn có thể tính trung bình số học mẫu, đếm tần suất đáp ứng các điều kiện nhất định, v.v. Tuy nhiên, kết quả tính toán sẽ chỉ liên quan đến một mẫu cụ thể; việc chuyển các kết luận thu được với sự trợ giúp của chúng cho bất kỳ nhóm dân số nào khác là không chính xác. Hoạt động này đôi khi được gọi là “phân tích dữ liệu”. So với các phương pháp thống kê xác suất, phân tích dữ liệu có giá trị giáo dục hạn chế.

Vì vậy, việc sử dụng các mô hình xác suất dựa trên ước tính và kiểm tra các giả thuyết bằng cách sử dụng các đặc điểm mẫu là bản chất của phương pháp ra quyết định thống kê xác suất.

Phân bố chi bình phương

Bằng cách sử dụng phân phối chuẩn, ba phân phối được xác định hiện nay thường được sử dụng trong xử lý dữ liệu thống kê. Đây là các bản phân phối Pearson (“chi-bình phương”), Sinh viên và Fisher.

Chúng tôi sẽ tập trung vào việc phân phối

(“chi – vuông”). Sự phân bố này lần đầu tiên được nghiên cứu bởi nhà thiên văn học F. Helmert vào năm 1876. Liên quan đến lý thuyết sai số Gaussian, ông đã nghiên cứu tổng bình phương của n biến ngẫu nhiên phân phối chuẩn chuẩn độc lập. Karl Pearson sau này đặt tên cho hàm phân phối này là “chi-square”. Và bây giờ bản phân phối mang tên ông.

Do có mối liên hệ chặt chẽ với phân bố chuẩn nên phân bố χ2 đóng vai trò quan trọng trong lý thuyết xác suất và thống kê toán học. Phân phối χ2 và nhiều phân phối khác được xác định bởi phân phối χ2 (ví dụ: phân phối Sinh viên), mô tả phân phối mẫu của các hàm khác nhau từ kết quả quan sát được phân phối thông thường và được sử dụng để xây dựng khoảng tin cậy và kiểm tra thống kê.

phân phối Pearson

(chi - bình phương) – phân phối của một biến ngẫu nhiên, trong đó X1, X2,..., Xn là các biến ngẫu nhiên độc lập bình thường và kỳ vọng toán học của mỗi biến đó bằng 0 và độ lệch chuẩn là một.

Tổng bình phương


phân phối theo pháp luật

(“chi – vuông”).

Trong trường hợp này, số lượng các điều khoản, tức là. n được gọi là "số bậc tự do" của phân bố chi bình phương. Khi số bậc tự do tăng lên, phân phối dần dần tiến đến mức bình thường.

Mật độ của sự phân bố này


Vì vậy, phân bố của χ2 phụ thuộc vào một tham số n – số bậc tự do.

Hàm phân phối χ2 có dạng:


nếu χ2 ≥ 0. (2.7.)

Hình 1 thể hiện biểu đồ mật độ xác suất và hàm phân bố χ2 cho các bậc tự do khác nhau.

Hình 1 Sự phụ thuộc của mật độ xác suất φ(x) trong phân bố χ2 (chi – bình phương) đối với các số bậc tự do khác nhau.

Mômen phân bố chi bình phương:

Phân phối chi bình phương được sử dụng để ước tính phương sai (sử dụng khoảng tin cậy), kiểm tra các giả thuyết về sự đồng ý, tính đồng nhất, tính độc lập, chủ yếu cho các biến định tính (được phân loại) có số lượng giá trị hữu hạn và trong nhiều nhiệm vụ phân tích dữ liệu thống kê khác .

2. “Chi-square” trong bài toán phân tích số liệu thống kê

Các phương pháp thống kê phân tích dữ liệu được sử dụng trong hầu hết các lĩnh vực hoạt động của con người. Chúng được sử dụng bất cứ khi nào cần thiết để đạt được và biện minh cho bất kỳ phán đoán nào về một nhóm (đối tượng hoặc chủ thể) có tính không đồng nhất bên trong.

Giai đoạn phát triển hiện đại của các phương pháp thống kê có thể được tính từ năm 1900, khi người Anh K. Pearson thành lập tạp chí "Biometrika". Thứ ba đầu tiên của thế kỷ XX. được truyền dưới dấu của thống kê tham số. Các phương pháp được nghiên cứu dựa trên việc phân tích dữ liệu từ các họ phân phối tham số được mô tả bởi các đường cong họ Pearson. Phổ biến nhất là phân phối bình thường. Để kiểm tra các giả thuyết, các bài kiểm tra Pearson, Sinh viên và Fisher đã được sử dụng. Phương pháp khả năng tối đa và phân tích phương sai đã được đề xuất và những ý tưởng cơ bản về lập kế hoạch thử nghiệm đã được hình thành.

Phân phối chi bình phương là một trong những phân phối được sử dụng rộng rãi nhất trong thống kê để kiểm tra các giả thuyết thống kê. Dựa trên phân bố chi bình phương, một trong những bài kiểm tra mức độ phù hợp mạnh mẽ nhất được xây dựng - bài kiểm tra chi bình phương Pearson.

Tiêu chí thống nhất là tiêu chí để kiểm định giả thuyết về quy luật giả định của một phân bố chưa biết.

Kiểm định χ2 (chi-square) được sử dụng để kiểm định giả thuyết về các phân bố khác nhau. Đây là phẩm giá của anh ấy.

Công thức tính của chỉ tiêu bằng

trong đó m và m' lần lượt là tần số thực nghiệm và lý thuyết

sự phân phối được đề cập;

n là số bậc tự do.

Để kiểm tra, chúng ta cần so sánh tần số thực nghiệm (quan sát được) và tần số lý thuyết (được tính toán theo giả định về phân phối chuẩn).

Nếu tần số thực nghiệm hoàn toàn trùng khớp với tần số tính toán hoặc kỳ vọng thì S(E – T) = 0 và tiêu chí χ2 cũng sẽ bằng 0. Nếu S (E – T) không bằng 0, điều này sẽ cho thấy sự khác biệt giữa tần số tính toán và tần số thực nghiệm của chuỗi. Trong những trường hợp như vậy, cần phải đánh giá tầm quan trọng của tiêu chí χ2, về mặt lý thuyết có thể thay đổi từ 0 đến vô cùng. Điều này được thực hiện bằng cách so sánh giá trị thực tế thu được của χ2ф với giá trị tới hạn của nó (χ2st). Giả thuyết khống, tức là giả định rằng sự khác biệt giữa tần số thực nghiệm và tần số lý thuyết hoặc tần số dự kiến ​​là ngẫu nhiên, sẽ bị bác bỏ nếu χ2ф lớn hơn hoặc bằng χ2st. đối với mức ý nghĩa được chấp nhận (a) và số bậc tự do (n).

Kiểm định chi bình phương là một phương pháp phổ biến để kiểm tra sự phù hợp giữa kết quả thí nghiệm và mô hình thống kê được sử dụng.

Khoảng cách Pearson X 2

Pyatnitsky A.M.

Đại học Y khoa Nhà nước Nga

Năm 1900, Karl Pearson đề xuất một cách đơn giản, phổ quát và hiệu quả để kiểm tra sự phù hợp giữa dự đoán mô hình và dữ liệu thực nghiệm. “Bài kiểm tra chi bình phương” mà ông đề xuất là bài kiểm tra thống kê quan trọng nhất và được sử dụng phổ biến nhất. Hầu hết các vấn đề liên quan đến việc ước tính các tham số mô hình chưa biết và kiểm tra sự phù hợp giữa mô hình và dữ liệu thử nghiệm có thể được giải quyết với sự trợ giúp của nó.

Giả sử có một mô hình tiên nghiệm (“tiền thử nghiệm”) của đối tượng hoặc quá trình đang được nghiên cứu (trong thống kê họ nói đến “giả thuyết không” H 0) và kết quả của một thử nghiệm với đối tượng này. Cần phải quyết định xem mô hình có phù hợp hay không (có phù hợp với thực tế không)? Liệu các kết quả thí nghiệm có mâu thuẫn với quan điểm của chúng ta về cách thức hoạt động của thực tế hay nói cách khác là H0 có nên bị bác bỏ không? Thông thường, nhiệm vụ này có thể được giảm xuống bằng việc so sánh tần suất xuất hiện trung bình của các sự kiện nhất định được quan sát (O i = Được quan sát) và được mong đợi theo mô hình (E i = Dự kiến). Người ta tin rằng các tần số quan sát được thu được từ một chuỗi N quan sát độc lập (!) Được thực hiện trong các điều kiện không đổi (!). Kết quả của mỗi lần quan sát là một trong M sự kiện được ghi lại. Những sự kiện này không thể xảy ra đồng thời (chúng không tương thích theo cặp) và một trong số chúng nhất thiết phải xảy ra (sự kết hợp của chúng tạo thành một sự kiện đáng tin cậy). Tổng thể của tất cả các quan sát được quy gọn thành một bảng (vectơ) tần số (O i )=(O 1 ,… O M ), bảng này mô tả đầy đủ kết quả của thí nghiệm. Giá trị O 2 = 4 có nghĩa là sự kiện số 2 đã xảy ra 4 lần. Tổng tần số O 1 +… O M =N. Cần phân biệt hai trường hợp: N – cố định, không ngẫu nhiên, N – biến ngẫu nhiên. Đối với tổng số thí nghiệm N cố định, tần số có phân bố đa thức. Hãy để chúng tôi minh họa sơ đồ chung này bằng một ví dụ đơn giản.

Sử dụng phép kiểm chi bình phương để kiểm định các giả thuyết đơn giản.

Giả sử mô hình (giả thuyết H 0) là xúc sắc đẹp - tất cả các mặt xuất hiện thường xuyên như nhau với xác suất pi =1/6, i =, M=6. Một thí nghiệm đã được tiến hành trong đó con súc sắc được ném 60 lần (N = 60 thử nghiệm độc lập đã được tiến hành). Theo mô hình, chúng tôi kỳ vọng rằng tất cả tần số quan sát được O i xuất hiện 1,2,... 6 điểm phải gần với giá trị trung bình của chúng E i =Np i =60∙(1/6)=10. Theo H 0, vectơ tần số trung bình (E i )=(Np i )=(10, 10, 10, 10, 10, 10). (Các giả thuyết trong đó tần số trung bình đã biết hoàn toàn trước khi bắt đầu thí nghiệm được gọi là đơn giản.) Nếu vectơ quan sát (O i ) bằng (34,0,0,0,0,26), thì ngay lập tức rõ ràng rằng mô hình không chính xác - xương không thể chính xác, vì chỉ có 1 và 6 được tung 60 lần. Xác suất xảy ra trường hợp như vậy đối với một con xúc xắc đúng là không đáng kể: P = (2/6) 60 = 2,4*10 -29. Tuy nhiên, sự xuất hiện của sự khác biệt rõ ràng giữa mô hình và trải nghiệm là một ngoại lệ. Gọi vectơ tần số quan sát được (O i ) bằng (5, 15, 6, 14, 4, 16). Điều này có phù hợp với H0 không? Vì vậy, chúng ta cần so sánh hai vectơ tần số (E i) và (O i). Trong trường hợp này, vectơ tần số dự kiến ​​​​(Ei) không phải là ngẫu nhiên, nhưng vectơ tần số quan sát được (Oi) là ngẫu nhiên - trong thử nghiệm tiếp theo (trong một loạt 60 lần ném mới), nó sẽ khác. Sẽ rất hữu ích khi đưa ra cách giải thích hình học của bài toán và giả sử rằng trong không gian tần số (trong trường hợp này là 6 chiều) hai điểm được cho có tọa độ (5, 15, 6, 14, 4, 16) và (10, 10, 10, 10, 10, 10 ). Chúng có cách nhau đủ xa để được coi là không tương thích với H 0 không? Nói cách khác, chúng ta cần:

  1. học cách đo khoảng cách giữa các tần số (các điểm trong không gian tần số),
  2. có tiêu chí về khoảng cách nào được coi là quá lớn (“không hợp lý”), tức là không nhất quán với H 0 .

Bình phương khoảng cách Euclide thông thường sẽ bằng:

X 2 Euclid = S(O i -E i) 2 = (5-10) 2 +(15-10) 2 + (6-10) 2 +(14-10) 2 +(4-10) 2 +(16-10) 2

Trong trường hợp này, các bề mặt X 2 Euclid = const luôn là hình cầu nếu chúng ta cố định các giá trị của E i và thay đổi O i . Karl Pearson lưu ý rằng không nên sử dụng khoảng cách Euclide trong không gian tần số. Vì vậy, sẽ không chính xác khi cho rằng các điểm (O = 1030 và E = 1000) và (O = 40 và E = 10) có khoảng cách bằng nhau, mặc dù trong cả hai trường hợp, chênh lệch là O -E = 30. Xét cho cùng, tần số dự kiến ​​càng cao thì độ lệch so với tần số đó càng lớn được coi là có thể xảy ra. Do đó, các điểm (O =1030 và E =1000) nên được coi là “gần” và các điểm (O =40 và E =10) nên được coi là “xa” nhau. Có thể chứng minh rằng nếu giả thuyết H 0 là đúng thì các dao động tần số O i so với E i có cấp bậc căn bậc hai(!) của E i . Do đó, Pearson đề xuất, khi tính khoảng cách, bình phương không phải hiệu số (O i -E i) mà là hiệu số chuẩn hóa (O i -E i)/E i 1/2. Vì vậy, đây là công thức tính khoảng cách Pearson (thực ra nó là bình phương của khoảng cách):

X 2 Pearson = S((O i -E i )/E i 1/2) 2 = S(O i -E i ) 2 /E i

Trong ví dụ của chúng tôi:

X 2 Pearson = (5-10) 2 /10+(15-10) 2 /10 +(6-10) 2 /10+(14-10) 2 /10+(4-10) 2 /10+( 16-10) 2 /10=15,4

Đối với một khuôn thông thường, tất cả các tần số mong đợi E i đều giống nhau, nhưng thông thường chúng khác nhau, do đó các bề mặt mà khoảng cách Pearson không đổi (X 2 Pearson =const) hóa ra là hình elip, không phải hình cầu.

Bây giờ công thức tính khoảng cách đã được chọn, cần phải tìm ra những khoảng cách nào được coi là “không quá lớn” (phù hợp với H 0). Vì vậy, chẳng hạn, chúng ta có thể nói gì về khoảng cách chúng ta đã tính 15.4. ? Trong bao nhiêu phần trăm trường hợp (hoặc với xác suất bao nhiêu) chúng ta sẽ đạt được khoảng cách lớn hơn 15,4 khi tiến hành thí nghiệm với một con súc sắc thông thường? Nếu tỷ lệ này nhỏ (<0.05), то H 0 надо отвергнуть. Иными словами требуется найти распределение длярасстояния Пирсона. Если все ожидаемые частоты E i не слишком малы (≥5), и верна H 0 , то нормированные разности (O i - E i )/E i 1/2 приближенно эквивалентны стандартным гауссовским случайным величинам: (O i - E i )/E i 1/2 ≈N (0,1). Это, например, означает, что в 95% случаев| (O i - E i )/E i 1/2 | < 1.96 ≈ 2 (правило “двух сигм”).

Giải thích. Số đo O i rơi vào ô trong bảng có số i có phân bố nhị thức với tham số: m =Np i =E i,σ =(Np i (1-p i)) 1/2, trong đó N là số của phép đo (N " 1), p i là xác suất để một phép đo rơi vào một ô nhất định (hãy nhớ rằng các phép đo độc lập và được thực hiện trong các điều kiện không đổi). Nếu p i nhỏ thì: σ≈(Np i ) 1/2 =E i và phân bố nhị thức gần với Poisson, trong đó số quan sát trung bình E i =λ, và độ lệch chuẩn σ=λ 1/2 = E i 1/ 2. Đối với λ ≥5, phân phối Poisson gần với N chuẩn (m =E i =λ, σ=E i 1/2 =λ 1/2) và giá trị chuẩn hóa (O i - E i )/E i 1 /2 ≈ N (0 ,1).

Pearson định nghĩa biến ngẫu nhiên χ 2 n – “chi-bình phương với n bậc tự do”, là tổng bình phương của n biến ngẫu nhiên chuẩn chuẩn độc lập:

χ 2 n = T 1 2 + T 2 2 + …+ T n 2 , mọi người ở đâu Ti = N(0,1) - N. Ô. r. Với. V.

Chúng ta hãy cố gắng hiểu rõ ý nghĩa của biến ngẫu nhiên quan trọng nhất này trong thống kê. Để làm điều này, trên mặt phẳng (với n = 2) hoặc trong không gian (với n = 3), chúng tôi trình bày một đám mây các điểm có tọa độ độc lập và có phân phối chuẩn chuẩn f T (x) ~exp (-x 2 /2 ). Trên một mặt phẳng, theo quy tắc “hai sigma”, được áp dụng độc lập cho cả hai tọa độ, 90% (0,95*0,95≈0,90) điểm được chứa trong một hình vuông (-2

f χ 2 2 (a) = Сexp(-a/2) = 0,5exp(-a/2).

Với số bậc tự do đủ lớn n (n > 30), phân bố chi bình phương tiến tới chuẩn: N (m = n; σ = (2n) ½). Đây là hệ quả của “định lý giới hạn trung tâm”: tổng các đại lượng phân bố giống hệt nhau với phương sai hữu hạn tiến dần đến định luật chuẩn khi số hạng tăng lên.

Trong thực tế, bạn cần nhớ rằng bình phương trung bình của khoảng cách bằng m (χ 2 n) = n và phương sai của nó là σ 2 (χ 2 n) = 2n. Từ đây, có thể dễ dàng kết luận giá trị chi bình phương nào nên được coi là quá nhỏ và quá lớn: phần lớn phân bố nằm trong phạm vi từ n -2∙(2n) ½ đến n +2∙(2n) ½.

Vì vậy, khoảng cách Pearson vượt quá đáng kể n +2∙ (2n) ½ nên được coi là lớn đến mức không thể tin được (không nhất quán với H 0). Nếu kết quả gần với n +2∙(2n) ½, thì bạn nên sử dụng các bảng trong đó bạn có thể tìm ra chính xác tỷ lệ các trường hợp như vậy và các giá trị chi bình phương lớn có thể xuất hiện.

Điều quan trọng là phải biết cách chọn giá trị phù hợp cho số bậc tự do (viết tắt là n.d.f.). Có vẻ tự nhiên khi cho rằng n đơn giản bằng số chữ số: n =M. Trong bài viết của mình, Pearson đã gợi ý rất nhiều. Trong ví dụ về xúc xắc, điều này có nghĩa là n = 6. Tuy nhiên, vài năm sau người ta chứng minh rằng Pearson đã nhầm lẫn. Số bậc tự do luôn nhỏ hơn số chữ số nếu có mối liên hệ giữa các biến ngẫu nhiên O i. Đối với ví dụ về xúc xắc, tổng O i là 60 và chỉ có 5 tần số có thể thay đổi độc lập, do đó giá trị đúng là n = 6-1 = 5. Với giá trị này của n, chúng ta nhận được n +2∙(2n) ½ =5+2∙(10) ½ =11,3. Vì 15.4>11.3 nên giả thuyết H 0 - con súc sắc đúng nên bị bác bỏ.

Sau khi làm rõ lỗi, các bảng χ 2 hiện có phải được bổ sung, vì ban đầu chúng không chứa trường hợp n = 1, vì số chữ số nhỏ nhất = 2. Bây giờ hóa ra có thể có những trường hợp khoảng cách Pearson có phân phối χ 2 n =1.

Ví dụ. Khi tung đồng xu 100 lần, số mặt ngửa là O 1 = 65 và mặt sấp O 2 = 35. Số chữ số là M = 2. Nếu đồng xu đối xứng thì tần số dự kiến ​​là E 1 = 50, E 2 = 50.

X 2 Pearson = S(O i -E i) 2 /E i = (65-50) 2 /50 + (35-50) 2 /50 = 2*225/50 = 9.

Giá trị kết quả phải được so sánh với giá trị mà biến ngẫu nhiên χ 2 n =1 có thể lấy, được định nghĩa là bình phương của giá trị chuẩn chuẩn χ 2 n =1 =T 1 2 ≥ 9 ó T 1 ≥3 hoặc T 1 ≤-3. Xác suất xảy ra sự kiện như vậy là rất thấp P (χ 2 n =1 ≥9) = 0,006. Do đó, đồng xu không thể được coi là đối xứng: H 0 nên bị từ chối. Việc số bậc tự do không thể bằng số chữ số chứng tỏ tổng các tần số quan sát được luôn bằng tổng các tần số dự kiến, ví dụ O 1 +O 2 =65+ 35 = E 1 +E 2 =50+50=100. Do đó, các điểm ngẫu nhiên có tọa độ O 1 và O 2 nằm trên một đường thẳng: O 1 +O 2 =E 1 +E 2 =100 và khoảng cách đến tâm sẽ nhỏ hơn nếu hạn chế này không tồn tại và chúng được đặt trên toàn bộ máy bay. Thật vậy, đối với hai biến ngẫu nhiên độc lập có kỳ vọng toán học E 1 =50, E 2 =50, tổng số lần thực hiện của chúng không phải lúc nào cũng bằng 100 - ví dụ: các giá trị O 1 =60, O 2 =55 sẽ được chấp nhận.

Giải thích. Hãy so sánh kết quả của tiêu chí Pearson tại M = 2 với kết quả mà công thức Moivre-Laplace đưa ra khi ước tính các dao động ngẫu nhiên về tần suất xuất hiện của một sự kiện ν =K /N có xác suất p trong chuỗi N phép thử Bernoulli độc lập ( K là số lần thành công):

χ 2 n =1 = S(O i -E i) 2 /E i = (O 1 -E 1) 2 /E 1 + (O 2 -E 2) 2 /E 2 = (Nν -Np) 2 /(Np) + (N ( 1-ν )-N (1-p )) 2 /(N (1-p ))=

=(Nν-Np) 2 (1/p + 1/(1-p))/N=(Nν-Np) 2 /(Np(1-p))=((K-Np)/(Npq) ½ ) 2 = T 2

Giá trị T =(K -Np)/(Npq) ½ = (K -m (K))/σ(K) ≈N (0,1) với σ(K)=(Npq) ½ ≥3. Chúng ta thấy rằng trong trường hợp này, kết quả của Pearson hoàn toàn trùng khớp với kết quả thu được bằng cách sử dụng phép tính gần đúng chuẩn cho phân bố nhị thức.

Cho đến nay chúng ta đã xem xét các giả thuyết đơn giản mà tần số trung bình kỳ vọng E i đã được biết trước hoàn toàn. Để biết thông tin về cách chọn số bậc tự do chính xác cho các giả thuyết phức tạp, hãy xem bên dưới.

Sử dụng phép kiểm chi bình phương để kiểm định các giả thuyết phức tạp

Trong các ví dụ với xúc xắc và đồng xu thông thường, tần số dự kiến ​​có thể được xác định trước (!) Thí nghiệm. Những giả thuyết như vậy được gọi là “đơn giản”. Trong thực tế, “các giả thuyết phức tạp” phổ biến hơn. Hơn nữa, để tìm tần số dự kiến ​​E i, trước tiên cần ước tính một hoặc một số đại lượng (tham số mô hình) và điều này chỉ có thể được thực hiện bằng cách sử dụng dữ liệu thực nghiệm. Kết quả là, đối với “các giả thuyết phức tạp”, tần số kỳ vọng E i hóa ra lại phụ thuộc vào tần số quan sát được O i và do đó chúng trở thành các biến ngẫu nhiên, thay đổi tùy theo kết quả của thí nghiệm. Trong quá trình chọn tham số, khoảng cách Pearson giảm - các tham số được chọn nhằm nâng cao sự thống nhất giữa mô hình và thực nghiệm. Vì vậy số bậc tự do sẽ giảm đi.

Làm thế nào để ước tính các tham số mô hình? Có nhiều phương pháp ước tính khác nhau - “phương pháp khả năng tối đa”, “phương pháp mô men”, “phương pháp thay thế”. Tuy nhiên, bạn không thể sử dụng bất kỳ khoản tiền bổ sung nào và tìm ước tính tham số bằng cách giảm thiểu khoảng cách Pearson. Trong thời kỳ tiền máy tính, phương pháp này hiếm khi được sử dụng: nó bất tiện cho việc tính toán thủ công và theo quy luật, không thể giải được bằng phương pháp phân tích. Khi tính toán trên máy tính, việc giảm thiểu số thường dễ thực hiện và ưu điểm của phương pháp này là tính linh hoạt. Vì vậy, theo “phương pháp tối thiểu hóa chi bình phương”, chúng tôi chọn các giá trị của các tham số chưa biết sao cho khoảng cách Pearson trở nên nhỏ nhất. (Nhân tiện, bằng cách nghiên cứu những thay đổi trong khoảng cách này với các chuyển vị nhỏ so với mức tối thiểu tìm thấy, bạn có thể ước tính thước đo độ chính xác của ước tính: xây dựng các khoảng tin cậy.) Sau khi các tham số và khoảng cách tối thiểu này đã được tìm thấy, đó là một lần nữa cần thiết để trả lời câu hỏi liệu nó có đủ nhỏ hay không.

Trình tự chung của các hành động như sau:

  1. Lựa chọn mô hình (giả thuyết H 0).
  2. Lựa chọn các bit và xác định vectơ tần số quan sát được O i .
  3. Ước tính các tham số mô hình chưa biết và xây dựng khoảng tin cậy cho chúng (ví dụ: bằng cách tìm kiếm khoảng cách Pearson tối thiểu).
  4. Tính toán tần số dự kiến ​​E i .
  5. So sánh giá trị tìm được của khoảng cách Pearson X 2 với giá trị tới hạn của chi bình phương χ 2 crit - lớn nhất, vẫn được coi là hợp lý, tương thích với H 0. Chúng ta tìm giá trị χ 2 crit từ các bảng bằng cách giải phương trình

P (χ 2 n > χ 2 chí mạng)=1-α,

trong đó α là “mức ý nghĩa” hoặc “cỡ của tiêu chí” hoặc “mức độ của sai số loại thứ nhất” (giá trị điển hình α = 0,05).

Thông thường số bậc tự do n được tính bằng công thức

n = (số chữ số) – 1 – (số tham số cần ước tính)

Nếu X 2 > χ 2 crit thì giả thuyết H 0 bị bác bỏ, ngược lại thì được chấp nhận. Trong α∙100% các trường hợp (nghĩa là khá hiếm), phương pháp kiểm tra H 0 này sẽ dẫn đến “sai lầm loại một”: giả thuyết H 0 sẽ bị bác bỏ một cách sai lầm.

Ví dụ. Trong một nghiên cứu trên 10 loạt 100 hạt giống, người ta đếm số lượng hạt bị nhiễm ruồi mắt xanh. Dữ liệu nhận được: O i =(16, 18, 11, 18, 21, 10, 20, 18, 17, 21);

Ở đây vectơ tần số dự kiến ​​chưa được biết trước. Nếu dữ liệu là đồng nhất và thu được theo phân bố nhị thức thì một tham số không xác định: tỷ lệ p của hạt bị nhiễm bệnh. Lưu ý rằng trong bảng gốc thực tế không phải 10 mà là 20 tần số thỏa mãn 10 kết nối: 16+84=100, ... 21+79=100.

X 2 = (16-100p) 2 /100p +(84-100(1-p)) 2 /(100(1-p))+…+

(21-100p) 2 /100p +(79-100(1-p)) 2 /(100(1-p))

Kết hợp các số hạng theo cặp (như trong ví dụ với đồng xu), chúng ta thu được dạng viết tiêu chí Pearson, thường được viết liền:

X 2 = (16-100p) 2 /(100p(1-p))+…+ (21-100p) 2 /(100p(1-p)).

Bây giờ, nếu khoảng cách Pearson tối thiểu được sử dụng làm phương pháp ước tính p thì cần phải tìm một p sao cho X 2 = min. (Nếu có thể, mô hình sẽ cố gắng “điều chỉnh” theo dữ liệu thử nghiệm.)

Tiêu chí Pearson là tiêu chí phổ biến nhất trong số các tiêu chí được sử dụng trong thống kê. Nó có thể được áp dụng cho dữ liệu đơn biến và đa biến, các tính năng định lượng và định tính. Tuy nhiên, chính vì tính linh hoạt của nó nên người ta nên cẩn thận để không mắc sai lầm.

Điểm quan trọng

1. Lựa chọn các danh mục.

  • Nếu sự phân bố là rời rạc thì thường không có sự tùy ý trong việc lựa chọn các chữ số.
  • Nếu việc phân phối diễn ra liên tục thì sự tùy tiện là không thể tránh khỏi. Có thể sử dụng các khối tương đương về mặt thống kê (tất cả O đều giống nhau, ví dụ =10). Tuy nhiên, độ dài của các khoảng thời gian là khác nhau. Khi thực hiện các phép tính thủ công, họ cố gắng làm cho các khoảng thời gian giống nhau. Khoảng thời gian khi nghiên cứu sự phân bố của một đặc điểm đơn biến có nên bằng nhau không? KHÔNG.
  • Các chữ số phải được kết hợp sao cho tần số dự kiến ​​(không được quan sát thấy!) không quá nhỏ (>5). Chúng ta hãy nhớ lại rằng chính chúng (E i) nằm trong mẫu số khi tính X 2! Khi phân tích đặc tính một chiều cho phép vi phạm quy tắc này ở hai chữ số cực trị E 1 =E max =1. Nếu số chữ số lớn và tần số dự kiến ​​gần nhau thì X 2 là một xấp xỉ tốt của χ 2 ngay cả khi E i = 2.

Ước tính tham số. Việc sử dụng các phương pháp ước lượng “tự chế” không hiệu quả có thể dẫn đến các giá trị khoảng cách Pearson bị thổi phồng.

Chọn số bậc tự do phù hợp. Nếu ước tính tham số được thực hiện không phải từ tần số mà trực tiếp từ dữ liệu (ví dụ: trung bình số học được lấy làm ước tính của giá trị trung bình), thì số bậc tự do chính xác n vẫn chưa được biết. Ta chỉ biết rằng nó thỏa mãn bất đẳng thức:

(số chữ số – 1 – số tham số đang được đánh giá)< n < (число разрядов – 1)

Vì vậy, cần phải so sánh X 2 với các giá trị tới hạn của χ 2 crit được tính toán trong phạm vi n này.

Làm thế nào để giải thích các giá trị chi bình phương nhỏ đến mức khó tin? Một đồng xu có nên được coi là đối xứng nếu sau 10.000 lần tung, nó rơi xuống quốc huy 5.000 lần? Trước đây, nhiều nhà thống kê tin rằng H 0 cũng nên bị bác bỏ. Bây giờ một cách tiếp cận khác được đề xuất: chấp nhận H 0, nhưng dữ liệu và phương pháp phân tích của họ phải được xác minh bổ sung. Có hai khả năng: hoặc khoảng cách Pearson quá nhỏ có nghĩa là việc tăng số lượng tham số mô hình không đi kèm với việc giảm số bậc tự do thích hợp hoặc bản thân dữ liệu đã bị làm sai lệch (có thể vô tình được điều chỉnh theo dự kiến). kết quả).

Ví dụ. Hai nhà nghiên cứu A và B đã tính toán tỷ lệ đồng hợp tử lặn aa ở thế hệ thứ hai của phép lai đơn bội AA * aa. Theo định luật Mendel, phân số này là 0,25. Mỗi nhà nghiên cứu đã tiến hành 5 thí nghiệm và 100 sinh vật được nghiên cứu trong mỗi thí nghiệm.

Kết quả A: 25, 24, 26, 25, 24. Kết luận của nhà nghiên cứu: Định luật Mendel đúng(?).

Kết quả B: 29, 21, 23, 30, 19. Kết luận của nhà nghiên cứu: Định luật Mendel không công bằng(?).

Tuy nhiên, định luật Mendel có bản chất thống kê và phân tích định lượng kết quả sẽ đảo ngược kết luận! Kết hợp năm thí nghiệm thành một, chúng ta đạt được phân bố chi bình phương với 5 bậc tự do (một giả thuyết đơn giản đã được kiểm tra):

X 2 A = ((25-25) 2 +(24-25) 2 +(26-25) 2 +(25-25) 2 +(24-25) 2)/(100∙0.25∙0.75)=0.16

X 2 B = ((29-25) 2 +(21-25) 2 +(23-25) 2 +(30-25) 2 +(19-25) 2)/(100∙0.25∙0.75)=5.17

Giá trị trung bình m [χ 2 n =5 ]=5, độ lệch chuẩn σ[χ 2 n =5 ]=(2∙5) 1/2 =3,2.

Do đó, không cần tham khảo các bảng, rõ ràng giá trị của X 2 B là điển hình và giá trị của X 2 A là nhỏ đến mức không thể tin được. Theo bảng P (χ 2 n =5<0.16)<0.0001.

Ví dụ này là sự chuyển thể từ một trường hợp có thật xảy ra vào những năm 1930 (xem tác phẩm “Về một bằng chứng khác về định luật Mendel” của Kolmogorov). Điều thú vị là Nhà nghiên cứu A là người ủng hộ di truyền học, còn Nhà nghiên cứu B lại phản đối điều đó.

Nhầm lẫn trong ký hiệu. Cần phải phân biệt khoảng cách Pearson, vốn yêu cầu các quy ước bổ sung trong tính toán, với khái niệm toán học về biến ngẫu nhiên chi bình phương. Khoảng cách Pearson trong những điều kiện nhất định có phân bố gần với chi bình phương với n bậc tự do. Vì vậy, KHÔNG nên biểu thị khoảng cách Pearson bằng ký hiệu χ 2 n mà nên sử dụng ký hiệu tương tự nhưng khác X 2. .

Tiêu chí Pearson không phải là toàn năng. Có vô số lựa chọn thay thế cho H 0 mà anh ta không thể tính đến. Giả sử bạn đang kiểm tra giả thuyết rằng đặc điểm có phân bố đồng đều, bạn có 10 chữ số và vectơ tần số quan sát được bằng (130,125,121,118,116,115,114,113,111,110). Tiêu chuẩn Pearson không thể “nhận thấy” rằng các tần số đang giảm một cách đơn điệu và H 0 sẽ không bị bác bỏ. Nếu nó được bổ sung tiêu chí chuỗi thì có!

Trong bài viết này, chúng tôi sẽ nói về việc nghiên cứu sự phụ thuộc giữa các dấu hiệu, hoặc tùy thích - các giá trị, biến ngẫu nhiên. Cụ thể, chúng ta sẽ xem xét cách đưa ra thước đo về sự phụ thuộc giữa các đặc tính bằng phép kiểm Chi bình phương và so sánh nó với hệ số tương quan.

Tại sao điều này có thể cần thiết? Ví dụ: để hiểu những đặc điểm nào phụ thuộc nhiều hơn vào biến mục tiêu khi xây dựng điểm tín dụng - xác định xác suất vỡ nợ của khách hàng. Hoặc, như trong trường hợp của tôi, hiểu những chỉ báo nào cần được sử dụng để lập trình robot giao dịch.

Riêng biệt, tôi muốn lưu ý rằng tôi sử dụng ngôn ngữ C# để phân tích dữ liệu. Có lẽ tất cả điều này đã được triển khai trong R hoặc Python, nhưng việc sử dụng C# đối với tôi cho phép tôi hiểu chủ đề một cách chi tiết, hơn nữa, đây là ngôn ngữ lập trình yêu thích của tôi.

Hãy bắt đầu với một ví dụ rất đơn giản, tạo bốn cột trong Excel bằng trình tạo số ngẫu nhiên:
X=RANDBETWEEN(-100,100)
Y =X*10+20
Z =X*X
T=RANDBETWEEN(-100,100)

Như bạn có thể thấy, biến Y phụ thuộc tuyến tính vào X; biến Z phụ thuộc bậc hai vào X; biến XTđộc lập. Tôi đã cố tình đưa ra lựa chọn này vì chúng tôi sẽ so sánh thước đo sự phụ thuộc của chúng tôi với hệ số tương quan. Như đã biết, giữa hai biến ngẫu nhiên sẽ bằng modulo 1 nếu loại phụ thuộc “khó nhất” giữa chúng là tuyến tính. Không có mối tương quan giữa hai biến ngẫu nhiên độc lập, nhưng sự bằng nhau của hệ số tương quan bằng 0 không hàm ý tính độc lập. Tiếp theo chúng ta sẽ thấy điều này bằng cách sử dụng ví dụ về các biến XZ.

Lưu tệp dưới dạng data.csv và bắt đầu ước tính đầu tiên. Đầu tiên, hãy tính hệ số tương quan giữa các giá trị. Tôi không chèn mã vào bài viết; nó nằm trên github của tôi. Chúng tôi nhận được mối tương quan cho tất cả các cặp có thể:

Có thể thấy rằng phụ thuộc tuyến tính XY hệ số tương quan là 1. Nhưng XZ nó bằng 0,01, mặc dù chúng tôi đặt sự phụ thuộc một cách rõ ràng Z=X*X. Rõ ràng, chúng ta cần một biện pháp giúp “cảm thấy” nghiện tốt hơn. Nhưng trước khi chuyển sang bài kiểm tra Chi bình phương, chúng ta hãy xem ma trận dự phòng là gì.

Để xây dựng ma trận dự phòng, chúng ta chia phạm vi giá trị biến thành các khoảng (hoặc phân loại). Có nhiều cách phân vùng như vậy nhưng không có cách nào chung. Một số trong số chúng được chia thành các khoảng sao cho chúng chứa cùng số lượng biến, một số khác được chia thành các khoảng có độ dài bằng nhau. Cá nhân tôi thích kết hợp những cách tiếp cận này. Tôi quyết định sử dụng phương pháp này: Tôi trừ điểm thực thi khỏi biến số đó. kỳ vọng, sau đó chia kết quả cho ước tính độ lệch chuẩn. Nói cách khác, tôi căn giữa và chuẩn hóa biến ngẫu nhiên. Giá trị kết quả được nhân với một hệ số (trong ví dụ này là 1), sau đó mọi thứ được làm tròn đến số nguyên gần nhất. Đầu ra là một biến kiểu int, là mã định danh lớp.

Vậy hãy lấy những dấu hiệu của chúng ta XZ, chúng tôi phân loại theo cách được mô tả ở trên, sau đó chúng tôi tính toán số lượng và xác suất xuất hiện của từng lớp và xác suất xuất hiện của các cặp đặc điểm:

Đây là một ma trận theo số lượng. Ở đây trong các dòng - số lần xuất hiện của các lớp biến X, trong các cột - số lần xuất hiện của các lớp biến Z, trong ô - số lần xuất hiện của các cặp lớp cùng một lúc. Ví dụ: lớp 0 xảy ra 865 lần cho biến X, 823 lần cho một biến Z và không bao giờ có một cặp (0,0). Hãy chuyển sang xác suất bằng cách chia tất cả các giá trị cho 3000 (tổng số quan sát):

Chúng tôi thu được ma trận dự phòng thu được sau khi phân loại các đặc điểm. Bây giờ là lúc để suy nghĩ về tiêu chí. Theo định nghĩa, các biến ngẫu nhiên là độc lập nếu đại số sigma được tạo bởi các biến ngẫu nhiên này là độc lập. Tính độc lập của đại số sigma hàm ý sự độc lập từng cặp của các sự kiện với chúng. Hai sự kiện được gọi là độc lập nếu xác suất xảy ra chung của chúng bằng tích các xác suất của các sự kiện này: Pij = Pi*Pj. Chính công thức này mà chúng ta sẽ sử dụng để xây dựng tiêu chí.

Giả thuyết không: dấu hiệu phân loại XZđộc lập. Tương đương với nó: sự phân bố của ma trận dự phòng chỉ được xác định bằng xác suất xuất hiện của các lớp biến (xác suất của hàng và cột). Hoặc thế này: các ô ma trận được tìm bằng tích các xác suất tương ứng của các hàng và cột. Chúng ta sẽ sử dụng công thức này của giả thuyết không để xây dựng quy tắc quyết định: sự khác biệt đáng kể giữa PijPi*Pj sẽ là cơ sở để bác bỏ giả thuyết không.

Gọi là xác suất lớp 0 xuất hiện trong một biến X. Tổng số của chúng tôi N lớp học tại Xtôi lớp học tại Z. Hóa ra là để xác định phân bố ma trận, chúng ta cần biết những điều này Ntôi xác suất. Nhưng thực tế, nếu chúng ta biết n-1 xác suất cho X, thì cái sau được tìm thấy bằng cách trừ tổng của những cái khác từ 1. Vì vậy, để tìm phân bố của ma trận ngẫu nhiên chúng ta cần biết l=(n-1)+(m-1) các giá trị. Hay chúng ta có tôi không gian tham số chiều, vectơ từ đó mang lại cho chúng ta sự phân bố mong muốn. Thống kê Chi-square sẽ trông như thế này:

và, theo định lý Fisher, có phân bố Chi bình phương với n*m-l-1=(n-1)(m-1) bậc tự do.

Hãy đặt mức ý nghĩa là 0,95 (hoặc xác suất xảy ra lỗi loại I là 0,05). Hãy tìm lượng tử của phân bố Chi bình phương cho một mức ý nghĩa và bậc tự do nhất định từ ví dụ (n-1)(m-1)=4*3=12: 21.02606982. Bản thân thống kê Chi bình phương cho các biến XZ bằng 4088,006631. Rõ ràng là giả thuyết về tính độc lập không được chấp nhận. Thật thuận tiện khi xem xét tỷ lệ của thống kê Chi bình phương với giá trị ngưỡng - trong trường hợp này nó bằng Chi2Coeff=194.4256186. Nếu tỷ lệ này nhỏ hơn 1 thì giả thuyết về tính độc lập được chấp nhận; nếu lớn hơn thì không. Hãy tìm tỷ lệ này cho tất cả các cặp tính năng:

Đây Yếu tố 1Yếu tố 2- tên tính năng
src_cnt1src_cnt2- số giá trị duy nhất của các tính năng ban đầu
mod_cnt1mod_cnt2- số lượng giá trị tính năng duy nhất sau khi phân loại
chi2- Thống kê chi bình phương
chi2max- giá trị ngưỡng của thống kê Chi bình phương với mức ý nghĩa 0,95
chi2Coeff- tỷ lệ của thống kê Chi bình phương với giá trị ngưỡng
đúng- hệ số tương quan

Có thể thấy chúng độc lập (chi2coeff<1) получились следующие пары признаков - (X,T), (Y,T) Và ( Z,T), điều này là hợp lý, vì biến Tđược tạo ra một cách ngẫu nhiên. Biến XZ phụ thuộc nhưng ít hơn phụ thuộc tuyến tính XY, điều này cũng hợp lý.

Tôi đã đăng mã của tiện ích tính toán các chỉ số này trên github, nơi cũng có tệp data.csv. Tiện ích lấy tệp csv làm đầu vào và tính toán sự phụ thuộc giữa tất cả các cặp cột: PtProject.Dependency.exe data.csv

Việc sử dụng tiêu chí này dựa trên việc sử dụng thước đo (thống kê) về sự khác biệt giữa lý thuyết F(x) và phân phối thực nghiệm F*n(x), gần như tuân theo định luật phân phối χ 2 . giả thuyết H 0 Tính nhất quán của các phân phối được kiểm tra bằng cách phân tích phân phối của các số liệu thống kê này. Việc áp dụng tiêu chí đòi hỏi phải xây dựng một chuỗi thống kê.

Vì vậy, hãy để mẫu được trình bày thống kê bên cạnh số chữ số M. Tỷ lệ trúng quan sát Tôi- thứ hạng và tôi. Theo quy luật phân bố lý thuyết, tần suất dự kiến ​​của các lần truy cập trong Tôi-loại thứ là tôi. Sự khác biệt giữa tần suất quan sát được và dự kiến ​​sẽ là ( và tôitôi). Để tìm ra mức độ khác biệt tổng thể giữa F(x) Và F* n (x) cần tính tổng có trọng số của các hiệu bình phương trên tất cả các chữ số của chuỗi thống kê

Giá trị χ 2 với độ phóng đại không giới hạn N có phân phối χ 2 (phân phối tiệm cận là χ 2). Sự phân bố này phụ thuộc vào số bậc tự do k, tức là số giá trị độc lập của các số hạng trong biểu thức (3.7). Số bậc tự do bằng số y trừ đi số lượng các mối quan hệ tuyến tính áp đặt trên mẫu. Một kết nối tồn tại do thực tế là bất kỳ tần số nào cũng có thể được tính từ tổng các tần số trong phần còn lại M–1 chữ số. Ngoài ra, nếu không biết trước các tham số phân phối thì còn có một hạn chế khác do việc phân phối phù hợp với mẫu. Nếu mẫu xác định S tham số phân bố thì số bậc tự do sẽ là k=M –S–1.

Khu vực chấp nhận giả thuyết H 0được xác định bởi điều kiện χ 2 < χ 2(k;a), ở đâu χ 2(k;a)– điểm tới hạn của phân bố χ2 với mức ý nghĩa Một. Xác suất mắc lỗi loại I là Một, xác suất xảy ra lỗi loại II không thể được xác định rõ ràng, bởi vì có vô số cách khác nhau mà các phân phối có thể không khớp. Sức mạnh của bài kiểm tra phụ thuộc vào số lượng chữ số và kích thước mẫu. Tiêu chí này được khuyến khích áp dụng khi N>200, được phép sử dụng khi N>40, trong những điều kiện như vậy thì tiêu chí là hợp lệ (theo nguyên tắc, nó bác bỏ giả thuyết không sai).

Thuật toán kiểm tra theo tiêu chí

1. Xây dựng biểu đồ bằng phương pháp xác suất bằng nhau.

2. Dựa vào sự xuất hiện của biểu đồ, đưa ra giả thuyết

H 0: f(x) = f 0(x),

H 1: f(x) f 0(x),

Ở đâu f 0(x) - mật độ xác suất của một luật phân phối giả định (ví dụ: đều, hàm mũ, chuẩn).

Bình luận. Giả thuyết về luật phân phối mũ có thể được đưa ra nếu tất cả các số trong mẫu đều dương.


3. Tính giá trị của tiêu chí bằng công thức

,

tần số trúng ở đâu Tôi- khoảng thời gian;

số pi- xác suất lý thuyết của một biến ngẫu nhiên rơi vào Tôi- khoảng thứ với điều kiện là giả thuyết H 0 đúng.

Công thức tính toán số pi trong trường hợp luật mũ, luật đều và luật chuẩn, chúng tương ứng bằng nhau.

định luật hàm mũ

. (3.8)

Đồng thời MỘT 1 = 0, bm= +.

Luật thống nhất

Luật thông thường

. (3.10)

Đồng thời MỘT 1 = -, B M = +.

Ghi chú. Sau khi tính toán tất cả các xác suất số pi kiểm tra xem mối quan hệ tham chiếu có được thỏa mãn không

Hàm Ф( X) - số lẻ. Ф(+) = 1.

4. Từ bảng “Chi-square” trong Phụ lục, giá trị được chọn, trong đó mức ý nghĩa được chỉ định (= 0,05 hoặc = 0,01) và k- số bậc tự do, được xác định theo công thức

k= M- 1 - S.

Đây S- số lượng tham số mà giả thuyết được chọn phụ thuộc vào H 0 luật phân phối. Giá trị Sđối với luật thống nhất là 2, đối với luật hàm mũ là 1, đối với luật thông thường là 2.

5. Nếu , thì giả thuyết H 0 sai lệch. Mặt khác, không có lý do gì để từ chối nó: với xác suất 1, nó đúng và với xác suất, nó sai, nhưng không xác định được giá trị.

Ví dụ3 . 1. Sử dụng tiêu chí 2, đưa ra và kiểm định giả thuyết về quy luật phân phối của biến ngẫu nhiên X, chuỗi biến thiên, bảng khoảng và biểu đồ phân bố được cho trong ví dụ 1.2. Mức ý nghĩa là 0,05.

Giải pháp . Dựa trên sự xuất hiện của biểu đồ, chúng tôi đưa ra giả thuyết rằng biến ngẫu nhiên X phân bố theo quy luật chuẩn:

H 0: f(x) = N(tôi,);

H 1: f(x) N(tôi,).

Giá trị của tiêu chí được tính bằng công thức.