Chuỗi dữ liệu theo khoảng là gì? Xây dựng chuỗi biến thiên theo khoảng cho dữ liệu định lượng liên tục

Thống kê toán học- một nhánh của toán học dành cho các phương pháp xử lý, hệ thống hóa và sử dụng dữ liệu thống kê để đưa ra kết luận khoa học và thực tiễn.

3.1. CÁC KHÁI NIỆM CƠ BẢN VỀ THỐNG KÊ TOÁN HỌC

Trong các vấn đề y học và sinh học, thường cần nghiên cứu sự phân bố của một đặc điểm cụ thể đối với một số lượng rất lớn các cá thể. Đặc điểm này có ý nghĩa khác nhau đối với các cá nhân khác nhau, vì vậy nó là một biến ngẫu nhiên. Ví dụ, bất kỳ loại thuốc điều trị nào cũng có hiệu quả khác nhau khi áp dụng cho những bệnh nhân khác nhau. Tuy nhiên, để biết được hiệu quả của loại thuốc này, không cần thiết phải áp dụng nó vào mọi ngườiđau ốm. Có thể theo dõi kết quả sử dụng thuốc trên một nhóm bệnh nhân tương đối nhỏ và dựa trên dữ liệu thu được, xác định các đặc điểm cơ bản (hiệu quả, chống chỉ định) của quá trình điều trị.

Dân số- một tập hợp các phần tử đồng nhất được đặc trưng bởi một số thuộc tính cần nghiên cứu. Dấu hiệu này là liên tục biến ngẫu nhiên với mật độ phân phối f(x).

Ví dụ: nếu chúng ta quan tâm đến mức độ phổ biến của một căn bệnh ở một khu vực nhất định thì dân số nói chung là toàn bộ dân số của khu vực đó. Nếu chúng ta muốn tìm hiểu riêng khả năng nhạy cảm của nam và nữ đối với căn bệnh này, thì chúng ta nên xem xét hai nhóm đối tượng chung.

Để nghiên cứu các tính chất của dân số nói chung, một phần nhất định của các yếu tố của nó được chọn.

Vật mẫu- một phần dân số nói chung được chọn để khám (điều trị).

Nếu điều này không gây nhầm lẫn thì mẫu được gọi là một tập hợp các đối tượng,được chọn để khảo sát và toàn bộ

giá trịđặc điểm nghiên cứu thu được trong quá trình kiểm tra. Những giá trị này có thể được biểu diễn theo nhiều cách.

Chuỗi thống kê đơn giản - các giá trị của đặc tính đang được nghiên cứu, ghi lại theo thứ tự thu được.

Một ví dụ về chuỗi thống kê đơn giản thu được bằng cách đo tốc độ sóng bề mặt (m/s) ở da trán ở 20 bệnh nhân được đưa ra trong Bảng. 3.1.

Bảng 3.1.Chuỗi thống kê đơn giản

Một chuỗi thống kê đơn giản là cách chính và đầy đủ nhất để ghi lại kết quả khảo sát. Nó có thể chứa hàng trăm phần tử. Rất khó để có thể nhìn thấy tổng thể như vậy chỉ trong nháy mắt. Vì vậy, các mẫu lớn thường được chia thành các nhóm. Để làm điều này, khu vực thay đổi đặc tính được chia thành nhiều (N) khoảng thời gian bằng nhau và tính tần số tương đối (n/n) của thuộc tính rơi vào các khoảng này. Độ rộng của mỗi khoảng là:

Các ranh giới khoảng có ý nghĩa như sau:

Nếu bất kỳ phần tử mẫu nào là ranh giới giữa hai khoảng liền kề thì nó được phân loại là bên trái khoảng thời gian. Dữ liệu được nhóm theo cách này được gọi là chuỗi thống kê khoảng thời gian.

là bảng hiển thị các khoảng giá trị thuộc tính và tần suất xuất hiện tương đối của thuộc tính trong các khoảng này.

Trong trường hợp của chúng tôi, chúng tôi có thể hình thành, ví dụ, chuỗi thống kê khoảng thời gian sau (N = 5, d= 4), bảng. 3.2.

Bảng 3.2.Chuỗi thống kê theo khoảng thời gian

Ở đây, khoảng 28-32 bao gồm hai giá trị bằng 28 (Bảng 3.1) và khoảng 32-36 bao gồm các giá trị 32, 33, 34 và 35.

Một chuỗi thống kê theo khoảng có thể được mô tả bằng đồ họa. Để thực hiện điều này, các khoảng giá trị thuộc tính được vẽ dọc theo trục abscissa và trên mỗi giá trị đó, giống như trên đế, một hình chữ nhật được xây dựng với chiều cao bằng tần số tương đối. Biểu đồ thanh kết quả được gọi là biểu đồ.

Cơm. 3.1. biểu đồ

Trong biểu đồ, các mô hình thống kê về phân bố của đặc tính được thể hiện khá rõ ràng.

Với cỡ mẫu lớn (vài nghìn) và độ rộng cột nhỏ, hình dạng của biểu đồ gần giống với hình dạng của biểu đồ mật độ phân bố dấu hiệu.

Số lượng cột biểu đồ có thể được chọn bằng công thức sau:

Xây dựng biểu đồ theo cách thủ công là một quá trình lâu dài. Vì vậy, các chương trình máy tính đã được phát triển để tự động xây dựng chúng.

3.2. ĐẶC ĐIỂM SỐ CỦA DÒNG THỐNG KÊ

Nhiều quy trình thống kê sử dụng ước tính mẫu cho kỳ vọng và phương sai của tổng thể (hoặc MSE).

Trung bình mẫu(X) là giá trị trung bình số học của tất cả các phần tử của một chuỗi thống kê đơn giản:

Ví dụ của chúng tôi X= 37,05 (m/s).

Giá trị trung bình mẫu làđiều tốt nhấtước tính trung bình chungM.

Phương sai mẫu s 2 bằng tổng bình phương độ lệch của các phần tử so với giá trị trung bình mẫu, chia cho N- 1:

Trong ví dụ của chúng tôi, s 2 = 25,2 (m/s) 2.

Xin lưu ý rằng khi tính toán phương sai mẫu, mẫu số của công thức không phải là cỡ mẫu n mà là n-1. Điều này là do khi tính toán độ lệch trong công thức (3.3), thay vì kỳ vọng toán học chưa biết, ước tính của nó được sử dụng - trung bình mẫu.

Phương sai mẫu là điều tốt nhấtước tính phương sai chung (σ 2).

Độ lệch chuẩn mẫu(s) là căn bậc hai của phương sai mẫu:

Ví dụ của chúng tôi S= 5,02 (m/s).

chọn lọc căn bậc hai có nghĩa là bình phươngđộ lệch là ước tính tốt nhất của độ lệch chuẩn chung (σ).

Với sự gia tăng không giới hạn về kích thước mẫu, tất cả các đặc điểm của mẫu đều có xu hướng hướng tới các đặc điểm tương ứng của dân số nói chung.

Các công thức máy tính được sử dụng để tính toán các đặc tính của mẫu. Trong Excel, các phép tính này thực hiện các hàm thống kê AVERAGE, VARIANCE. SỰ SAI CHUẨN

3.3. ĐÁNH GIÁ KHOẢNG CÁCH

Tất cả các đặc điểm của mẫu đều được các biến ngẫu nhiên.Điều này có nghĩa là đối với một mẫu khác có cùng kích thước, các giá trị đặc tính của mẫu sẽ khác nhau. Vì vậy, có chọn lọc

đặc điểm chỉ có ước tínhđặc điểm liên quan của dân số.

Những nhược điểm của đánh giá chọn lọc được bù đắp bằng ước tính khoảng thời gian,đại diện khoảng số bên trong với một xác suất nhất định R d giá trị thực của tham số ước tính được tìm thấy.

Cho phép U r - một số tham số của tổng thể chung (trung bình chung, phương sai chung, v.v.).

ước tính khoảng thời gian tham số U r được gọi là khoảng (U 1, U 2), thỏa mãn điều kiện:

P(U < Ur < U2) = Рд. (3.5)

Xác suất R d gọi điện xác suất tin cậy.

Xác suất tin cậy Pd - xác suất để giá trị thực của đại lượng ước tính là bên trong khoảng thời gian được chỉ định.

Trong trường hợp này, khoảng (U 1, U 2) gọi điện khoảng tin cậy cho tham số được ước lượng.

Thông thường, thay vì xác suất tin cậy, giá trị liên quan α = 1 - Р d được sử dụng, giá trị này được gọi là mức độ quan trọng.

Mức ý nghĩa là xác suất để giá trị thực của tham số ước tính là ngoài khoảng tin cậy.

Đôi khi α và P d được biểu thị dưới dạng phần trăm, ví dụ: 5% thay vì 0,05 và 95% thay vì 0,95.

Trong ước tính khoảng thời gian, trước tiên hãy chọn giá trị thích hợp xác suất tin cậy(thường là 0,95 hoặc 0,99), sau đó tìm phạm vi giá trị thích hợp cho tham số được ước tính.

Chúng ta hãy lưu ý một số tính chất chung của ước lượng khoảng.

1. Mức ý nghĩa càng thấp (càng nhiều R d),ước lượng khoảng càng rộng. Vì vậy, nếu ở mức ý nghĩa 0,05 thì ước tính khoảng của giá trị trung bình chung là 34,7< M< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < M< 40,25.

2. Cỡ mẫu càng lớn N,ước lượng khoảng càng hẹp với mức ý nghĩa đã chọn. Ví dụ: giả sử 5 là ước tính phần trăm của trung bình chung (β = 0,05) thu được từ một mẫu gồm 20 phần tử, sau đó là 34,7< M< 39,4.

Bằng cách tăng cỡ mẫu lên 80, chúng ta có được ước tính chính xác hơn ở cùng mức ý nghĩa: 35,5< M< 38,6.

Nhìn chung, việc xây dựng các ước lượng độ tin cậy đáng tin cậy đòi hỏi kiến ​​thức về quy luật theo đó thuộc tính ngẫu nhiên ước lượng được phân bổ trong tổng thể. Hãy xem cách ước tính khoảng thời gian được xây dựng trung bình chungđặc điểm phân bố trong quần thể theo Bình thường pháp luật.

3.4. ƯỚC TÍNH KHOẢNG CÁCH TRUNG BÌNH CHUNG CHO LUẬT PHÂN PHỐI BÌNH THƯỜNG

Việc xây dựng ước tính khoảng của trung bình chung M cho dân số có luật phân phối chuẩn dựa trên tính chất sau. Đối với khối lượng lấy mẫu N thái độ

tuân theo phân phối Sinh viên với số bậc tự do ν = N- 1.

Đây X- trung bình mẫu, và S- độ lệch chuẩn chọn lọc.

Sử dụng bảng phân phối của Sinh viên hoặc máy tính tương đương, bạn có thể tìm thấy một giá trị biên sao cho với xác suất tin cậy nhất định, bất đẳng thức sau có giá trị:

Bất đẳng thức này tương ứng với bất đẳng thức của M:

Ở đâu ε - nửa độ rộng của khoảng tin cậy.

Do đó, việc xây dựng khoảng tin cậy cho M được thực hiện theo trình tự sau.

1. Chọn xác suất tin cậy Р d (thường là 0,95 hoặc 0,99) và đối với xác suất đó, sử dụng bảng phân phối Sinh viên, tìm tham số t

2. Tính nửa độ rộng của khoảng tin cậy ε:

3. Lấy ước lượng khoảng của trung bình chung với xác suất tin cậy đã chọn:

Tóm lại nó được viết như thế này:

Các thủ tục máy tính đã được phát triển để tìm ước tính khoảng thời gian.

Hãy để chúng tôi giải thích cách sử dụng bảng phân phối Sinh viên. Bảng này có hai “lối vào”: cột bên trái, gọi là số bậc tự do ν = N- 1, dòng trên cùng là mức ý nghĩa α. Tại giao điểm của hàng và cột tương ứng tìm hệ số Sinh viên t.

Hãy áp dụng phương pháp này cho mẫu của chúng tôi. Một đoạn của bảng phân phối Sinh viên được trình bày dưới đây.

Bảng 3.3. Đoạn của bảng phân phối Sinh viên

Một chuỗi thống kê đơn giản cho một mẫu gồm 20 người (N= 20, ν =19) được trình bày trong bảng. 3.1. Đối với loạt bài này, các phép tính sử dụng công thức (3.1-3.3) cho: X= 37,05; S= 5,02.

Hãy chọn α = 0,05 (Р d = 0,95). Tại giao điểm của hàng “19” và cột “0,05”, chúng tôi tìm thấy t= 2,09.

Hãy tính độ chính xác của ước lượng bằng công thức (3.6): ε = 2,09?5,02/λ /20 = 2,34.

Hãy xây dựng ước tính khoảng: với xác suất 95%, giá trị trung bình chung chưa biết thỏa mãn bất đẳng thức:

37,05 - 2,34 < M< 37,05 + 2,34, или M= 37,05 ± 2,34 (m/s), R d = 0,95.

3.5. PHƯƠNG PHÁP KIỂM TRA GIẢ THUYẾT THỐNG KÊ

giả thuyết thống kê

Trước khi hình thành giả thuyết thống kê là gì, hãy xem xét ví dụ sau.

Để so sánh hai phương pháp điều trị một căn bệnh nhất định, hai nhóm bệnh nhân, mỗi nhóm gồm 20 người được chọn và điều trị bằng các phương pháp này. Đối với mỗi bệnh nhân, nó được ghi lại số thủ tục, sau đó đã đạt được hiệu quả tích cực. Dựa trên những dữ liệu này, phương tiện mẫu (X), phương sai mẫu được tìm thấy cho mỗi nhóm (giây 2) và độ lệch chuẩn mẫu (S).

Các kết quả được trình bày trong bảng. 3.4.

Bảng 3.4

Số lượng quy trình cần thiết để đạt được hiệu quả tích cực là một biến ngẫu nhiên, tất cả thông tin về biến này hiện có trong mẫu đã cho.

Từ bàn 3.4 cho thấy giá trị trung bình mẫu ở nhóm thứ nhất nhỏ hơn ở nhóm thứ hai.< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает Phải chăng điều này có nghĩa là mối quan hệ tương tự cũng xảy ra đối với tổn thất chung: M 1

kiểm định thống kê các giả thuyết.- Giả thuyết thống kê

nó là một giả định về các đặc tính của quần thể. Chúng ta sẽ xem xét các giả thuyết về tính chất hai

quần thể nói chung. Nếu dân số cóđã biết, giống hệt nhau sự phân bố của giá trị được ước tính và các giả định liên quan đến các giá trị một số tham số của sự phân bố này thì các giả thuyết được gọi là tham số. Ví dụ: các mẫu được lấy từ các quần thể có luật thông thường phân bố và phương sai bằng nhau. Cần tìm hiểu chúng có giống nhau không

mức trung bình chung của các quần thể này. Nếu người ta không biết gì về quy luật phân bố của quần thể nói chung thì các giả thuyết về tính chất của chúng được gọi là phi tham số. phân bố và phương sai bằng nhau. Cần tìm hiểu Ví dụ,

quy luật phân bố của tổng thể chung mà từ đó các mẫu được rút ra.

Giả thuyết không và thay thế.

Nhiệm vụ kiểm tra giả thuyết. Mức ý nghĩa

Chúng ta hãy làm quen với thuật ngữ được sử dụng khi kiểm tra các giả thuyết. H 0 - giả thuyết không (giả thuyết hoài nghi) là một giả thuyết về sự vắng mặt của sự khác biệt

giữa các mẫu so sánh. Người hoài nghi tin rằng sự khác biệt giữa các ước tính mẫu thu được từ kết quả nghiên cứu là ngẫu nhiên;- giả thuyết thay thế (giả thuyết lạc quan) là giả thuyết về sự tồn tại của sự khác biệt giữa các mẫu so sánh. Người lạc quan tin rằng sự khác biệt giữa các ước tính mẫu là do nguyên nhân khách quan gây ra và tương ứng với sự khác biệt trong tổng thể chung.

Việc kiểm định các giả thuyết thống kê chỉ khả thi khi có thể xây dựng được một số kích cỡ(tiêu chí), luật phân phối trong trường hợp công bằng H 0được biết đến. Sau đó, đối với số lượng này chúng ta có thể chỉ định khoảng tin cậy, vào đó với một xác suất nhất định R d giá trị của nó giảm. Khoảng này được gọi là khu vực quan trọng. Nếu giá trị tiêu chí rơi vào vùng tới hạn thì giả thuyết được chấp nhận N 0. Ngược lại, giả thuyết H 1 được chấp nhận.

Trong nghiên cứu y học, P d = 0,95 hoặc P d = 0,99 được sử dụng. Các giá trị này tương ứng mức ý nghĩaα = 0,05 hoặc α = 0,01.

Khi kiểm định các giả thuyết thống kêmức độ quan trọng(α) là xác suất bác bỏ giả thuyết không khi nó đúng.

Xin lưu ý rằng, cốt lõi của quy trình kiểm tra giả thuyết là nhằm mục đích phát hiện sự khác biệt và không xác nhận sự vắng mặt của họ. Khi giá trị tiêu chí vượt ra ngoài vùng quan trọng, chúng ta có thể nói với một trái tim trong sáng với những người “hoài nghi” - bạn còn muốn gì nữa?! Nếu không có sự khác biệt thì với xác suất 95% (hoặc 99%) giá trị tính toán sẽ nằm trong giới hạn đã chỉ định. Nhưng không!..

Chà, nếu giá trị của tiêu chí rơi vào vùng tới hạn thì không có lý do gì để tin rằng giả thuyết H 0 là đúng. Điều này rất có thể chỉ ra một trong hai lý do có thể xảy ra.

1. Cỡ mẫu không đủ lớn để phát hiện sự khác biệt. Có khả năng việc tiếp tục thử nghiệm sẽ mang lại thành công.

2. Có sự khác biệt. Nhưng chúng quá nhỏ nên không có ý nghĩa thực tế. Trong trường hợp này, việc tiếp tục thử nghiệm không có ý nghĩa gì.

Hãy chuyển sang xem xét một số giả thuyết thống kê được sử dụng trong nghiên cứu y học.

3.6. KIỂM TRA GIẢ THUYẾT VỀ SỰ BẰNG ĐẲNG CÁC PHƯƠNG TIỆN, TIÊU CHÍ F CỦA FISCHER

Trong một số nghiên cứu lâm sàng, tác dụng tích cực được chứng minh là không nhiều kích cỡ của tham số đang nghiên cứu, bao nhiêu trong số đó ổn định, giảm sự biến động của nó. Trong trường hợp này, câu hỏi đặt ra là so sánh hai phương sai chung dựa trên kết quả khảo sát mẫu. Vấn đề này có thể được giải quyết bằng cách sử dụng Thử nghiệm của Fisher.

Tuyên bố về vấn đề

Ví dụ: các mẫu được lấy từ các quần thể có phân phối. Cỡ mẫu -

n 1n2, MỘT phương sai mẫu bình đẳng s 1 và s 2 2 các phương sai chung.

Các giả thuyết có thể kiểm chứng:

H 0- phương sai chung giống nhau;

H 1- phương sai chung là khác nhau.

Hiển thị nếu các mẫu được lấy từ các quần thể có Ví dụ: các mẫu được lấy từ các quần thể có phân phối, thì nếu giả thuyết là đúng H 0 tỷ lệ phương sai mẫu tuân theo phân phối Fisher. Vì vậy, làm tiêu chí để kiểm tra tính công bằng H 0 giá trị được lấy F,được tính theo công thức:

Ở đâu s 1 và s 2 là phương sai mẫu.

Tỷ số này tuân theo phân phối Fisher với số bậc tự do của tử số ν 1 = n 1- 1 và số bậc tự do của mẫu số ν 2 = n 2 - 1. Biên của vùng tới hạn được xác định bằng bảng phân phối Fisher hoặc sử dụng hàm máy tính BRASPOBR.

Đối với ví dụ được trình bày trong bảng. 3.4, ta được: ν 1 = ν 2 = 20 - 1 = 19; F= 2,16/4,05 = 0,53. Với α = 0,05, ranh giới của vùng tới hạn lần lượt là: = 0,40, = 2,53.

Giá trị tiêu chí rơi vào vùng tới hạn nên giả thuyết được chấp nhận H0: phương sai mẫu chung là như nhau.

3.7. KIỂM TRA GIẢ THUYẾT VỀ BÌNH ĐẲNG VỀ PHƯƠNG TIỆN, TIÊU CHÍ SINH VIÊN

Nhiệm vụ so sánh trung bình hai quần thể chung phát sinh khi ý nghĩa thực tế được xác định chính xác kích cỡ tính chất đang được nghiên cứu. Ví dụ, khi so sánh thời gian điều trị với hai phương pháp khác nhau hoặc số lượng biến chứng phát sinh do sử dụng chúng. Trong trường hợp này, bạn có thể sử dụng bài kiểm tra t của Học sinh.

Tuyên bố về vấn đề

Hai mẫu (X 1) và (X 2) được lấy từ các quần thể chung với Ví dụ: các mẫu được lấy từ các quần thể có phân phối và những phương sai giống nhau. Cỡ mẫu - n 1 và n 2, phương tiện mẫu bằng X 1 và X 2, và phương sai mẫu- s 1 2 và s 2 2 tương ứng. Cần so sánh số trung bình chung.

Các giả thuyết có thể kiểm chứng:

H 0- trung bình chung giống nhau;

H 1- trung bình chung là khác nhau.

Chứng tỏ rằng nếu giả thuyết đúng H 0 giá trị t được tính theo công thức:

phân bố theo định luật Sinh viên với số bậc tự do ν = ν 1 + + ν2 - 2.

Ở đây ν 1 = N 1 - 1 - số bậc tự do của mẫu đầu tiên; ν 2 = N 2 - 1 - số bậc tự do của mẫu thứ hai.

Ranh giới của vùng tới hạn được tìm thấy bằng cách sử dụng bảng phân phối t hoặc sử dụng hàm máy tính STUDRIST. Phân phối Sinh viên đối xứng quanh 0, do đó ranh giới bên trái và bên phải của vùng tới hạn có độ lớn giống nhau và trái dấu: -và

Đối với ví dụ được trình bày trong bảng. 3.4, ta có:

ν 1 = ν 2 = 20 - 1 = 19; ν = 38, t= -2,51. Tại α = 0,05 = 2,02.

Giá trị tiêu chí vượt ra ngoài biên trái của vùng tới hạn nên ta chấp nhận giả thuyết H1: trung bình chung là khác nhau.Đồng thời, dân số trung bình mẫu đầu tiênÍT HƠN.

Khả năng ứng dụng của bài kiểm tra t của Sinh viên

Bài kiểm tra t của Học sinh chỉ áp dụng cho các mẫu từ Bình thường tập hợp với phương sai chung giống hệt nhau. Nếu ít nhất một trong các điều kiện bị vi phạm thì khả năng áp dụng tiêu chí đó sẽ bị nghi ngờ. Yêu cầu về tính bình thường của dân số nói chung thường bị bỏ qua, trích dẫnĐịnh lý giới hạn trung tâm.

Thật vậy, sự khác biệt giữa các trung bình mẫu trong tử số (3.10) có thể được coi là phân phối chuẩn cho ν > 30. Nhưng câu hỏi về sự bằng nhau của các phương sai không thể được xác minh và không thể tham chiếu đến thực tế là thử nghiệm Fisher không phát hiện ra sự khác biệt tính đến. Tuy nhiên, t-test được sử dụng rộng rãi để phát hiện sự khác biệt về giá trị trung bình của dân số, mặc dù không có đủ bằng chứng. Dưới đây được thảo luận tiêu chí phi tham số, được sử dụng thành công cho cùng mục đích và không yêu cầu bất kỳ sự bình thường, không

sự bằng nhau của phương sai.

3.8. SO SÁNH PHI THAM SỐ CỦA HAI MẪU: TIÊU CHÍ MANN-WHITNEY Các thử nghiệm phi tham số được thiết kế để phát hiện sự khác biệt trong quy luật phân phối của hai quần thể. Tiêu chí nhạy cảm với sự khác biệt nói chung trung bình, gọi là tiêu chí sự thay đổi Tiêu chí nhạy cảm với sự khác biệt nói chung trung bình, sự phân tán, tỉ lệ. Bài kiểm tra Mann-Whitney đề cập đến các tiêu chí sự thay đổi và được sử dụng để phát hiện sự khác biệt về giá trị trung bình của hai quần thể, các mẫu từ đó được trình bày trong thang xếp hạng. Các đặc tính đo được được đặt trên thang đo này theo thứ tự tăng dần, sau đó được đánh số nguyên 1, 2... Các số này được gọi là xếp hạng. Số lượng bằng nhau được xếp hạng bằng nhau. Vấn đề không phải là giá trị của thuộc tính mà chỉ vị trí thứ tự

mà nó được xếp hạng trong số các đại lượng khác.

Trong bảng 3.5. nhóm đầu tiên trong Bảng 3.4 được trình bày ở dạng mở rộng (dòng 1), xếp hạng (dòng 2), sau đó các thứ hạng có giá trị giống nhau được thay thế bằng trung bình số học. Ví dụ: mục 4 và 4 ở hàng đầu tiên được xếp hạng 2 và 3, sau đó được thay thế bằng cùng giá trị 2,5.

Tuyên bố về vấn đề

Bảng 3.5 Mẫu độc lập(X 1)(X2) n 1được trích xuất từ ​​các quần thể nói chung với các luật phân phối chưa biết. Cỡ mẫu n 2 và được sử dụng để phát hiện sự khác biệt về giá trị trung bình của hai quần thể, các mẫu từ đó được trình bày trong tương ứng. Giá trị của các phần tử mẫu được trình bày trong

Các giả thuyết có thể kiểm chứng:

H 0 Cần phải kiểm tra xem các quần thể nói chung này có khác nhau không? H 1- các mẫu thuộc về các quần thể chung khác nhau.

Để kiểm tra các giả thuyết như vậy, phép thử (/-Mann-Whitney được sử dụng.

Đầu tiên, một mẫu kết hợp (X) được tổng hợp từ hai mẫu, các phần tử của chúng được xếp hạng. Sau đó, tổng các cấp bậc tương ứng với các phần tử của mẫu đầu tiên được tìm thấy. Số tiền này là tiêu chí để kiểm tra các giả thuyết.

bạn= Tổng thứ hạng của mẫu đầu tiên. (3.11)

Đối với các mẫu độc lập có thể tích lớn hơn 20, giá trị bạn tuân theo phân phối chuẩn, kỳ vọng toán học và độ lệch chuẩn bằng nhau:

Do đó, ranh giới của vùng tới hạn được tìm theo bảng phân phối chuẩn.

Đối với ví dụ được trình bày trong bảng. 3.4, ta được: ν 1 = ν 2 = 20 - 1 = 19, bạn= 339, μ = 410, σ = 37. Với α = 0,05 ta có: left = 338 và right = 482.

Giá trị của tiêu chí vượt ra ngoài biên trái của vùng tới hạn nên giả thuyết H 1 được chấp nhận: các quần thể nói chung có quy luật phân bố khác nhau. Đồng thời, dân số trung bình mẫu đầu tiênÍT HƠN.

Khi xây dựng chuỗi phân phối theo khoảng, ba câu hỏi được giải quyết:

  • 1. Tôi nên nghỉ bao nhiêu lần?
  • 2. Độ dài của các khoảng thời gian là bao nhiêu?
  • 3. Thủ tục để bao gồm các đơn vị dân số trong ranh giới của các khoảng là gì?
  • 1. Số khoảng có thể được xác định bởi công thức Sturgess:

2. Độ dài khoảng hoặc bước khoảng, thường được xác định theo công thức

Ở đâu R- phạm vi biến đổi.

3. Thứ tự bao gồm các đơn vị dân cư trong ranh giới của khoảng

có thể khác nhau, nhưng khi xây dựng một chuỗi khoảng, sự phân bố phải được xác định chặt chẽ.

Ví dụ, cái này: [), trong đó các đơn vị dân số được bao gồm trong các ranh giới dưới, nhưng không được bao gồm trong các ranh giới trên, mà được chuyển sang khoảng tiếp theo. Ngoại lệ đối với quy tắc này là khoảng cuối cùng, giới hạn trên của khoảng này bao gồm số cuối cùng của chuỗi được xếp hạng.

Ranh giới khoảng là:

  • đã đóng - với hai giá trị cực trị của thuộc tính;
  • mở - với một giá trị cực trị của thuộc tính (ĐẾN như vậy và một số như vậy hoặc qua như vậy và một số như vậy).

Để đồng hóa các tài liệu lý thuyết, chúng tôi giới thiệu thông tin cơ bảnđể giải quyết nhiệm vụ từ đầu đến cuối.

Có dữ liệu có điều kiện về số lượng người quản lý bán hàng trung bình, số lượng hàng hóa tương tự mà họ bán, giá thị trường riêng cho sản phẩm này, cũng như doanh số bán hàng của 30 công ty tại một trong các khu vực của Liên bang Nga trong lần đầu tiên. quý của năm báo cáo (Bảng 2.1).

Bảng 2.1

Thông tin ban đầu cho một nhiệm vụ xuyên suốt

Con số

người quản lý,

Giá, nghìn rúp

Khối lượng bán hàng, triệu rúp.

Con số

người quản lý,

Số lượng hàng bán, chiếc.

Giá, nghìn rúp

Khối lượng bán hàng, triệu rúp.

Dựa trên thông tin ban đầu cũng như thông tin bổ sung, chúng tôi sẽ thiết lập các nhiệm vụ riêng lẻ. Sau đó, chúng tôi sẽ trình bày phương pháp giải quyết chúng và bản thân các giải pháp.

Nhiệm vụ xuyên suốt. Nhiệm vụ 2.1

Sử dụng dữ liệu nguồn từ bảng. 2.1 bắt buộc xây dựng một chuỗi phân phối rời rạc của các doanh nghiệp theo số lượng hàng hóa bán ra (Bảng 2.2).

Giải pháp:

Bảng 2.2

Chuỗi phân bổ riêng biệt của các công ty theo số lượng hàng hóa bán ra tại một trong các khu vực của Liên bang Nga trong quý đầu tiên của năm báo cáo

Nhiệm vụ xuyên suốt. Nhiệm vụ 2.2

yêu cầu xây dựng một chuỗi xếp hạng gồm 30 công ty theo số lượng nhà quản lý trung bình.

Giải pháp:

15; 17; 18; 20; 20; 20; 22; 22; 24; 25; 25; 25; 27; 27; 27; 28; 29; 30; 32; 32; 33; 33; 33; 34; 35; 35; 38; 39; 39; 45.

Nhiệm vụ xuyên suốt. Nhiệm vụ 2.3

Sử dụng dữ liệu nguồn từ bảng. 2.1, yêu cầu:

  • 1. Xây dựng chuỗi phân bổ các công ty theo số lượng người quản lý.
  • 2. Tính tần số chuỗi phân phối của các hãng.
  • 3. Rút ra kết luận.

Giải pháp:

Hãy tính toán bằng công thức Sturgess (2.5) số khoảng:

Vì vậy, chúng tôi lấy 6 khoảng (nhóm).

Độ dài khoảng, hoặc bước ngắt quãng, tính toán bằng công thức

Ghi chú. Thứ tự đưa các đơn vị dân cư vào ranh giới của khoảng như sau: I), trong đó các đơn vị dân số được đưa vào ranh giới dưới, nhưng không nằm trong ranh giới trên mà được chuyển sang khoảng tiếp theo. Ngoại lệ đối với quy tắc này là khoảng cuối cùng I ], giới hạn trên của khoảng này bao gồm số cuối cùng của chuỗi xếp hạng.

Chúng tôi xây dựng một chuỗi khoảng (Bảng 2.3).

Chuỗi phân bổ theo khoảng thời gian của các công ty và số lượng nhà quản lý trung bình tại một trong các khu vực của Liên bang Nga trong quý đầu tiên của năm báo cáo

Phần kết luận. Nhóm doanh nghiệp lớn nhất là nhóm có số lượng cán bộ quản lý trung bình từ 25-30 người, bao gồm 8 doanh nghiệp (27%); Nhóm nhỏ nhất với số lượng quản lý trung bình từ 40-45 người chỉ bao gồm một công ty (3%).

Sử dụng dữ liệu nguồn từ bảng. 2.1, cũng như chuỗi phân bổ theo khoảng thời gian của các công ty theo số lượng người quản lý (Bảng 2.3), yêu cầu xây dựng một nhóm phân tích về mối quan hệ giữa số lượng người quản lý và khối lượng bán hàng của các công ty và dựa vào đó đưa ra kết luận về sự hiện diện (hoặc vắng mặt) của mối quan hệ giữa các đặc điểm này.

Giải pháp:

Phân nhóm phân tích dựa trên đặc điểm của yếu tố. Trong bài toán của chúng ta, đặc tính nhân tố (x) là số lượng người quản lý và đặc tính tổng hợp (y) là khối lượng bán hàng (Bảng 2.4).

Hãy xây dựng ngay bây giờ nhóm phân tích(Bảng 2.5).

Phần kết luận. Dựa trên dữ liệu của nhóm phân tích được xây dựng, chúng ta có thể nói rằng với sự gia tăng số lượng người quản lý bán hàng, doanh số bán hàng trung bình của công ty trong nhóm cũng tăng lên, điều này cho thấy sự hiện diện của mối liên hệ trực tiếp giữa các đặc điểm này.

Bảng 2.4

Bảng phụ trợ để xây dựng một nhóm phân tích

Số lượng cán bộ quản lý, nhân sự

Mã số công ty

Khối lượng bán hàng, triệu rúp, y

" = 59 f = 9,97

Tôi-™ 4 - Yu.22

74'25 1PY1

U4 = 7 = 10,61

Tại = ’ =10,31 30

Bảng 2.5

Sự phụ thuộc của khối lượng bán hàng vào số lượng người quản lý công ty tại một trong các khu vực của Liên bang Nga trong quý đầu tiên của năm báo cáo

CÂU HỎI KIỂM TRA
  • 1. Bản chất của quan sát thống kê là gì?
  • 2. Kể tên các giai đoạn quan trắc thống kê.
  • 3. Hình thức tổ chức quan sát thống kê là gì?
  • 4. Kể tên các loại quan sát thống kê.
  • 5. Tóm tắt thống kê là gì?
  • 6. Kể tên các loại báo cáo thống kê.
  • 7. Phân nhóm thống kê là gì?
  • 8. Kể tên các loại nhóm thống kê.
  • 9. Chuỗi phân phối là gì?
  • 10. Kể tên các thành phần cấu trúc của hàng phân phối.
  • 11. Trình tự xây dựng chuỗi phân phối là gì?

Có sẵn dữ liệu quan sát thống kê mô tả đặc điểm của một hiện tượng cụ thể, trước hết cần phải tổ chức chúng, tức là. đưa ra một tính cách có hệ thống

Nhà thống kê người Anh. UJReichman đã nói một cách hình tượng về những bộ sưu tập lộn xộn khi gặp phải một khối lượng dữ liệu không được tổng quát hóa tương đương với tình huống một người bị ném vào bụi rậm mà không có la bàn. Việc hệ thống hóa số liệu thống kê dưới dạng chuỗi phân phối là gì?

Chuỗi phân phối thống kê được tổng hợp thống kê theo thứ tự (Bảng 17). Loại chuỗi phân phối thống kê đơn giản nhất là chuỗi xếp hạng, tức là. một dãy số theo thứ tự tăng dần hoặc giảm dần, có đặc điểm khác nhau. Một chuỗi như vậy không cho phép người ta đánh giá các mẫu vốn có trong dữ liệu được phân phối: giá trị nào có phần lớn các chỉ số được nhóm lại, có những sai lệch nào so với giá trị này; cũng như bức tranh phân phối chung. Với mục đích này, dữ liệu được nhóm lại, cho thấy tần suất xuất hiện của các quan sát riêng lẻ trong tổng số của chúng (Sơ đồ 1a 1).

. Bảng 17

. Tổng quan về chuỗi phân phối thống kê

. Sơ đồ 1. Sơ đồ thống kê chuỗi phân phối

Sự phân bố các đơn vị quần thể theo những đặc điểm không có biểu hiện định lượng được gọi là chuỗi thuộc tính(ví dụ: phân bổ doanh nghiệp theo khu vực sản xuất)

Chuỗi phân bố các đơn vị dân cư theo đặc điểm, có biểu hiện định lượng, được gọi là chuỗi biến thể. Trong chuỗi như vậy, giá trị của đặc tính (tùy chọn) theo thứ tự tăng dần hoặc giảm dần

Trong chuỗi phân phối biến thiên, hai yếu tố được phân biệt: biến thể và tần số . Lựa chọn- đây là ý nghĩa riêng của đặc điểm nhóm Tính thường xuyên- một con số cho biết mỗi tùy chọn xảy ra bao nhiêu lần

Trong thống kê toán học, một phần tử nữa của chuỗi biến thiên được tính toán - một phần. Phần sau được định nghĩa là tỷ lệ tần số của các trường hợp trong một khoảng nhất định với tổng tần số; phần được xác định theo phân số của một đơn vị, phần trăm (%) tính bằng ppm (% o)

Do đó, chuỗi phân phối biến thể là chuỗi trong đó các tùy chọn được sắp xếp theo thứ tự tăng dần hoặc giảm dần và tần số hoặc tần số của chúng được biểu thị. Chuỗi biến thể là rời rạc (khoảng) và các khoảng khác (liên tục).

. Chuỗi biến thể rời rạc- đây là chuỗi phân phối trong đó biến thể là giá trị của đặc tính định lượng chỉ có thể đảm nhận một giá trị nhất định. Các tùy chọn khác nhau bởi một hoặc nhiều đơn vị

Do đó, số lượng bộ phận được sản xuất trong mỗi ca của một công nhân cụ thể chỉ có thể được biểu thị bằng một số cụ thể (6, 10, 12, v.v.). Một ví dụ về chuỗi biến động rời rạc có thể là sự phân bổ công nhân theo số lượng bộ phận được sản xuất (Bảng 18 18).

. Bảng 18

. Phân phối chuỗi rời rạc _

. Chuỗi biến thể theo khoảng thời gian (liên tục)- chuỗi phân phối trong đó giá trị của các tùy chọn được đưa ra dưới dạng các khoảng, tức là giá trị của các đặc điểm có thể khác nhau một lượng nhỏ tùy ý. Khi xây dựng một chuỗi biến thể của các đặc điểm quanh biến thể NEP, không thể chỉ ra từng giá trị của biến thể, do đó tổng thể được phân bổ theo các khoảng. Cái sau có thể bằng hoặc không bằng nhau. Đối với mỗi người trong số họ, tần số hoặc tần số được chỉ định (Bảng 1 9 19).

Trong chuỗi phân bố theo khoảng có các khoảng không bằng nhau, các đặc tính toán học như mật độ phân bố và mật độ phân bố tương đối trên một khoảng nhất định sẽ được tính toán. Đặc tính đầu tiên được xác định bởi tỷ lệ tần số với giá trị của cùng một khoảng, đặc tính thứ hai - theo tỷ lệ tần số với giá trị của cùng một khoảng. Đối với ví dụ trên, mật độ phân bố trong khoảng đầu tiên sẽ là 3: 5 = 0,6 và mật độ tương đối trong khoảng này là 7,5: 5 = 1,55%.

. Bảng 19

. Chuỗi phân phối khoảng thời gian _

Một chuỗi biến thể rời rạc được xây dựng cho các đặc điểm riêng biệt.

Để xây dựng chuỗi biến thiên rời rạc, bạn cần thực hiện các bước sau: 1) sắp xếp các đơn vị quan sát theo thứ tự tăng dần của giá trị nghiên cứu của đặc tính,

2) xác định tất cả các giá trị có thể có của đặc tính x i, sắp xếp chúng theo thứ tự tăng dần,

giá trị của thuộc tính, Tôi .

tần số của giá trị thuộc tính và biểu thị f Tôi . Tổng tất cả các tần số của một chuỗi bằng số phần tử trong quần thể đang được nghiên cứu.

Ví dụ 1 .

Danh sách điểm học sinh đạt được trong các kỳ thi: 3; 4; 3; 5; 4; 2; 2; 4; 4; 3; 5; 2; 4; 5; 4; 3; 4; 3; 3; 4; 4; 2; 2; 5; 5; 4; 5; 2; 3; 4; 4; 3; 4; 5; 2; 5; 5; 4; 3; 3; 4; 2; 4; 4; 5; 4; 3; 5; 3; 5; 4; 4; 5; 4; 4; 5; 4; 5; 5; 5.

Đây là số X - cấplà một biến ngẫu nhiên rời rạc và danh sách ước tính kết quả làdữ liệu thống kê (có thể quan sát được) .

    sắp xếp các đơn vị quan sát theo thứ tự tăng dần của giá trị đặc trưng nghiên cứu:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) xác định tất cả các giá trị có thể có của đặc tính x i, sắp xếp chúng theo thứ tự tăng dần:

Trong ví dụ này, tất cả các ước tính có thể được chia thành bốn nhóm với các giá trị sau: 2; 3; 4; 5.

Giá trị của biến ngẫu nhiên tương ứng với một nhóm dữ liệu quan sát cụ thể được gọi là giá trị của thuộc tính, tùy chọn (tùy chọn) và chỉ định x Tôi .

Một số cho biết số lần giá trị tương ứng của một đặc tính xuất hiện trong một số quan sát được gọi là tần số của giá trị thuộc tính và biểu thị f Tôi .

Ví dụ của chúng tôi

điểm 2 xảy ra - 8 lần,

điểm 3 xảy ra - 12 lần,

điểm 4 xảy ra - 23 lần,

xếp hạng 5 xảy ra - 17 lần.

Tổng cộng có 60 xếp hạng.

4) ghi dữ liệu nhận được vào bảng gồm hai hàng (cột) - x i và fi.

Dựa trên những dữ liệu này, có thể xây dựng một chuỗi biến thể rời rạc

Chuỗi biến thể rời rạc – đây là bảng trong đó các giá trị xuất hiện của đặc tính đang được nghiên cứu được biểu thị dưới dạng các giá trị riêng lẻ theo thứ tự tăng dần và tần số của chúng

  1. Xây dựng chuỗi biến thiên theo khoảng

Ngoài chuỗi biến thiên rời rạc, người ta thường gặp một phương pháp nhóm dữ liệu như chuỗi biến thiên theo khoảng.

Chuỗi khoảng được xây dựng nếu:

    dấu hiệu có tính chất thay đổi liên tục;

    Có rất nhiều giá trị rời rạc (hơn 10)

    tần số của các giá trị rời rạc rất nhỏ (không vượt quá 1-3 với số lượng đơn vị quan sát tương đối lớn);

    nhiều giá trị rời rạc của một đặc điểm có cùng tần số.

Chuỗi biến thể theo khoảng là cách nhóm dữ liệu dưới dạng bảng có hai cột (các giá trị của đặc tính ở dạng khoảng giá trị và tần số của từng khoảng).

Không giống như một chuỗi rời rạc, các giá trị đặc tính của chuỗi khoảng được biểu thị không phải bằng các giá trị riêng lẻ mà bằng một khoảng giá trị (“từ - đến”).

Con số cho biết có bao nhiêu đơn vị quan sát rơi vào mỗi khoảng đã chọn được gọi là tần số của giá trị thuộc tính và biểu thị f Tôi . Tổng tất cả các tần số của một chuỗi bằng số phần tử (đơn vị quan sát) trong tổng thể đang được nghiên cứu.

Nếu một đơn vị có giá trị đặc tính bằng giới hạn trên của khoảng thì nó sẽ được gán cho khoảng tiếp theo.

Ví dụ, một đứa trẻ cao 100 cm sẽ rơi vào khoảng thứ 2 chứ không phải vào khoảng thứ nhất; và một đứa trẻ cao 130 cm sẽ rơi vào khoảng cuối cùng chứ không phải vào khoảng thứ ba.

Dựa trên những dữ liệu này, một chuỗi biến thiên theo khoảng có thể được xây dựng.

Mỗi khoảng có giới hạn dưới (xn), giới hạn trên (xv) và độ rộng khoảng ( Tôi).

Ranh giới khoảng là giá trị của thuộc tính nằm trên đường viền của hai khoảng.

chiều cao của trẻ (cm)

chiều cao của trẻ (cm)

số lượng trẻ em

hơn 130

Nếu một khoảng có giới hạn trên và giới hạn dưới thì nó được gọi là khoảng thời gian đóng. Nếu một khoảng chỉ có ranh giới dưới hoặc chỉ có ranh giới trên thì đó là - khoảng mở. Chỉ khoảng đầu tiên hoặc khoảng cuối cùng mới có thể được mở. Trong ví dụ trên, khoảng cuối cùng là mở.

Độ rộng khoảng (Tôi) - sự khác biệt giữa giới hạn trên và giới hạn dưới.

Tôi = xn - x trong

Độ rộng của khoảng mở được giả định bằng độ rộng của khoảng đóng liền kề.

chiều cao của trẻ (cm)

số lượng trẻ em

Độ rộng khoảng (i)

để tính toán 130+20=150

20 (vì chiều rộng của khoảng đóng liền kề là 20)

Tất cả các chuỗi khoảng được chia thành chuỗi khoảng có các khoảng bằng nhau và chuỗi khoảng có các khoảng không bằng nhau . Trong các hàng cách đều nhau, chiều rộng của tất cả các khoảng đều như nhau. Trong chuỗi khoảng có các khoảng không bằng nhau, độ rộng của các khoảng là khác nhau.

Trong ví dụ đang được xem xét - một chuỗi khoảng có các khoảng không bằng nhau.

Phòng thí nghiệm số 1

Theo thống kê toán học

Đề tài: Xử lý sơ cấp dữ liệu thực nghiệm

3. Ghi điểm. 1

5. Câu hỏi kiểm tra.. 2

6. Phương pháp thực hiện công việc thí nghiệm.. 3

Mục đích của công việc

Có được kỹ năng xử lý sơ cấp dữ liệu thực nghiệm bằng các phương pháp thống kê toán học.

Dựa trên tổng số dữ liệu thực nghiệm, hãy hoàn thành các nhiệm vụ sau:

Nhiệm vụ 1. Xây dựng chuỗi phân phối biến thiên theo khoảng.

Nhiệm vụ 2. Xây dựng biểu đồ tần số của một chuỗi biến thiên theo khoảng.

Nhiệm vụ 3. Tạo hàm phân phối thực nghiệm và vẽ đồ thị.

a) mode và trung vị;

b) thời điểm ban đầu có điều kiện;

c) trung bình mẫu;

d) phương sai mẫu, phương sai tổng thể đã hiệu chỉnh, độ lệch chuẩn đã hiệu chỉnh;

e) hệ số biến thiên;

f) sự bất đối xứng;

g) độ nhọn;

Nhiệm vụ 5. Xác định giới hạn các giá trị thực của các đặc tính số của biến ngẫu nhiên đang được nghiên cứu với độ tin cậy cho trước.

Nhiệm vụ 6. Giải thích có ý nghĩa về kết quả xử lý sơ cấp theo điều kiện của nhiệm vụ.

Tính điểm

Nhiệm vụ 1-56 điểm

Nhiệm vụ 62 điểm

Bảo vệ công việc trong phòng thí nghiệm(phỏng vấn miệng về các câu hỏi kiểm tra và công việc trong phòng thí nghiệm) - 2 điểm

Tác phẩm phải được nộp dưới dạng văn bản trên tờ A4 và bao gồm:

1) Trang tiêu đề (Phụ lục 1)

2) Dữ liệu ban đầu.

3) Nộp bài theo mẫu quy định.

4) Kết quả tính toán (thực hiện thủ công và/hoặc sử dụng MS Excel) theo thứ tự quy định.

5) Kết luận - giải thích có ý nghĩa về kết quả xử lý sơ cấp theo các điều kiện của nhiệm vụ.

6) Phỏng vấn miệng về các câu hỏi về công việc và kiểm soát.



5. Câu hỏi kiểm tra


Phương pháp thực hiện công việc trong phòng thí nghiệm

Nhiệm vụ 1. Xây dựng chuỗi phân phối biến phân theo khoảng

Để trình bày số liệu thống kê dưới dạng chuỗi biến thiên với các lựa chọn cách đều nhau cần:

1.Trong bảng dữ liệu gốc, tìm giá trị nhỏ nhất và lớn nhất.

2. Xác định phạm vi biến đổi :

3. Xác định độ dài của khoảng h, nếu mẫu chứa tới 1000 dữ liệu thì sử dụng công thức: , trong đó n – cỡ mẫu – lượng dữ liệu trong mẫu; để tính toán lấy lgn).

Tỷ lệ tính toán được làm tròn thành giá trị số nguyên thuận tiện .

4. Để xác định điểm bắt đầu của khoảng đầu tiên đối với một số khoảng chẵn, nên lấy giá trị ; và với một số khoảng lẻ.

5. Viết ra các khoảng nhóm và sắp xếp chúng theo thứ tự ranh giới tăng dần

, ,………., ,

đâu là giới hạn dưới của khoảng đầu tiên. Một số thuận tiện được lấy không lớn hơn , giới hạn trên của khoảng cuối cùng không được nhỏ hơn . Khuyến cáo rằng các khoảng chứa các giá trị ban đầu của biến ngẫu nhiên và được tách biệt khỏi 5 đến 20 khoảng thời gian.

6. Viết dữ liệu ban đầu vào các khoảng thời gian nhóm, tức là sử dụng bảng nguồn để tính số lượng giá trị biến ngẫu nhiên nằm trong các khoảng xác định. Nếu một số giá trị trùng với ranh giới của các khoảng, thì chúng chỉ được quy cho khoảng trước đó hoặc chỉ cho khoảng tiếp theo.

Lưu ý 1. Các khoảng không nhất thiết phải có độ dài bằng nhau. Ở những khu vực có giá trị dày đặc hơn, sẽ thuận tiện hơn khi lấy các khoảng thời gian nhỏ hơn, ngắn hơn và ở những nơi có khoảng thời gian ít thường xuyên hơn thì lấy khoảng thời gian lớn hơn.

Lưu ý 2.Nếu thu được một số giá trị “0” hoặc giá trị tần số nhỏ thì cần phải nhóm lại dữ liệu, mở rộng các khoảng (tăng bước).