Các loại chuỗi biến thể. V.

Hãy gọi các giá trị mẫu khác nhau tùy chọn dãy giá trị và biểu thị: X 1 , X 2,…. Trước hết chúng tôi sẽ sản xuất khác nhau tùy chọn, tức là sự sắp xếp của chúng theo thứ tự tăng dần hoặc giảm dần. Đối với mỗi tùy chọn, trọng lượng riêng của nó được chỉ định, tức là một con số đặc trưng cho sự đóng góp của một lựa chọn nhất định cho tổng dân số. Tần số hoặc tần số đóng vai trò như trọng số.

Tính thường xuyên và tôi lựa chọn x tôi là con số cho biết số lần một tùy chọn nhất định xuất hiện trong quần thể mẫu đang được xem xét.

Tần số hoặc tần số tương đối Wi lựa chọn x tôi là một số bằng tỷ lệ tần số của một biến thể với tổng tần số của tất cả các biến thể. Tần suất cho biết tỷ lệ đơn vị trong quần thể mẫu có một biến thể nhất định.

Một chuỗi các tùy chọn có trọng số tương ứng (tần số hoặc tần số), được viết theo thứ tự tăng dần (hoặc giảm dần) được gọi là chuỗi biến thể.

Chuỗi biến thể là rời rạc và khoảng thời gian.

Đối với chuỗi biến thể rời rạc, các giá trị điểm của đặc tính được chỉ định, đối với chuỗi khoảng, các giá trị đặc tính được chỉ định dưới dạng khoảng. Chuỗi biến thể có thể hiển thị sự phân bố tần số hoặc tần số tương đối (tần số), tùy thuộc vào giá trị nào được chỉ định cho từng tùy chọn - tần số hoặc tần số.

Chuỗi biến thiên rời rạc của phân bố tần số có dạng:

Tần số được tìm theo công thức i = 1, 2, …, tôi.

w 1 +w 2 + … + w m = 1.

Ví dụ 4.1. Đối với một tập hợp số nhất định

4, 6, 6, 3, 4, 9, 6, 4, 6, 6

xây dựng chuỗi biến thiên rời rạc của tần số và phân bố tần số.

Giải pháp . Mật độ dân số bằng N= 10. Chuỗi phân bố tần số rời rạc có dạng

Chuỗi khoảng thời gian có hình thức ghi âm tương tự.

Chuỗi biến thiên khoảng thời gian của phân bố tần sốđược viết là:

Tổng của tất cả các tần số bằng tổng số quan sát, tức là tổng khối lượng: N = N 1 +N 2 + … + N m.

Chuỗi biến thiên khoảng thời gian phân bố tần số tương đối (tần số) có dạng:

Tần số được tìm theo công thức i = 1, 2, …, tôi.

Tổng của tất cả các tần số bằng một: w 1 +w 2 + … + w m = 1.

Chuỗi khoảng thường được sử dụng nhiều nhất trong thực tế. Nếu có nhiều dữ liệu mẫu thống kê và giá trị của chúng chênh lệch nhau một lượng nhỏ tùy ý thì việc lấy chuỗi riêng biệt cho các dữ liệu này sẽ khá cồng kềnh và bất tiện cho việc nghiên cứu sâu hơn. Trong trường hợp này, nhóm dữ liệu được sử dụng, tức là. Khoảng chứa tất cả các giá trị của thuộc tính được chia thành nhiều khoảng một phần và bằng cách tính tần số cho mỗi khoảng, sẽ thu được một chuỗi khoảng. Chúng ta hãy viết chi tiết hơn về sơ đồ xây dựng một chuỗi khoảng, giả sử rằng độ dài của các khoảng từng phần sẽ giống nhau.

2.2 Xây dựng chuỗi khoảng

Để xây dựng một chuỗi khoảng thời gian bạn cần:

Xác định số khoảng;

Xác định độ dài của các khoảng;

Xác định vị trí các khoảng trên trục.

Để xác định số khoảng k Có công thức Sturges, theo đó

,

Ở đâu N- khối lượng của toàn bộ cốt liệu.

Ví dụ: nếu có 100 giá trị của một đặc tính (biến thể), thì nên lấy số khoảng bằng các khoảng để xây dựng một chuỗi khoảng.

Tuy nhiên, trong thực tế, số khoảng thường do chính nhà nghiên cứu chọn, có tính đến con số này không được lớn lắm để chuỗi không cồng kềnh nhưng cũng không quá nhỏ để không làm mất một số tính chất của phân bổ.

Độ dài khoảng h xác định theo công thức sau:

,

Ở đâu x tối đa và x min lần lượt là giá trị lớn nhất và nhỏ nhất của các tùy chọn.

Kích cỡ gọi điện phạm vi hàng ngang.

Để tự xây dựng các khoảng, họ tiến hành theo những cách khác nhau. Một trong những cách đơn giản nhất là như sau. Điểm bắt đầu của khoảng đầu tiên được coi là
. Sau đó, các ranh giới còn lại của các khoảng được tìm thấy bằng công thức. Rõ ràng là sự kết thúc của khoảng thời gian cuối cùng Một m+1 phải thỏa mãn điều kiện

Sau khi tìm thấy tất cả các ranh giới của các khoảng, tần số (hoặc tần số) của các khoảng này sẽ được xác định. Để giải quyết vấn đề này, hãy xem qua tất cả các tùy chọn và xác định số lượng tùy chọn rơi vào một khoảng cụ thể. Chúng ta hãy xem cách xây dựng hoàn chỉnh của một chuỗi khoảng bằng một ví dụ.

Ví dụ 4.2. Đối với dữ liệu thống kê sau đây, được ghi theo thứ tự tăng dần, hãy xây dựng một chuỗi khoảng có số khoảng bằng 5:

11, 12, 12, 14, 14, 15, 21, 21, 22, 23, 25, 38, 38, 39, 42, 42, 44, 45, 50, 50, 55, 56, 58, 60, 62, 63, 65, 68, 68, 68, 70, 75, 78, 78, 78, 78, 80, 80, 86, 88, 90, 91, 91, 91, 91, 91, 93, 93, 95, 96.

Giải pháp. Tổng cộng N=50 giá trị biến thể.

Số lượng khoảng thời gian được chỉ định trong báo cáo vấn đề, tức là. k=5.

Độ dài của các khoảng là
.

Hãy xác định ranh giới của các khoảng:

Một 1 = 11 − 8,5 = 2,5; Một 2 = 2,5 + 17 = 19,5; Một 3 = 19,5 + 17 = 36,5;

Một 4 = 36,5 + 17 = 53,5; Một 5 = 53,5 + 17 = 70,5; Một 6 = 70,5 + 17 = 87,5;

Một 7 = 87,5 +17 = 104,5.

Để xác định tần suất của các khoảng, chúng tôi đếm số lượng tùy chọn rơi vào một khoảng nhất định. Ví dụ: khoảng đầu tiên từ 2,5 đến 19,5 bao gồm các tùy chọn 11, 12, 12, 14, 14, 15. Số của chúng là 6, do đó, tần số của khoảng đầu tiên là N 1 = 6. Tần số của khoảng đầu tiên là . Quãng thứ hai từ 19,5 đến 36,5 bao gồm các tùy chọn 21, 21, 22, 23, 25, số trong đó là 5. Do đó, tần số của quãng thứ hai là N 2 = 5 và tần số . Sau khi tìm tần số và tần số của tất cả các khoảng theo cách tương tự, chúng ta thu được chuỗi khoảng sau.

Chuỗi khoảng phân bố tần số có dạng:

Tổng tần số là 6+5+9+11+8+11=50.

Chuỗi khoảng phân bố tần số có dạng:

Tổng các tần số là 0,12+0,1+0,18+0,22+0,16+0,22=1. ■

Khi xây dựng chuỗi khoảng, tùy theo điều kiện cụ thể của bài toán đang xét, có thể áp dụng các quy tắc khác, đó là:

1. Chuỗi biến thiên khoảng có thể bao gồm các khoảng từng phần có độ dài khác nhau. Độ dài các khoảng không bằng nhau giúp làm nổi bật các thuộc tính của tổng thể thống kê với sự phân bố đặc tính không đồng đều. Ví dụ: nếu ranh giới của các khoảng xác định số lượng cư dân trong các thành phố, thì trong bài toán này nên sử dụng các khoảng có độ dài không bằng nhau. Rõ ràng, đối với các thành phố nhỏ, sự khác biệt nhỏ về số lượng dân cư là quan trọng, nhưng đối với các thành phố lớn, sự khác biệt hàng chục hoặc hàng trăm dân là không đáng kể. Chuỗi khoảng có độ dài không bằng nhau của các khoảng từng phần được nghiên cứu chủ yếu trong lý thuyết thống kê tổng quát và việc xem xét chúng nằm ngoài phạm vi của sổ tay này.

2. Trong thống kê toán học, chuỗi khoảng đôi khi được xem xét, trong đó ranh giới bên trái của khoảng đầu tiên được giả định bằng –∞ và ranh giới bên phải của khoảng cuối cùng +∞. Điều này được thực hiện để đưa phân phối thống kê đến gần hơn với lý thuyết.

3. Khi xây dựng chuỗi khoảng, có thể giá trị của một số tùy chọn trùng khớp chính xác với ranh giới của khoảng. Điều tốt nhất để làm trong trường hợp này là như sau. Nếu chỉ có một sự trùng hợp ngẫu nhiên như vậy, thì hãy xem xét rằng tùy chọn đang được xem xét với tần suất của nó rơi vào khoảng nằm gần giữa chuỗi khoảng; nếu có một số tùy chọn như vậy thì tất cả chúng đều được gán cho các khoảng; bên phải của các tùy chọn này hoặc tất cả chúng được gán ở bên trái.

4. Sau khi xác định số lượng và độ dài của các khoảng, việc sắp xếp các khoảng có thể được thực hiện theo cách khác. Tìm giá trị trung bình số học của tất cả các giá trị được xem xét của các tùy chọn X Thứ Tư và xây dựng khoảng đầu tiên sao cho mức trung bình của mẫu này sẽ nằm trong một khoảng nào đó. Vì vậy, chúng ta nhận được khoảng từ X Thứ Tư – 0,5 h trước X trung bình.. + 0,5 h. Sau đó ở bên trái và bên phải, cộng độ dài của khoảng, chúng ta xây dựng các khoảng còn lại cho đến khi x phút và x max sẽ không lần lượt rơi vào khoảng đầu tiên và khoảng cuối cùng.

5. Chuỗi khoảng có số lượng khoảng lớn được viết theo chiều dọc một cách thuận tiện, tức là. viết các khoảng không phải ở hàng đầu tiên mà ở cột đầu tiên và tần số (hoặc tần số) ở cột thứ hai.

Dữ liệu mẫu có thể được coi là giá trị của một số biến ngẫu nhiên X. Một biến ngẫu nhiên có luật phân phối riêng. Từ lý thuyết xác suất, người ta biết rằng luật phân phối của một biến ngẫu nhiên rời rạc có thể được biểu thị dưới dạng chuỗi phân phối và đối với chuỗi liên tục - sử dụng hàm mật độ phân phối. Tuy nhiên, có một quy luật phân phối phổ quát áp dụng cho cả biến ngẫu nhiên rời rạc và biến ngẫu nhiên liên tục. Luật phân phối này được đưa ra dưới dạng hàm phân phối F(x) = P(X<x). Đối với dữ liệu mẫu, bạn có thể chỉ định một hàm tương tự của hàm phân phối - hàm phân phối theo kinh nghiệm.


Thông tin liên quan.


Tập hợp các giá trị của tham số được nghiên cứu trong một thí nghiệm hoặc quan sát nhất định, được xếp hạng theo giá trị (tăng hoặc giảm) được gọi là chuỗi biến thiên.

Giả sử rằng chúng tôi đã đo huyết áp của mười bệnh nhân để đạt được ngưỡng huyết áp trên: huyết áp tâm thu, tức là. chỉ có một số.

Hãy tưởng tượng rằng một chuỗi các quan sát (tổng thống kê) về huyết áp tâm thu động mạch trong 10 quan sát có dạng sau (Bảng 1):

Bảng 1

Các thành phần của một chuỗi biến thể được gọi là các biến thể. Các tùy chọn đại diện cho giá trị số của đặc tính đang được nghiên cứu.

Việc xây dựng một chuỗi biến thể từ một tập hợp các quan sát thống kê chỉ là bước đầu tiên để hiểu được các đặc điểm của toàn bộ tập hợp. Tiếp theo, cần xác định mức độ trung bình của các đặc điểm định lượng đang được nghiên cứu (mức protein trung bình trong máu, cân nặng trung bình của bệnh nhân, thời gian bắt đầu gây mê trung bình, v.v…)

Mức trung bình được đo bằng tiêu chí gọi là trung bình. Giá trị trung bình là đặc tính số tổng quát của các giá trị đồng nhất về mặt chất lượng, đặc trưng bằng một số cho toàn bộ tổng thể thống kê theo một tiêu chí. Giá trị trung bình thể hiện những điểm chung của một đặc tính trong một tập hợp các quan sát nhất định.

Có ba loại trung bình được sử dụng phổ biến: mode (), trung vị () và trung bình số học ().

Để xác định bất kỳ giá trị trung bình nào, cần sử dụng kết quả của các quan sát riêng lẻ, ghi lại chúng dưới dạng chuỗi biến thiên (Bảng 2).

Thời trang- giá trị xuất hiện thường xuyên nhất trong một loạt các quan sát. Trong ví dụ của chúng tôi, mode = 120. Nếu không có giá trị lặp lại trong chuỗi biến thể thì họ nói rằng không có mode. Nếu một số giá trị được lặp lại cùng một số lần thì giá trị nhỏ nhất trong số chúng sẽ được lấy làm chế độ.

Trung bình- giá trị chia phân bố thành hai phần bằng nhau, giá trị trung tâm hoặc trung vị của một chuỗi quan sát được sắp xếp theo thứ tự tăng dần hoặc giảm dần. Vì vậy, nếu có 5 giá trị trong một chuỗi biến thể, thì trung vị của nó bằng số hạng thứ ba của chuỗi biến thể; nếu có số chẵn trong chuỗi thì trung vị là trung bình số học của hai số hạng đó; quan sát trung tâm, tức là nếu có 10 quan sát trong một chuỗi thì trung vị bằng trung bình số học của quan sát thứ 5 và thứ 6. Trong ví dụ của chúng tôi.

Chúng ta hãy lưu ý một tính năng quan trọng của chế độ và trung vị: giá trị của chúng không bị ảnh hưởng bởi các giá trị số của các biến thể cực trị.

trung bình số họcđược tính theo công thức:

ở đâu là giá trị quan sát được trong quan sát thứ - và là số lượng quan sát. Đối với trường hợp của chúng tôi.

Giá trị trung bình số học có ba thuộc tính:

Giá trị trung bình chiếm vị trí giữa trong chuỗi biến thể. Trong một hàng đối xứng nghiêm ngặt.

Giá trị trung bình là một giá trị tổng quát và những biến động cũng như sự khác biệt ngẫu nhiên trong dữ liệu riêng lẻ không thể nhìn thấy được đằng sau giá trị trung bình. Nó phản ánh những gì là điển hình của toàn bộ dân số.

Tổng độ lệch của tất cả các tùy chọn so với mức trung bình bằng 0: . Độ lệch của tùy chọn so với mức trung bình được chỉ định.

Chuỗi biến thể bao gồm các biến thể và tần số tương ứng của chúng. Trong số mười giá trị thu được, số 120 xảy ra 6 lần, 115 - 3 lần, 125 - 1 lần. Tần số () - số lượng tuyệt đối của các biến thể riêng lẻ trong tổng hợp, cho biết số lần một biến thể nhất định xuất hiện trong một chuỗi biến thể.

Chuỗi biến thể có thể đơn giản (tần số = 1) hoặc được nhóm lại và rút ngắn, với các tùy chọn 3-5. Một chuỗi đơn giản được sử dụng cho một số lượng nhỏ các quan sát (), một chuỗi được nhóm lại được sử dụng cho một số lượng lớn các quan sát ().

​ Chuỗi biến thể - một chuỗi được so sánh (theo mức độ tăng hoặc giảm) tùy chọn và tương ứng tần số

​Các lựa chọn là những biểu hiện định lượng riêng lẻ của một đặc tính. Được biểu thị bằng một chữ cái Latinh V. . Cách hiểu cổ điển về thuật ngữ “biến thể” giả định rằng mỗi giá trị duy nhất của một đặc tính được gọi là một biến thể mà không tính đến số lần lặp lại.

Ví dụ, trong chuỗi biến đổi của các chỉ số huyết áp tâm thu được đo ở 10 bệnh nhân:

110, 120, 120, 130, 130, 130, 140, 140, 160, 170;

Chỉ có 6 giá trị có sẵn:

110, 120, 130, 140, 160, 170.

​Tần suất là một con số cho biết số lần một tùy chọn được lặp lại. Ký hiệu bằng chữ cái Latinh P . Tổng của tất cả các tần số (tất nhiên bằng số của tất cả các tần số được nghiên cứu) được ký hiệu là N.

    Trong ví dụ của chúng tôi, tần số sẽ có các giá trị sau:
  • đối với tùy chọn 110, tần số P = 1 (giá trị 110 xảy ra ở một bệnh nhân),
  • đối với tùy chọn 120, tần số P = 2 (giá trị 120 xảy ra ở hai bệnh nhân),
  • đối với tùy chọn 130 tần số P = 3 (giá trị 130 xảy ra ở ba bệnh nhân),
  • đối với tùy chọn 140 tần số P = 2 (giá trị 140 xảy ra ở hai bệnh nhân),
  • đối với tùy chọn 160, tần số P = 1 (giá trị 160 xảy ra ở một bệnh nhân),
  • đối với tùy chọn 170, tần số P = 1 (giá trị 170 xảy ra ở một bệnh nhân),

Các loại chuỗi biến thể:

  1. đơn giản- đây là chuỗi trong đó mỗi tùy chọn chỉ xảy ra một lần (tất cả các tần số đều bằng 1);
  2. cấm- một chuỗi trong đó một hoặc nhiều tùy chọn xuất hiện nhiều lần.

Chuỗi biến thể được sử dụng để mô tả các mảng số lớn; dưới dạng này, dữ liệu thu thập được của hầu hết các nghiên cứu y học được trình bày ban đầu. Để mô tả chuỗi biến thể, các chỉ số đặc biệt được tính toán, bao gồm các giá trị trung bình, các chỉ số về độ biến thiên (được gọi là độ phân tán) và các chỉ số về tính đại diện của dữ liệu mẫu.

Chỉ báo chuỗi biến đổi

1) Giá trị trung bình số học là một chỉ số chung đặc trưng cho kích thước của đặc tính đang được nghiên cứu. Giá trị trung bình số học được ký hiệu là M , là loại trung bình phổ biến nhất. Giá trị trung bình số học được tính bằng tỷ lệ giữa tổng giá trị chỉ báo của tất cả các đơn vị quan sát với số lượng tất cả các đối tượng được nghiên cứu. Phương pháp tính giá trị trung bình số học sẽ khác nhau đối với chuỗi biến thiên đơn giản và có trọng số.

Công thức tính toán trung bình số học đơn giản:

Công thức tính toán trung bình số học có trọng số:

M = Σ(V * P)/ n

2) Chế độ là một giá trị trung bình khác của chuỗi biến thể, tương ứng với tùy chọn được lặp lại thường xuyên nhất. Hay nói cách khác, đây là tùy chọn tương ứng với tần số cao nhất. Ký hiệu là . Chế độ chỉ được tính cho chuỗi có trọng số, vì trong chuỗi đơn giản, không có tùy chọn nào được lặp lại và tất cả các tần số đều bằng một.

Ví dụ: trong chuỗi biến đổi của các giá trị nhịp tim:

80, 84, 84, 86, 86, 86, 90, 94;

giá trị chế độ là 86, vì tùy chọn này xảy ra 3 lần nên tần số của nó là cao nhất.

3) Trung vị - giá trị của tùy chọn chia chuỗi biến thể làm đôi: ở cả hai phía của nó có số lượng tùy chọn bằng nhau. Trung vị, giống như trung bình số học và mốt, đề cập đến các giá trị trung bình. Ký hiệu là Tôi

4) Độ lệch chuẩn (từ đồng nghĩa: độ lệch chuẩn, độ lệch sigma, sigma) - thước đo độ biến thiên của chuỗi biến thiên. Nó là một chỉ báo tích hợp kết hợp tất cả các trường hợp sai lệch so với mức trung bình. Trên thực tế, nó trả lời câu hỏi: các biến thể lan truyền bao xa và thường xuyên như thế nào so với giá trị trung bình số học. Ký hiệu bằng chữ cái Hy Lạp σ ("sigma").

Nếu quy mô dân số lớn hơn 30 đơn vị, độ lệch chuẩn được tính theo công thức sau:

Đối với các quần thể nhỏ - 30 đơn vị quan sát trở xuống - độ lệch chuẩn được tính bằng công thức khác:

Để nắm vững chương này, học sinh phải: biết

  • các chỉ số biến đổi và mối quan hệ của chúng;
  • quy luật cơ bản của sự phân bố các đặc tính;
  • bản chất của tiêu chí chấp thuận; có thể
  • tính toán các chỉ số biến thiên và tiêu chí mức độ phù hợp;
  • xác định đặc điểm phân bố;
  • đánh giá các đặc tính số cơ bản của chuỗi phân phối thống kê;

sở hữu

  • phương pháp phân tích thống kê chuỗi phân phối;
  • cơ bản về phân tích phương sai;
  • kỹ thuật kiểm tra chuỗi phân phối thống kê xem có tuân thủ các quy luật phân phối cơ bản hay không.

Các chỉ số biến đổi

Trong nghiên cứu thống kê về các đặc điểm của các quần thể thống kê khác nhau, việc nghiên cứu sự biến đổi đặc điểm của các đơn vị thống kê riêng lẻ của tổng thể là điều rất đáng quan tâm, cũng như bản chất của sự phân bố các đơn vị theo đặc điểm này. Biến thể -đây là những khác biệt về giá trị riêng lẻ của một đặc điểm giữa các đơn vị dân số đang được nghiên cứu. Việc nghiên cứu sự biến thiên có tầm quan trọng thực tiễn rất lớn. Bằng mức độ biến thiên, người ta có thể đánh giá giới hạn biến thiên của một đặc tính, tính đồng nhất của tổng thể đối với một đặc tính nhất định, tính đặc trưng của mức trung bình và mối quan hệ của các yếu tố quyết định sự biến thiên. Các chỉ số biến thiên được sử dụng để mô tả và tổ chức các quần thể thống kê.

Kết quả tóm tắt và phân nhóm các tài liệu quan sát thống kê, được trình bày dưới dạng chuỗi phân phối thống kê, thể hiện sự phân bổ có trật tự của các đơn vị dân số được nghiên cứu thành các nhóm theo tiêu chí phân nhóm (khác nhau). Nếu một đặc tính định tính được lấy làm cơ sở cho việc phân nhóm thì chuỗi phân phối đó được gọi là thuộc tính(phân bổ theo nghề nghiệp, giới tính, màu da, v.v.). Nếu một chuỗi phân phối được xây dựng trên cơ sở định lượng thì chuỗi đó được gọi là biến thiên(phân bổ theo chiều cao, cân nặng, mức lương, v.v.). Xây dựng chuỗi biến thiên có nghĩa là tổ chức phân bố định lượng các đơn vị quần thể theo các giá trị đặc trưng, ​​đếm số lượng đơn vị quần thể có các giá trị (tần số) này và sắp xếp kết quả vào bảng.

Thay vì tần số của một biến thể, có thể sử dụng tỷ lệ của nó với tổng khối lượng quan sát, gọi là tần số (tần số tương đối).

Có hai loại chuỗi biến thiên: rời rạc và khoảng. Chuỗi rời rạc- Đây là một chuỗi biến thể, việc xây dựng nó dựa trên các đặc điểm có sự thay đổi không liên tục (các đặc điểm rời rạc). Sau này bao gồm số lượng nhân viên tại doanh nghiệp, loại thuế quan, số lượng trẻ em trong gia đình, v.v. Một chuỗi biến thể rời rạc biểu thị một bảng bao gồm hai cột. Cột đầu tiên cho biết giá trị cụ thể của thuộc tính và cột thứ hai cho biết số lượng đơn vị trong quần thể có giá trị cụ thể của thuộc tính. Nếu một đặc điểm có sự thay đổi liên tục (mức thu nhập, thời gian phục vụ, giá trị tài sản cố định của doanh nghiệp, v.v., trong giới hạn nhất định có thể nhận bất kỳ giá trị nào), thì đối với đặc điểm này có thể xây dựng chuỗi biến thiên khoảng. Khi xây dựng chuỗi biến thiên theo khoảng, bảng cũng có hai cột. Giá trị đầu tiên cho biết giá trị của thuộc tính trong khoảng “từ - đến” (tùy chọn), giá trị thứ hai cho biết số lượng đơn vị có trong khoảng (tần số). Tần số (tần số lặp lại) - số lần lặp lại của một biến thể cụ thể của các giá trị thuộc tính. Khoảng thời gian có thể được đóng hoặc mở. Khoảng thời gian đóng được giới hạn ở cả hai bên, tức là có cả ranh giới dưới (“từ”) và ranh giới trên (“đến”). Các khoảng mở có một ranh giới: trên hoặc dưới. Nếu các tùy chọn được sắp xếp theo thứ tự tăng dần hoặc giảm dần thì các hàng được gọi được xếp hạng.

Đối với chuỗi biến thể, có hai loại tùy chọn đáp ứng tần số: tần số tích lũy và tần số tích lũy. Tần số tích lũy cho biết có bao nhiêu quan sát mà giá trị của đặc tính lấy giá trị nhỏ hơn giá trị đã cho. Tần số tích lũy được xác định bằng cách tính tổng các giá trị tần số của một đặc tính của một nhóm nhất định với tất cả các tần số của các nhóm trước đó. Tần số tích lũy đặc trưng cho tỷ lệ các đơn vị quan sát có giá trị thuộc tính không vượt quá giới hạn trên của nhóm nhất định. Do đó, tần số tích lũy cho thấy tỷ lệ các lựa chọn trong tổng thể có giá trị không lớn hơn giá trị đã cho. Tần số, tần suất, mật độ tuyệt đối và tương đối, tần số tích lũy và tần số là các đặc điểm về độ lớn của biến thể.

Các biến thể về đặc điểm của các đơn vị thống kê của tổng thể, cũng như bản chất của phân bố, được nghiên cứu bằng cách sử dụng các chỉ số và đặc điểm của chuỗi biến thể, bao gồm mức trung bình của chuỗi, độ lệch tuyến tính trung bình, độ lệch chuẩn, độ phân tán. , hệ số dao động, biến thiên, bất đối xứng, độ nhọn, v.v.

Giá trị trung bình được sử dụng để mô tả trung tâm phân phối. Giá trị trung bình là một đặc tính thống kê tổng quát, trong đó mức độ điển hình của một đặc tính mà các thành viên của dân số đang nghiên cứu có được lượng hóa. Tuy nhiên, có thể có trường hợp trùng khớp giữa các trung bình số học với các kiểu phân bố khác nhau, do đó, vì đặc điểm thống kê của chuỗi biến thể, cái gọi là trung bình cấu trúc được tính toán - chế độ, trung vị, cũng như phân vị, chia chuỗi phân phối thành bằng nhau các phần (tứ phân vị, thập phân vị, phân vị, v.v.).

Thời trang -Đây là giá trị của một đặc tính xuất hiện thường xuyên hơn trong chuỗi phân phối so với các giá trị khác của nó. Đối với dòng rời rạc, đây là tùy chọn có tần số cao nhất. Trong chuỗi biến thiên khoảng, để xác định chế độ, trước tiên cần xác định khoảng mà nó nằm trong đó, được gọi là khoảng thời gian. Trong một chuỗi biến thể có các khoảng bằng nhau, khoảng thời gian được xác định bởi tần số cao nhất, nối tiếp với các khoảng không bằng nhau - nhưng theo mật độ phân phối cao nhất. Sau đó, công thức này được sử dụng để xác định chế độ theo các hàng với khoảng cách bằng nhau

trong đó Mo là giá trị thời trang; xMo - giới hạn dưới của khoảng thời gian; h- chiều rộng khoảng phương thức; / Mo - tần số của khoảng thời gian; / Mo j là tần số của khoảng tiền thức; / Mo+1 là tần số của khoảng thời gian sau mô thức và đối với chuỗi có các khoảng không bằng nhau trong công thức tính toán này, thay vì tần số / Mo, / Mo, / Mo, nên sử dụng mật độ phân phối Tâm trí 0 _| , Tâm trí 0> UMO+"

Nếu có một chế độ duy nhất thì phân bố xác suất của biến ngẫu nhiên được gọi là đơn thức; nếu có nhiều hơn một chế độ thì được gọi là đa phương thức (đa phương thức, đa phương thức), trong trường hợp có hai phương thức - lưỡng kim. Như một quy luật, đa phương thức chỉ ra rằng phân phối đang được nghiên cứu không tuân theo quy luật phân phối chuẩn. Các quần thể đồng nhất, như một quy luật, được đặc trưng bởi sự phân bố một đỉnh. Multivertex cũng chỉ ra tính không đồng nhất của dân số đang được nghiên cứu. Sự xuất hiện của hai hoặc nhiều đỉnh khiến cần phải nhóm lại dữ liệu để xác định các nhóm đồng nhất hơn.

Trong chuỗi biến thiên theo khoảng, chế độ có thể được xác định bằng đồ họa bằng biểu đồ. Để thực hiện việc này, hãy vẽ hai đường giao nhau từ điểm trên cùng của cột cao nhất của biểu đồ đến điểm trên cùng của hai cột liền kề. Sau đó, từ điểm giao nhau của chúng, một đường vuông góc được hạ xuống trục hoành. Giá trị của đặc trưng trên trục x tương ứng với đường vuông góc là mode. Trong nhiều trường hợp, khi mô tả đặc điểm của một dân số như một chỉ báo tổng quát, người ta ưu tiên chế độ hơn là trung bình số học.

Trung bình -Đây là giá trị trung tâm của thuộc tính; nó được sở hữu bởi thành viên trung tâm của chuỗi phân phối được xếp hạng. Trong chuỗi rời rạc, để tìm giá trị trung vị, trước tiên số sê-ri của nó được xác định. Để làm điều này, nếu số lượng đơn vị là số lẻ, một đơn vị sẽ được thêm vào tổng của tất cả các tần số và số đó được chia cho hai. Nếu có số đơn vị chẵn trong một hàng thì sẽ có hai đơn vị trung vị, vì vậy trong trường hợp này trung vị được xác định là trung bình cộng của các giá trị của hai đơn vị trung vị. Do đó, trung vị trong một chuỗi biến thể rời rạc là giá trị chia chuỗi thành hai phần chứa cùng số lượng tùy chọn.

Trong chuỗi khoảng, sau khi xác định số thứ tự của trung vị, khoảng trung vị được tìm bằng cách sử dụng các tần số (tần số) tích lũy, sau đó sử dụng công thức tính trung vị, giá trị của chính trung vị được xác định:

trong đó Me là giá trị trung bình; x Tôi - giới hạn dưới của khoảng trung vị; h- chiều rộng của khoảng trung vị; - tổng tần số của chuỗi phân phối; /D - tần số tích lũy của khoảng trước trung vị; / Me - tần số của khoảng trung vị.

Trung vị có thể được tìm thấy bằng đồ họa bằng cách sử dụng tích lũy. Để làm điều này, trên thang tần số tích lũy (tần số) của tích lũy, từ điểm tương ứng với số thứ tự của trung tuyến, vẽ một đường thẳng song song với trục hoành cho đến khi giao với tích lũy. Tiếp theo, từ giao điểm của đường được chỉ định với đường tích lũy, đường vuông góc được hạ xuống trục hoành. Giá trị của thuộc tính trên trục x tương ứng với tọa độ được vẽ (vuông góc) là trung vị.

Trung vị được đặc trưng bởi các tính chất sau.

  • 1. Nó không phụ thuộc vào các giá trị thuộc tính nằm ở hai bên của nó.
  • 2. Nó có đặc tính tối thiểu, nghĩa là tổng độ lệch tuyệt đối của các giá trị thuộc tính so với trung vị đại diện cho một giá trị tối thiểu so với độ lệch của các giá trị thuộc tính so với bất kỳ giá trị nào khác.
  • 3. Khi kết hợp hai phân bố có số trung vị đã biết, không thể dự đoán trước giá trị trung vị của phân bố mới.

Những đặc tính này của dải phân cách được sử dụng rộng rãi khi thiết kế vị trí các điểm dịch vụ công cộng - trường học, trạm xá, trạm xăng, máy bơm nước, v.v. Ví dụ, nếu người ta dự định xây dựng một phòng khám ở một khu phố nhất định của thành phố, thì sẽ tốt hơn nếu đặt nó ở một điểm trong khu phố không phải bằng một nửa chiều dài của khu phố mà là số lượng cư dân.

Tỷ lệ của mode, trung vị và trung bình số học cho biết bản chất của sự phân bố của đặc tính trong tổng hợp và cho phép chúng ta đánh giá tính đối xứng của phân bố. Nếu như x Me thì có sự bất đối xứng về phía bên phải của chuỗi. Với phân phối chuẩn X - Bản ghi nhớ.

K. Pearson, dựa trên sự căn chỉnh của nhiều loại đường cong khác nhau, đã xác định rằng đối với các phân bố không đối xứng vừa phải, các mối quan hệ gần đúng sau đây giữa giá trị trung bình số học, trung vị và mốt là hợp lệ:

trong đó Me là giá trị trung bình; Mo - ý nghĩa thời trang; x arithm - giá trị trung bình số học.

Nếu cần nghiên cứu cấu trúc của chuỗi biến thiên chi tiết hơn thì tính các giá trị đặc trưng tương tự với số trung vị. Các giá trị đặc trưng như vậy chia tất cả các đơn vị phân phối thành các số bằng nhau; chúng được gọi là lượng tử hoặc độ dốc. Lượng tử được chia thành tứ phân vị, thập phân vị, phân vị, v.v.

Các phần tư chia dân số thành bốn phần bằng nhau. Tứ phân vị đầu tiên được tính tương tự như trung vị bằng cách sử dụng công thức tính tứ phân vị thứ nhất, sau khi đã xác định khoảng quý đầu tiên trước đó:

trong đó Qi là giá trị của tứ phân vị thứ nhất; xQ^- giới hạn dưới của phạm vi tứ phân vị thứ nhất; h- chiều rộng của khoảng quý đầu tiên; /, - tần số của chuỗi khoảng;

Tần số tích lũy trong khoảng trước khoảng tứ phân vị đầu tiên; Jq ( - tần số của khoảng tứ phân vị thứ nhất.

Tứ phân vị đầu tiên cho thấy 25% đơn vị dân số nhỏ hơn giá trị của nó và 75% còn lại nhiều hơn. Tứ phân vị thứ hai bằng với trung vị, tức là Câu 2 = Tôi.

Bằng cách tương tự, phần tư thứ ba được tính toán, lần đầu tiên tìm thấy khoảng quý thứ ba:

đâu là giới hạn dưới của phạm vi tứ phân vị thứ ba; h- chiều rộng của khoảng tứ phân vị thứ ba; /, - tần số của chuỗi khoảng; /X" - tần số tích lũy trong khoảng thời gian trước đó

G

khoảng tứ phân vị thứ ba; Jq là tần số của khoảng tứ phân vị thứ ba.

Tứ phân vị thứ ba cho thấy 75% đơn vị dân số nhỏ hơn giá trị của nó và 25% còn lại nhiều hơn.

Sự khác biệt giữa tứ phân vị thứ ba và tứ phân vị thứ nhất là phạm vi liên tứ phân vị:

trong đó Aq là giá trị của phạm vi liên tứ phân vị; Câu 3 - giá trị tứ phân vị thứ ba; Q là giá trị của tứ phân vị thứ nhất.

Thập phân chia dân số thành 10 phần bằng nhau. Thập phân vị là giá trị của một đặc tính trong chuỗi phân phối tương ứng với một phần mười quy mô dân số. Bằng cách tương tự với các phần tư, thập phân vị thứ nhất cho thấy 10% đơn vị dân số nhỏ hơn giá trị của nó và 90% lớn hơn, và thập phân vị thứ chín cho thấy 90% đơn vị dân số nhỏ hơn giá trị của nó và 10% là lớn hơn. Tỷ lệ của thập phân thứ chín và thập phân thứ nhất, tức là Hệ số thập phân vị được sử dụng rộng rãi trong nghiên cứu sự khác biệt về thu nhập để đo lường tỷ lệ mức thu nhập của 10% dân số giàu nhất và 10% dân số ít giàu nhất. Phần trăm chia dân số được xếp hạng thành 100 phần bằng nhau. Cách tính, ý nghĩa và ứng dụng của phân vị cũng tương tự như thập phân.

Các phần tư, phần thập phân và các đặc điểm cấu trúc khác có thể được xác định bằng đồ họa bằng cách tương tự với số trung vị bằng cách sử dụng các phép tính tích lũy.

Để đo lường mức độ biến thiên, các chỉ số sau được sử dụng: phạm vi biến thiên, độ lệch tuyến tính trung bình, độ lệch chuẩn, độ phân tán. Độ lớn của phạm vi biến thiên phụ thuộc hoàn toàn vào tính ngẫu nhiên trong phân bố của các thành viên cực trị của chuỗi. Chỉ báo này được quan tâm trong trường hợp điều quan trọng là phải biết biên độ dao động trong các giá trị của một đặc tính là gì:

Ở đâu R- giá trị của phạm vi biến đổi; x max - giá trị tối đa của thuộc tính; x tt - giá trị tối thiểu của thuộc tính.

Khi tính toán phạm vi biến thiên, giá trị của phần lớn các thành viên chuỗi không được tính đến, trong khi biến thể được liên kết với từng giá trị của thành viên chuỗi. Các chỉ số là giá trị trung bình thu được từ độ lệch của các giá trị riêng lẻ của một đặc tính so với giá trị trung bình của chúng không có nhược điểm này: độ lệch tuyến tính trung bình và độ lệch chuẩn. Có một mối quan hệ trực tiếp giữa độ lệch của từng cá nhân so với mức trung bình và sự biến đổi của một đặc điểm cụ thể. Biến động càng mạnh thì độ lệch tuyệt đối so với mức trung bình càng lớn.

Độ lệch tuyến tính trung bình là giá trị trung bình số học của các giá trị tuyệt đối của độ lệch của các tùy chọn riêng lẻ so với giá trị trung bình của chúng.

Độ lệch tuyến tính trung bình cho dữ liệu chưa được nhóm

trong đó /pr là giá trị độ lệch tuyến tính trung bình; x, - là giá trị của thuộc tính; X - P - số đơn vị trong dân số.

Độ lệch tuyến tính trung bình của chuỗi được nhóm

trong đó / vz - giá trị độ lệch tuyến tính trung bình; x, là giá trị của thuộc tính; X - giá trị trung bình của đặc tính đối với dân số đang được nghiên cứu; / - số lượng đơn vị dân số trong một nhóm riêng biệt.

Trong trường hợp này, dấu của độ lệch bị bỏ qua, nếu không thì tổng của tất cả các độ lệch sẽ bằng 0. Độ lệch tuyến tính trung bình, tùy thuộc vào việc nhóm dữ liệu được phân tích, được tính bằng các công thức khác nhau: đối với dữ liệu được nhóm và không được nhóm. Do quy ước của nó, độ lệch tuyến tính trung bình, tách biệt với các chỉ số biến thiên khác, được sử dụng tương đối hiếm trong thực tế (đặc biệt, để mô tả việc thực hiện nghĩa vụ hợp đồng liên quan đến tính đồng nhất của giao hàng; trong phân tích doanh thu ngoại thương, thành phần của nhân viên, nhịp độ sản xuất, chất lượng sản phẩm, có tính đến đặc điểm công nghệ sản xuất, v.v.).

Độ lệch chuẩn biểu thị mức độ trung bình của các giá trị riêng lẻ của đặc tính đang được nghiên cứu lệch khỏi giá trị trung bình của tổng thể và được biểu thị bằng đơn vị đo của đặc tính đang được nghiên cứu. Độ lệch chuẩn, là một trong những thước đo biến thiên chính, được sử dụng rộng rãi trong việc đánh giá giới hạn biến thiên của một đặc tính trong một quần thể đồng nhất, trong việc xác định các giá trị thứ tự của đường cong phân bố chuẩn, cũng như trong các tính toán liên quan đến việc tổ chức quan sát mẫu và thiết lập độ chính xác của các đặc tính mẫu. Độ lệch chuẩn của dữ liệu chưa được nhóm được tính bằng thuật toán sau: mỗi độ lệch so với giá trị trung bình được bình phương, tất cả các bình phương được tính tổng, sau đó tổng bình phương được chia cho số số hạng của chuỗi và căn bậc hai được trích từ thương:

trong đó Iip là giá trị độ lệch chuẩn; Xj- giá trị thuộc tính; X- giá trị trung bình của đặc tính đối với tổng thể được nghiên cứu; P - số đơn vị trong dân số.

Đối với dữ liệu được phân tích theo nhóm, độ lệch chuẩn của dữ liệu được tính bằng công thức tính trọng số

Ở đâu - giá trị độ lệch chuẩn; Xj- giá trị thuộc tính; X - giá trị trung bình của đặc tính đối với dân số đang được nghiên cứu; f x - số lượng đơn vị dân số trong một nhóm cụ thể.

Biểu thức dưới gốc trong cả hai trường hợp được gọi là phương sai. Do đó, độ phân tán được tính bằng bình phương trung bình của độ lệch của các giá trị thuộc tính so với giá trị trung bình của chúng. Đối với các giá trị thuộc tính không có trọng số (đơn giản), phương sai được xác định như sau:

Đối với các giá trị đặc tính có trọng số

Ngoài ra còn có một phương pháp đơn giản hóa đặc biệt để tính phương sai: nói chung

cho các giá trị đặc tính không có trọng số (đơn giản) cho các giá trị đặc trưng có trọng số
sử dụng phương pháp dựa trên số không

trong đó a2 là giá trị phân tán; x, - là giá trị của thuộc tính; X - giá trị trung bình của đặc tính, h- giá trị khoảng nhóm, t 1 - trọng lượng (A =

Độ phân tán có biểu hiện riêng trong thống kê và là một trong những chỉ số biến thiên quan trọng nhất. Nó được đo bằng đơn vị tương ứng với bình phương các đơn vị đo của đặc tính đang được nghiên cứu.

Sự phân tán có các tính chất sau.

  • 1. Phương sai của một giá trị không đổi bằng 0.
  • 2. Việc giảm tất cả các giá trị của một đặc tính bằng cùng một giá trị A không làm thay đổi giá trị của độ phân tán. Điều này có nghĩa là bình phương độ lệch trung bình có thể được tính không phải từ các giá trị đã cho của một đặc tính mà từ độ lệch của chúng so với một số hằng số.
  • 3. Giảm bất kỳ giá trị đặc trưng nào trong k lần làm giảm sự phân tán bằng cách k 2 lần và độ lệch chuẩn là k lần, tức là tất cả các giá trị của thuộc tính có thể được chia cho một số hằng số nào đó (ví dụ: cho giá trị của khoảng chuỗi), độ lệch chuẩn có thể được tính và sau đó nhân với một số không đổi.
  • 4. Nếu chúng ta tính bình phương độ lệch trung bình từ bất kỳ giá trị nào khác với mức độ này hay mức độ khác so với trung bình số học thì nó sẽ luôn lớn hơn bình phương trung bình của các độ lệch được tính từ trung bình số học. Bình phương trung bình của độ lệch sẽ lớn hơn một lượng rất nhất định - bằng bình phương của chênh lệch giữa giá trị trung bình và giá trị được lấy theo quy ước này.

Sự biến đổi của một đặc tính thay thế bao gồm sự hiện diện hay vắng mặt của đặc tính được nghiên cứu trong các đơn vị tổng thể. Về mặt định lượng, sự biến thiên của một thuộc tính thay thế được biểu thị bằng hai giá trị: sự hiện diện của một đơn vị thuộc tính được nghiên cứu được biểu thị bằng một (1) và sự vắng mặt của nó được biểu thị bằng 0 (0). Tỷ lệ đơn vị có đặc tính đang nghiên cứu được ký hiệu là P, tỷ lệ đơn vị không có đặc tính này được ký hiệu là G. Do đó, phương sai của một thuộc tính thay thế bằng tích của tỷ lệ đơn vị sở hữu đặc tính này (P) với tỷ lệ đơn vị không sở hữu đặc tính này (G). Sự khác biệt lớn nhất của quần thể đạt được trong trường hợp một phần dân số, chiếm 50% tổng dân số, có một đặc điểm và một phần khác của quần thể, cũng bằng 50%, không có đặc điểm này, và độ phân tán đạt giá trị cực đại là 0,25, t.e. P = 0,5, G= 1 - P = 1 - 0,5 = 0,5 và o 2 = 0,5 0,5 = 0,25. Giới hạn dưới của chỉ báo này bằng 0, tương ứng với tình huống trong đó không có sự thay đổi nào trong tổng thể. Ứng dụng thực tế của phương sai của một đặc tính thay thế là xây dựng khoảng tin cậy khi tiến hành quan sát mẫu.

Phương sai và độ lệch chuẩn càng nhỏ thì tổng thể càng đồng nhất và giá trị trung bình càng điển hình. Trong thực hành thống kê, thường cần phải so sánh các biến thể có những đặc điểm khác nhau. Ví dụ, thật thú vị khi so sánh sự khác biệt về độ tuổi của người lao động và trình độ của họ, thời gian làm việc và tiền lương, chi phí và lợi nhuận, thời gian làm việc và năng suất lao động, v.v. Đối với những so sánh như vậy, các chỉ số về sự thay đổi tuyệt đối của các đặc điểm là không phù hợp: không thể so sánh sự thay đổi của kinh nghiệm làm việc, tính bằng năm, với sự thay đổi của tiền lương, tính bằng rúp. Để thực hiện các so sánh như vậy, cũng như so sánh độ biến thiên của cùng một đặc tính trong một số quần thể có giá trị trung bình số học khác nhau, các chỉ số biến thiên được sử dụng - hệ số dao động, hệ số biến thiên tuyến tính và hệ số biến thiên, cho thấy thước đo sự dao động của các giá trị cực trị xung quanh mức trung bình.

Hệ số dao động:

Ở đâu V R - giá trị hệ số dao động; R- giá trị của phạm vi biến thiên; X -

Hệ số biến thiên tuyến tính".

Ở đâu Vj- giá trị của hệ số biến thiên tuyến tính; TÔI - giá trị độ lệch tuyến tính trung bình; X - giá trị trung bình của đặc tính đối với dân số đang được nghiên cứu.

Hệ số biến thiên:

Ở đâu V a - hệ số giá trị biến thiên; a là giá trị độ lệch chuẩn; X - giá trị trung bình của đặc tính đối với dân số đang được nghiên cứu.

Hệ số dao động là tỷ lệ phần trăm của phạm vi biến thiên với giá trị trung bình của đặc tính đang được nghiên cứu và hệ số biến thiên tuyến tính là tỷ lệ giữa độ lệch tuyến tính trung bình với giá trị trung bình của đặc tính đang được nghiên cứu, được biểu thị bằng a phần trăm. Hệ số biến thiên là tỷ lệ phần trăm của độ lệch chuẩn so với giá trị trung bình của đặc tính đang được nghiên cứu. Là một giá trị tương đối, được biểu thị bằng phần trăm, hệ số biến thiên được sử dụng để so sánh mức độ biến thiên của các đặc tính khác nhau. Sử dụng hệ số biến thiên, tính đồng nhất của tổng thể thống kê được đánh giá. Nếu hệ số biến thiên nhỏ hơn 33% thì dân số được nghiên cứu là đồng nhất và độ biến thiên yếu. Nếu hệ số biến thiên lớn hơn 33% thì dân số được nghiên cứu không đồng nhất, độ biến thiên mạnh và giá trị trung bình là không điển hình và không thể được sử dụng làm chỉ số chung cho dân số này. Ngoài ra, hệ số biến thiên được sử dụng để so sánh mức độ biến thiên của một tính trạng ở các quần thể khác nhau. Ví dụ, để đánh giá sự khác biệt về thời gian làm việc của người lao động tại hai doanh nghiệp. Giá trị hệ số càng cao thì sự biến đổi của đặc tính càng đáng kể.

Dựa trên các tứ phân vị được tính toán, cũng có thể tính chỉ số tương đối về biến động hàng quý bằng công thức

ở đâu Q 2

Khoảng tứ phân vị được xác định theo công thức

Độ lệch tứ phân vị được sử dụng thay cho phạm vi biến thiên để tránh những nhược điểm liên quan đến việc sử dụng các giá trị cực trị:

Đối với chuỗi biến thiên khoảng cách không đều nhau, mật độ phân bố cũng được tính toán. Nó được định nghĩa là thương số của tần số hoặc tần số tương ứng chia cho giá trị của khoảng. Trong chuỗi khoảng không bằng nhau, mật độ phân phối tuyệt đối và tương đối được sử dụng. Mật độ phân bố tuyệt đối là tần số trên một đơn vị độ dài của khoảng. Mật độ phân bố tương đối - tần số trên mỗi đơn vị độ dài khoảng thời gian.

Tất cả những điều trên đều đúng với chuỗi phân phối có luật phân phối được mô tả rõ ràng bằng luật phân phối chuẩn hoặc gần với nó.

Phương pháp nhóm cũng cho phép bạn đo lường biến thể(sự biến thiên, dao động) của dấu hiệu. Khi số lượng đơn vị trong quần thể tương đối nhỏ, độ biến thiên được đo dựa trên số lượng đơn vị được xếp hạng tạo nên quần thể. Bộ truyện có tên là được xếp hạng, nếu các đơn vị được sắp xếp theo thứ tự tăng dần (giảm dần) của đặc tính.

Tuy nhiên, chuỗi xếp hạng khá mang tính biểu thị khi cần có đặc điểm so sánh của biến thể. Ngoài ra, trong nhiều trường hợp, chúng ta phải xử lý các quần thể thống kê bao gồm một số lượng lớn các đơn vị, thực tế khó thể hiện dưới dạng một chuỗi cụ thể. Về vấn đề này, để làm quen ban đầu với dữ liệu thống kê và đặc biệt là để tạo điều kiện thuận lợi cho việc nghiên cứu sự biến đổi về đặc điểm, các hiện tượng và quá trình đang nghiên cứu thường được kết hợp thành các nhóm và kết quả phân nhóm được trình bày dưới dạng bảng nhóm.

Nếu một bảng nhóm chỉ có hai cột - các nhóm theo đặc tính đã chọn (tùy chọn) và số lượng nhóm (tần số hoặc tần số) thì được gọi là gần phân phối.

Phạm vi phân phối - kiểu nhóm cấu trúc đơn giản nhất dựa trên một đặc tính, được hiển thị trong bảng nhóm có hai cột chứa các biến thể và tần số của đặc tính. Trong nhiều trường hợp, với cách phân nhóm cấu trúc như vậy, tức là Với việc biên soạn chuỗi phân phối, việc nghiên cứu tài liệu thống kê ban đầu bắt đầu.

Một nhóm cấu trúc dưới dạng chuỗi phân phối có thể được chuyển thành một nhóm cấu trúc thực sự nếu các nhóm được chọn không chỉ được đặc trưng bởi tần số mà còn bởi các chỉ số thống kê khác. Mục đích chính của chuỗi phân phối là nghiên cứu sự biến đổi của các đặc điểm. Lý thuyết chuỗi phân phối được phát triển chi tiết bằng thống kê toán học.

Chuỗi phân phối được chia thành thuộc tính(phân nhóm theo các đặc điểm thuộc tính, ví dụ: chia dân số theo giới tính, quốc tịch, tình trạng hôn nhân, v.v.) và biến thiên(phân nhóm theo đặc điểm định lượng).

Chuỗi biến thể là một bảng nhóm chứa hai cột: nhóm các đơn vị theo một đặc tính định lượng và số lượng đơn vị trong mỗi nhóm. Các khoảng trong chuỗi biến thiên thường được hình thành bằng nhau và khép kín. Chuỗi biến thể là nhóm dân số Nga theo thu nhập tiền tệ bình quân đầu người sau đây (Bảng 3.10).

Bảng 3.10

Phân bố dân số Nga theo thu nhập bình quân đầu người giai đoạn 2004-2009.

Nhóm dân số phân theo thu nhập tiền mặt bình quân đầu người, rúp/tháng

Dân số trong nhóm, % trên tổng số

8 000,1-10 000,0

10 000,1-15 000,0

15 000,1-25 000,0

Trên 25.000,0

Toàn bộ dân số

Chuỗi biến thể lần lượt được chia thành rời rạc và khoảng. rời rạc chuỗi biến thể kết hợp các biến thể có đặc điểm riêng biệt khác nhau trong giới hạn hẹp. Một ví dụ về chuỗi biến thiên rời rạc là sự phân bổ các gia đình Nga theo số con mà họ có.

Khoảng thời gian Chuỗi biến thể kết hợp các biến thể có đặc điểm liên tục hoặc đặc điểm riêng biệt thay đổi trên một phạm vi rộng. Khoảng thời gian là chuỗi biến thiên của sự phân bổ dân số Nga theo thu nhập tiền tệ bình quân đầu người.

Chuỗi biến thiên rời rạc không được sử dụng thường xuyên trong thực tế. Trong khi đó, việc biên soạn chúng không khó, vì thành phần của các nhóm được xác định bởi các biến thể cụ thể mà các đặc điểm phân nhóm được nghiên cứu thực sự sở hữu.

Chuỗi biến thể theo khoảng thời gian phổ biến hơn. Khi biên soạn chúng, một câu hỏi khó nảy sinh về số lượng nhóm, cũng như kích thước của các khoảng cần thiết lập.

Nguyên tắc giải quyết vấn đề này được nêu trong chương về phương pháp xây dựng nhóm thống kê (xem đoạn 3.3).

Chuỗi biến thể là một phương tiện thu gọn hoặc nén các thông tin đa dạng thành một dạng cô đọng; từ đó người ta có thể đưa ra nhận định khá rõ ràng về bản chất của biến thể và nghiên cứu sự khác biệt về đặc điểm của các hiện tượng có trong tập hợp đang nghiên cứu. Nhưng ý nghĩa quan trọng nhất của chuỗi biến thiên là trên cơ sở đó các đặc điểm tổng quát hóa đặc biệt của biến thể được tính toán (xem Chương 7).