Dân số nói chung và các khái niệm cơ bản mẫu. Dân số và phương pháp lấy mẫu

Trong phần trước, chúng ta quan tâm đến việc phân phối một tính năng trong một tập hợp các phần tử nhất định. Một tập hợp hợp nhất tất cả các phần tử có đặc điểm này được gọi là tập hợp chung. Nếu đặc điểm là con người (quốc tịch, trình độ học vấn, IQ, v.v.) thì dân số nói chung là toàn bộ dân số trên trái đất. Đây là một bộ sưu tập rất lớn, nghĩa là số phần tử trong bộ sưu tập n rất lớn. Số lượng phần tử được gọi là thể tích của dân số. Bộ sưu tập có thể là hữu hạn hoặc vô hạn. Dân số nói chung - tất cả mọi người, mặc dù rất lớn, nhưng về mặt tự nhiên, là hữu hạn. Dân số nói chung là tất cả các ngôi sao, có lẽ là vô tận.

Nếu một nhà nghiên cứu đo một biến ngẫu nhiên liên tục X nào đó thì mỗi kết quả đo có thể được coi là một phần tử của một tổng thể giả định không giới hạn nào đó. Trong quần thể nói chung này, vô số kết quả được phân bổ theo xác suất dưới ảnh hưởng của sai số trong thiết bị, sự thiếu chú ý của người thí nghiệm, sự can thiệp ngẫu nhiên vào chính hiện tượng đó, v.v.

Nếu chúng ta thực hiện n phép đo lặp lại của một biến ngẫu nhiên X, nghĩa là chúng ta thu được n giá trị số cụ thể khác nhau, thì kết quả thực nghiệm này có thể được coi là một mẫu có khối lượng n từ một tổng thể giả định gồm các kết quả của các phép đo đơn lẻ.

Điều tự nhiên là giả định rằng giá trị thực của đại lượng đo được là giá trị trung bình số học của các kết quả. Hàm này của n kết quả đo được gọi là thống kê và bản thân nó là một biến ngẫu nhiên có một phân phối nhất định gọi là phân phối lấy mẫu. Xác định phân phối mẫu của một thống kê cụ thể là nhiệm vụ quan trọng nhất của phân tích thống kê. Rõ ràng là sự phân bố này phụ thuộc vào cỡ mẫu n và vào sự phân bố của biến ngẫu nhiên X của tổng thể giả định. Phân bố lấy mẫu của số liệu thống kê là phân bố của X q trong quần thể vô hạn của tất cả các mẫu có thể có cỡ n từ quần thể ban đầu.

Bạn cũng có thể đo một biến ngẫu nhiên rời rạc.

Giả sử phép đo của biến ngẫu nhiên X là một hình chóp tam giác đều, đồng nhất, trên các cạnh của nó viết các số 1, 2, 3, 4. Biến ngẫu nhiên X rời rạc có phân bố đều đơn giản:

Thí nghiệm có thể được thực hiện không giới hạn số lần. Một quần thể lý thuyết giả định là một quần thể vô hạn trong đó có các phần bằng nhau (0,25 mỗi phần) của bốn phần tử khác nhau, được ký hiệu là 1, 2, 3, 4. Một chuỗi n lần tung kim tự tháp lặp đi lặp lại hoặc các lần tung đồng thời n kim tự tháp giống hệt nhau có thể là được coi là một mẫu có tập n từ tổng thể này. Kết quả thí nghiệm ta có n số. Có thể giới thiệu một số hàm của các đại lượng này, được gọi là số liệu thống kê; chúng có thể được liên kết với các tham số nhất định của phân bố chung.

Đặc điểm số quan trọng nhất của phân bố là xác suất P i, kỳ vọng toán học M, phương sai D. Thống kê xác suất P i là tần số tương đối, trong đó n i là tần số của kết quả i (i = 1,2,3,4) trong mẫu . Kỳ vọng toán học M tương ứng với số liệu thống kê

được gọi là giá trị trung bình mẫu. Phương sai mẫu

tương ứng với phương sai tổng quát D.

Tần suất tương đối của bất kỳ sự kiện nào (i=1,2,3,4) trong một chuỗi n thử nghiệm lặp lại (hoặc trong các mẫu có kích thước n từ tổng thể) sẽ có phân bố nhị thức.

Phân phối này có kỳ vọng toán học bằng 0,25 (không phụ thuộc vào n) và độ lệch chuẩn bằng (giảm nhanh khi n tăng). Phân phối là một thống kê phân phối lấy mẫu, tần suất tương đối của bất kỳ kết quả nào trong số bốn kết quả có thể xảy ra khi tung một kim tự tháp trong n lần thử lặp lại. Nếu chúng ta chọn từ một quần thể tổng quát vô hạn, trong đó bốn phần tử khác nhau (i = 1,2,3,4) có tỷ lệ bằng nhau là 0,25, tất cả các mẫu có thể có kích thước n (số lượng của chúng cũng là vô hạn), chúng ta sẽ nhận được cái gọi là cỡ mẫu toán học n. Trong mẫu này, mỗi phần tử (i=1,2,3,4) được phân phối theo luật nhị thức.

Giả sử chúng ta đã ném kim tự tháp này và số hai xuất hiện 3 lần (). Chúng ta có thể tìm thấy xác suất của kết quả này bằng cách sử dụng phân phối mẫu. Nó bằng nhau

Kết quả của chúng tôi rất khó xảy ra; trong một chuỗi 24 lần ném nhiều lần, nó xảy ra khoảng một lần. Trong sinh học, một kết quả như vậy thường được coi là thực tế không thể xảy ra. Trong trường hợp này, chúng ta sẽ có những nghi ngờ: liệu kim tự tháp có đúng và đồng nhất hay không, liệu sự bình đẳng có hợp lệ trong một lần ném hay không, sự phân bố và do đó, sự phân bố lấy mẫu có đúng không.

Để giải quyết nghi ngờ, bạn cần ném nó bốn lần nữa. Nếu kết quả xuất hiện lại thì xác suất có 2 kết quả cùng là rất nhỏ. Rõ ràng là chúng ta đã thu được một kết quả gần như hoàn toàn không thể xảy ra. Vì vậy, phân phối ban đầu là không chính xác. Rõ ràng, nếu kết quả thứ hai thậm chí còn khó xảy ra hơn, thì càng có nhiều lý do hơn để giải quyết kim tự tháp “đúng” này. Nếu kết quả của thí nghiệm lặp lại là và thì chúng ta có thể giả định rằng kim tự tháp là đúng và kết quả đầu tiên () cũng đúng, nhưng đơn giản là không thể xảy ra.

Chúng tôi không thể bận tâm đến việc kiểm tra tính đúng đắn và đồng nhất của kim tự tháp, nhưng coi kim tự tháp một cách tiên nghiệm là chính xác và đồng nhất, và do đó, việc phân phối mẫu là chính xác. Tiếp theo, chúng ta nên tìm hiểu kiến ​​thức nào về phân phối mẫu cung cấp cho việc nghiên cứu dân số nói chung. Nhưng vì việc thiết lập phân bố lấy mẫu là mục tiêu chính của nghiên cứu thống kê nên việc mô tả chi tiết các thí nghiệm kim tự tháp có thể được coi là hợp lý.

Chúng tôi giả định rằng phân phối mẫu là chính xác. Khi đó, các giá trị thử nghiệm của tần số tương đối trong chuỗi n lần ném kim tự tháp khác nhau sẽ được nhóm xung quanh giá trị 0,25, là tâm của phân bố mẫu và giá trị chính xác của xác suất ước tính. Trong trường hợp này, tần số tương đối được coi là ước tính không chệch. Do độ phân tán mẫu có xu hướng bằng 0 khi n tăng, nên các giá trị thử nghiệm của tần số tương đối sẽ ngày càng được nhóm chặt chẽ hơn xung quanh kỳ vọng toán học về phân bố mẫu khi kích thước mẫu tăng lên. Vì vậy, nó là một ước tính nhất quán về xác suất.

Nếu kim tự tháp hóa ra có tính định hướng và không đồng nhất, thì phân bố mẫu cho các giá trị khác nhau (i = 1,2,3,4) sẽ có kỳ vọng toán học (khác nhau) và phương sai khác nhau.

Lưu ý rằng phân phối lấy mẫu nhị thức thu được ở đây đối với n () lớn gần đúng bằng phân phối chuẩn với các tham số và điều này giúp đơn giản hóa đáng kể việc tính toán.

Hãy tiếp tục thí nghiệm ngẫu nhiên - ném một kim tự tháp hình tam giác đều, đều. Biến ngẫu nhiên X liên quan đến thí nghiệm này có phân phối. Kỳ vọng toán học ở đây là

Chúng ta hãy thực hiện n phép ép mẫu, tương đương với một mẫu ngẫu nhiên có kích thước n từ một quần thể giả định, vô hạn, chứa các phần bằng nhau (0,25) của bốn phần tử khác nhau. Ta thu được n giá trị mẫu của biến ngẫu nhiên X(). Hãy chọn một thống kê đại diện cho giá trị trung bình của mẫu. Bản thân giá trị là một biến ngẫu nhiên có phân phối tùy thuộc vào cỡ mẫu và phân phối của biến ngẫu nhiên ban đầu X. Giá trị là tổng trung bình của n biến ngẫu nhiên giống hệt nhau (nghĩa là có cùng phân phối). Rõ ràng là vậy

Do đó, số liệu thống kê là ước tính không thiên vị về kỳ vọng toán học. Đó cũng là một ước tính hợp lý vì

Do đó, phân phối lấy mẫu lý thuyết có cùng kỳ vọng toán học như phân phối ban đầu; phương sai giảm đi n lần.

Hãy nhớ rằng nó bằng

Một mẫu vô hạn trừu tượng, toán học được liên kết với một mẫu có kích thước n từ tổng thể chung và với số liệu thống kê đã nhập sẽ chứa, trong trường hợp của chúng ta, các phần tử. Ví dụ: nếu, thì mẫu toán học sẽ chứa các phần tử có giá trị thống kê. Tổng cộng sẽ có 13 phần tử. Tỷ lệ các phần tử cực trị trong mẫu toán học sẽ ở mức tối thiểu vì các kết quả có xác suất bằng nhau. Trong số nhiều kết quả cơ bản của việc ném kim tự tháp bốn lần, mỗi lần chỉ có một kết quả thuận lợi. Khi số liệu thống kê tiếp cận giá trị trung bình, xác suất sẽ tăng lên. Ví dụ, giá trị sẽ được hiện thực hóa bằng các kết quả cơ bản, v.v. Theo đó, tỷ trọng của phần tử 1.5 trong mẫu toán học sẽ tăng lên.

Giá trị trung bình sẽ có xác suất tối đa. Khi n tăng, các kết quả thử nghiệm sẽ tập trung chặt chẽ hơn quanh giá trị trung bình. Thực tế là giá trị trung bình mẫu bằng với giá trị trung bình tổng thể ban đầu thường được sử dụng trong thống kê.

Nếu bạn thực hiện các phép tính xác suất trong phân bố mẫu c, bạn có thể chắc chắn rằng ngay cả với giá trị n nhỏ như vậy, phân bố mẫu sẽ trông giống như bình thường. Nó sẽ đối xứng, trong đó giá trị sẽ là trung vị, mode và kỳ vọng toán học. Khi n tăng lên, nó gần đúng bằng phân bố chuẩn tương ứng, ngay cả khi phân bố ban đầu là hình chữ nhật. Nếu phân phối ban đầu là phân phối chuẩn thì phân phối đó là phân phối Sinh viên cho bất kỳ n nào.

Để ước tính phương sai chung, cần phải chọn một thống kê phức tạp hơn để đưa ra ước tính khách quan và nhất quán. Trong phân phối lấy mẫu cho S 2 kỳ vọng toán học bằng và phương sai. Với cỡ mẫu lớn, phân phối mẫu có thể được coi là chuẩn. Đối với n nhỏ và phân phối ban đầu chuẩn, phân phối mẫu cho S 2 sẽ là phân phối h 2.

Ở trên, chúng tôi đã cố gắng trình bày những bước đầu tiên của một nhà nghiên cứu đang cố gắng thực hiện một phân tích thống kê đơn giản về các thí nghiệm lặp đi lặp lại với một lăng kính tam giác đều đều (tứ diện). Trong trường hợp này, chúng tôi biết phân phối ban đầu. Về nguyên tắc, về mặt lý thuyết, có thể thu được sự phân bố mẫu của tần số tương đối, giá trị trung bình mẫu và phương sai mẫu tùy thuộc vào số lượng thí nghiệm lặp lại n. Đối với n lớn, tất cả các phân phối mẫu này sẽ tiến gần đến phân phối chuẩn tương ứng, vì chúng biểu thị quy luật phân phối tổng của các biến ngẫu nhiên độc lập (định lý giới hạn trung tâm). Vì vậy, chúng tôi biết kết quả mong đợi.

Các thí nghiệm hoặc mẫu lặp đi lặp lại sẽ cung cấp ước tính về các tham số của phân bố mẫu. Chúng tôi lập luận rằng các ước tính thử nghiệm sẽ chính xác. Chúng tôi đã không thực hiện những thí nghiệm này và thậm chí không trình bày kết quả thí nghiệm mà các nhà nghiên cứu khác thu được. Có thể nhấn mạnh rằng khi xác định quy luật phân bố, phương pháp lý thuyết được sử dụng thường xuyên hơn so với thực nghiệm trực tiếp.

Đây là một ngành khoa học dựa trên các phương pháp lý thuyết xác suất, xử lý hệ thống hóa và xử lý dữ liệu thống kê để thu được kết luận khoa học và thực tiễn.

Dữ liệu thống kê đề cập đến thông tin về số lượng đối tượng có những đặc điểm nhất định .

Một nhóm các đối tượng thống nhất theo một số đặc tính định tính hoặc định lượng được gọi là tổng thể thống kê . Các đối tượng có trong một bộ sưu tập được gọi là các phần tử của nó và tổng số của chúng là âm lượng.

Dân số chung là tập hợp tất cả các quan sát có thể tưởng tượng được có thể được thực hiện theo một tập hợp các điều kiện thực tế nhất định hoặc nghiêm ngặt hơn: tổng thể chung là biến ngẫu nhiên x và không gian xác suất liên quan (W, Á, P).

Phân phối của biến ngẫu nhiên x được gọi là phân bố dân cư(ví dụ, họ nói về dân số có phân bố bình thường hoặc đơn giản là dân số bình thường).

Ví dụ: nếu thực hiện một số phép đo độc lập của một biến ngẫu nhiên x, thì tổng thể chung là vô hạn về mặt lý thuyết (tức là tổng thể chung là một khái niệm toán học thông thường, trừu tượng); nếu kiểm tra số lượng sản phẩm bị lỗi trong một lô N sản phẩm thì lô này được coi là tổng thể hữu hạn của khối lượng N.

Trong trường hợp nghiên cứu kinh tế - xã hội, dân số chung của tập N có thể là dân số của một thành phố, vùng hoặc quốc gia và các đặc điểm đo được có thể là thu nhập, chi phí hoặc số tiền tiết kiệm của một cá nhân. Nếu một số thuộc tính có tính chất định tính (ví dụ: giới tính, quốc tịch, địa vị xã hội, nghề nghiệp, v.v.) nhưng thuộc về một tập hợp các lựa chọn hữu hạn thì nó cũng có thể được mã hóa thành một số (như thường được thực hiện trong bảng câu hỏi). ).

Nếu số lượng đối tượng N đủ lớn thì rất khó và đôi khi không thể thực hiện được một cuộc khảo sát toàn diện về mặt vật lý (ví dụ: kiểm tra chất lượng của tất cả các hộp mực). Sau đó, một số lượng hạn chế các đối tượng được chọn ngẫu nhiên từ toàn bộ quần thể và đưa vào nghiên cứu.

Dân số mẫu hoặc đơn giản là lấy mẫu của tập n là một dãy x 1 , x 2 , ..., x n gồm các biến ngẫu nhiên có phân bố giống hệt nhau độc lập, phân bố của mỗi biến đó trùng với phân bố của biến ngẫu nhiên x.

Ví dụ: kết quả của n phép đo đầu tiên của một biến ngẫu nhiên x Người ta thường coi nó như một mẫu có kích thước n từ một quần thể vô hạn. Dữ liệu thu được gọi là quan sát một biến ngẫu nhiên x, và người ta còn nói rằng biến ngẫu nhiên x “nhận các giá trị” x 1, x 2, …, x n.


Nhiệm vụ chính của thống kê toán học là đưa ra kết luận dựa trên cơ sở khoa học về sự phân bố của một hoặc nhiều biến ngẫu nhiên chưa biết hoặc mối quan hệ của chúng với nhau. Phương pháp bao gồm thực tế là, dựa trên các tính chất và đặc điểm của mẫu, đưa ra kết luận về các đặc tính số và quy luật phân phối của một biến ngẫu nhiên (dân số chung) được gọi là bằng phương pháp chọn lọc.

Để các đặc tính của biến ngẫu nhiên thu được bằng phương pháp lấy mẫu là khách quan thì mẫu cần phải được tiêu biểu những thứ kia. thể hiện khá tốt số lượng đã nghiên cứu. Theo quy luật số lớn, có thể lập luận rằng mẫu sẽ mang tính đại diện nếu nó được thực hiện ngẫu nhiên, tức là. Tất cả các đối tượng trong tổng thể đều có cùng xác suất được đưa vào mẫu. Có nhiều cách chọn mẫu khác nhau cho mục đích này.

1. Đơn giản lấy mẫu ngẫu nhiên là sự lựa chọn trong đó các đối tượng được chọn lần lượt từ toàn bộ quần thể.

2. Phân tầng (phân tầng) lựa chọn là quần thể ban đầu của tập N được chia thành các tập con (tầng) N 1, N 2,...,N k, sao cho N 1 + N 2 +...+ N k = N. Khi các tầng là xác định được, từ mỗi mẫu đó rút ra một mẫu ngẫu nhiên đơn giản có khối lượng n 1, n 2, ..., n k. Một trường hợp đặc biệt của chọn lọc phân tầng là chọn lọc điển hình, trong đó các đối tượng được chọn không phải từ toàn bộ quần thể mà từ mỗi phần điển hình của nó.

Lựa chọn kết hợp kết hợp nhiều loại lựa chọn cùng một lúc, tạo thành các giai đoạn khác nhau của một cuộc khảo sát mẫu. Có các phương pháp lấy mẫu khác.

Mẫu được gọi là lặp đi lặp lại , nếu đối tượng đã chọn được trả về quần thể trước khi chọn đối tượng tiếp theo. Mẫu được gọi là có thể lặp lại , nếu đối tượng được chọn không được trả lại cho quần thể. Đối với một quần thể hữu hạn, việc lựa chọn ngẫu nhiên không đảo ngược sẽ dẫn đến sự phụ thuộc của các quan sát riêng lẻ ở mỗi bước, trong khi lựa chọn ngẫu nhiên có đảo ngược sẽ dẫn đến sự độc lập của các quan sát. Trong thực tế, chúng ta thường xử lý các mẫu không lặp lại. Tuy nhiên, khi cỡ quần thể N lớn hơn cỡ mẫu n nhiều lần (ví dụ hàng trăm hoặc hàng nghìn lần) thì có thể bỏ qua sự phụ thuộc của các quan sát.

Như vậy, mẫu ngẫu nhiên x 1, x 2, ..., x n là kết quả quan sát tuần tự và độc lập của biến ngẫu nhiên ξ, đại diện cho tổng thể chung và tất cả các phần tử của mẫu đều có phân bố giống như biến ngẫu nhiên ban đầu x.

Chúng ta sẽ gọi hàm phân phối F x(x) và các đặc tính số khác của biến ngẫu nhiên là x lý thuyết, không giống đặc điểm mẫu , được xác định từ kết quả quan sát.

Cho mẫu x 1, x 2, ..., x k là kết quả quan sát độc lập của một biến ngẫu nhiên x, và x 1 được quan sát n 1 lần, x 2 - n 2 lần, ..., x k - n k lần , sao cho n i = n - cỡ mẫu. Số n i biểu thị số lần giá trị x i xuất hiện trong n quan sát được gọi là Tính thường xuyên giá trị đã cho và tỷ số n i /n = w Tôi- tần số tương đối. Rõ ràng là những con số w tôi là người lý trí và .

Một quần thể thống kê được sắp xếp theo thứ tự tăng dần của một đặc tính được gọi là chuỗi biến thể . Các thành viên của nó được ký hiệu là x(1), x(2),...x(n) và được gọi là tùy chọn . Chuỗi biến thiên được gọi là rời rạc, nếu các thành viên của nó lấy các giá trị biệt lập cụ thể. Phân phối thống kê lấy mẫu một biến ngẫu nhiên rời rạc xđược gọi là danh sách các tùy chọn và tần số tương đối tương ứng của chúng w Tôi. Bảng kết quả được gọi gần gũi về mặt thống kê.

X (1) x(2) ... xk(k)
ω 1 ω 2 ...

Giá trị lớn nhất và nhỏ nhất của chuỗi biến thiên được ký hiệu là x min và x max và được gọi là thành viên cực đoan của chuỗi biến thể.

Nếu một biến ngẫu nhiên liên tục được nghiên cứu, thì việc nhóm bao gồm chia khoảng thời gian của các giá trị quan sát được thành k khoảng thời gian có độ dài bằng nhau h và đếm số lượng quan sát rơi vào các khoảng này. Các số kết quả được lấy dưới dạng tần số n i (đối với một số biến ngẫu nhiên mới, đã rời rạc). Các giá trị ở giữa của các khoảng thường được lấy làm giá trị mới cho tùy chọn x i (hoặc chính các khoảng được chỉ định trong bảng). Theo công thức Sturges, số khoảng cách phân vùng được khuyến nghị là k » 1 + log 2 N, và độ dài của các khoảng từng phần bằng h = (x max - x min)/k. Giả sử toàn bộ khoảng có dạng .

Về mặt đồ họa, chuỗi thống kê có thể được trình bày dưới dạng đa giác, biểu đồ hoặc biểu đồ tần số tích lũy.

Đa giác tần số gọi là đường đứt đoạn, các đoạn nối các điểm (x 1, n 1), (x 2, n 2), ..., (x k, n k). Đa giác tần số tương đối gọi là đường đứt nét, các đoạn nối các điểm (x 1, w 1), (x 2, w 2), …, (x k , w k). Đa giác thường dùng để biểu diễn một mẫu trong trường hợp các biến ngẫu nhiên rời rạc (Hình 7.1.1).

Cơm. 7.1

.1.

Biểu đồ tần số tương đốiđược gọi là một hình bậc bao gồm các hình chữ nhật, đáy của chúng là các đoạn có chiều dài h và chiều cao

bình đẳng w tôi/h.

Biểu đồ thường được sử dụng để mô tả một mẫu trong trường hợp các biến ngẫu nhiên liên tục. Diện tích của biểu đồ bằng một (Hình 7.1.2). Nếu bạn nối các điểm giữa của các cạnh trên của hình chữ nhật trên biểu đồ tần số tương đối thì đường đứt nét thu được sẽ tạo thành một đa giác có tần số tương đối. Vì vậy, biểu đồ có thể được xem như một đồ thị mật độ phân phối (mẫu) theo kinh nghiệm fn(x). Nếu phân bố lý thuyết có mật độ hữu hạn thì mật độ thực nghiệm gần đúng với phân bố lý thuyết.

Đồ thị tần số tích lũy là một hình được xây dựng tương tự như biểu đồ với điểm khác biệt là để tính chiều cao của hình chữ nhật, người ta không lấy các hình đơn giản mà tần số tương đối tích lũy, những thứ kia. số lượng Các giá trị này không giảm và biểu đồ tần số tích lũy có dạng “cầu thang” từng bậc (từ 0 đến 1).

Biểu đồ tần số tích lũy được sử dụng trong thực tế để tính gần đúng hàm phân phối lý thuyết.

Nhiệm vụ. Một mẫu gồm 100 doanh nghiệp nhỏ trong khu vực được phân tích. Mục đích của cuộc khảo sát là đo lường tỷ lệ vốn vay và vốn chủ sở hữu (x i) tại mỗi doanh nghiệp thứ i. Kết quả được trình bày ở Bảng 7.1.1.

Bàn Tỷ lệ nợ và vốn tự có của doanh nghiệp.

5,56 5,45 5,48 5,45 5,39 5,37 5,46 5,59 5,61 5,31
5,46 5,61 5,11 5,41 5.31 5,57 5,33 5,11 5,54 5,43
5,34 5,53 5,46 5,41 5,48 5,39 5,11 5,42 5,48 5,49
5,36 5,40 5,45 5,49 5,68 5,51 5,50 5,68 5,21 5,38
5,58 5,47 5,46 5,19 5,60 5,63 5,48 5,27 5,22 5,37
5,33 5,49 5,50 5,54 5,40 5.58 5,42 5,29 5,05 5,79
5,79 5,65 5,70 5,71 5,85 5,44 5,47 5,48 5,47 5,55
5,67 5,71 5,73 5,05 5,35 5,72 5,49 5,61 5,57 5,69
5,54 5,39 5,32 5,21 5,73 5,59 5,38 5,25 5,26 5,81
5,27 5,64 5,20 5,23 5,33 5,37 5,24 5,55 5,60 5,51

Xây dựng biểu đồ và đồ thị tần số tích lũy.

Giải pháp. Hãy xây dựng một loạt các quan sát được nhóm lại:

1. Xác định trong mẫu x min = 5,05 và x max = 5,85;

2. Hãy chia toàn bộ phạm vi thành k khoảng bằng nhau: k » 1 + log 2 100 = 7,62; k = 8, do đó độ dài của khoảng

Bảng 7.1.2. Nhóm các quan sát

Số khoảng Khoảng thời gian Trung điểm của các khoảng x i w Tôi fn(x)
5,05-5,15 5,1 0,05 0,05 0,5
5,15-5,25 5,2 0,08 0,13 0,8
5,25-5,35 5,3 0,12 0,25 1,2
5,35-5,45 5,4 0,20 0,45 2,0
5,45-5,55 5,5 0,26 0,71 2,6
5,55-5,65 5,6 0,15 0,86 1,5
5,65-5,75 5,7 0,10 0,96 1,0
5,75-5,85 5,8 0,04 1,00 0,4

Trong hình. 7.1.3 và 7.1.4, được xây dựng theo dữ liệu trong Bảng 7.1.2, trình bày biểu đồ và đồ thị tần số tích lũy. Các đường cong tương ứng với mật độ và hàm phân phối chuẩn “khớp” với dữ liệu.

Do đó, phân bố mẫu gần đúng với phân bố dân số.

Toàn bộ tập hợp các cá thể thuộc một thể loại nhất định được gọi là quần thể chung. Quy mô dân số được xác định bởi các mục tiêu của nghiên cứu.

Nếu một loài động vật hoặc thực vật hoang dã được nghiên cứu thì quần thể chung sẽ là tất cả các cá thể của loài này. Trong trường hợp này, khối lượng dân số nói chung sẽ rất lớn và trong tính toán nó được coi là một giá trị vô cùng lớn.

Nếu tác động của một tác nhân lên thực vật và động vật thuộc một loại nhất định đang được nghiên cứu thì quần thể chung sẽ là tất cả các thực vật và động vật thuộc loại đó (loài, giới tính, độ tuổi, mục đích kinh tế) mà đối tượng thí nghiệm thuộc về. Đây không còn là số lượng cá nhân quá lớn nhưng vẫn chưa thể tiếp cận được để nghiên cứu toàn diện.

Khối lượng dân số nói chung không phải lúc nào cũng có sẵn cho một nghiên cứu toàn diện. Đôi khi các quần thể nhỏ được nghiên cứu, ví dụ, sản lượng sữa trung bình hoặc lượng len cắt ra trung bình của một nhóm động vật được giao cho một công nhân nhất định được xác định. Trong những trường hợp như vậy, quần thể sẽ là một số lượng rất nhỏ các cá thể, tất cả đều được nghiên cứu. Một quần thể nhỏ cũng được tìm thấy khi nghiên cứu thực vật hoặc động vật được tìm thấy trong bộ sưu tập nhằm mô tả đặc điểm của một nhóm nhất định trong bộ sưu tập này.

Các đặc điểm của thuộc tính nhóm (v.v.) liên quan đến toàn bộ tổng thể được gọi là tham số chung.

Mẫu là một nhóm các đối tượng khác nhau ở ba đặc điểm:

1 là một phần của dân số nói chung;

2 lựa chọn ngẫu nhiên theo một cách nhất định;

3 được nghiên cứu để mô tả đặc điểm của toàn bộ dân số.

Để có được đặc tính khá chính xác của toàn bộ tổng thể từ một mẫu, cần tổ chức lựa chọn chính xác các đối tượng từ tổng thể.

Lý thuyết và thực hành đã phát triển một số hệ thống để lựa chọn các cá nhân để lấy mẫu. Tất cả các hệ thống này đều dựa trên mong muốn mang lại cơ hội tối đa để lựa chọn bất kỳ đối tượng nào từ dân chúng nói chung. Xu hướng và sự thiên vị trong việc lựa chọn đối tượng cho một nghiên cứu mẫu ngăn cản việc nhận được các kết luận chung chính xác và làm cho kết quả của một nghiên cứu mẫu không mang tính đại diện cho toàn bộ dân số, tức là không mang tính đại diện.

Để có được đặc điểm chính xác, không bị bóp méo của toàn bộ tổng thể, cần phải cố gắng đảm bảo khả năng chọn bất kỳ đối tượng nào từ bất kỳ bộ phận nào của tổng thể vào mẫu. Yêu cầu cơ bản này phải được đáp ứng càng nghiêm ngặt thì đặc điểm được nghiên cứu càng có nhiều biến đổi. Có thể hiểu rằng khi độ đa dạng tiến tới mức 0, chẳng hạn như trong trường hợp nghiên cứu về lông hoặc màu lông ở một số loài, thì bất kỳ phương pháp chọn mẫu nào cũng sẽ cho ra kết quả mang tính đại diện.

Trong nhiều nghiên cứu khác nhau, các phương pháp sau đây được sử dụng để chọn đối tượng cho mẫu.

4 Lựa chọn lặp lại ngẫu nhiên, trong đó đối tượng nghiên cứu được chọn từ tổng thể chung mà không tính đến sự phát triển của đặc điểm đang được nghiên cứu trước tiên, tức là theo thứ tự ngẫu nhiên (đối với một đặc điểm nhất định); Sau khi lựa chọn, mỗi đối tượng sẽ được nghiên cứu và sau đó được đưa trở lại quần thể của nó để bất kỳ đối tượng nào cũng có thể được chọn lại. Phương pháp lựa chọn này tương đương với việc lựa chọn từ một quần thể chung vô cùng lớn, trong đó các chỉ số chính về mối quan hệ giữa mẫu và giá trị chung đã được phát triển.

5 Lựa chọn ngẫu nhiên không lặp lại, trong đó các đối tượng được chọn, như trong phương pháp trước, một cách tình cờ, không quay trở lại tổng thể chung và không thể nhập lại vào mẫu. Đây là cách phổ biến nhất để sắp xếp mẫu; nó tương đương với việc lựa chọn từ một quần thể lớn nhưng có giới hạn, được tính đến khi xác định các chỉ số chung từ mẫu.

6 Lựa chọn cơ học, trong đó các đối tượng được chọn từ các bộ phận riêng lẻ của quần thể nói chung và các bộ phận này được chỉ định sơ bộ một cách máy móc theo các ô vuông của trường thí nghiệm, theo các nhóm động vật ngẫu nhiên được lấy từ các khu vực khác nhau của quần thể, v.v. Thông thường như nhiều phần như vậy được phác thảo theo dự kiến ​​sẽ lấy đối tượng để nghiên cứu nên số lượng phần bằng với kích thước của mẫu. Chọn lọc cơ học đôi khi được thực hiện bằng cách chọn nghiên cứu các cá thể sau một số lượng nhất định, ví dụ, bằng cách cho động vật đi qua một phần chia và chọn từng phần mười, phần trăm, v.v., hoặc bằng cách cắt cỏ sau mỗi 100 hoặc 200 m, hoặc bằng cách chọn một con. cứ 10 đối tượng gặp phải 100 mẫu vật, v.v. khi nghiên cứu toàn bộ quần thể.

8 Lựa chọn nối tiếp (cụm), trong đó dân số nói chung được chia thành các phần - chuỗi, một số trong số chúng được nghiên cứu toàn bộ. Phương pháp này được sử dụng thành công trong trường hợp các đối tượng nghiên cứu được phân bố khá đồng đều trong một khối lượng nhất định hoặc trên một lãnh thổ nhất định. Ví dụ, khi nghiên cứu sự ô nhiễm của không khí hoặc nước với vi sinh vật, các mẫu được lấy và kiểm tra toàn diện. Trong một số trường hợp, các đối tượng nông nghiệp cũng có thể được khảo sát bằng phương pháp lồng. Khi nghiên cứu sản lượng thịt và các sản phẩm chế biến khác của một giống vật nuôi lấy thịt, mẫu có thể bao gồm tất cả các động vật thuộc giống này đến từ hai hoặc ba nhà máy chế biến thịt. Khi nghiên cứu kích thước trứng trong chăn nuôi gia cầm ở trang trại tập thể, có thể nghiên cứu đặc điểm này ở một số trang trại tập thể trên toàn bộ đàn gà.

Đặc điểm của thuộc tính nhóm (μ, S v.v.) thu được từ mẫu được gọi là chất chỉ thị mẫu.

Tính đại diện

Nghiên cứu trực tiếp về một nhóm đối tượng được chọn trước hết cung cấp nguyên liệu chính và đặc điểm của chính mẫu đó.

Tất cả dữ liệu mẫu và các chỉ số tóm tắt đều quan trọng vì là dữ kiện cơ bản được nghiên cứu tiết lộ và phải được xem xét, phân tích và so sánh cẩn thận với kết quả của các nghiên cứu khác. Nhưng điều này không hạn chế quá trình trích xuất thông tin vốn có trong tài liệu nghiên cứu chính.

Thực tế là các đối tượng được chọn cho mẫu bằng các kỹ thuật đặc biệt và với số lượng đủ khiến kết quả nghiên cứu mẫu không chỉ mang tính biểu thị cho bản thân mẫu mà còn cho toàn bộ dân số mà mẫu này được lấy.

Một mẫu, trong những điều kiện nhất định, sẽ phản ánh ít nhiều chính xác toàn bộ tổng thể. Thuộc tính này của mẫu được gọi là tính đại diện, có nghĩa là tính đại diện với độ chính xác và độ tin cậy nhất định.

Giống như bất kỳ đặc tính nào, tính đại diện của dữ liệu mẫu có thể được thể hiện ở mức độ đầy đủ hoặc không đầy đủ. Trong trường hợp đầu tiên, các ước tính đáng tin cậy của các tham số chung thu được trong mẫu, trong trường hợp thứ hai - không đáng tin cậy. Điều quan trọng cần nhớ là việc thu được những ước tính không đáng tin cậy sẽ không làm giảm giá trị của các chỉ số mẫu để mô tả đặc điểm của chính mẫu đó. Việc thu được những ước tính đáng tin cậy sẽ mở rộng phạm vi áp dụng những thành tựu đạt được trong một nghiên cứu mẫu.

Dân số- tổng thể của tất cả các đối tượng (đơn vị) mà nhà khoa học dự định đưa ra kết luận khi nghiên cứu một vấn đề cụ thể. Dân số bao gồm tất cả các đối tượng có thể nghiên cứu. Thành phần của dân số phụ thuộc vào mục tiêu của nghiên cứu. Đôi khi dân số nói chung là toàn bộ dân số của một khu vực nhất định (ví dụ: khi nghiên cứu thái độ của cử tri tiềm năng đối với một ứng cử viên), thông thường một số tiêu chí được chỉ định để xác định đối tượng của nghiên cứu. Ví dụ: phụ nữ từ 18-29 tuổi sử dụng một số nhãn hiệu kem dưỡng da tay ít nhất một lần một tuần và có thu nhập ít nhất 150 USD cho mỗi thành viên trong gia đình.

Vật mẫu- một tập hợp các trường hợp (đối tượng, đối tượng, sự kiện, mẫu), sử dụng một quy trình nhất định, được chọn từ dân số nói chung để tham gia nghiên cứu.

  1. Cỡ mẫu;
  2. Mẫu phụ thuộc và độc lập;
  3. Tính đại diện:
    1. Ví dụ về mẫu không mang tính đại diện;
  4. Các loại phương án xây dựng nhóm từ mẫu;
  5. Chiến lược xây dựng nhóm:
    1. Ngẫu nhiên hóa;
    2. Lựa chọn theo cặp;
    3. Lựa chọn địa tầng;
    4. Mô hình gần đúng.

Cỡ mẫu- số trường hợp có trong quần thể mẫu. Vì lý do thống kê, số trường hợp được khuyến nghị ít nhất là 30-35.

Mẫu phụ thuộc và độc lập

Khi so sánh hai (hoặc nhiều) mẫu, một tham số quan trọng là sự phụ thuộc của chúng. Nếu có thể thiết lập một cặp đồng hình (nghĩa là khi một trường hợp từ mẫu X tương ứng với một và chỉ một trường hợp từ mẫu Y và ngược lại) cho mỗi trường hợp trong hai mẫu (và cơ sở mối quan hệ này rất quan trọng đối với tính trạng được đo trong các mẫu), các mẫu như vậy được gọi là phụ thuộc. Ví dụ về các mẫu phụ thuộc: các cặp sinh đôi, hai phép đo đặc điểm trước và sau ảnh hưởng thực nghiệm, vợ và chồng, v.v.

Nếu không có mối quan hệ như vậy giữa các mẫu thì các mẫu này được coi là độc lập, ví dụ: nam và nữ, nhà tâm lý học và nhà toán học.

Theo đó, các mẫu phụ thuộc luôn có cùng kích thước, trong khi kích thước của các mẫu độc lập có thể khác nhau.

Việc so sánh các mẫu được thực hiện bằng các tiêu chí thống kê khác nhau:

  • Bài kiểm tra t của sinh viên;
  • Kiểm tra T Wilcoxon;
  • Bài kiểm tra Mann-Whitney U;
  • Tiêu chí dấu hiệu, v.v.

Tính đại diện

Mẫu có thể được coi là mang tính đại diện hoặc không mang tính đại diện.

Ví dụ về mẫu không mang tính đại diện

Ở Hoa Kỳ, một trong những ví dụ lịch sử nổi tiếng nhất về lấy mẫu phi đại diện được coi là trường hợp xảy ra trong cuộc bầu cử tổng thống năm 1936. Tạp chí Literary Digest, tạp chí đã dự đoán thành công các sự kiện của một số cuộc bầu cử trước đó, đã sai. trong dự đoán của mình bằng cách gửi mười triệu phiếu bầu kiểm tra tới những người đăng ký, những người được chọn từ danh bạ điện thoại trên toàn quốc và từ những người có tên trong danh sách đăng ký ô tô. Trong 25% số phiếu bầu được gửi lại (gần 2,5 triệu), số phiếu được phân bổ như sau:

Ứng cử viên Đảng Cộng hòa Alf Landon được 57% ưa thích

40% chọn Tổng thống Đảng Dân chủ lúc bấy giờ là Franklin Roosevelt

Trong cuộc bầu cử thực tế, như đã biết, Roosevelt đã giành chiến thắng, giành được hơn 60% số phiếu bầu. Sai lầm của Literary Digest là ở chỗ: muốn tăng tính đại diện của mẫu - vì họ biết rằng hầu hết những người đặt mua dài hạn đều coi mình là đảng viên Đảng Cộng hòa - nên họ đã mở rộng mẫu để bao gồm những người được chọn từ danh bạ điện thoại và danh sách đăng ký. Tuy nhiên, họ đã không tính đến thực tế của thời đại mình và trên thực tế còn tuyển dụng nhiều đảng viên Cộng hòa hơn: trong thời kỳ Đại suy thoái, chủ yếu là đại diện của tầng lớp trung lưu và thượng lưu có đủ khả năng sở hữu điện thoại và ô tô (tức là hầu hết những người theo Đảng Cộng hòa) , không phải đảng Dân chủ).

Các loại kế hoạch xây dựng nhóm từ mẫu

Có một số loại kế hoạch xây dựng nhóm chính:

  1. Một nghiên cứu với các nhóm thực nghiệm và đối chứng, được đặt trong các điều kiện khác nhau;
  2. Một nghiên cứu với các nhóm thử nghiệm và đối chứng sử dụng chiến lược lựa chọn theo cặp;
  3. Một nghiên cứu chỉ sử dụng một nhóm - thực nghiệm;
  4. Một nghiên cứu sử dụng thiết kế hỗn hợp (giai thừa) - tất cả các nhóm được đặt trong các điều kiện khác nhau.

Chiến lược xây dựng nhóm

Việc lựa chọn các nhóm tham gia vào một thí nghiệm tâm lý được thực hiện bằng nhiều chiến lược khác nhau, cần thiết để đảm bảo sự tôn trọng lớn nhất có thể đối với giá trị bên trong và bên ngoài:

  1. Ngẫu nhiên hóa (chọn ngẫu nhiên);
  2. Lựa chọn theo cặp;
  3. Lựa chọn địa tầng;
  4. Mô hình gần đúng;
  5. Thu hút các nhóm thực sự.

Ngẫu nhiên

Ngẫu nhiên hóa, hoặc lấy mẫu ngẫu nhiên, được sử dụng để tạo các mẫu ngẫu nhiên đơn giản. Việc sử dụng mẫu như vậy dựa trên giả định rằng mỗi thành viên của tổng thể đều có khả năng được đưa vào mẫu như nhau. Ví dụ: để tạo một mẫu ngẫu nhiên gồm 100 sinh viên đại học, bạn có thể đặt những mảnh giấy có tên của tất cả sinh viên đại học vào một chiếc mũ, sau đó lấy 100 mảnh giấy ra khỏi đó - đây sẽ là một lựa chọn ngẫu nhiên

Lựa chọn theo cặp

Lựa chọn theo cặp là một chiến lược xây dựng các nhóm lấy mẫu, trong đó các nhóm đối tượng được tạo thành từ các đối tượng tương đương nhau về các thông số phụ có ý nghĩa quan trọng đối với thử nghiệm. Chiến lược này có hiệu quả đối với các thử nghiệm sử dụng nhóm thử nghiệm và nhóm đối chứng, với lựa chọn tốt nhất là có sự tham gia của các cặp sinh đôi (đơn sắc và cặp đôi), vì nó cho phép bạn tạo ra.

Lấy mẫu địa tầng

Lựa chọn địa tầng - chọn ngẫu nhiên bằng cách phân bổ các tầng (hoặc cụm). Với phương pháp lấy mẫu này, dân số nói chung được chia thành các nhóm (tầng lớp) với những đặc điểm nhất định (giới tính, độ tuổi, sở thích chính trị, trình độ học vấn, mức thu nhập, v.v.) và các đối tượng có các đặc điểm tương ứng sẽ được chọn.

Mô hình gần đúng

Mô hình gần đúng - rút ra các mẫu giới hạn và đưa ra kết luận khái quát về mẫu này cho dân số rộng hơn. Ví dụ, với sự tham gia của sinh viên đại học năm thứ 2 vào nghiên cứu, dữ liệu của nghiên cứu này áp dụng cho “những người từ 17 đến 21 tuổi”. Khả năng chấp nhận những khái quát hóa như vậy là vô cùng hạn chế.

Vì vậy, các mô hình mà biến ngẫu nhiên đang nghiên cứu là đối tượng được xác định hoàn toàn về mặt vật lý bởi tập hợp các điều kiện thực tế để quan sát (hoặc thí nghiệm) và được xác định về mặt toán học bởi không gian xác suất tương ứng hoặc, giống nhau, bởi không gian xác suất tương ứng. luật phân bố xác suất. Tuy nhiên, khi tiến hành nghiên cứu thống kê, một thuật ngữ khác liên quan đến khái niệm dân số nói chung lại có phần thuận tiện hơn.

Dân số chung là tổng thể của tất cả các quan sát có thể tưởng tượng được (hoặc tất cả các đối tượng có thể có về mặt tinh thần thuộc loại mà chúng ta quan tâm, từ đó các quan sát được “lấy ra”) có thể được thực hiện trong một tập hợp các điều kiện thực tế nhất định. Vì định nghĩa đề cập đến tất cả các quan sát (hoặc đối tượng) có thể có về mặt tinh thần nên khái niệm về tổng thể nói chung là một khái niệm trừu tượng, toán học thông thường và không nên nhầm lẫn với các quần thể thực được nghiên cứu thống kê. Do đó, sau khi kiểm tra tất cả các doanh nghiệp thuộc tiểu ngành từ quan điểm ghi lại các giá trị của các chỉ số kinh tế và kỹ thuật đặc trưng cho chúng, chúng ta chỉ có thể coi dân số được khảo sát là đại diện cho một nhóm doanh nghiệp rộng hơn theo giả thuyết có thể có có thể hoạt động trong cùng một tập hợp các điều kiện thực tế

Trong công việc thực tế, sẽ thuận tiện hơn khi liên kết sự lựa chọn với các đối tượng quan sát hơn là với đặc điểm của các đối tượng này. Chúng ta chọn máy móc, mẫu địa chất, con người để nghiên cứu chứ không chọn các giá trị về đặc tính của máy móc, mẫu vật, con người. Mặt khác, trong lý thuyết toán học, các đối tượng và tập hợp các đặc tính của chúng không khác nhau và tính hai mặt của định nghĩa được đưa ra sẽ biến mất.

Như chúng ta thấy, khái niệm toán học về “dân số nói chung” được xác định hoàn toàn về mặt vật lý, cũng như các khái niệm về “không gian xác suất”, “biến ngẫu nhiên” và “luật phân bố xác suất” bởi tập hợp các điều kiện thực tương ứng, và do đó tất cả bốn khái niệm toán học này có thể được coi là những từ đồng nghĩa có ý nghĩa nhất định. Một quần thể được gọi là hữu hạn hay vô hạn tùy thuộc vào việc tập hợp tất cả các quan sát có thể tưởng tượng được là hữu hạn hay vô hạn.

Từ định nghĩa, ta suy ra rằng các quần thể liên tục (bao gồm các quan sát về dấu hiệu có tính chất liên tục) luôn là vô hạn. Quần thể tổng quát rời rạc có thể là vô hạn hoặc hữu hạn. Ví dụ: nếu một lô N sản phẩm được phân tích để phân loại (xem ví dụ trong điều 4.1.3), khi mỗi sản phẩm có thể được gán cho một trong bốn loại thì biến ngẫu nhiên được nghiên cứu là số loại của sản phẩm được lấy ngẫu nhiên từ lô và tập hợp các giá trị có thể có của biến ngẫu nhiên bao gồm bốn điểm tương ứng (1, 2, 3 và 4), khi đó, rõ ràng, tổng thể sẽ hữu hạn (chỉ có N quan sát có thể tưởng tượng được).

Khái niệm quần thể vô hạn là một sự trừu tượng toán học, cũng như ý tưởng cho rằng phép đo một biến ngẫu nhiên có thể được lặp lại vô số lần. Một tập hợp tổng quát xấp xỉ vô hạn có thể được hiểu là trường hợp giới hạn của tập hợp hữu hạn, khi số lượng đối tượng được tạo ra bởi một tập hợp điều kiện thực nhất định tăng vô hạn. Vì vậy, nếu trong ví dụ vừa đưa ra, thay vì xem xét các lô sản phẩm, chúng ta xem xét việc sản xuất hàng loạt liên tục các sản phẩm giống nhau, thì chúng ta sẽ đi đến khái niệm về tổng thể vô hạn. Trong thực tế, sự sửa đổi như vậy tương đương với yêu cầu

Một mẫu từ một quần thể nhất định là kết quả của một chuỗi quan sát có giới hạn về một biến ngẫu nhiên. Một mẫu có thể được coi là một dạng tương tự theo kinh nghiệm của tổng thể nói chung, điều mà chúng ta thường xử lý nhất trong thực tế, vì việc khảo sát toàn bộ tổng thể nói chung có thể quá tốn công sức (trong trường hợp N lớn) hoặc về cơ bản là không thể thực hiện được. (trong trường hợp quần thể tổng quát vô hạn).

Số lượng quan sát tạo thành một mẫu được gọi là cỡ mẫu.

Nếu kích thước mẫu lớn và chúng ta đang xử lý giá trị liên tục một chiều (hoặc với giá trị rời rạc một chiều, số lượng giá trị có thể có của nó khá lớn, chẳng hạn như hơn 10), thì thường là thuận tiện hơn, từ quan điểm đơn giản hóa việc xử lý thống kê hơn nữa các kết quả quan sát, để chuyển sang cái gọi là dữ liệu mẫu "được nhóm". Quá trình chuyển đổi này thường được thực hiện như sau:

a) ghi lại giá trị nhỏ nhất và lớn nhất trong mẫu;

b) toàn bộ phạm vi khảo sát được chia thành một số lượng nhất định gồm 5 khoảng nhóm bằng nhau; trong trường hợp này, số khoảng s không được nhỏ hơn 8-10 và nhiều hơn 20-25: việc lựa chọn số khoảng phụ thuộc đáng kể vào kích thước mẫu, để có hướng gần đúng trong lựa chọn 5, bạn có thể sử dụng; công thức gần đúng

nên được coi là ước tính thấp hơn cho s (đặc biệt đối với

c) các điểm cực trị của mỗi khoảng được đánh dấu theo thứ tự tăng dần, cũng như điểm giữa của chúng

d) số lượng dữ liệu mẫu rơi vào từng khoảng được tính: (rõ ràng); Dữ liệu mẫu nằm trên ranh giới của các khoảng sẽ được phân bổ đều trên hai khoảng liền kề hoặc chúng được đồng ý chỉ gán cho một trong số chúng, chẳng hạn như khoảng bên trái.

Tùy thuộc vào nội dung cụ thể của vấn đề, một số sửa đổi có thể được thực hiện đối với sơ đồ phân nhóm này (ví dụ, trong một số trường hợp, nên bỏ yêu cầu về độ dài khoảng thời gian phân nhóm bằng nhau).

Trong tất cả các lập luận tiếp theo sử dụng dữ liệu mẫu, chúng ta sẽ tiến hành từ ký hiệu vừa được mô tả.

Chúng ta hãy nhớ lại rằng bản chất của các phương pháp thống kê là sử dụng một bộ phận nhất định của tổng thể (tức là một mẫu) để đưa ra đánh giá về các đặc tính của nó nói chung.

Một trong những vấn đề quan trọng nhất, giải pháp thành công quyết định độ tin cậy của kết luận thu được từ quá trình xử lý dữ liệu thống kê, là vấn đề về tính đại diện của mẫu, tức là. câu hỏi về tính đầy đủ và đầy đủ của việc thể hiện các đặc tính của tổng thể được phân tích mà chúng tôi quan tâm. Trong công việc thực tế, cùng một nhóm đối tượng được lấy để nghiên cứu có thể được coi là mẫu từ các quần thể chung khác nhau. Do đó, một nhóm gia đình được chọn ngẫu nhiên từ các hợp tác xã của một trong các văn phòng bảo trì nhà ở (ZhEK) của một trong các quận trong thành phố để điều tra xã hội học chi tiết có thể được coi là một mẫu từ tổng thể các gia đình (có hợp tác xã). dạng nhà ở) của ZhEK này, và là mẫu từ các gia đình dân cư nói chung của một khu vực nhất định, và là mẫu từ dân số chung của tất cả các gia đình trong thành phố, và cuối cùng, là mẫu từ dân số chung của tất cả các gia đình trong thành phố. các gia đình ở thành phố sống trong nhà hợp tác xã. Việc giải thích có ý nghĩa các kết quả thử nghiệm phụ thuộc đáng kể vào nhóm dân số chung mà chúng tôi đang xem xét nhóm gia đình được chọn làm đại diện cho nhóm dân số chung nào mà mẫu này có thể được coi là đại diện. Câu trả lời cho câu hỏi này phụ thuộc vào nhiều yếu tố. Cụ thể, trong ví dụ trên, nó phụ thuộc vào sự hiện diện hay vắng mặt của một yếu tố đặc biệt (có lẽ bị ẩn) quyết định sự thuộc về của gia đình trong một văn phòng nhà ở nhất định hoặc toàn bộ khu vực (ví dụ, yếu tố đó có thể là thu nhập bình quân đầu người của gia đình, vị trí địa lý của quận trong thành phố, “tuổi” của khu vực, v.v.).