5 dân số và mẫu. Quần thể chung và mẫu

Một tập hợp các đối tượng đồng nhất thường được nghiên cứu trong mối quan hệ với một số đặc điểm đặc trưng cho chúng, được đo lường về mặt định lượng hoặc định tính.

Ví dụ: nếu có một lô bộ phận, thì đặc tính định lượng có thể là kích thước của bộ phận theo GOST và đặc tính định tính có thể là tiêu chuẩn của bộ phận đó.

Nếu cần kiểm tra xem chúng có tuân thủ các tiêu chuẩn hay không, đôi khi họ phải sử dụng đến một cuộc kiểm tra toàn diện, nhưng trên thực tế, việc này cực kỳ hiếm khi được sử dụng. Ví dụ, nếu dân số nói chung chứa một số lượng lớn đối tượng nghiên cứu thì gần như không thể tiến hành một cuộc khảo sát liên tục. Trong trường hợp này, một số đối tượng (phần tử) nhất định được chọn từ toàn bộ quần thể và được kiểm tra. Như vậy, có một dân số chung và một dân số mẫu.

Tổng quát là tổng thể tất cả các đối tượng thuộc đối tượng thanh tra, nghiên cứu. Theo quy luật, tổng thể chung chứa một số lượng hữu hạn các phần tử, nhưng nếu nó quá lớn, thì để đơn giản hóa các phép tính toán học, người ta giả định rằng toàn bộ tổng thể bao gồm vô số đối tượng.

Mẫu hoặc khung lấy mẫu là một phần của các phần tử được chọn từ toàn bộ tổng thể. Mẫu có thể được lặp lại hoặc không lặp lại. Trong trường hợp đầu tiên, nó được trả lại cho dân chúng nói chung, trong trường hợp thứ hai - thì không. Trong thực tế, lựa chọn ngẫu nhiên không lặp lại thường được sử dụng nhiều hơn.

Tổng thể và mẫu phải có mối liên hệ với nhau bởi tính đại diện. Nói cách khác, để xác định một cách tự tin các đặc điểm của toàn bộ tổng thể dựa trên các đặc điểm của tổng thể mẫu thì điều cần thiết là các phần tử mẫu phải thể hiện chúng một cách chính xác nhất có thể. Nói cách khác, mẫu phải mang tính đại diện (đại diện).

Một mẫu sẽ ít nhiều mang tính đại diện nếu nó được lấy ngẫu nhiên từ một số lượng rất lớn của toàn bộ dân số. Điều này có thể được phát biểu trên cơ sở cái gọi là luật số lớn. Trong trường hợp này, tất cả các phần tử đều có xác suất được đưa vào mẫu như nhau.

Có nhiều lựa chọn lựa chọn khác nhau. Tất cả các phương pháp này về cơ bản có thể được chia thành hai tùy chọn:

  • Tùy chọn 1. Các phần tử được chọn khi tổng thể không được chia thành các phần. Tùy chọn này bao gồm các lựa chọn lặp lại ngẫu nhiên đơn giản và không lặp lại.
  • Phương án 2. Tổng thể được chia thành các phần và các phần tử được chọn. Chúng bao gồm lấy mẫu điển hình, cơ học và nối tiếp.

Ngẫu nhiên đơn giản - lựa chọn trong đó các phần tử được chọn ngẫu nhiên lần lượt từ toàn bộ quần thể.

Điển hình là sự lựa chọn trong đó các phần tử được chọn không phải từ toàn bộ tổng thể mà từ tất cả các phần “điển hình” của nó.

Lựa chọn cơ học là khi toàn bộ dân số được chia thành một số nhóm bằng số lượng phần tử cần có trong mẫu và theo đó, một phần tử được chọn từ mỗi nhóm. Ví dụ: nếu bạn cần chọn 25% số bộ phận do máy sản xuất thì mỗi bộ phận thứ tư sẽ được chọn và nếu bạn cần chọn 4% số bộ phận thì mỗi bộ phận thứ 25 sẽ được chọn, v.v. Phải nói rằng đôi khi việc lựa chọn máy móc có thể không cung cấp đủ

Nối tiếp là sự lựa chọn trong đó các phần tử được chọn từ toàn bộ tập hợp trong “chuỗi”, được nghiên cứu liên tục chứ không phải từng phần tử một. Ví dụ, khi các bộ phận được sản xuất bởi một số lượng lớn máy tự động, một cuộc khảo sát toàn diện chỉ được thực hiện đối với các sản phẩm của một số máy. Chọn lọc nối tiếp được sử dụng nếu tính trạng đang nghiên cứu có sự biến đổi không đáng kể ở các loạt khác nhau.

Để giảm sai số, ước tính của tổng thể nói chung được sử dụng bằng cách sử dụng mẫu. Hơn nữa, kiểm soát lấy mẫu có thể là một giai đoạn hoặc nhiều giai đoạn, điều này làm tăng độ tin cậy của cuộc khảo sát.

Dân số - tập hợp những người mà nhà xã hội học tìm cách thu thập thông tin trong nghiên cứu của mình. Tùy thuộc vào mức độ rộng của chủ đề nghiên cứu, dân số sẽ rộng như nhau.

Dân số mẫu – mô hình dân số giảm; những người mà nhà xã hội học phân phát bảng câu hỏi, những người được gọi là người trả lời, những người cuối cùng là đối tượng của nghiên cứu xã hội học.

Chính xác ai được đưa vào dân số chung được xác định bởi các mục tiêu của nghiên cứu và ai được đưa vào dân số mẫu được quyết định bằng phương pháp toán học. Nếu một nhà xã hội học có ý định nhìn cuộc chiến Afghanistan qua con mắt của những người tham gia, thì dân số nói chung sẽ bao gồm tất cả binh lính Afghanistan, nhưng anh ta sẽ phải phỏng vấn một bộ phận nhỏ - dân số mẫu. Để mẫu phản ánh chính xác dân số nói chung, nhà xã hội học tuân thủ quy tắc: bất kỳ người lính Afghanistan nào, bất kể nơi cư trú, nơi làm việc, tình trạng sức khỏe và các hoàn cảnh khác, đều phải có cùng xác suất được đưa vào mẫu dân số.

Một khi nhà xã hội học đã quyết định được người mà anh ta muốn phỏng vấn, anh ta sẽ xác định khung lấy mẫu. Sau đó, câu hỏi về loại mẫu được quyết định.

Các mẫu được chia thành ba lớp lớn:

MỘT) chất rắn(điều tra dân số, trưng cầu dân ý). Tất cả các đơn vị từ dân số đều được khảo sát;

b) ngẫu nhiên;

V) không ngẫu nhiên.

Lần lượt, các kiểu lấy mẫu ngẫu nhiên và không ngẫu nhiên được chia thành nhiều loại.

Những cái ngẫu nhiên bao gồm:

1) xác suất;

2) có tính hệ thống;

3) khoanh vùng (phân tầng);

4) làm tổ

Những cái không ngẫu nhiên bao gồm:

1) "tự phát";

2) hạn ngạch;

3) phương pháp "mảng chính".

Danh sách đầy đủ và chính xác các đơn vị trong mẫu quần thể khung lấy mẫu . Các phần tử dùng để lựa chọn được gọi là đơn vị lựa chọn . Đơn vị lấy mẫu có thể giống với đơn vị quan sát vì đơn vị quan sát được coi là một phần của dân số nói chung mà từ đó thông tin được thu thập trực tiếp. Thông thường đơn vị quan sát là cá nhân. Lựa chọn từ danh sách được thực hiện tốt nhất bằng cách đánh số đơn vị và sử dụng bảng số ngẫu nhiên, mặc dù phương pháp gần như ngẫu nhiên thường được sử dụng khi mọi phần tử thứ n được lấy từ một danh sách đơn giản.

Nếu khung lấy mẫu bao gồm một danh sách các đơn vị lấy mẫu thì cấu trúc lấy mẫu bao hàm việc nhóm chúng theo một số đặc điểm quan trọng, ví dụ như sự phân bổ các cá nhân theo nghề nghiệp, trình độ chuyên môn, giới tính hoặc độ tuổi. Ví dụ, nếu trong dân số nói chung có 30% thanh niên, 50% người trung niên và 20% người già, thì tỷ lệ phần trăm giống nhau của ba độ tuổi phải được áp dụng trong dân số mẫu. Độ tuổi có thể được bổ sung theo tầng lớp, giới tính, quốc tịch, v.v. Đối với mỗi loại, tỷ lệ phần trăm được thiết lập trong quần thể chung và quần thể mẫu. Như vậy, khung lấy mẫu - tỷ lệ phần trăm các đặc điểm của đối tượng, trên cơ sở đó tổng thể mẫu được biên soạn.

Nếu loại mẫu cho chúng ta biết mọi người tham gia vào quần thể mẫu như thế nào thì cỡ mẫu cho chúng ta biết có bao nhiêu người trong số họ đến đó.

Cỡ mẫu – số đơn vị trong quần thể mẫu. Vì quần thể mẫu là một phần của tổng thể được chọn bằng các phương pháp đặc biệt nên khối lượng của nó luôn nhỏ hơn khối lượng của tổng thể chung. Vì vậy, điều quan trọng là bộ phận không làm sai lệch ý tưởng của tổng thể, tức là nó đại diện cho tổng thể.

Độ tin cậy của dữ liệu bị ảnh hưởng không phải bởi các đặc điểm định lượng của dân số mẫu (khối lượng của nó), mà bởi các đặc điểm định tính của dân số nói chung - mức độ đồng nhất của nó. Sự khác biệt giữa tổng thể chung và tổng thể mẫu được gọi là lỗi đại diện , sai lệch cho phép – 5%.

Dưới đây là một số cách để tránh lỗi:

    mỗi đơn vị trong tổng thể phải có xác suất được đưa vào mẫu như nhau;

    nên chọn từ các quần thể đồng nhất;

    bạn cần biết đặc điểm của dân số;

    Khi biên soạn một quần thể mẫu, phải tính đến các lỗi ngẫu nhiên và hệ thống.

Nếu dân số mẫu (mẫu) được lập chính xác thì nhà xã hội học sẽ thu được kết quả đáng tin cậy đặc trưng cho toàn bộ dân số.

Chính là gì phương pháp lấy mẫu?

Phương pháp lấy mẫu cơ học, khi số lượng người trả lời cần thiết được chọn từ danh sách chung của dân số nói chung theo các khoảng thời gian đều đặn (ví dụ: cứ sau 10 ngày).

Phương pháp lấy mẫu nối tiếp. Trong trường hợp này, dân số nói chung được chia thành các phần đồng nhất và các đơn vị phân tích được chọn theo tỷ lệ từ mỗi phần (ví dụ: 20% nam và nữ trong doanh nghiệp).

Phương pháp lấy mẫu cụm. Đơn vị lựa chọn không phải là những người trả lời riêng lẻ mà là những nhóm có hoạt động nghiên cứu liên tục sau đó. Mẫu này sẽ mang tính đại diện nếu thành phần của các nhóm tương tự nhau (ví dụ: một nhóm sinh viên từ mỗi luồng của một khoa đại học).

Phương pháp mảng chính– khảo sát 60–70% dân số nói chung.

Phương pháp lấy mẫu hạn ngạch. Phương pháp phức tạp nhất, đòi hỏi phải xác định ít nhất bốn đặc điểm để chọn người trả lời. Thường được sử dụng với số lượng lớn.

Khái niệm về tính đại diện. Đối tượng khái niệm và dân số. Đối tượng được thiết kế Dân số dự kiến ​​và dân số thực tế

Chúng ta biết rằng khoa học xã hội học không xử lý tính chất trôi chảy tức thời của cuộc sống mà xử lý dữ liệu được tổ chức theo những quy luật nhất định trong không gian của các đặc điểm. Theo dữ liệu, chúng tôi muốn nói đến giá trị của các biến được gán cho đơn vị nghiên cứu - đối tượng. Những đối tượng này - cộng đồng, tổ chức, con người, văn bản, sự vật - tạo thành những cấu hình đa dạng và thường kỳ lạ trong không gian thuộc tính, mang lại cho nhà nghiên cứu cơ hội đưa ra những đánh giá khái quát về thực tế.

Ngay khi chúng ta nói về thực tế, hóa ra dữ liệu thu được, nói đúng ra, chỉ liên quan đến các tài liệu đăng ký (bảng câu hỏi, biểu mẫu phỏng vấn, quy trình quan sát, v.v.). Không có gì đảm bảo rằng thực tế bên ngoài cửa sổ phòng thí nghiệm (chẳng hạn như ở phía bên kia của chiếc cân) sẽ không khác. Chúng tôi vẫn chưa đạt được quy trình lấy mẫu, nhưng câu hỏi về tính đại diện của dữ liệu đã được đặt ra: liệu có thể mở rộng thông tin thu được trong quá trình khảo sát đến các đối tượng nằm ngoài trải nghiệm cụ thể của chúng tôi không? Câu trả lời rất rõ ràng: bạn có thể. Nếu không, những quan sát của chúng ta sẽ không vượt ra ngoài tổng thể ở đây-bây-giờ. Chúng sẽ không áp dụng cho những người Muscovite mà áp dụng cho những người vừa được phỏng vấn qua điện thoại ở Moscow; không dành cho độc giả của tờ báo Nedelya, mà dành cho những người đã gửi phiếu giảm giá đã xé hoàn chỉnh cho biên tập viên qua đường bưu điện. Sau khi hoàn thành cuộc khảo sát, chúng tôi buộc phải giả định rằng cả “Người Muscovite” và “độc giả” vẫn như cũ. Chúng ta tin vào sự ổn định của thế giới vì những quan sát khoa học cho thấy sự bất biến đáng kinh ngạc.

Bất kỳ quan sát đơn lẻ nào cũng mở rộng đến một lĩnh vực quan sát rộng hơn và vấn đề biểu diễn là thiết lập mức độ tương ứng giữa các tham số của tổng thể được khảo sát và các đặc điểm “thực” của đối tượng. Quy trình lấy mẫu nhằm mục đích tái tạo lại đối tượng nghiên cứu thực sự và tổng thể chung từ các quan sát nhất thời riêng lẻ.

Khái niệm về tính đại diện của mẫu gần với khái niệm về giá trị bên ngoài; chỉ trong trường hợp đầu tiên mới có phép ngoại suy có cùng đặc điểm thành một tập hợp đơn vị rộng hơn và trong trường hợp thứ hai - có sự chuyển đổi từ bối cảnh ngữ nghĩa này sang bối cảnh ngữ nghĩa khác. Quy trình lấy mẫu được mỗi người thực hiện hàng nghìn lần mỗi ngày và không ai thực sự nghĩ đến tính đại diện của các quan sát. Kinh nghiệm thay thế tính toán. Để biết cháo có được mặn kỹ hay không, không nhất thiết phải ăn cả chảo - ở đây phương pháp kiểm tra không phá hủy sẽ hiệu quả hơn, bao gồm cả kiểm tra từng chỗ: bạn cần thử một thìa. Đồng thời, bạn cần đảm bảo cháo được trộn đều. Nếu cháo được trộn kém, thì không nên thực hiện một phép đo mà là một loạt phép đo, tức là thử ở những vị trí khác nhau trong chảo - đây đã là một mẫu. Khó khăn hơn là đảm bảo rằng câu trả lời của học sinh trong bài thi thể hiện kiến ​​thức của mình và không phải là thành công hay thất bại ngẫu nhiên. Để làm điều này, một số câu hỏi được đặt ra. Người ta giả định rằng nếu một học sinh trả lời tất cả các câu hỏi có thể có về một chủ đề thì kết quả sẽ là “đúng”, tức là phản ánh kiến ​​thức thực tế. Nhưng sau đó không ai có thể vượt qua kỳ thi.



Cơ sở của quy trình lấy mẫu luôn là “nếu” - giả định rằng phép ngoại suy của các quan sát sẽ không làm thay đổi đáng kể kết quả thu được. Do đó, dân số có thể được định nghĩa là “khả năng khách quan” của dân số mẫu.

Vấn đề trở nên phức tạp hơn một chút nếu chúng ta hiểu đối tượng nghiên cứu có ý nghĩa gì. Sau khi nghiên cứu một lượng người dân khá lớn, nhà xã hội học đi đến kết luận rằng biến “chủ nghĩa cấp tiến-bảo thủ” có mối tương quan thuận với tuổi tác: đặc biệt, các thế hệ lớn tuổi bảo thủ hơn là cách mạng. Nhưng đối tượng được khảo sát - quần thể mẫu - không tồn tại trên thực tế như vậy. Nó được xây dựng theo quy trình lựa chọn người trả lời và tiến hành phỏng vấn, rồi ngay lập tức biến mất, tan vào mảng. Thật vậy, quần thể mẫu mà dữ liệu được “loại bỏ” trực tiếp được tạo ra bởi quy trình, nhưng đồng thời nó được hòa tan trong một quần thể lớn hơn, mà nó thể hiện hoặc đại diện với các mức độ chính xác và độ tin cậy khác nhau. Các kết luận xã hội học không áp dụng cho những người trả lời được khảo sát vào tuần trước mà áp dụng cho những đối tượng được lý tưởng hóa: “thế hệ cũ”, “thanh niên”, những người thể hiện “chủ nghĩa cấp tiến” hoặc “chủ nghĩa bảo thủ”. Chúng ta đang nói về những khái quát mang tính phân loại không bị giới hạn bởi hoàn cảnh không gian và thời gian. Về vấn đề này, quy trình chọn lọc giúp giải phóng bản thân khỏi những quan sát và bước vào thế giới ý tưởng.

Vì vậy, chúng ta có cơ hội phân biệt giữa đối tượng nghiên cứu và dân số nói chung: đối tượng không chỉ là một tập hợp các đơn vị, mà là một khái niệm để thực hiện việc xác định và lựa chọn các đơn vị nghiên cứu. Về vấn đề này, mệnh lệnh của Hegel chỉ coi những tồn tại tương ứng với khái niệm của nó là đúng là đúng. Về mặt lý thuyết, khối lượng của khái niệm biểu thị đối tượng nghiên cứu phải tương ứng với khối lượng dân số nói chung. Tuy nhiên, sự tương ứng như vậy đạt được cực kỳ hiếm.

Chúng ta sẽ cần một khái niệm đối tượng khái niệm - cấu trúc lý tưởng biểu thị khuôn khổ của chủ đề. “Người Nga”, “khán giả báo chí trung ương”, “cử tri”, “công chúng dân chủ” - đây là những đối tượng quan tâm nghiên cứu tiêu biểu của các nhà xã hội học. Không còn nghi ngờ gì nữa, một quần thể nói chung hoàn toàn có thật phải tương ứng với một đối tượng khái niệm. Để làm được điều này, cần phải cung cấp một đối tượng nghiên cứu khác - đối tượng được thiết kế.Đối tượng được thiết kế là một tập hợp các đơn vị có sẵn cho nhà nghiên cứu. Thách thức là xác định các nhóm không thể tiếp cận hoặc khó tiếp cận để thu thập dữ liệu.

Rõ ràng là gần như không thể kiểm tra một đối tượng được chỉ định là “người Nga”. Trong số những người Nga, nhiều người đang ở trong các nhà tù, trại lao động cải huấn, trung tâm giam giữ trước khi xét xử và những nơi khác mà người phỏng vấn khó tiếp cận. Nhóm này sẽ phải được “trừ” khỏi đối tượng được thiết kế. Nhiều bệnh nhân ở bệnh viện tâm thần, trẻ em và một số người già cũng sẽ phải “rút lui”. Một nhà xã hội học dân sự khó có thể tạo cơ hội bình thường cho các quân nhân được đưa vào mẫu. Những vấn đề tương tự cũng xảy ra với các cuộc khảo sát độc giả, cử tri, cư dân các thị trấn nhỏ và khách tham quan rạp hát.

Những khó khăn được liệt kê chỉ là một phần nhỏ trong số những trở ngại thường không thể vượt qua mà một nhà xã hội học phải đối mặt ở giai đoạn nghiên cứu thực địa. Chuyên gia phải lường trước những khó khăn này và không tạo ra ảo tưởng về việc thực hiện đầy đủ đối tượng được thiết kế. Nếu không, anh ấy sẽ thất vọng.

Vì vậy, đối tượng nghiên cứu không trùng với dân số nói chung cũng giống như bản đồ của một khu vực không trùng với chính khu vực đó.

Chúng tôi suy nghĩ băn khoăn rất lâu, Các tướng viết hết vào một tờ giấy lớn. Trên giấy mịn màng, nhưng họ quên mất những khe núi, Và đi dọc theo chúng -

Những lời này trong bài hát của một người lính già khá phù hợp với thiết kế mẫu, vì bạn sẽ phải đi bộ từ căn hộ này sang căn hộ khác.

Tất nhiên, dân số là dân số mà từ đó các đơn vị được lấy mẫu. Tuy nhiên, nó chỉ có vẻ như vậy. Mẫu được rút ra từ tổng thể mà từ đó việc lựa chọn người trả lời thực tế được thực hiện. Hãy gọi cho cô ấy thực tế. Sự khác biệt giữa dân số dự kiến ​​và dân số thực tế có thể được nhận thấy trực tiếp bằng cách so sánh danh sách những người trả lời “dự kiến” và những người thực sự được phỏng vấn.

Đối tượng thực sự là tổng thể được hình thành ở giai đoạn nghiên cứu thực địa, có tính đến những hạn chế về tính sẵn có của thông tin xã hội học cơ bản. Ngoài tù nhân, quân nhân và người bệnh, cư dân ở các làng xa đường giao thông vận tải ít có khả năng được đưa vào mẫu, đặc biệt nếu cuộc khảo sát được thực hiện vào mùa thu; những người, theo quy định, không ở nhà, không có xu hướng nói chuyện với người lạ, v.v. Chuyện xảy ra là những người phỏng vấn lợi dụng việc thiếu kiểm soát, lơ là thực hiện chính xác nhiệm vụ của mình và phỏng vấn không phải những người được cho là phỏng vấn theo hướng dẫn mà là những người dễ “có được” hơn. Ví dụ, người phỏng vấn được yêu cầu đến thăm căn hộ của người trả lời vào buổi tối, khi đó họ sẽ dễ dàng tìm thấy họ ở nhà hơn. Nếu nghiên cứu được thực hiện, chẳng hạn như vào tháng 11, thì lúc 5 giờ chiều ở miền trung nước Nga, đường phố hoàn toàn tối đen. Ở nhiều thành phố, biển báo ghi tên đường và số nhà thường không được tìm thấy. Nếu nhiệm vụ của người phỏng vấn được thực hiện bởi các sinh viên của một học viện sư phạm địa phương, người ta có thể tưởng tượng mức độ sai lệch của đối tượng thực so với đối tượng được thiết kế. Đôi khi các nhà nghiên cứu còn làm điều đó đơn giản hơn: họ tự điền vào bảng câu hỏi. Những khó khăn này là một trong những nguồn gốc của cái gọi là sai lệch lấy mẫu.

Có nhiều cách khá hiệu quả để kiểm soát việc hoàn thành bảng câu hỏi và phương pháp sửa mẫu, cụ thể là “cân” các nhóm người trả lời chính theo loại hình: nhóm thiếu tăng, nhóm thừa giảm. Bằng cách này, mảng thực được điều chỉnh theo mảng được thiết kế và điều này khá hợp lý.

Phân phối của một biến ngẫu nhiên chứa tất cả thông tin về các thuộc tính thống kê của nó. Bạn cần biết bao nhiêu giá trị của một biến ngẫu nhiên để xây dựng phân phối của nó? Để làm được điều này bạn cần phải khám phá nó dân số nói chung.

Dân số là tập hợp tất cả các giá trị mà một biến ngẫu nhiên nhất định có thể nhận.

Số đơn vị trong một quần thể được gọi là thể tích của nó N. Giá trị này có thể là hữu hạn hoặc vô hạn. Ví dụ, nếu nghiên cứu sự tăng trưởng của cư dân của một thành phố nhất định, thì quy mô dân số sẽ bằng số lượng cư dân của thành phố đó. Nếu bất kỳ thí nghiệm vật lý nào được thực hiện thì thể tích của tổng thể sẽ là vô hạn, bởi vì số lượng tất cả các giá trị có thể có của bất kỳ tham số vật lý nào đều bằng vô cùng.

Nghiên cứu dân số nói chung không phải lúc nào cũng có thể thực hiện được hoặc được khuyến khích. Điều đó là không thể nếu khối lượng dân số là vô hạn. Nhưng ngay cả với khối lượng hữu hạn, một nghiên cứu hoàn chỉnh không phải lúc nào cũng hợp lý, vì nó đòi hỏi nhiều thời gian và công sức và thường không yêu cầu độ chính xác tuyệt đối của kết quả. Kết quả kém chính xác hơn, nhưng tốn ít công sức và tiền bạc hơn đáng kể, có thể thu được bằng cách chỉ nghiên cứu một phần dân số nói chung. Những nghiên cứu như vậy được gọi là lấy mẫu.

Các nghiên cứu thống kê chỉ được thực hiện trên một phần dân số được gọi là lấy mẫu và phần dân số đang được nghiên cứu được gọi là mẫu.

Hình 7.2 biểu diễn một cách tượng trưng dân số và mẫu dưới dạng một tập hợp và tập hợp con của nó.

Hình 7.2 Dân số và mẫu

Làm việc với một tập hợp con nhất định của một tổng thể nhất định, thường chiếm một phần không đáng kể trong đó, chúng tôi thu được kết quả khá thỏa đáng về độ chính xác cho các mục đích thực tế. Nghiên cứu một phần lớn dân số chỉ làm tăng độ chính xác nhưng không làm thay đổi bản chất của kết quả nếu mẫu được lấy chính xác theo quan điểm thống kê.

Để mẫu phản ánh được các đặc tính của tổng thể và kết quả đáng tin cậy, nó phải tiêu biểu(tiêu biểu).

Đối với một số quần thể nói chung, bất kỳ phần nào của chúng đều mang tính đại diện do bản chất của chúng. Tuy nhiên, trong hầu hết các trường hợp, phải thực hiện các biện pháp đặc biệt để đảm bảo mẫu đại diện.

Một Một trong những thành tựu chính của thống kê toán học hiện đại là sự phát triển lý thuyết và thực tiễn của phương pháp lấy mẫu ngẫu nhiên, đảm bảo tính đại diện của việc lựa chọn dữ liệu.

Các nghiên cứu mẫu luôn kém chính xác hơn so với các nghiên cứu trên toàn bộ dân số. Tuy nhiên, điều này có thể được giải quyết nếu biết được mức độ sai sót. Rõ ràng, kích thước mẫu càng gần với kích thước tổng thể thì sai số sẽ càng nhỏ. Rõ ràng là các vấn đề về suy luận thống kê trở nên đặc biệt phù hợp khi làm việc với các mẫu nhỏ ( N ? 10-50).

Trong phần trước, chúng ta quan tâm đến việc phân phối một tính năng trong một tập hợp các phần tử nhất định. Một tập hợp hợp nhất tất cả các phần tử có đặc điểm này được gọi là tập hợp chung. Nếu đặc điểm là con người (quốc tịch, trình độ học vấn, IQ, v.v.) thì dân số nói chung là toàn bộ dân số trên trái đất. Đây là một bộ sưu tập rất lớn, nghĩa là số phần tử trong bộ sưu tập n rất lớn. Số lượng phần tử được gọi là thể tích của dân số. Bộ sưu tập có thể là hữu hạn hoặc vô hạn. Dân số nói chung - tất cả mọi người, mặc dù rất lớn, nhưng về mặt tự nhiên, là hữu hạn. Dân số nói chung là tất cả các ngôi sao, có lẽ là vô tận.

Nếu một nhà nghiên cứu đo một biến ngẫu nhiên liên tục X nào đó thì mỗi kết quả đo có thể được coi là một phần tử của một tổng thể giả định không giới hạn nào đó. Trong quần thể nói chung này, vô số kết quả được phân bổ theo xác suất dưới ảnh hưởng của sai số trong thiết bị, sự thiếu chú ý của người thí nghiệm, sự can thiệp ngẫu nhiên vào chính hiện tượng đó, v.v.

Nếu chúng ta thực hiện n phép đo lặp lại của một biến ngẫu nhiên X, nghĩa là chúng ta thu được n giá trị số cụ thể khác nhau, thì kết quả thực nghiệm này có thể được coi là một mẫu có khối lượng n từ một tổng thể giả định gồm các kết quả của các phép đo đơn lẻ.

Điều tự nhiên là giả định rằng giá trị thực của đại lượng đo được là giá trị trung bình số học của các kết quả. Hàm này của n kết quả đo được gọi là thống kê và bản thân nó là một biến ngẫu nhiên có một phân phối nhất định gọi là phân phối lấy mẫu. Xác định phân phối mẫu của một thống kê cụ thể là nhiệm vụ quan trọng nhất của phân tích thống kê. Rõ ràng là sự phân bố này phụ thuộc vào cỡ mẫu n và vào sự phân bố của biến ngẫu nhiên X của tổng thể giả định. Phân bố lấy mẫu của số liệu thống kê là phân bố của X q trong quần thể vô hạn của tất cả các mẫu có thể có cỡ n từ quần thể ban đầu.

Bạn cũng có thể đo một biến ngẫu nhiên rời rạc.

Giả sử phép đo của biến ngẫu nhiên X là một hình chóp tam giác đều, đồng nhất, trên các cạnh của nó viết các số 1, 2, 3, 4. Biến ngẫu nhiên X rời rạc có phân bố đều đơn giản:

Thí nghiệm có thể được thực hiện không giới hạn số lần. Một quần thể lý thuyết giả định là một quần thể vô hạn trong đó có các phần bằng nhau (0,25 mỗi phần) của bốn phần tử khác nhau, được ký hiệu là 1, 2, 3, 4. Một chuỗi n lần tung kim tự tháp lặp đi lặp lại hoặc các lần tung đồng thời n kim tự tháp giống hệt nhau có thể là được coi là một mẫu có tập n từ tổng thể này. Kết quả thí nghiệm ta có n số. Có thể giới thiệu một số hàm của các đại lượng này, được gọi là số liệu thống kê; chúng có thể được liên kết với các tham số nhất định của phân bố chung.

Đặc điểm số quan trọng nhất của phân bố là xác suất P i, kỳ vọng toán học M, phương sai D. Thống kê xác suất P i là tần số tương đối, trong đó n i là tần số của kết quả i (i = 1,2,3,4) trong mẫu . Kỳ vọng toán học M tương ứng với số liệu thống kê

được gọi là giá trị trung bình mẫu. Phương sai mẫu

tương ứng với phương sai tổng quát D.

Tần suất tương đối của bất kỳ sự kiện nào (i=1,2,3,4) trong một chuỗi n thử nghiệm lặp lại (hoặc trong các mẫu có kích thước n từ tổng thể) sẽ có phân bố nhị thức.

Phân phối này có kỳ vọng toán học bằng 0,25 (không phụ thuộc vào n) và độ lệch chuẩn bằng (giảm nhanh khi n tăng). Phân phối là một thống kê phân phối lấy mẫu, tần suất tương đối của bất kỳ kết quả nào trong số bốn kết quả có thể xảy ra khi tung một kim tự tháp trong n lần thử lặp lại. Nếu chúng ta chọn từ một quần thể tổng quát vô hạn, trong đó bốn phần tử khác nhau (i = 1,2,3,4) có tỷ lệ bằng nhau là 0,25, tất cả các mẫu có thể có kích thước n (số lượng của chúng cũng là vô hạn), chúng ta sẽ nhận được cái gọi là cỡ mẫu toán học n. Trong mẫu này, mỗi phần tử (i=1,2,3,4) được phân phối theo luật nhị thức.

Giả sử chúng ta đã ném kim tự tháp này và số hai xuất hiện 3 lần (). Chúng ta có thể tìm thấy xác suất của kết quả này bằng cách sử dụng phân phối mẫu. Nó bằng nhau

Kết quả của chúng tôi rất khó xảy ra; trong một chuỗi 24 lần ném nhiều lần, nó xảy ra khoảng một lần. Trong sinh học, một kết quả như vậy thường được coi là thực tế không thể xảy ra. Trong trường hợp này, chúng ta sẽ có những nghi ngờ: liệu kim tự tháp có đúng và đồng nhất hay không, liệu sự bình đẳng có hợp lệ trong một lần ném hay không, sự phân bố và do đó, sự phân bố lấy mẫu có đúng không.

Để giải quyết nghi ngờ, bạn cần ném nó bốn lần nữa. Nếu kết quả xuất hiện lại thì xác suất có 2 kết quả cùng là rất nhỏ. Rõ ràng là chúng ta đã thu được một kết quả gần như hoàn toàn không thể xảy ra. Vì vậy, phân phối ban đầu là không chính xác. Rõ ràng, nếu kết quả thứ hai thậm chí còn khó xảy ra hơn, thì càng có nhiều lý do hơn để giải quyết kim tự tháp “đúng” này. Nếu kết quả của thí nghiệm lặp lại là và thì chúng ta có thể giả định rằng kim tự tháp là đúng và kết quả đầu tiên () cũng đúng, nhưng đơn giản là không thể xảy ra.

Chúng tôi không thể bận tâm đến việc kiểm tra tính đúng đắn và đồng nhất của kim tự tháp, nhưng coi kim tự tháp một cách tiên nghiệm là chính xác và đồng nhất, và do đó, việc phân phối mẫu là chính xác. Tiếp theo, chúng ta nên tìm hiểu kiến ​​thức nào về phân phối mẫu cung cấp cho việc nghiên cứu dân số nói chung. Nhưng vì việc thiết lập phân bố lấy mẫu là mục tiêu chính của nghiên cứu thống kê nên việc mô tả chi tiết các thí nghiệm kim tự tháp có thể được coi là hợp lý.

Chúng tôi giả định rằng phân phối mẫu là chính xác. Khi đó, các giá trị thử nghiệm của tần số tương đối trong chuỗi n lần ném kim tự tháp khác nhau sẽ được nhóm xung quanh giá trị 0,25, là tâm của phân bố mẫu và giá trị chính xác của xác suất ước tính. Trong trường hợp này, tần số tương đối được coi là ước tính không chệch. Do độ phân tán mẫu có xu hướng bằng 0 khi n tăng, nên các giá trị thử nghiệm của tần số tương đối sẽ ngày càng được nhóm chặt chẽ hơn xung quanh kỳ vọng toán học về phân bố mẫu khi kích thước mẫu tăng lên. Vì vậy, nó là một ước tính nhất quán về xác suất.

Nếu kim tự tháp hóa ra có tính định hướng và không đồng nhất, thì phân bố mẫu cho các giá trị khác nhau (i = 1,2,3,4) sẽ có kỳ vọng toán học (khác nhau) và phương sai khác nhau.

Lưu ý rằng phân phối lấy mẫu nhị thức thu được ở đây đối với n () lớn gần đúng bằng phân phối chuẩn với các tham số và điều này giúp đơn giản hóa đáng kể việc tính toán.

Hãy tiếp tục thí nghiệm ngẫu nhiên - ném một kim tự tháp hình tam giác đều, đều. Biến ngẫu nhiên X liên quan đến thí nghiệm này có phân phối. Kỳ vọng toán học ở đây là

Chúng ta hãy thực hiện n phép ép mẫu, tương đương với một mẫu ngẫu nhiên có kích thước n từ một quần thể giả định, vô hạn, chứa các phần bằng nhau (0,25) của bốn phần tử khác nhau. Ta thu được n giá trị mẫu của biến ngẫu nhiên X(). Hãy chọn một thống kê đại diện cho giá trị trung bình của mẫu. Bản thân giá trị là một biến ngẫu nhiên có phân phối tùy thuộc vào cỡ mẫu và phân phối của biến ngẫu nhiên ban đầu X. Giá trị là tổng trung bình của n biến ngẫu nhiên giống hệt nhau (nghĩa là có cùng phân phối). Rõ ràng là vậy

Do đó, số liệu thống kê là ước tính không thiên vị về kỳ vọng toán học. Đó cũng là một ước tính hợp lý vì

Do đó, phân phối lấy mẫu lý thuyết có cùng kỳ vọng toán học như phân phối ban đầu; phương sai giảm đi n lần.

Hãy nhớ rằng nó bằng

Một mẫu vô hạn trừu tượng, toán học được liên kết với một mẫu có kích thước n từ tổng thể chung và với số liệu thống kê đã nhập sẽ chứa, trong trường hợp của chúng ta, các phần tử. Ví dụ: nếu, thì mẫu toán học sẽ chứa các phần tử có giá trị thống kê. Tổng cộng sẽ có 13 phần tử. Tỷ lệ các phần tử cực trị trong mẫu toán học sẽ ở mức tối thiểu vì các kết quả có xác suất bằng nhau. Trong số nhiều kết quả cơ bản của việc ném kim tự tháp bốn lần, mỗi lần chỉ có một kết quả thuận lợi. Khi số liệu thống kê tiếp cận giá trị trung bình, xác suất sẽ tăng lên. Ví dụ, giá trị sẽ được hiện thực hóa bằng các kết quả cơ bản, v.v. Theo đó, tỷ trọng của phần tử 1.5 trong mẫu toán học sẽ tăng lên.

Giá trị trung bình sẽ có xác suất tối đa. Khi n tăng, các kết quả thử nghiệm sẽ tập trung chặt chẽ hơn quanh giá trị trung bình. Thực tế là giá trị trung bình mẫu bằng với giá trị trung bình tổng thể ban đầu thường được sử dụng trong thống kê.

Nếu bạn thực hiện các phép tính xác suất trong phân bố mẫu c, bạn có thể chắc chắn rằng ngay cả với giá trị n nhỏ như vậy, phân bố mẫu sẽ trông giống như bình thường. Nó sẽ đối xứng, trong đó giá trị sẽ là trung vị, mode và kỳ vọng toán học. Khi n tăng lên, nó gần đúng bằng phân bố chuẩn tương ứng, ngay cả khi phân bố ban đầu là hình chữ nhật. Nếu phân phối ban đầu là phân phối chuẩn thì phân phối đó là phân phối Sinh viên cho bất kỳ n nào.

Để ước tính phương sai chung, cần phải chọn một thống kê phức tạp hơn để đưa ra ước tính khách quan và nhất quán. Trong phân phối lấy mẫu cho S 2 kỳ vọng toán học bằng và phương sai. Với cỡ mẫu lớn, phân phối mẫu có thể được coi là chuẩn. Đối với n nhỏ và phân phối ban đầu chuẩn, phân phối mẫu cho S 2 sẽ là phân phối h 2.

Ở trên, chúng tôi đã cố gắng trình bày những bước đầu tiên của một nhà nghiên cứu đang cố gắng thực hiện một phân tích thống kê đơn giản về các thí nghiệm lặp đi lặp lại với một lăng kính tam giác đều đều (tứ diện). Trong trường hợp này, chúng tôi biết phân phối ban đầu. Về nguyên tắc, về mặt lý thuyết, có thể thu được sự phân bố mẫu của tần số tương đối, giá trị trung bình mẫu và phương sai mẫu tùy thuộc vào số lượng thí nghiệm lặp lại n. Đối với n lớn, tất cả các phân phối mẫu này sẽ tiến gần đến phân phối chuẩn tương ứng, vì chúng biểu thị quy luật phân phối tổng của các biến ngẫu nhiên độc lập (định lý giới hạn trung tâm). Vì vậy, chúng tôi biết kết quả mong đợi.

Các thí nghiệm hoặc mẫu lặp đi lặp lại sẽ cung cấp ước tính về các tham số của phân bố mẫu. Chúng tôi lập luận rằng các ước tính thử nghiệm sẽ chính xác. Chúng tôi đã không thực hiện những thí nghiệm này và thậm chí không trình bày kết quả thí nghiệm mà các nhà nghiên cứu khác thu được. Có thể nhấn mạnh rằng khi xác định quy luật phân bố, phương pháp lý thuyết được sử dụng thường xuyên hơn so với thực nghiệm trực tiếp.