Dân số thống kê là tổng quát và mẫu. Dân số và mẫu

Phân bổ biến ngẫu nhiên chứa tất cả thông tin về các thuộc tính thống kê của nó. Bạn cần biết bao nhiêu giá trị của một biến ngẫu nhiên để xây dựng phân phối của nó? Để làm được điều này bạn cần phải khám phá nó dân số nói chung.

Dân số là tập hợp tất cả các giá trị mà một biến ngẫu nhiên nhất định có thể nhận.

Số lượng đơn vị trong dân sốđược gọi là khối lượng của nó N. Giá trị này có thể là hữu hạn hoặc vô hạn. Ví dụ: nếu nghiên cứu sự tăng trưởng của cư dân của một thành phố nhất định thì quy mô dân số sẽ là bằng số cư dân thành phố. Nếu có thí nghiệm vật lý, thì khối lượng dân số nói chung sẽ là vô hạn, bởi vì số lượng tất cả giá trị có thể bất kì thông số vật lý bằng vô cùng.

Nghiên cứu dân số nói chung không phải lúc nào cũng có thể thực hiện được hoặc được khuyến khích. Điều đó là không thể nếu khối lượng dân số là vô hạn. Nhưng ngay cả đối với khối lượng hữu hạn nghiên cứu đầy đủ không phải lúc nào cũng hợp lý vì nó đòi hỏi chi phí cao thời gian và lao động, và độ chính xác tuyệt đối kết quả thường không được yêu cầu. Kết quả kém chính xác hơn, nhưng tốn ít công sức và tiền bạc hơn đáng kể, có thể thu được bằng cách chỉ nghiên cứu một phần dân số nói chung. Những nghiên cứu như vậy được gọi là lấy mẫu.

Các nghiên cứu thống kê chỉ được thực hiện trên một phần dân số được gọi là lấy mẫu và phần dân số đang được nghiên cứu được gọi là mẫu.

Hình 7.2 biểu diễn một cách tượng trưng dân số và mẫu dưới dạng một tập hợp và tập hợp con của nó.

Hình 7.2 Dân số và mẫu

Làm việc với một tập hợp con nhất định của một tổng thể nhất định, thường chiếm một phần không đáng kể trong đó, chúng tôi thu được kết quả khá thỏa đáng về độ chính xác cho các mục đích thực tế. Nghiên cứu phần lớn dân số chỉ làm tăng độ chính xác nhưng không làm thay đổi bản chất của kết quả nếu mẫu được lấy chính xác theo quan điểm thống kê.

Để mẫu phản ánh được các đặc tính của tổng thể và kết quả đáng tin cậy, nó phải tiêu biểu(tiêu biểu).

Đối với một số quần thể nói chung, bất kỳ phần nào của chúng đều mang tính đại diện do bản chất của chúng. Tuy nhiên, trong hầu hết các trường hợp, phải thực hiện các biện pháp đặc biệt để đảm bảo mẫu đại diện.

Một một trong những thành tựu chính của hiện đại thống kê toán họcđược coi là sự phát triển lý thuyết và thực tiễn của phương pháp lấy mẫu ngẫu nhiên, đảm bảo tính đại diện của việc lựa chọn dữ liệu.

Các nghiên cứu mẫu luôn kém chính xác hơn so với các nghiên cứu trên toàn bộ dân số. Tuy nhiên, điều này có thể được giải quyết nếu biết được mức độ sai sót. Rõ ràng, kích thước mẫu càng gần với kích thước tổng thể thì sai số sẽ càng nhỏ. Rõ ràng là các vấn đề về suy luận thống kê trở nên đặc biệt phù hợp khi làm việc với các mẫu nhỏ ( N ? 10-50).

Dân số - tập hợp những người mà nhà xã hội học tìm cách thu thập thông tin trong nghiên cứu của mình. Tùy thuộc vào mức độ rộng của chủ đề nghiên cứu, dân số sẽ rộng như nhau.

Dân số mẫu – mô hình dân số giảm; những người mà nhà xã hội học phân phát bảng câu hỏi, những người được gọi là người trả lời, những người cuối cùng là đối tượng của nghiên cứu xã hội học.

Chính xác ai được đưa vào dân số chung được xác định bởi các mục tiêu của nghiên cứu và ai được đưa vào dân số mẫu được quyết định phương pháp toán học. Nếu một nhà xã hội học có ý định nhìn cuộc chiến Afghanistan qua con mắt của những người tham gia, thì dân số nói chung sẽ bao gồm tất cả binh lính Afghanistan, nhưng anh ta sẽ phải phỏng vấn một bộ phận nhỏ - dân số mẫu. Để mẫu phản ánh chính xác dân số nói chung, nhà xã hội học tuân thủ quy tắc: bất kỳ người lính Afghanistan nào, bất kể nơi cư trú, nơi làm việc, tình trạng sức khỏe và các hoàn cảnh khác, đều phải có cùng xác suất được đưa vào mẫu dân số.

Một khi nhà xã hội học đã quyết định được người mà anh ta muốn phỏng vấn, anh ta sẽ xác định khung lấy mẫu. Sau đó, câu hỏi về loại mẫu được quyết định.

Các mẫu được chia thành ba lớp lớn:

MỘT) chất rắn(điều tra dân số, trưng cầu dân ý). Tất cả các đơn vị từ dân số đều được khảo sát;

b) ngẫu nhiên;

V) không ngẫu nhiên.

Các kiểu lấy mẫu ngẫu nhiên và không ngẫu nhiên lần lượt được chia thành nhiều loại.

Những cái ngẫu nhiên bao gồm:

1) xác suất;

2) có tính hệ thống;

3) khoanh vùng (phân tầng);

4) làm tổ

Những cái không ngẫu nhiên bao gồm:

1) "tự phát";

2) hạn ngạch;

3) phương pháp "mảng chính".

Danh sách đầy đủ và chính xác các đơn vị trong mẫu quần thể khung lấy mẫu . Các phần tử dùng để lựa chọn được gọi là đơn vị lựa chọn . Đơn vị lấy mẫu có thể giống với đơn vị quan sát vì đơn vị quan sát được coi là một phần của dân số nói chung mà từ đó thông tin được thu thập trực tiếp. Thông thường đơn vị quan sát là cá nhân. Lựa chọn từ danh sách được thực hiện tốt nhất bằng cách đánh số đơn vị và sử dụng bảng số ngẫu nhiên, mặc dù phương pháp gần như ngẫu nhiên thường được sử dụng khi mọi phần tử thứ n được lấy từ một danh sách đơn giản.

Nếu khung lấy mẫu bao gồm một danh sách các đơn vị lấy mẫu thì cấu trúc lấy mẫu bao hàm việc nhóm chúng theo một số đặc điểm quan trọng, ví dụ như sự phân bổ các cá nhân theo nghề nghiệp, trình độ chuyên môn, giới tính hoặc độ tuổi. Ví dụ, nếu trong dân số nói chung có 30% người trẻ, 50% người trung niên và 20% người già, thì phải tuân theo tỷ lệ phần trăm giống nhau của ba độ tuổi trong dân số mẫu. Lớp học, giới tính, quốc tịch, v.v. có thể được thêm vào độ tuổi. Đối với mỗi loại, tỷ lệ phần trăm được thiết lập trong quần thể chung và quần thể mẫu. Như vậy, khung lấy mẫu - tỷ lệ phần trăm các đặc điểm của đối tượng, trên cơ sở đó tổng thể mẫu được biên soạn.

Nếu loại mẫu cho chúng ta biết mọi người tham gia vào quần thể mẫu như thế nào thì cỡ mẫu cho chúng ta biết có bao nhiêu người trong số họ đến đó.

Cỡ mẫu – số đơn vị trong quần thể mẫu. Vì quần thể mẫu là một phần của tổng thể được chọn bằng các phương pháp đặc biệt nên khối lượng của nó luôn nhỏ hơn khối lượng của tổng thể chung. Vì vậy, điều quan trọng là bộ phận không làm sai lệch ý tưởng của tổng thể, tức là nó đại diện cho tổng thể.

Độ tin cậy của dữ liệu bị ảnh hưởng không phải bởi các đặc điểm định lượng của dân số mẫu (khối lượng của nó), mà bởi các đặc điểm định tính của dân số nói chung - mức độ đồng nhất của nó. Sự khác biệt giữa tổng thể chung và tổng thể mẫu được gọi là lỗi đại diện , sai lệch cho phép – 5%.

Dưới đây là một số cách để tránh lỗi:

    mỗi đơn vị trong tổng thể phải có xác suất được đưa vào mẫu như nhau;

    nên chọn từ các quần thể đồng nhất;

    bạn cần biết đặc điểm của dân số;

    Khi biên soạn một quần thể mẫu, phải tính đến các lỗi ngẫu nhiên và hệ thống.

Nếu dân số mẫu (mẫu) được lập chính xác thì nhà xã hội học sẽ thu được kết quả đáng tin cậy đặc trưng cho toàn bộ dân số.

Chính là gì phương pháp lấy mẫu?

Phương pháp lấy mẫu cơ học khi nào từ danh sách chung của dân số nói chung, số lượng người trả lời cần thiết được chọn đều đặn (ví dụ: cứ sau 10 ngày).

Phương pháp lấy mẫu nối tiếp. Trong trường hợp này, dân số nói chung được chia thành các phần đồng nhất và các đơn vị phân tích được chọn theo tỷ lệ từ mỗi phần (ví dụ: 20% nam và nữ trong doanh nghiệp).

Phương pháp lấy mẫu cụm. Đơn vị lựa chọn không phải là những người trả lời riêng lẻ mà là những nhóm có hoạt động nghiên cứu liên tục sau đó. Mẫu này sẽ mang tính đại diện nếu thành phần của các nhóm tương tự nhau (ví dụ: một nhóm sinh viên từ mỗi luồng của một khoa đại học).

Phương pháp mảng chính– khảo sát 60–70% dân số nói chung.

Phương pháp lấy mẫu hạn ngạch. Hầu hết phương pháp phức tạp, yêu cầu xác định ít nhất bốn đặc điểm để chọn người trả lời. Thường được sử dụng với số lượng lớn.

Bất kỳ tập hợp đối tượng nào được chọn bằng cách nào đó có thể khác nhau về giá trị của một số đặc tính cụ thể được gọi là tổng thể chung.

Số phần tử trong một quần thể được gọi là thể tích của nó.

Một phần dân số ngẫu nhiênđược chọn để quan sát được gọi là mẫu ngẫu nhiên hay gọi tắt là mẫu.

Số lượng phần tử mẫu được gọi là kích thước của nó.

Vì vậy, nếu trong số một trăm nghìn gói của một loại thuốc nhất định (dân số nói chung), một trăm gói (mẫu) được chọn để kiểm tra chất lượng thì số lượng của tổng thể là 100.000 và cỡ mẫu là 100.

Các đặc tính của một quần thể mẫu phản ánh tốt hơn các đặc tính tương ứng của tổng thể nói chung, khi quần thể mẫu này chứa càng nhiều đối tượng (tức là thể tích của nó càng lớn). Ví dụ: nếu chúng ta quan tâm đến nồng độ của một chất nhất định trong máy tính bảng được sản xuất bằng cách sử dụng một thiết bị có thiết kế nhất định, thì chúng ta kiểm tra càng nhiều máy tính bảng được chọn ngẫu nhiên thì càng có nhiều thông tin đáng tin cậy chúng tôi sẽ có được nó.

Vì chúng ta đang đếm với phương pháp thống kêđưa ra phán đoán nhất định về các đặc tính của tổng thể dựa trên các đặc tính của mẫu, thì mẫu sau phải mang tính đại diện, tức là. nên được tổ chức theo cách sao cho, nếu có thể, phản ánh tất cả các đặc điểm của dân chúng nói chung mà chúng ta quan tâm.

Ví dụ, khi kiểm tra sự tiến bộ của học sinh về môn sinh lý trường đại học y khoa A, B và C, lần lượt có 500, 200 và 300 sinh viên, cỡ mẫu là 100 gồm 50 sinh viên được chọn ngẫu nhiên của trường Đại học A, 20 sinh viên của trường Đại học B và 30 sinh viên của trường Đại học C. Tỷ lệ trong mẫu phải tương ứng với tỷ lệ của dân số nói chung.

Để đảm bảo tính đại diện, mẫu phải đủ lớn để bao phủ toàn bộ tổng thể và được thực hiện một cách khách quan đối với từng bộ phận riêng lẻ của nó.
Lấy mẫu lặp lại là mẫu trong đó đối tượng đã chọn (trước khi chọn đối tượng tiếp theo) được trả lại cho tổng thể. Lấy mẫu không lặp lại là mẫu trong đó đối tượng được chọn không được trả lại cho tổng thể. Trong thực tế, việc lấy mẫu ngẫu nhiên lặp lại thường được sử dụng.

Trong thực tế chúng được sử dụng nhiều cách khác nhau sự lựa chọn Buộc, các phương pháp này có thể được chia thành hai loại:
I. Lựa chọn không yêu cầu chia tổng thể thành nhiều phần, bao gồm:
a) lựa chọn ngẫu nhiên đơn giản không lặp lại;
b) Lựa chọn lặp lại ngẫu nhiên đơn giản.
II. Lựa chọn, trong đó dân số được chia thành các phần, bao gồm:
a) lựa chọn điển hình;
b) lựa chọn cơ học;
c) lựa chọn nối tiếp.

Lựa chọn ngẫu nhiên đơn giản là lựa chọn trong đó các đối tượng được chọn lần lượt từ toàn bộ quần thể. Nếu các thẻ đã loại bỏ không được trả lại vào gói thì việc lựa chọn sẽ là ngẫu nhiên đơn giản, không lặp lại.

Lựa chọn điển hình được gọi là lựa chọn trong đó các đối tượng được chọn không phải từ toàn bộ quần thể mà từ từng phần “điển hình” của nó.

Lựa chọn cơ học được gọi là lựa chọn trong đó dân số được chia “một cách máy móc” thành nhiều nhóm tùy theo số lượng đối tượng được đưa vào mẫu và một đối tượng được chọn từ mỗi nhóm.
Lựa chọn nối tiếp là sự lựa chọn trong đó các đối tượng được chọn từ tổng thể không phải từng đối tượng một mà theo “chuỗi” phải được kiểm tra liên tục.

Dân số- tập hợp các phần tử thỏa mãn một số điều kiện nhất định; còn được gọi là dân số nghiên cứu. Dân số chung (Vũ trụ) - toàn bộ tập hợp các đối tượng (đối tượng) nghiên cứu, từ đó các đối tượng (đối tượng) được chọn (có thể được chọn) để khảo sát (khảo sát).

VẬT MẪU hoặc dân số mẫu(Mẫu) là tập hợp các đối tượng (đối tượng) được chọn theo cách đặc biệt để khảo sát (khảo sát). Bất kỳ dữ liệu nào thu được trên cơ sở khảo sát mẫu (khảo sát) đều có tính chất xác suất. Trong thực tế, điều này có nghĩa là nghiên cứu không xác định ý nghĩa cụ thể và khoảng mà giá trị được xác định nằm ở đó.

Đặc điểm mẫu:

Đặc điểm định tính của mẫu - chính xác chúng tôi chọn gì và chúng tôi sử dụng phương pháp lấy mẫu nào cho việc này.

Đặc điểm định lượng mẫu - chúng tôi chọn bao nhiêu trường hợp, hay nói cách khác là cỡ mẫu.

Cần lấy mẫu:

Đối tượng nghiên cứu rất rộng. Ví dụ, người tiêu dùng sản phẩm công ty toàn cầu– một số lượng lớn các thị trường phân tán về mặt địa lý.

Cần phải thu thập thông tin sơ cấp.

Cỡ mẫu- số trường hợp có trong quần thể mẫu.

Mẫu phụ thuộc và độc lập.

Khi so sánh hai (hoặc nhiều) mẫu, một tham số quan trọng là sự phụ thuộc của chúng. Nếu có thể thiết lập một cặp đồng hình (nghĩa là khi một trường hợp từ mẫu X tương ứng với một và chỉ một trường hợp từ mẫu Y và ngược lại) cho mỗi trường hợp trong hai mẫu (và cơ sở của mối quan hệ này rất quan trọng đối với tính trạng được đo trong các mẫu), những mẫu như vậy được gọi là sự phụ thuộc.

Nếu không có mối quan hệ như vậy giữa các mẫu thì các mẫu này được coi là độc lập.

Các loại lấy mẫu.

Mẫu được chia thành hai loại:

Xác suất;

Không có xác suất;

Mẫu đại diện- một quần thể mẫu trong đó các đặc điểm chính trùng khớp với các đặc điểm của tổng thể chung. Chỉ đối với loại mẫu này, kết quả khảo sát của một số đơn vị (đối tượng) mới có thể được mở rộng cho toàn bộ dân số. Điều kiện tiên quyết xây dựng mẫu đại diện- sự sẵn có của thông tin về dân số nói chung, tức là. hoặc danh sách đầy đủ các đơn vị (đối tượng) của dân số nói chung, hoặc thông tin về cấu trúc theo đặc điểm có ảnh hưởng đáng kể đến thái độ đối với đối tượng nghiên cứu.

17. Rời rạc chuỗi biến thể, thứ hạng, tần suất, tính đặc biệt.

Chuỗi biến thể (gần về mặt thống kê) – là dãy các tùy chọn được viết theo thứ tự tăng dần và trọng số tương ứng của chúng.

Chuỗi biến thể có thể là rời rạc(lấy mẫu các giá trị của biến ngẫu nhiên rời rạc) và liên tục (khoảng) (lấy mẫu các giá trị của biến ngẫu nhiên liên tục).

Chuỗi biến thiên rời rạc có dạng:

Các giá trị quan sát của biến ngẫu nhiên x1, x2,..., xk được gọi là tùy chọn, và việc thay đổi các giá trị này được gọi là theo biến thể.

Vật mẫu(mẫu) – một tập hợp các quan sát được chọn ngẫu nhiên từ tổng thể.

Số lượng quan sát trong một quần thể được gọi là khối lượng của nó.

N- số lượng dân số nói chung.

N– cỡ mẫu (tổng của tất cả các tần số của chuỗi).

Tính thường xuyên các tùy chọn xi được gọi là số ni (i=1,...,k), cho biết tùy chọn này xuất hiện bao nhiêu lần trong mẫu.

Tính thường xuyên(tần số tương đối, tỷ lệ) của các biến thể xi (i=1,…,k) là tỷ số giữa tần số ni của nó và cỡ mẫu n.
w Tôi=n Tôi/N

Xếp hạng dữ liệu thực nghiệm- một hoạt động bao gồm thực tế là kết quả quan sát trên một biến ngẫu nhiên, tức là các giá trị quan sát của một biến ngẫu nhiên, được sắp xếp theo thứ tự không giảm.

rời rạc chuỗi biến thể phân phối là một tập hợp được xếp hạng của các tùy chọn xi với tần số hoặc thông số cụ thể tương ứng của chúng.

Thống kê dân số- một tập hợp các đơn vị có đặc tính đại chúng, tính điển hình, tính đồng nhất về chất và sự hiện diện của biến thể.

Dân số thống kê bao gồm các đối tượng vật chất hiện có (Người lao động, doanh nghiệp, quốc gia, khu vực), là một đối tượng.

Đơn vị dân số- từng đơn vị cụ thể của tổng thể thống kê.

Cùng một quần thể thống kê có thể đồng nhất ở một đặc điểm và không đồng nhất ở một đặc điểm khác.

Tính đồng nhất về chất- sự giống nhau của tất cả các đơn vị dân số trên một số cơ sở và sự khác biệt trên tất cả các đơn vị khác.

Trong một dân số thống kê, sự khác biệt giữa một đơn vị dân số và một đơn vị dân số khác thường xuyên hơn. bản chất định lượng. Thay đổi định lượng trong các giá trị đặc tính đơn vị khác nhau tập hợp được gọi là biến thể.

Sự biến đổi của một tính trạngthay đổi về lượngđặc tính (đối với đặc tính số lượng) khi di chuyển từ đơn vị dân số này sang đơn vị dân số khác.

Dấu hiệu- đây là tài sản tính năng đặc trưng hoặc đặc điểm khác của các đơn vị, vật thể, hiện tượng có thể quan sát hoặc đo lường được. Các dấu hiệu được chia thành số lượng và chất lượng. Tính đa dạng và biến thiên của giá trị đặc tính trong các đơn vị riêng lẻ của quần thể được gọi là biến thể.

Các đặc điểm thuộc tính (định tính) không thể được biểu thị bằng số (thành phần dân số theo giới tính). Đặc điểm định lượngbiểu thức số(cơ cấu dân số theo độ tuổi).

Chỉ số- đây là đặc tính khái quát về số lượng và chất lượng của bất kỳ thuộc tính nào của các đơn vị hoặc tổng thể trong các điều kiện cụ thể về thời gian và địa điểm.

Thẻ điểm là tập hợp các chỉ số phản ánh toàn diện hiện tượng đang được nghiên cứu.

Ví dụ: tiền lương được nghiên cứu:
  • Ký hiệu - tiền lương
  • Dân số thống kê - tất cả nhân viên
  • Đơn vị dân số là mỗi nhân viên
  • Đồng nhất về chất - tiền lương tích lũy
  • Biến thể của một dấu hiệu - một chuỗi số

Dân số và mẫu từ nó

Cơ sở là một tập hợp dữ liệu thu được từ việc đo một hoặc nhiều đặc tính. Một tập hợp các đối tượng được quan sát thực sự, được biểu diễn về mặt thống kê bằng một số quan sát của một biến ngẫu nhiên, là lấy mẫu, và giả thuyết tồn tại (phỏng đoán) - dân số nói chung. Dân số có thể hữu hạn (số lượng quan sát N = hằng) hoặc vô hạn ( N = ∞) và mẫu từ tổng thể luôn là kết quả của một số lượng quan sát hạn chế. Số lượng quan sát tạo thành một mẫu được gọi là cỡ mẫu. Nếu cỡ mẫu đủ lớn ( n → ∞) mẫu được xem xét to lớn, V nếu không thì nó được gọi là lấy mẫu khối lượng hạn chế. Mẫu được coi là bé nhỏ, nếu khi đo biến ngẫu nhiên một chiều cỡ mẫu không vượt quá 30 ( N<= 30 ) và khi đo nhiều đồng thời ( k) đặc trưng trong không gian quan hệ đa chiều NĐẾN k không vượt quá 10 (không có< 10) . Các mẫu đơn chuỗi biến thể, nếu các thành viên của nó là thống kê thứ tự, tức là các giá trị mẫu của biến ngẫu nhiên Xđược sắp xếp theo thứ tự tăng dần (xếp hạng), các giá trị của đặc tính được gọi là tùy chọn.

Ví dụ. Hầu như cùng một tập hợp đối tượng được chọn ngẫu nhiên - các ngân hàng thương mại của một khu hành chính của Mátxcơva, có thể được coi là mẫu từ tổng thể chung của tất cả các ngân hàng thương mại trong quận này và là mẫu từ tổng thể chung của tất cả các ngân hàng thương mại ở Mátxcơva , cũng như mẫu từ các ngân hàng thương mại trong nước, v.v.

Các phương pháp tổ chức lấy mẫu cơ bản

Độ tin cậy của các kết luận thống kê và cách giải thích có ý nghĩa của kết quả phụ thuộc vào tính đại diện mẫu, tức là sự đầy đủ và đầy đủ của việc thể hiện các thuộc tính của tổng thể nói chung, liên quan đến việc mẫu này có thể được coi là đại diện. Việc nghiên cứu các đặc tính thống kê của một tổng thể có thể được tổ chức theo hai cách: sử dụng liên tụckhông liên tục. Quan sát liên tục bao gồm việc kiểm tra tất cả đơn vịđã học toàn bộ, MỘT quan sát một phần (chọn lọc)- chỉ một phần thôi.

Có năm cách chính để tổ chức quan sát mẫu:

1. lựa chọn ngẫu nhiên đơn giản, trong đó các đối tượng được chọn ngẫu nhiên từ một quần thể đối tượng (ví dụ: sử dụng bảng hoặc trình tạo số ngẫu nhiên), với mỗi mẫu có thể có xác suất bằng nhau. Những mẫu như vậy được gọi là thực sự ngẫu nhiên;

2. lựa chọn đơn giản bằng cách sử dụng một thủ tục thông thườngđược thực hiện bằng cách sử dụng thành phần cơ học (ví dụ: ngày, ngày trong tuần, số căn hộ, các chữ cái trong bảng chữ cái, v.v.) và các mẫu thu được theo cách này được gọi là cơ khí;

3. phân tầng sự lựa chọn bao gồm thực tế là dân số chung của tập được chia thành các quần thể con hoặc các lớp (tầng) của tập sao cho . Tầng lớp là đối tượng đồng nhất về mặt đặc điểm thống kê (ví dụ, dân số được chia thành các tầng lớp theo nhóm tuổi hoặc tầng lớp xã hội; doanh nghiệp theo ngành). Trong trường hợp này, các mẫu được gọi phân tầng(nếu không thì, phân tầng, điển hình, khu vực hóa);

4. phương pháp nối tiếp lựa chọn được sử dụng để hình thành nối tiếp hoặc mẫu tổ yến. Chúng rất thuận tiện nếu cần khảo sát một “khối” hoặc một loạt đối tượng cùng một lúc (ví dụ: một lô hàng hóa, sản phẩm của một loạt nhất định hoặc dân số của một khu vực hành chính lãnh thổ của đất nước). Việc lựa chọn chuỗi có thể được thực hiện hoàn toàn ngẫu nhiên hoặc một cách máy móc. Trong trường hợp này, việc kiểm tra toàn diện một lô hàng nhất định hoặc toàn bộ đơn vị lãnh thổ (một tòa nhà hoặc khu dân cư) được thực hiện;

5. kết hợp lựa chọn (bước) có thể kết hợp một số phương pháp lựa chọn cùng một lúc (ví dụ: phân tầng và ngẫu nhiên hoặc ngẫu nhiên và cơ học); một mẫu như vậy được gọi là kết hợp.

Các loại lựa chọn

Qua tâm trí lựa chọn cá nhân, nhóm và kết hợp được phân biệt. Tại lựa chọn cá nhân các đơn vị riêng lẻ của tổng thể nói chung được chọn vào quần thể mẫu, với lựa chọn nhóm- các nhóm (chuỗi) đơn vị đồng nhất về mặt chất lượng, và lựa chọn kết hợp bao gồm sự kết hợp của loại thứ nhất và thứ hai.

Qua phương pháp lựa chọn được phân biệt lặp đi lặp lại và không lặp lại vật mẫu.

lặp lạiđược gọi là lựa chọn trong đó một đơn vị có trong mẫu không quay trở lại quần thể ban đầu và không tham gia vào quá trình lựa chọn tiếp theo; trong khi số lượng đơn vị trong dân số nói chung N giảm đi trong quá trình lựa chọn. Tại lặp đi lặp lại sự lựa chọn bắt gặp trong mẫu, một đơn vị sau khi đăng ký sẽ được trả lại cho dân chúng nói chung và do đó giữ được cơ hội bình đẳng, cùng với các đơn vị khác, để được sử dụng trong quy trình lựa chọn tiếp theo; trong khi số lượng đơn vị trong dân số nói chung N không thay đổi (phương pháp này ít được sử dụng trong nghiên cứu kinh tế - xã hội). Tuy nhiên, với quy mô lớn N (N → ∞) công thức cho có thể lặp lại lựa chọn tiếp cận những phương pháp dành cho lặp đi lặp lại lựa chọn và cái sau thực tế được sử dụng thường xuyên hơn ( N = hằng).

Đặc điểm cơ bản của các tham số của dân số chung và dân số mẫu

Các kết luận thống kê của nghiên cứu dựa trên sự phân bố của biến ngẫu nhiên, trong khi các giá trị quan sát được (x 1, x 2, ..., xn)được gọi là sự thực hiện của biến ngẫu nhiên X(n là cỡ mẫu). Sự phân bố của một biến ngẫu nhiên trong tổng thể nói chung là về mặt lý thuyết, lý tưởng và mẫu tương tự của nó là thực nghiệm phân bổ. Một số phân phối lý thuyết được xác định theo phương pháp phân tích, tức là của họ thông số xác định giá trị của hàm phân phối tại mỗi điểm trong không gian các giá trị có thể có của biến ngẫu nhiên. Đối với một mẫu, hàm phân phối rất khó và đôi khi không thể xác định được, do đó thông sốđược ước tính từ dữ liệu thực nghiệm và sau đó chúng được thay thế thành biểu thức phân tích mô tả phân bố lý thuyết. Trong trường hợp này, giả định (hoặc giả thuyết) về loại phân phối có thể đúng hoặc sai về mặt thống kê. Nhưng trong mọi trường hợp, phân bố thực nghiệm được xây dựng lại từ mẫu chỉ mô tả đại khái phân bố thực. Các tham số phân phối quan trọng nhất là kỳ vọng toán học và phương sai.

Về bản chất, sự phân phối là liên tụcrời rạc. Phân phối liên tục được biết đến nhiều nhất là Bình thường. Các mẫu tương tự của các tham số và đối với nó là: giá trị trung bình và phương sai thực nghiệm. Trong số những phương pháp riêng biệt trong nghiên cứu kinh tế xã hội, phương pháp được sử dụng thường xuyên nhất thay thế (phân đôi) phân bổ. Tham số kỳ vọng toán học của phân bố này biểu thị giá trị tương đối (hoặc chia sẻ) các đơn vị của tổng thể có đặc điểm đang được nghiên cứu (được biểu thị bằng chữ cái); tỷ lệ dân số không có đặc điểm này được biểu thị bằng chữ cái q(q = 1 - p). Phương sai của phân phối thay thế cũng có tính chất tương tự theo kinh nghiệm.

Tùy thuộc vào kiểu phân bố và phương pháp lựa chọn đơn vị dân cư mà đặc điểm của các tham số phân bố được tính toán khác nhau. Những cái chính cho phân phối lý thuyết và thực nghiệm được đưa ra trong bảng. 9.1.

Phần mẫu k n Tỷ số giữa số đơn vị trong quần thể mẫu và số đơn vị trong tổng thể được gọi là:

kn = n/N.

Phần mẫu w là tỷ lệ các đơn vị có đặc tính đang được nghiên cứu xđến cỡ mẫu N:

w = n n /n.

Ví dụ. Trong một lô hàng có 1000 đơn vị, với 5% mẫu chia sẻ mẫu kn về giá trị tuyệt đối là 50 đơn vị. (n = N*0,05); nếu tìm thấy 2 sản phẩm bị lỗi trong mẫu này thì tỷ lệ lỗi mẫu w sẽ là 0,04 (w = 2/50 = 0,04 hoặc 4%).

Vì dân số mẫu khác với dân số nói chung nên có lỗi lấy mẫu.

Bảng 9.1 Các thông số chính của quần thể chung và quần thể mẫu

Lỗi lấy mẫu

Trong mọi trường hợp (liên tục và có chọn lọc), có thể xảy ra hai loại lỗi: đăng ký và tính đại diện. Lỗi sự đăng ký có thể có ngẫu nhiêncó tính hệ thống tính cách. Ngẫu nhiên các lỗi bao gồm nhiều nguyên nhân khác nhau không thể kiểm soát được, không cố ý và thường cân bằng lẫn nhau (ví dụ: thay đổi hiệu suất của thiết bị do biến động nhiệt độ trong phòng).

có tính hệ thống sai lệch do vi phạm các quy tắc chọn đối tượng cho mẫu (ví dụ: sai lệch trong phép đo khi thay đổi cài đặt của thiết bị đo).

Ví dụ.Để đánh giá địa vị xã hội của người dân trong thành phố, dự kiến ​​khảo sát 25% gia đình. Nếu việc lựa chọn từng căn hộ thứ tư dựa trên số lượng của nó thì sẽ có nguy cơ chọn tất cả các căn hộ chỉ thuộc một loại (ví dụ: căn hộ một phòng), điều này sẽ gây ra lỗi hệ thống và làm sai lệch kết quả; chọn số căn hộ theo lô sẽ thích hợp hơn vì sai số sẽ là ngẫu nhiên.

Lỗi đại diện vốn chỉ có trong quan sát mẫu, chúng không thể tránh được và chúng phát sinh do thực tế là quần thể mẫu không tái tạo hoàn toàn quần thể nói chung. Giá trị của các chỉ số thu được từ mẫu khác với các chỉ số có cùng giá trị trong dân số nói chung (hoặc thu được thông qua quan sát liên tục).

Độ lệch lấy mẫu là sự khác biệt giữa giá trị tham số trong tổng thể và giá trị mẫu của nó. Đối với giá trị trung bình của đặc tính định lượng, nó bằng: , và đối với phần (đặc tính thay thế) - .

Lỗi lấy mẫu chỉ xảy ra với các quan sát mẫu. Những sai số này càng lớn thì phân bố thực nghiệm càng khác với phân bố lý thuyết. Các tham số của phân phối thực nghiệm là các biến ngẫu nhiên, do đó, sai số lấy mẫu cũng là biến ngẫu nhiên, chúng có thể lấy các giá trị khác nhau cho các mẫu khác nhau và do đó người ta thường tính toán sai số trung bình.

Lỗi lấy mẫu trung bình là đại lượng biểu thị độ lệch chuẩn của giá trị trung bình mẫu so với kỳ vọng toán học. Giá trị này, tuân theo nguyên tắc chọn ngẫu nhiên, phụ thuộc chủ yếu vào cỡ mẫu và mức độ biến đổi của đặc tính: độ biến thiên của đặc tính càng lớn và càng nhỏ (và do đó là giá trị), sai số lấy mẫu trung bình càng nhỏ. . Mối quan hệ giữa phương sai của tổng thể và tổng thể mẫu được thể hiện bằng công thức:

những thứ kia. khi đủ lớn, chúng ta có thể giả sử rằng . Sai số lấy mẫu trung bình cho thấy những sai lệch có thể có của tham số tổng thể mẫu so với tham số tổng thể chung. Trong bảng Bảng 9.2 trình bày các biểu thức tính sai số lấy mẫu trung bình cho các phương pháp tổ chức quan sát khác nhau.

Bảng 9.2 Sai số trung bình (m) của giá trị trung bình mẫu và tỷ lệ của các loại mẫu khác nhau

Đâu là mức trung bình của các phương sai mẫu trong nhóm đối với một thuộc tính liên tục;

Trung bình các phương sai trong nhóm của tỷ lệ;

- số dãy đã chọn, - tổng số dãy;

,

trung bình của chuỗi thứ ở đâu;

- giá trị trung bình chung của toàn bộ tập hợp mẫu đối với một đặc tính liên tục;

,

đâu là phần của đặc điểm trong chuỗi thứ;

- tổng tỷ trọng của đặc điểm trên toàn bộ tổng thể mẫu.

Tuy nhiên, độ lớn của sai số trung bình chỉ có thể được đánh giá với xác suất P nhất định (P ≤ 1). Lyapunov A.M. đã chứng minh rằng sự phân bố của các phương tiện mẫu, và do đó độ lệch của chúng so với giá trị trung bình chung, cho một số lượng đủ lớn gần như tuân theo quy luật phân phối chuẩn, với điều kiện là tổng thể chung có giá trị trung bình hữu hạn và phương sai giới hạn.

Về mặt toán học, tuyên bố này cho mức trung bình được thể hiện như sau:

và đối với phần chia sẻ, biểu thức (1) sẽ có dạng:

Ở đâu - lỗi lấy mẫu cận biên, là bội số của sai số lấy mẫu trung bình , và hệ số nhân là bài kiểm tra của Học sinh ("hệ số tin cậy"), do W.S. Gosset (bút danh "Sinh viên"); các giá trị cho các cỡ mẫu khác nhau được lưu trữ trong một bảng đặc biệt.

Các giá trị của hàm Ф(t) đối với một số giá trị của t bằng:

Do đó, biểu thức (3) có thể đọc như sau: với xác suất P = 0,683 (68,3%) có thể lập luận rằng sự khác biệt giữa mẫu và trung bình chung sẽ không vượt quá một giá trị sai số trung bình m(t=1), với xác suất P = 0,954 (95,4%)- rằng nó sẽ không vượt quá giá trị của hai sai số trung bình m (t = 2), với xác suất P = 0,997 (99,7%)- sẽ không vượt quá ba giá trị m(t=3) . Do đó, xác suất để chênh lệch này vượt quá ba lần sai số trung bình được xác định bằng mức độ lỗi và số tiền không còn nữa 0,3% .

Trong bảng 9.3 trình bày công thức tính sai số lấy mẫu tối đa.

Bảng 9.3 Sai số cận biên (D) của mẫu đối với giá trị trung bình và tỷ lệ (p) đối với các loại quan sát mẫu khác nhau

Khái quát hóa kết quả mẫu cho dân số

Mục tiêu cuối cùng của việc quan sát mẫu là mô tả đặc điểm của tổng thể nói chung. Với cỡ mẫu nhỏ, ước tính thực nghiệm của các tham số ( và ) có thể sai lệch đáng kể so với giá trị thực của chúng ( và ). Do đó, cần thiết lập các ranh giới trong đó các giá trị thực ( và ) nằm cho các giá trị mẫu của các tham số ( và ).

Khoảng tin cậy của bất kỳ tham số θ nào của tổng thể chung là phạm vi giá trị ngẫu nhiên của tham số này, có xác suất gần bằng 1 ( độ tin cậy) chứa giá trị thực của tham số này.

Lỗi cận biên mẫu Δ cho phép bạn xác định các giá trị giới hạn của các đặc điểm của dân số nói chung và của chúng khoảng tin cậy, bằng nhau:

Giới hạn dưới khoảng tin cậy thu được bằng phép trừ lỗi tối đa từ giá trị trung bình mẫu (chia sẻ) và giá trị trên bằng cách thêm nó.

Khoảng tin cậyđối với mức trung bình, nó sử dụng sai số lấy mẫu tối đa và đối với mức độ tin cậy nhất định được xác định theo công thức:

Điều này có nghĩa là với một xác suất cho trước R, được gọi là mức độ tin cậy và được xác định duy nhất bởi giá trị t, có thể lập luận rằng giá trị thực của giá trị trung bình nằm trong khoảng từ và giá trị thực của cổ phiếu nằm trong khoảng từ

Khi tính khoảng tin cậy cho ba mức độ tin cậy tiêu chuẩn P = 95%, P = 99% và P = 99,9% giá trị được chọn bởi . Các ứng dụng tùy thuộc vào số bậc tự do. Nếu cỡ mẫu đủ lớn thì các giá trị tương ứng với các xác suất này tđều bằng nhau: 1,96, 2,58 3,29 . Do đó, lỗi lấy mẫu cận biên cho phép chúng ta xác định các giá trị giới hạn của các đặc điểm của dân số và khoảng tin cậy của chúng:

Việc mở rộng kết quả quan sát mẫu cho dân số nói chung trong nghiên cứu kinh tế - xã hội có những đặc điểm riêng, vì nó đòi hỏi sự thể hiện đầy đủ tất cả các loại và nhóm của nó. Cơ sở cho khả năng phân phối như vậy là việc tính toán lỗi tương đối:

Ở đâu Δ % - sai số lấy mẫu tối đa tương đối; , .

Có hai phương pháp chính để mở rộng quan sát mẫu cho tổng thể: phương pháp tính lại trực tiếp và hệ số.

Nước hoa chuyển đổi trực tiếp bao gồm nhân giá trị trung bình mẫu!!\overline(x) với kích thước của tổng thể.

Ví dụ. Hãy ước tính số lượng trẻ mới biết đi trung bình trong thành phố bằng phương pháp lấy mẫu và tính bằng một người. Nếu có 1000 gia đình trẻ trong thành phố, thì số lượng chỗ cần thiết trong các vườn ươm của thành phố được tính bằng cách nhân mức trung bình này với quy mô dân số nói chung N = 1000, tức là. sẽ có 1200 chỗ ngồi.

Phương pháp tỷ lệ cược Nên sử dụng trong trường hợp tiến hành quan sát chọn lọc để làm rõ số liệu quan sát liên tục.

Công thức sau đây được sử dụng:

trong đó tất cả các biến là quy mô dân số:

Cỡ mẫu yêu cầu

Bảng 9.4 Cỡ mẫu yêu cầu (n) đối với các loại hình tổ chức quan sát mẫu khác nhau

Khi lập kế hoạch quan trắc mẫu với giá trị sai số lấy mẫu cho phép được xác định trước, cần ước tính chính xác sai số lấy mẫu cần thiết. cỡ mẫu. Khối lượng này có thể được xác định trên cơ sở sai số cho phép trong quá trình quan trắc mẫu dựa trên một xác suất cho trước đảm bảo giá trị cho phép của mức sai số (có tính đến phương pháp tổ chức quan trắc). Công thức xác định cỡ mẫu n yêu cầu có thể dễ dàng thu được trực tiếp từ công thức tính sai số lấy mẫu tối đa. Vì vậy, từ biểu thức cho sai số cận biên:

cỡ mẫu được xác định trực tiếp N:

Công thức này cho thấy rằng khi sai số lấy mẫu tối đa giảm Δ cỡ mẫu cần thiết tăng lên đáng kể, tỷ lệ thuận với phương sai và bình phương của bài kiểm tra t của Học sinh.

Đối với phương pháp tổ chức quan sát cụ thể, cỡ mẫu yêu cầu được tính theo công thức ở bảng. 9.4.

Ví dụ tính toán thực tế

Ví dụ 1. Tính giá trị trung bình và khoảng tin cậy cho đặc tính định lượng liên tục.

Để đánh giá tốc độ giải quyết với chủ nợ, mẫu ngẫu nhiên gồm 10 chứng từ thanh toán được thực hiện tại ngân hàng. Giá trị của chúng hóa ra bằng nhau (tính theo ngày): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

Cần thiết với xác suất P = 0,954 xác định sai số cận biên Δ giá trị trung bình mẫu và giới hạn tin cậy của thời gian tính toán trung bình.

Giải pháp. Giá trị trung bình được tính bằng công thức trong bảng. 9.1 đối với tổng thể mẫu

Phương sai được tính bằng công thức trong bảng. 9.1.

Sai số bình phương trung bình trong ngày.

Sai số trung bình được tính bằng công thức:

những thứ kia. trung bình là x ± m = 12,0 ± 2,3 ngày.

Độ tin cậy của giá trị trung bình là

Chúng tôi tính toán sai số tối đa bằng cách sử dụng công thức từ bảng. 9.3 đối với việc lấy mẫu lặp lại vì chưa biết cỡ quần thể và đối với P = 0,954 mức độ tự tin.

Như vậy, giá trị trung bình là `x ± D = `x ± 2m = 12,0 ± 4,6, tức là giá trị thực của nó nằm trong khoảng từ 7,4 đến 16,6 ngày.

Sử dụng bảng t của Học sinh. Ứng dụng này cho phép chúng ta kết luận rằng với n = 10 - 1 = 9 bậc tự do, giá trị thu được là đáng tin cậy với mức ý nghĩa £ 0,001, tức là. giá trị trung bình thu được khác biệt đáng kể so với 0.

Ví dụ 2. Ước tính xác suất (phần chung) p.

Trong phương pháp lấy mẫu cơ học khảo sát địa vị xã hội của 1000 gia đình, người ta thấy rằng tỷ lệ gia đình có thu nhập thấp là w = 0,3 (30%)(mẫu đã được 2% , tức là n/N = 0,02). Bắt buộc với mức độ tin cậy p = 0,997 xác định chỉ số r gia đình có thu nhập thấp trên toàn khu vực.

Giải pháp. Dựa trên các giá trị hàm được trình bày Ф(t) tìm một mức độ tin cậy nhất định P = 0,997 nghĩa t = 3(xem công thức 3). Sai số cận biên của phân số w xác định theo công thức trong bảng. 9.3 đối với lấy mẫu không lặp lại (lấy mẫu cơ học luôn không lặp lại):

Lỗi lấy mẫu tương đối tối đa trong % sẽ là:

Xác suất (tỷ lệ chung) của các gia đình có thu nhập thấp trong khu vực sẽ là р=w±Δw và giới hạn tin cậy p được tính toán dựa trên bất đẳng thức kép:

w — Δ w ≤ p ≤ w — Δ w, tức là giá trị thực của p nằm trong:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Như vậy, với xác suất 0,997, có thể khẳng định rằng tỷ lệ hộ gia đình có thu nhập thấp trong số tất cả các gia đình trong vùng dao động từ 28,6% đến 31,4%.

Ví dụ 3. Tính toán giá trị trung bình và khoảng tin cậy cho một đặc tính rời rạc được xác định bằng chuỗi khoảng.

Trong bảng 9,5. việc phân phối các ứng dụng để sản xuất đơn hàng theo thời gian thực hiện của doanh nghiệp được chỉ định.

Bảng 9.5 Phân bố quan sát theo thời điểm xuất hiện

Giải pháp. Thời gian trung bình để hoàn thành đơn hàng được tính theo công thức:

Chu kỳ trung bình sẽ là:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 tháng.

Chúng ta nhận được câu trả lời tương tự nếu chúng ta sử dụng dữ liệu về pi từ cột áp chót của bảng. 9.5, sử dụng công thức:

Lưu ý rằng khoảng giữa của khoảng chuyển tiếp cuối cùng được tìm thấy bằng cách bổ sung nó một cách giả tạo với chiều rộng của khoảng chuyển tiếp trước đó bằng 60 - 36 = 24 tháng.

Phương sai được tính bằng công thức

Ở đâu x tôi- giữa chuỗi khoảng thời gian.

Do đó!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4), và sai số bình phương trung bình là .

Sai số trung bình được tính bằng công thức hàng tháng, tức là giá trị trung bình là!!\overline(x) ± m = 23,1 ± 13,4.

Chúng tôi tính toán sai số tối đa bằng cách sử dụng công thức từ bảng. 9.3 đối với lựa chọn lặp lại, vì chưa biết quy mô quần thể, với mức độ tin cậy 0,954:

Vậy trung bình là:

những thứ kia. giá trị thực của nó nằm trong khoảng từ 0 đến 50 tháng.

Ví dụ 4.Để xác định tốc độ giải quyết với các chủ nợ của N=500 doanh nghiệp tổng hợp trong một ngân hàng thương mại, cần tiến hành nghiên cứu mẫu bằng phương pháp chọn ngẫu nhiên không lặp lại. Xác định cỡ mẫu n yêu cầu sao cho với xác suất P = 0,954 sai số của trung bình mẫu không vượt quá 3 ngày nếu ước tính thử nghiệm cho thấy độ lệch chuẩn s là 10 ngày.

Giải pháp. Để xác định số lượng nghiên cứu cần thiết n, chúng tôi sẽ sử dụng công thức chọn lọc không lặp lại từ bảng. 9.4:

Trong đó, giá trị t được xác định từ mức độ tin cậy P = 0,954. Nó bằng 2. Giá trị bình phương trung bình là s = ​​10, kích thước quần thể là N = 500 và sai số tối đa của giá trị trung bình là Δ x = 3. Thay các giá trị này vào công thức, ta được:

những thứ kia. Chỉ cần lấy mẫu gồm 41 doanh nghiệp để ước tính tham số cần thiết - tốc độ giải quyết với chủ nợ là đủ.