Độ lệch chuẩn được biểu thị bằng một chữ cái. Độ lệch tuyến tính và tiêu chuẩn trung bình

Độ lệch chuẩn là một trong những thuật ngữ thống kê trong thế giới doanh nghiệp mang lại sự tin cậy cho những người cố gắng diễn đạt tốt nó trong một cuộc trò chuyện hoặc thuyết trình, đồng thời để lại sự hiểu lầm mơ hồ cho những người không biết nó là gì nhưng lại quá xấu hổ. hỏi. Trên thực tế, hầu hết các nhà quản lý đều không hiểu khái niệm về độ lệch chuẩn và nếu bạn là một trong số họ thì đã đến lúc bạn nên ngừng sống dối trá. Trong bài viết hôm nay, tôi sẽ cho bạn biết cách đo lường thống kê bị đánh giá thấp này có thể giúp bạn hiểu rõ hơn về dữ liệu bạn đang làm việc.

Độ lệch chuẩn đo lường điều gì?

Hãy tưởng tượng rằng bạn là chủ sở hữu của hai cửa hàng. Và để tránh thua lỗ, điều quan trọng là phải kiểm soát rõ ràng số dư hàng tồn kho. Trong nỗ lực tìm ra người quản lý nào quản lý hàng tồn kho tốt hơn, bạn quyết định phân tích hàng tồn kho trong sáu tuần qua. Chi phí tồn kho trung bình hàng tuần của cả hai cửa hàng là gần như nhau và lên tới khoảng 32 đơn vị thông thường. Thoạt nhìn, dòng chảy trung bình cho thấy cả hai nhà quản lý đều hoạt động tương tự nhau.

Nhưng nếu bạn xem xét kỹ hơn các hoạt động của cửa hàng thứ hai, bạn sẽ tin rằng mặc dù giá trị trung bình là chính xác nhưng mức độ biến động của cổ phiếu là rất cao (từ 10 đến 58 USD). Vì vậy, chúng ta có thể kết luận rằng mức trung bình không phải lúc nào cũng đánh giá dữ liệu một cách chính xác. Đây là nơi độ lệch chuẩn xuất hiện.

Độ lệch chuẩn cho thấy các giá trị được phân bổ như thế nào so với giá trị trung bình trong tệp . Nói cách khác, bạn có thể hiểu mức độ chênh lệch của dòng chảy từ tuần này sang tuần khác.

Trong ví dụ của chúng tôi, chúng tôi đã sử dụng hàm STANDARDEVAL của Excel để tính độ lệch chuẩn cùng với giá trị trung bình.

Trong trường hợp của người quản lý đầu tiên, độ lệch chuẩn là 2. Điều này cho chúng ta biết rằng trung bình mỗi giá trị trong mẫu lệch 2 so với giá trị trung bình. Điều này có tốt không? Hãy xem xét câu hỏi từ một góc độ khác - độ lệch chuẩn bằng 0 cho chúng ta biết rằng mỗi giá trị trong mẫu bằng giá trị trung bình của nó (trong trường hợp của chúng ta là 32,2). Do đó, độ lệch chuẩn 2 không khác nhiều so với 0, cho thấy hầu hết các giá trị đều gần với giá trị trung bình. Độ lệch chuẩn càng gần 0 thì giá trị trung bình càng đáng tin cậy. Hơn nữa, độ lệch chuẩn gần bằng 0 cho thấy có ít sự thay đổi trong dữ liệu. Nghĩa là, giá trị dòng chảy có độ lệch chuẩn là 2 cho thấy sự nhất quán đáng kinh ngạc của người quản lý đầu tiên.

Trong trường hợp cửa hàng thứ hai, độ lệch chuẩn là 18,9. Nghĩa là, chi phí dòng chảy trung bình chênh lệch 18,9 so với giá trị trung bình từ tuần này sang tuần khác. Sự lây lan điên cuồng! Độ lệch chuẩn càng xa 0 thì giá trị trung bình càng kém chính xác. Trong trường hợp của chúng tôi, con số 18,9 chỉ ra rằng giá trị trung bình (32,8 USD mỗi tuần) đơn giản là không thể tin cậy được. Nó cũng cho chúng ta biết rằng lượng nước chảy hàng tuần rất khác nhau.

Tóm lại đây là khái niệm về độ lệch chuẩn. Mặc dù nó không cung cấp cái nhìn sâu sắc về các phép đo thống kê quan trọng khác (Chế độ, Trung vị...), nhưng trên thực tế, độ lệch chuẩn đóng một vai trò quan trọng trong hầu hết các phép tính thống kê. Hiểu các nguyên tắc của độ lệch chuẩn sẽ làm sáng tỏ nhiều quy trình kinh doanh của bạn.

Làm thế nào để tính độ lệch chuẩn?

Vậy bây giờ chúng ta đã biết số độ lệch chuẩn nói lên điều gì. Hãy tìm hiểu làm thế nào nó được tính toán.

Hãy xem tập dữ liệu từ 10 đến 70 theo các bước 10. Như bạn có thể thấy, tôi đã tính giá trị độ lệch chuẩn cho chúng bằng cách sử dụng hàm STANDARDEV trong ô H2 (màu cam).

Dưới đây là các bước Excel thực hiện để đạt đến phiên bản 21.6.

Xin lưu ý rằng tất cả các tính toán đều được hiển thị trực quan để bạn hiểu rõ hơn. Trên thực tế, trong Excel, quá trình tính toán diễn ra ngay lập tức, bỏ qua tất cả các bước.

Đầu tiên, Excel tìm giá trị trung bình của mẫu. Trong trường hợp của chúng tôi, giá trị trung bình hóa ra là 40, giá trị này sẽ được trừ vào mỗi giá trị mẫu ở bước tiếp theo. Mỗi sự khác biệt thu được sẽ được bình phương và tính tổng. Chúng ta có tổng bằng 2800, số này phải được chia cho số phần tử mẫu trừ 1. Vì chúng ta có 7 phần tử nên hóa ra chúng ta cần chia 2800 cho 6. Từ kết quả thu được, chúng ta tìm được căn bậc hai, đây là con số sẽ là độ lệch chuẩn.

Đối với những người chưa hoàn toàn hiểu rõ về nguyên tắc tính độ lệch chuẩn bằng cách sử dụng trực quan, tôi đưa ra cách giải thích toán học về việc tìm giá trị này.

Hàm tính độ lệch chuẩn trong Excel

Excel có một số loại công thức độ lệch chuẩn. Tất cả những gì bạn phải làm là gõ =STDEV và bạn sẽ tự mình nhìn thấy.

Điều đáng chú ý là các hàm STDEV.V và STDEV.G (hàm thứ nhất và thứ hai trong danh sách) lần lượt trùng lặp với các hàm STDEV và STDEV (hàm thứ năm và thứ sáu trong danh sách), được giữ lại để tương thích với các hàm trước đó. các phiên bản Excel.

Nhìn chung, sự khác biệt về phần cuối của hàm .B và .G cho thấy nguyên tắc tính độ lệch chuẩn của một mẫu hoặc tổng thể. Tôi đã giải thích sự khác biệt giữa hai mảng này ở phần trước.

Điểm đặc biệt của hàm STANDARDEV và STANDDREV (hàm thứ ba và thứ tư trong danh sách) là khi tính độ lệch chuẩn của một mảng, các giá trị logic và văn bản sẽ được tính đến. Văn bản và giá trị boolean thực là 1 và giá trị boolean sai là 0. Tôi không thể tưởng tượng được tình huống mà tôi sẽ cần hai hàm này, vì vậy tôi nghĩ chúng có thể bị bỏ qua.

Tài liệu từ Wikipedia - bách khoa toàn thư miễn phí

Độ lệch chuẩn(từ đồng nghĩa: độ lệch chuẩn, độ lệch chuẩn, độ lệch vuông; điều khoản liên quan: độ lệch chuẩn, chênh lệch tiêu chuẩn) - trong lý thuyết xác suất và thống kê, chỉ báo phổ biến nhất về sự phân tán các giá trị của một biến ngẫu nhiên so với kỳ vọng toán học của nó. Với các mảng mẫu giá trị giới hạn, thay vì kỳ vọng toán học, giá trị trung bình số học của tập hợp mẫu được sử dụng.

Khái niệm cơ bản

Độ lệch chuẩn được đo bằng đơn vị của chính biến ngẫu nhiên và được sử dụng khi tính sai số chuẩn của giá trị trung bình số học, khi xây dựng khoảng tin cậy, khi kiểm tra thống kê các giả thuyết, khi đo mối quan hệ tuyến tính giữa các biến ngẫu nhiên. Được xác định là căn bậc hai của phương sai của một biến ngẫu nhiên.

Độ lệch chuẩn:

$\sigma=\sqrt(\frac(1)(n)\sum_(i=1)^n\left(x_i-\bar(x)\right)^2).$

Độ lệch chuẩn(ước tính độ lệch chuẩn của một biến ngẫu nhiên x liên quan đến kỳ vọng toán học của nó dựa trên ước tính không thiên vị về phương sai của nó) $S$ :

$s=\sqrt(\frac(n)(n-1)\sigma^2)=\sqrt(\frac(1)(n-1)\sum_(i=1)^n\left(x_i-\bar (x)\right)^2);$

Quy tắc ba sigma

Quy tắc ba sigma ( $3\sigma$ ) - hầu hết các giá trị của một biến ngẫu nhiên có phân phối chuẩn đều nằm trong khoảng $\left(\bar(x)-3\sigma;\bar(x)+3\sigma\right)$ . Nghiêm ngặt hơn - với xác suất xấp xỉ 0,9973, giá trị của biến ngẫu nhiên có phân phối chuẩn nằm trong khoảng xác định (với điều kiện là giá trị đó $\bar(x)$ đúng và không thu được do xử lý mẫu).

Nếu giá trị thực $\bar(x)$ chưa được biết thì bạn không nên sử dụng $\sigma$ , MỘT S. Như vậy, quy tắc ba sigma được chuyển thành quy tắc ba S .

Giải thích giá trị độ lệch chuẩn

Giá trị độ lệch chuẩn lớn hơn cho thấy mức độ chênh lệch lớn hơn của các giá trị trong tập hợp được trình bày với giá trị trung bình của tập hợp; tương ứng, một giá trị nhỏ hơn cho thấy rằng các giá trị trong tập hợp được nhóm xung quanh giá trị trung bình.

Ví dụ: chúng ta có ba bộ số: (0, 0, 14, 14), (0, 6, 8, 14) và (6, 6, 8, 8). Cả ba bộ đều có giá trị trung bình bằng 7 và độ lệch chuẩn tương ứng là 7, 5 và 1. Bộ cuối cùng có độ lệch chuẩn nhỏ, vì các giá trị trong bộ được nhóm xung quanh giá trị trung bình; tập đầu tiên có giá trị độ lệch chuẩn lớn nhất - các giá trị trong tập khác nhau rất nhiều so với giá trị trung bình.

Theo nghĩa chung, độ lệch chuẩn có thể được coi là thước đo độ không chắc chắn. Ví dụ, trong vật lý, độ lệch chuẩn được sử dụng để xác định sai số của một loạt phép đo liên tiếp của một đại lượng nào đó. Giá trị này rất quan trọng để xác định tính hợp lý của hiện tượng đang nghiên cứu so với giá trị được dự đoán bởi lý thuyết: nếu giá trị trung bình của các phép đo khác biệt rất nhiều so với các giá trị được lý thuyết dự đoán (độ lệch chuẩn lớn), thì các giá trị thu được hoặc phương pháp lấy chúng phải được kiểm tra lại.

Ứng dụng thực tế

Trong thực tế, độ lệch chuẩn cho phép bạn ước tính số lượng giá trị từ một tập hợp có thể khác với giá trị trung bình.

Kinh tế và tài chính

Độ lệch chuẩn của lợi nhuận danh mục đầu tư $\sigma =\sqrt(D[X])$ được xác định với rủi ro danh mục đầu tư.

Khí hậu

Giả sử có hai thành phố có cùng nhiệt độ trung bình tối đa hàng ngày, nhưng một thành phố nằm ở bờ biển và thành phố kia nằm ở đồng bằng. Được biết, các thành phố nằm ven biển có nhiều nhiệt độ ban ngày tối đa khác nhau thấp hơn các thành phố nằm trong đất liền. Do đó, độ lệch chuẩn của nhiệt độ tối đa hàng ngày ở một thành phố ven biển sẽ nhỏ hơn ở thành phố thứ hai, mặc dù thực tế là giá trị trung bình của giá trị này là như nhau, điều này trong thực tế có nghĩa là xác suất để nhiệt độ không khí tối đa trên bất kỳ ngày nào trong năm sẽ có chênh lệch cao hơn so với giá trị trung bình, cao hơn đối với một thành phố nằm trong đất liền.

Thể thao

Giả sử rằng có một số đội bóng được đánh giá dựa trên một số thông số, chẳng hạn như số bàn thắng ghi được và số bàn thua, cơ hội ghi bàn, v.v. Rất có thể đội tốt nhất trong nhóm này sẽ có giá trị tốt hơn trên một số lượng lớn hơn các tham số. Độ lệch chuẩn của nhóm đối với từng thông số được trình bày càng nhỏ thì kết quả của nhóm đó càng cân bằng; Mặt khác, một đội có độ lệch chuẩn lớn thì khó dự đoán kết quả, điều này được giải thích là do sự mất cân bằng, chẳng hạn như phòng thủ mạnh nhưng tấn công yếu.

Ở mức độ này hay mức độ khác, việc sử dụng độ lệch chuẩn của các tham số của đội giúp có thể dự đoán kết quả trận đấu giữa hai đội, đánh giá điểm mạnh và điểm yếu của các đội và từ đó đánh giá các phương pháp chiến đấu đã chọn.

Xem thêm

Viết nhận xét về bài viết “Độ lệch bình phương căn bậc hai”

Văn học

Borovikov V. THỐNG KÊ. Nghệ thuật phân tích dữ liệu trên máy tính: Dành cho chuyên gia / V. Borovikov. - St.Petersburg. : Peter, 2003. - 688 tr. - ISBN 5-272-00078-1..

chỉ số thống kê

mô tả
thống kê

Thống kê
đầu ra và
bài kiểm tra
giả thuyết







Đánh giá chung

Tương quan và
hồi quy

đồ họa
phương pháp

Một đoạn trích mô tả Độ lệch chuẩn

Và nhanh chóng mở cửa, anh bước ra ban công với những bước đi dứt khoát. Cuộc trò chuyện đột nhiên dừng lại, mũ và mũ được cởi ra, mọi ánh mắt đổ dồn về phía bá tước vừa bước ra.
- Xin chào các bạn! - ông đếm nói nhanh và lớn tiếng. - Cảm ơn vì đã đến. Bây giờ tôi sẽ ra gặp bạn, nhưng trước hết chúng ta cần phải đối phó với kẻ thủ ác. Chúng ta cần trừng phạt kẻ thủ ác đã giết Moscow. Đợi tôi nhé! “Và bá tước nhanh chóng quay trở lại phòng của mình, đóng sầm cửa lại.
Một tiếng rì rầm vui sướng lan khắp đám đông. “Điều đó có nghĩa là anh ta sẽ kiểm soát tất cả những kẻ phản diện! Và bạn nói tiếng Pháp... anh ấy sẽ cho bạn toàn bộ khoảng cách! - người ta nói như trách móc nhau thiếu niềm tin.
Vài phút sau, một sĩ quan vội vàng bước ra từ cửa trước, ra lệnh gì đó, và lũ rồng đứng dậy. Đám đông từ ban công háo hức tiến về phía hiên nhà. Bước ra ngoài hiên với những bước chân giận dữ, nhanh nhẹn, Rostopchin vội vàng nhìn quanh như đang tìm ai.
-Anh ấy đâu rồi? - bá tước nói, và ngay lúc nói điều này, ông nhìn thấy từ góc nhà bước ra giữa hai con rồng, một thanh niên có chiếc cổ dài gầy, đầu cạo trọc một nửa và mọc um tùm. Chàng trai trẻ này mặc bộ đồ từng là một chiếc áo khoác da cáo tồi tàn phủ vải màu xanh bảnh bao và chiếc quần hậu cung bẩn thỉu của tù nhân, nhét vào đôi ủng mỏng sờn rách, bẩn thỉu. Những chiếc cùm nặng trĩu trên đôi chân gầy gò, yếu đuối của chàng trai khiến việc bước đi do dự của chàng trai trở nên khó khăn.
- MỘT! - Rastopchin nói, vội vàng rời mắt khỏi chàng trai trẻ mặc áo khoác da cáo và chỉ về bậc dưới cùng của hiên nhà. - Đặt nó ở đây! “Người thanh niên, khua khoắng xiềng xích, nặng nề bước lên bậc thang đã chỉ định, dùng ngón tay giữ cổ áo khoác da cừu đang ấn vào, quay cái cổ dài hai lần và thở dài, khoanh đôi tay gầy guộc, không hoạt động trước mặt. bụng anh ta với một cử chỉ phục tùng.
Sự im lặng tiếp tục trong vài giây trong khi chàng trai đứng lên bậc thềm. Chỉ ở những hàng người phía sau chen chúc vào một chỗ mới nghe thấy những tiếng rên rỉ, rên rỉ, xóc nảy và tiếng bước chân bước đi nặng nề.
Rastopchin đợi anh dừng lại ở nơi quy định, cau mày lấy tay xoa mặt.
- Các bạn! - Rastopchin nói với giọng vang như kim loại, - người đàn ông này, Vereshchagin, chính là tên vô lại đã khiến Moscow thiệt mạng.
Một thanh niên mặc áo khoác da cừu cáo đứng trong tư thế phục tùng, chắp hai tay vào nhau trước bụng và hơi khom người. Khuôn mặt trẻ hốc hác của anh ta, với vẻ mặt tuyệt vọng, bị biến dạng bởi cái đầu cạo trọc, buồn bã. Khi đếm những lời đầu tiên, anh ta từ từ ngẩng đầu lên và nhìn xuống số đếm, như thể muốn nói với anh ta điều gì đó hoặc ít nhất là bắt gặp ánh mắt của anh ta. Nhưng Rastopchin không nhìn anh. Trên chiếc cổ dài gầy như sợi dây thừng của chàng trai trẻ, mạch máu sau tai căng lên, chuyển sang màu xanh, mặt đột nhiên đỏ bừng.
Mọi ánh mắt đều đổ dồn vào anh. Anh ta nhìn đám đông, và như thể được khích lệ bởi biểu cảm mà anh ta đọc được trên khuôn mặt của mọi người, anh ta mỉm cười buồn bã và rụt rè, rồi lại cúi đầu xuống, đặt chân lên bậc thang.
“Ông ấy đã phản bội sa hoàng và tổ quốc của mình, ông ấy đã nộp mình cho Bonaparte, ông ấy là người duy nhất trong số tất cả người Nga đã làm ô danh người Nga, và Matxcơva sẽ diệt vong vì ông ấy,” Rastopchin nói bằng một giọng đều đều và sắc bén; nhưng đột nhiên anh nhanh chóng nhìn xuống Vereshchagin, người vẫn tiếp tục đứng trong tư thế phục tùng như cũ. Như thể cái nhìn này đã làm anh ta nổ tung, anh ta giơ tay gần như hét lên, quay về phía mọi người: "Hãy xử lý hắn theo phán đoán của các bạn!" Tôi đang đưa nó cho bạn!
Mọi người im lặng và chỉ ép nhau ngày càng gần hơn. Ôm nhau, hít thở thứ ngột ngạt nhiễm trùng này, không còn sức để cử động và chờ đợi một điều gì đó chưa biết, không thể hiểu được và khủng khiếp đã trở nên không thể chịu đựng được. Những người đứng ở hàng ghế đầu, nhìn thấy và nghe thấy mọi chuyện đang diễn ra trước mặt, đều trợn mắt há hốc đầy sợ hãi, dùng hết sức lực để chống đỡ áp lực của những người phía sau trên lưng.
- Đánh hắn!.. Hãy để kẻ phản bội chết đi và không làm ô nhục tên tuổi của người Nga! - Rastopchin hét lên. - Ruby! Tôi chỉ huy! “Không nghe thấy lời nói mà là những âm thanh giận dữ trong giọng nói của Rastopchin, đám đông rên rỉ và tiến về phía trước, nhưng lại dừng lại.
“Đếm!..” Giọng nói rụt rè nhưng đồng thời đầy kịch tính của Vereshchagin vang lên giữa sự im lặng nhất thời lại xảy ra sau đó. “Bá tước, có một vị thần ở trên chúng ta…” Vereshchagin nói, ngẩng đầu lên, và một lần nữa đường gân dày trên chiếc cổ gầy gò của anh ta chứa đầy máu, màu sắc nhanh chóng xuất hiện và biến mất khỏi khuôn mặt anh ta. Anh ấy chưa nói xong điều mình muốn nói.
- Chém hắn đi! Tôi ra lệnh!.. - Rastopchin hét lên, đột nhiên tái mặt giống như Vereshchagin.
- Saber ra ngoài! - viên sĩ quan hét lên với những con rồng, tự mình rút kiếm.
Một làn sóng khác thậm chí còn mạnh hơn quét qua mọi người, và chạm tới các hàng ghế đầu, làn sóng này làm rung chuyển các hàng ghế đầu, khiến họ loạng choạng và đưa họ đến tận bậc thềm hiên nhà. Một người đàn ông cao lớn, với vẻ mặt hóa đá và cánh tay giơ lên dừng lại, đứng cạnh Vereshchagin.
- Ruby! - Gần như một sĩ quan thì thầm với những con rồng, và một trong những người lính bất ngờ với khuôn mặt nhăn nhó vì tức giận, dùng một thanh kiếm cùn đánh vào đầu Vereshchagin.
"MỘT!" - Vereshchagin kêu lên ngắn gọn và ngạc nhiên, sợ hãi nhìn xung quanh và như thể không hiểu tại sao điều này lại xảy ra với mình. Tiếng rên rỉ kinh ngạc và kinh hãi tương tự lan khắp đám đông.
"Ôi chúa ơi!" – tiếng kêu buồn bã của ai đó vang lên.
Nhưng sau tiếng kêu kinh ngạc thoát ra khỏi Vereshchagin, anh ta kêu lên đau đớn một cách đáng thương, và tiếng kêu này đã giết chết anh ta. Rào cản cảm xúc của con người, được kéo dài đến mức cao nhất, vẫn níu chân đám đông, lập tức bị phá vỡ. Tội ác đã bắt đầu thì cần phải hoàn thành. Tiếng rên rỉ trách móc đáng thương đã bị át đi bởi tiếng gầm thét đầy đe dọa và giận dữ của đám đông. Giống như đợt thứ bảy vừa qua, làm vỡ tàu, đợt sóng cuối cùng không thể ngăn cản này nổi lên từ hàng sau, tiến tới hàng trước, đánh ngã họ và hấp thụ mọi thứ. Con rồng vừa đánh muốn lặp lại cú đánh của mình. Vereshchagin, với một tiếng kêu kinh hoàng, dùng tay che chắn cho mình, lao về phía mọi người. Người đàn ông cao lớn mà anh ta đụng phải đã dùng tay nắm lấy chiếc cổ gầy gò của Vereshchagin và cùng với một tiếng kêu hoang dã, anh ta và anh ta ngã xuống dưới chân đám đông đang gầm thét.
Một số đánh và xé xác Vereshchagin, những người khác thì cao và nhỏ. Và tiếng kêu la của những người bị đè bẹp và những người cố gắng cứu người đàn ông cao lớn chỉ làm dấy lên cơn thịnh nộ của đám đông. Trong một thời gian dài, những con rồng không thể giải thoát được người công nhân nhà máy đầy máu, bị đánh gần chết. Và trong một thời gian dài, bất chấp sự vội vã cuồng nhiệt mà đám đông cố gắng hoàn thành công việc khi mới bắt đầu, những kẻ đánh đập, bóp cổ và xé xác Vereshchagin vẫn không thể giết được anh ta; nhưng đám đông dồn ép họ từ mọi phía, với họ ở giữa, giống như một khối, lắc lư từ bên này sang bên kia và không cho họ cơ hội để kết liễu hay ném anh ta.

Điều đáng lưu ý là cách tính phương sai này có một nhược điểm - nó có tính sai lệch, tức là. kỳ vọng toán học của nó không bằng giá trị thực của phương sai. Đọc thêm về điều này. Đồng thời, không phải mọi thứ đều tệ như vậy. Khi kích thước mẫu tăng lên, nó vẫn đạt đến mức tương tự về mặt lý thuyết, tức là là tiệm cận không thiên lệch. Vì vậy, khi làm việc với cỡ mẫu lớn, bạn có thể sử dụng công thức trên.

Sẽ rất hữu ích nếu dịch ngôn ngữ ký hiệu sang ngôn ngữ của từ ngữ. Hóa ra phương sai là bình phương trung bình của các độ lệch. Nghĩa là, giá trị trung bình được tính toán đầu tiên, sau đó chênh lệch giữa mỗi giá trị ban đầu và trung bình được lấy, bình phương, cộng lại, sau đó chia cho số giá trị trong tổng thể. Sự khác biệt giữa một giá trị riêng lẻ và giá trị trung bình phản ánh thước đo độ lệch. Nó được bình phương sao cho tất cả các độ lệch chỉ trở thành số dương và tránh sự phá hủy lẫn nhau của các độ lệch dương và âm khi tổng hợp chúng. Sau đó, với độ lệch bình phương, chúng ta chỉ cần tính giá trị trung bình số học. Trung bình - bình phương - độ lệch. Độ lệch được bình phương và tính giá trị trung bình. Giải pháp chỉ nằm trong ba từ.

Tuy nhiên, ở dạng thuần túy, chẳng hạn như trung bình số học hoặc chỉ số, độ phân tán không được sử dụng. Nó đúng hơn là một chỉ báo phụ trợ và trung gian cần thiết cho các loại phân tích thống kê khác. Nó thậm chí không có đơn vị đo lường bình thường. Đánh giá theo công thức, đây là bình phương của đơn vị đo của dữ liệu gốc. Như người ta nói, nếu không có chai, bạn không thể hiểu được.

(mô-đun 111)

Để đưa phương sai về thực tế, tức là sử dụng nó cho những mục đích thông thường hơn, căn bậc hai được rút ra từ nó. Hóa ra cái gọi là độ lệch chuẩn (RMS). Có những cái tên “độ lệch chuẩn” hoặc “sigma” (từ tên của chữ cái Hy Lạp). Công thức độ lệch chuẩn là:

Để có được chỉ số này cho mẫu, hãy sử dụng công thức:

Giống như phương sai, có một tùy chọn tính toán hơi khác. Nhưng khi mẫu phát triển, sự khác biệt sẽ biến mất.

Rõ ràng, độ lệch chuẩn cũng đặc trưng cho thước đo độ phân tán dữ liệu, nhưng bây giờ (không giống như độ phân tán) nó có thể được so sánh với dữ liệu gốc vì chúng có cùng đơn vị đo (điều này rõ ràng từ công thức tính toán). Nhưng ngay cả chỉ báo này ở dạng thuần túy cũng không có nhiều thông tin vì nó chứa quá nhiều phép tính trung gian gây nhầm lẫn (độ lệch, bình phương, tổng, trung bình, căn). Tuy nhiên, bạn đã có thể làm việc trực tiếp với độ lệch chuẩn vì các đặc tính của chỉ báo này đã được nghiên cứu và biết rõ. Ví dụ, có cái này quy tắc ba sigma, cho biết dữ liệu có 997 giá trị trong số 1000 giá trị trong phạm vi ±3 sigma của giá trị trung bình số học. Độ lệch chuẩn, như một thước đo độ không đảm bảo, cũng liên quan đến nhiều tính toán thống kê. Với sự trợ giúp của nó, mức độ chính xác của các ước tính và dự báo khác nhau được xác định. Nếu độ biến thiên rất lớn thì độ lệch chuẩn cũng sẽ lớn và do đó dự báo sẽ không chính xác, chẳng hạn như điều này sẽ được biểu thị trong khoảng tin cậy rất rộng.

Hệ số biến thiên

Độ lệch chuẩn đưa ra ước tính tuyệt đối về thước đo độ phân tán. Do đó, để hiểu mức chênh lệch lớn như thế nào so với bản thân các giá trị (tức là bất kể quy mô của chúng), cần phải có một chỉ báo tương đối. Chỉ số này được gọi hệ số biến thiên và được tính bằng công thức sau:

Hệ số biến thiên được đo bằng phần trăm (nếu nhân với 100%). Sử dụng chỉ báo này, bạn có thể so sánh nhiều hiện tượng khác nhau, bất kể quy mô và đơn vị đo lường của chúng. Thực tế này là lý do khiến hệ số biến thiên trở nên phổ biến.

Trong thống kê, người ta chấp nhận rằng nếu giá trị của hệ số biến thiên nhỏ hơn 33% thì quần thể được coi là đồng nhất; nếu lớn hơn 33% thì quần thể đó không đồng nhất. Thật khó để tôi bình luận về bất cứ điều gì ở đây. Tôi không biết ai đã định nghĩa điều này và tại sao, nhưng nó được coi là một tiên đề.

Tôi cảm thấy mình bị cuốn theo lý thuyết khô khan và cần đưa ra một cái gì đó trực quan và tượng hình. Mặt khác, tất cả các chỉ số biến thể đều mô tả gần giống nhau, chỉ có điều chúng được tính toán khác nhau. Vì vậy, rất khó để đưa ra nhiều ví dụ khác nhau, chỉ có giá trị của các chỉ số mới có thể khác nhau chứ không phải bản chất của chúng. Vì vậy, hãy so sánh giá trị của các chỉ báo biến thể khác nhau như thế nào đối với cùng một bộ dữ liệu. Hãy lấy ví dụ tính độ lệch tuyến tính trung bình (từ ). Dưới đây là dữ liệu nguồn:

Và một lịch trình để nhắc nhở bạn.

Sử dụng những dữ liệu này, chúng tôi tính toán các chỉ số biến đổi khác nhau.

Giá trị trung bình là giá trị trung bình số học thông thường.

Phạm vi biến đổi là sự khác biệt giữa mức tối đa và tối thiểu:

Độ lệch tuyến tính trung bình được tính bằng công thức:

Độ lệch chuẩn:

Hãy tóm tắt phép tính trong một bảng.

Có thể thấy, giá trị trung bình tuyến tính và độ lệch chuẩn cho các giá trị tương tự nhau về mức độ biến đổi của dữ liệu. Phương sai là bình phương sigma, vì vậy nó sẽ luôn là một con số tương đối lớn, trên thực tế, con số này không có ý nghĩa gì cả. Phạm vi biến đổi là sự khác biệt giữa các giá trị cực trị và có thể nói lên nhiều điều.

Hãy tóm tắt một số kết quả.

Sự biến đổi của một chỉ số phản ánh sự biến đổi của một quá trình hoặc hiện tượng. Mức độ của nó có thể được đo bằng cách sử dụng một số chỉ số.

1. Phạm vi biến đổi - sự khác biệt giữa mức tối đa và tối thiểu. Phản ánh phạm vi của các giá trị có thể.
2. Độ lệch tuyến tính trung bình – phản ánh mức trung bình của độ lệch tuyệt đối (modulo) của tất cả các giá trị của tổng thể được phân tích so với giá trị trung bình của chúng.
3. Độ phân tán - bình phương độ lệch trung bình.
4. Độ lệch chuẩn là gốc của độ phân tán (bình phương trung bình của độ lệch).
5. Hệ số biến thiên là chỉ số phổ biến nhất, phản ánh mức độ phân tán của các giá trị, bất kể quy mô và đơn vị đo lường của chúng. Hệ số biến thiên được đo bằng phần trăm và có thể được sử dụng để so sánh sự biến thiên của các quá trình và hiện tượng khác nhau.

Như vậy, trong phân tích thống kê có hệ thống các chỉ tiêu phản ánh tính đồng nhất của các hiện tượng và tính ổn định của các quá trình. Thông thường, các chỉ số biến thiên không có ý nghĩa độc lập và được sử dụng để phân tích dữ liệu sâu hơn (tính khoảng tin cậy).

Độ lệch chuẩn

Đặc tính hoàn hảo nhất của biến thiên là độ lệch bình phương trung bình, được gọi là độ lệch chuẩn (hoặc độ lệch chuẩn). Độ lệch chuẩn() bằng căn bậc hai của độ lệch bình phương trung bình của các giá trị riêng lẻ của thuộc tính so với giá trị trung bình số học:

Độ lệch chuẩn rất đơn giản:

Độ lệch chuẩn có trọng số được áp dụng cho dữ liệu được nhóm:

Tỷ lệ sau đây diễn ra giữa bình phương trung bình và độ lệch tuyến tính trung bình trong điều kiện phân phối chuẩn: ~ 1,25.

Độ lệch chuẩn, là thước đo biến thiên tuyệt đối chính, được sử dụng để xác định các giá trị tọa độ của đường cong phân phối chuẩn, trong các tính toán liên quan đến việc tổ chức quan sát mẫu và thiết lập độ chính xác của các đặc tính mẫu, cũng như trong việc đánh giá giới hạn biến thiên của một tính trạng trong một quần thể đồng nhất.

18. Phương sai, các loại, độ lệch chuẩn.

Phương sai của một biến ngẫu nhiên- thước đo mức độ phân tán của một biến ngẫu nhiên nhất định, tức là độ lệch của nó so với kỳ vọng toán học. Trong thống kê, ký hiệu or thường được sử dụng. Căn bậc hai của phương sai thường được gọi là độ lệch chuẩn, độ lệch chuẩn hoặc chênh lệch tiêu chuẩn.

Tổng phương sai (σ 2) đo lường toàn bộ sự biến đổi của một tính trạng dưới tác động của tất cả các yếu tố gây ra sự biến đổi này. Đồng thời, nhờ phương pháp phân nhóm có thể xác định và đo lường được sự biến động do đặc tính phân nhóm và sự biến động phát sinh dưới tác động của các yếu tố chưa được tính toán.

Phương sai giữa các nhóm (σ 2 m.gr) đặc trưng cho sự biến đổi có hệ thống, tức là sự khác biệt về giá trị của đặc điểm được nghiên cứu phát sinh dưới tác động của đặc điểm - yếu tố hình thành nên cơ sở của nhóm.

Độ lệch chuẩn(từ đồng nghĩa: độ lệch chuẩn, độ lệch chuẩn, độ lệch vuông; điều khoản liên quan: độ lệch chuẩn, chênh lệch tiêu chuẩn) - trong lý thuyết xác suất và thống kê, chỉ số phổ biến nhất về sự phân tán các giá trị của một biến ngẫu nhiên so với kỳ vọng toán học của nó. Với mảng giá trị mẫu giới hạn, giá trị trung bình số học của tập hợp mẫu được sử dụng thay cho kỳ vọng toán học.

Độ lệch chuẩn được đo bằng đơn vị đo của chính biến ngẫu nhiên và được sử dụng khi tính sai số chuẩn của giá trị trung bình số học, khi xây dựng khoảng tin cậy, khi kiểm tra thống kê các giả thuyết, khi đo mối quan hệ tuyến tính giữa các biến ngẫu nhiên. Được xác định là căn bậc hai của phương sai của một biến ngẫu nhiên.

Độ lệch chuẩn:

Độ lệch chuẩn(ước tính độ lệch chuẩn của một biến ngẫu nhiên x liên quan đến kỳ vọng toán học của nó dựa trên ước tính không thiên vị về phương sai của nó):

sự phân tán ở đâu; - Tôi yếu tố thứ của sự lựa chọn; - cỡ mẫu; - giá trị trung bình số học của mẫu:

Cần lưu ý rằng cả hai ước tính đều sai lệch. Trong trường hợp tổng quát, không thể xây dựng được một ước lượng khách quan. Trong trường hợp này, ước tính dựa trên ước tính phương sai không chệch là nhất quán.

19. Bản chất, phạm vi, thủ tục xác định phương thức và số trung vị.

Ngoài công suất trung bình trong thống kê, để mô tả đặc tính tương đối của giá trị của một đặc tính khác nhau và cấu trúc bên trong của chuỗi phân phối, các giá trị trung bình cấu trúc được sử dụng, được biểu thị chủ yếu bằng thời trang và trung bình.

Thời trang- Đây là biến thể phổ biến nhất của bộ truyện. Ví dụ, thời trang được sử dụng để xác định kích cỡ của quần áo và giày dép mà khách hàng có nhu cầu lớn nhất. Chế độ cho một chuỗi rời rạc là biến thể có tần số cao nhất. Khi tính toán chế độ cho chuỗi biến thể theo khoảng, điều cực kỳ quan trọng là trước tiên phải xác định khoảng thời gian (theo tần số tối đa) và sau đó - giá trị của giá trị phương thức của thuộc tính bằng công thức:

§ - ý nghĩa của thời trang

§ - giới hạn dưới của khoảng thời gian

§ - giá trị khoảng

§ - tần số khoảng thời gian

§ - tần số của khoảng trước phương thức

§ - tần số của khoảng theo phương thức

Trung vị - Giá trị này của thuộc tính, ĸᴏᴛᴏᴩᴏᴇ nằm trên cơ sở của chuỗi được xếp hạng và chia chuỗi này thành hai phần có số lượng bằng nhau.

Để xác định trung vị trong một chuỗi rời rạc nếu có tần số, trước tiên hãy tính nửa tổng tần số, sau đó xác định giá trị nào của biến thể rơi vào nó. (Nếu chuỗi được sắp xếp chứa số đặc điểm lẻ thì số trung vị được tính bằng công thức:

M e = (n (tổng số tính năng) + 1)/2,

trong trường hợp số đặc điểm chẵn thì trung vị sẽ bằng trung bình cộng của hai đặc điểm ở giữa hàng).

Khi tính trung vị cho chuỗi biến thiên theo khoảngĐầu tiên, xác định khoảng trung vị trong đó trung vị nằm trong đó, sau đó xác định giá trị của trung vị bằng công thức:

§ - trung vị cần thiết

§ - giới hạn dưới của khoảng chứa số trung vị

§ - giá trị khoảng

§ - tổng tần số hoặc số thuật ngữ chuỗi

§ - tổng tần số tích lũy của các khoảng trước trung vị

§ - tần số của khoảng trung vị

Ví dụ. Tìm mode và số trung vị.

Giải pháp: Trong ví dụ này, khoảng thời gian nằm trong nhóm tuổi 25-30, vì khoảng thời gian này có tần suất cao nhất (1054).

Hãy tính độ lớn của chế độ:

Điều này có nghĩa là độ tuổi theo phương thức của sinh viên là 27 tuổi.

Hãy tính số trung vị. Khoảng trung vị nằm trong nhóm tuổi 25-30, vì trong khoảng này có một lựa chọn chia dân số thành hai phần bằng nhau (Σf i /2 = 3462/2 = 1731). Tiếp theo, chúng ta thay thế dữ liệu số cần thiết vào công thức và lấy giá trị trung vị:

Điều này có nghĩa là một nửa số sinh viên dưới 27,4 tuổi và nửa còn lại trên 27,4 tuổi.

Ngoài chế độ và trung vị, các chỉ số như tứ phân vị được sử dụng, chia chuỗi xếp hạng thành 4 phần bằng nhau, thập phân vị - 10 phần và phân vị - thành 100 phần.

20. Khái niệm quan sát mẫu và phạm vi của nó.

quan sát có chọn lọcáp dụng khi sử dụng giám sát liên tục về mặt thể chất là không thể do một lượng lớn dữ liệu hoặc không khả thi về mặt kinh tế. Ví dụ, sự bất khả thi về mặt vật lý xảy ra khi nghiên cứu dòng hành khách, giá cả thị trường và ngân sách gia đình. Sự kém hiệu quả về mặt kinh tế xảy ra khi đánh giá chất lượng hàng hóa liên quan đến việc phá hủy chúng, chẳng hạn như nếm thử, kiểm tra độ bền của gạch, v.v.

Các đơn vị thống kê được chọn để quan sát là dân số mẫu hoặc vật mẫu và toàn bộ mảng của chúng - dân số nói chung(GS). Đồng thời số lượng đơn vị trong mẫu biểu thị N, và xuyên suốt toàn bộ GS - N. Thái độ không/không thường được gọi là kích thước tương đối hoặc chia sẻ mẫu.

Chất lượng của kết quả quan sát mẫu phụ thuộc vào tính đại diện của mẫu, nghĩa là nó có tính đại diện như thế nào trong GS. Để đảm bảo tính đại diện của mẫu, điều quan trọng là phải tuân thủ nguyên tắc lựa chọn ngẫu nhiên các đơn vị, giả định rằng việc đưa đơn vị HS vào mẫu không thể bị ảnh hưởng bởi bất kỳ yếu tố nào ngoài sự ngẫu nhiên.

tồn tại 4 cách chọn ngẫu nhiênđể lấy mẫu:

Thực sự ngẫu nhiên lựa chọn hoặc “phương pháp xổ số”, khi các giá trị thống kê được gán số sê-ri, được ghi trên một số đối tượng nhất định (ví dụ: thùng), sau đó được trộn trong một thùng chứa (ví dụ: trong túi) và được chọn ngẫu nhiên. Trong thực tế, phương pháp này được thực hiện bằng cách sử dụng bộ tạo số ngẫu nhiên hoặc bảng toán học của các số ngẫu nhiên.
Cơ khí lựa chọn theo đó mỗi ( Không có)-giá trị của tổng thể. Ví dụ: nếu nó chứa 100.000 giá trị và bạn cần chọn 1.000 thì cứ 100.000/1000 = giá trị thứ 100 sẽ được đưa vào mẫu. Hơn nữa, nếu chúng không được xếp hạng thì người đầu tiên được chọn ngẫu nhiên từ một trăm người đầu tiên, và số lượng của những người còn lại sẽ cao hơn một trăm. Ví dụ: nếu đơn vị đầu tiên là số 19 thì đơn vị tiếp theo sẽ là số 119, sau đó là số 219, rồi đến số 319, v.v. Nếu các đơn vị dân số được xếp hạng thì số 50 được chọn trước, sau đó là số 150, sau đó là số 250, v.v.
Việc lựa chọn các giá trị từ một mảng dữ liệu không đồng nhất được thực hiện phân tầng(phân tầng), khi dân số lần đầu tiên được chia thành các nhóm đồng nhất để áp dụng lựa chọn ngẫu nhiên hoặc cơ học.
Phương pháp lấy mẫu đặc biệt nối tiếp lựa chọn, trong đó họ chọn ngẫu nhiên hoặc máy móc không phải các giá trị riêng lẻ mà là chuỗi của chúng (chuỗi từ số này đến số khác trong một hàng), trong đó việc quan sát liên tục được thực hiện.

Chất lượng quan sát mẫu cũng phụ thuộc vào loại mẫu: lặp đi lặp lại hoặc không thể lặp lại. Tại lựa chọn lại Các giá trị thống kê hoặc chuỗi của chúng có trong mẫu sẽ được trả lại cho dân số chung sau khi sử dụng, có cơ hội được đưa vào mẫu mới. Hơn nữa, tất cả các giá trị trong dân số nói chung đều có cùng xác suất được đưa vào mẫu. Lựa chọn lặp lại có nghĩa là các giá trị thống kê hoặc chuỗi của chúng có trong mẫu sẽ không quay trở lại tổng thể chung sau khi sử dụng và do đó, đối với các giá trị còn lại của giá trị sau, xác suất được đưa vào mẫu tiếp theo sẽ tăng lên.

Lấy mẫu không lặp lại cho kết quả chính xác hơn và do đó được sử dụng thường xuyên hơn. Nhưng có những tình huống không thể áp dụng nó (nghiên cứu luồng hành khách, nhu cầu của người tiêu dùng, v.v.) và sau đó việc lựa chọn lặp lại được thực hiện.

21. Sai số lấy mẫu quan sát lớn nhất, sai số lấy mẫu trung bình, cách tính chúng.

Chúng ta hãy xem xét chi tiết các phương pháp hình thành một quần thể mẫu được liệt kê ở trên và các lỗi về tính đại diện phát sinh. Đúng ngẫu nhiên việc lấy mẫu dựa trên việc lựa chọn các đơn vị từ tổng thể một cách ngẫu nhiên mà không có bất kỳ yếu tố hệ thống nào. Về mặt kỹ thuật, việc lựa chọn ngẫu nhiên thực tế được thực hiện bằng cách rút thăm (ví dụ: xổ số) hoặc sử dụng bảng số ngẫu nhiên.

Lựa chọn ngẫu nhiên thích hợp “ở dạng thuần túy” hiếm khi được sử dụng trong thực hành quan sát có chọn lọc, nhưng nó là nguyên bản trong số các loại lựa chọn khác, nó thực hiện các nguyên tắc cơ bản của quan sát có chọn lọc. Chúng ta hãy xem xét một số câu hỏi về lý thuyết phương pháp lấy mẫu và công thức sai số cho một mẫu ngẫu nhiên đơn giản.

Độ lệch lấy mẫu- ϶ᴛᴏ sự khác biệt giữa giá trị của tham số trong tổng thể chung và giá trị của nó tính được từ kết quả quan trắc mẫu. Điều quan trọng cần lưu ý là đối với đặc tính định lượng trung bình, sai số lấy mẫu được xác định bởi

Chỉ báo thường được gọi là lỗi lấy mẫu tối đa. Giá trị trung bình mẫu là một biến ngẫu nhiên có thể nhận các giá trị khác nhau dựa trên đơn vị nào được đưa vào mẫu. Do đó, lỗi lấy mẫu cũng là biến ngẫu nhiên và có thể nhận các giá trị khác nhau. Vì lý do này, mức trung bình của các lỗi có thể được xác định - lỗi lấy mẫu trung bình, điều này phụ thuộc vào:

· Cỡ mẫu: số càng lớn thì sai số trung bình càng nhỏ;

· mức độ thay đổi của đặc tính đang được nghiên cứu: độ biến thiên của đặc tính càng nhỏ và do đó độ phân tán càng nhỏ thì sai số lấy mẫu trung bình càng nhỏ.

Tại lựa chọn lại ngẫu nhiên sai số trung bình được tính toán. Trong thực tế, phương sai tổng quát không được biết chính xác, nhưng trong lý thuyết xác suất người ta đã chứng minh được điều đó. Vì giá trị của n đủ lớn gần bằng 1 nên chúng ta có thể giả sử rằng . Sau đó, sai số lấy mẫu trung bình sẽ được tính: . Nhưng trong trường hợp mẫu nhỏ (với n<30) коэффициент крайне важно учитывать, и среднюю ошибку малой выборки рассчитывать по формуле .

Tại lấy mẫu ngẫu nhiên không lặp lại các công thức đã cho được điều chỉnh bởi giá trị . Khi đó sai số lấy mẫu không lặp lại trung bình là: Và . Bởi vì luôn nhỏ hơn , thì số nhân () luôn nhỏ hơn 1. Điều này có nghĩa là sai số trung bình của phép chọn lặp lại luôn nhỏ hơn so với phép chọn lặp lại. Lấy mẫu cơ họcđược sử dụng khi dân số nói chung được sắp xếp theo một cách nào đó (ví dụ: danh sách cử tri theo thứ tự bảng chữ cái, số điện thoại, số nhà và căn hộ). Việc lựa chọn các đơn vị được thực hiện trong một khoảng thời gian nhất định, bằng giá trị nghịch đảo của tỷ lệ phần trăm lấy mẫu. Vì vậy, với mẫu 2%, cứ 50 đơn vị = 1/0,02 được chọn, với mẫu 5%, cứ 1/0,05 = 20 đơn vị của dân số nói chung.

Điểm tham chiếu được chọn theo nhiều cách khác nhau: ngẫu nhiên, từ giữa khoảng, với sự thay đổi về điểm tham chiếu. Điều chính là tránh lỗi hệ thống. Ví dụ: với mẫu 5%, nếu đơn vị đầu tiên là thứ 13 thì các đơn vị tiếp theo là 33, 53, 73, v.v.

Về độ chính xác, lựa chọn cơ học gần giống với lấy mẫu ngẫu nhiên thực tế. Vì lý do này, để xác định sai số trung bình của lấy mẫu cơ học, người ta sử dụng các công thức chọn ngẫu nhiên thích hợp.

Tại lựa chọn điển hìnhđối tượng được khảo sát sơ bộ được chia thành các nhóm đồng nhất, tương tự nhau. Ví dụ, khi khảo sát doanh nghiệp là các ngành, phân ngành; khi nghiên cứu dân số là các vùng, nhóm xã hội hoặc lứa tuổi. Tiếp theo, việc lựa chọn độc lập từ mỗi nhóm được thực hiện một cách máy móc hoặc hoàn toàn ngẫu nhiên.

Lấy mẫu điển hình tạo ra kết quả chính xác hơn các phương pháp khác. Việc gõ tổng thể chung đảm bảo rằng mỗi nhóm loại hình được thể hiện trong mẫu, giúp loại bỏ ảnh hưởng của phương sai giữa các nhóm đối với sai số lấy mẫu trung bình. Vì vậy, khi tìm sai số của một mẫu điển hình theo quy tắc cộng phương sai (), điều cực kỳ quan trọng là chỉ tính đến giá trị trung bình của các phương sai nhóm. Sau đó là sai số lấy mẫu trung bình: với lấy mẫu lặp lại, với lấy mẫu không lặp lại , Ở đâu – giá trị trung bình của các phương sai trong nhóm trong mẫu.

Lựa chọn nối tiếp (hoặc lồng)được sử dụng khi dân số được chia thành chuỗi hoặc nhóm trước khi bắt đầu khảo sát mẫu. Chuỗi sản phẩm này bao gồm đóng gói thành phẩm, nhóm sinh viên và lữ đoàn. Chuỗi kiểm tra được chọn một cách máy móc hoặc hoàn toàn ngẫu nhiên và trong chuỗi kiểm tra liên tục các đơn vị được thực hiện. Vì lý do này, sai số lấy mẫu trung bình chỉ phụ thuộc vào phương sai giữa các nhóm (giữa các chuỗi), được tính bằng công thức: trong đó r là số chuỗi được chọn; - trung bình của dãy thứ i. Sai số trung bình của lấy mẫu nối tiếp được tính: với lấy mẫu lặp lại, với lấy mẫu không lặp lại , trong đó R là tổng số chuỗi. kết hợp Lựa chọn là sự kết hợp của các phương pháp lựa chọn được xem xét.

Sai số lấy mẫu trung bình của bất kỳ phương pháp lấy mẫu nào phụ thuộc chủ yếu vào cỡ tuyệt đối của mẫu và ở mức độ thấp hơn là tỷ lệ phần trăm của mẫu. Giả sử rằng 225 quan sát được thực hiện trong trường hợp đầu tiên từ dân số 4.500 đơn vị và trong trường hợp thứ hai từ dân số 225.000 đơn vị. Phương sai trong cả hai trường hợp đều bằng 25. Khi đó trong trường hợp đầu tiên, với lựa chọn 5%, sai số lấy mẫu sẽ là: Trong trường hợp thứ hai, với lựa chọn 0,1%, nó sẽ bằng:

Tuy nhiên, khi tỷ lệ lấy mẫu giảm 50 lần thì sai số lấy mẫu tăng nhẹ do cỡ mẫu không thay đổi. Giả sử rằng cỡ mẫu được tăng lên 625 quan sát. Trong trường hợp này, lỗi lấy mẫu là: Việc tăng mẫu lên 2,8 lần với cùng một cỡ tổng thể sẽ làm giảm cỡ sai số lấy mẫu hơn 1,6 lần.

22.Phương pháp và phương pháp hình thành quần thể mẫu.

Trong thống kê, các phương pháp hình thành quần thể mẫu khác nhau được sử dụng, được xác định bởi mục tiêu nghiên cứu và phụ thuộc vào đặc thù của đối tượng nghiên cứu.

Điều kiện chính để tiến hành khảo sát mẫu là ngăn ngừa xảy ra các lỗi hệ thống phát sinh do vi phạm nguyên tắc cơ hội bình đẳng cho mỗi đơn vị dân số nói chung được đưa vào mẫu. Việc ngăn ngừa các lỗi hệ thống đạt được thông qua việc sử dụng các phương pháp dựa trên cơ sở khoa học để hình thành một quần thể mẫu.

Có các phương pháp sau để chọn các đơn vị từ tổng thể chung: 1) chọn lọc riêng lẻ - các đơn vị riêng lẻ được chọn cho mẫu; 2) lựa chọn nhóm - mẫu bao gồm các nhóm hoặc loạt đơn vị đồng nhất về mặt chất lượng đang được nghiên cứu; 3) chọn lọc kết hợp là sự kết hợp giữa chọn lọc cá nhân và chọn lọc nhóm. Phương pháp lựa chọn được xác định bởi các quy tắc hình thành một quần thể mẫu.

Mẫu phải là:

thực sự ngẫu nhiên thực tế là quần thể mẫu được hình thành do sự lựa chọn ngẫu nhiên (không chủ ý) của các đơn vị riêng lẻ từ tổng thể chung. Trong trường hợp này, số lượng đơn vị được chọn trong tổng thể mẫu thường được xác định dựa trên tỷ lệ mẫu được chấp nhận. Tỷ lệ mẫu là tỷ lệ giữa số đơn vị trong quần thể mẫu n với số đơn vị trong tổng thể N, ᴛ.ᴇ.

cơ khí thực tế là việc lựa chọn các đơn vị trong quần thể mẫu được thực hiện từ tổng thể chung, được chia thành các khoảng (nhóm) bằng nhau. Trong trường hợp này, kích thước của khoảng trong tổng thể bằng nghịch đảo của phần mẫu. Vì vậy, với mẫu 2%, mỗi đơn vị thứ 50 được chọn (1:0,02), với mẫu 5%, mỗi đơn vị thứ 20 (1:0,05), v.v. Tuy nhiên, theo tỷ lệ lựa chọn được chấp nhận, dân số nói chung được chia một cách máy móc thành các nhóm bằng nhau. Từ mỗi nhóm chỉ chọn một đơn vị làm mẫu.
đặc trưng - trong đó dân số nói chung trước tiên được chia thành các nhóm điển hình đồng nhất. Tiếp theo, từ mỗi nhóm điển hình, một mẫu hoàn toàn ngẫu nhiên hoặc cơ học được sử dụng để chọn riêng các đơn vị vào quần thể mẫu. Đặc điểm quan trọng của mẫu điển hình là nó cho kết quả chính xác hơn so với các phương pháp chọn đơn vị khác trong quần thể mẫu;
nối tiếp- trong đó dân số nói chung được chia thành các nhóm có quy mô bằng nhau - chuỗi. Chuỗi được chọn vào quần thể mẫu. Trong chuỗi, việc quan sát liên tục các đơn vị có trong chuỗi được thực hiện;
kết hợp- lấy mẫu phải có hai giai đoạn. Trong trường hợp này, dân số đầu tiên được chia thành các nhóm. Tiếp theo, các nhóm được chọn và trong nhóm sau, các đơn vị riêng lẻ được chọn.

Trong thống kê, các phương pháp sau được phân biệt để chọn các đơn vị trong tổng thể mẫu:

giai đoạn duy nhất lấy mẫu - mỗi đơn vị được chọn sẽ ngay lập tức được nghiên cứu theo một tiêu chí nhất định (lấy mẫu ngẫu nhiên và nối tiếp thích hợp);
nhiều giai đoạn lấy mẫu - một lựa chọn được thực hiện từ tổng thể chung của các nhóm riêng lẻ và các đơn vị riêng lẻ được chọn từ các nhóm (lấy mẫu điển hình với phương pháp cơ học để chọn các đơn vị vào quần thể mẫu).

Ngoài ra, còn có:

lựa chọn lại- theo sơ đồ trả bóng. Trong trường hợp này, mỗi đơn vị hoặc chuỗi có trong mẫu sẽ được trả lại cho tổng thể chung và do đó có cơ hội được đưa vào mẫu một lần nữa;
lựa chọn lặp lại- theo sơ đồ bóng không trả lại. Nó có kết quả chính xác hơn với cùng cỡ mẫu.

23. Xác định cỡ mẫu cực kỳ quan trọng (sử dụng bảng t của Sinh viên).

Một trong những nguyên tắc khoa học trong lý thuyết lấy mẫu là đảm bảo chọn đủ số lượng đơn vị. Về mặt lý thuyết, tầm quan trọng cực kỳ của việc tuân thủ nguyên tắc này được thể hiện trong việc chứng minh các định lý giới hạn trong lý thuyết xác suất, giúp xác định khối lượng đơn vị nào nên được chọn từ tổng thể sao cho đủ và đảm bảo tính đại diện của mẫu.

Việc giảm sai số lấy mẫu tiêu chuẩn và do đó tăng độ chính xác của ước tính, luôn gắn liền với việc tăng cỡ mẫu; do đó, ở giai đoạn tổ chức quan sát mẫu, cần phải quyết định cỡ mẫu là bao nhiêu; của quần thể mẫu phải nhằm đảm bảo độ chính xác cần thiết của kết quả quan sát. Việc tính toán thể tích mẫu cực kỳ quan trọng được xây dựng bằng cách sử dụng các công thức rút ra từ công thức tính sai số lấy mẫu tối đa (A), tương ứng với một loại và phương pháp lựa chọn cụ thể. Vì vậy, đối với cỡ mẫu lặp lại ngẫu nhiên (n), chúng ta có:

Bản chất của công thức này là với việc lấy mẫu lặp lại ngẫu nhiên các số cực kỳ quan trọng, cỡ mẫu tỷ lệ thuận với bình phương của hệ số tin cậy. (t2) và phương sai của đặc tính biến thiên (?2) và tỷ lệ nghịch với bình phương sai số lấy mẫu tối đa (?2). Đặc biệt, khi sai số tối đa tăng lên gấp hai lần thì cỡ mẫu yêu cầu phải giảm đi bốn lần. Trong ba tham số, hai tham số (t và?) do nhà nghiên cứu đặt ra. Đồng thời, người nghiên cứu căn cứ vào mục tiêu

và các vấn đề của khảo sát mẫu phải giải quyết được câu hỏi: trong sự kết hợp định lượng nào thì tốt hơn nên đưa các tham số này vào để đảm bảo phương án tối ưu? Trong một trường hợp, anh ta có thể hài lòng hơn với độ tin cậy của kết quả thu được (t) hơn là thước đo độ chính xác (?), trong trường hợp khác - ngược lại. Việc giải quyết vấn đề liên quan đến giá trị của sai số lấy mẫu tối đa sẽ khó khăn hơn vì nhà nghiên cứu không có chỉ báo này ở giai đoạn thiết kế quan sát mẫu, do đó, trên thực tế, người ta thường đặt giá trị của sai số lấy mẫu tối đa; , thường nằm trong khoảng 10% mức trung bình dự kiến của thuộc tính . Việc thiết lập mức trung bình ước tính có thể được tiếp cận theo nhiều cách khác nhau: sử dụng dữ liệu từ các cuộc khảo sát tương tự trước đó hoặc sử dụng dữ liệu từ khung lấy mẫu và tiến hành một mẫu thí điểm nhỏ.

Điều khó thiết lập nhất khi thiết kế một quan sát mẫu là tham số thứ ba trong công thức (5.2) - phương sai của tổng thể mẫu. Trong trường hợp này, điều cực kỳ quan trọng là sử dụng tất cả thông tin có sẵn cho nhà nghiên cứu, thu được từ các cuộc khảo sát thí điểm và tương tự trước đó.

Vấn đề xác định cỡ mẫu cực kỳ quan trọng sẽ trở nên phức tạp hơn nếu việc khảo sát mẫu liên quan đến việc nghiên cứu một số đặc điểm của đơn vị lấy mẫu. Trong trường hợp này, mức trung bình của từng đặc điểm và sự biến đổi của chúng, theo quy luật, là khác nhau, và về vấn đề này, việc quyết định phương sai nào của đặc điểm nào được ưu tiên chỉ có thể thực hiện được khi tính đến mục đích và mục tiêu. của cuộc khảo sát.

Khi thiết kế một quan sát mẫu, giá trị xác định trước của sai số lấy mẫu cho phép được giả định phù hợp với mục tiêu của một nghiên cứu cụ thể và xác suất đưa ra kết luận dựa trên kết quả quan sát.

Nói chung, công thức tính sai số tối đa của giá trị trung bình mẫu cho phép chúng ta xác định:

‣‣‣ mức độ sai lệch có thể có của các chỉ số của tổng thể nói chung so với các chỉ số của tổng thể mẫu;

‣‣‣ cỡ mẫu yêu cầu đảm bảo độ chính xác yêu cầu, tại đó giới hạn sai số có thể xảy ra không vượt quá một giá trị quy định nhất định;

‣‣‣ xác suất mà sai số trong mẫu sẽ có giới hạn xác định.

Phân phối sinh viên trong lý thuyết xác suất, nó là một họ một tham số của các phân bố hoàn toàn liên tục.

24. Chuỗi động (khoảng, khoảnh khắc), chuỗi động đóng.

Chuỗi động lực học- đây là các giá trị của các chỉ số thống kê được trình bày theo trình tự thời gian nhất định.

Mỗi chuỗi thời gian bao gồm hai thành phần:

1) các chỉ số về khoảng thời gian(năm, quý, tháng, ngày hoặc ngày);

2) Các chỉ số đặc trưng cho đối tượng nghiên cứu trong những khoảng thời gian hoặc vào những ngày tương ứng, được gọi là cấp độ loạt.

Các cấp độ chuỗi được biểu thị bằng cả giá trị tuyệt đối và trung bình hoặc tương đối. Có tính đến sự phụ thuộc vào bản chất của các chỉ số, chuỗi động các giá trị tuyệt đối, tương đối và trung bình được xây dựng. Chuỗi giá trị tương đối và trung bình động được xây dựng trên cơ sở chuỗi giá trị tuyệt đối dẫn xuất. Có chuỗi động lực theo khoảng và thời điểm.

Chuỗi khoảng động chứa các giá trị của các chỉ số trong một khoảng thời gian nhất định. Trong một chuỗi khoảng thời gian, các mức có thể được cộng lại, thu được khối lượng của hiện tượng trong một khoảng thời gian dài hơn hoặc cái gọi là tổng tích lũy.

Chuỗi khoảnh khắc động phản ánh giá trị của các chỉ báo tại một thời điểm nhất định (ngày giờ). Trong chuỗi thời điểm, nhà nghiên cứu có thể chỉ quan tâm đến sự khác biệt trong các hiện tượng phản ánh sự thay đổi cấp độ của chuỗi giữa các ngày nhất định, vì tổng các cấp độ ở đây không có nội dung thực sự. Tổng số tích lũy không được tính ở đây.

Điều kiện quan trọng nhất để xây dựng đúng chuỗi thời gian là khả năng so sánh của các cấp độ loạt thuộc các thời kỳ khác nhau. Các cấp độ phải được trình bày với số lượng đồng nhất và phải có mức độ bao phủ hoàn chỉnh như nhau đối với các phần khác nhau của hiện tượng.

Để tránh làm biến dạng động lực thực, trong nghiên cứu thống kê, các tính toán sơ bộ được thực hiện (đóng chuỗi động lực), trước khi phân tích thống kê chuỗi thời gian. Dưới kết thúc chuỗi động lực Nói chung, người ta chấp nhận hiểu sự kết hợp thành một chuỗi gồm hai hoặc nhiều chuỗi, các cấp độ được tính toán bằng các phương pháp khác nhau hoặc không tương ứng với ranh giới lãnh thổ, v.v. Việc kết thúc chuỗi động lực cũng có thể hàm ý đưa các cấp độ tuyệt đối của chuỗi động lực về một cơ sở chung, điều này vô hiệu hóa tính không thể so sánh được của các cấp độ của chuỗi động lực.

25. Khái niệm so sánh chuỗi động lực, hệ số, tốc độ tăng trưởng và tốc độ tăng trưởng.

Chuỗi động lực học- đây là một chuỗi các chỉ số thống kê đặc trưng cho sự phát triển của các hiện tượng tự nhiên và xã hội theo thời gian. Bộ sưu tập thống kê do Ủy ban Thống kê Nhà nước Nga xuất bản chứa một số lượng lớn các chuỗi động lực ở dạng bảng. Chuỗi động giúp xác định mô hình phát triển của hiện tượng đang được nghiên cứu.

Chuỗi động lực học có hai loại chỉ báo. Chỉ báo thời gian(năm, quý, tháng…) hoặc theo thời điểm (đầu năm, đầu tháng…). Chỉ báo cấp hàng. Các chỉ số về mức độ động lực có thể được biểu thị bằng giá trị tuyệt đối (sản lượng sản phẩm tính bằng tấn hoặc rúp), giá trị tương đối (tỷ lệ dân số thành thị tính bằng%) và giá trị trung bình (mức lương trung bình của công nhân ngành theo năm , vân vân.). Ở dạng bảng, chuỗi thời gian chứa hai cột hoặc hai hàng.

Việc xây dựng đúng chuỗi thời gian đòi hỏi phải đáp ứng một số yêu cầu:

mọi chỉ số về một số động lực phải có căn cứ khoa học, đáng tin cậy;
các chỉ số của một chuỗi động lực phải có thể so sánh được theo thời gian, ᴛ.ᴇ. phải được tính trong cùng khoảng thời gian hoặc cùng ngày;
các chỉ số về một số động lực phải tương đương trên toàn lãnh thổ;
các chỉ số của một chuỗi động thái phải tương đương nhau về nội dung, ᴛ.ᴇ. được tính toán theo một phương pháp duy nhất, theo cùng một cách;
các chỉ số về một số động lực cần được so sánh giữa các trang trại được xem xét. Tất cả các chỉ số của một chuỗi động lực học phải được đưa ra theo cùng một đơn vị đo lường.

Các chỉ số thống kê có thể mô tả kết quả của quá trình được nghiên cứu trong một khoảng thời gian hoặc trạng thái của hiện tượng đang được nghiên cứu tại một thời điểm nhất định, ᴛ.ᴇ. các chỉ số có thể là khoảng thời gian (định kỳ) và nhất thời. Theo đó, ban đầu chuỗi động học là khoảng hoặc mômen. Chuỗi động lực mômen lần lượt đi kèm với các khoảng thời gian bằng nhau và không bằng nhau.

Chuỗi động lực ban đầu có thể được chuyển đổi thành chuỗi giá trị trung bình và chuỗi giá trị tương đối (chuỗi và cơ bản). Chuỗi thời gian như vậy được gọi là chuỗi thời gian dẫn xuất.

Phương pháp tính mức trung bình trong chuỗi động lực là khác nhau, tùy thuộc vào loại chuỗi động lực. Bằng cách sử dụng các ví dụ, chúng ta sẽ xem xét các loại chuỗi động lực và công thức tính mức trung bình.

Tăng tuyệt đối (Δy) cho biết cấp độ tiếp theo của chuỗi đã thay đổi bao nhiêu đơn vị so với cấp độ trước đó (gr. 3. - mức tăng tuyệt đối của chuỗi) hoặc so với cấp độ ban đầu (gr. 4. - mức tăng tuyệt đối cơ bản). Công thức tính toán có thể viết như sau:

Khi các giá trị tuyệt đối của dãy giảm đi sẽ có mức “giảm” hoặc “giảm” tương ứng.

Ví dụ, các chỉ số tăng trưởng tuyệt đối cho thấy điều đó vào năm 1998. sản lượng sản phẩm “A” tăng so với năm 1997. tăng 4 nghìn tấn, so với năm 1994 ᴦ. - bằng 34 nghìn tấn; cho những năm khác, xem bảng. 11,5 gam.
Đăng trên ref.rf
3 và 4.

Tốc độ tăng trưởng cho biết mức độ của chuỗi đã thay đổi bao nhiêu lần so với mức trước đó (gr. 5 - hệ số tăng trưởng hoặc suy giảm của chuỗi) hoặc so với mức ban đầu (gr. 6 - hệ số tăng trưởng hoặc suy giảm cơ bản). Công thức tính toán có thể được viết như sau:

Tốc độ tăng trưởng hiển thị bao nhiêu phần trăm cấp độ tiếp theo của chuỗi được so sánh với cấp độ trước đó (gr. 7 - tốc độ tăng trưởng chuỗi) hoặc so với cấp độ ban đầu (gr. 8 - tốc độ tăng trưởng cơ bản). Công thức tính toán có thể được viết như sau:

Vì vậy, ví dụ, vào năm 1997. khối lượng sản xuất sản phẩm “A” so với năm 1996 ᴦ. lên tới 105,5% (

Tốc độ tăng trưởng cho biết mức độ của kỳ báo cáo tăng lên bao nhiêu phần trăm so với kỳ trước (cột 9 - tốc độ tăng trưởng chuỗi) hoặc so với mức ban đầu (cột 10 - tốc độ tăng trưởng cơ bản). Công thức tính toán có thể được viết như sau:

Tpr = Tr - 100% hoặc Tpr = mức tăng trưởng tuyệt đối/mức của giai đoạn trước * 100%

Vì vậy, ví dụ, vào năm 1996. so với năm 1995 ᴦ. Sản phẩm "A" được sản xuất nhiều hơn 3,8% (103,8% - 100%) hoặc (8:210)x100% và so với năm 1994 ᴦ. - bằng 9% (109% - 100%).

Nếu các mức tuyệt đối trong chuỗi giảm thì tỷ lệ sẽ nhỏ hơn 100% và theo đó, sẽ có tỷ lệ giảm (tốc độ tăng có dấu trừ).

Giá trị tuyệt đối tăng 1%(gr.
Đăng trên ref.rf
11) cho biết cần sản xuất bao nhiêu đơn vị sản phẩm trong một khoảng thời gian nhất định để mức sản lượng của kỳ trước tăng thêm 1%. Trong ví dụ của chúng tôi, vào năm 1995 ᴦ. cần sản xuất 2,0 nghìn tấn, và vào năm 1998 ᴦ. - 2,3 nghìn tấn, ᴛ.ᴇ. nhiều hơn nữa.

Giá trị tuyệt đối của mức tăng trưởng 1% có thể được xác định theo hai cách:

§ mức của kỳ trước chia cho 100;

§ mức tăng tuyệt đối của chuỗi được chia cho tốc độ tăng trưởng chuỗi tương ứng.

Giá trị tuyệt đối tăng 1% =

Trong động lực học, đặc biệt là trong thời gian dài, việc phân tích chung về tốc độ tăng trưởng với nội dung của từng phần trăm tăng hoặc giảm là rất quan trọng.

Lưu ý rằng phương pháp được xem xét để phân tích chuỗi thời gian có thể áp dụng cho cả chuỗi thời gian, các mức của nó được biểu thị bằng giá trị tuyệt đối (t, nghìn rúp, số lượng nhân viên, v.v.) và cho chuỗi thời gian, các mức của nó được biểu thị bằng các chỉ số tương đối (% khuyết tật, % hàm lượng tro trong than, v.v.) hoặc giá trị trung bình (năng suất trung bình tính bằng c/ha, lương trung bình, v.v.).

Cùng với các chỉ số phân tích được xem xét, tính toán cho từng năm so với mức trước đó hoặc mức ban đầu, khi phân tích chuỗi động lực, việc tính toán các chỉ số phân tích trung bình trong kỳ là vô cùng quan trọng: mức trung bình của chuỗi, mức trung bình tuyệt đối hàng năm. tăng (giảm) và tốc độ tăng trưởng, tốc độ tăng trưởng bình quân hàng năm.

Các phương pháp tính mức trung bình của một chuỗi động lực đã được thảo luận ở trên. Trong chuỗi động lực theo khoảng mà chúng ta đang xem xét, mức trung bình của chuỗi được tính bằng công thức trung bình số học đơn giản:

Khối lượng sản xuất trung bình hàng năm của sản phẩm trong giai đoạn 1994-1998. đạt 218,4 nghìn tấn.

Tăng trưởng tuyệt đối trung bình hàng năm cũng được tính bằng công thức trung bình số học

Độ lệch chuẩn - khái niệm và các loại. Phân loại và đặc điểm của danh mục “Độ lệch bình phương trung bình” 2017, 2018.

X tôi - biến ngẫu nhiên (hiện tại);

X̅– giá trị trung bình của các biến ngẫu nhiên đối với mẫu được tính theo công thức:

Vì thế, phương sai là bình phương độ lệch trung bình . Nghĩa là, giá trị trung bình được tính trước, sau đó được lấy sự khác biệt giữa mỗi giá trị ban đầu và giá trị trung bình là bình phương , được cộng vào rồi chia cho số giá trị trong tổng thể.

Sự khác biệt giữa một giá trị riêng lẻ và giá trị trung bình phản ánh thước đo độ lệch. Nó được bình phương sao cho tất cả các độ lệch chỉ trở thành số dương và tránh sự phá hủy lẫn nhau của các độ lệch dương và âm khi tổng hợp chúng. Sau đó, với độ lệch bình phương, chúng ta chỉ cần tính giá trị trung bình số học.

Câu trả lời cho từ kỳ diệu “độ phân tán” chỉ nằm trong ba từ sau: trung bình - bình phương - độ lệch.

Độ lệch chuẩn (MSD)

Lấy căn bậc hai của phương sai, chúng ta thu được cái gọi là “ độ lệch chuẩn”. Có những cái tên "độ lệch chuẩn" hoặc "sigma" (từ tên của chữ cái Hy Lạp σ .). Công thức tính độ lệch chuẩn là:

Vì thế, độ phân tán là bình phương sigma, hoặc là bình phương độ lệch chuẩn.

Rõ ràng, độ lệch chuẩn cũng đặc trưng cho thước đo độ phân tán dữ liệu, nhưng bây giờ (không giống như độ phân tán) nó có thể được so sánh với dữ liệu gốc vì chúng có cùng đơn vị đo (điều này rõ ràng từ công thức tính toán). Phạm vi biến thiên là sự khác biệt giữa các giá trị cực trị. Độ lệch chuẩn, như một thước đo độ không đảm bảo, cũng liên quan đến nhiều tính toán thống kê. Với sự trợ giúp của nó, mức độ chính xác của các ước tính và dự báo khác nhau được xác định. Nếu độ biến thiên rất lớn thì độ lệch chuẩn cũng sẽ lớn và do đó dự báo sẽ không chính xác, chẳng hạn như điều này sẽ được biểu thị trong khoảng tin cậy rất rộng.

Vì vậy, trong các phương pháp xử lý số liệu thống kê trong đánh giá bất động sản, tùy theo độ chính xác yêu cầu của nhiệm vụ mà quy tắc hai hoặc ba sigma được sử dụng.

Để so sánh quy tắc hai sigma và quy tắc ba sigma, chúng ta sử dụng công thức Laplace:

F - F ,

trong đó Ф(x) là hàm Laplace;

Giá trị tối thiểu

β = giá trị tối đa

s = giá trị sigma (độ lệch chuẩn)

a = trung bình

Trong trường hợp này, một dạng công thức Laplace cụ thể được sử dụng khi các ranh giới α và β của các giá trị của biến ngẫu nhiên X cách đều nhau tính từ tâm của phân bố a = M(X) bởi một giá trị nhất định d: a = a-d, b = a+d.

Hoặc

(1) Công thức (1) xác định xác suất của độ lệch d cho trước của biến ngẫu nhiên X theo quy luật phân phối chuẩn so với kỳ vọng toán học M(X) = a của nó.

Nếu trong công thức (1) lấy tuần tự d = 2s và d = 3s, ta thu được: (2), (3).

Quy tắc hai sigma

Hãy minh họa quy tắc hai sigma về mặt hình học. Trong hình. Hình 6 cho thấy đường cong Gaussian với trung tâm phân phối a. Diện tích giới hạn bởi toàn bộ đường cong và trục Ox bằng 1 (100%), diện tích hình thang cong giữa các trục a–2s và a+2s, theo quy tắc hai sigma, bằng nhau đến 0,954 (95,4% tổng diện tích). Diện tích của các vùng bóng mờ là 1-0,954 = 0,046 (»5% tổng diện tích). Những vùng này được gọi là vùng tới hạn của biến ngẫu nhiên. Các giá trị của một biến ngẫu nhiên rơi vào vùng quan trọng là khó xảy ra và trong thực tế thường được chấp nhận là không thể.

Xác suất của các giá trị không thể có điều kiện được gọi là mức ý nghĩa của biến ngẫu nhiên. Mức ý nghĩa liên hệ với xác suất tin cậy theo công thức:

trong đó q là mức ý nghĩa được biểu thị bằng phần trăm.

Quy tắc ba sigma

Khi giải các bài toán đòi hỏi độ tin cậy cao hơn, khi xác suất tin cậy (Pd) lấy bằng 0,997 (chính xác hơn là 0,9973), thay vì sử dụng quy tắc hai sigma theo công thức (3) ba sigma

Theo quy tắc ba sigma với xác suất tin cậy là 0,9973, vùng tới hạn sẽ là vùng có giá trị thuộc tính nằm ngoài khoảng (a-3s, a+3s). Mức ý nghĩa là 0,27%.

Nói cách khác, xác suất để giá trị tuyệt đối của độ lệch vượt quá ba lần độ lệch chuẩn là rất nhỏ, cụ thể là 0,0027 = 1-0,9973. Điều này có nghĩa là chỉ có 0,27% trường hợp điều này xảy ra. Những sự kiện như vậy, dựa trên nguyên tắc không thể xảy ra của các sự kiện khó xảy ra, có thể được coi là thực tế không thể xảy ra. Những thứ kia. lấy mẫu có độ chính xác cao.

Đây là bản chất của quy tắc ba sigma:

Nếu một biến ngẫu nhiên được phân phối bình thường thì giá trị tuyệt đối của độ lệch của nó so với kỳ vọng toán học không vượt quá ba lần độ lệch chuẩn (MSD).

Trong thực tế, quy tắc ba sigma được áp dụng như sau: nếu chưa biết phân phối của biến ngẫu nhiên đang được nghiên cứu nhưng đáp ứng điều kiện quy định trong quy tắc trên thì có lý do để cho rằng biến đang được nghiên cứu có phân phối chuẩn. ; nếu không thì nó không được phân phối bình thường.

Mức độ quan trọng được xác định tùy thuộc vào mức độ rủi ro cho phép và nhiệm vụ hiện tại. Để định giá bất động sản, mẫu ít chính xác hơn thường được áp dụng, tuân theo quy tắc hai sigma.