Apakah siri data selang? Pembinaan siri variasi selang untuk data kuantitatif berterusan

perangkaan matematik- satu cabang matematik yang menumpukan kepada kaedah matematik pemprosesan, sistematik dan menggunakan data statistik untuk kesimpulan saintifik dan praktikal.

3.1. KONSEP ASAS STATISTIK MATEMATIK

Dalam masalah perubatan dan biologi, selalunya perlu untuk mengkaji taburan sifat tertentu untuk sebilangan besar individu. Sifat ini mempunyai makna yang berbeza untuk individu yang berbeza, jadi ia adalah pembolehubah rawak. Sebagai contoh, mana-mana ubat terapeutik mempunyai keberkesanan yang berbeza apabila digunakan untuk pesakit yang berbeza. Walau bagaimanapun, untuk mendapatkan idea tentang keberkesanan ubat ini, tidak perlu menggunakannya semua orang sakit. Adalah mungkin untuk mengesan keputusan menggunakan ubat kepada kumpulan pesakit yang agak kecil dan, berdasarkan data yang diperoleh, mengenal pasti ciri-ciri penting (keberkesanan, kontraindikasi) proses rawatan.

Penduduk- satu set unsur homogen yang dicirikan oleh beberapa atribut yang akan dikaji. Tanda ini ialah berterusan pembolehubah rawak dengan ketumpatan taburan f(x).

Sebagai contoh, jika kita berminat dengan kelaziman penyakit di wilayah tertentu, maka populasi umum adalah keseluruhan penduduk wilayah tersebut. Sekiranya kita ingin mengetahui kecenderungan lelaki dan wanita kepada penyakit ini secara berasingan, maka kita harus mempertimbangkan dua populasi umum.

Untuk mengkaji sifat populasi umum, bahagian tertentu elemennya dipilih.

Sampel- sebahagian daripada populasi umum yang dipilih untuk pemeriksaan (rawatan).

Jika ini tidak menyebabkan kekeliruan, maka sampel dipanggil sebagai satu set objek, dipilih untuk tinjauan, dan keseluruhan

nilai ciri yang dipelajari yang diperoleh semasa peperiksaan. Nilai ini boleh diwakili dalam beberapa cara.

Siri statistik mudah - nilai ciri yang sedang dikaji, direkodkan mengikut susunan yang diperolehi.

Contoh siri statistik mudah yang diperoleh dengan mengukur halaju gelombang permukaan (m/s) dalam kulit dahi dalam 20 pesakit diberikan dalam Jadual. 3.1.

Jadual 3.1.Siri statistik mudah

Siri statistik ringkas ialah cara utama dan paling lengkap untuk merekod hasil tinjauan. Ia boleh mengandungi ratusan elemen. Sangat sukar untuk melihat keseluruhan seperti itu sekali imbas. Oleh itu, sampel yang besar biasanya dibahagikan kepada kumpulan. Untuk melakukan ini, kawasan perubahan dalam ciri dibahagikan kepada beberapa (N) selang waktu lebar yang sama dan hitung frekuensi relatif (n/n) bagi atribut yang jatuh ke dalam selang ini. Lebar setiap selang ialah:

Sempadan selang mempunyai makna berikut:

Jika mana-mana elemen sampel adalah sempadan antara dua selang bersebelahan, maka ia dikelaskan sebagai dibiarkan selang waktu. Data dikumpulkan dengan cara ini dipanggil siri statistik selang.

ialah jadual yang menunjukkan selang nilai atribut dan frekuensi relatif kejadian atribut dalam selang ini.

Dalam kes kita, kita boleh membentuk, sebagai contoh, siri statistik selang berikut (N = 5, d= 4), jadual. 3.2.

Jadual 3.2.Siri statistik selang

Di sini, selang 28-32 termasuk dua nilai yang sama dengan 28 (Jadual 3.1), dan selang 32-36 termasuk nilai 32, 33, 34 dan 35.

Siri statistik selang boleh digambarkan secara grafik. Untuk melakukan ini, selang nilai atribut diplot di sepanjang paksi abscissa dan pada setiap daripadanya, seperti pada tapak, segi empat tepat dibina dengan ketinggian yang sama dengan frekuensi relatif. Carta bar yang terhasil dipanggil histogram.

nasi. 3.1. carta bar

Dalam histogram, corak statistik taburan ciri boleh dilihat dengan jelas.

Dengan saiz sampel yang besar (beberapa ribu) dan lebar lajur yang kecil, bentuk histogram adalah hampir dengan bentuk graf ketumpatan pengedaran tanda.

Bilangan lajur histogram boleh dipilih menggunakan formula berikut:

Membina histogram secara manual adalah proses yang panjang. Oleh itu, program komputer telah dibangunkan untuk membinanya secara automatik.

3.2. CIRI-CIRI NUMERIK SIRI STATISTIK

Banyak prosedur statistik menggunakan anggaran sampel untuk jangkaan dan varians populasi (atau MSE).

Sampel min(X) ialah min aritmetik bagi semua unsur siri statistik mudah:

Untuk contoh kita X= 37.05 (m/s).

Min sampel ialahyang terbaikanggaran purata amM.

Varians sampel s 2 sama dengan jumlah sisihan kuasa dua unsur daripada min sampel, dibahagikan dengan n- 1:

Dalam contoh kita, s 2 = 25.2 (m/s) 2.

Sila ambil perhatian bahawa apabila mengira varians sampel, penyebut formula bukanlah saiz sampel n, tetapi n-1. Ini disebabkan oleh fakta bahawa apabila mengira sisihan dalam formula (3.3), bukannya jangkaan matematik yang tidak diketahui, anggarannya digunakan - min sampel.

Varians sampel ialah yang terbaik anggaran varians am (σ 2).

Sisihan piawai sampel(s) ialah punca kuasa dua varians sampel:

Untuk contoh kita s= 5.02 (m/s).

Selektif punca purata kuasa dua sisihan ialah anggaran terbaik bagi sisihan piawai am (σ).

Dengan pertambahan tanpa had dalam saiz sampel, semua ciri sampel cenderung kepada ciri yang sepadan dengan populasi umum.

Formula komputer digunakan untuk mengira ciri sampel. Dalam Excel, pengiraan ini melaksanakan fungsi statistik AVERAGE, VARIANCE. SISIHAN PIAWAI

3.3. PENILAIAN SELANG

Semua ciri sampel adalah pembolehubah rawak. Ini bermakna untuk sampel lain yang sama saiz, nilai ciri sampel akan berbeza. Oleh itu, selektif

ciri-ciri sahaja anggaran ciri-ciri populasi yang relevan.

Kelemahan penilaian terpilih diberi pampasan oleh anggaran selang, mewakili selang angka di dalamnya dengan kebarangkalian yang diberikan R d nilai sebenar parameter anggaran ditemui.

biarlah U r - beberapa parameter populasi umum (min am, varians am, dll.).

Anggaran selang parameter U r dipanggil selang (U 1, U 2), memenuhi syarat:

P(U < Ur < U2) = Рд. (3.5)

Kebarangkalian R d dipanggil kebarangkalian keyakinan.

Kebarangkalian keyakinan Pd - kebarangkalian bahawa nilai sebenar kuantiti anggaran ialah dalam selang yang ditentukan.

Dalam kes ini, selang (U 1, U 2) dipanggil selang keyakinan untuk parameter yang dianggarkan.

Selalunya, bukannya kebarangkalian keyakinan, nilai yang berkaitan α = 1 - Р d digunakan, yang dipanggil tahap kepentingan.

Tahap keertian ialah kebarangkalian bahawa nilai sebenar parameter anggaran ialah luar selang keyakinan.

Kadangkala α dan P d dinyatakan sebagai peratusan, contohnya, 5% bukannya 0.05 dan 95% bukannya 0.95.

Dalam anggaran selang, mula-mula pilih yang sesuai kebarangkalian keyakinan(biasanya 0.95 atau 0.99), dan kemudian cari julat nilai yang sesuai untuk parameter yang dianggarkan.

Mari kita perhatikan beberapa sifat umum anggaran selang.

1. Semakin rendah tahap keertian (semakin banyak R d), semakin luas anggaran selang. Jadi, jika pada tahap keertian 0.05 anggaran selang min am ialah 34.7< M< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < M< 40,25.

2. Semakin besar saiz sampel n, semakin sempit anggaran selang dengan aras keertian yang dipilih. Biarkan, sebagai contoh, 5 ialah anggaran peratusan purata am (β = 0.05) yang diperoleh daripada sampel 20 elemen, kemudian 34.7< M< 39,4.

Dengan meningkatkan saiz sampel kepada 80, kami mendapat anggaran yang lebih tepat pada tahap keertian yang sama: 35.5< M< 38,6.

Secara umum, pembinaan anggaran keyakinan yang boleh dipercayai memerlukan pengetahuan tentang undang-undang yang mengikutnya anggaran atribut rawak diedarkan dalam populasi. Mari kita lihat bagaimana anggaran selang dibina purata am ciri yang diedarkan dalam populasi mengikut biasa undang-undang.

3.4. ANGGARAN SELANG PURATA AM BAGI UNDANG-UNDANG AGIHAN BIASA

Pembinaan anggaran selang purata am M untuk populasi dengan undang-undang taburan normal adalah berdasarkan sifat berikut. Untuk volum pensampelan n sikap

mematuhi taburan Pelajar dengan bilangan darjah kebebasan ν = n- 1.

Di sini X- min sampel, dan s- sisihan piawai terpilih.

Menggunakan jadual pengedaran Pelajar atau analog komputer mereka, anda boleh mencari nilai sempadan sedemikian, dengan kebarangkalian keyakinan yang diberikan, ketidaksamaan berikut berlaku:

Ketaksamaan ini sepadan dengan ketaksamaan untuk M:

di mana ε - separuh lebar selang keyakinan.

Oleh itu, pembinaan selang keyakinan untuk M dijalankan dalam urutan berikut.

1. Pilih kebarangkalian keyakinan Р d (biasanya 0.95 atau 0.99) dan untuk itu, menggunakan jadual taburan Pelajar, cari parameter t

2. Kira separuh lebar selang keyakinan ε:

3. Dapatkan anggaran selang purata am dengan kebarangkalian keyakinan yang dipilih:

Secara ringkas ia ditulis seperti ini:

Prosedur komputer telah dibangunkan untuk mencari anggaran selang.

Mari kita terangkan cara menggunakan jadual pengedaran Pelajar. Jadual ini mempunyai dua "pintu masuk": lajur kiri, dipanggil bilangan darjah kebebasan ν = n- 1, dan baris atas ialah aras keertian α. Di persimpangan baris dan lajur yang sepadan, cari pekali Pelajar t.

Mari gunakan kaedah ini untuk sampel kami. Serpihan jadual taburan Pelajar dibentangkan di bawah.

Jadual 3.3. Serpihan jadual agihan Pelajar

Siri statistik mudah untuk sampel 20 orang (n= 20, ν =19) dibentangkan dalam jadual. 3.1. Untuk siri ini, pengiraan menggunakan formula (3.1-3.3) memberikan: X= 37,05; s= 5,02.

Jom pilih α = 0.05 (Р d = 0.95). Di persimpangan baris "19" dan lajur "0.05" kami dapati t= 2,09.

Mari kita mengira ketepatan anggaran menggunakan formula (3.6): ε = 2.09?5.02/λ /20 = 2.34.

Mari kita bina anggaran selang: dengan kebarangkalian 95%, min am yang tidak diketahui memenuhi ketaksamaan:

37,05 - 2,34 < M< 37,05 + 2,34, или M= 37.05 ± 2.34 (m/s), R d = 0.95.

3.5. KAEDAH UNTUK MENGUJI HIPOTESIS STATISTIK

Hipotesis statistik

Sebelum merumuskan apa itu hipotesis statistik, pertimbangkan contoh berikut.

Untuk membandingkan dua kaedah merawat penyakit tertentu, dua kumpulan pesakit seramai 20 orang setiap satu telah dipilih dan dirawat menggunakan kaedah ini. Bagi setiap pesakit ia direkodkan bilangan prosedur, selepas itu kesan positif dicapai. Berdasarkan data ini, sampel bermakna (X), varians sampel didapati bagi setiap kumpulan (s 2) dan sisihan piawai sampel (s).

Keputusan dibentangkan dalam jadual. 3.4.

Jadual 3.4

Bilangan prosedur yang diperlukan untuk mendapatkan kesan positif ialah pembolehubah rawak, semua maklumat mengenainya kini terkandung dalam sampel yang diberikan.

Dari meja 3.4 menunjukkan purata sampel dalam kumpulan pertama adalah kurang daripada kumpulan kedua. Adakah ini bermakna perhubungan yang sama berlaku untuk purata am: M 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает ujian statistik hipotesis.

Hipotesis statistik- ia adalah satu andaian tentang sifat-sifat populasi.

Kami akan mempertimbangkan hipotesis mengenai sifat dua populasi umum.

Jika populasi mempunyai diketahui, serupa pengagihan nilai anggaran, dan andaian berkenaan dengan nilai beberapa parameter daripada taburan ini, maka hipotesis dipanggil parametrik. Sebagai contoh, sampel diambil daripada populasi dengan undang-undang biasa taburan dan varians yang sama. Perlu mengetahui adakah mereka sama purata umum populasi ini.

Jika tiada apa yang diketahui tentang undang-undang taburan populasi umum, maka hipotesis tentang sifat mereka dipanggil bukan parametrik. Sebagai contoh, adakah mereka sama undang-undang taburan populasi dari mana sampel diambil.

Hipotesis nol dan alternatif.

Tugas menguji hipotesis. Tahap keertian

Mari kita berkenalan dengan istilah yang digunakan semasa menguji hipotesis.

H 0 - hipotesis nol (hipotesis skeptik) ialah hipotesis tentang ketiadaan perbezaan antara sampel yang dibandingkan. Orang yang ragu-ragu percaya bahawa perbezaan antara anggaran sampel yang diperoleh daripada hasil penyelidikan adalah disebabkan oleh kebetulan;

H 1- hipotesis alternatif (hipotesis optimis) ialah hipotesis tentang kehadiran perbezaan antara sampel yang dibandingkan. Seorang yang optimis percaya bahawa perbezaan antara anggaran sampel disebabkan oleh sebab objektif dan sepadan dengan perbezaan dalam populasi umum.

Menguji hipotesis statistik hanya boleh dilaksanakan apabila ada kemungkinan untuk membina beberapa saiz(kriteria), undang-undang pengagihan yang jika berlaku adil H 0 terkenal. Kemudian untuk kuantiti ini kita boleh nyatakan selang keyakinan, ke dalamnya dengan kebarangkalian yang diberikan R d nilainya jatuh. Selang ini dipanggil kawasan kritikal. Jika nilai kriteria jatuh ke dalam kawasan kritikal, maka hipotesis diterima N 0. Jika tidak, hipotesis H 1 diterima.

Dalam penyelidikan perubatan, P d = 0.95 atau P d = 0.99 digunakan. Nilai-nilai ini sepadan aras keertianα = 0.05 atau α = 0.01.

Apabila menguji hipotesis statistiktahap kepentingan(α) ialah kebarangkalian untuk menolak hipotesis nol apabila ia benar.

Sila ambil perhatian bahawa, pada terasnya, prosedur ujian hipotesis adalah bertujuan mengesan perbezaan dan bukan untuk mengesahkan ketidakhadiran mereka. Apabila nilai kriteria melangkaui kawasan kritikal, kita boleh berkata dengan hati yang murni kepada "skeptis" - baik, apa lagi yang anda mahukan?! Jika tiada perbezaan, maka dengan kebarangkalian 95% (atau 99%) nilai yang dikira akan berada dalam had yang ditentukan. Tetapi tidak!..

Nah, jika nilai kriteria jatuh ke dalam kawasan kritikal, maka tidak ada sebab untuk mempercayai bahawa hipotesis H 0 adalah betul. Ini kemungkinan besar menunjukkan salah satu daripada dua sebab yang mungkin.

1. Saiz sampel tidak cukup besar untuk mengesan perbezaan. Kemungkinan percubaan berterusan akan membawa kejayaan.

2. Terdapat perbezaan. Tetapi mereka sangat kecil sehingga mereka tidak mempunyai kepentingan praktikal. Dalam kes ini, meneruskan eksperimen tidak masuk akal.

Mari kita teruskan untuk mempertimbangkan beberapa hipotesis statistik yang digunakan dalam penyelidikan perubatan.

3.6. MENGUJI HIPOTESIS MENGENAI KESAMAAN VARIANS, KRITERION F FISCHER

Dalam beberapa kajian klinikal, kesan positif terbukti tidak begitu banyak magnitud daripada parameter yang dikaji, berapa banyak daripadanya penstabilan, mengurangkan turun naiknya. Dalam kes ini, persoalan timbul tentang membandingkan dua varians umum berdasarkan hasil tinjauan sampel. Masalah ini boleh diselesaikan menggunakan Ujian Fisher.

Perumusan masalah

undang-undang biasa pengagihan. Saiz sampel -

n 1 Dan n2, A varians sampel sama rata s 1 dan s 2 2 varians umum.

Hipotesis yang boleh diuji:

H 0- varians umum sama;

H 1- varians umum adalah berbeza.

Ditunjukkan jika sampel diambil daripada populasi dengan undang-undang biasa taburan, maka jika hipotesis itu benar H 0 nisbah varians sampel mengikuti taburan Fisher. Oleh itu, sebagai kriteria untuk memeriksa keadilan H 0 nilai diambil F, dikira dengan formula:

di mana s 1 dan s 2 ialah varians sampel.

Nisbah ini mematuhi taburan Fisher dengan bilangan darjah kebebasan pengangka ν 1 = n 1- 1 dan bilangan darjah kebebasan penyebut ν 2 = n 2 - 1. Sempadan kawasan kritikal didapati menggunakan jadual pengedaran Fisher atau menggunakan fungsi komputer BRASPOBR.

Untuk contoh yang dibentangkan dalam jadual. 3.4, kita dapat: ν 1 = ν 2 = 20 - 1 = 19; F= 2.16/4.05 = 0.53. Pada α = 0.05, sempadan kawasan kritikal adalah masing-masing: = 0.40, = 2.53.

Nilai kriteria jatuh ke dalam kawasan kritikal, jadi hipotesis diterima H 0: varians sampel am sama.

3.7. MENGUJI HIPOTESIS MENGENAI KESAMAAN MAKNA, KRITERION-t PELAJAR

Tugas perbandingan purata dua populasi umum timbul apabila kepentingan praktikal adalah tepat magnitud ciri yang dikaji. Sebagai contoh, apabila membandingkan tempoh rawatan dengan dua kaedah yang berbeza atau bilangan komplikasi yang timbul daripada penggunaannya. Dalam kes ini, anda boleh menggunakan ujian-t Pelajar.

Perumusan masalah

Dua sampel (X 1) dan (X 2) telah diperolehi, diekstrak daripada populasi umum dengan undang-undang biasa pengedaran dan varians yang sama. Saiz sampel - n 1 dan n 2, sampel bermakna adalah sama dengan X 1 dan X 2, dan varians sampel- s 1 2 dan s 2 2 masing-masing. Perlu membandingkan purata am.

Hipotesis yang boleh diuji:

H 0- purata am sama;

H 1- purata am adalah berbeza.

Ia ditunjukkan bahawa jika hipotesis adalah benar H 0 nilai t dikira dengan formula:

diedarkan mengikut undang-undang Pelajar dengan bilangan darjah kebebasan ν = ν 1 + + ν2 - 2.

Di sini di mana ν 1 = n 1 - 1 - bilangan darjah kebebasan untuk sampel pertama; ν 2 = n 2 - 1 - bilangan darjah kebebasan untuk sampel kedua.

Sempadan kawasan kritikal didapati menggunakan jadual taburan-t atau menggunakan fungsi komputer STUDRIST. Taburan Pelajar adalah simetri kira-kira sifar, jadi sempadan kiri dan kanan kawasan kritikal adalah sama dalam magnitud dan bertentangan dalam tanda: -dan

Untuk contoh yang dibentangkan dalam jadual. 3.4, kita dapat:

ν 1 = ν 2 = 20 - 1 = 19; ν = 38, t= -2.51. Pada α = 0.05 = 2.02.

Nilai kriteria melangkaui sempadan kiri kawasan kritikal, jadi kami menerima hipotesis H 1: purata am adalah berbeza. Pada masa yang sama, purata populasi sampel pertama KURANG.

Kebolehgunaan ujian-t Pelajar

Ujian t Pelajar hanya terpakai kepada sampel daripada biasa agregat dengan varians umum yang sama. Sekiranya sekurang-kurangnya salah satu syarat dilanggar, maka kebolehgunaan kriteria itu dipersoalkan. Keperluan kenormalan populasi umum biasanya diabaikan, memetik teorem had pusat. Sesungguhnya, perbezaan antara sampel bermakna dalam pengangka (3.10) boleh dianggap diedarkan secara normal untuk ν > 30. Tetapi persoalan kesamaan varians tidak dapat disahkan, dan rujukan kepada fakta bahawa ujian Fisher tidak mengesan perbezaan tidak boleh diambil. kira. Walau bagaimanapun, ujian-t digunakan secara meluas untuk mengesan perbezaan dalam min populasi, walaupun tanpa bukti yang mencukupi.

Di bawah dibincangkan kriteria bukan parametrik, yang berjaya digunakan untuk tujuan yang sama dan yang tidak memerlukan apa-apa kenormalan, tidak juga kesamaan varians.

3.8. PERBANDINGAN BUKAN PARAMETRI DUA SAMPEL: KRITERION MANN-WHITNEY

Ujian bukan parametrik direka untuk mengesan perbezaan dalam undang-undang taburan dua populasi. Kriteria yang sensitif kepada perbezaan secara umum purata, dipanggil kriteria syif Kriteria yang sensitif kepada perbezaan secara umum penyebaran, dipanggil kriteria skala. Ujian Mann-Whitney merujuk kepada kriteria syif dan digunakan untuk mengesan perbezaan dalam cara dua populasi, sampel daripadanya dibentangkan dalam skala ranking. Ciri-ciri yang diukur terletak pada skala ini dalam tertib menaik, dan kemudian dinomborkan dengan integer 1, 2... Nombor ini dipanggil pangkat. Kuantiti yang sama diberikan pangkat yang sama. Bukan nilai atribut itu sendiri yang penting, tetapi hanya tempat ordinal yang mana kedudukannya antara kuantiti lain.

Dalam jadual 3.5. kumpulan pertama dari Jadual 3.4 dibentangkan dalam bentuk yang diperluas (baris 1), kedudukan (baris 2), dan kemudian pangkat nilai yang sama digantikan dengan purata aritmetik. Sebagai contoh, item 4 dan 4 dalam baris pertama diberi kedudukan 2 dan 3, yang kemudiannya digantikan dengan nilai yang sama iaitu 2.5.

Jadual 3.5

Perumusan masalah

Sampel bebas (X 1) Dan (X 2) diekstrak daripada populasi umum dengan undang-undang pengedaran yang tidak diketahui. Saiz sampel n 1 Dan n 2 masing-masing. Nilai elemen sampel dibentangkan dalam skala ranking. Adalah perlu untuk menyemak sama ada populasi umum ini berbeza antara satu sama lain?

Hipotesis yang boleh diuji:

H 0- sampel tergolong dalam populasi umum yang sama; H 1- sampel tergolong dalam populasi umum yang berbeza.

Untuk menguji hipotesis tersebut, ujian (/-Mann-Whitney digunakan.

Pertama, gabungan sampel (X) disusun daripada kedua-dua sampel, unsur-unsurnya disenaraikan. Kemudian jumlah pangkat yang sepadan dengan unsur-unsur sampel pertama ditemui. Jumlah ini adalah kriteria untuk menguji hipotesis.

U= Jumlah pangkat sampel pertama. (3.11)

Untuk sampel bebas yang volumnya lebih besar daripada 20, nilainya U mematuhi taburan normal, jangkaan matematik dan sisihan piawainya adalah sama dengan:

Oleh itu, sempadan kawasan kritikal didapati mengikut jadual taburan normal.

Untuk contoh yang dibentangkan dalam jadual. 3.4, kita dapat: ν 1 = ν 2 = 20 - 1 = 19, U= 339, μ = 410, σ = 37. Untuk α = 0.05 kita dapat: kiri = 338 dan kanan = 482.

Nilai kriteria melangkaui sempadan kiri kawasan kritikal, oleh itu hipotesis H 1 diterima: populasi umum mempunyai undang-undang pengedaran yang berbeza. Pada masa yang sama, purata populasi sampel pertama KURANG.

Apabila membina siri pengedaran selang, tiga soalan diselesaikan:

  • 1. Berapa banyak selang yang perlu saya ambil?
  • 2. Berapakah panjang selang itu?
  • 3. Apakah prosedur untuk memasukkan unit populasi dalam sempadan selang?
  • 1. Bilangan selang boleh ditentukan oleh Formula Sturgess:

2. Panjang selang, atau langkah selang, biasanya ditentukan oleh formula

di mana R- julat variasi.

3. Susunan kemasukan unit populasi dalam sempadan selang

mungkin berbeza, tetapi apabila membina siri selang, taburan mesti ditakrifkan dengan ketat.

Sebagai contoh, ini: [), di mana unit populasi termasuk dalam sempadan bawah, tetapi tidak termasuk dalam sempadan atas, tetapi dipindahkan ke selang berikutnya. Pengecualian kepada peraturan ini ialah selang terakhir, had atasnya termasuk nombor terakhir siri kedudukan.

Sempadan selang adalah:

  • tertutup - dengan dua nilai ekstrem atribut;
  • terbuka - dengan satu nilai ekstrem atribut (sebelum ini itu dan ini nombor atau habis nombor begini dan begini).

Untuk mengasimilasikan bahan teori, kami memperkenalkan maklumat latar belakang untuk penyelesaian tugas hujung ke hujung.

Terdapat data bersyarat mengenai purata bilangan pengurus jualan, kuantiti barangan serupa yang mereka jual, harga pasaran individu untuk produk ini, serta volum jualan 30 syarikat di salah satu wilayah Persekutuan Rusia pada suku pertama tahun pelaporan (Jadual 2.1).

Jadual 2.1

Maklumat awal untuk tugasan silang

Nombor

pengurus,

Harga, ribuan rubel

Jumlah jualan, juta rubel.

Nombor

pengurus,

Kuantiti barang yang dijual, pcs.

Harga, ribuan rubel

Jumlah jualan, juta rubel.

Berdasarkan maklumat awal, serta maklumat tambahan, kami akan menyediakan tugas individu. Kemudian kami akan membentangkan metodologi untuk menyelesaikannya dan penyelesaiannya sendiri.

tugas merentasi. Tugasan 2.1

Menggunakan data sumber daripada jadual. 2.1 diperlukan membina siri diskret pengagihan firma mengikut kuantiti barang yang dijual (Jadual 2.2).

Penyelesaian:

Jadual 2.2

Siri pengedaran diskret firma mengikut kuantiti barang yang dijual di salah satu wilayah Persekutuan Rusia pada suku pertama tahun laporan

tugas merentasi. Tugasan 2.2

diperlukan membina satu siri kedudukan 30 firma mengikut purata bilangan pengurus.

Penyelesaian:

15; 17; 18; 20; 20; 20; 22; 22; 24; 25; 25; 25; 27; 27; 27; 28; 29; 30; 32; 32; 33; 33; 33; 34; 35; 35; 38; 39; 39; 45.

tugas merentasi. Tugasan 2.3

Menggunakan data sumber daripada jadual. 2.1, diperlukan:

  • 1. Bina satu siri selang pengagihan firma mengikut bilangan pengurus.
  • 2. Kira kekerapan siri pengedaran firma.
  • 3. Buat kesimpulan.

Penyelesaian:

Mari kita mengira menggunakan formula Sturgess (2.5) bilangan selang:

Oleh itu, kami mengambil 6 selang (kumpulan).

Panjang selang, atau langkah selang, kira menggunakan formula

Catatan. Susunan kemasukan unit populasi dalam sempadan selang adalah seperti berikut: I), di mana unit populasi termasuk dalam sempadan bawah, tetapi tidak termasuk dalam sempadan atas, tetapi dipindahkan ke selang berikutnya. Pengecualian kepada peraturan ini ialah selang terakhir I ], had atasnya termasuk nombor terakhir siri kedudukan.

Kami membina siri selang (Jadual 2.3).

Siri selang pengedaran firma dan purata bilangan pengurus di salah satu wilayah Persekutuan Rusia pada suku pertama tahun pelaporan

Kesimpulan. Kumpulan firma terbesar ialah kumpulan dengan purata bilangan pengurus 25-30 orang, yang merangkumi 8 firma (27%); Kumpulan terkecil dengan purata bilangan pengurus 40-45 orang termasuk hanya satu syarikat (3%).

Menggunakan data sumber daripada jadual. 2.1, serta siri selang pengedaran firma mengikut bilangan pengurus (Jadual 2.3), diperlukan membina kumpulan analisis hubungan antara bilangan pengurus dan volum jualan firma dan, berdasarkannya, buat kesimpulan tentang kehadiran (atau ketiadaan) hubungan antara ciri-ciri ini.

Penyelesaian:

Pengumpulan analisis adalah berdasarkan ciri-ciri faktor. Dalam masalah kami, ciri faktor (x) ialah bilangan pengurus, dan ciri terhasil (y) ialah volum jualan (Jadual 2.4).

Jom bina sekarang pengelompokan analitikal(Jadual 2.5).

Kesimpulan. Berdasarkan data kumpulan analisis yang dibina, kita boleh mengatakan bahawa dengan peningkatan bilangan pengurus jualan, purata volum jualan syarikat dalam kumpulan juga meningkat, yang menunjukkan kehadiran hubungan langsung antara ciri-ciri ini.

Jadual 2.4

Jadual tambahan untuk membina kumpulan analitikal

Bilangan pengurus, orang,

Nombor syarikat

Jumlah jualan, juta rubel, y

" = 59 f = 9.97

I-™ 4 - Yu.22

74 '25 1PY1

U4 = 7 = 10,61

di = ’ =10,31 30

Jadual 2.5

Pergantungan volum jualan pada bilangan pengurus syarikat di salah satu wilayah Persekutuan Rusia pada suku pertama tahun pelaporan

SOALAN KAWALAN
  • 1. Apakah intipati pemerhatian statistik?
  • 2. Namakan peringkat pemerhatian statistik.
  • 3. Apakah bentuk organisasi pemerhatian statistik?
  • 4. Namakan jenis-jenis pemerhatian statistik.
  • 5. Apakah ringkasan statistik?
  • 6. Namakan jenis laporan statistik.
  • 7. Apakah pengumpulan statistik?
  • 8. Namakan jenis kumpulan statistik.
  • 9. Apakah siri pengedaran?
  • 10. Namakan elemen struktur baris taburan.
  • 11. Apakah prosedur untuk membina siri pengedaran?

Mempunyai data pemerhatian statistik yang tersedia yang mencirikan fenomena tertentu, pertama sekali adalah perlu untuk mengaturnya, i.e. memberikan watak yang sistematik

ahli statistik Inggeris. UJReichman secara kiasan berkata tentang koleksi bercelaru yang menemui jisim data yang tidak umum adalah bersamaan dengan situasi di mana seseorang dilemparkan ke dalam belukar tanpa kompas. Apakah sistematisasi data statistik dalam bentuk siri pengedaran?

Siri statistik pengedaran adalah tersusun agregat statistik (Jadual 17). Jenis siri pengedaran statistik yang paling mudah ialah siri berperingkat, i.e. satu siri nombor dalam tertib menaik atau menurun, mengubah ciri. Siri sedemikian tidak membenarkan kami menilai corak yang wujud dalam data yang diedarkan: nilai manakah yang mempunyai majoriti penunjuk dikumpulkan, apakah sisihan yang ada daripada nilai ini; serta gambaran pengedaran am. Untuk tujuan ini, data dikumpulkan, menunjukkan kekerapan pemerhatian individu berlaku dalam jumlah bilangan mereka (Skim 1a 1).

. Jadual 17

. Pandangan umum siri pengedaran statistik

. Skim 1. Skim statistik siri pengedaran

Taburan unit populasi mengikut ciri yang tidak mempunyai ekspresi kuantitatif dipanggil siri atribut(contohnya, pengagihan perusahaan mengikut kawasan pengeluaran mereka)

Siri taburan unit populasi mengikut ciri, mempunyai ungkapan kuantitatif, dipanggil siri variasi. Dalam siri sedemikian, nilai ciri (pilihan) adalah dalam susunan menaik atau menurun

Dalam siri pengedaran variasi, dua elemen dibezakan: varian dan kekerapan . Pilihan- ini adalah makna yang berasingan bagi ciri-ciri kumpulan kekerapan- nombor yang menunjukkan bilangan kali setiap pilihan berlaku

Dalam statistik matematik, satu lagi elemen siri variasi dikira - sebahagiannya. Yang terakhir ditakrifkan sebagai nisbah kekerapan kes selang tertentu kepada jumlah jumlah frekuensi bahagian itu ditentukan dalam pecahan unit, peratus (%) dalam ppm (%o)

Oleh itu, siri pengedaran variasi ialah satu siri di mana pilihan disusun dalam tertib menaik atau menurun, dan frekuensi atau frekuensinya ditunjukkan. Siri variasi adalah diskret (selang) dan selang lain (berterusan).

. Siri variasi diskret- ini adalah siri pengedaran di mana varian sebagai nilai ciri kuantitatif hanya boleh mengambil nilai tertentu. Pilihan berbeza antara satu sama lain dengan satu atau lebih unit

Oleh itu, bilangan bahagian yang dihasilkan setiap syif oleh pekerja tertentu boleh dinyatakan hanya dengan satu nombor tertentu (6, 10, 12, dsb.). Contoh siri variasi diskret boleh menjadi pengagihan pekerja mengikut bilangan bahagian yang dihasilkan (Jadual 18 18).

. Jadual 18

. Taburan siri diskret _

. Siri variasi selang (berterusan).- siri pengedaran sedemikian di mana nilai pilihan diberikan dalam bentuk selang, i.e. nilai ciri boleh berbeza antara satu sama lain dengan jumlah yang kecil secara sewenang-wenangnya. Apabila membina siri variasi ciri peri-varian DEB, adalah mustahil untuk menunjukkan setiap nilai varian, jadi populasi diedarkan mengikut selang waktu. Yang terakhir boleh sama atau tidak sama. Bagi setiap daripadanya, frekuensi atau frekuensi ditunjukkan (Jadual 1 9 19).

Dalam siri taburan selang dengan selang yang tidak sama, ciri-ciri matematik seperti ketumpatan taburan dan ketumpatan taburan relatif pada selang tertentu dikira. Ciri pertama ditentukan oleh nisbah kekerapan kepada nilai selang yang sama, yang kedua - dengan nisbah kekerapan kepada nilai selang yang sama. Untuk contoh di atas, ketumpatan taburan dalam selang pertama ialah 3: 5 = 0.6, dan ketumpatan relatif dalam selang ini ialah 7.5: 5 = 1.55%.

. Jadual 19

. Siri pengedaran selang _

Satu siri variasi diskret dibina untuk ciri diskret.

Untuk membina siri variasi diskret, anda perlu melakukan langkah-langkah berikut: 1) susun unit pemerhatian dalam susunan peningkatan nilai ciri yang dikaji,

2) tentukan semua nilai yang mungkin bagi atribut x i , susunkannya dalam tertib menaik,

nilai atribut, i .

kekerapan nilai atribut dan menandakan f i . Jumlah semua frekuensi siri adalah sama dengan bilangan unsur dalam populasi yang dikaji.

Contoh 1 .

Senarai gred yang diterima oleh pelajar dalam peperiksaan: 3; 4; 3; 5; 4; 2; 2; 4; 4; 3; 5; 2; 4; 5; 4; 3; 4; 3; 3; 4; 4; 2; 2; 5; 5; 4; 5; 2; 3; 4; 4; 3; 4; 5; 2; 5; 5; 4; 3; 3; 4; 2; 4; 4; 5; 4; 3; 5; 3; 5; 4; 4; 5; 4; 4; 5; 4; 5; 5; 5.

Inilah nombornya X - gredialah pembolehubah rawak diskret, dan senarai anggaran yang terhasil ialahdata statistik (boleh diperhatikan). .

    susun unit pemerhatian dalam tertib menaik bagi nilai ciri yang dikaji:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) tentukan semua nilai yang mungkin bagi ciri x i, susunkannya dalam tertib menaik:

Dalam contoh ini, semua anggaran boleh dibahagikan kepada empat kumpulan dengan nilai berikut: 2; 3; 4; 5.

Nilai pembolehubah rawak yang sepadan dengan kumpulan tertentu data yang diperhatikan dipanggil nilai atribut, pilihan (opsyen) dan tetapkan x i .

Nombor yang menunjukkan berapa kali nilai yang sepadan bagi sesuatu ciri berlaku dalam beberapa pemerhatian dipanggil kekerapan nilai atribut dan menandakan f i .

Untuk contoh kita

skor 2 berlaku - 8 kali,

skor 3 berlaku - 12 kali,

skor 4 berlaku - 23 kali,

rating 5 berlaku - 17 kali.

Terdapat 60 penilaian secara keseluruhan.

4) tulis data yang diterima ke dalam jadual dua baris (lajur) - x i dan f i.

Berdasarkan data ini, adalah mungkin untuk membina siri variasi diskret

Siri variasi diskret – ini ialah jadual di mana nilai berlaku bagi ciri yang sedang dikaji ditunjukkan sebagai nilai individu dalam tertib menaik dan frekuensinya

  1. Pembinaan siri variasi selang

Sebagai tambahan kepada siri variasi diskret, kaedah pengumpulan data seperti siri variasi selang sering ditemui.

Siri selang dibina jika:

    tanda itu mempunyai sifat perubahan yang berterusan;

    Terdapat banyak nilai diskret (lebih daripada 10)

    frekuensi nilai diskret sangat kecil (tidak melebihi 1-3 dengan bilangan unit cerapan yang agak besar);

    banyak nilai diskret bagi ciri dengan frekuensi yang sama.

Siri variasi selang ialah cara mengelompokkan data dalam bentuk jadual yang mempunyai dua lajur (nilai ciri dalam bentuk selang nilai dan kekerapan setiap selang).

Tidak seperti siri diskret, nilai ciri siri selang tidak diwakili oleh nilai individu, tetapi oleh selang nilai ("dari - hingga").

Nombor yang menunjukkan bilangan unit cerapan yang jatuh ke dalam setiap selang yang dipilih dipanggil kekerapan nilai atribut dan menandakan f i . Jumlah semua frekuensi siri adalah sama dengan bilangan unsur (unit pemerhatian) dalam populasi yang dikaji.

Jika unit mempunyai nilai ciri yang sama dengan had atas selang, maka ia harus diberikan kepada selang seterusnya.

Sebagai contoh, kanak-kanak dengan ketinggian 100 cm akan jatuh ke dalam selang ke-2, dan bukan ke dalam yang pertama; dan kanak-kanak dengan ketinggian 130 cm akan jatuh ke dalam selang terakhir, dan bukan ke dalam yang ketiga.

Berdasarkan data ini, siri variasi selang boleh dibina.

Setiap selang mempunyai sempadan bawah (xn), sempadan atas (xw) dan lebar selang ( i).

Sempadan selang ialah nilai atribut yang terletak pada sempadan dua selang.

ketinggian kanak-kanak (cm)

ketinggian kanak-kanak (cm)

jumlah kanak-kanak

lebih daripada 130

Jika selang mempunyai sempadan atas dan bawah, maka ia dipanggil selang tertutup. Jika selang hanya mempunyai sempadan bawah atau hanya atas, maka ia adalah - selang terbuka. Hanya selang yang pertama atau yang terakhir boleh dibuka. Dalam contoh di atas, selang terakhir dibuka.

Lebar selang (i) – perbezaan antara had atas dan bawah.

i = x n - x b

Lebar selang terbuka diandaikan sama dengan lebar selang tertutup bersebelahan.

ketinggian kanak-kanak (cm)

jumlah kanak-kanak

Lebar selang (i)

untuk pengiraan 130+20=150

20 (kerana lebar selang tertutup bersebelahan ialah 20)

Semua siri selang dibahagikan kepada siri selang dengan selang yang sama dan siri selang dengan selang yang tidak sama . Dalam baris jarak dengan selang yang sama, lebar semua selang adalah sama. Dalam siri selang dengan selang yang tidak sama, lebar selang adalah berbeza.

Dalam contoh yang sedang dipertimbangkan - siri selang dengan selang yang tidak sama.

Kerja makmal No 1

Mengikut statistik matematik

Topik: Pemprosesan utama data eksperimen

3. Skor dalam mata. 1

5. Soalan ujian.. 2

6. Metodologi untuk melaksanakan kerja makmal.. 3

Matlamat kerja

Memperoleh kemahiran dalam pemprosesan primer data empirikal menggunakan kaedah statistik matematik.

Berdasarkan keseluruhan data eksperimen, selesaikan tugasan berikut:

Latihan 1. Bina siri taburan variasi selang.

Tugasan 2. Bina histogram frekuensi bagi siri variasi selang.

Tugasan 3. Cipta fungsi taburan empirikal dan plot graf.

a) mod dan median;

b) momen permulaan bersyarat;

c) purata sampel;

d) varians sampel, varians populasi diperbetulkan, sisihan piawai diperbetulkan;

e) pekali variasi;

f) tidak simetri;

g) kurtosis;

Tugasan 5. Tentukan sempadan nilai sebenar ciri berangka pembolehubah rawak yang dikaji dengan kebolehpercayaan yang diberikan.

Tugasan 6. Tafsiran bermakna hasil pemprosesan primer mengikut syarat tugas.

Skor dalam mata

Tugasan 1-56 mata

Tugasan 62 mata

Pertahanan kerja makmal(temubual lisan mengenai soalan ujian dan kerja makmal) - 2 mata

Hasil kerja hendaklah dihantar dalam bentuk bertulis pada helaian A4 dan termasuk:

1) Muka surat tajuk (Lampiran 1)

2) Data awal.

3) Penyerahan kerja mengikut sampel yang ditetapkan.

4) Keputusan pengiraan (dilakukan secara manual dan/atau menggunakan MS Excel) dalam susunan yang ditentukan.

5) Kesimpulan - tafsiran bermakna hasil pemprosesan primer mengikut keadaan masalah.

6) Temu bual lisan mengenai kerja dan soalan kawalan.



5. Soalan keselamatan


Kaedah untuk melaksanakan kerja makmal

Tugasan 1. Bina siri taburan variasi selang

Untuk mempersembahkan data statistik dalam bentuk siri variasi dengan pilihan yang sama jarak, adalah perlu:

1.Dalam jadual data asal, cari nilai terkecil dan terbesar.

2.Takrifkan julat variasi :

3. Tentukan panjang selang h, jika sampel mengandungi sehingga 1000 data, gunakan formula: , di mana n – saiz sampel – jumlah data dalam sampel; untuk pengiraan ambil lgn).

Nisbah yang dikira dibundarkan kepada nilai integer yang mudah .

4. Untuk menentukan permulaan selang pertama bagi bilangan selang genap, adalah disyorkan untuk mengambil nilai ; dan untuk bilangan selang ganjil .

5. Tuliskan selang kumpulan dan susunkannya dalam susunan sempadan menaik

, ,………., ,

di mana adalah had bawah selang pertama. Nombor mudah diambil yang tidak lebih daripada , had atas selang terakhir hendaklah tidak kurang daripada . Adalah disyorkan bahawa selang mengandungi nilai awal pembolehubah rawak dan diasingkan daripada 5 hingga 20 selang waktu.

6. Tulis data awal pada selang kumpulan, i.e. hitung daripada jadual sumber bilangan nilai pembolehubah rawak yang jatuh dalam selang waktu yang ditentukan. Jika beberapa nilai bertepatan dengan sempadan selang, maka ia dikaitkan sama ada hanya kepada sebelumnya atau hanya kepada selang berikutnya.

Nota 1. Selang tidak perlu sama panjang. Di kawasan di mana nilainya lebih padat, adalah lebih mudah untuk mengambil selang yang lebih kecil, pendek, dan di mana terdapat selang yang kurang kerap, selang yang lebih besar.

Nota 2.Jika untuk beberapa nilai "sifar" atau nilai frekuensi kecil diperolehi, maka perlu untuk mengumpulkan semula data, membesarkan selang (meningkatkan langkah).