Nilai ciri dalam siri variasi. Siri pengedaran variasi dan statistik

Hasil daripada penguasaan bab ini, pelajar mesti: tahu

  • penunjuk variasi dan hubungannya;
  • undang-undang asas pengagihan ciri;
  • intipati kriteria persetujuan; mampu untuk
  • mengira indeks variasi dan kriteria kesesuaian;
  • menentukan ciri pengedaran;
  • menilai ciri berangka asas siri taburan statistik;

sendiri

  • kaedah analisis statistik siri pengedaran;
  • asas analisis varians;
  • teknik untuk menyemak siri pengedaran statistik untuk pematuhan undang-undang asas pengedaran.

Penunjuk variasi

Dalam kajian statistik ciri pelbagai populasi statistik, adalah sangat menarik untuk mengkaji variasi ciri unit statistik individu populasi, serta sifat taburan unit mengikut ciri ini. Variasi - ini adalah perbezaan nilai individu bagi satu ciri di antara unit populasi yang dikaji. Kajian tentang variasi adalah amat penting secara praktikal. Mengikut tahap variasi, seseorang boleh menilai had variasi ciri, kehomogenan populasi untuk ciri tertentu, tipikal purata, dan hubungan faktor yang menentukan variasi. Penunjuk variasi digunakan untuk mencirikan dan menyusun populasi statistik.

Hasil rumusan dan pengelompokan bahan pemerhatian statistik, dipersembahkan dalam bentuk siri taburan statistik, mewakili taburan teratur unit populasi yang dikaji ke dalam kumpulan mengikut kriteria pengelompokan (variing). Sekiranya ciri kualitatif diambil sebagai asas untuk pengelompokan, maka siri pengedaran sedemikian dipanggil bersifat atributif(pengedaran mengikut profesion, jantina, warna, dll.). Jika siri pengedaran dibina secara kuantitatif, maka siri sedemikian dipanggil variasi(agihan mengikut ketinggian, berat, gaji, dll.). Untuk membina siri variasi bermaksud menyusun taburan kuantitatif unit populasi mengikut nilai ciri, mengira bilangan unit populasi dengan nilai ini (kekerapan), dan menyusun keputusan dalam jadual.

Daripada kekerapan varian, adalah mungkin untuk menggunakan nisbahnya kepada jumlah isipadu pemerhatian, yang dipanggil frekuensi (frekuensi relatif).

Terdapat dua jenis siri variasi: diskret dan selang. Siri diskret- Ini adalah siri variasi, pembinaannya berdasarkan ciri dengan perubahan tak selanjar (ciri diskret). Yang terakhir termasuk bilangan pekerja di perusahaan, kategori tarif, bilangan anak dalam keluarga, dsb. Siri variasi diskret mewakili jadual yang terdiri daripada dua lajur. Lajur pertama menunjukkan nilai khusus atribut, dan lajur kedua menunjukkan bilangan unit dalam populasi dengan nilai khusus atribut. Sekiranya ciri mempunyai perubahan berterusan (jumlah pendapatan, tempoh perkhidmatan, kos aset tetap perusahaan, dll., yang dalam had tertentu boleh mengambil sebarang nilai), maka untuk ciri ini adalah mungkin untuk membina siri variasi selang. Apabila membina siri variasi selang, jadual juga mempunyai dua lajur. Yang pertama menunjukkan nilai atribut dalam selang "dari - hingga" (pilihan), yang kedua menunjukkan bilangan unit yang termasuk dalam selang (frekuensi). Kekerapan (kekerapan pengulangan) - bilangan ulangan bagi varian tertentu nilai atribut. Selang boleh ditutup atau terbuka. Selang tertutup adalah terhad pada kedua-dua belah pihak, i.e. mempunyai kedua-dua sempadan bawah (“dari”) dan atas (“ke”). Selang terbuka mempunyai satu sempadan: sama ada atas atau bawah. Jika pilihan disusun dalam susunan menaik atau menurun, maka baris dipanggil berperingkat.

Untuk siri variasi, terdapat dua jenis pilihan tindak balas frekuensi: kekerapan terkumpul dan kekerapan terkumpul. Kekerapan terkumpul menunjukkan berapa banyak pemerhatian nilai ciri mengambil nilai kurang daripada nilai tertentu. Kekerapan terkumpul ditentukan dengan menjumlahkan nilai kekerapan ciri untuk kumpulan tertentu dengan semua frekuensi kumpulan sebelumnya. Kekerapan terkumpul mencirikan bahagian unit pemerhatian yang nilai atributnya tidak melebihi had atas kumpulan tertentu. Oleh itu, kekerapan terkumpul menunjukkan bahagian pilihan dalam jumlah yang mempunyai nilai tidak lebih daripada yang diberikan. Kekerapan, kekerapan, ketumpatan mutlak dan relatif, kekerapan terkumpul dan kekerapan adalah ciri-ciri magnitud varian.

Variasi dalam ciri unit statistik populasi, serta sifat taburan, dikaji menggunakan penunjuk dan ciri siri variasi, yang merangkumi tahap purata siri, sisihan linear purata, sisihan piawai, serakan , pekali ayunan, variasi, asimetri, kurtosis, dsb.

Nilai purata digunakan untuk mencirikan pusat pengedaran. Purata adalah ciri statistik generalisasi di mana tahap tipikal ciri yang dimiliki oleh ahli populasi yang dikaji dikira. Walau bagaimanapun, mungkin terdapat kes-kes kebetulan cara aritmetik dengan corak pengedaran yang berbeza, oleh itu, sebagai ciri statistik siri variasi, cara struktur yang dipanggil dikira - mod, median, serta kuantil, yang membahagikan siri pengedaran menjadi sama. bahagian (kuartil, desil, persentil, dll. ).

Fesyen - Ini ialah nilai ciri yang berlaku dalam siri pengedaran lebih kerap daripada nilainya yang lain. Untuk siri diskret, ini ialah pilihan dengan kekerapan tertinggi. Dalam siri variasi selang, untuk menentukan mod, perlu terlebih dahulu menentukan selang di mana ia berada, selang modal yang dipanggil. Dalam siri variasi dengan selang yang sama, selang modal ditentukan oleh frekuensi tertinggi, dalam siri dengan selang yang tidak sama - tetapi oleh ketumpatan taburan tertinggi. Formula tersebut kemudiannya digunakan untuk menentukan mod secara bersiri pada selang waktu yang sama

di mana Mo ialah nilai fesyen; xMo - had bawah selang modal; h- lebar selang modal; / Mo - kekerapan selang modal; / Mo j ialah kekerapan selang pramodal; / Mo+1 ialah kekerapan selang pascamodal, dan untuk siri dengan selang yang tidak sama dalam formula pengiraan ini, bukannya frekuensi / Mo, / Mo, / Mo, ketumpatan taburan harus digunakan Fikiran 0 _| , Fikiran 0> UMO+"

Jika terdapat mod tunggal, maka taburan kebarangkalian pembolehubah rawak dipanggil unimodal; jika terdapat lebih daripada satu mod, ia dipanggil multimodal (polymodal, multimodal), dalam kes dua mod - bimodal. Sebagai peraturan, multimodaliti menunjukkan bahawa taburan yang dikaji tidak mematuhi undang-undang taburan normal. Populasi homogen, sebagai peraturan, dicirikan oleh taburan puncak tunggal. Multivertex juga menunjukkan heterogeniti populasi yang dikaji. Kemunculan dua atau lebih bucu menjadikannya perlu untuk mengumpulkan semula data untuk mengenal pasti kumpulan yang lebih homogen.

Dalam siri variasi selang waktu, mod boleh ditentukan secara grafik menggunakan histogram. Untuk melakukan ini, lukis dua garisan bersilang dari titik atas lajur tertinggi histogram ke titik atas dua lajur bersebelahan. Kemudian, dari titik persilangan mereka, serenjang diturunkan ke paksi absis. Nilai ciri pada paksi-x yang sepadan dengan serenjang ialah mod. Dalam kebanyakan kes, apabila mencirikan populasi, keutamaan diberikan kepada mod dan bukannya min aritmetik sebagai penunjuk umum.

Median - Ini ialah nilai pusat atribut yang dimiliki oleh ahli pusat siri pengedaran. Dalam siri diskret, untuk mencari nilai median, nombor sirinya ditentukan terlebih dahulu. Untuk melakukan ini, jika bilangan unit adalah ganjil, satu ditambah kepada jumlah semua frekuensi, dan nombor itu dibahagikan dengan dua. Jika terdapat bilangan unit genap dalam satu baris, akan ada dua unit median, jadi dalam kes ini median ditakrifkan sebagai purata nilai dua unit median. Oleh itu, median dalam siri variasi diskret ialah nilai yang membahagikan siri kepada dua bahagian yang mengandungi bilangan pilihan yang sama.

Dalam siri selang, selepas menentukan nombor siri median, selang medial didapati menggunakan frekuensi terkumpul (frekuensi), dan kemudian menggunakan formula untuk mengira median, nilai median itu sendiri ditentukan:

di mana Me ialah nilai median; x Saya - had bawah selang median; h- lebar selang median; - jumlah frekuensi siri pengedaran; /D - kekerapan terkumpul selang pra-median; /Me - kekerapan selang median.

Median boleh didapati secara grafik menggunakan terkumpul. Untuk melakukan ini, pada skala frekuensi terkumpul (frekuensi) terkumpul, dari titik yang sepadan dengan nombor ordinal median, garis lurus dilukis selari dengan paksi absis sehingga ia bersilang dengan terkumpul. Seterusnya, dari titik persilangan garis yang ditunjukkan dengan terkumpul, serenjang diturunkan ke paksi absis. Nilai atribut pada paksi-x yang sepadan dengan ordinat yang dilukis (berserenjang) ialah median.

Median dicirikan oleh sifat berikut.

  • 1. Ia tidak bergantung pada nilai atribut yang terletak di kedua-dua belahnya.
  • 2. Ia mempunyai sifat minima, yang bermaksud bahawa jumlah sisihan mutlak nilai atribut daripada median mewakili nilai minimum berbanding sisihan nilai atribut daripada mana-mana nilai lain.
  • 3. Apabila menggabungkan dua taburan dengan median yang diketahui, adalah mustahil untuk meramalkan terlebih dahulu nilai median taburan baharu.

Sifat median ini digunakan secara meluas apabila mereka bentuk lokasi titik perkhidmatan awam - sekolah, klinik, stesen minyak, pam air, dll. Sebagai contoh, jika ia dirancang untuk membina sebuah klinik di blok tertentu di bandar, maka adalah lebih sesuai untuk mencarinya pada satu titik dalam blok yang bukan separuh panjang blok itu, tetapi bilangan penduduk.

Nisbah mod, median dan min aritmetik menunjukkan sifat taburan ciri dalam agregat dan membolehkan kita menilai simetri taburan. Jika x Saya maka terdapat asimetri sebelah kanan siri itu. Dengan taburan normal X - Memo.

K. Pearson, berdasarkan penjajaran pelbagai jenis lengkung, menentukan bahawa untuk taburan tidak simetri sederhana, perhubungan anggaran berikut antara min aritmetik, median dan mod adalah sah:

di mana Me ialah nilai median; Mo - maksud fesyen; x aritma - nilai min aritmetik.

Sekiranya terdapat keperluan untuk mengkaji struktur siri variasi dengan lebih terperinci, kemudian hitung nilai ciri yang serupa dengan median. Nilai ciri sedemikian membahagikan semua unit pengedaran kepada nombor yang sama; ia dipanggil kuantil atau kecerunan. Kuantil dibahagikan kepada kuartil, desil, persentil, dll.

Kuartil membahagikan populasi kepada empat bahagian yang sama. Kuartil pertama dikira sama dengan median menggunakan formula untuk mengira kuartil pertama, setelah sebelumnya menentukan selang suku tahunan pertama:

di mana Qi ialah nilai kuartil pertama; xQ^- had bawah julat kuartil pertama; h- lebar selang suku pertama; /, - frekuensi siri selang;

Kekerapan kumulatif dalam selang sebelum selang kuartil pertama; Jq ( - kekerapan selang kuartil pertama.

Kuartil pertama menunjukkan bahawa 25% daripada unit populasi adalah kurang daripada nilainya, dan 75% adalah lebih. Kuartil kedua adalah sama dengan median, i.e. Q 2 = saya.

Dengan analogi, kuartil ketiga dikira, setelah pertama kali menemui selang suku ketiga:

di manakah had bawah julat kuartil ketiga; h- lebar selang kuartil ketiga; /, - frekuensi siri selang; /X" - kekerapan terkumpul dalam selang sebelumnya

G

selang kuartil ketiga; Jq ialah kekerapan bagi selang kuartil ketiga.

Kuartil ketiga menunjukkan bahawa 75% daripada unit populasi adalah kurang daripada nilainya, dan 25% lebih banyak.

Perbezaan antara kuartil ketiga dan pertama ialah julat antara kuartil:

di mana Aq ialah nilai julat antara kuartil; S 3 - nilai kuartil ketiga; Q, ialah nilai kuartil pertama.

Desil membahagikan populasi kepada 10 bahagian yang sama banyak. Desil ialah nilai ciri dalam siri taburan yang sepadan dengan persepuluh daripada saiz populasi. Dengan analogi dengan kuartil, desil pertama menunjukkan bahawa 10% daripada unit populasi adalah kurang daripada nilainya, dan 90% adalah lebih besar, dan desil kesembilan mendedahkan bahawa 90% daripada unit populasi adalah kurang daripada nilainya, dan 10% adalah lebih besar. Nisbah desil kesembilan dan pertama, i.e. Pekali desil digunakan secara meluas dalam kajian pembezaan pendapatan untuk mengukur nisbah tahap pendapatan bagi 10% penduduk paling mewah dan 10% daripada penduduk paling kurang berkemampuan. Persentil membahagikan populasi yang diberi kedudukan kepada 100 bahagian yang sama. Pengiraan, makna, dan penggunaan persentil adalah serupa dengan desil.

Kuartil, desil dan ciri-ciri struktur lain boleh ditentukan secara grafik dengan analogi dengan median menggunakan kumulasi.

Untuk mengukur saiz variasi, penunjuk berikut digunakan: julat variasi, sisihan linear purata, sisihan piawai, serakan. Magnitud julat variasi bergantung sepenuhnya pada rawak taburan ahli ekstrem siri. Penunjuk ini menarik minat dalam kes di mana penting untuk mengetahui amplitud turun naik dalam nilai ciri adalah:

di mana R- nilai julat variasi; x max - nilai maksimum atribut; x tt - nilai minimum atribut.

Apabila mengira julat variasi, nilai sebahagian besar ahli siri tidak diambil kira, manakala variasi dikaitkan dengan setiap nilai ahli siri. Penunjuk yang merupakan purata yang diperoleh daripada sisihan nilai individu ciri daripada nilai purata mereka tidak mempunyai kelemahan ini: sisihan linear purata dan sisihan piawai. Terdapat hubungan langsung antara sisihan individu daripada purata dan kebolehubahan sifat tertentu. Lebih kuat turun naik, lebih besar saiz mutlak sisihan daripada purata.

Sisihan linear purata ialah min aritmetik bagi nilai mutlak sisihan pilihan individu daripada nilai puratanya.

Sisihan Linear Purata untuk Data Tidak Berkumpulan

di mana /pr ialah nilai sisihan linear purata; x, - ialah nilai atribut; X - P - bilangan unit dalam populasi.

Sisihan linear purata bagi siri terkumpul

di mana / vz - nilai sisihan linear purata; x, ialah nilai atribut; X - nilai purata ciri bagi populasi yang dikaji; / - bilangan unit populasi dalam kumpulan yang berasingan.

Dalam kes ini, tanda-tanda penyelewengan diabaikan, jika tidak, jumlah semua sisihan akan sama dengan sifar. Purata sisihan linear, bergantung pada pengumpulan data yang dianalisis, dikira menggunakan pelbagai formula: untuk data terkumpul dan tidak terkumpul. Disebabkan oleh konvensyennya, sisihan linear purata, secara berasingan daripada penunjuk variasi lain, digunakan dalam amalan agak jarang (khususnya, untuk mencirikan pemenuhan kewajipan kontrak mengenai keseragaman penghantaran; dalam analisis pusing ganti perdagangan asing, komposisi pekerja, irama pengeluaran, kualiti produk, dengan mengambil kira ciri-ciri teknologi pengeluaran dan lain-lain).

Sisihan piawai mencirikan berapa banyak secara purata nilai individu bagi ciri yang dikaji menyimpang daripada nilai purata populasi, dan dinyatakan dalam unit ukuran ciri yang dikaji. Sisihan piawai, sebagai salah satu ukuran utama variasi, digunakan secara meluas dalam menilai had variasi ciri dalam populasi homogen, dalam menentukan nilai ordinat lengkung taburan normal, serta dalam pengiraan yang berkaitan dengan organisasi pemerhatian sampel dan mewujudkan ketepatan ciri sampel. Sisihan piawai bagi data tidak terkumpul dikira menggunakan algoritma berikut: setiap sisihan daripada min adalah kuasa dua, semua kuasa dua dijumlahkan, selepas itu jumlah kuasa dua dibahagikan dengan bilangan sebutan siri dan punca kuasa dua diekstrak daripada quotient:

di mana Iip ialah nilai sisihan piawai; Xj- nilai atribut; X- nilai purata ciri untuk populasi yang dikaji; P - bilangan unit dalam populasi.

Untuk data yang dianalisis berkumpulan, sisihan piawai data dikira menggunakan formula berwajaran

di mana - nilai sisihan piawai; Xj- nilai atribut; X - nilai purata ciri bagi populasi yang dikaji; f x - bilangan unit penduduk dalam kumpulan tertentu.

Ungkapan di bawah akar dalam kedua-dua kes dipanggil varians. Oleh itu, serakan dikira sebagai kuasa dua purata sisihan nilai atribut daripada nilai puratanya. Untuk nilai atribut tidak berwajaran (mudah), varians ditentukan seperti berikut:

Untuk nilai ciri wajaran

Terdapat juga kaedah ringkas khas untuk mengira varians: secara umum

untuk nilai ciri tidak berwajaran (mudah). untuk nilai ciri wajaran
menggunakan kaedah berasaskan sifar

di mana a 2 ialah nilai serakan; x, - ialah nilai atribut; X - nilai purata ciri, h- nilai selang kumpulan, t 1 - berat (A =

Serakan mempunyai ekspresi tersendiri dalam statistik dan merupakan salah satu penunjuk variasi yang paling penting. Ia diukur dalam unit yang sepadan dengan kuasa dua unit ukuran ciri yang sedang dikaji.

Penyerakan mempunyai sifat berikut.

  • 1. Varians nilai malar ialah sifar.
  • 2. Mengurangkan semua nilai ciri dengan nilai A yang sama tidak mengubah nilai serakan. Ini bermakna bahawa purata kuasa dua sisihan boleh dikira bukan dari nilai tertentu ciri, tetapi dari sisihan mereka dari beberapa nombor tetap.
  • 3. Mengurangkan sebarang nilai ciri dalam k kali mengurangkan varians dengan k 2 kali, dan sisihan piawai berada dalam k kali, i.e. semua nilai atribut boleh dibahagikan dengan beberapa nombor malar (katakan, dengan nilai selang siri), sisihan piawai boleh dikira, dan kemudian didarab dengan nombor malar.
  • 4. Jika kita mengira purata kuasa dua sisihan daripada sebarang nilai Dan berbeza pada satu darjah atau yang lain daripada min aritmetik, maka ia akan sentiasa lebih besar daripada purata kuasa dua sisihan yang dikira daripada min aritmetik. Kuasa dua purata sisihan akan lebih besar dengan jumlah yang sangat tertentu - dengan kuasa dua perbezaan antara purata dan nilai yang diambil secara konvensional ini.

Variasi ciri alternatif terdiri daripada ada atau tiada harta yang dikaji dalam unit populasi. Secara kuantitatif, variasi atribut alternatif dinyatakan dengan dua nilai: kehadiran unit harta yang dikaji dilambangkan dengan satu (1), dan ketiadaannya dilambangkan dengan sifar (0). Perkadaran unit yang mempunyai harta yang dikaji dilambangkan dengan P, dan bahagian unit yang tidak mempunyai sifat ini dilambangkan dengan G. Oleh itu, varians atribut alternatif adalah sama dengan hasil perkadaran unit yang memiliki sifat ini (P) dengan bahagian unit yang tidak memiliki sifat ini. (G). Variasi terbesar populasi dicapai dalam kes apabila sebahagian daripada populasi, yang membentuk 50% daripada jumlah keseluruhan populasi, mempunyai ciri, dan sebahagian lagi populasi, juga sama dengan 50%, tidak mempunyai ciri ini, dan serakan mencapai nilai maksimum 0.25, t .e. P = 0.5, G= 1 - P = 1 - 0.5 = 0.5 dan o 2 = 0.5 0.5 = 0.25. Had bawah penunjuk ini ialah sifar, yang sepadan dengan situasi di mana tiada variasi dalam agregat. Aplikasi praktikal varians ciri alternatif adalah untuk membina selang keyakinan semasa menjalankan pemerhatian sampel.

Lebih kecil varians dan sisihan piawai, lebih homogen populasi dan lebih tipikal puratanya. Dalam amalan statistik, selalunya terdapat keperluan untuk membandingkan variasi pelbagai ciri. Sebagai contoh, adalah menarik untuk membandingkan variasi dalam umur pekerja dan kelayakan mereka, tempoh perkhidmatan dan gaji, kos dan keuntungan, tempoh perkhidmatan dan produktiviti buruh, dsb. Untuk perbandingan sedemikian, penunjuk kebolehubahan mutlak ciri adalah tidak sesuai: adalah mustahil untuk membandingkan kebolehubahan pengalaman kerja, dinyatakan dalam tahun, dengan variasi upah, dinyatakan dalam rubel. Untuk menjalankan perbandingan sedemikian, serta perbandingan kebolehubahan ciri yang sama dalam beberapa populasi dengan purata aritmetik yang berbeza, penunjuk variasi digunakan - pekali ayunan, pekali variasi linear dan pekali variasi, yang menunjukkan ukuran turun naik nilai ekstrem di sekitar purata.

Pekali ayunan:

di mana V R - nilai pekali ayunan; R- nilai julat variasi; X -

Pekali variasi linear".

di mana Vj- nilai pekali variasi linear; saya - nilai sisihan linear purata; X - nilai purata ciri bagi populasi yang dikaji.

Pekali variasi:

di mana V a - pekali nilai variasi; a ialah nilai sisihan piawai; X - nilai purata ciri bagi populasi yang dikaji.

Pekali ayunan ialah nisbah peratusan julat variasi kepada nilai purata ciri yang dikaji, dan pekali variasi linear ialah nisbah sisihan linear purata kepada nilai purata ciri yang sedang dikaji, dinyatakan sebagai peratusan. Pekali variasi ialah peratusan sisihan piawai kepada nilai purata ciri yang dikaji. Sebagai nilai relatif, dinyatakan sebagai peratusan, pekali variasi digunakan untuk membandingkan darjah variasi pelbagai ciri. Dengan menggunakan pekali variasi, kehomogenan populasi statistik dinilai. Sekiranya pekali variasi kurang daripada 33%, maka populasi yang dikaji adalah homogen dan variasi adalah lemah. Jika pekali variasi adalah lebih daripada 33%, maka populasi yang dikaji adalah heterogen, variasi adalah kuat, dan nilai purata adalah tidak tipikal dan tidak boleh digunakan sebagai penunjuk umum populasi ini. Selain itu, pekali variasi digunakan untuk membandingkan kebolehubahan satu sifat dalam populasi yang berbeza. Sebagai contoh, untuk menilai variasi dalam tempoh perkhidmatan pekerja di dua perusahaan. Semakin tinggi nilai pekali, semakin ketara variasi ciri.

Berdasarkan kuartil yang dikira, ia juga mungkin untuk mengira penunjuk relatif variasi suku tahunan menggunakan formula

di mana Q 2 Dan

Julat antara kuartil ditentukan oleh formula

Sisihan kuartil digunakan dan bukannya julat variasi untuk mengelakkan keburukan yang berkaitan dengan penggunaan nilai ekstrem:

Untuk siri variasi selang yang tidak sama, ketumpatan taburan juga dikira. Ia ditakrifkan sebagai hasil bagi frekuensi atau kekerapan yang sepadan dibahagikan dengan nilai selang. Dalam siri selang yang tidak sama, ketumpatan taburan mutlak dan relatif digunakan. Ketumpatan taburan mutlak ialah kekerapan per unit panjang selang. Ketumpatan taburan relatif - kekerapan per unit panjang selang.

Semua di atas adalah benar untuk siri taburan yang undang-undang taburannya diterangkan dengan baik oleh undang-undang taburan normal atau hampir dengannya.

Variasi dipanggil siri pengedaran yang dibina secara kuantitatif. Nilai ciri kuantitatif dalam unit individu populasi tidak tetap dan berbeza lebih kurang antara satu sama lain.

Variasi- turun naik, kebolehubahan nilai ciri antara unit populasi. Nilai berangka individu bagi ciri yang terdapat dalam populasi yang dikaji dipanggil pilihan nilai. Ketidakcukupan nilai purata untuk mencirikan populasi sepenuhnya memaksa kita untuk menambah nilai purata dengan penunjuk yang membolehkan kita menilai tipikal purata ini dengan mengukur kebolehubahan (variasi) ciri yang dikaji.

Kehadiran variasi adalah disebabkan oleh pengaruh sejumlah besar faktor terhadap pembentukan tahap sifat. Faktor ini bertindak dengan kekuatan yang tidak sama rata dan dalam arah yang berbeza. Indeks variasi digunakan untuk menerangkan ukuran kebolehubahan sifat.

Objektif kajian statistik variasi:

  • 1) mengkaji sifat dan tahap variasi ciri dalam unit individu populasi;
  • 2) menentukan peranan faktor individu atau kumpulan mereka dalam variasi ciri tertentu populasi.

Dalam statistik, kaedah khas untuk mengkaji variasi digunakan, berdasarkan penggunaan sistem penunjuk, Dengan yang mana variasi diukur.

Penyelidikan tentang variasi adalah penting. Mengukur variasi adalah perlu semasa menjalankan pemerhatian sampel, korelasi dan analisis varians, dsb. Ermolaev O.Yu. Statistik matematik untuk ahli psikologi: Buku Teks [Teks]/ O.Yu. Ermolaev. - M.: Flint Publishing House Institut Psikologi dan Sosial Moscow, 2012. - 335 p.

Dengan tahap variasi seseorang boleh menilai kehomogenan populasi, kestabilan nilai ciri individu dan tipikal purata. Atas dasar mereka, penunjuk keakraban hubungan antara ciri dan penunjuk untuk menilai ketepatan pemerhatian sampel dibangunkan.

Perbezaan dibuat antara variasi dalam ruang dan variasi dalam masa.

Variasi dalam ruang difahami sebagai turun naik nilai atribut antara unit populasi yang mewakili wilayah individu. Variasi masa merujuk kepada perubahan dalam nilai sesuatu ciri dalam tempoh masa yang berbeza.

Untuk mengkaji variasi dalam baris pengedaran, semua varian nilai atribut disusun dalam susunan menaik atau menurun. Proses ini dipanggil ranking siri.

Tanda-tanda variasi yang paling mudah ialah minimum dan maksimum- nilai terkecil dan terbesar bagi atribut dalam agregat. Bilangan pengulangan varian individu nilai ciri dipanggil kekerapan pengulangan (fi). Ia adalah mudah untuk menggantikan frekuensi dengan frekuensi - wi. Kekerapan ialah penunjuk relatif frekuensi, yang boleh dinyatakan dalam pecahan unit atau sebagai peratusan dan membolehkan seseorang membandingkan siri variasi dengan bilangan cerapan yang berbeza. Dinyatakan oleh formula:

di mana Xmax, Xmin ialah nilai maksimum dan minimum bagi ciri dalam agregat; n - bilangan kumpulan.

Untuk mengukur variasi sesuatu sifat, pelbagai penunjuk mutlak dan relatif digunakan. Penunjuk mutlak variasi termasuk julat variasi, sisihan linear purata, serakan dan sisihan piawai. Penunjuk relatif ayunan termasuk pekali ayunan, sisihan linear relatif, dan pekali variasi.

Contoh mencari siri variasi

Senaman. Untuk sampel ini:

  • a) Cari siri variasi;
  • b) Membina fungsi pengagihan;

No.=42. Elemen sampel:

1 5 1 8 1 3 9 4 7 3 7 8 7 3 2 3 5 3 8 3 5 2 8 3 7 9 5 8 8 1 2 2 5 1 6 1 7 6 7 7 6 2

Penyelesaian.

  • a) pembinaan siri variasi berperingkat:
    • 1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 4 5 5 5 5 5 6 6 6 7 7 7 7 7 7 7 8 8 8 8 8 8 9 9
  • b) pembinaan siri variasi diskret.

Mari kita hitung bilangan kumpulan dalam siri variasi menggunakan formula Sturgess:

Mari kita ambil bilangan kumpulan menjadi 7.

Mengetahui bilangan kumpulan, kami mengira saiz selang:

Untuk kemudahan membina jadual, kami akan mengambil bilangan kumpulan yang sama dengan 8, selangnya ialah 1.

nasi. 1 Jumlah jualan barang oleh kedai untuk tempoh masa tertentu

Konsep siri variasi. Langkah pertama dalam mensistematasikan bahan pemerhatian statistik ialah mengira bilangan unit yang mempunyai ciri tertentu. Dengan menyusun unit dalam tertib menaik atau menurun bagi ciri kuantitatifnya dan mengira bilangan unit dengan nilai ciri tertentu, kita memperoleh siri variasi. Siri variasi mencirikan taburan unit populasi statistik tertentu mengikut beberapa ciri kuantitatif.

Siri variasi terdiri daripada dua lajur, lajur kiri mengandungi nilai ciri yang berbeza-beza, dipanggil varian dan dilambangkan (x), dan lajur kanan mengandungi nombor mutlak yang menunjukkan berapa kali setiap variasi berlaku. Penunjuk dalam lajur ini dipanggil frekuensi dan ditetapkan (f).

Siri variasi boleh dibentangkan secara skematik dalam bentuk Jadual 5.1:

Jadual 5.1

Jenis siri variasi

Pilihan (x)

Kekerapan (f)

Di lajur kanan, penunjuk relatif juga boleh digunakan, mencirikan bahagian kekerapan pilihan individu dalam jumlah jumlah frekuensi. Penunjuk relatif ini dipanggil frekuensi dan secara konvensional dilambangkan dengan , i.e. . Jumlah semua frekuensi adalah sama dengan satu. Kekerapan juga boleh dinyatakan sebagai peratusan, dan kemudian jumlahnya akan sama dengan 100%.

Tanda-tanda yang berbeza mungkin berbeza sifatnya. Varian beberapa ciri dinyatakan dalam integer, contohnya, bilangan bilik dalam apartmen, bilangan buku yang diterbitkan, dsb. Tanda-tanda ini dipanggil tidak berterusan atau diskret. Varian ciri lain boleh mengambil mana-mana nilai dalam had tertentu, seperti pemenuhan tugas yang dirancang, upah, dll. Ciri-ciri ini dipanggil berterusan.

Siri variasi diskret. Jika varian siri variasi dinyatakan dalam bentuk kuantiti diskret, maka siri variasi tersebut dipanggil diskret penampilannya dibentangkan dalam jadual. 5.2:

Jadual 5.2

Agihan pelajar mengikut gred peperiksaan

Penilaian (x)

Bilangan pelajar (f)

Dalam % daripada jumlah ()

Sifat taburan dalam siri diskret digambarkan secara grafik dalam bentuk poligon taburan, Rajah 5.1.

nasi. 5.1. Agihan pelajar mengikut gred yang diperolehi pada peperiksaan.

Siri variasi selang. Untuk ciri berterusan, siri variasi dibina sebagai selang, i.e. nilai-nilai ciri di dalamnya dinyatakan dalam bentuk selang "dari dan ke". Dalam kes ini, nilai minimum ciri dalam selang tersebut dipanggil had bawah selang, dan maksimum dipanggil had atas selang.

Siri variasi selang dibina untuk ciri tak selanjar (diskrit) dan untuk ciri yang berbeza dalam julat yang besar. Baris selang boleh mempunyai selang yang sama atau tidak sama. Dalam amalan ekonomi, kebanyakan selang yang tidak sama digunakan, secara beransur-ansur meningkat atau menurun. Keperluan ini timbul terutamanya dalam kes di mana turun naik ciri berlaku secara tidak sekata dan dalam had yang besar.

Mari kita pertimbangkan jenis siri selang dengan selang yang sama, jadual. 5.3:

Jadual 5.3

Pengagihan pekerja mengikut pengeluaran

Output, t.r. (X)

Bilangan pekerja (f)

Kekerapan terkumpul (f´)

Siri taburan jeda digambarkan secara grafik dalam bentuk histogram, Rajah 5.2.

Rajah.5.2. Pengagihan pekerja mengikut pengeluaran

Kekerapan terkumpul (kumulatif). Dalam amalan, terdapat keperluan untuk mengubah siri pengedaran menjadi siri kumulatif, dibina mengikut frekuensi terkumpul. Dengan bantuan mereka, anda boleh menentukan purata struktur yang memudahkan analisis data siri pengedaran.

Kekerapan kumulatif ditentukan dengan menambah secara berurutan pada frekuensi (atau frekuensi) kumpulan pertama penunjuk kumpulan berikutnya bagi siri pengedaran ini. Kumulasi dan ogif digunakan untuk menggambarkan siri pengedaran. Untuk membinanya, nilai ciri diskret (atau hujung selang) ditandakan pada paksi absis, dan jumlah kumulatif frekuensi (terkumpul) ditandakan pada paksi ordinat, Rajah 5.3.

nasi. 5.3. Pengagihan kumulatif pekerja mengikut pengeluaran

Jika skala frekuensi dan pilihan diterbalikkan, i.e. paksi absis mencerminkan frekuensi terkumpul, dan paksi ordinat menunjukkan nilai varian, maka lengkung yang mencirikan perubahan frekuensi dari kumpulan ke kumpulan akan dipanggil ogif taburan, Rajah 5.4.

nasi. 5.4. Ogiva pengagihan pekerja mengikut pengeluaran

Siri variasi dengan selang yang sama menyediakan salah satu keperluan terpenting untuk siri pengedaran statistik, memastikan perbandingannya dalam masa dan ruang.

Ketumpatan pengedaran. Walau bagaimanapun, kekerapan selang tidak sama individu dalam siri yang dinamakan tidak boleh dibandingkan secara langsung. Dalam kes sedemikian, untuk memastikan perbandingan yang diperlukan, ketumpatan pengedaran dikira, i.e. tentukan berapa banyak unit dalam setiap kumpulan bagi setiap unit nilai selang.

Apabila membina graf taburan siri variasi dengan selang yang tidak sama, ketinggian segi empat tepat ditentukan dalam perkadaran bukan dengan frekuensi, tetapi dengan penunjuk ketumpatan taburan nilai ciri yang dikaji dalam yang sepadan. selang waktu.

Merangka siri variasi dan perwakilan grafiknya adalah langkah pertama dalam memproses data awal dan peringkat pertama dalam analisis populasi yang dikaji. Langkah seterusnya dalam analisis siri variasi adalah untuk menentukan penunjuk umum utama, yang dipanggil ciri-ciri siri. Ciri-ciri ini harus memberi gambaran tentang nilai purata ciri di antara unit populasi.

nilai purata. Nilai purata ialah ciri umum bagi ciri yang dikaji dalam populasi yang dikaji, mencerminkan tahap tipikalnya bagi setiap unit populasi di bawah keadaan tempat dan masa tertentu.

Nilai purata sentiasa dinamakan dan mempunyai dimensi yang sama dengan ciri-ciri unit individu populasi.

Sebelum mengira nilai purata, adalah perlu untuk mengumpulkan unit populasi yang dikaji, mengenal pasti kumpulan homogen secara kualitatif.

Purata yang dikira untuk populasi secara keseluruhan dipanggil purata keseluruhan, dan untuk setiap kumpulan - purata kumpulan.

Terdapat dua jenis purata: kuasa (min aritmetik, min harmonik, min geometri, min kuadratik); struktur (mod, median, kuartil, desil).

Pilihan purata untuk pengiraan bergantung kepada tujuan.

Jenis purata kuasa dan kaedah untuk pengiraannya. Dalam amalan pemprosesan statistik bahan terkumpul, pelbagai masalah timbul, penyelesaiannya memerlukan purata yang berbeza.

Statistik matematik memperoleh pelbagai purata daripada formula purata kuasa:

di manakah nilai purata; x – pilihan individu (nilai ciri); z – eksponen (dengan z = 1 – min aritmetik, z = 0 min geometri, z = - 1 – min harmonik, z = 2 – min segi empat sama).

Walau bagaimanapun, persoalan tentang jenis purata yang perlu digunakan dalam setiap kes individu diselesaikan melalui analisis khusus populasi yang dikaji.

Jenis purata yang paling biasa dalam statistik ialah min aritmetik. Ia dikira dalam kes di mana isipadu ciri purata dibentuk sebagai jumlah nilainya untuk unit individu populasi statistik yang dikaji.

Bergantung pada sifat data sumber, min aritmetik ditentukan dalam pelbagai cara:

Sekiranya data tidak dikelompokkan, maka pengiraan dijalankan menggunakan formula purata mudah

Pengiraan min aritmetik dalam siri diskret berlaku mengikut formula 3.4.

Pengiraan min aritmetik dalam siri selang. Dalam siri variasi selang, di mana nilai ciri dalam setiap kumpulan secara konvensional diambil sebagai pertengahan selang, min aritmetik mungkin berbeza daripada min yang dikira daripada data tidak terkumpul. Selain itu, lebih besar selang dalam kumpulan, lebih besar kemungkinan sisihan purata yang dikira daripada data terkumpul daripada purata yang dikira daripada data tidak terkumpul.

Apabila mengira purata ke atas siri variasi selang, untuk melakukan pengiraan yang diperlukan, seseorang bergerak dari selang ke titik tengahnya. Dan kemudian purata dikira menggunakan formula purata aritmetik berwajaran.

Sifat bagi min aritmetik. Purata aritmetik mempunyai beberapa sifat yang memungkinkan untuk memudahkan pengiraan, mari kita pertimbangkan.

1. Purata aritmetik bagi nombor tetap adalah sama dengan nombor tetap ini.

Jika x = a. Kemudian .

2. Jika pemberat semua pilihan diubah secara berkadar, i.e. bertambah atau berkurang dengan bilangan kali yang sama, maka min aritmetik siri baharu tidak akan berubah.

Jika semua pemberat f dikurangkan dengan k kali, maka .

3. Jumlah sisihan positif dan negatif pilihan individu daripada purata, didarab dengan pemberat, adalah sama dengan sifar, i.e.

Jika, maka. Dari sini.

Jika semua pilihan dikurangkan atau ditambah dengan sebarang nombor, maka min aritmetik siri baharu akan berkurangan atau bertambah dengan jumlah yang sama.

Mari kita kurangkan semua pilihan x pada a, iaitu x´ = xa.

Kemudian

Purata aritmetik siri asal boleh diperolehi dengan menambah kepada min yang dikurangkan dengan nombor yang telah ditolak sebelum ini daripada pilihan. a, iaitu .

5. Jika semua pilihan dikurangkan atau ditambah dalam k kali, maka min aritmetik siri baharu akan berkurangan atau bertambah dengan jumlah yang sama, i.e. V k sekali.

Biarlah begitu .

Oleh itu, i.e. untuk mendapatkan purata siri asal, purata aritmetik siri baharu (dengan pilihan yang dikurangkan) mesti dinaikkan sebanyak k sekali.

Maksud harmonik. Min harmonik ialah salingan bagi min aritmetik. Ia digunakan apabila maklumat statistik tidak mengandungi frekuensi untuk varian individu populasi, tetapi dibentangkan sebagai produknya (M = xf). Min harmonik akan dikira menggunakan formula 3.5

Aplikasi praktikal min harmonik adalah untuk mengira beberapa indeks, khususnya, indeks harga.

Purata geometri. Apabila menggunakan min geometri, nilai individu ciri, sebagai peraturan, nilai relatif dinamik, dibina dalam bentuk nilai rantai, sebagai nisbah kepada tahap sebelumnya setiap peringkat dalam satu siri dinamik. Oleh itu, purata mencirikan kadar pertumbuhan purata.

Nilai min geometri juga digunakan untuk menentukan nilai jarak sama daripada nilai maksimum dan minimum ciri. Sebagai contoh, syarikat insurans membuat kontrak untuk penyediaan perkhidmatan insurans kereta. Bergantung pada peristiwa yang diinsuranskan, bayaran insurans boleh berkisar antara 10,000 hingga 100,000 dolar setahun. Jumlah purata pembayaran insurans ialah USD.

Min geometri ialah kuantiti yang digunakan sebagai purata nisbah atau dalam siri taburan yang dibentangkan dalam bentuk janjang geometri apabila z = 0. Min ini mudah digunakan apabila perhatian diberikan bukan kepada perbezaan mutlak, tetapi kepada nisbah dua nombor.

Formula untuk pengiraan adalah seperti berikut

di manakah varian ciri yang dipuratakan; – produk pilihan; f– kekerapan pilihan.

Purata geometri digunakan dalam pengiraan purata kadar pertumbuhan tahunan.

Min persegi. Rumus kuasa dua min digunakan untuk mengukur tahap turun naik nilai individu bagi sesuatu ciri di sekeliling min aritmetik dalam siri taburan. Oleh itu, apabila mengira penunjuk variasi, purata dikira daripada sisihan kuasa dua nilai individu bagi ciri daripada min aritmetik.

Nilai kuasa dua purata punca dikira menggunakan formula

Dalam penyelidikan ekonomi, kuadrat min yang diubah suai digunakan secara meluas dalam mengira penunjuk variasi sesuatu ciri, seperti serakan dan sisihan piawai.

Peraturan majoriti. Terdapat hubungan berikut antara purata kuasa - lebih besar eksponen, lebih besar nilai purata, Jadual 5.4:

Jadual 5.4

Hubungan antara purata

nilai z

Hubungan antara purata

Hubungan ini dipanggil peraturan majoriti.

Purata struktur. Untuk mencirikan struktur populasi, penunjuk khas digunakan, yang boleh dipanggil purata struktur. Penunjuk ini termasuk mod, median, kuartil dan desil.

Fesyen. Mod (Mo) ialah nilai yang paling kerap berlaku bagi sesuatu ciri di kalangan unit populasi. Mod ialah nilai atribut yang sepadan dengan titik maksimum keluk taburan teori.

Fesyen digunakan secara meluas dalam amalan komersial apabila mengkaji permintaan pengguna (apabila menentukan saiz pakaian dan kasut yang mendapat permintaan yang meluas), dan merekodkan harga. Mungkin terdapat beberapa mod secara keseluruhan.

Pengiraan mod dalam siri diskret. Dalam siri diskret, mod ialah varian dengan frekuensi tertinggi. Mari kita pertimbangkan untuk mencari mod dalam siri diskret.

Pengiraan mod dalam siri selang waktu. Dalam siri variasi selang, mod itu kira-kira dianggap sebagai varian tengah selang modal, i.e. selang yang mempunyai frekuensi tertinggi (frekuensi). Dalam selang waktu, anda perlu mencari nilai atribut iaitu mod. Untuk siri selang waktu, mod akan ditentukan oleh formula

di manakah had bawah selang modal; – nilai selang modal; – kekerapan yang sepadan dengan selang modal; – kekerapan sebelum selang modal; – kekerapan selang selepas mod satu.

Median. Median () ialah nilai atribut unit tengah bagi siri kedudukan. Siri berperingkat ialah siri di mana nilai atribut ditulis dalam susunan menaik atau menurun. Atau median ialah nilai yang membahagikan bilangan siri variasi tertib kepada dua bahagian yang sama: satu bahagian mempunyai nilai ciri yang berbeza-beza yang kurang daripada pilihan purata, dan satu bahagian lagi mempunyai nilai yang lebih besar.

Untuk mencari median, mula-mula tentukan nombor ordinalnya. Untuk melakukan ini, jika bilangan unit adalah ganjil, satu ditambah kepada jumlah semua frekuensi dan semuanya dibahagikan dengan dua. Dengan bilangan unit genap, median didapati sebagai nilai atribut unit, nombor sirinya ditentukan oleh jumlah jumlah frekuensi dibahagikan dengan dua. Mengetahui nombor siri median, adalah mudah untuk mencari nilainya menggunakan frekuensi terkumpul.

Pengiraan median dalam siri diskret. Mengikut tinjauan sampel, data mengenai taburan keluarga mengikut bilangan anak diperolehi, jadual. 5.5. Untuk menentukan median, kita mula-mula menentukan nombor ordinalnya

Dalam keluarga ini bilangan anak adalah sama dengan 2, oleh itu = 2. Oleh itu, dalam 50% keluarga bilangan anak tidak melebihi 2.

– kekerapan terkumpul sebelum selang median;

Di satu pihak, ini adalah harta yang sangat positif kerana dalam kes ini, kesan semua punca yang mempengaruhi semua unit populasi yang dikaji diambil kira. Sebaliknya, walaupun satu pemerhatian yang dimasukkan ke dalam data sumber secara kebetulan boleh memesongkan idea tahap perkembangan sifat yang sedang dikaji dalam populasi yang sedang dipertimbangkan (terutama dalam siri pendek).

Kuartil dan desil. Dengan analogi dengan mencari median dalam siri variasi, anda boleh mencari nilai ciri untuk mana-mana unit siri kedudukan. Jadi, khususnya, anda boleh mencari nilai atribut untuk unit membahagikan siri kepada 4 bahagian yang sama, kepada 10, dsb.

Kuartil. Pilihan yang membahagikan siri kedudukan kepada empat bahagian yang sama dipanggil kuartil.

Dalam kes ini, mereka membezakan: kuartil bawah (atau pertama) (Q1) - nilai atribut untuk unit siri kedudukan, membahagikan populasi dalam nisbah ¼ hingga ¾ dan kuartil atas (atau ketiga) ( S3) - nilai atribut untuk unit siri kedudukan, membahagikan populasi dalam nisbah ¾ hingga ¼.

– kekerapan selang kuartil (bawah dan atas)

Selang yang mengandungi Q1 dan Q3 ditentukan oleh frekuensi terkumpul (atau frekuensi).

desil. Sebagai tambahan kepada kuartil, desil dikira - pilihan yang membahagikan siri kedudukan kepada 10 bahagian yang sama.

Mereka ditetapkan oleh D, desil pertama D1 membahagikan siri dalam nisbah 1/10 dan 9/10, D2 kedua - 2/10 dan 8/10, dsb. Mereka dikira mengikut skema yang sama seperti median dan kuartil.

Kedua-dua median, kuartil dan desil tergolong dalam apa yang dipanggil statistik ordinal, yang difahami sebagai pilihan yang menduduki tempat ordinal tertentu dalam siri kedudukan.

Kaedah pengumpulan juga membolehkan anda mengukur variasi(kebolehubahan, turun naik) tanda. Apabila bilangan unit dalam populasi agak kecil, variasi diukur berdasarkan bilangan unit terperingkat yang membentuk populasi. Siri itu dipanggil berpangkat, jika unit disusun mengikut tertib menaik (menurun) ciri.

Walau bagaimanapun, siri kedudukan agak menunjukkan apabila ciri perbandingan variasi diperlukan. Di samping itu, dalam banyak kes kita perlu berurusan dengan populasi statistik yang terdiri daripada sejumlah besar unit, yang boleh dikatakan sukar untuk diwakili dalam bentuk siri tertentu. Dalam hal ini, untuk kenalan am awal dengan data statistik dan terutamanya untuk memudahkan kajian variasi dalam ciri, fenomena dan proses yang dikaji biasanya digabungkan ke dalam kumpulan, dan keputusan pengelompokan dibentangkan dalam bentuk jadual kumpulan.

Jika jadual kumpulan hanya mempunyai dua lajur - kumpulan mengikut ciri (pilihan) yang dipilih dan bilangan kumpulan (frekuensi atau kekerapan), ia dipanggil berhampiran pengedaran.

Julat pengedaran - jenis pengelompokan struktur yang paling mudah berdasarkan satu ciri, dipaparkan dalam jadual kumpulan dengan dua lajur yang mengandungi variasi dan frekuensi ciri tersebut. Dalam banyak kes, dengan kumpulan struktur sedemikian, i.e. Dengan penyusunan siri pengedaran, kajian bahan statistik awal bermula.

Kumpulan struktur dalam bentuk siri pengedaran boleh ditukar menjadi kumpulan struktur tulen jika kumpulan yang dipilih dicirikan bukan sahaja oleh frekuensi, tetapi juga oleh penunjuk statistik lain. Tujuan utama siri pengedaran adalah untuk mengkaji variasi ciri. Teori siri taburan dibangunkan secara terperinci oleh statistik matematik.

Siri pengedaran dibahagikan kepada bersifat atributif(pengumpulan mengikut ciri atribut, contohnya, membahagikan penduduk mengikut jantina, kewarganegaraan, status perkahwinan, dsb.) dan variasi(kumpulan mengikut ciri kuantitatif).

Siri variasi ialah jadual kumpulan yang mengandungi dua lajur: pengelompokan unit mengikut satu ciri kuantitatif dan bilangan unit dalam setiap kumpulan. Selang dalam siri variasi biasanya dibentuk sama dan tertutup. Siri variasi ialah kumpulan berikut bagi penduduk Rusia mengikut purata pendapatan monetari per kapita (Jadual 3.10).

Jadual 3.10

Taburan penduduk Rusia dengan purata pendapatan per kapita pada 2004-2009.

Kumpulan penduduk mengikut purata pendapatan tunai per kapita, gosok/bulan

Populasi dalam kumpulan, % daripada jumlah keseluruhan

8 000,1-10 000,0

10 000,1-15 000,0

15 000,1-25 000,0

Lebih 25,000.0

Seluruh penduduk

Siri variasi pula dibahagikan kepada diskret dan selang. diskret siri variasi menggabungkan varian ciri diskret yang berbeza dalam had sempit. Contoh siri variasi diskret ialah pengagihan keluarga Rusia mengikut bilangan anak yang mereka ada.

Selang waktu siri variasi menggabungkan varian sama ada ciri berterusan atau ciri diskret yang berbeza-beza dalam julat yang luas. Selang ialah siri variasi taburan penduduk Rusia mengikut purata pendapatan monetari per kapita.

Siri variasi diskret tidak digunakan dengan kerap dalam amalan. Sementara itu, menyusunnya tidak sukar, kerana komposisi kumpulan ditentukan oleh varian khusus yang sebenarnya ada pada ciri kumpulan yang dikaji.

Siri variasi selang lebih meluas. Apabila menyusunnya, persoalan yang sukar timbul tentang bilangan kumpulan, serta saiz selang yang perlu ditetapkan.

Prinsip untuk menyelesaikan isu ini dinyatakan dalam bab tentang metodologi untuk membina kumpulan statistik (lihat perenggan 3.3).

Siri variasi ialah satu cara untuk meruntuhkan atau memampatkan maklumat yang pelbagai ke dalam bentuk yang padat daripada mereka seseorang boleh membuat pertimbangan yang agak jelas tentang sifat variasi, dan mengkaji perbezaan ciri-ciri fenomena yang termasuk dalam set yang dikaji. Tetapi kepentingan siri variasi yang paling penting ialah berdasarkan ciri-ciri pengitlak khas variasi dikira (lihat Bab 7).

Tempat istimewa dalam analisis statistik tergolong dalam penentuan tahap purata ciri atau fenomena yang dikaji. Tahap purata sesuatu sifat diukur dengan nilai purata.

Nilai purata mencirikan tahap kuantitatif umum bagi ciri yang dikaji dan merupakan sifat kumpulan populasi statistik. Ia meratakan, melemahkan sisihan rawak pemerhatian individu dalam satu arah atau yang lain dan menyerlahkan sifat utama dan tipikal ciri yang sedang dikaji.

Purata digunakan secara meluas:

1. Untuk menilai status kesihatan penduduk: ciri-ciri pembangunan fizikal (tinggi, berat, lilitan dada, dll.), mengenal pasti kelaziman dan tempoh pelbagai penyakit, menganalisis penunjuk demografi (pergerakan penting penduduk, jangka hayat purata, pembiakan populasi, populasi purata dan lain-lain).

2. Untuk mengkaji aktiviti institusi perubatan, kakitangan perubatan dan menilai kualiti kerja mereka, merancang dan menentukan keperluan penduduk untuk pelbagai jenis rawatan perubatan (purata bilangan permintaan atau lawatan setiap penduduk setahun, purata tempoh penginapan pesakit di hospital, purata tempoh pemeriksaan pesakit, purata ketersediaan doktor, katil, dsb.).

3. Untuk mencirikan keadaan kebersihan dan epidemiologi (purata kandungan habuk udara di bengkel, kawasan purata setiap orang, purata penggunaan protein, lemak dan karbohidrat, dsb.).

4. Untuk menentukan penunjuk perubatan dan fisiologi dalam keadaan normal dan patologi, apabila memproses data makmal, untuk mewujudkan kebolehpercayaan keputusan kajian sampel dalam kajian sosial, kebersihan, klinikal, dan eksperimen.

Pengiraan nilai purata dilakukan berdasarkan siri variasi. Siri variasi ialah set statistik homogen secara kualitatif, unit individu yang mencirikan perbezaan kuantitatif ciri atau fenomena yang dikaji.

Variasi kuantitatif boleh terdiri daripada dua jenis: tak selanjar (discrete) dan berterusan.

Atribut tak selanjar (discrete) dinyatakan hanya sebagai integer dan tidak boleh mempunyai sebarang nilai perantaraan (contohnya, bilangan lawatan, populasi tapak, bilangan anak dalam keluarga, keterukan penyakit dalam mata. , dan lain-lain.).

Tanda berterusan boleh mengambil mana-mana nilai dalam had tertentu, termasuk yang pecahan, dan dinyatakan hanya kira-kira (contohnya, berat - untuk orang dewasa ia boleh dihadkan kepada kilogram, dan untuk bayi baru lahir - gram; ketinggian, tekanan darah, masa dihabiskan untuk berjumpa pesakit, dan lain-lain).



Nilai digital bagi setiap ciri atau fenomena individu yang termasuk dalam siri variasi dipanggil varian dan ditetapkan oleh huruf V . Notasi lain juga terdapat dalam kesusasteraan matematik, sebagai contoh x atau y.

Siri variasi, di mana setiap pilihan ditunjukkan sekali, dipanggil mudah. Siri sedemikian digunakan dalam kebanyakan masalah statistik dalam kes pemprosesan data komputer.

Apabila bilangan pemerhatian meningkat, nilai varian berulang cenderung berlaku. Dalam kes ini ia dicipta siri variasi berkumpulan, di mana bilangan ulangan ditunjukkan (kekerapan, dilambangkan dengan huruf “ R »).

Siri variasi kedudukan terdiri daripada pilihan yang disusun dalam susunan menaik atau menurun. Kedua-dua siri mudah dan berkumpulan boleh disusun dengan kedudukan.

Siri variasi selang disusun untuk memudahkan pengiraan berikutnya yang dilakukan tanpa menggunakan komputer, dengan bilangan unit cerapan yang sangat besar (lebih daripada 1000).

Siri variasi berterusan termasuk nilai pilihan, yang boleh berupa sebarang nilai.

Jika dalam siri variasi nilai ciri (varian) diberikan dalam bentuk nombor khusus individu, maka siri sedemikian dipanggil diskret.

Ciri-ciri umum nilai ciri yang dicerminkan dalam siri variasi ialah nilai purata. Antaranya, yang paling banyak digunakan ialah: min aritmetik M, fesyen Mo dan median saya. Setiap ciri ini adalah unik. Mereka tidak boleh menggantikan satu sama lain dan hanya bersama-sama mereka mewakili ciri-ciri siri variasi dengan cukup lengkap dan dalam bentuk pekat.

Fesyen (Mo) namakan nilai pilihan yang paling kerap berlaku.

Median (saya) – ini ialah nilai pilihan yang membahagikan siri variasi kedudukan kepada separuh (pada setiap sisi median terdapat separuh daripada pilihan). Dalam kes yang jarang berlaku, apabila terdapat siri variasi simetri, mod dan median adalah sama antara satu sama lain dan bertepatan dengan nilai min aritmetik.

Ciri yang paling tipikal bagi nilai pilihan ialah min aritmetik nilai ( M ). Dalam kesusasteraan matematik ia dilambangkan .

Aritmetik min (M, ) ialah ciri kuantitatif umum bagi ciri tertentu fenomena yang dikaji, membentuk populasi statistik homogen secara kualitatif. Terdapat purata aritmetik yang mudah dan berwajaran. Min aritmetik mudah dikira untuk siri variasi ringkas dengan menjumlahkan semua pilihan dan membahagikan jumlah ini dengan jumlah bilangan pilihan yang disertakan dalam siri variasi ini. Pengiraan dilakukan mengikut formula:

,

di mana: M - min aritmetik mudah;

Σ V - pilihan jumlah;

n- bilangan pemerhatian.

Dalam siri variasi berkumpulan, min aritmetik berwajaran ditentukan. Formula untuk mengiranya:

,

di mana: M - purata wajaran aritmetik;

Σ Vp - jumlah produk varian dengan frekuensinya;

n- bilangan pemerhatian.

Dengan sejumlah besar pemerhatian, dalam kes pengiraan manual, kaedah momen boleh digunakan.

Purata aritmetik mempunyai sifat berikut:

· jumlah sisihan daripada purata ( Σ d ) adalah sama dengan sifar (lihat Jadual 15);

· apabila mendarab (membahagi) semua pilihan dengan faktor yang sama (pembahagi), min aritmetik didarab (dibahagi) dengan faktor yang sama (pembahagi);

· jika anda menambah (tolak) nombor yang sama kepada semua pilihan, min aritmetik bertambah (berkurang) dengan nombor yang sama.

Purata aritmetik, diambil sendiri, tanpa mengambil kira kebolehubahan siri dari mana ia dikira, mungkin tidak mencerminkan sepenuhnya sifat siri variasi, terutamanya apabila perbandingan dengan purata lain diperlukan. Purata yang hampir nilainya boleh diperolehi daripada siri dengan pelbagai darjah serakan. Semakin dekat pilihan individu antara satu sama lain dari segi ciri kuantitatifnya, semakin kurang penyebaran (ayunan, kebolehubahan) siri, lebih tipikal puratanya.

Parameter utama yang membolehkan kita menilai kebolehubahan sesuatu sifat ialah:

· Skop;

· Amplitud;

· Sisihan piawai;

· Pekali variasi.

Kebolehubahan sesuatu sifat boleh dinilai dengan lebih kurang oleh julat dan amplitud siri variasi. Julat menunjukkan pilihan maksimum (V maks) dan minimum (V min) dalam siri. Amplitud (A m) ialah perbezaan antara pilihan ini: A m = V maks - V min.

Ukuran utama yang diterima umum bagi kebolehubahan siri variasi ialah penyebaran (D ). Tetapi yang paling kerap digunakan ialah parameter yang lebih mudah dikira berdasarkan penyebaran - sisihan piawai ( σ ). Ia mengambil kira magnitud sisihan ( d ) setiap siri variasi daripada min aritmetiknya ( d=V - M ).

Oleh kerana sisihan daripada purata boleh menjadi positif dan negatif, apabila dijumlahkan ia memberikan nilai "0" (S d=0). Untuk mengelakkan ini, nilai sisihan ( d) dinaikkan kepada kuasa kedua dan purata. Oleh itu, serakan siri variasi ialah min kuasa dua sisihan varian daripada min aritmetik dan dikira dengan formula:

.

Ia adalah ciri kebolehubahan yang paling penting dan digunakan untuk mengira banyak kriteria statistik.

Oleh kerana serakan dinyatakan sebagai kuasa dua sisihan, nilainya tidak boleh digunakan berbanding dengan min aritmetik. Untuk tujuan ini ia digunakan sisihan piawai, yang ditetapkan dengan tanda "Sigma" ( σ ). Ia mencirikan sisihan purata semua varian siri variasi daripada nilai min aritmetik dalam unit yang sama dengan nilai purata itu sendiri, supaya ia boleh digunakan bersama.

Sisihan piawai ditentukan oleh formula:

Formula yang ditentukan digunakan apabila bilangan cerapan ( n ) lebih daripada 30. Dengan bilangan yang lebih kecil n nilai sisihan piawai akan mempunyai ralat yang dikaitkan dengan offset matematik ( n - 1). Dalam hal ini, hasil yang lebih tepat boleh diperolehi dengan mengambil kira berat sebelah dalam formula untuk mengira sisihan piawai:

sisihan piawai (s ) ialah anggaran sisihan piawai pembolehubah rawak X berbanding jangkaan matematiknya berdasarkan anggaran tidak berat sebelah variannya.

Dengan nilai n > 30 sisihan piawai ( σ ) dan sisihan piawai ( s ) akan sama ( σ =s ). Oleh itu, dalam kebanyakan manual praktikal kriteria ini dianggap mempunyai makna yang berbeza. Dalam Excel, sisihan piawai boleh dikira menggunakan fungsi =STDEV(julat). Dan untuk mengira sisihan piawai, anda perlu membuat formula yang sesuai.

Purata segi empat sama atau sisihan piawai membolehkan anda menentukan berapa banyak nilai ciri mungkin berbeza daripada nilai purata. Katakan terdapat dua bandar dengan purata suhu harian yang sama pada musim panas. Salah satu bandar ini terletak di pantai, dan satu lagi di benua. Adalah diketahui bahawa di bandar yang terletak di pantai, perbezaan suhu siang hari adalah lebih kecil daripada di bandar yang terletak di pedalaman. Oleh itu, sisihan piawai suhu siang hari untuk bandar pantai akan menjadi kurang daripada untuk bandar kedua. Dalam amalan, ini bermakna purata suhu udara setiap hari tertentu di bandar yang terletak di benua itu akan berbeza lebih daripada purata berbanding di bandar di pantai. Di samping itu, sisihan piawai membolehkan anda menilai sisihan suhu yang mungkin dari purata dengan tahap kebarangkalian yang diperlukan.

Menurut teori kebarangkalian, dalam fenomena yang mematuhi undang-undang taburan normal, terdapat hubungan yang ketat antara nilai min aritmetik, sisihan piawai dan pilihan ( peraturan tiga sigma). Sebagai contoh, 68.3% daripada nilai ciri yang berbeza-beza berada dalam M ± 1 σ , 95.5% - dalam M ± 2 σ dan 99.7% - dalam M ± 3 σ .

Nilai sisihan piawai membolehkan kita menilai sifat kehomogenan siri variasi dan kumpulan kajian. Jika nilai sisihan piawai adalah kecil, maka ini menunjukkan kehomogenan yang agak tinggi bagi fenomena yang dikaji. Min aritmetik dalam kes ini harus dianggap agak ciri untuk siri variasi tertentu. Walau bagaimanapun, nilai sigma yang terlalu kecil membuatkan seseorang berfikir tentang pemilihan pemerhatian tiruan. Dengan sigma yang sangat besar, min aritmetik mencirikan siri variasi pada tahap yang lebih rendah, yang menunjukkan kebolehubahan yang ketara bagi ciri atau fenomena yang dikaji atau heterogeniti kumpulan yang dikaji. Walau bagaimanapun, perbandingan nilai sisihan piawai hanya boleh dilakukan untuk ciri dimensi yang sama. Sesungguhnya, jika kita membandingkan kepelbagaian berat kanak-kanak yang baru lahir dan orang dewasa, kita akan sentiasa mendapat nilai sigma yang lebih tinggi pada orang dewasa.

Perbandingan kebolehubahan ciri-ciri dimensi berbeza boleh dilakukan menggunakan pekali variasi. Ia menyatakan kepelbagaian sebagai peratusan min, membenarkan perbandingan antara ciri yang berbeza. Koefisien variasi dalam kesusasteraan perubatan ditunjukkan oleh tanda " DENGAN ", dan dalam matematik " v"dan dikira dengan formula:

.

Nilai pekali variasi kurang daripada 10% menunjukkan serakan kecil, dari 10 hingga 20% - kira-kira purata, lebih daripada 20% - kira-kira serakan kuat di sekitar min aritmetik.

Purata aritmetik biasanya dikira berdasarkan data daripada populasi sampel. Semasa kajian berulang, di bawah pengaruh fenomena rawak, min aritmetik mungkin berubah. Ini disebabkan oleh fakta bahawa, sebagai peraturan, hanya sebahagian daripada unit pemerhatian yang mungkin dikaji, iaitu populasi sampel. Maklumat tentang semua unit yang mungkin mewakili fenomena yang dikaji boleh diperolehi dengan mengkaji keseluruhan populasi, yang tidak selalu mungkin. Pada masa yang sama, untuk tujuan generalisasi data eksperimen, nilai purata dalam populasi umum adalah menarik. Oleh itu, untuk merumuskan kesimpulan umum tentang fenomena yang dikaji, keputusan yang diperoleh berdasarkan populasi sampel mesti dipindahkan kepada populasi umum menggunakan kaedah statistik.

Untuk menentukan tahap persetujuan antara kajian sampel dan populasi umum, adalah perlu untuk menganggarkan magnitud ralat yang pasti timbul semasa pemerhatian sampel. Ralat ini dipanggil " Kesilapan perwakilan"atau "Ralat purata bagi min aritmetik." Ia sebenarnya adalah perbezaan antara purata yang diperoleh daripada pemerhatian statistik terpilih dan nilai serupa yang akan diperoleh daripada kajian berterusan objek yang sama, i.e. apabila mengkaji populasi umum. Oleh kerana min sampel ialah pembolehubah rawak, ramalan sedemikian dilakukan dengan tahap kebarangkalian yang boleh diterima oleh penyelidik. Dalam penyelidikan perubatan sekurang-kurangnya 95%.

Ralat keterwakilan tidak boleh dikelirukan dengan ralat pendaftaran atau ralat perhatian (tergelincir, salah pengiraan, kesilapan taip, dsb.), yang harus diminimumkan dengan kaedah dan alatan yang mencukupi yang digunakan semasa percubaan.

Magnitud ralat keterwakilan bergantung pada kedua-dua saiz sampel dan kebolehubahan sifat. Semakin besar bilangan pemerhatian, semakin dekat sampel dengan populasi dan semakin kecil ralat. Semakin banyak pembolehubah tanda, semakin besar ralat statistik.

Dalam amalan, untuk menentukan ralat keterwakilan dalam siri variasi, formula berikut digunakan:

,

di mana: m – kesilapan perwakilan;

σ - sisihan piawai;

n– bilangan pemerhatian dalam sampel.

Formula menunjukkan bahawa saiz ralat purata adalah berkadar terus dengan sisihan piawai, iaitu, kebolehubahan ciri yang sedang dikaji, dan berkadar songsang dengan punca kuasa dua bilangan cerapan.

Apabila melakukan analisis statistik berdasarkan pengiraan nilai relatif, membina siri variasi tidak perlu. Dalam kes ini, penentuan ralat purata untuk penunjuk relatif boleh dilakukan menggunakan formula yang dipermudahkan:

,

di mana: R– nilai penunjuk relatif, dinyatakan sebagai peratusan, ppm, dsb.;

q– salingan P dan dinyatakan sebagai (1-P), (100-P), (1000-P), dsb., bergantung pada asas penunjuk dikira;

n– bilangan pemerhatian dalam populasi sampel.

Walau bagaimanapun, formula yang ditentukan untuk mengira ralat keterwakilan untuk nilai relatif hanya boleh digunakan apabila nilai penunjuk kurang daripada asasnya. Dalam beberapa kes pengiraan penunjuk intensif, syarat ini tidak dipenuhi, dan penunjuk boleh dinyatakan sebagai bilangan lebih daripada 100% atau 1000%. Dalam keadaan sedemikian, satu siri variasi dibina dan ralat keterwakilan dikira menggunakan formula untuk nilai purata berdasarkan sisihan piawai.

Ramalan nilai min aritmetik dalam populasi dilakukan dengan menunjukkan dua nilai – minimum dan maksimum. Nilai ekstrem penyimpangan yang mungkin ini, di mana nilai purata populasi yang dikehendaki mungkin turun naik, dipanggil " Sempadan amanah».

Postulat teori kebarangkalian telah membuktikan bahawa dengan taburan normal ciri dengan kebarangkalian 99.7%, nilai ekstrem sisihan purata tidak akan lebih besar daripada nilai ralat perwakilan tiga kali ganda ( M ± 3 m ); dalam 95.5% - tidak lebih daripada dua kali ganda ralat purata nilai purata ( M ± 2 m ); dalam 68.3% – tidak lebih daripada satu ralat purata ( M ± 1 m ) (Gamb. 9).

P%

nasi. 9. Ketumpatan kebarangkalian taburan normal.

Ambil perhatian bahawa pernyataan di atas hanya benar untuk ciri yang mematuhi undang-undang taburan Gaussian biasa.

Kebanyakan kajian eksperimen, termasuk dalam bidang perubatan, dikaitkan dengan pengukuran, hasilnya boleh mengambil hampir semua nilai dalam selang waktu tertentu, oleh itu, sebagai peraturan, mereka diterangkan oleh model pembolehubah rawak berterusan. Dalam hal ini, kebanyakan kaedah statistik mempertimbangkan pengagihan berterusan. Satu taburan sedemikian, yang mempunyai peranan asas dalam statistik matematik, ialah taburan normal atau Gaussian.

Ini disebabkan oleh beberapa sebab.

1. Pertama sekali, banyak pemerhatian eksperimen boleh diterangkan dengan jayanya menggunakan taburan normal. Perlu segera diambil perhatian bahawa tiada taburan data empirikal yang betul-betul normal, kerana pembolehubah rawak taburan normal berjulat dari hingga , yang tidak pernah ditemui dalam amalan. Walau bagaimanapun, taburan normal selalunya berfungsi dengan baik sebagai anggaran.

Sama ada berat, ketinggian dan parameter fisiologi badan manusia yang lain diukur, keputusan sentiasa dipengaruhi oleh sejumlah besar faktor rawak (sebab semula jadi dan ralat pengukuran). Selain itu, sebagai peraturan, kesan setiap faktor ini adalah tidak penting. Pengalaman menunjukkan bahawa keputusan dalam kes sedemikian akan diagihkan secara lebih kurang normal.

2. Banyak taburan yang dikaitkan dengan persampelan rawak menjadi normal apabila isipadu yang terakhir meningkat.

3. Taburan normal sangat sesuai sebagai anggaran taburan berterusan lain (contohnya, condong).

4. Taburan normal mempunyai beberapa sifat matematik yang menggalakkan, yang sebahagian besarnya memastikan penggunaannya secara meluas dalam statistik.

Pada masa yang sama, perlu diingatkan bahawa dalam data perubatan terdapat banyak taburan eksperimen yang tidak dapat diterangkan oleh model taburan normal. Untuk tujuan ini, statistik telah membangunkan kaedah yang biasanya dipanggil "Nonparametric".

Pemilihan kaedah statistik yang sesuai untuk memproses data daripada eksperimen tertentu hendaklah dibuat bergantung kepada sama ada data yang diperoleh tergolong dalam undang-undang taburan normal. Menguji hipotesis untuk subordinasi tanda kepada hukum taburan normal dijalankan menggunakan histogram taburan frekuensi (graf), serta beberapa kriteria statistik. Antaranya:

Kriteria asimetri ( b );

Kriteria ujian kurtosis ( g );

ujian Shapiro-Wilks ( W ) .

Analisis sifat taburan data (juga dipanggil ujian untuk kenormalan taburan) dijalankan untuk setiap parameter. Untuk menilai dengan yakin sama ada taburan parameter sepadan dengan undang-undang biasa, bilangan unit cerapan yang cukup besar (sekurang-kurangnya 30 nilai) diperlukan.

Untuk taburan normal, kriteria kecondongan dan kurtosis mengambil nilai 0. Jika taburan dialihkan ke kanan b > 0 (asimetri positif), dengan b < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормального закона g =0. Pada g > 0 keluk taburan adalah lebih tajam jika g < 0 пик более сглаженный, чем функция нормального распределения.

Untuk menyemak kenormalan menggunakan kriteria Shapiro–Wilks, adalah perlu untuk mencari nilai kriteria ini menggunakan jadual statistik pada tahap kepentingan yang diperlukan dan bergantung kepada bilangan unit cerapan (darjah kebebasan). Lampiran 1. Hipotesis normaliti ditolak pada nilai kecil kriteria ini, sebagai peraturan, pada w <0,8.