Ampirik dağılım. Toplu ve bireysel endeksler kavramı

Teorik temel Matematiksel istatistikler için kalıpları inceleyen olasılık teorisi kullanılır rastgele olaylar soyut bir biçimde. Bu kalıplara dayanarak, rastgele değerlerin dağılım modelleri veya yasaları geliştirilir.

Ayrık bir miktarın dağılım yasası olasılıklarının bir görevidir olası değerler X = xi. Sürekli dağıtım kanunu rastgele değişken X değerlerinin bir dağılım fonksiyonu olarak temsil edilir< x i , т. е. в integral formu ve dağıtım yoğunluğu şeklinde. Olasılık ayrı anlam sürekli rastgele değişken 0'a eşittir ve belirli bir derecelendirmeye dahil edilen değerlerin olasılığı, belirli bir derecelendirme Δx'in kapladığı alandaki dağılım fonksiyonunun artışına eşittir.

Her teorik dağılım, istatistiksel dağılımlara benzer özelliklere sahiptir (beklenti M, varyans D, varyasyon katsayıları, çarpıklık ve basıklık). Bunlara veya bunlarla ilişkili diğer sabitlere dağıtım parametreleri denir.

Ampirik olanla eşleşen teorik bir dağılım bulmak veya onu "eşitlemek", önemli görevler Klimatolojik işleme. Teorik bir dağılım bulunur ve başarılı bir şekilde bulunursa, klimatolog yalnızca incelenen değerin makine hesaplamalarına dahil edilebilecek uygun bir temsil biçimini değil, aynı zamanda orijinal seride doğrudan yer almayan özellikleri de hesaplama yeteneğini de alır. belirli kalıpları tanımlamanın yanı sıra. Dolayısıyla bu noktada gözlemlenen aşırılıklar kesinlikle ilgi çekicidir. Bununla birlikte, mevcut örnekteki görünümleri büyük ölçüde rastgele olduğundan haritaları zayıftır ve bazen komşu istasyonlarda önemli ölçüde farklılık gösterirler. Bulunan dağılımların yardımıyla belirli bir güvenliğin aşırı özelliklerini belirlersek, bunlar büyük ölçüde ücretsizdir. bahsedilen eksiklikler ve bu nedenle daha temsilidir. Hesaplanan uç noktalarda çeşitli düzenleyici gereksinimler. Bu nedenle teorik bir dağılımın bulunmasına ve doğruluğunun kontrol edilmesine özellikle dikkat edilmelidir.

Dağıtım parametreleri belirlenebilir farklı şekillerde En doğru fakat aynı zamanda karmaşık olan yöntem maksimum olasılık yöntemidir. Klimatolojik uygulamada anlar yöntemi kullanılır.

İstatistiksel özellikler belirli bir rastgele değişkenin genel değer popülasyonunu karakterize eden dağılım parametrelerinin tahminleri olarak kabul edilir.

Parametre tahminlerinin belirlenmesinde kullanılan moment yöntemi aşağıdaki gibidir. Matematiksel beklenti, teorik katsayılarçarpıklık ve basıklığın yerini ampirik ortalama ve ampirik katsayılar alır; Teorik varyans ampirik varyansın çarpımına eşittir. Parametreler momentlerin fonksiyonu ise ampirik momentlerden hesaplanır.


Bazılarına bakalım olasılıksal modeller klimatolojide sıklıkla kullanılır.

Ayrık rastgele değişkenler için binom ve Poisson dağılımları (basit ve karmaşık) kullanılır.

Binom dağılımı (Bernoulli), aynı testin sabit koşullar altında tekrarlanması sonucu ortaya çıkar ve bunun iki sonucu vardır: bir olayın meydana gelmesi veya gelmemesi (örneğin klimatolojide, her olayda bir olayın yokluğu veya varlığı). yılın veya ayın günü).

Rastgele ayrık miktar burada n olası durumdan bazı rastgele olayların (olguların) meydana geldiği vakaların sayısı olarak anlaşılmaktadır ve 0, 1, 2, ..., n değerlerini alabilir.

Analitik ifade Binom dağılım yasası şu şekildedir: (5.1)

Kanun, p olasılığı olan bir olayın n denemede x kez meydana gelme olasılığını belirler. Örneğin, klimatolojide bir gün ya fenomenli ya da fenomensiz olabilir (sisli, belirli miktarda yağışlı, belirli derecelerdeki hava sıcaklığı vb.). Tüm bu durumlarda iki sonuç mümkündür ve bir olayın (örneğin sisli bir gün) kaç kez gözlemleneceği sorusu binom kanunu (5.1) kullanılarak cevaplanabilir. Bu durumda p, p*'ye eşit olarak alınır, yani göreceli frekans - bir fenomenin olduğu vakaların sayısının toplam vaka sayısına oranı (formül (2.3)).

Örneğin, Ağustos ayındaki sisli gün sayısı dikkate alınırsa ve uzun vadeli bir seriden Ağustos ayında ortalama 5 sisli gün olduğu tespit edilirse, Ağustos ayında sisli bir günün göreceli sıklığı (olasılığı) (31 gün) eşittir

Binom dağılımının parametreleri matematiksel beklenti (ortalama değer), ortalama ile ilişkili olan n ve p'dir. kare sapma, bu dağılımın asimetri ve basıklık katsayılarını aşağıdaki ifadelerle ifade eder:

Şek. 5.1, farklı parametreler n ve p için binom dağılımının grafiklerini gösterir.

Örneğin, binom yasasını kullanarak, ağustos ayının herhangi bir gününde sis oluşma olasılığı (yani ağustos ayında sisli günlerin ortalama sayısının oranı) varsa, istasyonun ağustos ayında üç gün sis yaşama olasılığını hesaplayalım. ayın toplam gün sayısına oranı 0,16'dır.

n = 31 ve 1 - p = 0,84 olduğundan formül (5.1)'i kullanarak şunu elde ederiz:

p(3)=0,1334≈0,13

Uzun bir serideki düşük olasılıklı olayların dikkate alınması koşuluyla binom dağılımının limiti bağımsız testler(gözlemler) Poisson dağılımıdır.

Poisson yasasına göre dağıtılan bir rastgele değişken, olasılıkla 0, 1, 2, ∞ tam sayılarından oluşan sonsuz bir dizi oluşturan bir dizi değer alabilir.

nerede λ. -dağılımın matematiksel beklentisi olan parametre.

Kanun, bir rastgele değişkenin ortalama değeri (matematiksel beklenti) λ'ya eşitse x kez gözlemlenme olasılığını belirler.

Binom yasasının parametresinin p olayının olasılığı olduğuna dikkat edelim ve bu nedenle p(x) olasılığının toplam n durum sayısından belirlendiğini belirtmek gerekir. Poisson yasasında parametre, söz konusu dönem boyunca ortalama vaka sayısı λ olduğundan, dönemin süresi doğrudan formüle dahil edilmez.

Poisson dağılımının varyansı ve üçüncü merkezi nokta matematiksel beklentiye eşittirler, yani aynı zamanda λ'ya da eşittirler.

Ortalama ve varyans arasında büyük farklar varsa Poisson yasası kullanılamaz. Poisson dağılımı, istatistik tablolarının, referans kitaplarının ve istatistik ders kitaplarının tüm koleksiyonlarında tablo halinde verilmiş ve verilmiştir. Şek. Şekil 5.2, Poisson yasasına göre fırtınalı (nadir bir olay) günlerin sayısının dağılımını göstermektedir. Arkhangelsk için λ yılı için = 11 gün ve Temmuz için λ = 4 gün. Şekil 2'den görülebileceği gibi. 5,2, Arkhangelsk'te Temmuz ayında sekiz gün fırtınalı olma olasılığı yaklaşık 0,03 ve yılda sekiz gün olma olasılığı yaklaşık 0,10'dur. Bir duruma dikkat edelim. Çoğu zaman, λ≤1 için bir yılda bir fenomenin olduğu ortalama gün sayısı λ, tekrar periyodu T'nin tersi olarak yorumlanır (örneğin, λ = 0,3 - her üç yılda bir gün, λ = 1 - neredeyse yılda bir).

Bu "ortalama" yaklaşım hatalarla doludur, λ ne kadar büyük olursa. Olayın olduğu günler birbiriyle ilişkili olmasa bile, bir değil birkaç günün olduğu yıllar muhtemeldir. Sonuç olarak T = 1/λ ilişkisinin yanlış olduğu ortaya çıkıyor. Böylece λ = 1 ile olay, Poisson yasası formülünden de rahatlıkla görülebileceği gibi, her yıl değil, yalnızca 10 üzerinden 6-7 yılda gözlenmektedir. Olayın bir yılda gözlenmeme olasılığı olayın olacağı bir gün olma olasılığına (0,37) eşittir ve iki veya daha fazla gün olma olasılığına hemen hemen aynıdır. Yalnızca λ≤ 0,2'de belirtilen ilişki yeterli gerekçeyle kullanılabilir; çünkü bu durumda yılda iki veya daha fazla gün olasılığı 0,02'den azdır (50 yılda birden az).

Poisson yasasının nadir meteorolojik olaylara uygulanması her zaman yararlı değildir. Örneğin bazen nadir görülen olaylar, onlara neden olan koşulların devam etmesi nedeniyle birbirini takip edebilir. uzun zaman ve Poisson yasasının koşulları sağlanmamıştır.

Nadirliğin doğasına daha uygun meteorolojik olaylar karmaşık Poisson dağılımı (negatif binom dağılımı). Bir dizi olgunun farklı rastgele değişkenlerin (farklı popülasyonlardan örnekler) değerleri olarak düşünülebildiği zaman ortaya çıkar. Bütün bu nicelikler Poisson dağılımına sahiptir, ancak farklı parametrelerλ 1, λ 2 ..., λ k.

Karmaşık Poisson dağılımı bir yandan parametre setinin dağılımına, diğer yandan her bir değerin dağılımına bağlıdır. Olasılık ifadesi verilen dağıtım benziyor

(5.2)

veya hesaplamalar için daha uygun bir biçimde

Bu dağılımın matematiksel beklentisi M ve varyansı D, formüllerle γ ve λ parametreleriyle ilişkilidir.

(5.3)

M ve D değerlerini tahminleriyle değiştirerek şunu elde ederiz:

(5.4)

p(x) hesaplamaları eşitlik gerçeğinden yararlanılarak basitleştirilebilir

, (5.5)

. (5.6)

Buradan,

Hesaplama örneği. Gün sayısının dağılımını şu şekilde hesaplayalım: kuvvetli rüzgar istasyonda Temmuz için Chulym, eğer =1 gün ise, σ=1,7 gün. α ve γ'yı tanımlayalım:

α≈

γ≈

Şiddetli rüzgarlı bir gün bile geçirmeme olasılığı

p(0)=

Bir gün kuvvetli rüzgar olma olasılığı p(1)= dir. Bileşik Poisson dağılım grafiği Şekil 2'de gösterilmektedir. 5.3.

Klimatolojide sürekli rastgele değişkenler için en yaygın kullanılan dağılımlar normal, lognormal, Charlier dağılımı, gama dağılımı, Weibull ve Gumbel dağılımlarının yanı sıra normal ve düzgün yoğunluk kompozisyon yasasıdır.

En büyük teorik ve pratik önemi normal veya Gauss dağılım yasasına sahiptir. Bu yasa birçokları için sınırdır teorik dağılımlar ve bir rastgele değişkenin her bir değeri, yeterli sayıda değişkenin toplamı olarak kabul edilebildiğinde oluşur. büyük sayı bağımsız rastgele değişkenler.

Normal yasa, formun yoğunluk ve dağılım fonksiyonuna ilişkin ifadelerle verilir.

Olasılık teorisinin ve matematiksel istatistiğin temel ilkelerini göz önünde bulundurarak dağılım parametrelerini belirlerken, yeterince büyük bir dağılım olduğu varsayımından yola çıktık. sonsuz sayı Uygulanması neredeyse imkansız olan n®N (N®¥) testleri.

Ancak bu parametreleri bir örnekten (parçadan) tahmin etmenize izin veren yöntemler vardır. rastgele olaylar.

Genel, belirli bir koşullar altında yapabileceğimiz gözlemlerin akla gelebilecek tüm değerlerinin kümesidir. Başka bir deyişle, bir rastgele değişkenin tüm olası gerçekleşmeleri, teorik olarak limitte bunlardan sonsuz sayıda olabilir (N®¥). Bu bütünlüğün bir parçası nÎN, yani. sınırlı bir dizi gözlemin sonuçları x 1 , x 2 ,..., xn rastgele bir değişkenin örnek değeri olarak düşünülebilir (örneğin, alaşımların kimyasal bileşimini, mekanik mukavemetlerini belirlerken, vesaire.). Belirli bir kalitedeki çelik, dökme demir, alaşımın tüm külçeleri numuneler halinde kesilir ve incelenirse kimyasal bileşim, mekanik mukavemet ve diğerleri fiziksel özellikler o zaman genel bir gözlem popülasyonuna sahip olacaklardı. Aslında, çok sınırlı sayıda numunenin özelliklerini incelemek mümkündür (amaçlıdır) - bu onların örneklemesidir nüfus.

Bu kadar sınırlı sayıda gözlemin sonuçlarına dayanarak şunları belirlemek mümkündür: nokta tahminleri dağıtım yasaları ve parametreleri. Bazı Q parametresinin tahmini (veya örnek istatistiği) Q* denir keyfi işlev Q*=Q*(x 1, x 2,..., x n) gözlenen değerlerin x 1, x 2,..., x n, bir dereceye kadar yansıması gerçek değer parametre Q.

Olasılık dağılımlarının özellikleri hakkında konuşursak, teorik dağılımların özellikleri (M x, s x 2, M o, M e) genel popülasyonda mevcut olan ve karakterize edici özellikler olarak düşünülebilir. ampirik dağılım– seçici özellikleri (değerlendirmeler) olarak. M x, s x 2 vb.'yi tahmin etmek için kullanılan sayısal parametrelere bazen istatistik denir.

Değerlendirme için matematiksel beklenti numunedeki bir dizi ölçümün aritmetik ortalaması (ortalama değeri) kullanılır:

burada xi, sürekli bir rastgele değişken için kesikli veya ayrı bir noktanın uygulanmasıdır; n – örneklem büyüklüğü.

Rastgele bir değişkenin yayılmasını karakterize etmek için teorik varyansın bir tahmini kullanılır - örnek varyanslar (bkz. Şekil 2.4):

(3.2a)

(3.2b)

Negatif olmayan değer karekökörnek varyansından örnek standart sapma(örnek standart) sapma

Ölçümlerle ilgili herhangi bir problemde, s x 2 değerine ilişkin bir tahmin elde etmenin iki olası yolu olduğuna dikkat edilmelidir.

Birinci yöntemi kullanırken, bir dizi cihaz okuması alınır ve elde edilen sonuçları ölçülen miktarın bilinen veya kalibre edilmiş değeriyle karşılaştırarak bir dizi sapma bulunur. Ortaya çıkan sapma dizisi daha sonra ortalamayı hesaplamak için kullanılır. kare sapma formül (3.3a)'ya göre.

s x 2 değerine ilişkin bir tahmin elde etmenin ikinci yolu aritmetik ortalamayı belirlemektir, çünkü bu durumda ölçülen büyüklüğün gerçek (kesin) değeri bilinmemektedir. Bu durumda bulmak için başka bir formül kullanılması tavsiye edilir. standart sapma(3.2b, 3.3b). (n-1)'e bölme yapılır çünkü en iyi tahmin X dizisinin ortalaması alınarak elde edilen , kesin değer popülasyonun tamamı yerine bir örnek dikkate alınırsa bir miktar artar.

Bu durumda sapmaların kareleri toplamı gerçek ortalamayı kullanırken biraz daha az olacaktır . N yerine (n-1)'e bölünerek bu hata kısmen düzeltilecektir. Bazı kılavuzlarda matematiksel istatistik Numune standart sapmasını hesaplarken her zaman bölme işlemi yapılması tavsiye edilir, ancak bazen bu yapılmamalıdır. Yalnızca gerçek değerin bağımsız bir yöntemle elde edilemediği durumlarda bölmek gerekir.

Rastgele değişkenin göreceli değişkenliğinin bir ölçüsü olan varyasyon katsayısı n'nin örnek değeri aşağıdaki formül kullanılarak hesaplanır:

veya yüzde olarak

(3.4b)

Numunelerden birinin saçılımı daha büyüktür ve varyasyon daha büyüktür.

Tahminler, S x 2 tutarlılık, tarafsızlık ve verimlilik gereksinimlerine tabidir.

Gözlem sayısı n arttıkça artarsa ​​(yani, N hacimli sonlu bir popülasyon durumunda n®N ve sonsuz bir popülasyon durumunda n®¥ ile) Q* parametresine ilişkin bir tahminin tutarlı olduğu söylenir. parametrenin tahmini teorik değerine yönelir

Örneğin, varyans için

(3.5)

Q* parametresinin bir tahmini, herhangi bir n için matematiksel beklentisi M(Q*) asimptotik olarak gerçek M(Q*)=Q değerine yöneliyorsa tarafsız olarak adlandırılır. Tarafsızlık şartının karşılanması, parametre tahminindeki, örneklem büyüklüğü n'ye bağlı olan ve eğer tutarlıysa, n®¥'de sıfıra yönelen sistematik hatayı ortadan kaldırır. Yukarıda varyans için iki tahmin tanımlanmıştır ve . Durumunda bilinmeyen değer Matematiksel beklenti (ölçülen miktarın gerçek değeri), her iki tahmin de tutarlıdır, ancak daha önce gösterildiği gibi yalnızca ikinci (3.2b), (3.3b) tarafsızdır. Tarafsızlık gerekliliği, n®¥ ® zamanından bu yana az sayıda gözlem söz konusu olduğunda özellikle önemlidir.

Q 1 * parametresinin bir tahmini, aynı Q 2 *, Q 3 * parametresinin diğer tahminleri arasında en az varyansa sahipse etkili olarak adlandırılır.

(3.6)

burada Q i * herhangi bir başka tahmindir.

Yani, eğer genel popülasyondan x 1, x 2,..., x n'lik bir örnek varsa, o zaman ortalama matematiksel beklenti iki şekilde tahmin edilebilir:

(3.7)

burada x maks (n), x min (n) – sırasıyla maksimum ve minimum değerörnek n'den rastgele değişken.

Her iki tahmin de tutarlılık ve tarafsızlık özelliklerine sahiptir, ancak birinci tahmin yöntemindeki varyansın S x 2 /n'ye eşit olduğu, ikinci tahmin yöntemindeki varyansın ise p 2 S x 2 / olduğu gösterilebilir. önemli ölçüde daha fazla. Dolayısıyla matematiksel beklentiyi tahmin etmenin ilk yöntemi tutarlı, tarafsız ve etkilidir, ikincisi ise yalnızca tutarlı ve tarafsızdır. Tüm tarafsız ve tutarlı tahminlerden, tahmin edilen parametreye en yakın olanı tercih etmek gerektiğini unutmayın.

Yukarıdakilerin tamamının eşit hassasiyetli ölçümler için geçerli olduğunu unutmayın; yalnızca rastgele hata içeren ölçümlere normal hukuk dağıtımlar.

Varyasyon serisi. Çokgen ve histogram.

Dağıtım aralığı- incelenen popülasyon birimlerinin belirli bir değişken özelliğe göre gruplar halinde düzenli bir dağılımını temsil eder.

Dağılım serilerinin oluşumunun altında yatan özelliğe bağlı olarak bunlar ayırt edilir. niteliksel ve varyasyonel dağıtım satırları:

§ Değerlerin artan veya azalan sırasına göre oluşturulmuş dağılım serileri niceliksel özellik denir varyasyonel.

Dağıtımın varyasyon serisi iki sütundan oluşur:

İlk sütun şunları içerir: niceliksel değerler değişken özellik olarak adlandırılan seçenekler ve belirlenir. Ayrık seçenek - tamsayı olarak ifade edilir. Aralık seçeneği ile ila arasında değişir. Tipe bağlı olarak seçenekler ayrık veya aralıklı olarak oluşturulabilir varyasyon serisi.
İkinci sütun şunları içerir: belirli seçenek sayısı, frekanslar veya frekanslar cinsinden ifade edilir:

Frekanslar- Bu mutlak sayılar, kümülatif olarak kaç kez gerçekleştiğini gösterir verilen değer ifade eden işaretler. Tüm frekansların toplamı, tüm popülasyondaki birim sayısına eşit olmalıdır.

Frekanslar() toplamın yüzdesi olarak ifade edilen frekanslardır. Yüzde olarak ifade edilen tüm frekansların toplamı, birin kesirleri halinde %100'e eşit olmalıdır.

Grafik gösterimi dağıtım serisi

Dağıtım serileri grafik görseller kullanılarak görsel olarak sunulmaktadır.

Dağıtım serisi şu şekilde gösterilmektedir:

§ Çokgen

§ Histogramlar

§ Kümülatif

Çokgen

Bir çokgen inşa ederken, değişen karakteristiklerin değerleri yatay eksende (apsis ekseni) ve dikey eksen(y ekseni) - frekanslar veya frekanslar.

1. Şekil 2'deki çokgen 6.1, 1994 yılında Rusya nüfusunun mikro sayımından elde edilen verilere dayanmaktadır.


Histogram



Bir histogram oluşturmak için aralıkların sınırlarının değerleri apsis ekseni boyunca gösterilir ve bunlara dayanarak yüksekliği frekanslarla (veya frekanslarla) orantılı olan dikdörtgenler oluşturulur.

Şek. 6.2. Rusya nüfusunun 1997 yılındaki dağılımının histogramını göstermektedir. yaş grupları.

Şekil 1. Rusya nüfusunun yaş gruplarına göre dağılımı

Ampirik fonksiyon dağılımlar, özellikler.

Bilinsin istatistiksel dağılım niceliksel bir karakteristiğin frekansları X. Karakteristik değerinin x'ten küçük olduğu gözlemlerin sayısıyla ve n ile gösterelim - toplam sayı gözlemler. Açıkçası, X olayının bağıl sıklığı

Ampirik bir dağılım fonksiyonu (örnekleme dağıtım fonksiyonu), her x değeri için X olayının göreceli sıklığını belirleyen bir fonksiyondur.

Bir numunenin ampirik dağılım fonksiyonunun aksine, popülasyon dağılım fonksiyonuna teorik dağılım fonksiyonu denir. Bu fonksiyonlar arasındaki fark, teorik fonksiyonun X olayının olasılığını belirlemesidir.

n arttıkça X olayının bağıl frekansı

Temel özellikler

Temel bir sonucun sabitlenmesine izin verin. Bu durumda, ayrık dağılımın dağılım fonksiyonu aşağıdaki olasılık fonksiyonu ile verilmektedir:

nerede ve - örnek elemanların sayısı eşittir. Özellikle numunenin tüm unsurları farklıysa, o zaman .

Bu dağılımın matematiksel beklentisi:

.

Dolayısıyla örneklem ortalaması, örnekleme dağılımının teorik ortalamasıdır.

Benzer şekilde, örneklem varyansı bir örnekleme dağılımının teorik varyansıdır.

Rastgele değişkenin binom dağılımı vardır:

Örnek dağıtım fonksiyonu, dağıtım fonksiyonunun tarafsız bir tahminidir:

.

Örnek dağılım fonksiyonunun varyansı şu şekildedir:

.

Güçlü büyük sayılar yasasına göre, örnek dağılım fonksiyonu neredeyse kesin olarak teorik dağılım fonksiyonuna yakınsar:

neredeyse kesinlikle .

Örnek dağılım fonksiyonu, teorik dağılım fonksiyonunun asimptotik olarak normal bir tahminidir. Eğer öyleyse

adresindeki dağılıma göre.

Ampirik dağılım fonksiyonu

ED işleme yöntemleri olasılık teorisi ve matematiksel istatistiğin temel kavramlarına dayanmaktadır. Bunlar genel popülasyon, örneklem, ampirik dağılım fonksiyonu kavramlarını içerir.

Altında genel nüfus Bir nesnenin sınırsız süreli gözlemi sırasında kaydedilebilecek tüm olası parametre değerlerini anlayın. Böyle bir küme sonsuz sayıda elemandan oluşur. Bir nesnenin gözlemlenmesinin bir sonucu olarak, hacim olarak sınırlı bir parametre değerleri seti oluşturulur X 1 , X 2 , …, XN. Resmi bir bakış açısına göre, bu tür veriler temsil eder örnek genel nüfustan.

Örneğin sistem olaylarından önceki tüm gelişmeleri içerdiğini varsayacağız (sansür yoktur). Gözlemlenen değerler X Ben isminde seçenekler ve onların sayısı numune boyutu N. Gözlem sonuçlarından herhangi bir sonuç çıkarılabilmesi için numunenin temsilci(temsilci), yani genel nüfusun oranlarını doğru bir şekilde temsil eder. Bu gereksinim, örneklem büyüklüğünün yeterince büyük olması ve popülasyondaki her bir öğenin örneğe dahil edilme olasılığının aynı olması durumunda karşılanır.

Ortaya çıkan örneğin bir değeri olsun X 1 parametre gözlemlendi N 1 kez, değer X 2 – N 2 kez, anlamı Xk Nk bir kere, N 1 +n 2 + … +Nk=N.

Artan sırada yazılan değerler kümesine denir varyasyon serisi, miktarlar N Ben – frekanslar ve örneklem büyüklüğüyle ilişkileri Nben=n Ben /N bağıl frekanslar(frekanslar). Açıkçası, göreceli frekansların toplamı birliğe eşittir.

Dağılım, gözlemlenen değişkenler ile bunların frekansları veya frekansları arasındaki yazışmayı ifade eder. İzin vermek NX – parametrenin rastgele değerlerinin olduğu gözlem sayısı X az X. Etkinlik Sıklığı X eşit NX/N. Bu oran bir fonksiyonudur X ve örneklem büyüklüğüne göre: F N(X)=nX/N. Büyüklük FN(X) bir fonksiyonun tüm özelliklerine sahiptir:

dağılımlar: FN(X) azalmayan fonksiyon, değerleri segmente aittir;

Eğer X 1 parametrenin en küçük değeridir ve Xk – o zaman en büyüğü FN(X)= 0, Ne zaman X<X 1 , Ve FN(Xk)= 1 ne zaman X>=Xk.

İşlev FN(X) ED tarafından belirlenir, bu yüzden denir ampirik dağılım fonksiyonu. Ampirik fonksiyonun aksine FN(X) dağıtım fonksiyonu F (X) popülasyonun teorik dağılım fonksiyonu olarak adlandırılır, bir olayın sıklığını değil olasılığını karakterize eder X<X. Bernoulli teoreminden şu sonuç çıkıyor: frekans FN(X) olasılıktan olasılığa eğilimlidir F(X) sınırsız büyütme ile N. Sonuç olarak, çok sayıda gözlemle teorik dağılım fonksiyonu F(X) ampirik fonksiyonla değiştirilebilir FN(X).

Ampirik Fonksiyon Grafiği FN(X) kesikli bir çizgidir. Varyasyon serisinin bitişik üyeleri arasındaki boşluklarda FN(X) sabit kalır. Eksen noktalarından geçerken X, örnek üyelere eşit, FN(X) aniden 1/ değeri kadar artan bir süreksizliğe uğrar N ve eğer bir tesadüf varsa ben gözlemler - açık ben/N.

Örnek 2.1. Gözlem sonuçlarına dayanarak ampirik dağılım fonksiyonunun bir varyasyon serisini ve grafiğini oluşturun, tablo. 2.1.

Tablo 2.1

İstenilen ampirik fonksiyon, Şekil 1. 2.1:

Pirinç. 2.1. Ampirik dağılım fonksiyonu

Büyük bir örneklem büyüklüğüyle ("büyük hacim" kavramı hedeflere ve işleme yöntemlerine bağlıdır, bu durumda dikkate alacağız) N büyük eğer N>40) bilgilerin işlenmesi ve saklanması kolaylığı için ED'leri aralıklarla gruplandırmaya başvurunuz. Aralık sayısı, toplamdaki parametre değerlerinin çeşitliliği gereken ölçüde yansıtılacak ve aynı zamanda bireysel kategorilerdeki rastgele frekans dalgalanmaları nedeniyle dağılım düzeni bozulmayacak şekilde seçilmelidir. Seçim için gevşek kurallar var miktarlar y Ve boyut H bu tür aralıklar, özellikle:

her aralık en az 5-7 öğe içermelidir. Aşırı sıralarda yalnızca iki öğeye izin verilir;

aralık sayısı çok fazla veya çok küçük olmamalıdır. Asgari y değeri en az 6 – 7 olmalıdır. Birkaç yüz öğeyi aşmayan bir örneklem büyüklüğü ile değer y, 10 ile 20 arasında ayarlanır.Çok büyük bir örneklem büyüklüğü için ( N>1000) aralık sayısı belirtilen değerleri aşabilir. Bazı araştırmacılar oranın kullanılmasını öneriyor y=1,441*ln( N)+1;

aralıkların uzunluğundaki nispeten küçük eşitsizliklerle aynı ve değere eşit olanı seçmek uygundur

h= (X maksimum – X dk)/y,

Nerede X maksimum – maksimum ve X min – parametrenin minimum değeri. Dağıtım yasası önemli ölçüde eşitsizse, dağıtım yoğunluğundaki hızlı değişikliklerin olduğu bölgede aralıkların uzunluğu daha küçük bir boyuta ayarlanabilir;

Önemli bir eşitsizlik varsa, her kategoriye yaklaşık olarak aynı sayıda örnek öğe atamak daha iyidir. Daha sonra belirli bir aralığın uzunluğu, bu aralığa gruplandırılmış örnek elemanların uç değerlerine göre belirlenecektir; farklı aralıklar için farklı olacaktır (bu durumda, bir histogram oluştururken aralığın uzunluğuna göre normalleştirme gereklidir - aksi takdirde histogramın her bir öğesinin yüksekliği aynı olacaktır).

Gözlem sonuçlarının aralıklara göre gruplandırılması şunları sağlar: bir parametredeki değişiklik aralığının belirlenmesi X; aralık sayısını ve boyutunu seçme; herkes için sayma Ben- aralık [ XBenXBen+1 ] frekanslar NBen veya bağıl frekans (frekans n Ben) seçenekler aralığa girer. Sonuç olarak, ED'nin bir temsili şu şekilde oluşturulur: aralık veya istatistiksel seri.

Grafiksel olarak histogram, çokgen ve adımlı çizgi şeklinde bir istatistiksel seri görüntülenir. Sıklıkla histogram tabanları uzunluk aralıkları olan dikdörtgenlerden oluşan bir şekil olarak temsil edilir H ve yükseklikler karşılık gelen frekansa eşittir. Ancak bu yaklaşım doğru değildir. Yükseklik Ben- inci dikdörtgen z Ben eşit seçilmeli NBen/ (hayır). Böyle bir histogram ampirik dağılım fonksiyonunun grafiksel bir temsili olarak yorumlanabilir. FN(X), içinde tüm dikdörtgenlerin toplam alanı bir olacaktır. Histogram, ED'ye yaklaşmak için teorik dağılım fonksiyonu tipinin seçilmesine yardımcı olur.



Çokgen bölümleri, apsis ekseni boyunca aralıkların orta noktalarına eşit koordinatlara sahip noktaları ve karşılık gelen frekanslara eşit ordinat ekseni boyunca noktaları birleştiren kesikli çizgi olarak adlandırılır. Ampirik dağılım fonksiyonu kademeli kesikli çizgi olarak görüntülenir: her aralık üzerine, geçerli aralıkta biriken frekansla orantılı bir yükseklikte yatay bir çizgi parçası çizilir. Birikmiş frekans, birinciden başlayarak bu aralığa kadar olan tüm frekansların toplamına eşittir.

Örnek 2.2. Sinyal zayıflama değerlerinin kaydedilmesinin sonuçları var XBen telefon ağının anahtarlamalı kanalının 1000 Hz frekansında. dB cinsinden ölçülen bu değerler tabloda bir değişim serisi halinde sunulmaktadır. 2.3. İstatistiksel bir seri oluşturmak gereklidir.

Tablo 2.3

Ben
XBen 25,79 25,98 25,98 26,12 26,13 26,49 26,52 26,60 26,66 26,69 26,74
Ben
XBen 26,85 26,90 26,91 26,96 27,02 27,11 27,19 27,21 27,28 27,30 27,38
Ben
XBen 27,40 27,49 27,64 27,66 27,71 27,78 27,89 27,89 28,01 28,10 28,11
Ben
XBen 28,37 28,38 28,50 28,63 28,67 28,90 28,99 28,99 29,03 29,12 29,28

Çözüm. Her birinde yeterli sayıda isabet olması için istatistiksel serinin basamak sayısı mümkün olduğunca az seçilmelidir. y = 6 alalım. Basamağın boyutunu belirleyelim;

saat =(X maksimum – X dk)/y =(29,28 – 25,79)/6 = 0,58.

Gözlemleri kategoriye, tabloya göre gruplayalım. 2.4.

Tablo 2.4

Ben
XBen 25,79 26,37 26,95 27,5 3 28,12 28,70
NBen
N ben=nBen/N 0,114 0,205 0,227 0,205 0,11 4 0,136
z ben =NIH 0,196 0,353 0,392 0,353 0,196 0,235

İstatistiksel seriye dayanarak bir histogram oluşturacağız, Şekil 1. 2.2 ve ampirik dağılım fonksiyonunun grafiği, Şek. 2.3.

Ampirik dağılım fonksiyonunun grafiği, Şekil 1. 2.3, Şekil 2'de sunulan grafikten farklıdır. 2.1 seçeneklerin değişim adımı ve fonksiyonun artış adımının büyüklüğünün eşitliği ile (bir varyasyon serisi kullanılarak oluşturulduğunda, artış adımı bir kattır)

1/ N ve istatistiksel seriye göre - belirli bir kategorideki sıklığa bağlıdır).

Dikkate alınan ED temsilleri, çeşitli parametrelerin daha sonraki işlenmesi ve hesaplanması için başlangıç ​​temsilleridir.

Ders 13. Rastgele değişkenlerin istatistiksel tahminleri kavramı

Niceliksel bir X karakteristiğinin istatistiksel frekans dağılımı bilinsin. Karakteristiğin değerinin x'ten küçük olduğu gözlem sayısıyla, toplam gözlem sayısını ise n ile gösterelim. Açıkçası, X olayının bağıl sıklığı< x равна и является функцией x. Так как эта функция находится эмпирическим (опытным) путем, то ее называют эмпирической.

Ampirik dağılım fonksiyonu(örnekleme dağıtım fonksiyonu), her x değeri için X olayının göreceli sıklığını belirleyen bir fonksiyondur< x. Таким образом, по определению ,где - число вариант, меньших x, n – объем выборки.

Bir numunenin ampirik dağılım fonksiyonunun aksine, popülasyon dağılım fonksiyonuna denir. teorik dağılım fonksiyonu. Bu fonksiyonlar arasındaki fark, teorik fonksiyonun belirlemesidir. olasılık olaylar X< x, тогда как эмпирическая – bağıl frekans aynı olay.

n arttıkça X olayının bağıl frekansı< x, т.е. стремится по вероятности к вероятности этого события. Иными словами

Ampirik dağılım fonksiyonunun özellikleri:

1) Ampirik fonksiyonun değerleri segmente aittir

2) - azalmayan fonksiyon

3) En küçük seçenek ise = 0, en büyük seçenek ise = 1.

Örneklemin ampirik dağılım fonksiyonu, popülasyonun teorik dağılım fonksiyonunun tahmin edilmesine hizmet eder.

Örnek. Örnek dağılımına dayalı ampirik bir fonksiyon oluşturalım:

Seçenekler
Frekanslar

Örneklem büyüklüğünü bulalım: 12+18+30=60. En küçük seçenek 2'dir, yani x £ 2 için =0. X'in değeri<6, т.е. , наблюдалось 12 раз, следовательно, =12/60=0,2 при 2< x £6. Аналогично, значения X < 10, т.е. и наблюдались 12+18=30 раз, поэтому =30/60 =0,5 при 6< x £10. Так как x=10 – наибольшая варианта, то =1 при x>10. Dolayısıyla istenen ampirik fonksiyon şu şekildedir:

İstatistiksel tahminlerin en önemli özellikleri

Genel nüfusun bazı niceliksel özelliklerini incelemek gerekli olsun. Teorik değerlendirmelerden şunu tespit etmenin mümkün olduğunu varsayalım. tam olarak hangisi dağılımın bir işareti vardır ve belirlendiği parametrelerin tahmin edilmesi gerekir. Örneğin, incelenen karakteristik popülasyonda normal bir şekilde dağılıyorsa, o zaman matematiksel beklenti ve standart sapmanın tahmin edilmesi gerekir; Karakteristik bir Poisson dağılımına sahipse l parametresini tahmin etmek gerekir.

Tipik olarak, yalnızca örnek veriler mevcuttur; örneğin, n bağımsız gözlem sonucunda elde edilen niceliksel bir özelliğin değerleri. Bağımsız rastgele değişkenler olarak ele alınır bunu söyleyebiliriz teorik bir dağılımın bilinmeyen bir parametresinin istatistiksel tahminini bulmak, tahmin edilen parametrenin yaklaşık değerini veren, gözlemlenen rastgele değişkenlerin bir fonksiyonunu bulmak anlamına gelir. Örneğin, normal bir dağılımın matematiksel beklentisini tahmin etmek için fonksiyonun rolü aritmetik ortalama tarafından oynanır.



İstatistiksel tahminlerin tahmin edilen parametrelere doğru yaklaşımlar sunabilmesi için belirli gereksinimleri karşılaması gerekir; bunların arasında en önemlileri gereksinimlerdir. yerinden edilmemiş Ve ödeme gücü değerlendirmeler.

Teorik dağılımın bilinmeyen parametresinin istatistiksel bir tahmini olsun. Tahminin n büyüklüğündeki bir örnekten bulunmasına izin verin. Deneyi tekrarlayalım, yani. genel popülasyondan aynı büyüklükte başka bir örnek alalım ve onun verilerine dayanarak farklı bir tahmin elde edelim. Deneyi defalarca tekrarladığımızda farklı sayılar elde ediyoruz. Puan bir rastgele değişken, sayılar da onun olası değerleri olarak düşünülebilir.

Tahmin yaklaşık bir değer veriyorsa bolluk içinde, yani her sayı gerçek değerden büyüktür ve sonuç olarak rastgele değişkenin matematiksel beklentisi (ortalama değeri) aşağıdakilerden büyüktür:. Aynı şekilde bir tahmin verirse bir dezavantajla, O .

Bu nedenle, matematiksel beklentisi tahmin edilen parametreye eşit olmayan bir istatistiksel tahminin kullanılması, sistematik (aynı işaretli) hatalara yol açacaktır. Aksine, bu sistematik hatalara karşı garanti verir.

Tarafsız matematiksel beklentisi herhangi bir örneklem büyüklüğü için tahmin edilen parametreye eşit olan istatistiksel tahmin olarak adlandırılır.

Yerinden edilmiş Bu koşulu sağlamayan tahmine tahmin denir.

Tahminin tarafsızlığı, tahmin edilen parametre için henüz iyi bir yaklaşımı garanti etmez, çünkü olası değerler çok dağınık ortalama değeri civarında, yani varyans önemli olabilir. Bu durumda, örneğin bir numunenin verilerinden elde edilen tahminin, ortalama değerden ve dolayısıyla tahmin edilen parametrenin kendisinden önemli ölçüde uzak olduğu ortaya çıkabilir.

Etkili belirli bir örneklem büyüklüğü n için istatistiksel bir tahmindir. mümkün olan en küçük varyans .

Büyük örnekleri değerlendirirken istatistiksel tahminler gereklidir. ödeme gücü .

Zengin n®¥ olasılık açısından tahmin edilen parametreye yönelen istatistiksel tahmin olarak adlandırılır. Örneğin, tarafsız bir tahminin varyansı n®¥ olarak sıfıra yaklaşıyorsa, bu durumda böyle bir tahminin tutarlı olduğu ortaya çıkar.