Эмпирическое распределение. Понятие индексов агрегатные и индивидуальные

Теоретической базой для математической статистики служит теория вероятностей, которая изучает закономерности случайных явлений в абстрактном виде. На основе этих закономерностей разрабатываются модели или законы распределения случайных величии.

Закон распределения дискретной величины - это задание вероятностей ее возможных значений X = х i . Закон распределения непрерывной случайной величины представляют в виде функции распределения значений X < x i , т. е. в интегральной форме и в виде плотности распределения. Вероятность отдельного значения непрерывной случайной величины равна 0, а вероятность значений, входящих в заданную градацию, равна приращению функции распределения на участке, занимаемом данной градацией Δх.

Каждое теоретическое распределение имеет характеристики, аналогичные характеристикам статистических распределений (математическое ожидание М, дисперсию D, коэффициенты вариации, асимметрии и эксцесса). Эти или другие константы, связанные с ними, носят название параметров распределения.

Подыскание теоретического распределения, соответствующего эмпирическому, или «выравнивание» его является одной из важных задач климатологической обработки. Если найдено и найдено удачно теоретическое распределение, то климатолог получает не только удобную форму представления изучаемой величины, которую можно закладывать в машинные расчеты, но и возможность расчета характеристик, непосредственно не содержащихся в исходном ряду, а также выявления определенных закономерностей. Так, наблюдавшиеся в пункте экстремумы, безусловно, представляют интерес. Однако их появление в имеющейся выборке в значительной степени случайно, поэтому они плохо картируются и иногда существенно различаются на соседних станциях. Если же с помощью найденных распределений определять экстремальные характеристики определенной обеспеченности, то они в значительной мере свободны от указанных недостатков и поэтому являются более представительными. Именно на расчетных экстремумах основаны различные нормативные требования. Поэтому подысканию теоретического распределения и проверке его правильности должно быть уделено особое внимание.

Параметры распределения можно определить разными способами, наиболее точным, но и одновременно сложным является метод максимума правдоподобия. В климатологической практике используется метод моментов.

Статистические характеристики рассматриваются как оценки параметров распределений, характеризующих генеральную совокупность значений данной случайной величины.

Метод моментов определения оценок параметров состоит в следующем. Математическое ожидание, теоретические коэффициенты асимметрии и эксцесса просто заменяются эмпирическим средним и эмпирическими коэффициентами; теоретическая дисперсия равна эмпирической, умноженной на . Если параметрами служат функции моментов, то они вычисляются по эмпирическим моментам.


Рассмотрим некоторые вероятностные модели, часто используемые в климатологии.

Для дискретных случайных величин используются биномиальные распределения и распределения Пуассона (простое и сложное).

Биномиальное распределение (Бернулли) возникает в результате повторения при постоянных условиях одного и того же испытания, имеющего два исхода: появления или непоявления события (в климатологии, например, отсутствие или наличие явления в каждый день года или месяца).

Случайная дискретная величина понимается при этом как число случаев осуществления некоторого случайного события (явления) из n возможных случаев и может принимать значения 0, 1, 2, ..., n.

Аналитическое выражение биномиального закона распределения имеет вид (5.1)

Закон определяет вероятность того, что событие, вероятность которого р, будет наблюдаться х раз при n испытаниях. Например, в климатологии день может быть либо с явлением, либо без явления (с туманом, с определенным количеством осадков, температурой воздуха определенных градаций и т. д.). Во всех этих случаях возможны два исхода, и на вопрос, сколько раз будет наблюдаться событие (например, день с туманом), ответ можно получить с помощью биномиального закона (5.1). При этом р принимается равным р*, т. е. относительной частоте - отношению числа случаев с явлением к общему числу случаев (формула (2.3)).

Например, если рассматривается число дней с туманом в августе и по многолетнему ряду установлено, что в среднем в августе бывает 5 дней с туманом, то относительная частота (вероятность) дня с туманом в августе {31 день) равна

Параметрами биномиального распределения являются n и р, которые связаны с математическим ожиданием (средним значением), средним квадратическим отклонением, коэффициентами асимметрии и эксцесса этого распределения следующими выражениями:

На рис. 5.1 приведены графики биномиального распределения при разных параметрах n и р.

Рассчитаем, например, пользуясь биномиальным законом, вероятность того, что в августе на станции будет наблюдаться три дня с туманом, если вероятность образования тумана в любой день августа (т. е. отношение среднего числа дней с туманом в августе к общему числу дней за месяц) составляет 0,16.

Так как n= 31, а 1 - р = 0,84, по формуле (5.1) получим

p(3)=0.1334≈0.13

Пределом биномиального распределения при условии, что рассматриваются маловероятные события в длинной серии независимых испытаний (наблюдений), является распределение Пуассона.

Случайная величина, распределенная по закону Пуассона, может принимать ряд значений, образующих бесконечную последовательность целых чисел 0, 1, 2, ∞ с вероятностью

где λ. -параметр, являющийся математическим ожиданием распределения.

Закон определяет вероятность того, что случайная величина будет наблюдаться х раз, если среднее ее значение (математическое ожидание) равно λ.

Обратим внимание на то, что параметром биномиального закона служит вероятность события р, и поэтому надо указать, из какого общего количества случаев n определяется вероятность р(х). В законе Пуассона параметром является среднее число случаев λ за рассматриваемый период, поэтому продолжительность периода непосредственно не входит в формулу.

Дисперсия распределения Пуассона и третий центральный момент равны математическому ожиданию, т. е. тоже равны λ.

При больших различиях между средним и дисперсией законом Пуассона пользоваться нельзя. Распределение Пуассона затабулировано и приводится во всех сборниках статистических таблиц, справочниках и учебниках по статистике. На рис. 5.2 приведено распределение числа дней с грозой (редкое событие) по закону Пуассона. Для Архангельска за год λ,= 11 дней и за июль λ = 4 дня. Как видно из рис. 5.2, в Архангельске вероятность восьми дней с грозой в июле составляет примерно 0,03, а вероятность восьми дней в году -около 0,10. Обратим внимание на одно обстоятельство. Часто среднее число дней с явлением в году λ при λ≤1 трактуют как величину, обратную периоду повторения T (например, λ= 0,3 - один день в три года, λ = 1-практически ежегодно).

Такой «осредненный» подход чреват ошибками, тем большим, чем больше λ. Даже если дни с явлением не связаны между собой, вероятны годы не с одним, а с несколькими днями. В результат соотношение Т = 1/λ оказывается неправильным. Так, при λ= 1 явление, как легко убедиться из формулы закона Пуассона, наблюдается не ежегодно, а только в 6-7 годах из 10. Вероятность того, что в году явление наблюдаться не будет, равна вероятности, что будет один день с явлением (0,37) и почти такая же, как вероятность, что будет два и более дней. Только при λ≤ 0,2 указанным соотношением можно пользоваться с достаточным основанием; потому что вероятность двух и более дней в году в этом случае менее 0,02 (реже, чем один раз в 50 лет).

Применение закона Пуассона к редким метеорологическим явлениям не всегда оказывается полезным. Например, иногда редкие явления могут следовать одно за другим вследствие того, что условия, их вызывающие, сохраняются длительное время, и условия закона Пуассона не выполняются.

Больше соответствует природе редких метеорологических явлений сложное распределение Пуассона (отрицательное биномиальное распределение). Оно возникает, когда ряд явлений можно рассматривать как значения разных случайных величин (выборки из разных генеральных совокупностей). Все эти величины имеют распределение Пуассона, но с разными параметрами λ 1 , λ 2 ..., λ k .

Сложное распределение Пуассона зависит с одной стороны от распределения совокупности параметров, а с другой - от распределения каждой из величин. Выражение для вероятности в случае данного распределения имеет вид

(5.2)

или в более удобной для расчетов форме

Математическое ожидание М и дисперсия D этого распределения связаны с его параметрами γ и λ формулами

(5.3)

Заменяя величины М и D их оценками и , получим

(5.4)

Расчеты p(x) можно упростить, пользуясь тем, что существует равенство

, (5.5)

. (5.6)

Следовательно,

Пример расчета . Рассчитаем распределение числа дней с сильным ветром на ст. Чулым для июля, если =1 день, σ=1,7 дня. Определим α и γ:

α≈

γ≈

Вероятность того, что не будет ни одного дня с сильным ветром, составит

p(0)=

Вероятность того, что будет один день с сильным ветром, равна p(1)= . График сложного распределения Пуассона представлен на рис. 5.3.

Для непрерывных случайных величин в климатологии чаще всего используются нормальное, логнормальное распределения, распределение Шарлье, гамма-распределение, распределения Вейбулла и Гумбеля, а также композиционный закон нормальной и равномерной плотности.

Наибольшее теоретическое и практическое значение имеет нормальный, или гауссовский, закон распределения. Этот закон является предельным для многих других теоретических распределений и образуется тогда, когда каждое значение случайной величины можно рассматривать как сумму достаточно большого числа независимых случайных величин.

Нормальный закон задается выражениями для плотности и функции распределения вида

При рассмотрении основных положений теории вероятностей и математической статистики, определении параметров распределения мы исходили из предположения, что осуществляется достаточно большое, в пределе бесконечное число испытаний n®N (N®¥), что практически осуществить невозможно.

Однако имеются методы, которые позволяют оценить эти параметры по выборке (части) случайных событий.

Генеральной называется совокупность всех мыслимых значений наблюдений, которые мы могли бы сделать при данном комплексе условий. Другими словами все возможные реализации случайной величины, теоретически в пределе их может быть бесконечное число (N®¥). Часть этой совокупности nÎN, т.е. результаты ограниченного ряда наблюдений x 1 ,x 2 ,...,x n случайной величины, можно рассматривать как выборочное значение случайной величины (например, при определении химического состава сплавов, их механической прочности и т.п.). Если все слитки данной марки стали, чугуна, сплава разделать на образцы и исследовать их химический состав, механическую прочность и другие физические характеристики, то имели бы генеральную совокупность наблюдений. Фактически доступно, возможно (целесообразно), исследовать свойства весьма ограниченного числа образцов – это и есть выборка их генеральной совокупности.

По результатам такого ограниченного числа наблюдений можно определить точечные оценки законов распределения и их параметров. Оценкой (или выборочной статистикой) Q* какого-либо параметра Q называется произвольная функция Q*=Q*(x 1 , x 2 ,..., x n) наблюдаемых значений x 1 , x 2 ,..., x n , в той или иной степени отражающая действительное значение параметра Q.

Если говорить о характеристиках распределений вероятностей, то характеристики теоретических распределений (M x , s x 2 , M o , M e) можно рассматривать как характеристики, существующие в генеральной совокупности, а характеризующие эмпирическое распределение – как выборочные их характеристики (оценки). Числовые параметры для оценки M x , s x 2 и др. – называются иногда статистиками.

Для оценки математического ожидания используется среднеарифметическое (среднее значение) ряда измерений по выборке:

где х i – реализация либо дискретной, либо отдельная точка для непрерывной случайной величины; n – объем выборки.

Для характеристики разброса случайной величины используется оценка теоретической дисперсии – выборочные дисперсии (см.рис.2.4):

(3.2а)

(3.2б)

Неотрицательное значение квадратного корня из выборочной дисперсии – это выборочное стандартное отклонение (выборочное среднеквадратичное) отклонение

Следует отметить, что в любой задаче, связанной с выполнением измерений, возможны два способа получения оценки значения s x 2 .

При использовании первого способа снимается последовательность показаний прибора и путем сравнения полученных результатов с известным или калиброванным значением измеряемой величины находится последовательность отклонений. Затем полученная последовательность отклонений используется для вычисления среднего квадратичного отклонения по формуле (3.3а).

Второй способ получения оценки значения s x 2 состоит в определении среднего арифметического , т.к. в этом случае действительное (точное) значение измеряемой величины неизвестно. В этом случае целесообразно использовать другую, формулу для нахождения среднеквадратичного отклонения (3.2б, 3.3б). Деление на (n-1) производится по той причине, что наилучшая оценка, получаемая путем усреднения массива Х, будет отличаться от точного значения на некоторую величину, если рассматривается выборка, а не вся генеральная совокупность.

В этом случае сумма квадратов отклонений будет несколько меньше, чем при использовании истинного среднего . При делении на (n-1) вместо n эта погрешность будет частично скорректирована. В некоторых руководствах по математической статистике рекомендуется при вычислении выборочного среднеквадратичного отклонения всегда делить на , хотя иногда этого делать не следует. Нужно делить на лишь в тех случаях, когда истинное значение не было получено независимым способом.

Выборочное значение коэффициента вариации n, являющееся мерой относительной изменчивости случайной величины, вычисляют по формуле

или в процентах

(3.4б)

Та из выборок имеет большее рассеяние, у которой вариация больше.

К оценкам , S x 2 предъявляются требования состоятельности, несмещенности и эффективности.

Оценка параметра Q* называется состоятельной, если по мере роста числа наблюдений n (т.е. n®N в случае конечной генеральной совокупности объема N и при n®¥ в случае бесконечной генеральной совокупности) она стремится к оцениваемому теоретическому значению параметра

Например, для дисперсии

(3.5)

Оценка параметра Q* называется несмещенной, если ее математическое ожидание M(Q*) при любом n асимптотически стремится к истинному значению M(Q*)=Q. Удовлетворение требованию несмещенности устраняет систематическую погрешность оценки параметра, которая зависит от объема выборки n и в случае состоятельности стремится к нулю при n®¥. Выше было определены две оценки для дисперсии и . В случае неизвестного значения математического ожидания (истинного значения измеряемой величины) обе оценки состоятельны, но только вторая (3.2б), (3.3б), как было показано ранее, является несмещенной. Требование несмещенности особенно важно при малом числе наблюдений, так как при n®¥ ® .

Оценка параметра Q 1 * называется эффективной, если среди прочих оценок того же параметра Q 2 *, Q 3 * она обладает наименьшей дисперсией.

(3.6)

где Q i * – любая другая оценка.

Так, если имеется выборка х 1 , х 2 ,..., х n из генеральной совокупности, то среднее математическое ожидание можно оценить двумя способами:

(3.7)

где x max (n), x min (n) – соответственно максимальное и минимальное значения случайной величины из выборки n.

Обе оценки обладают свойствами состоятельности и несмещенности, однако можно показать, что дисперсия при первом способе оценки равна S x 2 /n, а во втором p 2 S x 2 /, т.е. существенно больше. Таким образом, первый способ оценки математического ожидания является состоятельным, несмещенным и эффективным, а второй – только состоятельным и несмещенным. Заметим, что из всех несмещенных и состоятельных оценок следует предпочесть такую, которая оказывается наиболее близкой к оцениваемому параметру.

Заметим, что все сказанное относится к равноточным измерениям, т.е. к измерениям, которые содержат только случайную погрешность, подчиняющуюся нормальному закону распределения.

Вариационный ряд. Полигон и гистограмма.

Ряд распределения - представляет собой упорядоченное распределение единиц изучаемой совокупности на группы по определенному варьирующему признаку.

В зависимости от признака, положенного в основу образования ряда распределения различают атрибутивные и вариационные ряды распределения:

§ Ряды распределения, построенные в порядке возрастания или убывания значений количественного признака называются вариационными .

Вариационный ряд распределения состоит из двух столбцов:

В первом столбце приводятся количественные значения варьирующегося признака, которые называются вариантами и обозначаются . Дискретная варианта - выражается целым числом. Интервальная варианта находится в пределах от и до. В зависимости от типа варианты можно построить дискретный или интервальный вариационный ряд.
Во втором столбце содержится количество конкретных вариант , выраженное через частоты или частости:

Частоты - это абсолютные числа, показывающие столько раз в совокупности встречается данное значение признака, которые обозначают . Сумма всех частот равна должна быть равна численности единиц всей совокупности.

Частости () - это частоты выраженные в процентах к итогу. Сумма всех частостей выраженных в процентах должна быть равна 100% в долях единице.

Графическое изображение рядов распределения

Наглядно ряды распределения представляются при помощи графических изображений.

Ряды распределения изображаются в виде:

§ Полигона

§ Гистограммы

§ Кумуляты

Полигон

При построении полигона на горизонтальной оси (ось абсцисс) откладывают значения варьирующего признака, а на вертикальной оси (ось ординат) - частоты или частости.

1. Полигон на рис. 6.1 построен по данным микропереписи населения России в 1994 г.


Гистограмма



Для построения гистограммы по оси абсцисс указывают значения границ интервалов и на их основании строят прямоугольники, высота которых пропорциональна частотам (или частостям).

На рис. 6.2. изображена гистограмма распределения населения России в 1997 г. по возрастным группам.

Рис.1. Распределение населения России по возрастным группам

Эмпирическая функция распределения, свойства.

Пусть известно статистическое распределение частот количественного признака X. Обозначим через число наблюдений, при которых наблюдалось значение признака, меньшее x и через n – общее число наблюдений. Очевидно, относительная частота события X

Эмпирической функцией распределения (функцией распределения выборки) называют функцию , определяющую для каждого значения x относительную частоту события X

В отличие от эмпирической функции распределения выборки, функцию распределения генеральной совокупности называют теоретической функцией распределения. Различие между этими функциями состоит в том, что теоретическая функция определяет вероятность события X

При росте n относительная частота события X

Основные свойства

Пусть зафиксирован элементарный исход . Тогда является функцией распределения дискретного распределения, задаваемого следующейфункцией вероятности:

где , а - количество элементов выборки, равных . В частности, если все элементы выборки различны, то .

Математическое ожидание этого распределения имеет вид:

.

Таким образом выборочное среднее - это теоретическое среднее выборочного распределения.

Аналогично, выборочная дисперсия - это теоретическая дисперсия выборочного распределения.

Случайная величина имеет биномиальное распределение:

Выборочная функция распределения является несмещённой оценкой функции распределения :

.

Дисперсия выборочной функции распределения имеет вид:

.

Согласно усиленному закону больших чисел, выборочная функция распределения сходится почти наверное к теоретической функции распределения:

почти наверное при .

Выборочная функция распределения является асимптотически нормальной оценкой теоретической функции распределения. Если , то

По распределению при .

Эмпирическая функция распределения

Методы обработки ЭД опираются на базовые понятия теории вероятностей и математической статистики. К их числу относятся понятия генеральной совокупности, выборки, эмпирической функции распределения .

Под генеральной совокупностью понимают все возможные значения параметра, которые могут быть зарегистрированы в ходе неограниченного по времени наблюдения за объектом. Такая совокупность состоит из бесконечного множества элементов. В результате наблюдения за объектом формируется ограниченная по объему совокупность значений параметра x 1 , x 2 , …, x n . С формальной точки зрения такие данные представляют собой выборку из генеральной совокупности .

Будем считать, что выборка содержит полные наработки до системных событий (цензурирование отсутствует). Наблюдаемые значения x i называют вариантами , а их количество – объемом выборки n . Для того чтобы по результатам наблюдения можно было делать какие-либо выводы, выборка должна быть репрезентативной (представительной), т. е. правильно представлять пропорции генеральной совокупности. Это требование выполняется, если объем выборки достаточно велик, а каждый элемент генеральной совокупности имеет одинаковую вероятность попасть в выборку.

Пусть в полученной выборке значение x 1 параметра наблюдалось n 1 раз, значение x 2 – n 2 раз, значение x k n k раз, n 1 +n 2 + … +n k =n .

Совокупность значений, записанных в порядке их возрастания, называют вариационным рядом , величины n i – частотами , а их отношения к объему выборки n i =n i /n относительными частотами (частостями). Очевидно, что сумма относительных частот равна единице.

Под распределением понимают соответствие между наблюдаемыми вариантами и их частотами или частостями. Пусть n x – количество наблюдений, при которых случайные значения параметра Х меньше x. Частость события Xравна n x /n . Это отношение является функцией от x и от объема выборки: F n (x )=n x /n . Величина F n (x ) обладает всеми свойствами функции:

распределения: F n (x ) неубывающая функция, ее значения принадлежат отрезку ;

если x 1 – наименьшее значение параметра, а x k – наибольшее, то F n (x )= 0, когда x <x 1 , и F п (x k )= 1, когда x >=x k .

Функция F n (x ) определяется по ЭД, поэтому ее называют эмпирической функцией распределения . В отличие от эмпирической функции F n (x ) функцию распределения F (x ) генеральной совокупности называют теоретической функцией распределения, она характеризует не частость, а вероятность события X <x . Из теоремы Бернулли вытекает, что частость F n (x ) стремится по вероятности к вероятности F (x ) при неограниченном увеличении n . Следовательно, при большом объеме наблюдений теоретическую функцию распределения F (x ) можно заменить эмпирической функцией F n (x ).

График эмпирической функции F n (x ) представляет собой ломаную линию. В промежутках между соседними членами вариационного ряда F n (x ) сохраняет постоянное значение. При переходе через точки оси x , равные членам выборки, F n (x ) претерпевает разрыв, скачком возрастая на величину 1/n , а при совпадении l наблюдений – на l /n .

Пример 2.1 . Построить вариационный ряд и график эмпирической функции распределения по результатам наблюдений, табл. 2.1.

Таблица 2.1

Искомая эмпирическая функция, рис. 2.1:

Рис. 2.1. Эмпирическая функция распределения

При большом объеме выборки (понятие «большой объем» зависит от целей и методов обработки, в данном случае будем считать п большим, если n >40) в целях удобства обработки и хранения сведений прибегают к группированию ЭД в интервалы. Количество интервалов следует выбрать так, чтобы в необходимой мере отразилось разнообразие значений параметра в совокупности и в то же время закономерность распределения не искажалась случайными колебаниями частот по отдельным разрядам. Существуют нестрогие рекомендации по выбору количества y и размера h таких интервалов, в частности:

в каждом интервале должно находиться не менее 5 – 7 элементов. В крайних разрядах допустимо всего два элемента;

количество интервалов не должно быть очень большим или очень маленьким. Минимальное значение y должно быть не менее 6 – 7. При объеме выборки, не превышающем несколько сотен элементов, величину y задают в пределах от 10 до 20. Для очень большого объема выборки (n >1000) количество интервалов может превышать указанные значения. Некоторые исследователи рекомендуют пользоваться соотношением y=1,441*ln(n )+1;

при относительно небольшой неравномерности длины интервалов удобно выбирать одинаковыми и равными величине

h= (x max – x min)/y,

где x max – максимальное и x min – минимальное значение параметра. При существенной неравномерности закона распределения длины интервалов можно задавать меньшего размера в области быстрого изменения плотности распределения;

при значительной неравномерности лучше в каждый разряд назначать примерно одинаковое количество элементов выборки. Тогда длина конкретного интервала будет определять крайними значениями элементов выборки, сгруппироваными в этот интервал, т.е. будет различна для разных интервалов (в этом случае при построении гистограммы нормировка по длине интервала обязательна - в противном случае высота каждого элемента гистограммы будет одинакова).

Группирование результатов наблюдений по интервалам предусматривает: определение размаха изменений параметра х ; выбор количества интервалов и их величины; подсчет для каждого i- го интервала [x i x i +1 ] частоты n i или относительной частоты (частости n i ) попадания варианты в интервал. В результате формируется представление ЭД в виде интервального или статистического ряда .

Графически статистический ряд отображают в виде гистограммы, полигона и ступенчатой линии. Часто гистограмму представляют как фигуру, состоящую из прямоугольников, основаниями которых служат интервалы длиною h , а высоты равны соответствующей частости. Однако такой подход неточен. Высоту i- го прямоугольника z i следует выбрать равной n i / (nh ). Такую гистограмму можно интерпретировать как графическое представление эмпирической функции плотности распределения f n (x ), в ней суммарная площадь всех прямоугольников составит единицу. Гистограмма помогает подобрать вид теоретической функции распределения для аппроксимации ЭД.



Полигоном называют ломаную линию, отрезки которой соединяют точки с координатами по оси абсцисс, равными серединам интервалов, а по оси ординат – соответствующим частостям. Эмпирическая функция распределения отображается ступенчатой ломаной линией: над каждым интервалом проводится отрезок горизонтальной линии на высоте, пропорциональной накопленной частости в текущем интервале. Накопленная частость равна сумме всех частостей, начиная с первого и до данного интервала включительно.

Пример 2.2 . Имеются результаты регистрации значений затухания сигнала x i на частоте 1000 Гц коммутируемого канала телефонной сети. Эти значения, измеренные в дБ, в виде вариационного ряда представлены в табл. 2.3. Необходимо построить статистический ряд.

Таблица 2.3

i
x i 25,79 25,98 25,98 26,12 26,13 26,49 26,52 26,60 26,66 26,69 26,74
i
x i 26,85 26,90 26,91 26,96 27,02 27,11 27,19 27,21 27,28 27,30 27,38
i
x i 27,40 27,49 27,64 27,66 27,71 27,78 27,89 27,89 28,01 28,10 28,11
i
x i 28,37 28,38 28,50 28,63 28,67 28,90 28,99 28,99 29,03 29,12 29,28

Решение . Количество разрядов статистического ряда следует выбрать минимальным, чтобы обеспечить достаточное количество попаданий в каждый из них, возьмем y = 6. Определим размер разряда

h = (x max – x min)/y =(29,28 – 25,79)/6 = 0,58.

Сгруппируем наблюдения по разрядам, табл. 2.4.

Таблица 2.4

i
x i 25,79 26,37 26,95 27,5 3 28,12 28,70
n i
n i =n i /n 0,114 0,205 0,227 0,205 0,11 4 0,136
z i = n i /h 0,196 0,353 0,392 0,353 0,196 0,235

На основе статистического ряда построим гистограмму, рис. 2.2, и график эмпирической функции распределения, рис. 2.3.

График эмпирической функции распределения, рис. 2.3, отличается от графика, представленного на рис. 2.1 равенством шага изменения варианты и величиной шага приращения функции (при построении по вариационному ряду шаг приращения кратен

1/ n , а по статистическому ряду – зависит от частости в конкретном разряде).

Рассмотренные представления ЭД являются исходными для последующей обработки и вычисления различных параметров.

Лекция 13. Понятие о статистических оценках случайных величин

Пусть известно статистическое распределение частот количественного признака X. Обозначим через число наблюдений, при которых наблюдалось значение признака, меньшее x и через n – общее число наблюдений. Очевидно, относительная частота события X < x равна и является функцией x. Так как эта функция находится эмпирическим (опытным) путем, то ее называют эмпирической.

Эмпирической функцией распределения (функцией распределения выборки) называют функцию , определяющую для каждого значения x относительную частоту события X < x. Таким образом, по определению ,где - число вариант, меньших x, n – объем выборки.

В отличие от эмпирической функции распределения выборки, функцию распределения генеральной совокупности называют теоретической функцией распределения. Различие между этими функциями состоит в том, что теоретическая функцияопределяет вероятность события X < x, тогда как эмпирическая – относительную частоту этого же события.

При росте n относительная частота события X < x, т.е. стремится по вероятности к вероятности этого события. Иными словами

Свойства эмпирической функции распределения :

1) Значения эмпирической функции принадлежат отрезку

2) - неубывающая функция

3) Если - наименьшая варианта, то = 0 при , если - наибольшая варианта, то =1 при .

Эмпирическая функция распределения выборки служит для оценки теоретической функции распределения генеральной совокупности.

Пример . Построим эмпирическую функцию по распределению выборки:

Варианты
Частоты

Найдем объем выборки: 12+18+30=60. Наименьшая варианта равна 2, поэтому =0 при x £ 2. Значение x<6, т.е. , наблюдалось 12 раз, следовательно, =12/60=0,2 при 2< x £6. Аналогично, значения X < 10, т.е. и наблюдались 12+18=30 раз, поэтому =30/60 =0,5 при 6< x £10. Так как x=10 – наибольшая варианта, то =1 при x> 10. таким образом, искомая эмпирическая функция имеет вид:

Важнейшие свойства статистических оценок

Пусть требуется изучить некоторый количественный признак генеральной совокупности. Допустим, что из теоретических соображений удалось установить, какое именно распределение имеет признак и необходимо оценить параметры, которыми оно определяется. Например, если изучаемый признак распределен в генеральной совокупности нормально, то нужно оценить математическое ожидание и среднее квадратическое отклонение; если признак имеет распределение Пуассона – то необходимо оценить параметр l.

Обычно имеются лишь данные выборки, например значения количественного признака , полученные в результате n независимых наблюдений. Рассматривая как независимые случайные величины можно сказать, что найти статистическую оценку неизвестного параметра теоретического распределения – значит найти функцию от наблюдаемых случайных величин, которая дает приближенное значение оцениваемого параметра. Например, для оценки математического ожидания нормального распределения роль функции выполняет среднее арифметическое



Для того чтобы статистические оценки давали корректные приближения оцениваемых параметров, они должны удовлетворять некоторым требованиям, среди которых важнейшими являются требования несмещенности и состоятельности оценки.

Пусть - статистическая оценка неизвестного параметра теоретического распределения. Пусть по выборке объема n найдена оценка . Повторим опыт, т.е. извлечем из генеральной совокупности другую выборку того же объема и по ее данным получим другую оценку . Повторяя опыт многократно, получим различные числа . Оценку можно рассматривать как случайную величину, а числа - как ее возможные значения.

Если оценка дает приближенное значение с избытком , т.е. каждое число больше истинного значения то, как следствие, математическое ожидание (среднее значение) случайной величины больше, чем :. Аналогично, если дает оценку с недостатком , то .

Таким образом, использование статистической оценки, математическое ожидание которой не равно оцениваемому параметру, привело бы к систематическим (одного знака) ошибкам. Если, напротив, , то это гарантирует от систематических ошибок.

Несмещенной называют статистическую оценку , математическое ожидание которой равно оцениваемому параметру при любом объеме выборки .

Смещенной называют оценку, не удовлетворяющую этому условию.

Несмещенность оценки еще не гарантирует получения хорошего приближения для оцениваемого параметра, так как возможные значения могут быть сильно рассеяны вокруг своего среднего значения, т.е. дисперсия может быть значительной. В этом случае найденная по данным одной выборки оценка, например , может оказаться значительно удаленной от среднего значения ,а значит, и от самого оцениваемого параметра.

Эффективной называют статистическую оценку, которая, при заданном объеме выборки n, имеет наименьшую возможную дисперсию .

При рассмотрении выборок большого объема к статистическим оценкам предъявляется требование состоятельности .

Состоятельной называется статистическая оценка, которая при n®¥ стремится по вероятности к оцениваемому параметру. Например, если дисперсия несмещенной оценки при n®¥ стремится к нулю, то такая оценка оказывается и состоятельной.