Определение доверительного интервала и доверительной вероятности. Доверительная вероятность и доверительный

После получения точечной оценки желательно иметь данные о надежности такой оценки. Понятно, что величина является лишь приближенным значением параметра q. Вычисленная точечная оценка может быть близка к оцениваемому параметру, а может и очень сильно отличаться от него. Точечная оценка не несет информации о точности процедуры оценивания. Особенно важно иметь сведения о надежности оценок для небольших выборок. В таких случаях следует пользоваться интервальными оценками.

Задачу интервального оценивания в самом общем виде можно сформулировать следующим образом: по данным выборки построить числовой интервал, относительно которого с заранее выбранной вероятностью можно сказать, что внутри этого интервала находится оцениваемый параметр. Здесь существует несколько подходов. Наиболее распространенным методом интервального оценивания является метод доверительных интервалов .

Доверительным интервалом для параметра q называется интервал , содержащий неизвестное значение параметра генеральной совокупности с заданной вероятностью g, т.е.

Число g называется доверительной вероятностью , а число a=1–g – уровнем надежности . Доверительная вероятность задается априорно и определяется конкретными условиями. Обычно используется g=0,9; 0,95; 0,99 (соответственно, a=0,1; 0,05; 0,01).

Длина доверительного интервала, характеризующая точность интервальной оценки, зависит от объема выборки n и доверительной вероятности g. При увеличении величины n длина доверительного интервала уменьшается, а с приближением вероятности g к единице – увеличивается.

Часто доверительный интервал строят симметричным относительно точечной оценки, т.е. в виде

, (3.15)

Здесь число D называется предельной (или стандартной ) ошибкой выборки . Однако симметричные интервалы не всегда удается построить, более того, иногда приходится ограничиваться односторонними доверительными интервалами:

или .

Поскольку в эконометрических задачах часто приходится строить доверительные интервалы параметров случайных величин, имеющих нормальное распределение , приведем схемы их нахождения.

3.4.2. Доверительный интервал оценки генеральной
средней при известной генеральной дисперсии

Пусть количественный признак X генеральной совокупности имеет нормальное распределение с заданной дисперсией s 2 и неизвестным математическим ожиданием a . Для оценки параметра a извлечена выборка X 1 , X 2 , …, X n , состоящей из n независимых нормальной распределенных случайных величин с параметрами a и s, причем s известно, а величину a оценивают по выборке:

Оценим точность этого приближенного равенства. Для этого зададим вероятность g и попробуем найти такое число D, чтобы выполнялось соотношение

Далее воспользуемся свойствами нормального распределения. Известно, что сумма нормально распределенных величин также имеет нормальное распределение. Поэтому средняя величина имеет нормальное распределение, математическое ожидание и дисперсия которой равны

Следовательно,

Воспользуемся теперь формулой нахождения вероятностей отклонения нормально распределенной случайной величины от математического ожидания:

где F(x ) – функция Лапласа. Заменяя X на и s на , получим

где . Из последнее равенства находим, что предельная ошибка выборки будет равна

Приняв во внимание, что доверительная вероятность задана и равна g, получим окончательный результат.

Интервальная оценка генеральной средней (математического ожидания) имеет вид

, (3.17)

или более кратко

где число t g определяется из равенства .

Приведем значения t g для широко распространенных значений доверительной вероятности:

, , .

Обсудим, как влияет на точность оценивания параметра a объем выборки n , величина среднего квадратичного отклонения s, а также значение доверительной вероятности g.

а) При увеличении n точность оценки увеличивается. К сожалению, увеличение точности (т.е. уменьшение длины доверительного интервала) пропорционально , а не 1/n , т.е. происходит гораздо медленнее, чем рост числа наблюдений. Например, если мы хотим увеличить точность выводов в 10 раз чисто статистическими средствами, то мы должны увеличить объем выборки в 100 раз.

б) Чем больше s, тем ниже точность. Зависимость точности от этого параметра носит линейный характер.

в) Чем выше доверительная вероятность g, тем больше значение параметра t g , т.е. тем ниже точность. При этом между g и t g существует нелинейная связь. С увеличением g значение t g резко увеличивается ( при ). Поэтому с большой уверенностью (с высокой доверительной вероятностью) мы можем гарантировать лишь относительно невысокую точность. (Доверительный интервал окажется широким.) И наоборот: когда мы указываем для неизвестного параметра a относительно узкие пределы, мы рискуем совершить ошибку – с относительно высокой вероятностью.

Отметим, что величина

называется средней ошибкой выборки . Для бесповторной выборки эта формула примет вид

. (3.20)

Тогда предельная ошибка выборки D будет представлять собой t -кратную среднюю ошибку:

Пример 3.7. На основе продолжительных наблюдений за весом X пакетов орешков, заполняемых автоматически, установлено, что среднее квадратичное отклонение веса пакетов равно s=10 г . Взвешено 25 пакетов, при этом их средний вес составил . В каком интервале с надежностью 95% лежит истинное значение среднего веса пакетов?

Для определения 95%-го доверительного интервала вычислим предельную ошибку выборки

Следовательно 95%-й доверительный интервал для истинное значение среднего веса пакетов будет иметь вид

На первый взгляд может показаться, что полученный результат представляет только теоретический результат, поскольку среднее квадратичное отклонение s, как правило, тоже неизвестно и вычисляется по выборочным данным. Однако если выборка достаточно большая, то полученный результат вполне приемлем для практического использования, поскольку функция распределения будет мало отличаться от нормальной, а оценка дисперсии s 2 будет достаточно близка к истинному значению s 2 . Более того, полученный результат часто используют и в том случае, когда распределение генеральной совокупности отличается нормального. Это обусловлено тем, что сумма независимых случайных величин, в силу центральной предельной теоремы, при больших выборках имеет распределение, близкое к нормальному. â

Пример 3.8. Предположим, что в результате выборочного обследования жилищных условий жителей города на основе собственно-случайной повторной выборки, получен следующий вариационный ряд:

Таблица 3.5

Построить 95%-доверительный интервал для изучаемого признака.

Решение. Рассчитаем выборочную среднюю величину и дисперсию изучаемого признака.

Таблица 3.6

Общая площадь жилищ, приходящаяся на 1 чел., м 2	Число жителей, n i	Середина интервала, x i
До 5,0		2,5	20,0	50,0
5,0–10,0		7,5	712,5	5343,8
10,0–15,0		12,5	2550,0	31875,0
15,0–20,0		17,5	4725,0	82687,5
20,0–25,0		22,5	4725,0	106312,5
25,0–30,0		27,5	3575,0	98312,5
30,0 и более		32,5	2697,5	87668,8
Итого		–	19005,0	412250,0

; ; .

Средняя ошибка выборки составит

Определим предельную ошибку выборки с вероятностью 0,95 ():

Установим границы генеральной средней

Таким образом, на основании проведенного выборочного обследования с вероятностью 0,95 можно заключить, что средний размер общей площади, приходящейся на 1 чел., в целом по городу лежит в пределах от 18,6 до 19,4 м 2 . â

3.4.3. Доверительный интервал оценки генеральной
средней при неизвестной генеральной дисперсии

Выше была решена задача построения интервальной оценки для математического ожидания нормального распределения, когда его дисперсия известна. Однако на практике дисперсия обычно тоже неизвестна и ее вычисляют по той же самой выборке, что и математическое ожидание. Это приводит к необходимости использования другой формулы при определении доверительного интервала для математического ожидания случайной величины, имеющей нормальное распределение. Такая постановка задачи особенно актуальна при малых объемах выборки.

Пусть количественный признак X генеральной совокупности имеет нормальное распределение N (a ,s), причем оба параметра a и s неизвестны. По данным выборки X 1 , X 2 , …, X n , вычислим среднее арифметическое и исправленную дисперсию:

, .

Для нахождения доверительного интервала в этом случае строится статистика

имеющая распределение Стьюдента с числом степеней свободы n=n–1 независимо от значений параметров a и s. Выбрав доверительную вероятность g и зная объем выборки n, можно найти такое число t, что будет выполняться равенство

Отсюда находим

интервальную оценку для генеральной средней (математического ожидания) при неизвестном s:

, (3.22)

или более кратко

Число t (коэффициент Стьюдента ) находится из таблиц для распределения Стьюдента. Отметим, что он является функцией двух аргументов: доверительной вероятности g и числа степеней свободы k =n –1, т.е. t=t (g,n).

Следует быть очень внимательным при использовании таблиц для распределения Стьюдента. Во-первых, обычно в таблицах вместо доверительной вероятности g используют уровень надежности a=1–g. Во-вторых, очень часто в таблицах приводятся значения т.н. одностороннего критерия Стьюдента

Или .

В этом случае в таблицах следует брать значения , если в таблице используется уровень надежности, или , если в таблице используется доверительная вероятность.

Несмотря на кажущееся сходство формул (3.17) и (3.22), между ними имеется существенное различие, заключающееся в том, что коэффициент Стьюдента t зависит не только от доверительной вероятности, но и от объема выборки. Особенно это различие заметно при малых выборках. (Напомним, что при больших выборках различие между распределением Стьюдента и нормальным распределением практически исчезает.) В этом случае использование нормального распределения приводит к неоправданному сужению доверительного интервала, т.е. к неоправданному повышению точности. Например, если n =5 и g=0,99, то, пользуясь распределением Стьюдента, получим t =4,6, а используя нормальное распределение, – t =2,58, т.е. доверительный интервал в последнем случае почти в два раза уже, чем интервал при использовании распределения Стьюдента.

Пример 3.9. Аналитик фондового рынка оценивает среднюю доходность определенных акций. Случайная выборка 15 дней показала, что средняя (годовая) доходность со средним квадратичным отклонением . Предполагая, что доходность акций подчиняется нормальному закону распределения, постройте 95%-доверительный интервал для средней доходности интересующего аналитика вида акций.

Решение. Поскольку объем выборки n =15, то необходимо применить распределение Стьюдента с степенями свободы. По таблицам для распределения Стьюдента находим

Используя это значение, строим 95%-доверительный интервал:

Следовательно, аналитик может быть на 95% уверен, что средняя годовая доходность по акциям находится между 8,44% и 12,3%. â

Часто оценщику приходится анализировать рынок недвижимости того сегмента, в котором располагается объект оценки. Если рынок развит, проанализировать всю совокупность представленных объектов бывает сложно, поэтому для анализа используется выборка объектов. Не всегда эта выборка получается однородной, иногда требуется очистить ее от экстремумов - слишком высоких или слишком низких предложений рынка. Для этой цели применяется доверительный интервал . Цель данного исследования - провести сравнительный анализ двух способов расчета доверительного интервала и выбрать оптимальный вариант расчета при работе с разными выборками в системе estimatica.pro.

Доверительный интервал - вычисленный на основе выборки интервал значений признака, который с известной вероятностью содержит оцениваемый параметр генеральной совокупности.

Смысл вычисления доверительного интервала заключается в построении по данным выборки такого интервала, чтобы можно было утверждать с заданной вероятностью, что значение оцениваемого параметра находится в этом интервале. Другими словами, доверительный интервал с определенной вероятностью содержит неизвестное значение оцениваемой величины. Чем шире интервал, тем выше неточность.

Существуют разные методы определения доверительного интервала. В этой статье рассмотрим 2 способа:

через медиану и среднеквадратическое отклонение;
через критическое значение t-статистики (коэффициент Стьюдента).

Этапы сравнительного анализа разных способов расчета ДИ:

1. формируем выборку данных;

2. обрабатываем ее статистическими методами: рассчитываем среднее значение, медиану, дисперсию и т.д.;

3. рассчитываем доверительный интервал двумя способами;

4. анализируем очищенные выборки и полученные доверительные интервалы.

Этап 1. Выборка данных

Выборка сформирована с помощью системы estimatica.pro. В выборку вошло 91 предложение о продаже 1 комнатных квартир в 3-ем ценовом поясе с типом планировки «Хрущевка».

Таблица 1. Исходная выборка

	Цена 1 кв.м., д.е.

Рис.1. Исходная выборка

Этап 2. Обработка исходной выборки

Обработка выборки методами статистики требует вычисления следующих значений:

1. Среднее арифметическое значение

2. Медиана - число, характеризующее выборку: ровно половина элементов выборки больше медианы, другая половина меньше медианы

(для выборки, имеющей нечетное число значений)

3. Размах - разница между максимальным и минимальным значениями в выборке

4. Дисперсия - используется для более точного оценивания вариации данных

5. Среднеквадратическое отклонение по выборке (далее - СКО) - наиболее распространённый показатель рассеивания значений корректировок вокруг среднего арифметического значения.

6. Коэффициент вариации - отражает степень разбросанности значений корректировок

7. коэффициент осцилляции - отражает относительное колебание крайних значений цен в выборке вокруг средней

Таблица 2. Статистические показатели исходной выборки

Коэффициент вариации, который характеризует однородность данных, составляет 12,29%, однако коэффициент осцилляции слишком велик. Таким образом, мы можем утверждать, что исходная выборка не является однородной, поэтому перейдем к расчету доверительного интервала.

Этап 3. Расчёт доверительного интервала

Способ 1. Расчёт через медиану и среднеквадратическое отклонение.

Доверительный интервал определяется следующим образом: минимальное значение - из медианы вычитается СКО; максимальное значение - к медиане прибавляется СКО.

Таким образом, доверительный интервал (47179 д.е.; 60689 д.е.)

Рис. 2. Значения, попавшие в доверительный интервал 1.

Способ 2. Построение доверительного интервала через критическое значение t-статистики (коэффициент Стьюдента)

С.В. Грибовский в книге «Математические методы оценки стоимости имущества» описывает способ вычисления доверительного интервала через коэффициент Стьюдента. При расчете этим методом оценщик должен сам задать уровень значимости ∝, определяющий вероятность, с которой будет построен доверительный интервал. Обычно используются уровни значимости 0,1; 0,05 и 0,01. Им соответствуют доверительные вероятности 0,9; 0,95 и 0,99. При таком методе полагают истинные значения математического ожидания и дисперсии практически неизвестными (что почти всегда верно при решении практических задач оценки).

Формула доверительного интервала:

n - объем выборки;

Критическое значение t- статистики (распределения Стьюдента) с уровнем значимости ∝,числом степеней свободы n-1,которое определяется по специальным статистическим таблицам либо с помощью MS Excel ( →"Статистические"→ СТЬЮДРАСПОБР);

∝ - уровень значимости, принимаем ∝=0,01.

Рис. 2. Значения, попавшие в доверительный интервал 2.

Этап 4. Анализ разных способов расчета доверительного интервала

Два способа расчета доверительного интервала - через медиану и коэффициент Стьюдента - привели к разным значениям интервалов. Соответственно, получилось две различные очищенные выборки.

Таблица 3. Статистические показатели по трем выборкам.

Показатель	Исходная выборка	1 вариант	2 вариант
Среднее значение


Дисперсия

Коэф. вариации
Коэф. осциляции
Количество выбывших объектов, шт.

На основании выполненных расчетов можно сказать, что полученные разными методами значения доверительных интервалов пересекаются, поэтому можно использовать любой из способов расчета на усмотрение оценщика.

Однако мы считаем, что при работе в системе estimatica.pro целесообразно выбирать метод расчета доверительного интервала в зависимости от степени развитости рынка:

если рынок неразвит, применять метод расчета через медиану и среднеквадратическое отклонение, так как количество выбывших объектов в этом случае невелико;
если рынок развит, применять расчет через критическое значение t-статистики (коэффициент Стьюдента), так как есть возможность сформировать большую исходную выборку.

При подготовке статьи были использованы:

1. Грибовский С.В., Сивец С.А., Левыкина И.А. Математические методы оценки стоимости имущества. Москва, 2014 г.

2. Данные системы estimatica.pro

Анализ случайных погрешностей основывается на теории случайных ошибок, дающей возможность с определенной гарантией вычислить действительное значение измеренной величины и оценить возможные ошибки.

Основу теории случайных ошибок составляют следующие предположения:

при большом числе измерений случайные погрешности одинаковой величины, но разного знака встречаются одинаково часто;

большие погрешности встречаются реже, чем малые (вероятность появления погрешности уменьшается с ростом ее величины);

при бесконечно большом числе измерении истинное значение измеряемой величины равно среднеарифметическому значению всех результатов измерений;

появление того или иного результата измерения как случайного события описывается нормальным законом распределения.

На практике различают генеральную и выборочную совокупность измерений.

Под генеральной совокупностью подразумевают все множество возможных значений измерений или возможных значений погрешностей
.

Для выборочной совокупности число измерений ограничено, и в каждом конкретном случае строго определяется. Считают, что, если
, то среднее значение данной совокупности измеренийдостаточно приближается к его истинному значению.

1. Интервальная оценка с помощью доверительной вероятности

Для большой выборки и нормального закона распределения общей оценочной характеристикой измерения являются дисперсия
и коэффициент вариации:

;
. (1.1)

Дисперсия характеризует однородность измерения. Чем выше
, тем больше разброс измерений.

Коэффициент вариации характеризует изменчивость. Чем выше , тем больше изменчивость измерений относительно средних значений.

Для оценки достоверности результатов измерений вводятся в рассмотрение понятия доверительного интервала и доверительной вероятности.

Доверительным называется интервал значений , в который попадает истинное значение измеряемой величины с заданной вероятностью.

Доверительной вероятностью (достоверностью) измерения называется вероятность того, что истинное значение измеряемой величины попадает в данный доверительный интервал, т.е. в зону
. Эта величина определяется в долях единицы или в процентах

где
- интегральная функция Лапласа (табл.1.1 )

Интегральная функция Лапласа определяется следующим выражением:

Аргументом этой функции является гарантийный коэффициент :

Таблица 1.1

Интегральная функция Лапласа

Если же на основе определенных данных установлена доверительная вероятность (часто ее принимают равной
), то устанавливаетсяточность измерений (доверительный интервал
) на основе соотношения

Половина доверительного интервала равна

, (1.3)

где
- аргумент функции Лапласа, если
(табл.1.1 );

- функции Стьюдента, если
(табл.1.2 ).

Таким образом, доверительный интервал характеризует точность измерения данной выборки, а доверительная вероятность - достоверность измерения.

Пример

Выполнено
измерений прочности дорожного покрытия участка автомобильной дороги при среднем модуле упругости
и вычисленном значении среднеквадратического отклонения
.

Необходимо определить требуемую точность измерений для разных уровней доверительной вероятности
, приняв значения потабл.1.1 .

В этом случае соответственно |

Следовательно, для данного средства и метода измерений доверительный интервал возрастает примерно в раза, если увеличитьтолько на
.

Теоремы 1 и 2 хотя и являются общими, т. е. сформулированы при достаточно широких предположениях, они не дают возможности установить, насколько близки оценки к оцениваемым параметрам. Из факта, что -оценки являются состоятельными, следует только то, что при увеличении объема выборки значение P (|θ * – θ | < δ), δ < 0, приближается к 1.

Возникают следующие вопросы.

1) Каким должен быть объем выборки п, чтобы заданная точность
|θ * – θ | = δ была гарантирована с заранее принятой вероятностью?

2) Какова точность оценки, если объем выборки известен и вероятность безошибочности вывода задана?

3) Какова вероятность того, что при заданном объеме выборки будет обеспечена заданная точность оценки?

Введем несколько новых определений.

Определение. Вероятность γ выполнения неравенства, |θ *– θ | < δ называется доверительной вероятностью или надежностью оценки θ .

Перейдем от неравенства |θ *–θ | < δ к двойному неравенству. Известно, что . Поэтому доверительную вероятность можно записать в виде

Так как θ (оцениваемый параметр) – число постоянное, а θ * – величина случайная, понятие доверительной вероятности сформулировать так: доверительной вероятностью γ называется вероятность того, что интервал (θ *– δ, θ *+ δ) накрывает оцениваемый параметр.

Определение. Случайный интервал (θ *–δ , θ *+δ ), в пределах которого с вероятностью γ находится неизвестный оцениваемый параметр, называется доверительным интервалом İ , соответствующим коэффициенту доверия γ,

İ= (θ*– δ, θ*+ δ ). (3)

Надежность оценки γ может задаваться заранее, тогда, зная закон распределения изучаемой случайной величины, можно найти доверительный интервал İ . Решается и обратная задача, когда по заданному İ находится соответствующая надежность оценки.

Пусть, например, γ = 0,95; тогда число р = 1 – у = 0,05 показывает, с какой вероятностью заключение о надежности оценки ошибочно. Число р=1–γ называется уровнем значимости. Уровень значимости задается заранее в зависимости от конкретного случая. Обычно р принимают равным 0,05; 0,01; 0,001.

Выясним, как построить доверительный интервал для математического ожидания нормально распределенного признака. Было показано, что

Оценим математическое ожидание с помощью выборочной средней учитывая, что также имеет нормальное распределение*. Имеем

(4)

а по формуле (12.9.2) получаем

Принимая во внимание (13.5.12), получим

(5)

Пусть известна вероятность γ . Тогда

Для удобства пользования таблицей функции Лапласа положим тогда а

Интервал

(7)

накрывает параметр а = М (Х ) с вероятностью γ .

В большинстве случаев среднее квадратическое отклонение σ(Х) исследуемого признака неизвестно. Поэтому вместо σ (Х ) при большой выборке (n > 30) применяют исправленное выборочное среднее квадратическое отклонение s , являющееся, в свою очередь оценкой σ (X ), доверительный интервал будет иметь вид

İ =

Пример. С вероятностью γ = 0,95 найти доверительный интервал для М (Х ) – длины колоса ячменя сорта «Московский 121». Распределение задается таблицей, в которой" вместо интервалов изменения (х i , х i + 1) взяты числа , см. Считать, что случайная величина X подчинена нормальному распределению.

Решение. Выборка большая (n = 50). Имеем

Найдем точность оценки

Определим доверительные границы:

Таким образом, с надежностью γ = 0,95 математическое ожидание заключено в доверительном интервале I = (9,5; 10,3).

Итак, в случае большой выборки (n > 30), когда исправленное среднее квадратическое отклонение незначительно отклоняется от среднего квадратического отклонения значения признака в генеральной совокупности, можно найти доверительный интервал. Но делать большую выборку удается не всегда и это не всегда целесообразно. Из (7) видно, что чем меньше п, тем шире доверительный интервал, т. е. I зависит от объема выборки п.

Английский статистик Госсет (псевдоним Стьюдент) доказал, что в случае нормального распределения признака X в генеральной совокупности нормирования случайная величина

(8)

зависит только от объема выборки. Была найдена функция распределения случайной величины Т и вероятность P (T < t γ ), t γ – точность оценки. Функция, определяемая равенством

s (n , t γ ) = P (|T | < t γ ) = γ (9)

названа t-распределением Стьюдента с п – 1 степенями свободы. Формула (9) связывает случайную величину Т, доверительный интервал İ и доверительную вероятность γ . Зная две из них, можно найти третью. Учитывая (8), имеем

(10)

Неравенство в левой части (13.7.10) заменим равносильным ему неравенством . В результате получим

(11)

где t γ =t (γ ,n ). Для функции t γ составлены таблицы (см. Приложение 5). При n >30 числа t γ и t, найденные по таблице функции Лапласа, практически совпадают.

Доверительный интервал для оценки среднего квадратического отклонения σ x в случае нормального распределения.

Теорема. Пусть известно, что случайная величина имеет нормальное распределение. Тогда для оценки параметра σ х этого закона имеет место равенство

(12)

где γ – доверительная вероятность, зависящая от объема выборки п и точности оценки β .

Функция γ = Ψ (n , β ) хорошо изучена. С ее помощью определяют β = β (γ ,п ). Для β = β (γ ,п ) составлены таблицы, по которым по известным п (объему выборки) и γ (доверительной вероятности) определяется β .

Пример. Для оценки параметра нормально распределенной случайной величины была сделана выборка (дневной удой 50 коров) и вычислено s = 1,5. Найти доверительный интервал, накрывающий с вероятностью γ = 0,95.

Решение. По таблице β (γ , п) для n = 50 и γ = 0,95 находим β = 0,21 (см. Приложение 6).

В соответствии с неравенством (13) найдем границы доверительного интервала. Имеем

1,5 – 0,21·1,5 = 1,185; 1,5 + 0,21·1,5 = 1,185;

Интервал

Рассмотренные точечные оценки параметров распределения дают оценку в виде числа, наиболее близкого к значению неизвестного параметра. Такие оценки используют только при большом числе измерений. Чем меньше объем выборки, тем легче допустить ошибку при выборе параметра. Для практики важно не только получить точечную оценку, но и определить интервал, называемый доверительным, между границами которого с заданной дове рителъной вероятностью

где q - уровень значимости; х н, х в - нижняя и верхняя границы интервала, находится истинное значение оцениваемого параметра.

В общем случае доверительные интервалы можно строить на основе неравенства Чебышева. При любом законе распределения случайной величины, обладающей моментами первых двух порядков, верхняя граница вероятности попадания отклонения случайной величины х от центра распределения Х ц в интервал tS x описывается неравенством Чебышева

где S x - оценка СКО распределения; t - положительное число.

Для нахождения доверительного интервала не требуется знать закон распределения результатов наблюдений, но нужно знать оценку СКО. Полученные с помощью неравенства Чебышева интервалы оказываются слишком широкими для практики. Так, доверительной вероятности 0,9 для многих законов распределений соответствует доверительный интервал 1,6S X . Неравенство Чебышева дает в данном случае 3,16S X . В связи с этим оно не получило широкого распространения.

В метрологической практике используют главным образом кван-тильные оценки доверительного интервала. Под 100P-процентным квантилем х р понимают абсциссу такой вертикальной линии, слева от которой площадь под кривой плотности распределения равна Р%. Иначе говоря, квантиль - это значение случайной величины (погрешности) с заданной доверительной вероятностью Р. Например, медиана распределения является 50%-ным квантилем х 0,5 .

На практике 25- и 75%-ный квантили принято называть сгибами, или квантилями распределения. Между ними заключено 50% всех возможных значений случайной величины, а остальные 50% лежат вне их. Интервал значений случайной величины х между х 0 05 и х 0 95 охватывает 90% всех ее возможных значений и называется интерквантильным промежутком с 90%-ной вероятностью. Его протяженность равна d 0,9 = х 0,95 - х 0,05 .

На основании такого подхода вводится понятие квантильных значений погрешности, т.е. значений погрешности с заданной доверительной вероятностью Р - границ интервала неопределенности ± D Д = ± (х р - х 1-р)/2 = ± d p /2. На его протяженности встречается Р% значений случайной величины (погрешности), a q = (1- Р)% общего их числа остаются за пределами этого интервала.

Для получения интервальной оценки нормально распределенной случайной величины необходимо:

Определить точечную оценку МО х̅ и СКО S x случайной величины по формулам (6.8) и (6.11) соответственно;

Найти верхнюю х в и нижнюю х н границы в соответствии с уравнениями

полученными с учетом (6.1). Значения х н и х в определяются из таблиц значений интегральной функции распределения F(t) или функции Лапласа Ф(1).

Полученный доверительный интервал удовлетворяет условию

где n - число измеренных значений; z p - аргумент функции Лапласа Ф(1), отвечающей вероятности Р/2. В данном случае z p называется квантильным множителем. Половина длины доверительного интервала называется доверительной границей погрешности результата измерений.

Пример 6.1. Произведено 50 измерений постоянного сопротивления. Определить доверительный интервал для МО значения постоянного сопротивления, если закон распределения нормальный с параметрами m x = R = 590 Ом, S x = 90 Ом при доверительной вероятности Р = 0,9.

Так как гипотеза о нормальности закона распределения не противоречит опытным данным, доверительный интервал определяется по формуле

Отсюда Ф(z р) = 0,45. Из таблицы, приведенной в приложении 1, находим, что z p = 1,65. Следовательно, доверительный интервал запишется в виде

Или 590 - 21 < R < 590 + 21. Окончательно 509 Ом < R < 611 Ом.

При отличии закона распределения случайной величины от нормального необходимо построить его математическую модель и определять доверительный интервал с ее использованием.

Рассмотренный способ нахождения доверительных интервалов справедлив для достаточно большого числа наблюдений n, когда s = S x . Следует помнить, что вычисляемая оценка СКО S x является лишь некоторым приближением к истинному значению s. Определение доверительного интервала при заданной вероятности оказывается тем менее надежным, чем меньше число наблюдений. Нельзя пользоваться формулами нормального распределения при малом числе наблюдений, если нет возможности теоретически на основе предварительных опытов с достаточно большим числом наблюдений определить СКО.

Расчет доверительных интервалов для случая, когда распределение результатов наблюдений нормально, но их дисперсия неизвестна, т.е. при малом числе наблюдений п, возможно выполнить с использованием распределения Стьюдента S(t,k). Оно описывает плотность распределения отношения (дроби Стьюдента):

где Q - истинное значение измеряемой величины. Величины х̅, S x . и S x ̅ вычисляются на основании опытных данных и представляют собой точечные оценки МО, СКО результатов измерений и СКО среднего арифметического значения.

Вероятность того, что дробь Стьюдента в результате выполненных наблюдений примет некоторое значение в интервале (- t p ; + t p)

где k - число степеней свободы, равное (п - 1). Величины t p (называемые в данном случае коэффициентами Стьюдента), рассчитанные с помощью двух последних формул для различных значений доверительной вероятности и числа измерений, табулированы (см. таблицу в приложении 1). Следовательно, с помощью распределения Стьюдента можно найти вероятность того, что отклонение среднего арифметического от истинного значения измеряемой величины не превышает

В тех случаях, когда распределение случайных погрешностей не является нормальным, все же часто пользуются распределением Стьюдента с приближением, степень которого остается неизвестной. Распределение Стьюдента применяют при числе измерений n < 30, поскольку уже при n = 20, ...,30 оно переходит в нормальное и вместо уравнения (6.14) можно использовать уравнение (6.13). Результат измерения записывается в виде: ; P = Р д, где Р д - конкретное значение доверительной вероятности. Множитель t при большом числе измерений n равен квантильному множителю z p . При малом n он равен коэффициенту Стьюдента.

Полученный результат измерения не является одним конкретным числом, а представляет собой интервал, внутри которого с некоторой вероятностью Р д находится истинное значение измеряемой величины. Выделение середины интервала х вовсе не предполагает, что истинное значение ближе к нему, чем к остальным точкам интервала. Оно может быть в любом месте интервала, а с вероятностью 1 - Р д даже вне его.

Пример 6.2. Определение удельных магнитных потерь для различных образцов одной партии электротехнической стали марки 2212 дало следующие результаты: 1,21; 1,17; 1,18; 1,13; 1,19; 1,14; 1,20 и 1,18 Вт/кг. Считая, что систематическая погрешность отсутствует, а случайная распределена по нормальному закону, требуется определить доверительный интервал при значениях доверительной вероятности 0,9 и 0,95. Для решения задачи использовать формулу Лапласа и распределение Стьюдента.

По формулам (6.8) в (6.11) находим оценки среднего арифметического значения и СКО результатов измерений. Они соответственно равны 1,18 и 0,0278 Вт/кг. Считая, что оценка СКО равна самому отклонению, находим:

Отсюда, используя значения функции Лапласа, приведенные в таблице приложения 1, определяем, что z p = 1,65. Для Р = 0,95 коэффициент z p =1,96. Доверительные интервалы, соответствующие Р = 0,9 и 0,95, равны 1,18 ± 0,016 и 1,18±0,019 Вт/кг.

По таблице приложения 1 находим, что t 0,9 = 1,9 и t 0,95 = 2,37. Отсюда доверительные интервалы соответственно равны 1,18±0,019 и 1,18±0,023 Вт/кг.