Параметрические и непараметрические методы проверки статистических гипотез.

Все параметрические методы статистики работают с интервальной шкалой, в отличие от непараметрических методов, ориентированных прежде всего на первые две шкалы. Поясним отличия этих методов.

При рассмотрении большинства статистических методов предполагается, что наблюдения, о которых идет речь, выражены в интервальной шкале и являются реализациями случайной величины, распределение которой принадлежит некоторому параметрическому семейству распределений. Например, случайная величина имеет нормальное, или пуассоновское, или другое распределение. То есть, мы предполагаем, что известна форма распределения, например, мы можем предполагать нормальную N (μ, δ ) модель, но с неизвестными параметрами μ и δ . Методы оценивания и проверки гипотез позволяют делать выводы о неизвестных параметрах, при этом ценность любых заключений до некоторой степени должна зависеть от адекватности исходного предположения о параметрическом семействе, то есть о форме распределения. Однако существуют случайные величины, которые не подчиняются одной из распространенных форм распределения. Следовательно, к ним нельзя применить те математические методы, которые разработаны для параметрических распределений. Поэтому для таких признаков разработаны специальные математические модели, которые получили название непараметрических или свободных от распределения.

Таким образом, можно выделить две группы методов статистики: параметрические и непараметрические.

Преимущество параметрических методов состоит в том, что для них существует хорошо разработанный математический аппарат. Однако применение этих методов, кроме прочего, предполагает большой объем выборки. Параметрические методы используют для количественных признаков.

Для анализа номинальных и ранговых переменных используются только непараметрические методы, которые не требуют предварительных предположений относительно вида исходного распределения. В этом их достоинство. Но есть и недостаток – снижение т.н. мощности (чувствительности к различиям объектов). Поясним это.

Напомним, что прежде чем приступить к анализу результатов эксперимента, исследователь выдвигает две взаимоисключающие гипотезы. Одна из них - статистическая гипотеза, которую исследователь обычно предполагает отклонить (т.н. нулевая гипотеза Н 0 : например, изучаемые сорта не отличаются по урожайности). Альтернативная гипотеза (Н 1 ) фактически отрицает нулевую гипотезу. В альтернативной гипотезе обычно содержатся выдвигаемые исследователем предположения (есть отличия).

Выделяют два типа статистических ошибок анализа. Ошибка первого рода (ошибка α – типа): отклоняется нулевая гипотеза, которая в действительности верна. Ошибка второго рода (ошибка β – типа): принимаем нулевую гипотезу, которая в действительности ложная.

Мощностью или чувствительностью статистического критерия (метода) называется вероятность того, что в результате его применения будет принято правильное решение (Н 1 ) при действительно ложной нулевой гипотезе. Мощность критерия зависит от объема выборки, уровня значимости, направленности нулевой и альтернативной гипотез, надежности экспериментальных данных, приборов и от самого статистического метода. При равных условиях параметрические методы более мощные, чем непараметрические. Но мощность непараметрических методов возрастает с увеличением объема выборки.

Каждому типу шкалы соответствует своя статистическая техника. Для номинальных шкал часто используется критерий χ 2 (хи-квадрат). Для порядковых шкал – ранговые статистики. Для интервальных шкал – весь арсенал статистических критериев.

Алгоритмы и примеры вычисления непараметрических критериев.

Приступая к статистической обработке своих исследований, психо-лог должен решить, какие методы ему более подходят по особенностям его материала -- параметрические или непараметрические. Раз-личие между ними легко понять.

Ранее уже говорилось об измерении двигательной скорости детей-шес-тиклассников.

Как обработать эти данные?

Нужно записать все произведенные измерения -- в данном случае это будет число точек, поставленных каждым испытуемым, -- затем вычис-лить для каждого испытуемого среднее арифметическое по его резуль-татам. После этого расположить все данные в их последовательности, например начиная с наименьших к наибольшим. Для облегчения обозри-мости этих данных их обычно объединяют в группы; в этом случае можно объединить по 5-9 измерений в группе. Вообще же при таком объеди-нении желательно, если общее число случаев не более ста, чтобы общее число групп было порядка двенадцати.

Далее нужно установить, сколько раз в опытах встретились числовые значения, соответствующие каждой группе. Сделав это, для каждой группы записать ее численность. Полученные в такой таблице данные носят назва-ние распределения численностей или частот. Рекомендуется предста-вить это распределение в виде диаграммы, на которой изображается по-лигон распределения, или гистограмма распределения. Контуры этого полигона помогут решить вопрос о статистических методах обработки.

Нередко эти контуры напоминают контуры колокола, с наивысшей точкой в центре полигона и с симметричными ветвями, отходящими в ту и другую сторону. Такой контур соответствует кривой нормально-го распределения. Это понятие было введено в математическую ста-тистику К. Ф. Гауссом (1777-1855), поэтому кривую именуют также кривой Гаусса . Он же дал математическое описание этой кривой. Для построения кривой Гаусса (или кривой нормального распределения) теоретически требуется бесчисленное количество случаев. Практиче-ски же приходится довольствоваться тем фактическим материалом, который накоплен в исследовании. Если данные, которыми распола-гает исследователь, при их внимательном рассмотрении или после пе-реноса их на диаграмму лишь в незначительной степени расходятся с кривой нормального распределения, то это дает право исследователю применять в статистической обработке параметрические методы, ис-ходные положения которых основываются на нормальной кривой рас-пределения Гаусса.

Нормальное распределение называют параметрическим потому, что для построения и анализа кривой Гаусса достаточно иметь всего два параметра: среднее значение, которое должно соответствовать высоте перпендикуляра, восстановленного в центре кривой, и так называемое среднее квадратическое, или стандартное, отклонение величины, ха-рактеризующей рассеивание значений вокруг среднего значения; о спо-собах вычисления той и другой величины будет рассказано ниже.

Параметрические методы обладают для исследователя многими преимуществами, но нельзя забывать о том, что применение их право-мерно только тогда, когда обрабатываемые данные показывают рас-пределение, лишь несущественно отличающееся от гауссовского.

При невозможности применить параметрические надлежит обра-титься к непараметрическим методам . Эти методы успешно разраба-тывались в последние 3-4 десятилетия, и их разработка была вызвана прежде всего потребностями ряда наук, в частности психологии. Они показали свою высокую эффективность. Вместе с тем они не требуют сложной вычислительной работы.

Современному психологу-исследователю нужно исходить из того, что «...имеется большое количество данных, которые либо вообще не поддаются анализу с помощью кривой нормального распределения, либо не удовлетворяют основным предпосылкам, необходимым для ее использования».

Генеральная совокупность и выборка . Психологу постоянно при-ходится иметь дело с этими двумя понятиями.

В современных исследованиях по проблемам педагогики широко используются методы математической обработки данных. К методам обработки количественных данных относятся статистические приемы подведения итогов исследования, выявления определенных связей между ними, проверки достоверности выдвинутой гипотезы.

Математическая обработка результатов исследования обеспечивает их доказательность, репрезентативность. В сочетании с качественными показателями количественная обработка данных значительно повышает объективность исследования. Статистическая обработка результатов, регистрирующая изучение отдельных явлений позволяет сделать обобщения и выводы относительно всей совокупности изучаемых явлений. Важной особенностью использования статистических методов в педагогических исследованиях состоит в том, что это позволяет применять количественное изучение даже там, где невозможно определить сами свойства изучаемых объектов. Например, невозможно прямо измерить уровень развития нравственных качеств обучаемых, степень эффективности конкретного метода обучения и пр. Но, регистрируя соответствующие события, поступки, проявления, можно получить определенные качественные характеристики всех этих признаков, определить возможные закономерности их проявления, подтвердить правильность высказанных гипотез.

В статистике проверка гипотез осуществляется с помощью критериев статической оценки различий. Статистический критерий – это решающее правило, обеспечивающее надежное поведение, т.е. принятие истинной и отклонение ложной гипотезы с высокой вероятностью (Г.В.Суходольский). Статистические критерии обозначают также метод расчета определенного числа и само это число.

Статистические критерии, применяемые в педагогике, делятся на параметрические и непараметрические. К параметрическим относятся критерии, включающие в формулу расчета параметры распределения, т.е. среднее и дисперсии (критерии Стьюдента, Фишера, Хи-квадрат). К непараметрическим относят критерии, основанные на оперировании частотами или рангами и не включающие в формулу расчета параметров распределения (критерии знаков, Колмогорова-Смирнова, Уилкоксона, Манна-Уитни). Обе группы критериев имеют свои преимущества и недостатки. Сравнительная характеристика возможностей и ограничений параметрических и непараметрических критериев дана в следующей таблице.



Параметрические критерии Непараметрические критерии
Позволяют прямо оценить различия в средних, полученных в двух выборках (критерий Стьюдента) Позволяют оценить лишь средние тенденции (напр., ответить на вопрос, чаще ли в выборке А встречаются более высокие, а в выборке Б – более низкие значения признака (критерии Q,U и др.)
Позволяют прямо оценить различия в дисперсиях (критерий Фишера) Позволяют оценить лишь различия в диапазонах вариативности признака
Позволяют выявить тенденции изменения признака при переходе от условия к условию (дисперсионный однофакторный анализ), но лишь при условии нормального распределения признака Позволяют выявить тенденции изменения признака при переходе от условия к условию при любом распределении признака (критерии тенденций L и S)
Позволяют оценить взаимодействие двух и более факторов в их влиянии на изменения признака (двухфакторный дисперсионный анализ) Эта возможность отсутствует
Экспериментальные данные должны отвечать двум, а иногда трем условиям: а) значения признака измерены по интервальной шкале; б)распределение признака является нормальным; в)в дисперсионном анализе должно соблюдаться требование равенства дисперсий в ячейках комплекса Экспериментальные данные могут не отвечать ни одному из условий: а) значения признака могут быть представлены в любой шкале, начиная от шкалы наименований; б)распределение признака может быть любым и совпадение его с каким-либо теоретическим законом распределения необязательно и не нуждается в проверке; в)требование равенства дисперсий отсутствует
При выполнении указанных условий параметрические критерии являются более мощными по сравнению с непараметрическими критериями При несоблюдении указанных условий непараметрические критерии более надежны, т.к. они менее чувствительны к «засорениям»
Математические расчеты довольно сложны Математические расчеты большей частью просты и занимают мало времени

Параметрические методы

Критерий Стьюдента

Для сравнения выборочных средних величин, принадлежащих к двум совокупностям данных, и для решения вопроса о том, отличаются ли средние значения статистически достоверно друг от друга в психолого-педагогических экспериментах часто используют t -критерий Стьюдента, расчетное значение которого определяется по формуле:

,

где ‑ среднее выборочное значение переменной по одной выборке данных; ‑среднее выборочное значение по другой выборке данных; m 1 и m 2 ‑ интегрированные показатели отклонений частных значений из двух выборок от соответствующих их средних величин.

Если t расч больше или равно табличному, то делают вывод о том, что сравниваемые средние значения из двух выборок действительно статистически достоверно различаются с вероятностью допустимой ошибки.

Такая методика применяется тогда, когда необходимо установить, удался или не удался эксперимент, оказал или не оказал он влияние на уровень того качества, для изменения которого он предназначался.

Если t расчетное меньше t табличного, то в этом случае нет убедительных оснований для того, что эксперимент удался, даже если сами средние величины в начале и в конце эксперимента по своим абсолютным значениям различны.

Критерий φ*- угловое преобразование Фишера

Данный метод описан во многих руководствах (Плохинский Н.А., 1970; Гублер Е.В., 1978; Ивантер Э.В., Коросов А.В., 1992 и др.) Настоящее описание опирается на тот вариант метода, который был разработан и изложен Е.В. Гублером.

Критерий Фишера предназначен для сопоставления двух выборок по частоте встречаемости интересующего исследователя эффекта. Критерий оценивает достоверность различий между процентными долями двух выборок, в которых зарегистрирован интересующий исследователя эффект.

Суть углового преобразования Фишера состоит в переводе процентных долей в величины центрального угла, который измеряется в радианах. Большей процентной доле будет соответствовать больший угол φ, а меньшей доле - меньший угол, но соотношения здесь не линейные:

φ = 2·arcsin(),

где - процентная доля, выраженная в долях единицы.

При увеличении расхождения между углами φ 1 и φ 2 и увеличения численности выборок значение критерия возрастает. Чем больше величина φ*, тем более вероятно, что различия достоверны.

2.1. Основные понятия

Параметрические методы обработки экспериментальных данных опираются на основополагающий факт, в соответствии с которым свойства результатов экспериментальных исследований, рассматриваемых как случайные объекты, описываются некоторым законом распределения. При этом предполагается, что анализ экспериментальных данных позволяет с достаточной степенью точности определить вид и конкретную форму закона распределения или значения его параметров, если нет необходимости в использовании самого закона. Такая информация даёт возможность в полном объёме использовать методы теории вероятностей для решения задач обработки.

Так как действительный закон распределения и значения его параметров неизвестны, то параметрические методы оперируют с их приближениями – статистическими законами распределения и оценками параметров распределения.

Статистическим законом распределения случайной величины называется закон распределения данной величины, установленный с помощью статистических методов обработки данных.

Статистический закон распределения может быть определён в виде статистической функции распределения , статистической плотности распределения или статистического ряда распределения P * (x i ), .

Статистическими оценками параметров закона распределения случайной величины называются приближённые значения данных параметров (статистики), полученные с помощью статистических методов обработки данных.

В дальнейшем статистические оценки для краткости называются просто оценками.

Если некоторый закон распределения характеризуется параметрами a 1 , a 2 ,…, a m , то их оценки будем обозначать в виде , ,…,. Наиболее распространёнными видами параметров законов распределения при обработке экспериментальных данных являются математическое ожидание , дисперсия или среднее квадратическое отклонение , а для системы случайных величин – корреляционный момент или коэффициент корреляции . Иногда используются центральные моменты третьего и четвёртого порядков. Соответственно при обработке данных используются их статистические аналоги – оценки математического ожидания, корреляционного момента и т.д.

Таким образом, если имеется совокупность экспериментальных данных x 1 , x 2 ,…, x n , то и статистический закон распределения, например функция , и оценки его параметров представляют собой некоторые функции этих данных:

, . (2.1.2)

Вид статистик y и f j определяет качество оценок и . В связи с этим возникает ряд проблем, основной из которых является проблема определения условий, при которых оценки (2.1.1) и (2.1.2) могут с требуемой достоверностью представлять теоретические законы распределения и их параметры. Эти условия формируются предельными теоремами теории вероятностей. Именно они служат тем фундаментом параметрических методов обработки экспериментальных данных, на основе которого могут быть получены подходящие оценки законов и параметров распределения наблюдаемых характеристик.

Вторая проблема состоит в выборе достаточной статистики , т.е. такой статистики, которая позволяет в конкретных условиях получать оценки заданного качества. Так как на основе результатов наблюдений x 1 , x 2 ,…, x n может быть образован большой спектр статистик (2.1.1) и (2.1.2), данная проблема сводится к выбору из них оптимальной в определённом смысле статистики. Решение проблемы осуществляется методами теории статистических решений.

Как видно из рис.1.1, к проблеме принятия решений при обработке экспериментальных данных сводится не только задача выбора достаточной статистики. Большинство задач обработки данных в разной степени может быть отнесено к задачам принятия решений. В связи с этим фундаментом параметрических методов обработки служат также принципы принятия статистических решений, на основе которых сформированы критерии принятия оптимальных в определённом смысле решений. Особую роль среди данных принципов играет принцип максимального правдоподобия и вытекающий из него для случая нормального закона распределения метод наименьших квадратов.

В настоящей брошюре рассматриваются вопросы параметрической обработки экспериментальных данных.

2.2. Предельные теоремы теории вероятностей

Использование параметрических методов обработки данных предполагает выявление условий, определяющих справедливость априорных предположений о виде закона распределения исследуемой случайной величины и свойствах его параметров. Эти условия формулируются в виде предельных теорем теории вероятностей. Ниже излагаются содержание и сущность теорем без доказательства, а также некоторые рекомендации по их практическому применению.