Измерительные и оценочные шкалы. Шкала стандартных отклонений


Шкалирование результатов тестирования

Стивенс (1946) определил 4 уровня шкал измерения, отличающиеся по степени, в которой принадлежащие им оценки сохраняют свойства множестве вещественных чисел. Это шкалы:

Номинальная (или номинативная, шкала наименований)

Порядковая

Интервальная

Шкала отношений.

Интерпретация результатов тестирования

В тестах с нормативно-ориентированной интерпретацией главная задача – определение сравнительного места каждого из тестируемых в общей группе испытуемых. Очевидно, что место каждого испытуемого зависит от того, на фоне какой группы его оценивают. Один и тот же результат может быть отнесен к категории довольно высоких, если группа слабая, и к категории довольно низких, если группа – сильная. Именно поэтому необходимо по возможности использовать нормы, отражающие результаты выполнения теста большой репрезентативной выборкой испытуемых.

В тестах с критериально-ориентированной интерпретацией задача - сопоставление учебных достижений каждого ученика с планируемым к усвоению объемом знаний, умений и навыков. В этом случае в качестве интерпретационной системы отсчета используется конкретная область содержания, а не та или иная выборка испытуемых. Основной проблемой является установление проходного балла, отделяющего тех, кто освоил проверяемый материал, от тех, кто не освоил.

Установление норм выполнения теста

Чтобы устранить зависимость интерпретации от результатов других участников тестирования используют специальные нормы выполнения теста, и таким образом, первичный балл отдельного испытуемого сопоставляется с нормами выполнения теста. Нормы – это множество показателей, которые устанавливаются эмпирически по результатам выполнения теста четко определенной выборкой испытуемых. Разработка и процедуры получения этих показателей составляют процесс нормирования (или стандартизации ) теста. Наиболее распространенными нормами являются среднее значение и стандартное отклонение по множеству индивидуальных баллов. Соотнесение первичного балла испытуемого с нормами выполнения позволяет установить место испытуемого в выборке, использованной для стандартизации теста.

Виды шкал, используемых для преобразования первичных баллов

Наиболее известные преобразования первичных баллов:

Процентильный ранг, отражающий процент испытуемых в нормативной группе, результата которых ниже или равен данному значению первичного балла;

Линейная Z -оценка, определяемая как отношение индивидуального отклонения тестового балла к стандартному отклонению по группе испытуемых;

Оценки, которые являются линейным преобразованием z -оценки (Т-шкала, оценки стандартного IQ и т.д.);

Шкалы станайнов и стенов, которые получаются делением шкалы первичных баллов на различные интервалы.

Шкала процентильных рангов

Процентили позволяют установить ранг первичного показателя испытуемого в нормативной группе. Процентильный ранг, соответствующий данному первичному баллу, показывает процент испытуемых в нормативной выборке, результаты которых не выше данного первичного балла.

Процентили не следует смешивать с процентными показателями, представляющими процент правильно выполненных заданий испытуемым группы. В отличие от последнего - первичного - процентиль является производным показателем, указывающим на долю от общего числа испытуемых группы.

Помимо удобств, связанных с простотой интерпретации, процентильные ранги имеют существенные недостатки. Шкала процентильных рангов нелинейна, т.е. в различных областях шкалы первичных баллов увеличение на 1 балл может соответствовать различным увеличениям на шкале процентилей. Поэтому процентили не только не отражают, а даже искажают реальные различия результата выполнения теста.

Поэтому использование процентилей довольно ограничено. В силу удобства и простоты их применяют в основном в нормативно-ориентированных тестах для самооценки знаний учащихся, сообщения результатов самим учащимся и их родителям.

Z-шкала

Осуществляет перевод индивидуальных результатов в стандартную шкалу с общим средним баллом и общей мерой дисперсией. Z- оценку i-го ученика находят по формуле:

Где первичный балл i-го испытуемого; - среднее значение индивидуальных баллов N испытуемых группы (i=1,2,…,N ); -стандартное отклонение по множеству первичных баллов.

Z -шкала является стандартной с нулевым средним значением и единичным стандартным отклонением. С ее помощью можно привести баллы учеников, полученные по различным тестам, к одному удобному для сравнения виду.

Величина Z -оценки равна расстоянию между рассматриваемым первичным баллом и средним значением оценок по группе, выраженному в единицах стандартного отклонения: в пределах скольких стандартных отклонений первичный балл испытуемого находится ниже или выше среднего значения группы.

Z-оценки за редким исключением принимают значения из промежутка (-3,+3). Будучи удобной для научного анализа в процессе разработки новых тестов, Z-шкала является неудобной для практического использования при оценке знаний испытуемых группы. Z-оценки могут принимать дробные и отрицательные значения, с которыми сложно работать при подсчетах и трудно интерпретировать для пользователей тестов. Округление Z-оценок до целых значений не всегда допустимо, т.к. основную цель создания тестов составляет выявление различий в подготовке испытуемых. Отрицательные значения Z-показателя, указывающие на результаты ниже среднего по группе тестируемых учеников, также вызывают определенные неудобства - они вызовут явное неприятие у получивших их учеников. В целом все это делает Z-показатель неудобным для сообщения результатов испытуемым и вынуждает применять специальные методы преобразования для выставления оценок ученикам.

Преобразования Z-оценок

Преобразования Z-оценок имеют целью перевод их в значения, которые легче записывать и объяснять. При этом, используемое преобразование должно быть линейным, чтобы сохранить форму распределения Z-оценок. Общая формула такого преобразования имеет вид

Z 1 =M + ?·Z ,

Где Z 1 – преобразованная оценка, М – новое среднее значение (среднее значение оценок после преобразования), - новое стандартное отклонение. Различные преобразования отличаются значениями М и . Приведем несколько наиболее известных преобразований Z-оценок.

T-шкала (McCall, 1939, для сообщения о результатах выполнения детьми теста ментальных способностей). Выбирается среднее значение М = 50 и стандартное отклонение? = 10. Получим: Z 1 =50 + 10·Z

Шкала СЕЕВ (ETS, для сообщения абитуриентам о результатах приемных экзаменов в колледжи). Выбирается среднее значение М = 500 и стандартное отклонение? = 100. Получим: Z 1 =500 + 100·Z

Шкала IQ (Weshler, 1939, для интерпретации оценок по шкале интеллекта для взрослых). Выбирается среднее значение М = 100 и стандартное отклонение? = 15. Получим: Z 1 =100 + 15·Z

Шкалы станайнов и стенов

Иногда при сообщении результатов используют шкалы, состоящие из отдельных целых чисел, например, от 1 до 9 или от 1 до 10. Это удобно для сообщения тестовых результатов, т.к. такие шкалы обладают очевидной простотой.

Разбиение нормального распределения на 9 интервалов приводит к шкале станайнов, имеющей 9 стандартных единиц. В этой шкале среднее значение равно 5, а стандартное отклонение – примерно 2. При оценке результатов испытуемых по любому тесту с любым числом заданий 4% самых худших результатов присваивается станайн 1, а самых лучших - станайн 9. Следующим за худшими и лучшими 7% результатов присваивают станайны 2 и 8 соответственно. Следующим за ними 12% результатов - станайны 3 и 7. Следующим 17% присваивают станайны 4 и 6 и, наконец, 20% средних результатов соответствует станайн 5.

В шкале стенов, называемой часто шкалой Кэттела, весь массив результатов делится на 10 частей с интервалом 0,5 стандартного отклонения. В шкале стенов среднее арифметическое принимается равным 5,5, а расстояние между двумя соседними стандартными единицами равно 0,5.

Иногда из шкалы станайнов получают одиннадцатибалльную шкалу путем выявления по одному проценту самых сильных и самых слабых испытуемых и присвоения им соответственно максимального и минимального балла.

Установление проходного балла

Известно много методов установления проходного балла при критериально-ориентированном тестировании. Все методы делятся на абсолютные и относительные. Почти все методы вовлекают в процедуру определения проходного балла экспертов. Рассмотрим некоторых из известных методов.

Методы, центрированные на заданиях

Метод Nedelsky (1954) – для закрытых заданий.

Каждый эксперт должен проанализировать все задания и вычеркнуть для каждого задания номера ответов, от которых будет в состоянии отказаться минимально компетентный испытуемый. Для каждого задания эксперт указывает число, обратное числу оставшихся ответов. Например, если в задании с пятью ответами эксперт два вычеркнул, то он укажет число 1/3 для этого задания. Затем все эти обратные величины суммируются. Полученное число может рассматриваться как вероятная оценка минимально компетентного испытуемого этим экспертом. Затем оценки всех экспертов усредняются.

Метод Angoff (1971). Экспертов просят представить себе группу минимально компетентных испытуемых и для каждого задания оценить долю испытуемых этой группы, правильно ответивших на задание. (Это то же самое, как оценить вероятность того, что минимально компетентный испытуемый ответит на задание правильно.) Данные вероятности складываются по каждому эксперту и усредняются по всем экспертам.

Метод Ebel (1972). В этом методе используется двумерная сетка для категоризации каждого задания. Экспертов просят разделить все задания по трудности (предлагается три уровня трудности - задание легкое, средней трудности, трудное) и по релевантности его содержания (предлагается 4 уровня релевантности – существенное, важное, допустимое, спорное). Таким образом, все задания раскладываются по ячейкам этой сетки. Затем эксперты должны оценить, как минимально компетентный испытуемый выполнит задания в каждой ячейке, т.е. указать процент числа заданий в ячейке, на которые он должен ответить правильно.

Методы, центрированные на испытуемых (Nedelsky, 1954; Zieky, Livingston, 1977)

Метод контрастных групп

Эксперты договариваются о том, что является результатом выполнения теста на уровне минимальной компетентности. Затем эксперты делят всех испытуемых на две группы – компетентных и некомпетентных (исключая тех, кто, по их мнению, находится на границе). Далее строятся графики распределения баллов для каждой из группы на одном чертеже. Точка пересечения графиков принимается за проходной балл.

Метод граничных групп

В отличие от предыдущего метода экспертов просят определить испытуемых, кто, по их мнению, находится на границе между двумя контрастными группами, отличающимися по компетентности. Медиана распределения баллов отобранной группы принимается за проходной балл.

Критики данного подхода указывают, что установление проходного балла, основанного на выполнении теста испытуемыми, не соответствует по сути основной цели критериально-ориентированного тестирования, т.к. этот подход не связан с содержанием теста.

Стандартизация

– унификация, приведение к единым нормативам процедуры и оценок теста. Благодаря стандартизации методики достигается сопоставимость полученных результатов у разных испытуемых и появляется возможность выражения тестовых оценок в относительных к выборке стандартизации показателях.

1) Стандартизация – обработка и регламентация процедуры проведения, унификация инструкции, бланков обследования, способов регистрации результатов, условий проведения обследования, характеристика контингентов испытуемых. Строгая периодичность процедуры обследования – обязательное условие обеспечения надежности теста и определения тестовых норм для оценивания результатов в обследования.

2) Стандартизация – преобразование нормальной шкалы оценок в новую шкалу, основанную не на количественных значениях изучаемого показателя, а на его относительном месте в распределении результатов в выборке испытуемых.

Этапы стандартизации

1 этап. Создание единообразной процедуры тестирования.

Она состоит из определения моментов диагностической ситуации.

· Условия тестирования (помещение, освещение и др. внешние факторы).

· Содержание инструкции и особенности ее предъявления (тон голоса, паузы, скорость речи и т.д.).

· Наличие стандартного стимульного материала (например, карты Роршаха).

· Временные ограничения выполнения данного теста.

· Стандартный бланк для выполнения данного теста.

· Учет влияния ситуационных факторов на процесс и результат тестирования.

· Учет влияния поведения диагноста на процесс и результат тестирования

· Учет влияния опыта испытуемого в тестировании.

2 этап. Создание единообразной оценки выполнения теста. С тандартной интерпретации полученных результатов и предварительной стандартной обработки. На этом этапе сравнивается полученный показатель с нормой выполнения этого теста для данного возраста.

3 этап. Определение норм выполнения теста. Нормы разрабатываются для различных возрастов, профессий, полов и т.д.

z-стандартный показатель

Наиболее распространенным преобразование первичных оценок являются центрирование и нормирование посредством среднеквадратических отклонений. Процедура нормирования заключается в переходе к другим единицам измерения. В качестве функции нормирования обычно выступает Z-показатель (стандартный показатель), который выражает отклонение индивидуального результата Х в единицах, пропрорциональных стандартному отклонению.

Более широкое распространение в психодиагностике получили стандартные показатели, рассчитываемые на основе линейного и нелинейного преобразования первичных показателей, распределенных по нормальному или близкому к нормальному закону. При таком расчете проводится z-преобразование оценок. Чтобы определить z-стандартный показатель, определяют разность между индивидуальным первичным результатом средним значением для нормальной группы, а затем делят эту разность на δ нормативной выборки.

Х – сырой балл (количество выполненных заданий)

Мх – средняя величина выполненных заданий по всей выборке

δ – среднеквадратичное отклонение (в зарубежной психологии SD)

Математик Карл Гаусс предложил функцию, описывающию нормальное распределение. График уравнения нормального распределения – симметричная унимодальная колоколообразная кривая (или кривая нормального распределения ).

Назовем среднее арифметическое Мх, а стандартное отклонение δ (сигма малая). При нормальном распределении все изучаемые величины находятся в пределах Мх ± 5 δ.

В пределах Мх ± δ находится 68,26 %, остальные 31,74 % расположены симметрично по 15,87

В пределах Мх ± 2 δ находится 95,44 %

А в пределах Мх ± 3 δ находится 99,72 %

ПРОЦЕНТИЛИ

Процентиль – процентная доля индивидов из выборки стандартизации, результат которых ниже данного первичного показателя. Шкалу процентилей можно рассматривать как совокупность ранговых градаций при числе рангов 100 и отсчете от 1-го ранга, соответствующего самому низкому результату;

50-й процентиль (Р 50 )соответствует медиане распределения результатов

Процентили не следует смешивать с обычными процентными показателями. Последние представляют собой долю правильных решений из общего количества заданий теста в индивидуальном результате. Ранги Р 1 и Р 100 получают соответственно самый низкий и самый высокий результаты из наблюдавшихся в выборке, однако этим рангам могут соответствовать и далеко не нулевой (ни одного правильного решения) или абсолютный (все решения правильны) показатели. Например, при общем количестве 120 заданий минимальный результат, соответствующий первому рангу, может составить 6 правильных решений, в то время как максимальный результат, соответствующий рангу Р 100 , будет составлять 95 правильно решенных заданий. Такая ситуация наблюдается, например, при оценке тестов скорости.

Основной недостаток процентильных шкал состоит в неравномерности единиц измерения. При нормальном распределении отдельные переменные тесно группируются в центре распределения и по мере удаления к краям рассеиваются. Поэтому равным частотам случаев вблизи центра соответствуют более короткие интервалы по оси абсцисс, расположенные по краям распределения оценок. Процентили показывают относительное положение каждого испытуемого в нормальной выборке, но не величину различий между результатами. Это создает некоторые неудобства в интерпретации индивидуальных результатов. Так, разница в первичных показателях, соответствующая интервалу Р 70 Р 80, может составить 10баллов, а различие в количестве правильных решений в интервале рангов Р 50 Р 60 , - лишь 1 – 3 балла.

Вместе с тем процентильные оценки обладают и рядом достоинств. Они легко доступны пониманию пользователей психодиагностической информацией, универсальны по отношению к различным типам методик и легко рассчитываются.

Статистические нормы

А. Статистические нормы. Граничные значения на шкале тестовых баллов, образованные на основе частотного распределения тестовых баллов в выборке стандартизации. Как правило, эти граничные значения отделяют от выборки фиксированный процент испытуемых: (дециль), 25 (квартиль), 50 (медиана). При нормальном распределении статистическая норма описывается с помощью параметров (среднее плюс/минус сигма, или стандартное отклонение). Статистические нормы служат принятию «сравнительный решения» и не дают информации для принятии «нормативных решений»

Б. Возрастные нормы – частные варианты психодиагностических норм, собранные для детей разного возраста.

В. Критериальные нормы - диагностические нормы, в которых задано соответствие между тестовыми баллами по шкале измеряемого свойства и уровнем критериального показателя. В случае критериального поведения критериальные нормы указывают на вероятность появления критериального поведения при данном значении тестового балла.

Г. Школьные нормы разрабатываются на основе тесов школьных достижений или тестов школьных способностей.

Д. Профессиональный нормы. Устанавливаются на основе тестов для различных профессиональных групп.

Е. Локальные нормы . Устанавливаются для узких категорий людей, отличающихся наличием общего признака – возраста, пола, географического района, социоэкономического статуса.

Ж. Национальные нормы. Разрабатываются для представителей данной нации или страны в целом.

СТАНАЙНЫ

Примером нелинейного преобразованной в стандартную шкалу является и шкала станайнов (англ. standart nine – стандартная девятка), где оценки принимают значения от 1 до 9, М = 5, δ = 2

Шкала станайнов получает все большее распространение, сочетая в себе достоинства стандартных шкальных показателей и простоту процентилей. Первичные показатели легко преобразуются в станайны. Для этого испытуемых ранжируют по возрастанию результатов и из них образуют группы с числом лиц, пропорциональным определенным частотам оценок в нормальном распределении тестовых результатов.

СТЭНЫ

При трансформации оценок в шкалу стэнов (от англ. standsrt ten - стандартная десятка) проводится аналогичная процедура с той лишь разницей, что в основании этой шкалы лежат десять стандартных интервалов.

Результаты обследования профессиональных способностей испытуемых заносятся в спе-циальные шкалы, позволяющие в последующем применить психометрический инструментарий для научно обоснованного вывода о предпочтениях того или иного кандидата на вакантную должность.

Измерение - это преобразование определенных свойств и качеств в известные, легко поддаю-щиеся интерпретации и обработке единицы, называемые числами. Измерение есть приписывание чисел свойствам и качествам субъектов и объектов в соответствии с определенными правилами. Шкала - это форма фиксации совокупности признаков изучае¬мого объекта с упорядочиванием их в определенную числовую сис¬тему.

I. Измерительные шкалы – форма фиксации и способ упорядочения совокупности признаков изучаемых психологических явлений или процессов, в определенную числовую сис-тему. Применение шкал связывается с необходимостью качественной и количественной оценки

(с задачей последующего сравнения) оп¬ределенных признаков и переменных.

Признаки и переменные - это измеряемые психологические явления. Такими явлениями могут быть: время решения задачи, количество допущенных ошибок, уровень тревожности, показатель интеллектуальной лабильности, по¬казатель социометрического статуса и др.

Измерения в психологических исследованиях не являются самоцелью, это способ получения новой дополнительной информации, а она нужна для описания изучаемых психологических явлений или процессов, предсказания направлений и тенденций их возможного изменения.

Последовательность работы психолога, исследующего конкретные психологические явления или процессы по статистической обработке эмпирического материала, систематизации и анализу эмпирических (опытных) данных, представляется следующей: прежде всего, необходимо четко выделять исследуемые свойства, качества (например, дать точное определение той или иной исследуемой черты характера, профессионально важного качества человека); выбрать надежно различимые градации (при¬знаки) этих свойств, т.е. установить единицы измере¬ния данного свойства; осуществить приписывание исследуемым качествам или их свойствам чисел (принятых за единицу измерения), которые позволят либо классифицировать, упорядочить измеряемые объекты по указанным свойствам, либо ранжировать их по степени выраженности этих свойств. Для этого используются различные статистические величины: условные баллы, ранги значимости исследуемых величин, факторные «веса» и пр.; измерить на основе избранных единиц счета изучаемое свойство или качество; провести статистическую обработку полученных психологи-ческих показателей.

Результаты статистического материала, собранного по предмету обследования, должны быть соответствующим образом проанализированы с методологических и психологических позиций. Для этого необходимо установить тип измерительной шкалы и допустимые преобразования входящих в нее статистических значений.

В основу классификации измерительных шкал положен признак метрической детерминиро-ванности американского психолога С.С. Стивенса. В соответствии с этим признаком измеритель-ные шкалы принято подразделять на неметрические (шкалы на¬именований, шкалы порядка) и метрические (шкалы интервалов, шкалы отношений).

Шкалы каче¬ственных признаков.

1. В шкале на¬именований (другое название - номинативной) при фиксации качественной информации допусти¬мым является установление соответствующего признака тому или иному классу. Примером номинативной шкалы является дихотомическая шкала, состоя¬щая всего из двух ячеек, например: эксперт "проголосовал "за" или "против". Признак, ко¬торый изменяется по дихотомической шкале наименований, называ¬ется альтернативным. Более сложный вариант номинативной шкалы - классификация из трех и более ячеек, например: "выбор кандидатуры

А - кандидатуры Б - кандидатуры В - кандидатуры Г". При этом между группами признаков может устанавливаться статистическая связь (корреляционный анализ). Однако взаимосвязь между измеряемыми признаками может отсутствовать (табл. 11).

Таблица 11

Пример шкалы наименований

Руководители

Стиль руководства

демократический

либеральный

Для анализа связи данных, измеренных по шкале наименований, чаще всего применяются следующие коэффициенты корреляции: а) коэффициенты 2 ? 2 (4-х) клеточной сопряженности (коэффициент контингенции Q; коэффициент ассоциации?); б) коэффициенты m x n (много-клеточной) сопряженности (коэффициент взаимной сопряжённости Пирсона С; коэффициент взаимной сопряженности Чупрова К).

При выявлении распределений в классах возможно определение абсолютных и относительных частот встречаемости признаков, определение моды и медианы.

1. В шкале порядков допустимо расчленение совокупности признаков на элементы, связанные отношениями: «больше-меньше» (табл. 12).

Таблица 12

Пример шкалы порядков

Результат

Обратный

Способность управлять собой

Неумение управлять собой

Четкие личностные ценности

Размытость личностных ценностей

Четкие личные цели

Смутные личные цели

Продолжающееся саморазвитие

Остановившееся само-развитие

Хорошие навыки решения проблем

Недостаточность таких навыков

Творческий подход

Недостаток творческого подхода

Умение влиять на окру-жающих

Неумение влиять на окружающих

Оценки экспертов чаще всего оформляются в порядковой шкале, т.к., например, при экспертном опросе специалисту легче отвечать на вопросы качественного, сравнительного характера (Иванов предпочтительнее Петрова), чем количественного. При статистической обработке эмпирического материала возможны определение медианы распределения, вычисление коэффициентов ранговой корреляции.

В порядковой шкале должно быть не менее трех классов, например, "положительная реакция - нейтральная реакция - отрицательная реакция" или "подходит для занятия вакантной должности - подходит с оговорками - не подходит" или Х А =Х В; Х А < Х В; Х А > Х В.

Шкалы количественных признаков - это шкалы интервалов и шкалы отношений.

2. Шкала интервалов – это шкала, упорядочивающая, классифицирующая и оце¬нивающая признаки по выраженности измеряемого признака, по сравнению с определенным интервалом (эталоном) по принципу "больше на определенное количество единиц - меньше на определенное количество единиц". Интервалы могут определять уровни развития того или иного измеряемого психологического параметра. Нулевая точка отсчета может устанавливаться произвольно (табл. 13).

Таблица 13

Пример шкалы интервалов

Испытуемые

Коэффициент интеллекта

интеллекта

Степень соответствия

требованиям профессии

Не соответствует

Ниже среднего

Не соответствует

соответствует

Выше среднего

соответствует

Выдающийся

соответствует

В качестве интервала в данной шкале используется стандартное отклонение. Интервальными признаками могут быть: время решения за¬дачи, на основе преобразования сырых баллов в еди-ницы стандартного отклонения; стандартные показатели: IQ, Т – баллы, процентили и др.

Допустимые преобразования: вычисления средних арифметических значений, стандартных отклонений; коэффициентов взаимосвязи двух переменных (коэффициент корреляции Спирмена r s ; мера Гудмена и Краскала; мера Кендэлла; мера d Сомерса; COV – ковариация; коэффи-циента линейной корреляции r xy Пирсона; коэффициента взаимосвязи нескольких переменных: коэффициент конкордации W;

4. В шкале отношений классифицируются признаки пропорционально степени выраже-ности измеряемого свойства, а числовые значения присваиваются измеряемым признакам по принципу подобия, пропорциональности, равенства-неравенства и пр. В шкале отношений имеется значимая нулевая точка, которая указывает на полное отсутствие измеряемого свойства, качества, а признаки имеют числовое пропорциональное соотношение (например, 2 так относится к 4, как 4 к 8, и т.п.).

Примечание. Возможности человеческой психики столь велики, что трудно себе представить абсолютный нуль в какой-либо измеряемой психологической переменной. Абсолютная глупость и абсолютная честность - понятия скорее житейской психологии. То же относится и к установлению равных отношений: только метафора обыденной речи допускает, чтобы Иванов был в 2 раза (3, 5, 10) умнее Петрова или наоборот.

Допустимые преобразования: по отношению к показателям частот возможно применять все арифметические операции; единица измерения в этой шкале отношений - 1 наблюдение, 1 выбор, 1 реакция и т.п.

Иногда в одном обследовании приходится результаты представлять в различных шкалах. Мы это увидим на следующем примере (табл. 14).

Таблица 14

Соотношение результатов оценки вербального мышления, выраженное в различных шкалах

Номера

испытуемых

Интервальные оценки

Ранговые

оценки

Номинальные оценки

Тип шкалы:

Интервальная

порядка

наименований

По форме фиксации эмпирических данных измерительные шкалы подразделяют на: вербальные, числовые, графические.

Вербальные шкалы являются формой фиксации суждений о наличии (есть - нет) или степени выраженности (в том числе и в виде полярных определений) изучаемого признака (например, экстраверт – интроверт и т.п.).

В числовых шкалах измеряемые в обследовании данные представлены посредством числовых значений, что является наиболее удобным для учета и статистической обработки эмпирического материала.

Шкалы графические позволяют на осях абсцисс и ординат наглядно отобразить динамику развития измеряемого признака, увидеть тенденции его изменения (рис. 16).

Рис. 16. Гистограмма

Гистограмма - это график в форме последовательности столбцов, каждый из которых опирается на один разрядный интервал, а высота его отражает число случаев, или частоту в этом разряде.

Графическое представление данных может осуществляться в виде столбиковой или круговой диаграммы или гистограммы (рис. 17).

Рис. 17. Столбиковая и круговая диаграммы распределения вероятностей классифицированных событий

Оценки шкальные – это способ оценки результатов тестирования путем установления его места на специальной шкале. В психодиагностике используются различные формы оценивания результатов тестирования путем соотнесения с групповыми данными и установления его места на специальной шкале.

Одним из наиболее распространенных способов оценки является процентиль. Процентиль отражает процентную долю индивидов в диапазоне ранговых градаций от 1 до 100, где 50-й процентиль соответствует медиане (Ме). Для определения процентиля используется следующая формула:

где f com - накопленная частота оценок, меньших по значению наблюдаемой оценки, для которой рассчитывается процентиль; f - частота преобразовываемой оценки; N - общее число оценок (рис. 18).

Рис. 18. Распределение результатов в процентилях

Недостаток процентильных шкал состоит в неравномерности единиц измерения. При нормальном распределении большинство результатов тестирования группируются в центре распределения и по мере удаления к краям рассеиваются.

В целях преодоления этого недостатка проводится стандартизация тестовых оценок, что позволяет сопоставить результаты у различных испытуемых в показателях, соотносимых с выборкой.

Z-оценки - отношение разности значения Х и среднего значения к стандартному отклонению (рис. 19).

Рис. 19. Распределение результатов в Z-баллах

Преобразование результатов тестирования в Z-оценки производится по формуле:

где Х 1 – индивидуальный результат испытуемого, - среднее арифметическое значение, ? – стандартное отклонение.

Неудобством Z - оценок является наличие отрицательных значений и дроби (рис. 20).

Т – баллы

Рис. 20. Распределение результатов в Т-баллах

Т - баллы есть нормальное распределение оценок со средним значением 50 и стандартным отклонением 10. Если распределение наблюдаемых оценок является нормальным, преобразование производится по формуле:

где Х - наблюдаемая оценка; М - среднее значение наблюдаемых оценок; ? х - стандартное отклонение наблюдаемых оценок.

Если наблюдаемые оценки не подчиняются нормальному распределению, то они переводятся в процентили, затем по таблице нормального распределения в Z–оценки, для которых используется формула: Т = 10 z + 50 (табл. 15).

Таблица 15

Зависимость между процентилями, Z - оценками и Т – оценками

Процентиль

Т-оценка

Процентиль

Т-оценка

Результаты обследуемых могут быть отражены в Стэнах (рис. 21).

Рис. 21. Шкала Стэнов

Шкала Стэнов используется в целях стандартизации психологических показателей, имеющих небольшое число качественно различимых градаций.

Стэны - это единицы десятибалльной шкалы со средним значением 5,5 и стандартным отклонением 2. Для перевода абсолютных оценок в стэны используется формула:

где? с - среднеквадратическое отклонение стэновой шкалы, равное 2; ? х - среднеквадратическое отклонение показателей методики в выборке стандартизации; Хi - текущее значение показателя;

Мх - среднее значение показателей методики в выборке стандартизации; Мc - среднее значение стэновой шкалы, равное 5,5;

Шкала стенайнов является общепринятым линейным преобразованием показателей, в которой оценки принимают значения от 1 до 9, среднее значение равно 5,0, а среднеквадра-тическое отклонение? = 2,0 (рис. 22).

Рис. 22. Шкала стенайнов

Испытуемые ранжируются по возрастанию результатов, и из них образуются группы с числом лиц, соответствующим определенным частотам оценок в нормальном распределении тестовых результатов.

Первичные показатели преобразуются в стенайны упорядочиванием их числовых значений в соответствии с нормальной кривой процентов распределения первичных оценок, приведенной в таблице 16.

Таблица 16

Преобразование в стенайны

Процент обследованных в выборке стандартизации

Самые низкие и самые высокие оценки будут отнесены к 1 и 9 результатам.

Для сопоставления результатов измерения одного и того же психологического показателя (признака), после приведения результата к какой либо единой шкале измерений (например, шкале стэнов), О.П. Елисеевым предложена формула пересчета результатов и отображения их на единой шкале 20-80.

Пересчет результатов тестирования в таблицу 20-80 осуществляется по каждому изучаемому параметру отдельно с использованием следующей формулы:

Где: - Сырые баллы – количество баллов, как полученных за решение каждого субтеста в отдельности, так и суммарный результат по всему тесту; 60 - диапазон видимой шкалы 20-80; Максимум – максимально возможное количество баллов, которое может набрать испытуемый (по каждому субтесту и по тесту в целом); 20 - диапазон невидимой шкалы 20-80 (рис. 23).

Рис. 23. Гистограмма результатов теста «ШТУР»

Таковы основные психомиетрические процедуры статистической обработки, позволяющие получить дополнительную информацию об особенностях и тенденциях результатов обследования.

информация при тестировании обучаемого – его первичные ("сырые") баллы. Они наглядны, просты, но существенно зависят, например, от трудности заданий. Необходима более объективная шкала оценок подготовленности обучающихся, необходимо подтверждение уровня обученности на различных тестах, с заранее определенным уровнем трудности заданий.

Также следует избавиться и от нелинейности первичных баллов по отношению к уровню подготовленности.

Пример. Шкала оценок в школе позволяет заключить лишь то, что ученик Иванов учится лучше ученика Петрова. Каковы их различия, успехи, усилия и т.д.? – Такая шкала ответа на подобные вопросы не дает. Аналогично, первичные баллы лишь упорядочивают участников тестирования.

В таких порядковых шкалах основные статистики – медиана , квантили и ранговая корреляция.

Позиционирование испытуемых на числовой оси согласно результатам испытаний осуществляется различным образом. Поэтому используются различные типы шкал оценок, например, следующие.

Шкала итоговой оценки – шкала , определяемая по минимальной и максимальной оценкам (баллам), это линейное преобразование отрезка от минимальной до максимальной оценки; например, шкала 100-балльная.

Шкала нормативная – шкала , вводимая на основе справедливости гипотезы о нормальном законе распределения баллов; например, перевод в нормативную шкалу предполагает, что знания испытуемых в их произвольной выборке подчиняются нормальному закону распределения, следовательно, равным отрезкам под кривой нормального распределения соответствуют равные количества верных ответов.

Шкала порядковая, качественная, отношений – шкала для введения отношений порядка в совокупность шкалируемых объектов, систем и выполнения всех преобразований, не нарушающих это правило порядка; например, шкала оценок в средней школе – 2, 3, 4, 5 и в высшей школе – "неудовлетворительно", "удовлетворительно", "хорошо", "отлично".

Шкала номинальная (наименований) используется экспертами при классификации эмпирических объектов измерения. Такая шкала применяется тогда, когда педагогическое измерение группирует обучающихся без установления порядка следования групп; например, деление студентов на группы сдавших и не сдавших зачет.

Пример. Если тестируемый за правильный (неправильный) ответ по заданию получает 1 (0), то результаты тестирования представляются в номинальной шкале.

Шкала интервальная – шкала , в которой допустимы лишь линейные функции преобразования, и в которых часто нельзя отметить ни начало, ни конец, ни единицу измерения (градацию) шкалы; например, температурные шкалы Фаренгейта и Цельсия связаны зависимостью: С = 5/9 (F – 32), С – температура (в градусах) по шкале Цельсия, F – температура по шкале Фаренгейта.

Интервальная шкала – шкала количественная, для упорядочения данных (объектов) согласно отношениям эквивалентности, порядка и аддитивности. В ней определена метрика (начало отсчета, единица измерения и понятие расстояния между данными, объектами), поэтому решаема задача сравнения результатов тестирования.

У качественных шкал низкая точность измерения, у количественных – выше объективность.

Структура типов и уровней измерения приведена на рис. 6.1 .


Рис. 6.1.

Часто используемая в тестологии шкала логитов переводится обычно в шкалу тестовых баллов.

Пример. Если участник ЕГЭ не выполнил ни одного задания и получил 0 первичных баллов, он получает ноль тестовых баллов, если же он выполнил все задания и получил максимально возможный первичный балл, он получает 100 тестовых баллов. Тестовые баллы остальных участников ЕГЭ вычисляются с помощью линейного преобразования, переводящего отрезок шкалы логитов, ограниченный оценкой в логитах, соответствующей одному первичному баллу и оценкой в логитах, соответствующей первичному баллу, на единицу меньшему максимально возможного в отрезок на шкале тестовых баллов от шести до девяноста четырех включительно. Например, формула перевода шкалы логитов в шкалу тестовых баллов может иметь вид:

где Т – тестовый балл, х – оценка уровня подготовленности участника ЕГЭ в логитах, x min - оценка в логитах, соответствующая одному первичному баллу, x max - оценка в логитах, соответствующая первичному баллу, на единицу меньшему, чем максимально возможный балл, [x] – целая часть х.

В нормативно-ориентированных тестах ставится задача определения рейтинга тестируемых в группе. Это место , естественно, зависит от "фона" - группы. Используют нормы, отражающие результаты тестирования для представительной выборки испытуемых.

Пример. Обычно для качественного такого теста около 70% результатов расположены в центре распределения ("под колоколом" кривой распределения) и имеют небольшую ошибку измерений, примерно по 5% (самых слабых и самых сильных результатов) в пологой части кривой распределения, они могут иметь очень большую ошибку измерения. Профессиональное тестирование, при обработке, эти концы или их части отбрасывает.

В критериально-ориентированных тестах ставится задача: сопоставить учебные достижения каждого испытуемого с запланированным для усвоения объемом знаний (умений, навыков). Это больше зависит уже от конкретно проверяемого содержания ГОС (программы).

Для устранения зависимости интерпретации результата тестированного от результатов в группе участников тестирования используются эмпирически, экспертно устанавливаемые нормы выполнения теста, с которыми сопоставляются первичные баллы конкретного испытуемого. Это процесс стандартизации теста, например, по среднему и стандартному отклонению индивидуальных баллов.

Часто используемые преобразования "сырых" баллов:

  • процентильное , отражающее процент испытуемых из нормативной группы, результаты которых не выше данного значения первичного балла;
  • Z-оценка , линейная оценка – отношение индивидуального отклонения тестовых баллов к стандартному отклонению по баллам всей группы испытуемых, а также линейные преобразования Z-оценки (Т-шкала и др.);
  • шкалы станайнов и стенов (шкала Кэттела) , получаемые делением шкалы первичных баллов на ряд интервалов.

Процентили устанавливают ранг показателя испытуемого в нормативной группе, показывая процент испытуемых в нормативной выборке, имеющих результаты не выше данных первичных баллов. Шкала процентилей нелинейна (нелинейно изменяется отклик на изменение в шкале первичных баллов на один балл), поэтому она может даже искажать реальную ситуацию.

Так называемая Z- шкала переводит индивидуальные результаты в стандартную шкалу, которая характерна двумя основными общими параметрами: средним баллом и дисперсией. Z-оценку i-го тестированного находят по формуле:

где x i первичные баллы испытуемого; –

Психодиагностика: конспект лекций Алексей Сергеевич Лучинин

2. Шкальные оценки

2. Шкальные оценки

Шкальные оценки – способ оценки результата теста путем установления его места на специальной шкале. Шкала содержит данные о внутригрупповых нормах выполнения данной методики в выборке стандартизации. Так, индивидуальные результаты выполнения заданий (первичные оценки испытуемых) сравниваются с данными в сопоставимой нормативной группе (например, результат, достигнутый учеником, сравнивается с показателями детей того же возраста или года обучения; результат исследования общих способностей взрослого сопоставляется со статистически обработанными показателями репрезентативной выборки лиц в заданных возрастных пределах).

Шкальные оценки в этом смысле имеют четко определенное количественное содержание и могут быть использованы при статистическом анализе. Одной из распространенных в психологической диагностике форм оценки результата теста путем соотнесения с групповыми данными является расчет процентилей .

Процентиль – процентная доля индивидов из выборки стандартизации, результат которых ниже данного первичного показателя. Шкалу процентилей можно рассматривать как совокупность ранговых градаций (см. ранговая корреляция) при числе рангов 100 и отсчете от 1-го ранга, соответствующего самому низкому результату; 50-й процентиль (PSQ) соответствует медиане (см. меры центральной тенденции) распределения результатов, Р ›50 и Р ‹50 соответственно представляют ранги результатов выше и ниже среднего уровня результата.

Процентили не следует смешивать с обычными процентными показателями. Последние представляют собой долю правильных решений из общего количества заданий теста в индивидуальном результате (см. первичные оценки). Ранги Р, и Р 100 получают соответственно самый низкий и самый высокий результаты из наблюдавшихся в выборке, однако этим рангам могут соответствовать и далеко не нулевой (ни одного правильного решения) или абсолютный (все решения правильны) показатели (например, при общем количестве 120 заданий минимальный результат, соответствующий первому рангу, может составить 6 правильных решений, в то время как максимальный результат, соответствующий рангу Р 100 , будет составлять 95 правильно решенных заданий). Такая ситуация наблюдается, например, при оценке тестов скорости.

Основной недостаток процентильных шкал состоит в неравномерности единиц измерения. При нормальном распределении отдельные переменные тесно группируются в центре распределения и по мере удаления к краям рассеиваются. Поэтому равным частотам случаев вблизи центра соответствуют более короткие интервалы по оси абсцисс, расположенные по краям распределения оценок. Процентили показывают относительное положение каждого испытуемого в нормальной выборке, но не величину различий между результатами. Это создает некоторые неудобства в интерпретации индивидуальных результатов. Так, разница в первичных показателях, соответствующая интервалу Р 70 -Р 80 , может составить 10 баллов, а различие в количестве правильных решений в интервале рангов Р 50 -Р 60 – лишь 1–3 балла.

Вместе с тем процентильные оценки обладают и рядом достоинств. Они легкодоступны пониманию пользователей психодиагностической информацией, универсальны по отношению к различным типам методик и легко рассчитываются.

Процентильные оценки не относятся к типичным шкальным показателям. Более широкое распространение в психодиагностике получили стандартные показатели , рассчитываемые на основе линейного и нелинейного преобразования первичных показателей, распределенных по нормальному или близкому к нормальному закону. При таком расчете проводится г-преобразование оценок (см. стандартизация, нормальное распределение). Чтобы определить 2-стандартный показатель, определяют разность между индивидуальным первичным результатом и средним значением для нормальной группы, а затем делят эту разность на а нормативной выборки. Полученная таким образом шкала z имеет среднюю точку М = 0, отрицательные значения обозначают результаты ниже среднего и убывают по мере удаления от нулевой точки; положительные значения обозначают, соответственно, результаты выше среднего. Единица измерения (масштаб) в шкале z равна 1а стандартного (единичного) нормального распределения.

Для преобразования полученного при стандартизации распределения первичных нормативных результатов в стандартную z-шкалу необходимо исследовать вопрос о характере эмпирического распределения и степени его согласованности с нормальным. Поскольку для большинства случаев значения показателей в распределении умещаются в пределах М ± 3?, единицы измерения простой z-шкалы слишком велики. Для удобства оценивания применяется еще одно преобразование типа z = (x – ‹x›) / ?. Примером такой шкалы могут быть оценки тестовой батареи SAT(СЕЕВ) методики для оценки способности к обучению (см. тесты достижений). Эта r-шкала пересчитана таким образом, что средней точке соответствует значение 500, а? = 100. Другим аналогичным примером является шкала Векслера для отдельных субтестов (см. шкала измерения интеллекта Векслера, где М = 10, ? = 3).

Наряду с определением места индивидуального результата в стандартном распределении групповых данных введение ШО направлено и на достижение другой важнейшей цели – обеспечение сопоставимости количественных результатов различных тестов, выраженных в стандартных шкалах, возможности их совместных интерпретаций, сведение оценок к единой системе.

В случае, если оба распределения оценок в сравниваемых методиках близки к нормальному, вопрос о сопоставимости оценок решается довольно просто (в любом нормальном распределении интервалам М ± n? соответствует одинаковая частота случаев). Для обеспечения сопоставимости результатов, принадлежащих к рас-пределениям другой формы, применяются нелинейные преобразования , позволяющие придать распределению форму заданной теоретической кривой. В качестве такой кривой обычно используется нормальное распределение. Как и 160–150 в простом г-преобразовании, нормализованным стандартным показателям можно придать любую желаемую форму. К примеру, умножив такой нормализованный стандартный показатель на 10 и прибавив константу 50, получаем Т-показатель (см. стандартизация, миннесотский многоаспектный личностный опросник).

Примером нелинейно преобразованной в стандартную шкалу является и шкала станайнов (от англ. standart nine – «стандартная девятка»), где оценки принимают значения от 1 до 9, М = 5, ?=2.

Шкала станайнов получает все большее распространение, сочетая в себе достоинства стандартных шкальных показателей и простоту процентилей. Первичные показатели легко преобразуются в станайны. Для этого испытуемых ранжируют по возрастанию результатов и из них образуют группы с числом лиц, пропорциональным определенным частотам оценок в нормальном распределении тестовых результатов (табл. 14).

Таблица 14

Перевод первичных тестовых результатов в шкалу станайнов

При трансформации оценок в шкалу стэнов (от англ. standart ten – «стандартная десятка») проводится аналогичная процедура с той лишь разницей, что в основании этой шкалы лежат десять стандартных интервалов. Пусть в выборке стандартизации 200 человек, тогда по 8 (4 %) испытуемых, имеющих самые низкие и самые высокие оценки, будут отнесены к 1 и 9 станайнам соответственно. Процедура продолжается до заполнения всех интервалов шкалы. Соответствующие процентным градациям баллы по тесту, таким образом, будут упорядочены в шкалу, соответствующую стандартным частотам распределения результата.

Одной из наиболее распространенных форм шкальных оценок в тестах интеллекта является стандартный IQ-показатель (М = = 100, ? = 16). Эти параметры для стандартной шкалы оценок в психодиагностике выбраны в качестве эталонных. Существует довольно много шкал, опирающихся на стандартизацию; их оценки легко сводимы друг к другу. Шкалирование, в принципе, допустимо и желательно для широкого круга методик, применяемых в диагностических и исследовательских целях, в том числе и для методик, результаты которых выражены в качественных показателях. В этом случае для стандартизации можно использовать перевод номинативных шкал в ранговые (см. шкалы измерительные) или разработать дифференцированную систему количественных первичных оценок.

Следует отметить, что при всей простоте, наглядности шкальные показатели являются статистическими характеристиками, позволяющими лишь указать на место данного результата в выборке из множества аналогичных по характеру измерений. Шкальный показатель даже для традиционного психометрического инструмента является лишь одной из форм выражения показателей теста, используемых при интерпретации результатов обследования. Количественный анализ при этом должен всегда проводиться в комплексе с многосторонним качественным изучением причин возникновения данного тестового результата с учетом как комплекса сведений о личности испытуемого, так и данных о текущих условиях обследования, надежности и валидности методики. Гипертрофированные представления о возможности обоснованных заключений лишь по количественным оценкам приводили к многим ошибочным представлениям в теории и практике психологической диагностики.

Из книги Медицинская статистика автора Ольга Ивановна Жидкова

22. Методика групповой оценки физического развития. Акселерация Оценка физического развития коллектива производится путем анализа возрастных изменений средних величин их средних квадратических отклонений, годичных приростов показателей в различные возрастные

Из книги Пропедевтика детских болезней автора О. В. Осипова

8. Цент ильный метод оценки физического развития Учитывая наблюдающееся варьирование различных показателей физического развития ребенка, нужно знать так называемое нормальное, или гаусс-лапласовское, распределение. Характеристиками этого распределения являются

Из книги Общая гигиена автора Юрий Юрьевич Елисеев

50. Методы оценки физического развития детей и подростков Метод сигмальных отклоненийПоказатели развития индивидуума сравниваются со средними показателями, характерными для соответствующей возрастно-половой группы, разница между ними выражается в долях

Из книги Общая гигиена: конспект лекций автора Юрий Юрьевич Елисеев

51. Методы оценки физического развития детей и подростков (продолжение) На втором этапе определяют морфофункциональ-ное состояние по показателям массы тела, окружности груди в дыхательной паузе, мышечной силе кистей рук и жизненной емкости легких (ЖЕЛ). В качестве

Из книги Пропедевтика детских болезней: конспект лекций автора О. В. Осипова

ЛЕКЦИЯ № 14. Физическое развитие детей и подростков, методы их оценки Показатели физического развития Для полного представления о состоянии здоровья подрастающего поколения, кроме заболеваемости, демографических данных, необходимо еще изучение ведущего критерия

Из книги Развитие базовых познавательных функций с помощью адаптивно-игровых занятий автора Ирина Константинова

Методы оценки физического развития детей и подростков При разработке и выборе методов оценки физического развития необходимо прежде всего учитывать основные закономерности физического развития растущего организма:1) гетероморфность и гетерохронность развития;2)

Из книги Стройность с детства: как подарить своему ребенку красивую фигуру автора Аман Атилов

5. Показатели физического развития детей. Центильный метод оценки физического развития Учитывая наблюдающееся варьирование различных показателей физического развития ребенка, нужно знать так называемое нормальное, или гаусс-лапласовское, распределение.

Из книги Ваш ребенок от рождения до 6 лет. Выявление отклонений в развитии и их коррекция. Книга, необходимая в каждой семье автора Леонид Ростиславович Биттерлих

Способы оценки результативности работы В работе с детьми, имеющими тяжелые нарушения развития, используется качественный анализ нарушений и происходящей динамики. Так, например, для специалиста не столько важно количество освоенных ребенком слов, сколько его умение

Из книги Формирование здоровья детей в дошкольных учреждениях автора Александр Георгиевич Швецов

Критерии оценки гибкости Для определения эффективности учебно-тренировочного процесса необходимо использовать критерии оценки гибкости с учетом ее разновидностей и проявлений. Каждому проявлению гибкости должны соответствовать определенные критерии оценки.

Из книги Психотерапия семейно-сексуальных дисгармоний автора Станислав Кратохвил

Способы оценки правильного развития недоношенного ребенка и близнецов Вы можете использовать два нижеприведенных способа для того, чтобы проверить, отстает ли ваш недоношенный ребенок в развитии от доношенного ребенка так, как это ему положено в норме, или имеется

Из книги Энциклопедия Амосова. Алгоритм здоровья автора Николай Михайлович Амосов

Методика оценки физического развития детей В настоящее время наиболее распространенным способом оценки физического развития является метод взаимосвязи антропометрических признаков (по шкалам регрессии), которые обеспечивают гармоничность, пропорциональность их

Из книги Диетология: Руководство автора Коллектив авторов

Из книги Мой инсульт был мне наукой. История собственной болезни, рассказанная нейробиологом автора Джилл Болти Тейлор

Экспертные оценки психики В социологических опросах через газеты в 1990 г. я попробовал получить модель личности конкретного респондента. Для этого ему задавались вопросы с градуальными вариантами ответов. Они позволяли определить точки на моделях: притязания, плату,

Из книги автора

Комплексные методы оценки нутриционного статуса Как следует из вышеизложенного, не существует отдельных маркеров, которые позволяют выявить наличие и степень белково-энергетической недостаточности. По рекомендациям Европейского общества парентерального и

Из книги автора

Приложение А Десять вопросов для оценки моего состояния 1. Проверили ли вы мое зрение и слух, чтобы убедиться, что я не перестала слышать и видеть?2. Различаю ли я цвета?3. Вижу ли я мир трехмерным?4. Есть ли у меня хоть какое-то чувство времени?5. Все ли части своего тела я