Теоретические основы тестирования.

Области применения, цели и задачи тестирования ПО разнообразны, поэтому тестирование оценивается и объясняется по-разному. Иногда и самим тестировщикам бывает сложно объяснить, что такое тестирование ПО "as is". Возникает путаница.

Для распутывания этой путаницы Алексей Баранцев (практик, тренер и консалтер в тестировании ПО; выходец из Института системного программирования Российской академии наук) предваряет свои тренинги по тестированию вводным видео про основные положения тестирования.

Мне кажется, что в этом докладе лектор смог наиболее адекватно и взвешенно объяснить «что такое тестирование» с точки зрения ученого и программиста. Странно, что этот текст еще не появлялся на хабре.

Привожу здесь сжатый пересказ этого доклада. В конце текста есть линки на полную версию, а также на упомянутое видео.

Основные положения тестирования

Уважаемые коллеги,

Сначала попробуем понять, чем тестирование НЕ является.

Тестирование не разработка ,

Даже если тестировщики умеют программировать, в том числе и тесты (автоматизация тестирование = программирование), могут разрабатывать какие-то вспомогательные программы (для себя).

Тем не менее, тестирование - это не деятельность по разработке программного обеспечения.

Тестирование не анализ ,

И не деятельность по сбору и анализу требований.

Хотя, в процессе тестирования иногда приходится уточнять требования, а иногда приходится их анализировать. Но эта деятельность не основная, скорее, это приходится делать просто по необходимости.

Тестирование не управление ,

Несмотря на то, что во многих организациях есть такая роль, как «тест-менеджер». Конечно же, тестировщиками надо управлять. Но само по себе тестирование управлением не является.

Тестирование не техписательство ,

Однако тестировщикам приходится документировать свои тесты и свою работу.

Тестирование нельзя считать ни одной из этих деятельностей просто потому, что в процессе разработки (или анализа требований, или написания документации для своих тестов) всю эту работу тестировщики делают для себя , а не для кого-то другого.

Деятельность значима только тогда, когда она востребована, то есть тестировщики должны что-то производить «на экспорт». Что они делают «на экспорт»?

Дефекты, описания дефектов, или отчеты о тестировании? Частично это правда.

Но это не вся правда.

Главная деятельность тестировщиков

заключается в том, что они предоставляют участникам проекта по разработке программного обеспечения отрицательную обратную связь о качестве программного продукта.

«Отрицательная обратная связь» не несет какой-то негативный оттенок, и не означает, что тестировщики делают что-то плохое, или что они делают что-то плохо. Это просто технический термин, который обозначает достаточно простую вещь.

Но эта вещь очень значимая, и, наверное, единственная наиболее значимая составляющая деятельности тестировщиков.

Существует наука - «теория систем ». В ней определяется такое понятие как «обратная связь».

«Обратная связь» это некоторые данные, которые с выхода попадают обратно на вход, или какая-то часть данных, которые с выхода попадают обратно на вход. Эта обратная связь может быть положительной и отрицательной.

И та, и другая разновидности обратной связи равноценно важны.

В разработке программных систем положительной обратной связью, конечно же, является какая-то информация, которую мы получаем от конечных пользователей. Это запросы на какую-то новую функциональность, это увеличение объема продаж (если мы выпускаем качественный продукт).

Отрицательная обратная связь тоже может поступать от конечных пользователей в виде каких-то негативных отзывов. Либо она может поступать от тестировщиков.

Чем раньше предоставляется отрицательная обратная связь, тем меньше энергии необходимо для модификации этого сигнала. Именно поэтому тестировать нужно начинать как можно раньше, на самых ранних стадиях проекта, и предоставлять эту обратную связь и на этапе проектирования, и еще, может быть, раньше, еще на этапе сбора и анализа требований.

К слову, отсюда и произрастает понимание того, что тестировщики не отвечают за качество. Они помогают тем, кто за него отвечает.

Синонимы термина «тестирование»

С точки зрения того, что тестирование - это предоставление отрицательной обратной связи, всемирно известная аббревиатура QA (англ. Quality Assurance - Обеспечение качества) синонимом термина «тестирование» уж совершенно точно НЕ является.

Нельзя считать обеспечением качества простое предоставление отрицательной обратной связи, ведь Обеспечение - это некоторые позитивные меры. Подразумевается, что в этом случае мы именно обеспечиваем качество, своевременно предпринимаем какие-то меры для того, чтобы качество разработки ПО повысилось.

А вот «контроль качества» - Quality Control, можно считать в широком смысле синонимом для термина «тестирование», потому что контроль качества это и есть предоставление обратной связи в самых разных ее разновидностях, на самых разных этапах программного проекта.

Иногда тестирование подразумевается как некоторая отдельная форма контроля качества.

Путаница приходит из истории развития тестирования. В разное время под термином «тестирование» подразумевались различные действия, которые можно разделить на 2 больших класса: внешние и внутренние.

Внешние определения

Определения, которые в разное время дали Майерс, Бейзер, Канер, описывают тестирование как раз с точки зрения его ВНЕШНЕЙ значимости. То есть, с их точки зрения, тестирование - это деятельность, которая предназначена ДЛЯ чего-то, а не состоит из чего-то. Все три этих определения можно обобщить как предоставление отрицательной обратной связи.

Внутренние определения

Это определения, которые приведены в стандарт терминологии, используемой в программной инженерии, например, в стандарт де-факто, который называется SWEBOK.

Такие определения конструктивно объясняют, ЧТО представляет из себя деятельность по тестированию, но не дают ни малейшего представления о том, ДЛЯ ЧЕГО нужно тестирование, для чего потом будут использоваться все полученные результаты проверки соответствия между реальным поведением программы и ее ожидаемым поведением.

тестирование - это

  • проверка соответствия программы требованиям,
  • осуществляемая путем наблюдения за ее работой
  • в специальных, искусственно созданных ситуациях, выбранных определенным образом.
Отсюда и далее будем считать это рабочим определением «тестирования».

Общая схема тестирования примерно следующая:

  1. Тестировщик на входе получает программу и/или требования.
  2. Он с ними что-то делает, наблюдает за работой программы в определенных, искуственно созданных им ситуациях.
  3. На выходе он получает информацию о соответствиях и несоответствиях.
  4. Далее эта информация используется для того, чтобы улучшить уже существующую программу. Либо для того, чтобы изменить требования к еще только разрабатываемой программе.

Что такое тест

  • Это специальная, искусственно созданная ситуация, выбранная определенным образом,
  • и описание того, какие наблюдения за работой программы нужно сделать
  • для проверки ее соответствия некоторому требованию.
Не нужно считать, что ситуация – это нечто одномоментное. Тест может быть достаточно длинным, например, при тестировании производительности вот эта искусственно созданная ситуация это может быть продолжающаяся в течение достаточно продолжительного времени нагрузка на систему. А наблюдения, которые нужно при этом делать, это набор различных графиков или метрик, которые мы измеряем в процессе выполнения этого теста.

Разработчик тестов занимается тем, что он из огромного потенциально бесконечного набора тестов выбирает некоторый ограниченный набор.

Ну и таким образом мы можем заключить, что тестировщик делает в процессе тестирования две вещи.

1.Во-первых, он управляет выполнением программы и создает эти самые искусственные ситуации, в которых мы собираемся проверять поведение программы.

2.И, во-вторых, он наблюдает за поведением программы и сравнивает то, что он видит с тем, что ожидается.

Если тестировщик автоматизирует тесты, то он не сам наблюдает за поведением программы - он делегирует эту задачу специальному инструменту или специальной программе, которую он сам написал. Именно она наблюдает, она сравнивает наблюдаемое поведение с ожидаемым, а тестировщику выдает только некоторый конечный результат - совпадает ли наблюдаемое поведение с ожидаемым, или не совпадает.

Любая программа представляет собой механизм по переработке информации. На вход поступает информация в каком-то одном виде, на выходе информация в некотором другом виде. При этом входов и выходов у программы может быть много, они могут быть разными, то есть у программы может быть несколько разных интерфейсов, и эти интерфейсы могут иметь разные виды:

  • Пользовательский интерфейс (UI)
  • Программный интерфейс (API)
  • Сетевой протокол
  • Файловая система
  • Состояние окружения
  • События
Наиболее распространенные интерфейсы это
  • пользовательский,
  • графический,
  • текстовый,
  • консольный,
  • и речевой.
Используя все эти интерфейсы, тестировщик:
  • каким-то образом создает искусственные ситуации,
  • и проверяет в этих ситуациях как программа себя ведет.

Вот это и есть тестирование.

Другие классификации видов тестирования

Чаще всего используется разбиение на три уровня, это
  1. модульное тестирование,
  2. интеграционное тестирование,
  3. системное тестирование.
Под модульным тестированием обычно подразумевается тестирование на достаточно низком уровне, то есть тестирование отдельных операций, методов, функций.

Под системным тестированием подразумевается тестирование на уровне пользовательского интерфейса.

Иногда используются также некоторые другие термины, такие, как «компонентное тестирование», но я предпочитаю выделять именно эти три, по причине того, что технологическое разделение на модульное и системное тестирование не имеет большого смысла. На разных уровнях могут использоваться одни и те же инструменты, одни и те же техники. Разделение условно.

Практика показывает, что инструменты, которые позиционируются производителем как инструменты модульного тестирования, с равным успехом могут применяться и на уровне тестирования всего приложения в целом.

А инструменты, которые тестируют все приложение в целом на уровне пользовательского интерфейса иногда хотят заглядывать, например, в базу данных или вызывать там какую-то отдельную хранимую процедуру.

То есть разделение на системное и модульное тестирование вообще говоря чисто условное, если говорить с технической точки зрения.

Используются одни и те же инструменты, и это нормально, используются одни и те же техники, на каждом уровне можно говорить о тестировании различного вида.

Комбинируем:

То есть, можно говорить о модульном тестировании функциональности.

Можно говорить о системном тестировании функциональности.

Можно говорить о модульном тестировании, например, эффективности.

Можно говорить о системном тестировании эффективности.

Либо мы рассматриваем эффективность какого-то отдельно взятого алгоритма, либо мы рассматриваем эффективность всей системы в целом. То есть технологическое разделение на модульное и системное тестирование не имеет большого смысла. Потому что на разных уровнях могут использоваться одни и те же инструменты, одни и те же техники.

Наконец, при интеграционном тестировании мы проверяем, если в рамках какой-то системы модули взаимодействуют друг с другом корректно. То есть, мы фактически выполняем те же самые тесты, что и при системном тестировании, только еще дополнительно обращаем внимание на то, как именно модули взаимодействуют между собой. Выполняем некоторые дополнительные проверки. Это единственная разница.

Давайте еще раз попытаемся понять разницу между системным и модульным тестированием. Поскольку такое разделение встречается достаточно часто, эта разница должна быть.

И разница эта проявляется тогда, когда мы выполняем не технологическую классификацию, а классификацию по целям тестирования.

Классификацию по целям удобно выполнять с использованием «магического квадрата», который был изначально придуман Брайаном Мариком и потом улучшен Эри Тенненом.

В этом магическом квадрате все виды тестирования располагаются по четырем квадрантам в зависимости от того, чему в этих тестах больше уделяется внимания.

По вертикали - чем выше располагается вид тестирования, тем больше внимания уделяется некоторым внешним проявлениям поведения программы, чем ниже он находится, тем больше мы внимания уделяем ее внутреннему технологическому устройству программы.

По горизонтали - чем левее находятся наши тесты, тем больше внимания мы уделяем их программированию, чем правее они находятся, тем больше внимания мы уделяем ручному тестированию и исследованию программы человеком.

В частности, в этот квадрат можно легко вписать такие термины как приемочное тестирование, Acceptance Testing, модульное тестирование именно в том понимании, в котором оно чаще всего употребляется в литературе. Это низкоуровневое тестирование с большой, с подавляющей долей программирования. То есть это все тесты программируются, полностью автоматически выполняются и внимание уделяется в первую очередь именно внутреннему устройству программы, именно ее технологическим особенностям.

В правом верхнем углу у нас окажутся ручные тесты, нацеленные на внешнее какое-то поведение программы, в частности, тестирование удобства использования, а в правом нижнем углу у нас, скорее всего, окажутся проверки разных нефункциональных свойств: производительности, защищенности и так далее.

Так вот, исходя из классификации по целям, модульное тестирование у нас оказывается в левом нижнем квадранте, а все остальные квадранты - это системное тестирование.

Спасибо за внимание.

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

1. ОСНОВНЫЕ ПОНЯТИЯ

Тестом называется измерение или испытание, проводимое с целью определения состояния или способностей спортсмена. Процесс испытаний называется тестированием: полученное в итоге измерения числовое значение -- результатом тестирования (или результатом теста). Например, бег 100м -- это тест, процедура проведения забегов и хронометража -- тестирование, время бега -- результат теста.

Тесты, в основе которых лежат двигательные задания, называют двигательными (или моторными). В этих тестах в качестве результатов могут выступать либо двигательные достижения (время прохождения дистанции, число повторений, пройденное расстояние и т. п.), либо физиологические и биохимические показатели. В зависимости от этого, а также от задания, которое стоит перед исследуемым, различают три группы двигательных тестов (табл. А).

Таблица А. Разновидности двигательных тестов.

Название теста

Задание спортсмену

Результаты теста

Контрольные упражнения

Двигательное достижение

Бег 1500м, время бега

Стандартные функциональные пробы

Одинаковое для всех, дозируется либо: а) по величине выполненной работы, либо: б) по величине физиологических сдвигов

Физиологические или биохимические показатели при стандартной работе Двигательные показатели при стандартной величине физиологических сдвигов

Регистрация ЧСС при стандартной работе 1000 км/мин Скорость бега при пульсе 160 уд/мин, проба ПВЦ (170)

Максимальные функциональные пробы

Показать максимальный результат

Физиологические или биохимические показатели

Определение максимального кислородного долга или максимального потребления кислорода

Иногда используется не один, а несколько тестов, имеющих единую конечную цель (например, оценку состояния спортсмена в соревновательном периоде тренировки). Такая группа называете^ комплексом или батареей тестов. Не всякие измерения могут быть использованы как тесты. Для этого они должны удовлетворять специальным требованиям. К ним относятся: 1) надежность теста; 2) информативность теста; 3) наличие системы оценок (см.- следующую главу); 4) стандартность -- процедура и условия тестирования должны быть одинаковыми во всех случаях применения теста. Тесты, удовлетворяющие требованиям надежности и информативности, называют добротными или аутентичны м и.

2. НАДЕЖНОСТЬ ТЕСТОВ

2.1 Понятие о надежности тестов

тестирование физический третбан

Надежностью тестов называют степень совпадения результатов при повторном тестировании одних и тех же людей (или других объектов) в одинаковых условиях. В идеале один и тот же тест, примененный к тем же испытуемым в тех же условиях, должен давать одинаковые результаты. Однако даже при самой строгой стандартизации испытаний и точной аппаратуре результаты тестирования всегда несколько варьируют. Например, спортсмен, только что выжавший на кистевом динамометре 55 кг, через несколько минут покажет лишь 50 кг. Подобную вариацию называют внутри-индивидуальной или (используя более общую терминологию математической статистики) внутриклассовой. Ее вызывают четыре основные причины:

изменение состояния испытуемых (утомление, врабатыва-ние, научение, изменение мотивации, концентрации внимания и т. п.);

неконтролируемые изменения внешних условий и аппаратуры (температуры и влажности воздуха, напряжения в электросети, присутствие посторонних лиц, ветер и т. п.);

изменение состояния лица, проводящего или оценивающего тест, замена одного экспериментатора или судьи другим;

несовершенство теста (есть такие тесты, которые заведомо малонадежны, например штрафные броски в баскетбольную корзину до первого промаха; даже спортсмен, имеющий высокий процент попадания, может случайно ошибиться при первых бросках).

В идее методов, используемых для суждения о надежности тестов, поможет разобраться следующий упрощенный пример. Предположим, что хотят сравнить результаты прыжков в длину с места у двух спортсменов по двум выполненным попыткам. При желании сделать точные выводы нельзя ограничиваться регистрацией лишь лучших результатов. Допустим, что результаты каждого из спортсменов варьируют в пределах ±10 см от средней величины и равны соответственно 220± 10 см (т. е. 210 и 230 см) и 320±10 см (т. е. 310 и 330 см). В таком случае вывод, конечно, будет совершенно однозначным: второй спортсмен превосходит первого. Различие между результатами (320 см--220 см = 100 см) явно больше случайных колебаний (±10 см). Гораздо менее определенным будет

Рис. 1. Соотношение меж- и внутриклассовой вариации при высокой (вверху) и низкой (внизу) надежности.

Короткие вертикальные штрихи -- данные отдельных попыток, Х и А" 2 , Х 3 -- средние результаты трех испытуемых

вывод, если при той же самой внутриклассовой вариации (равной ±10 см) различие между испытуемыми (межклассовая вариация) будет маленьким. Скажем, средние значения будут равны 220 см (в одной попытке 210 см, в другой 230 см) и 222 (212 и 232 см). Тогда может случиться, например, что в первой попытке первый спортсмен прыгнет 230 см, а второй -- только 212, и создастся впечатление, что первый существенно сильнее второго.

Из примера видно, что основное значение имеет не сама по себе внутриклассовая изменчивость, а ее соотношение с межклассовыми различиями. Одна и та же внутриклассовая вариация дает разную надежность при разных различиях между классами (в частном случае испытуемыми, рис. 1).

Теория надежности теста исходит из того, что результат любого измерения, проводимого на человека, -- Х { -- есть сумма двух величин:

Х^Хоо + Хе, (1)

где Х х -- так называемый истинный результат, который хотят зафиксировать;

Х е --ошибка, вызванная неконтролируемой вариацией в состоянии испытуемого, привносимая измерительным прибором и пр.

Под истинным результатом по определению понимают среднее значенре X^ при бесконечно большом числе наблюдений в одинаковых условиях (поэтому при X и ставят знак бесконечности оо).

Если ошибки случайны (их сумма равна нулю, и в разных попытках они не зависят друг от друга), тогда из математической статистики следует:

О/ = Ооо Т <З е,

т. е. зарегистрированная в опыте дисперсия результатов (ст/ 2) равна сумме дисперсий истинных результатов ((Хм 2) и ошибок (0 е 2).

Ооо 2 характеризует идеализированную (т. е. свободную от ошибок) межклассовую вариацию, а е 2 ---внутриклассовую изменчивость. Влияние о е 2 изменяет распределение результатов теста (рис.2).

По определению коэффициент надежности (гц) равен отношению истинной дисперсии к дисперсии, зарегистрированной в опыте:

Иными словами, г п есть просто доля истинной вариации в той вариации, которая зарегистрирована в опыте.

Кроме коэффициента надежности используют еще индекс надежности:

который рассматривают как теоретический коэффициент корреляции зарегистрированных значений теста с истинными. Пользуются также понятием о стандартной ошибке надежности, под которой понимают среднее квадратическое отклонение зарегистрированных результатов теста (Х () от линии регрессии, связывающей значение Х г с истинными результатами (X») -- рис. 3.

2.2 Оценка надежности по экспериментальным данным

Понятие об истинном результате теста является абстракцией. Хоэ в опыте измерить нельзя (ведь нельзя же в действительности провести бесконечно большое число наблюдений в одинаковых условиях) . Поэтому приходится использовать косвенные методы.

Наиболее предпочтителен для оценки надежности дисперсионный анализ с последующим расчетом так называемых внутриклассовых коэффициентов корреляции.

Дисперсионный анализ, как известно, позволяет разложить зарегистрированную в опыте вариацию результатов теста на составляющие, обусловленные влиянием отдельных факторов. Например, если зарегистрировать у испытуемых их результаты в каком-либо тесте, повторяя этот тест в разные дни, причем в каждый из дней делать по нескольку попыток, периодически меняя экспериментаторов, то будет иметь место вариация:

а) от испытуемого к испытуемому (межиндивидуальная вариа ция),

б) ото дня ко дню,

в) от экспериментатора к экспериментатору,

г) от попытки к попытке.

Дисперсионный анализ дает возможность выделить и оценить вариации, вызванные этими факторами.

Упрощенный пример показывает, как это делается. Предполо жим, что у 5 испытуемых измерили результаты двух попыток (к = 5, п = 2)

Результаты дисперсионного анализа (см. курс математической статистики, а также приложение 1 к первой части книги) приведены в традиционной форме в табл. 2.

Таблица 2

Надежность оценивается с помощью так называемого внутриклассового коэффициента корреляции:

где г"и -- коэффициент внутриклассовой корреляции (коэффициент надежности, который, чтобы отличить его от обычного коэффициента корреляции (г), обозначают с дополнительным штрихом (г")\

п -- использованное в тесте число попыток;

п" -- число попыток, для которого проводится оценка надежности.

Например, если хотят оценить по данным приведенного примера надежность средней из двух попыток, то

Если ограничиться только одной попыткой, то надежность будет равна:

а если увеличить число попыток до четырех, коэффициент надежности также несколько возрастет:

Таким образом, чтобы оценить надежность, надо, во-первых, выполнить дисперсионный анализ и, во-вторых, рассчитать внутриклассовый коэффициент корреляции (коэффициент надежности).

Некоторые сложности возникают, когда имеет место так называемый тренд, т. е. систематическое повышение или понижение результатов от попытки к попытке (рис. 4). В этом случае используют более сложные методы оценки надежности (в настоящей книге они не описаны).

Для случая двух попыток и отсутствия тренда величины внутриклассового коэффициента корреляции практически совпадают со значениями обычного коэффициента корреляции между результатами первой и второй попыток. Поэтому в таких ситуациях для оценки надежности может использоваться и обычный коэффициент корреляции (он при этом оценивает надежность одной, а не двух попыток). Однако, если число повторных попыток в тесте больше двух и в особенности если используются сложные схемы тестирования,

Рис. 4. Серии из шести попыток, из которых три первые (илл. слева) или три последние (справа) подвержены тренду

(например, по 2 попытки в день в течение двух дней), необходим расчет внутриклассового коэффициента.

Коэффициент надежности не является абсолютным показателем, характеризующим тест. Этот коэффициент может изменяться в зависимости от контингента испытуемых (например, быть различным у начинающих и квалифицированных спортсменов), условий тестирования (проводятся ли повторные попытки одна за другой или, скажем, с интервалом в одну неделю) и других причин. Поэтому всегда надо описывать, как и на ком проводился тест.

2.3 Надежность в практике работы с тестами

Ненадежность экспериментальных данных снижает величину оценок коэффициентов корреляции. Поскольку ни один тест не может коррелировать с другим тестом больше, чем с самим собой, верхней границей оценки коэффициента корреляции здесь является уже не ±1.00, а индекс надежности

г (оо = У~г и

Чтобы от оценки коэффициентов корреляции между эмпирическими данными перейти к оценкам корреляции между истинными значениями, можно воспользоваться выражением

где г ху -- корреляция между истинными значениями X и У;

1~ху -- корреляция между эмпирическими данными; ГцИ^--оценка надежности X и У.

Например, если г ху = 0,60, г хж = 0,80 и г уу =0,90, то корреляция между истинными значениями равна 0,707.

Приведенная формула (6) называется коррекцией на уменьшение (или формулой Спирмена -- Броуна), она постоянно используется в практике.

Нет фиксированного значения надежности, которое позволяло бы считать тест приемлемым. Все зависит от важности "выводов, сделанных на основе применения теста. И все же в большинстве случаев в спорте можно использовать следующие примерные ориентиры: 0,95--0,99 --¦ отличная надежность, 0,90-^0,94 -- хорошая, 0,80--0,89 -- приемлемая, 0,70--0,79 -- плохая, 0,60--0,69 -- для индивидуальных оценок сомнительная, тест пригоден лишь для характеристики группы испытуемых.

Добиться некоторого повышения надежности теста можно, увеличивая число повторных попыток. Вот как, например, в эксперименте возрастала надежность теста (метание гранаты 350 г с разбегу) по мере увеличения числа попыток: 1 попытка -- 0,53, 2 попытки -- 0,72, 3 попытки -- 0,78, 4 попытки -- 0,80, 5 попыток -- 0,82, 6 попыток -- 0,84. Из примера видно, что если сначала надежность возрастает быстро, то после 3--4 попыток прирост существенно замедляется.

При нескольких повторных попытках результаты можно определять разными способами: а) по лучшей попытке, б) по средней арифметической величине, в) по медиане, г) по средней из двух или трех лучших попыток и т. п. Исследования показали, что в большинстве случаев наиболее надежным является использование средней арифметической величины, несколько менее надежна медиана, еще менее надежна лучшая попытка.

Говоря о надежности тестов, различают их стабильность (воспроизводимость), согласованность, эквивалентность.

2.4 Стабильность теста

Под стабильностью теста понимают воспроизводимость резуль татов при его повторении через определенное время в одинаковых условиях. Повторное тестирование обычно называют ретестом. Схе ма оценки стабильности теста такова: 1

При этом различают 2 случая. В одном ретест проводят для того, чтобы получить надежные данные о состоянии испытуемого в течение всего временного интервала между тестом и ретестом (например, чтобы получить надежные данные о функциональных возможностях лыжников в июне, у них проводят измерения МПК дважды с интервалом в одну неделю). В этом случае важны точные результаты теста, и надежность должна оцениваться с помощью дисперсионного анализа.

В другом случае может быть важным лишь сохранение порядка испытуемых в группе (остается ли первый первым, последний -- среди последних). В этом случае стабильность оценивают по коэффициенту корреляции между тестом и ретестом.

Стабильность теста зависит от:

вида теста,

контингента испытуемых,

временного интервала между тестом и ретестом. Например, морфологические характеристики при небольших

временных интервалах весьма стабильны; наименьшую стабильность имеют тесты на точность движений (например, броски в цель).

У взрослых результаты тестирования более стабильны, чем у детей; у спортсменов -- более стабильны, чем у не занимающихся спортом.

С увеличением временного интервала между тестом и ретестом стабильность теста снижается (табл. 3).

2.5 Согласованность теста

Согласованность теста характеризуется независимостью результатов тестирования от личных качеств лица, проводящего или оценивающего тест". Согласованность определяется по степени совпадения результатов, получаемых на одних и тех же испытуемых разными экспериментаторами, судьями, экспертами. При этом возможны два варианта:

Лицо, проводящее тест, только оценивает его результаты, не влияя на его выполнение. Например, одну и ту же письменную работу разные экзаменаторы могут оценить по-разному. Нередко различаются оценки судей в гимнастике, фигурном катании на коньках, боксе, показатели ручного хронометрирования, оценка электрокардиограммы или рентгенограммы разными врачами и т. п.

Лицо, проводящее тест, влияет на результаты. Например, некоторые экспериментаторы более настойчивы и требовательны, чем другие, лучше мотивируют испытуемых. Это сказывается на результатах (которые сами по себе могут измеряться вполне объективно).

Согласованность теста -- это, по существу, надежность оценки его результатов при проведении теста разными людьми.

1 Вместо термина «согласованность» довольно часто используют термин «объективность». Такое словоупотребление неудачно, так как совпадение результатов разных экспериментаторов или судей (экспертов) вовсе не говорит об их объективности. Они могут все вместе сознательно или несознательно ошибаться, искажая объективную истину.

2.6 Эквивалентность теста

Нередко тест представляет собой результат выбора из определенного числа однотипных тестов.

Например, броски в баскетбольную корзину можно выполнять с разных точек, спринтерский бег может проводиться на дистанции, скажем, 50, 60 или 100 м, подтя- -гивания можно выполнять на кольцах или перекладине, хватом сверху или снизу и т. д.

В таких случаях может использоваться так называемый метод параллельных форм, когда испытуемым предлагают выполнить две разновидности одного и того же теста и затем оценивают степень совпадения результатов. Схема тестирования здесь следующая:

Рассчитанный между результатами тестирования коэффициент корреляции называют коэффициентом эквивалентности. Отношение к эквивалентности тестов зависит от конкретной ситуации. С одной стороны, если два или больше тестов эквивалентны, их совместное применение повышает надежность оценок; с другой -- может оказаться полезным оставить в батарее только один эквивалентный тест -- это упростит тестирование и лишь незначительно снизит информативность комплекса тестов. Решение этого вопроса зависит от таких причин, как сложность и громоздкость тестов, степень необходимой точности тестирования и т. п.

Если все тесты, входящие в какой-либо комплекс тестов, высоко эквивалентны, он называется гомогенным. Весь этот комплекс измеряет одно какое-то свойство моторики человека. Скажем, комплекс, состоящий из прыжков с места в длину, вверх и тройного, вероятно, будет гомогенным. Наоборот, если в комплексе нет эквивалентных тестов, то все тесты, входящие в него, меряют разные свойства. Такой комплекс называется гетерогенным. Пример гетерогенной батареи тестов: подтягивания на перекладине, наклон вперед (для проверки гибкости), бег 1500 м.

2.7 Пути повышения надежности теста

Надежность тестов до определенной степени может быть повышена путем:

а) более строгой стандартизации тестирования,

б) увеличения числа попыток,

в) увеличения числа оценщиков (судей, экспертов) и повыше ния согласованности их мнений,

г) увеличения числа эквивалентных тестов,

д) лучшей мотивации испытуемых.

3. ИНФОРМАТИВНОСТЬ ТЕСТОВ

3.1 Основные понятия

Информативность теста -- это степень точности, с какой он измеряет свойство (качество, способность, характеристику и т. п.), для оценки которого используется. Информативность нередко называют также валидностыо (от английского уаНаНу -- обоснованность, действительность, законность). Допустим, что для определения уровня специальной силовой подготовленности спринтеров -- бегунов и пловцов -- хотят использовать такие показатели: 1) кистевая динамометрия, 2) сила подошвенного сгибания стопы, 3) сила разгибателей плечевого сустава (эти мышцы несут большую нагрузку при плавании кролем), 4) сила мышц-разгибателей шеи. На основе этих тестов предполагают управлять тренировочным процессом, в частности находить слабые звенья двигательного аппарата и целенаправленно укреплять их. Хорошие ли тесты выбраны? Информативны ли они? Даже не проводя специальных экспериментов, можно догадаться, что второй тест, вероятно, информативен у спринтеров-бегунов, третий -- у пловцов, а первый и четвертый, наверное, ни у пловцов, ни у бегунов не покажут ничего интересного (хотя могут оказаться очень полезными в других видах спорта, например в борьбе). В разных случаях одни и те же тесты могут иметь разную информативность.

Вопрос об информативности теста распадается на 2 частных вопроса:

Что измеряет данный тест?

Как точно он это делает?

Например, можно ли по такому показателю, как максимальное потребление кислорода (МПК), судить о подготовленности бегунов-стайеров, и если можно, то с какой степенью точности. Иными словами, какова информативность МПК у стайеров? Можно ли использовать этот тест в процессе контроля?

Если тест используется для определения (диагноза) состояния спортсмена в момент обследования, то говорят о диагностической информативности. Если же на основе результатов тестирования хотят сделать вывод о возможных будущих показателях спортсмена, тест должен обладать прогностической информативностью. Тест может быть диагностически информативен, а прогностически нет и наоборот.

Степень информативности может характеризоваться количественно -- на основе опытных данных (так называемая эмпирическая информативность) и качественно -- на основе содержательного анализа ситуации (содержательная, или логическая, информативность).

3.2 Эмпирическая информативность (случай первый -- существует измеряемый критерий)

Идея определения эмпирической информативности состоит в том, что результаты теста сравнивают с некоторым критерием. Для этого рассчитывают коэффициент корреляции между критерием и тестом (такой коэффициент называют коэффициентом информативности и обозначают г гк, где I -- первая буква в слове «тест», к -- в слове «критерий»).

В качестве критерия берется показатель, заведомо и бесспорно отражающий то свойство, которое собираются измерять с помощью теста.

Нередко бывает так, что существует вполне определенный критерий, с которым можно сравнить предполагаемый тест. Например, при оценке специальной подготовленности спортсменов в видах спорта с объективно измеряемыми результатами таким критерием служит обычно сам результат: более информативен тот тест, корреляция которого со спортивным результатом выше. В случае определения прогностической информативности критерием является показатель, прогноз которого надо осуществить (например, если прогнозируется длина тела ребенка, критерий -- длина его тела во взрослые годы).

Чаще всего в спортивной метрологии критериями служат:

Спортивный результат.

Какая-либо количественная характеристика основного спортивного упражнения (например, длина шага в беге, сила отталкивания в прыжках, успешность борьбы под щитом в баскетболе, выполнение подачи в теннисе или волейболе, процент точных длинных передач в футболе).

Результаты другого теста, информативность которого доказана (это делают, если проведение теста-критерия громоздко и сложно и можно подобрать другой тест, столь же информативный, но более простой. Например, вместо газообмена определять частоту сердечных сокращений). Этот частный случай, когда критерием является другой тест, называют конкурентной информативностью.

Принадлежность к определенной группе. Например, можно сравнивать членов сборной команды страны, мастеров спорта и перворазрядников; принадлежность к одной из этих групп является критерием. В данном случае используются специальные разновидности корреляционного анализа.

Так называемый составной критерий, например сумма очков в многоборье. При этом виды многоборья и таблицы очков могут быть как общепринятыми, так и заново составлены экспериментатором (о том, как составляются таблицы, см. следующую главу). К составному критерию прибегают, когда нет единичного критерия (например, если стоит задача оценить общую физическую подготовленность, мастерство игрока в спортивных играх и т. п., ни один показатель, взятый сам по себе, не может служить критерием).

Пример определения информативности одного и того же теста ¦-- скорость бега 30 м с ходу у мужчин -- при разных критериях проведен в табл.. 4.

Вопрос о выборе критерия является, по существу, самым важным при определении реального значения и информативности теста. Например, если стоит задача определить информативность такого теста, как прыжок в длину с места у спринтеров, то можно выбрать разные критерии: результат в беге на 100 м, длину шага, отношение длины шага к длине ног или к росту и т. п. Информативность теста при этом будет меняться (в приведенном примере она возрастала от 0,558 для скорости бега до 0,781 для отношения «длина шага/длина ноги»).

В видах спорта, где нельзя объективно измерить спортивное мастерство, стараются обойти эту трудность введением искусственных критериев. Например, в командных спортивных играх эксперты располагают всех игроков по их мастерству в определенном порядке (т. е. составляют списки 20, 50 или, скажем, 100 сильнейших игроков). Место, занятое спортсменом (как говорят, его ранг), рассматривается в качестве критерия, с которым и сравнивают результаты тестов с целью определения их информативности.

Встает вопрос: зачем использовать тесты, если известен критерий? Например, не проще ли устроить контрольные соревнования и определить спортивный результат, чем определять достижения в контрольных упражнениях? Применение тестов имеет следующие преимущества:

спортивный результат не всегда можно или целесообразно определить (например, нельзя часто проводить соревнования в марафонском беге, зимой обычно нельзя зарегистрировать результат в метании копья, а летом в лыжных гонках);

спортивный результат зависит от многих причин (факторов), таких, например, как сила спортсмена, его выносливость, техника и т. п. Применение тестов дает возможность определить сильные и слабые стороны спортсмена, оценить каждый из этих факторов в отдельности

3.3 Эмпирическая информативность (случай второй -- единичного критерия нет; факторная информативность)

Нередко бывает так, что нет единичного критерия, с которым можно сравнить результаты предполагаемых тестов. Допустим, хотят найти наиболее информативные тесты для оценки силовой подготовленности молодежи. Что предпочесть: подтягивания на перекладине или отжимания в упоре на брусьях, приседания со штангой, тягу штанги либо переход в сед из положения лежа на спине? Что здесь может быть критерием правильного выбора теста?

Можно предложить испытуемым большую батарею разнообразных силовых тестов, а затем отбирать среди них те, которые дают наибольшую корреляцию с результатами всего комплекса (ведь нельзя же систематически пользоваться всем комплексом -- он слишком громоздок и неудобен). Эти тесты будут наиболее информативны: они дадут сведения о возможных результатах испытуемых по всему исходному комплексу тестов. Но результаты в комплексе тестов не выражаются одним числом. Можно образовать, конечно, какой-либо составной критерий (например, определить сумму набранных очков по какой-либо шкале). Однако гораздо более эффективен другой путь, основанный на идеях факторного анализа.

Факторный анализ -- один из методов многомерной статистики (слово «многомерный» указывает, что изучается одновременно много разных показателей, например результаты испытуемых во многих тестах). Это довольно сложный метод, поэтому здесь целесообразно ограничиться изложением лишь основной его идеи.

Факторный анализ исходит из того, что результат любого теста является следствием одновременного действия ряда непосредственно ненаблюдаемых (как иначе говорят -- латентных) факторов. Например, результаты в беге на 100, 800 и 5000 м зависят от скоростных качеств спортсмена, его силы, выносливости и пр. Значение этих факторов для каждой из дистанций не одинаково важно. Если выбрать два теста, на которые влияют примерно в равной степени одни и те же факторы, то результаты в этих тестах будут сильно коррелировать друг с другом (скажем, в беге на дистанциях 800 и 1000 м). Если же у тестов нет общих факторов или они мало влияют на результаты, корреляция между этими тестами будет низкой (например, корреляция между результатами в беге на 100 и 5000 м). Когда берется большое число разных тестов и рассчитываются коэффициенты корреляции между ними, то с помощью факторного анализа можно определить, сколько факторов совместно действует на данные тесты и какова степень их вклада в каждый тест. А затем уже легко выбрать тесты (или их комбинации), которые наиболее точно оценивают уровень отдельных факторов. В этом состоит идея факторной информативности тестов. Следующий пример конкретного эксперимента показывает, как это делается.

Задача состояла в том, чтобы найти наиболее информативные тесты для оценки общей силовой подготовленности студентов-спортсменов третьего -- первого разрядов, занимающихся разными видами спорта. С этой целью было обследовано. (Н.В. Аверкович, В.М. Зациорский, 1966) по 15 тестам 108 человек. В результате факторного анализа выделились три фактора: 1) сила верхних конечностей, 2) сила нижних конечностей, 3) сила мышц брюшного пресса и сгибателей тазобедренных суставов. Наиболее информативными тестами среди опробованных оказались: по первому фактору -- отжимание в упоре, по второму -- прыжок в длину с места, по третьему -- поднимание прямых ног в висе и максимальное число переходов в сед из положения лежа на спине в течение 1 мин. Если ограничиваться лишь одним тестом, то наиболее информативным был переворот силой в упор на перекладине (оценивалось число повторений).

3.4 Эмпирическая информатазность в практической работе

При практическом использовании показателей эмпирической информативности следует иметь в виду, что они справедливы лишь по отношению к тем испытуемым и условиям, для которых они рассчитаны. Тест, информативный в группе начинающих, может оказаться совершенно неинформативным, если попытаться его применять в группе мастеров спорта.

Информативность теста неодинакова в разных группах. В частности, в группах, более однородных по своему составу, тест обычно менее информативен. Если определена информативность теста на какой-либо группе, а затем сильнейшие из нее включены в сборную команду, то информативность того же теста в сборной команде будет значительно ниже. Причины этого понятны из рис. 5: отбор уменьшает общую дисперсию результатов в группе и снижает величины коэффициента корреляции. Например, если определить информативность такого теста, как МПК у пловцов на 400 м, имеющих резко различные результаты (скажем, от 3.55 до 6.30), то коэффициент информативности будет очень высок (У 4 й>0,90); если провести те же измерения в группе пловцов, имеющих результаты то 3.55 до 4.30, г № по абсолютной величине не будет превосходить 0,4--0,6; если определить тот же показатель у сильнейших пловцов мира (3.53>, 5=4.00), коэффициент информативности вообще ""может быть равен нулю: с помощью одного этого теста нельзя будет различить пловцов, плывущих, скажем, 3.55 и 3,59: и у тех, и у других величины МПК. будут высоки и примерно одинаковы.

Коэффициенты информативности очень сильно зависят от надежности теста и критерия. Тест с низкой надежностью всегда мало информативен, поэтому не имеет смысла проверять малонадежные тесты на информативность. Недостаточная надежность критерия также приводит к снижению коэффициентов информативности. Однако в данном случае было бы неправильно пренебрегать тестом как малоинформативным -- ведь верхней границей возможной корреляции теста является не ±1, а его индекс надежности. Поэтому надо сравнивать коэффициент информативности с этим индексом. Действительную информативность (с поправкой на ненадежность критерия) рассчитывают по формуле:

Так, в одной из работ ранг спортсмена в водном поло (ранг рассматривали как критерий мастерства) был установлен на основе оценок 4 экспертов. Надежность (согласованность) критерия, определенная с помощью внутриклассового коэффициента корреляции, равнялась 0,64. Коэффициент информативности был равен 0,56. Действительный коэффициент информативности (с поправкой на ненадежность критерия) равен:

С информативностью и надежностью теста тесно связано понятие о его различительной возможности, под которой понимается то минимальное различие между испытуемыми, которое диагностируется с помощью теста (это понятие по смыслу аналогично понятию о чувствительности прибора). Различительная возможность теста зависит от:

Межиндивидуальной вариации результатов. Например, такой тест, как «максимальное число повторных бросков баскетбольного мяча в стену с расстояния 4 м в течение 10 сек.», хорош для начинающих, но непригоден для квалифицированных баскетболистов, так как все они показывают примерно один и тот же результат и становятся неразличимыми. Во многих случаях вариация результатов между испытуемыми (межклассовая вариация) может быть повышена за счет увеличения трудности теста. Например, если дать спортсменам разной квалификации легкую для них функциональную пробу (скажем, 20 приседаний или работу на велоэргометре мощностью 200 кгм/мин), то величина физиологических сдвигов у всех будет примерно одинакова и оценить степень подготовленности будет невозможно. Если же предложить им трудное задание, то различия между спортсменами станут большими, и по результатам теста можно будет судить о подготовленности спортсменов.

Надежности (т. е. соотношения меж- и внутрииндивидуаль-ной вариации) теста и критерия. Если результаты одного и того же испытуемого в прыжках в длину с места варьируют, скажем, в пре-

делах ±10 см, то, хотя длину прыжка и можно определить с точностью до ± 1 см, различить с убежденностью испытуемых, «истинные» результаты которых равны 315 и 316 см, нельзя.

Нет фиксированной величины информативности теста, после которой можно считать тест" пригодным. Здесь многое зависит от конкретной ситуации: желаемой точности прогноза, необходимости получить хотя бы какие-то дополнительные сведения о спортсмене и т. п. Практически для диагностики используются тесты, информативность которых не меньше 0,3. Для прогноза, как правило, нужна более высокая информативность -- не менее 0,6.

Информативность батареи тестов, естественно, выше, чем информативность одного теста. Нередко бывает так, что информативность одного отдельно взятого теста слишком низка, чтобы этим тестом пользоваться. Информативность же батареи тестов может быть вполне достаточна.

Информативность теста не всегда можно установить с помощью эксперимента и математической обработки его результатов. Например, если стоит задача разработать билеты для экзаменов или темы дипломных работ (это ведь тоже разновидность тестирования), надо отобрать такие вопросы, которые наиболее информативны, по которым можно точнее всего оценить знания выпускников и их подготовленность к практической работе. Пока в подобных случаях опираются лишь на логический, содержательный, анализ ситуации.

Иногда бывает и так, что информативность теста ясна без всяких экспериментов, особенно когда тест является просто частью тех действий, которые выполняет спортсмен на соревнованиях. Едва ли нужны эксперименты, чтобы доказать информативность таких показателей, как время выполнения поворотов в плавании, скорость на последних шагах разбега в прыжках в длину, процент попаданий со штрафных бросков в баскетболе, качество выполнения подачи в теннисе или волейболе.

Однако не все подобные тесты в равной мере информативны. Например, вбрасывание из-за боковой линии в футболе, хотя и является элементом игры, едва ли может рассматриваться как один из самых важных показателей мастерства футболистов. Если таких тестов много и надо отобрать самые информативные из них, без математических методов теории тестов не обойтись.

Содержательный анализ информативности теста и экспериментально-математическое ее обоснование должны дополнять друг друга. Ни один из этих подходов, взятый сам по себе, не является достаточным. В частности, если в результате эксперимента определен высокий коэффициент информативности теста, нужно обязательно проверить, не является ли это следствием так называемой ложной корреляции. Известно, что ложные корреляции появляются, когда на результаты обоих коррелируемых признаков влияет некоторый третий показатель, который сам по себе не представляет

интереса. .Например, у старшеклассников можно найти существенную корреляцию между результатом в беге на 100 м и знанием геометрии, поскольку они по сравнению с учениками младших классов в среднем покажут более высокие показатели как в беге, так и в знании геометрии. Посторонним, третьим, признаком, вызвавшим появление корреляции, явился возраст испытуемых. Конечно, совершил бы ошибку тот исследователь, который этого бы не заметил и рекомендовал экзамен по геометрии как тест для бегунов на 100 м. Чтобы не совершать подобных ошибок, надо обязательно проанализировать причинно-следственные связи, вызвавшие появление корреляции между критерием и тестом. Полезно, в частности, представить себе, что произойдет, если результаты в тесте улучшатся. Приведет ли это к росту результатов критерия? В приведенном примере это означает: если ученик будет лучше знать геометрию, станет ли он быстрее бежать дистанцию 100 м? Очевидный отрицательный ответ приводит к естественному заключению: знания по геометрии не могут служить тестом для спринтеров. Найденная корреляция является ложной. Разумеется, ситуации реальной жизни значительно сложнее этого нарочно оглупленного примера.

Частным случаем содержательной информативности тестов является информативность по определению. В данном случае просто договариваются о том, какой смысл надо вкладывать в то или иное слово (термин). Например, говорят: «прыжок в высоту с места характеризует прыгучесть». Точнее было бы сказать так: «условимся называть прыгучестью то, что измеряется результатом прыжка вверх с места». Такой взаимный уговор необходим, так как он предупреждает ненужные недоразумения (ведь кто-то может понимать под прыгучестью результаты в десятерном прыжке на одной ноге, а прыжок в высоту с места считать, скажем, тестом «взрывной» силы ног).

56.0 Стандартизация тестов

Стандартизация тестов физической пригодности для оценки аэробной производительности человека достигается соблюдением следующих принципов.

Методика тестирования должна позволять проводить непосредственные измерения или вычислять косвенным путем максимальное потребление кислорода организмом (аэробную производительность), так как этот физиологический показатель физической пригодности человека является наиболее важным. Он будет обозначаться символом гпах1ггшт У 0г и выражаться в миллилитрах на килограмм веса испытуемого в минуту (мл/кг-мин.).

В основном методика проведения тестов должна быть одинаковой как для лабораторных, так и для полевых измерений, однако:

1. В лабораторных условиях (в стационарных и подвижных ла бораториях) аэробная производительность человека может быть непосредственно определена с помощью достаточно сложного оборудования и большого числа измерений.

2. В полевых условиях аэробная производительность оценивается косвенным путем на основе ограниченного числа физиологических измерений.

Методика проведения тестов должна позволять сравнивать их результаты.

Тестирование должно проводиться в один день и желательно без перерывов. Это позволит целесообразно распределить время, оборудование, силы при первичном и повторном тестировании.

Методика тестирования должна быть достаточно гибкой, чтобы давать возможность обследовать группы людей, обладающих различными физическими способностями, различного возраста, пола, с различным уровнем активности и т. д.

57.0. Выбор аппаратуры

Все названные принципы физиологического тестирования могут быть соблюдены прежде всего при условии правильного отбора следующих технических средств:

третбана,

велоэргометра,

степэргометра,

необходимого вспомогательного оборудования, которое может использоваться в любом виде теста.

57.1. Третбан может применяться в самых разнообразных исследованиях. Однако этот прибор является наиболее дорогим. Даже самый маленький его вариант слишком громоздок, чтобы его можно было широко применять в полевых условиях. Третбан должен позволять варьировать скорости от 3 до (по меньшей мере) 8 км/час (2--5 миль/час) и наклон от 0 до 30%. Наклон третбана определяется как процентное отношение вертикального подъема к пройденной дистанции по горизонтали ".

Дистанция и вертикальный подъем должны быть выражены в метрах, скорость -- в метрах в секунду (м/сек) или километрах в час (км/час).

57.2. Велоэргометр. Данный прибор легко применять как в ла бораторных, так и в полевых условиях. Он достаточно универсален, на нем можно выполнять работу различной интенсивности -- от ми нимального до максимального уровня.

Велоэргометр имеет механическую или электрическую тормозную систему. Электрическая тормозная система может получать электропитание как от внешнего источника, так и от генератора, находящегося на эргометре.

Регулируемое механическое сопротивление выражается в килограммометрах в минуту (кгм/мин) и в ваттах. Килограммометры в минуту переводятся в ватты по формуле:

1 ватт = 6 кгм/мин. 2

Велоэргометр должен иметь подвижно закрепленное сиденье, чтобы можно было регулировать высоту его положения для каждого отдельного человека. При тестировании сиденье устанавливается таким образом, чтобы человек, сидящий на нем, мог почти полностью выпрямленной ногой достать до нижней педали. В среднем расстояние между сиденьем и педалью в максимально опущенном положении должно составлять 109% от длины ноги испытуемого.

Имеются различные конструкции велоэргометра. Однако тип эргометра не влияет на результаты эксперимента, если указанное сопротивление в ваттах или килограммометрах в минуту точно соответствует суммарной внешней нагрузке.

Степэргометр. Это относительно недорогой прибор с регулируемой высотой ступенек от 0 до 50 см. Подобно велоэргометру, он может легко использоваться как в лаборатории, так и в полевых условиях.

Сравнение трех вариантов тестирования. Каждый из этих приборов имеет свои преимущества и недостатки (в зависимости от того, используется ли он в лабораториях или в полевых условиях). Обычно при работе на третбане величина тах1ггшт У 07 немного больше, чем при работе на велоэргометре; в свою очередь, показатели велоэргометра превышают показания на степэргометре.

Уровень расхода энергии испытуемых, находящихся в состоянии покоя или выполняющих задание по преодолению силы тяжести, прямо пропорционален их весу. Поэтому упражнения на третбане и степэргометре создают для всех испытуемых одинаковую относительную рабочую нагрузку по подъему (своего тела. -- Прим. ред.) на заданную высоту: при данной скорости и наклоне третбана, частоте шагов и высот ступенек на степэргометре высота подъема тела будет-одинакова (а выполняемая работа различна. -- Прим. ред.). С другой стороны, велоэргометр при фиксированной величине заданной нагрузки требует почти одинаковых затрат энергии, независимо от пола и возраста испытуемого.

58.0, Общие замечания по методике тестирования

Чтобы применять тесты при обследовании больших групп людей, необходимы простые и не занимгющие много времени методы тестирования. Однако для более детального изучения физиологических особенностей испытуемого нужны более глубокие и трудоемкие тесты. Для извлечения большей пользы из тестов и более гибкого их применения необходимо найти оптимальный компромисс между этими двумя требованиями.

58.1. Интенсивность работы. Тестирование необходимо начинать с малых нагрузок, с которыми могут справиться самые слабые из испытуемых. Оценку адаптационных возможностей сердечно-сосу дистой и дыхательной систем следует проводить в процессе работы с постепенно увеличивающимися нагрузками. Функциональные пре делы должны быть установлены, таким образом, с достаточной точ ностью. Практические соображения подсказывают принять исход ный уровень метаболизма (т. е. уровень метаболизма в состоянии покоя) за единицу измерения количества энергии, необходимого для выполнения той или иной нагрузки. Первоначальная нагрузка и последующие ее ступени выражаются в Метах, кратных интенсив ности метаболизма у человека, находящегося в состоянии полного покоя. Физиологическими показателями, лежащими в основе Метов, являются количество кислорода (в миллилитрах в минуту), потреб ляемое человеком, находящимся в состоянии покоя, или же его ка лорический эквивалент (в килокалориях в минуту).

Для контроля за нагрузками в единицах Мет или в эквивалентных им величинах потребления кислорода непосредственно во время тестирования необходима сложная электронно-вычислительная аппаратура, которая в настоящее время еще сравнительно малодоступна. Поэтому при определении количества кислорода, необходимого организму для выполнения нагрузок определенного вида и интенсивности, практически удобно пользоваться эмпирическими формулами. Предсказанные (на основе эмпирических формул. -- Прим. ред.) величины потребления кислорода при работе на третбане -- по скорости и наклону, при степ-тесте -- по высоте и частоте шагов хорошо согласуются с результатами непосредственных измерений и могут быть использованы как физиологический эквивалент физического усилия, с которым соотносятся все физиологические показатели, полученные при тестировании.

58.2. Продолжительность тестов. Желание сократить процесс тестирования не должно идти в ущерб целям и задачам проводимого теста. Слишком короткие тесты не дадут достаточно различимых результатов, их различительные возможности будут малы; слишком длительные тесты активируют в большей мере терморегулятор-ные механизмы, что мешает установлению максимальной аэробной производительности. В рекомендуемой методике тестирования каждый уровень нагрузки выдерживается в течение 2 мин. Среднее время проведения теста -- от 10 до 16 мин.

58.3. Показания для прекращения теста. Тестирование должно быть прекращено, если только:

пульсовое давление неуклонно падает, несмотря на увеличение нагрузки;

систолическое кровяное давление превышает 240--250 мм рт. ст.;

диастолическое кровяное давление поднимается выше 125 мм рт. ст.;

появляются такие симптомы недомогания, как возрастающая боль в груди, сильная одышка, перемежающаяся хромота;

появляются клинические признаки аноксии: бледность или синюшность лица, головокружение, психотические явления, отсутствие реакции на раздражение;

показания электрокардиограммы свидетельствуют о парок-сизмальной супервентрикулярной или вентрикулярной аритмии, появлении желудочковых экстрасистолических комплексов, возникающих до окончания, зубца Т, нарушении проводимости, кроме легкой Л У блокады, снижении /?--5Г горизонтального или нисходящего типа более чем на 0,3 мв. .;»;, -

58.4. Меры предосторожности.

Здоровье испытуемого. Прежде чем подвергаться обследованию, испытуемый должен пройти медицинскую комиссию и получить справку о том, что он здоров. Очень желательно сделать электрокардиограмму (хотя бы одно грудное отведение). Для мужчин старше 40 лет снятие электрокардиограммы является обязательным. Неотъемлемой частью всей процедуры тестирования должны быть регулярно повторяющиеся измерения кровяного давления. По окончании тестирования испытуемых необходимо проинформировать о мерах, предотвращающих опасное скопление крови в нижних конечностях.

Противопоказания. Испытуемый не допускается к тестам в следующих случаях:

отсутствие разрешения врача принимать участие в тестах с максимальными нагрузками;

оральная температура превышает 37,5°С;

частота сердечных сокращений после длительного отдыха выше 100 уд/мин;

явный упадок сердечной деятельности;

случай инфаркта миокарда или миокардита за последние 3 месяца; симптомы и показания электрокардиограммы, свидетельствующие о наличи этих заболеваний; признаки стенокардии;

инфекционные заболевания, включая простудные.

Менструация не является противопоказанием к участию в тестах. Однако в некоторых случаях целесообразно изменить расписание их проведения.

Б. СТАНДАРТНЫЕ ТЕСТЫ

59.0. Описание основной методики проведения стандартных

Во всех трех видах упражнений и независимо от того, с максимальной или субмаксимальной нагрузкой проводится тест, основная процедура тестирования является одинаковой.

Испытуемый приходит в лабораторию в легкой спортивной одежде и мягкой обуви. В течение 2 час. перед началом теста он не должен принимать пищу, пить кофе, курить.

Отдых. Тесту предшествует период отдыха, который длится 15 мин. В это время, пока устанавливаются физиологические измерительные приборы, испытуемый удобно сидит в кресле.

Период аккомодации. Самое первое тестирование любого испытуемого, как и все повторные тесты, даст достаточно надежные результаты, если основному тесту будет предшествовать короткий период упражнений с малой нагрузкой -- период аккомодации. Он длится 3 мин. и служит следующим целям:

ознакомить испытуемого с аппаратурой и типом работы, которую он должен выполнять;

предварительно изучить физиологическую реакцию испытуемого на нагрузку приблизительно в 4 Мета, что соответствует частоте сердечных сокращений примерно 100 уд/мин;

ускорить приспособление организма к непосредственному проведению самого теста.

Отдых. За периодом аккомодации следует короткий (2 мин.) период отдыха; испытуемый удобно сидит в кресле, пока экспериментатор делает необходимые технические приготовления.

Тест. В начале теста задается нагрузка, равная нагрузке аккомодационного периода, и испытуемый выполняет упражнения без перерыва до завершения теста. Через каждые 2 мин. работы нагрузка увеличивается на 1 Мет.

Тестирование прекращается при одном из следующих условий:

испытуемый не в состоянии продолжать выполнять задание;

имеются признаки физиологической декомпенсации (см. 58.3);

данные, полученные на последней ступени нагрузки, позволяют экстраполировать максимальную аэробную производительность на основе последовательных физиологических измерений (выполненных в ходе тестирования. -- Прим. ред.).

59.5. Измерения. Максимальное потребление кислорода в миллилитрах на килограмм в минуту измеряется непосредственно или вычисляется. Методы определения потребления кислорода весьма разнообразны, так же как разнообразны дополнительные технические приемы, используемые для анализа физиологических возможностей каждого индивида. Подробнее об этом будет сказано дальше.

59.6. Восстановление. По окончании эксперимента физиологическое наблюдение продолжается в течение минимум 3 мин. Испытуемый вновь отдыхает в кресле, слегка приподняв ноги.

Примечание. Описанная методика тестирования дает сопоставимые физиологические данные, полученные при одинаковой последовательности увеличения нагрузки на третбане, велоэргометре и степэргометре. Дальше методика тестирования описана отдельно для каждого из трех приборов.

60.0. Третбан-тест

Аппаратура. Третбан и необходимое вспомогательное оборудование.

Описание. Тщательно выполняется основная методики тестирования, описанная в 59.0.

Скорость движения третбана с испытуемым, идущим по нему, равна 80 м/мин (4,8 км/час, или 3 мили/час). При такой скорости энергия, необходимая для передвижения по горизонтали, равна приблизительно 3 Метам; каждое увеличение наклона на 2,5% добавляет одну единицу начальной скорости метаболизма, т. е. 1 Мет к расходу энергии. В конце первых 2 мин. наклон третбана быстро увеличивается до 5%, в конце следующих 2 мин.--до 7,5%, затем до 10%, 12,5% и т. д. Полная схема дана в табл. 1.

Подобные документы

    Проведение контрольных испытаний с помощью контрольных упражнений или тестов с целью определения готовности к физическим упражнениям. Проблема стандартизации тестов. Внешняя и внутренняя валидность тестов. Ведение протокола контрольного обследования.

    реферат , добавлен 12.11.2009

    Характеристика двигательных способностей и методика развития гибкости, выносливости, ловкости, силы и быстроты. Тестирование двигательных способностей школьников на уроках физической культуры. Применение двигательных тестов в практической деятельности.

    дипломная работа , добавлен 25.02.2011

    Оценка динамики изменения антропометрических данных у школьников, систематически занимающихся легкой атлетикой, и школьников, не занимающихся в спортивных секциях. Разработка тестов для определения общей физической подготовленности; анализ результатов.

    дипломная работа , добавлен 07.07.2015

    Основные направления использования тестов, их классификация. Тесты для отбора в спортивной борьбе. Методы оценки спортивных достижений. Тестирование специальной выносливости борца. Взаимосвязь показателей тестов с техническим мастерством борцов-вольников.

    дипломная работа , добавлен 03.03.2012

    Оценка специальной выносливости пловца с помощью контрольных упражнений. Приспособленность основных реакций физиологических систем в условиях водной среды. Разработка принципов оценки медико-биологических показателей, используемых при тестировании пловца.

    статья , добавлен 03.08.2009

    Рассмотрение здоровой энергетики как первоосновы здоровья. Ознакомление с особенностями гимнастических упражнений по системе цигун. Подбор комплекса упражнений для домашних занятий. Составление тестов для получения выводов по проделанной работе.

    дипломная работа , добавлен 07.07.2015

    Спортивная метрология - исследование физической величины в физкультуре и спорте. Основы измерений, теория тестов, оценок и норм. Методы получения информации о количественной оценке качества показателей; квалиметрия. Элементы математической статистики.

    презентация , добавлен 12.02.2012

    Сущность и значение контроля в физическом воспитании и его виды. Проверка и оценка двигательных умений и навыков, полученных на уроках физической культуры. Тестирование уровня физической подготовленности. Контроль функционального состояния учащихся.

    курсовая работа , добавлен 06.06.2014

    Расчет величины абсолютной и относительной погрешностей измерения. Перевод результатов тестирования в баллы, используя регрессирующую и пропорциональную шкалу. Ранжирование результатов тестов. Изменения мест в группе по сравнению с предыдущими оценками.

    контрольная работа , добавлен 11.02.2013

    Режим двигательной активности. Роль факторов, обусловливающих физическую работоспособность футболистов на разных этапах многолетней подготовки. Типы эргогенных средств. Методика проведения тестов для определения уровня физической работоспособности.

ГЛАВА 3. СТАТИСТИЧЕСКАЯ ОБРАБОТКА РЕЗУЛЬТАТОВ ТЕСТИРОВАНИЯ

Статистическая обработка результатов тестирования позволяет с одной стороны, объективно определить результаты испытуемых, с другой – оценить качество самого теста, тестовых заданий, в частности оценить его надежность. Проблеме надежности уделено много внимания в классической теории тестов. Эта теория не потеряла своей актуальности и в настоящее время. Несмотря на появление, более современных теорий, классическая теория продолжает сохранять свои позиции.

3.1. ОСНОВНЫЕ ПОЛОЖЕНИЯ КЛАССИЧЕСКОЙ ТЕОРИИ ТЕСТОВ

3.2. МАТРИЦА РЕЗУЛЬТАТОВ ТЕСТИРОВАНИЯ

3.3. ГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ ТЕСТОВЫХ БАЛЛОВ

3.4. МЕРЫ ЦЕНТРАЛЬНОЙ ТЕНДЕНЦИИ

3.5. НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ

3.6. ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ ИСПЫТУЕМЫХ

3.7. КОРРЕЛЯЦИОННАЯ МАТРИЦА

3.8. НАДЕЖНОСТЬ ТЕСТА

3.9. ВАЛИДНОСТЬ ТЕСТА

ЛИТЕРАТУРА

ОСНОВНЫЕ ПОЛОЖЕНИЯ КЛАССИЧЕСКОЙ ТЕОРИИ ТЕСТОВ

Создателем классической теории тестов (Classical Theory of mental tests) является известный британский психолог, автор факторного анализа, Чальз Эдвард Спирмен (Charles Edward Spearman) (1863-1945 г.) 1 . Он родился 10 сентября 1863 года, и четверть своей жизни прослужил в британской армии. По этой причине, степень доктора философии он получил только в возрасте 41 года 2 . Диссертационное исследование Ч.Спирмен выполнял в Лейпцигской лаборатории экспериментальной психологии под руководством Вильгельма Вундта (Wilhelm Wundt). В тот период на Ч.Спирмена сильное влияние оказали работы Фрэнсиса Гальтона (Francis Galton) по тестированию интеллекта человека. Учениками Ч.Спирмена были R.Cattell и D.Wechsler. В числе его последователей можно назвать A.Anastasi, J. P. Guilford, P.Vernon, C.Burt, A.Jensen.

Большой вклад в развитие классической теории тестов внес Льюис Гуттман (Louis Guttman, 1916-1987) 3 .

Всесторонне и полно классическая теория тестов впервые изложена в фундаментальном труде Гарольда Гулликсена (Gulliksen H., 1950 г.) 4 . С тех пор теория несколько видоизменялась, в частности совершенствовался математический аппарат. Классическая теория тестов в современном изложении приведена в книге Crocker L., Aligna J. (1986 г.) 5 . Из отечественных исследователей впервые описание этой теории дал В.Аванесов (1989 г.) 6 . В работе Челышковой М.Б. (2002 г.) 7 приведены сведения о статистическом обосновании качества теста.

Классическая теория тестов основывается на следующих пяти основных положениях.

1. Эмпирически полученный результат измерения (X) представляет собой сумму истинного результата измерения (T) и ошибки измерения (E) 8:

X = T + E (3.1.1)

Величины T и E обычно неизвестны.

2. Истинный результат измерения можно выразить как математическое ожидание E(X):

3. Корреляция истинных и ошибочных компонентов по множеству испытуемых равна нулю, то есть ρ TE = 0.

4. Ошибочные компоненты двух любых тестов не коррелируют:

5. Ошибочные компоненты одного теста не коррелируют с истинными компонентами любого другого теста:

Кроме этого, основу классической теории тестов составляют два определения – параллельных и эквивалентных тестов.

ПАРАЛЛЕЛЬНЫЕ тесты должны соответствовать требованиям (1-5), истинные компоненты одного теста (T 1) должны быть равны истинным компонентам другого теста (T 2) в каждой выборке испытуемых, отвечающих на оба теста. Предполагается, что T 1 =T 2 и, кроме того, равны дисперсии s 1 2 = s 2 2 .

Эквивалентные тесты должны соответствовать всем требованием параллельных тестов за исключением одного: истинные компоненты одного теста не обязательно должны равняться истинным компонентам другого параллельного теста, но отличаться они должны на одну и ту же константу с .

Условие эквивалентности двух тестов записывается в следующем виде:

где c 12 - константа различий результатов первого и второго тестов.

На основе приведенных положений построена теория надежности тестов 9,10 .

то есть, дисперсия полученных тестовых баллов равна сумме дисперсий истинных и ошибочных компонентов.

Перепишем это выражение в следующем виде:

(3.1.3)

Правая часть этого равенства представляет собой надежность теста (r ). Таким образом надежность теста можно записать в виде:

На основе этой формулы в последующем были предложены различные выражения для нахождения коэффициента надежности теста. Надежность теста представляет собой его важнейшую характеристику. Если неизвестна надежность, то результаты тестирования невозможно интерпретировать. Надежность теста характеризует его точность как измерительного инструмента. Высокая надежность означает высокую повторяемость результатов тестирования в одинаковых условиях.

В классической теории тестов важнейшей проблемой является определение истинного тестового балла испытуемого (T). Эмпирический тестовый балл (X) зависит от многих условий – уровня трудности заданий, уровня подготовленности испытуемых, количества заданий, условий проведения тестирования и т.д. В группе сильных, хорошо подготовленных испытуемых, результаты тестирования будут как правило, лучше,. чем в группе слабо подготовленных испытуемых. В этой связи остается открытым вопрос о величине меры трудности заданий на генеральной совокупности испытуемых. Проблема заключается в том, что реальные эмпирические данные получают на вовсе не случайных выборках испытуемых. Как правило, это учебные группы, представляющие собой множество учащихся достаточно сильно взаимодействующих между собой в процессе учения и обучающиеся в условиях, часто не повторяющихся для других групп.

Найдем s E из уравнения (3.1.4)

Здесь в явной форме показана зависимость точности измерения от величины стандартного отклонения s X и от надежности теста r .

Первый компонент, теория тестов, содержит описание статистических моделей обработки диагностических дан­ных. Здесь содержатся модели анализа ответов в тестовых заданиях и модели подсчета суммарных результатов теста. Мелленберг (1980, 1990) назвал это «психометрией». Клас­сическая теория тестов, современная теория тестов (или модель анализа ответов на задания тестов - IRT) и модель


выборки заданий составляют три наиболее важных типа моделей теории тестов. Предметом рассмотрения психоди­агностики являются первые две модели.

Классическая теория тестов. На основе этой теории раз­работано большинство интеллектуальных и личностных те­стов. Центральным понятием этой теории является понятие «надежности». Под надежностью понимается согласован­ность результатов при повторном оценивании. В справоч­ных пособиях это понятие обычно представляется очень кратко, а затем дается подробное описание аппарата мате­матической статистики. В этой, вводной, главе мы предста­вим сжатое описание основного значения отмеченного понятия. В классической теории тестов под надежностью понимается повторяемость результатов нескольких проце­дур измерения (преимущественно измерений при помощи тестов). Понятие надежности предполагает вычисление ошибки измерения. Результаты, полученные в процессе тестирования, могут быть представлены как сумма истин­ного результата и ошибки измерения:

Xi = Ti + Еj

где Xi - оценка полученных результатов, Ti - истин­ный результат, а Еj - ошибка измерения.

Оценка полученных результатов - это, как правило, количество правильных ответов на задания теста. Истин­ный результат можно рассматривать как истинную оценку в платоновском смысле (Gulliksen, 1950). Широко распро­страненным является понятие ожидаемых результатов, т.е. представлений о баллах, которые могут быть получены в результате большого числа повторений процедур измере­ния (Lord & Novich, 1968). Но проведение одной и той же процедуры оценивания с одним человеком не представля­ется возможным. Поэтому необходим поиск других вариан­тов решения проблемы (Witlman, 1988).

В рамках этой концепции делаются некоторые допуще­ния относительно истинных результатов и ошибок измере­ния. Последние принимаются в качестве независимого фактора, что, конечно, является вполне обоснованным предположением, так как случайные колебания результа­тов не дают ковариаций: r ЕЕ =0.

Предполагается, что корреляции между истинными бал­лами и ошибками измерения не существует: r EE =0.


Суммарная ошибка равна 0, т.к. в качестве истинной оценки берется среднее арифметическое значение:

Эти допущения приводят нас в итоге к известному опре­делению надежности как отношения истинного результата к общей дисперсии или выражению: 1 минус отношение, в числителе которого ошибка измерения, а в знаменателе - общая дисперсия:


, ИЛИ

Из этой формулы определения надежности получаем, что дисперсия ошибки S 2 (E) равна общей дисперсии в числе случаев (1 – r XX "); таким образом, стандартная ошибка из­мерения определяется по формуле:

После теоретического обоснования надежности и его производных необходимо определить индекс надежности того или иного теста. Существуют практические процедуры оценивания надежности тестов, такие как использование взаимозаменяемых форм (параллельные тесты), расщепле­ние заданий на две части, повторное тестирование и изме­рение внутренней согласованности. Каждый справочник содержит индексы постоянства тестовых результатов:

r XX ’ =r(x 1 , x 2)

где r XX ’ - коэффициент стабильности, а x 1 и x 2 - результаты двух измерений.

Понятие надежности взаимозаменяемых форм введено и разработано Гулликсеном (1950). Данная процедура до­статочно трудоемка, поскольку связана с необходимостью создания параллельной серии заданий

r XX ’ =r(x 1 , x 2)

где r XX ’ - коэффициент эквивалентности, а x 1 и x 2 - два параллельных теста.

Следующая процедура - расщепление основного теста на две части А и В - более проста в использовании. Пока­затели, полученные по обеим частям теста, коррелируются. С помощью формулы Спирмена-Брауна оценивается на­дежность теста в целом:

где А и В - две параллельные части теста.

Следующий метод - определение внутренней согласо­ванности выполнения заданий теста. Этот метод основан на определении ковариаций отдельных заданий. Sg - диспер­сия произвольно выбранного задания, и Sgh - ковариация двух произвольно выбранных заданий. Наиболее часто ис­пользуемый коэффициент для определения внутренней со­гласованности - это «коэффициент альфа» Кронбаха. Используются также формула КР20 и λ-2 (лямбда-2).

В классической концепции надежности определяются ошибки измерения, возникающие как в процессе тестиро­вания, так и в процессе наблюдений. Источники этих оши­бок различны: это могут быть и личностные особенности, и особенности условий тестирования, и сами тестовые зада­ния. Существуют конкретные методы вычисления ошибок. Мы знаем, что наши наблюдения могут оказаться ошибоч­ными, наши методические инструменты несовершенны так же, как несовершенны и сами люди. (Как не вспомнить Шекспира: «Ненадежен ты, чье имя человек»). То, что в классической теории тестов ошибки измерения эксплици­руются и объясняются, является важным положительным моментом.

Классическая теория тестов имеет ряд существенных особенностей, которые можно рассматривать и как ее недо­статки. Некоторые из этих характеристик отмечаются в справочниках, но их значение (с житейской точки зрения) подчеркивается нечасто, как не отмечается и то, что с тео­ретической или методической точки зрения их следует счи­тать недостатками.

Первое. Классическая теория тестов и понятие надежно­сти ориентированы на подсчет суммарных тестовых пока­зателей, представляющих собой результат сложения оценок, полученных в отдельных заданиях. Так, при работе


Второе. Коэффициент надежности предполагает оценку величины разброса измеряемых показателей. Отсюда сле­дует, что коэффициент надежности будет ниже, если (при равенстве других показателей) выборка является более од­нородной. Не существует единого коэффициента внутрен­ней согласованности заданий теста, этот коэффициент всегда «контекстуален». Крокер и Альджина (1986), напри­мер, предлагают специальную формулу «коррекции для гомогенной выборки», предназначенную для самых высо­ких и самых низких результатов, полученных проходящи­ми тестирование. Для диагноста важно знать характеристики вариаций в выборочной совокупности, иначе он не сможет использовать коэффициенты внутрен­ней согласованности, указанные в руководстве к данному тесту.

Третье. Феномен сведения к показателю среднего ариф­метического является логическим следствием классической концепции надежности. Если оценка в тесте колеблется (т.е. она недостаточно надежна), то вполне возможно, что при повторении процедуры субъекты, имеющие низкие по­казатели, получат более высокие баллы, и наоборот, субъ­екты с высокими показателями - низкие. Этот артефакт процедуры измерения нельзя ошибочно принять за истин­ное изменение или проявление процессов развития. Но в то же время разграничить их нелегко, т.к. никогда нельзя исключить возможность изменения в ходе развития. Для полной уверенности необходимо"сравнение с контрольной группой.

Четвертая характеристика тестов, разработанных в со­ответствии с принципами классической теории,- это на­личие нормативных данных. Знание тестовых норм позволяет исследователю адекватно интерпретировать ре­зультаты тестируемых. Вне норм тестовые оценки лишены смысла. Выработка тестовых норм - это достаточно доро­гостоящее предприятие, поскольку психолог должен пол­учить результаты тестирования на репрезентативной выборке.

2 Я. тер Лаак

Если говорить о недостатках классической концепции надежности, то здесь уместно привести высказывание Сий-тсма (1992, р. 123-125). Он отмечает, что первое и главное предположение классической теории тестов состоит в том, что тестовые результаты подчиняются интервальному принципу. Однако никаких исследований, подтверждаю­щих это предположение, нет. По сути, это «измерение по произвольно установленному правилу». Данная особен­ность ставит классическую теорию тестов в менее выгодное положение по сравнению со шкалами измерения установок и, конечно же, по сравнению с современной теорией тестов. Многие методы анализа данных (дисперсионный анализ. регрессионный анализ, корреляционный и факторный ана­лиз) основаны на допущении существования интервальной шкалы. Однако оно не имеет твердого обоснования. Рас­сматривать шкалу истинных результатов как шкалу значе­ний психологических характеристик (например, арифметических способностей, интеллекта, нейротизма) можно только предположительно.

Второе замечание касается того, что результаты выпол­нения теста - это не абсолютные показатели той или иной психологической характеристики тестируемого, их необхо­димо рассматривать лишь как результаты выполнения того или иного теста. Два теста могут претендовать на изучение одних и тех же психологических характеристик (например, интеллекта, вербальных способностей, экстраверсии), но это не означает, что эти два теста равноценны и обладают одинаковыми возможностями. Сравнение показателей двух людей, прошедших тестирование разными тестами, некорректно. То же относится и к заполнению двух разных тестов одним испытуемым. Третье замечание относится к предположению, что стандартная ошибка измерения оди­накова применительно к любому уровню измеряемых спо­собностей индивида. Однако не существует эмпирической проверки этого предположения. Так, например, нет гаран­тии того, что тестируемый с хорошими математическими способностями при работе с относительно простым арифме­тическим тестом получит высокие баллы. В этом случае высокую оценку скорее получит человек с низкими или средними способностями.

В рамках современной теории тестов или теории анализа ответов в заданиях теста содержится описание большого


количества моделей возможных ответов респондентов. Эти модели различаются положенными в их основу допущени­ями, а также требованиями по отношению к получаемым данным. Модель Раша часто рассматривается в качестве синонима теорий анализа ответов в заданиях теста (1RT). На самом деле это только одна из моделей. Представленная в ней формула для описания характеристической кривой задания g выглядит следующим образом:

где g - отдельное задание теста; ехр - функция экспо­ненты (нелинейная зависимость); δ («дельта») - уровень трудности теста.

Другие задания теста, например h, также получают соб­ственные характеристические кривые. Выполнение условия δ h >δ g (g означает, что h - более трудное задание. Следовательно, для любого значения показателя Θ («тета» - латентные свойства способностей тестируемых) вероят­ность успешного выполнения задания h меньше. Эта модель называется строгой, поскольку очевидно, что при низкой степени выраженности черты вероятность выполнения за­дания близка к нулю. В этой модели нет места угадыванию и предположениям. Для заданий с вариантами выбора нет необходимости делать предположения о вероятности успе­ха. Кроме того, эта модель строга в том смысле, что все задания теста должны иметь одинаковую дискриминатив-ную способность (высокая дискриминативность отражается в крутизне кривой; здесь возможно построение шкалы Гут-тмана, согласно которой в каждой точке характеристиче­ской кривой вероятность выполнения задания меняется от О до 1). Из-за этого условия не все задания могут быть включены в тесты, созданные на основе модели Раша.

Существует несколько вариантов этой модели (напри­мер, Birnbaura, 1968, См. Lord & Novik). Она допускает существование заданий с различной дискриминативной

способностью.

Голландский исследователь Моккен (1971) разработал две модели анализа ответов в заданиях теста, требования которых не так строги, как в модели Раша, и поэтому, возможно, более реалистичны. В качестве основного усло-

вия Моккен выдвигает положение о том, что характеристи­ческая кривая задания должна следовать монотонно, без обрывов. Все задания теста при этом направлены на изуче­ние одной и той же психологической характеристики, из­мерять которую должна в. Допускается любая форма этой зависимости, пока она не прервется. Следовательно, форма характеристической кривой не определяется какой-либо специфической функцией. Такая «свобода» позволяет ис­пользовать больше заданий теста, и уровень оценивания при этом оказывается не выше, чем обычный.

Методология моделей ответов на задания теста (IRT) отличается от методологии большинства эксперименталь­ных и корреляционных исследований. Математическая мо­дель предназначена для изучения поведенческих, когнитивных, эмоциональных характеристик, а также фе­номенов развития. Эти рассматриваемые феномены часто ограничиваются ответами на задания, что позволило Мел-ленбергу (1990) назвать теорию IRT «мини-теорией о ми­ни-поведении». Результаты исследования могут быть в определенной степени представлены как кривые согласо­ванности, особенно в тех случаях, когда теоретические представления об изучаемых характеристиках отсутству­ют. До сих пор в нашем распоряжении имеются лишь еди­ницы тестов интеллекта, способностей и личностных тестов, созданных на основе многочисленных моделей тео­рии IRT. Варианты модели Раша чаще используются при разработке тестов достижений (Verhelst, 1993), а модели Моккена больше подходят для феноменов развития (см. также гл. 6).

Ответ тестируемого на задания теста является основной единицей моделей IRT. Тип ответа определяется степенью выраженности у человека изучаемой характеристики. Та­кой характеристикой могут быть, например, арифметиче­ские или пространственные способности. В большинстве случаев это тот или иной аспект интеллекта, характеристи­ки достижений или личностные особенности. Предполага­ется, что между положением данного конкретного человека в некотором диапазоне изучаемой характеристики и веро­ятностью успешного выполнения того или иного задания существует нелинейная зависимость. Нелинейность этой зависимости в определенном смысле интуитивно понятна. Известные фразы «Всякое начало трудно» (медленный не-


линейный старт) и «Стать святым не так просто», означают что дальнейшее совершенствование после достижения оп­ределенного уровня идет трудно. Кривая медленно прибли­жается, но почти никогда не достигает 100%-го уровня успеха.

Некоторые модели скорее противоречат нашему интуи­тивному пониманию. Возьмем такой пример. Человек с ин­дексом выраженности произвольной характеристики равным 1,5 имеет 60-процентную вероятность успеха при выполнении задания. Это противоречит нашему интуитив­ному пониманию такой ситуации, ведь можно либо успеш­но справиться с заданием, либо не справиться с ним вообще. Возьмем такой пример: 100 раз человек пытается взять высоту 1м 50 см. Успех сопутствует ему 60 раз, т.е. он имеет 60-процентную вероятность успеха.

Для оценки степени выраженности характеристики не­обходимо, по крайней мере, два задания. Модель Раша предполагает определение выраженности характеристик вне зависимости от трудности задания. Это также противо­речит нашему интуитивному пониманию: предположим, что человек имеет 80-процентную вероятность прыгнуть выше 1,30 м. Если это так, то в соответствии с характери­стической кривой заданий он имеет 60-процентную веро­ятность прыгнуть выше 1,50 м и 40-процентную вероятность прыгнуть выше 1,70 м. Следовательно, вне за­висимости от значения независимой переменной (высоты) можно оценить способность человека прыгать в высоту.

Существует около 50 моделей IRT (Goldstein & Wood, 1989).Имеется множество нелинейных функций, описыва­ющих (объясняющих) вероятность успеха в выполнении задания или группы заданий. Требования и ограничения этих моделей различны, и эти различия могут быть обнару­жены при сопоставлении модели Раша и шкалы Моккена. К требованиям этих моделей можно отнести:

1) необходимость определения исследуемой характеристи­ки и оценку позиции человека в диапазоне этой черты;

2) оценку последовательности заданий;

3) проверку конкретных моделей. В психометрии разрабо­тано множество процедур для проверки модели.

В некоторых справочных пособиях теория IRT рассмат­ривается как форма анализа заданий теста (см., например,

Croker& Algina, J 986). Можно, однако, отстаивать ту точку зрения, что теория IRT - это «мини-теория о мини-пове­дении». Сторонники теории IRT замечают, что если-несо­вершенны концепции (модели) среднего уровня, то что же можно сказать о более сложных конструктах в психологии?

Классическая и современная теории тестов. Люди не мо­гут не сравнивать вещи, которые выглядят почти одинако­во. (Возможно, житейский эквивалент психометрии и состоит, главным образом, в сравнении людей по значимым характеристикам и выборе между ними). Каждая из пред­ставленных теорий - и теория измерения ошибок оцени­вания, и математическая модель ответов на задания теста - имеет своих сторонников (Goldstein & Wood, 1986).

Модели IRT не вызывают упреков в том, что это «оцени­вание по правилам», в отличие от классической теории те­стов. Модель IRT ориентирована на анализ оцениваемых характеристик. Характеристики личности и характеристи­ки заданий оцениваются с помощью шкал (порядковых или интервальных). Более того, возможно сопоставление пока­зателей выполнения разных тестов, направленных на изу­чение сходных характеристик. Наконец, надежность неодинакова для каждого значения на шкале, а средние показатели обычно являются более надежными, чем пока­затели, расположенные в начале и в конце шкалы. Таким образом, модели IRT в теоретическом отношении представ­ляются более совершенными. Существует и различия в практическом использовании современной теории тестов и классической теории (Sijstma, 1992, стр. 127-130). Совре­менная теория тестов более сложна по сравнению с класси­ческой, поэтому она реже используется неспециалистами. Более того, IRT предъявляет особые требования к задани­ям. Это означает, что задания должны быть исключены из теста, если они не удовлетворяют требованиям модели. Данное правило относится далее к тем заданиям, которые входили в состав широко используемых тестов, построен­ных по принципам классической теории. Тест становится короче, и, следовательно, надежность его снижается.

IRT предлагает математические модели для изучения реальных феноменов. Модели должны помочь нам понять ключевые аспекты этих феноменов. Однако здесь кроется основной теоретический вопрос. Модели можно рассматри-


ватькак подход к изучению сложной реальности, в которой мы живем. Но модель и реальность - не одно и то же. Согласно пессимистическому взгляду, возможно моделиро­вание лишь единичных (и притом не самых интересных) типов поведения. Также можно встретить утверждение, что реальность вообще не подлежит моделированию, т.к. она подчиняется не одним лишь причинно-следственным зако­нам. В лучшем случае возможно моделирование отдельных (идеальных) поведенческих феноменов. Существует и дру­гой, более оптимистичный, взгляд на возможности модели-рования. Приведенная выше позиция блокирует возможность глубокого постижения природы феноменов человеческого поведения. Применение той или иной моде­ли поднимает некоторые обшие, фундаментальные вопро­сы. На наш взгляд, не подлежит сомнению, что IRT является концепцией теоретически и технически превосхо­дящей классическую теорию тестов.

Практическим назначением тестов, на какой бы теоре­тической основе они не создавались, является определение значимых критериев и установление на их основе характе­ристик тех или иных психологических конструктов. Имеет ли модель IRT преимущества и в этом отношении? Вполне возможно, что тесты, созданные на основе этой модели, не дают более точного прогноза по сравнению с тестами, со­зданными на основе классической теории, и возможно, что их вклад в разработку психологических конструктов не яв­ляется более весомым. Диагносты предпочитают такие кри­терии, которые непосредственно относятся к отдельному человеку, институту или сообществу. Модель, более совер­шенная в научном отношении, «ipso facto»* не определяет более подходящий критерий и в определенной степени ог­раничена в объяснении научных конструктов. Очевидно, что разработка тестов на основе классической теории будет продолжаться, но вместе с тем будут создаваться и новые модели IRT, распространяющиеся на изучение большего числа психологических феноменов.

В классической теории тестов различаются понятия «на­дежности» и «валидности». Тестовхяе результаты должны быть надежны, т.е. результаты первоначального и повтор­ного тестировании должны согласовываться. Кроме того,

* ipso facto (лак) - сама по себе (прим. перев.).

результаты должны быть свободны (насколько это возмож­но) от ошибок оценивания. Наличие валидности - одно из требований, предъявляемых к полученным результатам. При этом надежность рассматривается как необходимое, но еще не достаточное условие валидности теста.

Понятие валидности предполагает, что полученные ре­зультаты относятся к чему-либо важному в практическом или теоретическом отношении. Выводы, сделанные на ос­нове тестовых оценок, должны быть валидными. Наиболее часто говорят о двух видах валидности: прогностической (критериальной) и конструктной. Существуют также и другие виды валидности (см. гл. 3). Кроме того, валидность может быть определена и в случае квазиэкспериментов (Cook & Campbell, 1976, Cook & Shadish, 1994). Однако основным видом валидности все же является прогностиче­ская валидность, под которой понимается возможность предсказывать по тестовому результату нечто существен­ное о поведении в будущем, а также возможность более глубокого понимания того или иного психологического свойства или качества.

Представленные типы валидности обсуждаются в каж­дом справочнике и сопровождаются описанием методов анализа валидности теста. Факторный анализ более подхо­дит для определения конструктной валидизации, а уравне­ния линейной регрессии используются для анализа прогностической валидности. Те или иные характеристики (успеваемость, эффективность терапии) могут быть пред­сказаны на основе одного или нескольких показателей, пол-ученных при работе с интеллектуальными или личностными тестами. Такие техники обработки данных, как корреляционный, регрессионный, дисперсионный ана­лиз, анализ частичных корреляций и дисперсий, служат для определения прогностической валидности теста.

Также часто описывается содержательная валидность. Предполагается, что все задачи и задания теста должны принадлежать специфической области (психических свойств, поведения и т.д.). Понятие содержательной валид­ности характеризует соответствие каждого задания теста измеряемой области. Содержательная валидность иногда рассматривается как часть надежности или «обобщаемость» (Cronbach, Gleser, Nanda & Rajaratnam, 1972). Однако при


выборе заданий для тестов достижений в конкретной пред­метной области важно также обращать внимание на прави­ла включения заданий в тест.

В классической теории тестов надежность и валидность рассматриваются относительно независимо друг от друга. Но существует и другое понимание соотношения этих по­нятий. Современная теория тестов основывается на приме­нении моделей. Параметры оцениваются внутри некоторой модели. Если задание не соответствует требованиям моде­ли, то в рамках этой модели оно признается невалидным. Конструктная валидизации представляет собой часть про­верки самой модели. Эта валидизации относится главным образом к проверке существования одномерной латентной исследуемой черты с известными шкальными характери­стиками. Шкальные оценки, несомненно, могут быть ис­пользованы для определения соответствующих критериев, и возможна их корреляция с показателями других конст­руктов для сбора информации о конвергентной и диверген­тной валидности конструкта.

Психодиагностика аналогична языку, описываемому как единство четырех компонентов, представленных на трех уровнях. Первый компонент, теория тестов, аналогичен синтаксису, грамматике языка. Порождающая (генератив­ная) грамматика - это, с одной стороны, остроумная мо­дель, с другой - система, подчиняющаяся правилам. С помощью этих правил на основе простых утвердительных предложений строятся сложные. При этом, однако, данная модель оставляет в стороне описание того, как организован процесс коммуникации (что передается и что воспринима­ется), и с какими целями он осуществляется. Для понима­ния этого требуются дополнительные знания. То же можно сказать и о теории тестов: она является необходимой в пси­ходиагностике, но она не способна объяснить, что психоди­агност делает и каковы его цели.

1.3.2. Психологические теории и психологические конструкты

Психодиагностика - это всегда диагностика чего-то конкретного: личностных характеристик, поведения, мыш­ления, эмоций. Тесты предназначены оценивать индивиду­альные различия. Существует несколько концепций

индивидуальных различий, каждая из которых имеет свои отличительные особенности. Если признается, что психо­диагностика не ограничивается только оценкой индивиду­альных различий, то тогда и другие теории приобретают существенное значение для психодиагностики. Примером является оценка различий процессов психического разви­тия и различий в социальном окружении. Хотя оценка ин­дивидуальных различий не является непременным атрибутом психодиагностики, тем не менее существуют оп­ределенные традиции исследования в этой области. Психо­диагностика начиналась с оценки различий интеллекта. Основной задачей тестов было «определение наследствен­ной передачи гениальности» (Gallon) или отбор детей для обучения (Binet, Simon). Измерение коэффициента интел­лектуальности получило теоретическое осмысление и прак-тическую разработку в трудах Спирмена (Великобритания) и Терстоуна (США). Раймонд Б.Кеттел сделал подобное для оценки личностных характеристик. Психодиагностика становится неразрывно связанной с тео­риями и представлениями об индивидуальных различиях в достижениях (оценка предельных возможностей) и формах поведения (уровень типичного функционирования). Эта традиция продолжает оставаться эффективной и сегодня. В учебных пособиях по психодиагностике гораздо реже оце­ниваются различия в социальном окружении по сравнению с рассмотрением особенностей самих процессов развития. Для этого не существует каких-либо разумных объяснений. С одной стороны, диагностика не ограничивается опреде­ленными теориями и понятиями. С другой стороны, она нуждается в теориях, поскольку именно в них определяется диагностируемое содержание (т.е. «что» диагностируется). Так, например, интеллект может рассматриваться и как общая характеристика, и как основание для множества не­зависимых друг от друга способностей. Если психодиагно­стика пытается «уйти» от той или иной теории, то тогда основой психодиагностического процесса становятся пред­ставления здравого смысла. В исследованиях применяются различные способы анализа данных, и общая логика иссле­дований определяет выбор той или иной математической модели и определяет структуру используемых психологи­ческих понятий. Такие методы математической статисти-


ки, как дисперсионный анализ, регрессионный анализ, факторный анализ, подсчет корреляций предполагают су­ществование линейных зависимостей. В случае некоррект­ного применения этих методов они «привносят» свою структуру в полученные данные и используемые конструк­ты.

Представления о различиях в социальном окружении и о развитии личности почти не оказали влияния на психоди­агностику. В учебных пособиях (см., например, Murphy & Davidshofer, 1988) рассматривается классическая теория тестов и обсуждаются соответствующие методы статисти­ческой обработки, описываются известные тесты, рассмат­риваются вопросы использования психодиагностики в практике: в психологии управления, при отборе персонала, при оценке психологических характеристик человека.

Теории индивидуальных различий (а также представле­ния о различиях между социальным окружением и о психи­ческом развитии) аналогичны изучению семантики языка. Это изучение и сущности, и содержания, и значения. Зна­чения структурируются определенным образом (подобно психологическим конструктам), например, по сходству или контрасту (аналогия, конвергенция, дивергенция).

1.3.3. Психологические тесты и другие методические средства

Третий компонент предложенной схемы - тесты, про­цедуры и методические средства, с помощью которых про­исходит сбор информации о характеристиках личности. Дрене и Сийтсма (1990, стр. 31) дают следующее определе­ние тестам: «Психологический тест рассматривается как классификация согласно определенной системе или как процедура измерения, которая позволяет вынести опреде­ленное суждение об одной или нескольких эмпирически выделенных или теоретически обоснованных характери­стиках конкретной стороны поведения человека (за рамка­ми тестовой ситуации). При этом рассматривается реакция респондентов на определенное число тщательно подобран­ных стимулов, а полученные ответы сравниваются с тесто­выми нормами».

Диагностике необходимы тесты и методики для сбора надежной, точной и валидной информации об особенностях

и характерных чертах личности, о мышлении, эмоциях и поведении человека. Помимо разработки тестовых проце­дур в этот компонент входят также следующие вопросы: как создаются тесты, как формулируются и отбираются зада­ния, как протекает процесс тестирования, каковы требова­ния к условиям проведения тестирования, как учитываются ошибки измерения, как подсчитываются и интерпретиру­ются тестовые результаты.

В процессе разработки тестов различаются рациональ­ная и эмпирическая стратегии. Применение рациональной стратегии начинается с определения основных понятий (на­пример, понятия интеллекта, экстраверсии), и в соответст­вии с этими представлениями формулируются задания теста. Примером такой стратегии может служить концеп­ция аспектного анализа (the facet theory) Гуттмана (1957, 1968, 1978). Сначала определяются различные аспекты ос­новных конструктов, затем подбираются задачи и задания таким образом, чтобы был учтен каждый из этих аспектов. Вторая стратегия состоит в том, что задания подбираются на эмпирической основе. Например, если исследователь попытается создать тест профессиональных интересов, ко­торый бы позволял дифференцировать медиков от инжене­ров, то процедура должна быть такой. Обе группы респондентов должны ответить на все задания теста, и те пункты, в ответах на которые обнаружены статистически значимые различия, входят в окончательный вариант тес­та. Если, например, между группами существуют различия в ответах на утверждение «Я люблю ловить рыбу», то это утверждение становится элементом теста. Основным поло­жением этой книги является то, что тест связан с концеп­туальной или таксономической теорией, определяющей эти характеристики.

Назначение теста обычно определено в инструкции по его применению. Тест должен быть стандартизирован для того, чтобы с его помощью можно было оценить различия между людьми, а не между условиями тестирования. Суще­ствуют, однако, отклонения от стандартизации в процеду­рах, называемых «тестированием границ возможностей» (testing the limits) и «тесты оценки потенциальных возмож­ностей в обучении» (learning potential tests). В этих услови­ях респонденту оказывается помощь в процессе


тестирования и затем оценивается влияние такой процеду­ры на результат. Подсчет баллов за ответы на задания объ­ективен, т.е. осуществляется в соответствии со стандартной процедурой. Интерпретация полученных результатов так­же строго определена и осуществляется на основе тестовых норм.

Третий компонент психодиагностики - психологиче­ские тесты, инструменты, процедуры - содержит опреде­ленные задания, которые являются наименьшими единицами психодиагностики и в этом смысле задания ана­логичны фонемам языка. Число возможных сочетаний фо­нем ограничено. Лишь определенные фонематические структуры могут образовывать слова и предложения, обес­печивающие доведение информации до слушателя. Также и тестовые задания: лишь в определенном сочетании друг с другом они могут стать эффективным средством оценки соответствующего конструкта.

Описание презентации по отдельным слайдам:

1 слайд

Описание слайда:

2 слайд

Описание слайда:

Физическими качествам принято называть врожденные (генетически унаследованные) морфофункциональные качества, благодаря которым возможна физическая (материально выраженная) активность человека, получающая свое полное проявление в целесообразной двигательной деятельности. К основным физическим качествам относят силу, быстроту, выносливость, гибкость, ловкость.

3 слайд

Описание слайда:

Двигательные способности- это индивидуальные особенности, определяющие уровень двигательных возможностей человека (В. И. Лях, 1996). Основу двигательных способностей человека составляют физические качества, а форму проявления - двигательные умения и навыки. К двигательным способностям относят силовые, скоростные, скоростно-силовые, двигательно-координационные способности, общую и специфическую выносливость

4 слайд

Описание слайда:

Схема систематизации физических (двигательных) способностей Физические (двигательные) способности Кондиционные (энергетические) Силовые Сочетания кондиционных способностей Выносливость Скоростные Гибкость Координационные (информационные) КС, относящиеся к отдельным группам двигательных действий, специальные КС Специфические КС Сочетания координационных способностей Сочетания кондиционных и координационных способностей

5 слайд

Описание слайда:

ПОЛУЧИТЬ ТОЧНУЮ ИНФОРМАЦИЮ ОБ УРОВНЕ РАЗВИТИЯ ДВИГАТЕЛЬНЫХ СПОСОБНОСТЕЙ /высокий, средний, низкий/ МОЖНО С ПОМОЩЬЮ ТЕСТОВ /или контрольных упражнений/.

6 слайд

Описание слайда:

С помощью контрольных испытаний (тестов) можно выявить абсолютные (явные) и относительные (скрытые, латентные) показатели этих способностей. Абсолютные показатели характеризуют уровень развития тех или иных двигательных способностей без учета их влияния друг на друга. Относительные показатели позволяют судить о проявлении двигательных способностей с учетом этого влияния.

7 слайд

Описание слайда:

Вышеназванные физические способности можно представить как существующие потенциально, т. е. до начала выполнения какой-либо двигательной деятельности или деятельностей (их можно называть потенциальными способностями) и как проявляющиеся реально в начале (в том числе при выполнении моторных тестов) и в процессе выполнения этой деятельности (актуальные физические способности).

8 слайд

Описание слайда:

С определенной долей условности можно говорить об ЭЛЕМЕНТАРНЫХ и физических способностях СЛОЖНЫХ физических способностях

9 слайд

Описание слайда:

РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЙ ПОЗВОЛЯЮТ РАЗЛИЧАТЬ СЛЕДУЮЩИЕ ФИЗИЧЕСКИЕ СПОСОБНОСТИ СПЕЦИАЛЬНЫЕ СПЕЦИФИЧЕСКИЕ ОБЩИЕ КС

10 слайд

Описание слайда:

Специальные физические способности относятся к однородным группам целостных двигательных действий или деятельностей: бегу, акробатическим и гимнастическим упражнениям на снарядах, метательным двигательным действиям, спортивным играм (баскетболу, волейболу).

11 слайд

Описание слайда:

О специфических проявлениях физических способностей можно говорить как о компонентах, составляющих их внутреннюю структуру.

12 слайд

Описание слайда:

Так, основными компонентами координационных способностей человека являются: способности к ориентированию, равновесию, реагированию, дифференцированию параметров движений; способности к ритму, перестроению двигательных действий, вестибулярной устойчивости, произвольному расслаблению мышц. Эти способности являются специфичными.

13 слайд

Описание слайда:

Основными компонентами структуры скоростных способностей считают быстроту реагирования, скорость одиночного движения, частоту движений и скорость, проявляемую в целостных двигательных действиях.

14 слайд

Описание слайда:

К проявлениям силовых способностей относят: статическую (изометрическую) силу, динамическую (изотоническую) силу - взрывную, амортизационную силу.

15 слайд

Описание слайда:

Большой сложностью отличается структура выносливости: аэробная, требующая для своего проявления кислородных источников расщепления энергии; анаэробная (гликолитический, креатинфосфатный источники энергии - без участия кислорода); выносливость различных мышечных групп в статических позах - статическая выносливость; выносливость в динамических упражнениях, выполняемых со скоростью 20-90% от максимальной.

16 слайд

Описание слайда:

Менее сложными являются проявления (формы) гибкости, где выделяют активную и пассивную гибкость.

17 слайд

Описание слайда:

Под общими физическими способностями следует понимать потенциальные и реализованные возможности человека, определяющие его готовность к успешному осуществлению различных по происхождению и смыслу двигательных действий. Специальные физические способности - это возможности человека, определяющие его готовность к успешному осуществлению сходных по происхож­дению и смыслу двигательных действий. Поэтому тесты дают информацию прежде всего о степени сформированности специальных и специфических физических (скоростных, координационных, силовых, выносливости, гибкости) способностей.

18 слайд

Описание слайда:

Специальные физические способности - это возможности человека, определяющие его готовность к успешному осуществлению сходных по происхождению и смыслу двигательных действий. Поэтому тесты дают информацию прежде всего о степени сформированности специальных и специфических физических (скоростных, координационных, силовых, выносливости, гибкости) способностей.

19 слайд

Описание слайда:

Задачи тестирования выявлять уровни развития кондиционных и координационных способностей, оценивать качество технической и тактической подготовленности. На основе результатов тестирования можно: сравнивать подготовленность как отдельных учащихся, так и целых групп, проживающих в разных регионах и странах; проводить спортивный отбор для занятий тем или иным видом спорта, для участия в соревнованиях; осуществлять в значительной степени объективный контроль за обучением (тренировкой) школьников и юных спортсменов; выявлять преимущество и недостатки применяемых средств, методов обучения и форм организации занятий; наконец, обосновывать нормы (возрастные, индивидуальные) физической подготовленности детей и подростков.

20 слайд

Описание слайда:

Наряду с вышеназванными задачами в практике разных стран задачи тестирования сводятся к следующему: научить самих школьников определять уровень своей физической подготовленности и планировать необходимые для себя комплексы физических упражнений; стимулировать учащихся к дальнейшему повышению своего физического состояния (формы); знать не столько исходный уровень развития двигательной способности, сколько его изменение за определенное время; стимулировать учащихся, добившихся высоких результатов, но не столько за высокий уровень, сколько за запланированное повышение личных результатов.

21 слайд

Описание слайда:

Тест - это измерение или испытание, проводимое для определения способностей или состояния человека.

22 слайд

Описание слайда:

В качестве тестов могут использоваться лишь те испытания (пробы), которые отвечают специальным требованиям: должна быть определена цель применения любого теста (или тестов); следует разработать стандартизированную методику измерения результатов в тестах и процедуру тестирования; необходимо определить надежность и информативность тестов; результаты тестов могут быть представлены в соответствующей системе оценки

23 слайд

Описание слайда:

Тест. Тестирование. Результат тестирования Система использования тестов в соответствии с поставленной задачей, организацией условий, выполнением тестов испытуемыми, оценка и анализ результатов называется тестированием. Полученное в ходе измерений числовое значение - результатом тестирования (теста).

24 слайд

Описание слайда:

В основе тестов, используемых в физической культуре, лежат двигательные действия (физические упражнения, двигательные задания). Такие тесты называются двигательными или моторными.

25 слайд

Описание слайда:

Известна классификация тестов по их структуре и по их преимущественным показаниям различают единичный и комплексный тесты. Единичный тест служит для измерения и оценки одного признака (координационной или кондиционной способности).

26 слайд

Описание слайда:

27 слайд

Описание слайда:

С помощью комплексного теста оценивается несколько признаков или компонентов разных или одной и той же способности. например, прыжок вверх с места (со взмахом рук, без взмаха рук, на заданную высоту).

28 слайд

Описание слайда:

29 слайд

Описание слайда:

ТЕСТЫ могут быть кондиционные тесты для оценки силовых способностей для оценки выносливости; для оценки скоростных способностей; для оценки гибкости координационные тесты для оценки координационных способностей, относящихся к отдельным самостоятельным группам двигательных действий, которые измеряют специальные координационные способности; для оценки специфических координационных способностей - способностей к равновесию, ориентированию в пространстве, реагированию, дифференцированию параметров движений, ритму, перестроению двигательных действий, согласованию (связи), вестибулярной устойчивости, произвольному расслаблению мышц).

30 слайд

Описание слайда:

Каждая классификация – это своеобразные ориентиры для выбора (или создания) того типа тестов, которые в большей мере соответствуют задачам тестирования.

31 слайд

Описание слайда:

КРИТЕРИИ ДОБРОТНОСТИ ДВИГАТЕЛЬНЫХ ТЕСТОВ понятие «двигательный тест» отвечает своему назначению тогда, когда тест удовлетворяет соответствующим основным критериям: надежности, стабильности, эквивалентности, объективности, информативности (валидности), а также дополнительным критериям: нормированию, сопоставляемости и экономичности. Тесты, удовлетворяющие требованиям надежности и информативности, называют добротными, или аутентичными (достоверными).

32 слайд

Описание слайда:

Под надежностью теста понимают степень точности, с которой он оценивает определенную двигательную способность независимо от требований того, кто ее оценивает. Надежность проявляется в степени совпадения результатов при повторном тестировании одних и тех же людей в одинаковых условиях; это стабильность или устойчивость результата теста индивида при повторном проведении контрольного упражнения. Другими словами, ребенок в группе обследуемых по результатам повторных тестирований (например, показа­телей прыжков, времени бега, дальности метания) устойчиво сохраняет свое ранговое место. Надежность теста определяется с помощью корреляционно-статистического анализа путем расчета коэффициента надежности. При этом используют различные способы, на основании которых судят о надежности теста.

33 слайд

Описание слайда:

Стабильность теста основывается на зависимости между первой и второй попытками, повторенными через определенное время в одинаковых условиях одним и тем же экспериментатором. Способ повторного тестирования на определение надежности называется ретестом. Стабильность теста зависит от вида теста, возраста и пола испытуемых, временного интервала между тестом и ретестом. Например, показатели кондиционных тестов или морфологических признаков при небольших временных интервалах более стабильны, чем результаты координационных тестов; у более старших детей - результаты стабильнее, чем у более младших. Ретест обычно проводится не позднее, чем через неделю. При более длительных интервалах (например, через месяц) стабильность даже таких тестов, как бег на 1000 м или прыжок в длину с места, становится уже заметно ниже.

34 слайд

Описание слайда:

Эквивалентность теста Эквивалентность теста заключается в корреляции результата теста с результатами других однотипных тестов. Например, когда надо выбрать, какой тест более адекватно отражает скоростные способности: бег на 30, 50, 60 или 100 м. Отношение к эквивалентным (гомогенным) тестам зависит от многих причин. Если надо повысить надежность оценок или выводов исследования, тогда целесообразно использовать два и больше эквивалентных теста. А если стоит задача создать батарею, содержащую минимум тестов, тогда следует применять только один из эквивалентных тестов. Такая батарея, как отмечалось, является гетерогенной, так как входящие в нее тесты измеряют разные двигательные способности. Примером гетерогенной батареи тестов является бег на 30 м, подтягивание на перекладине, наклон вперед, бег на 1000 м.

35 слайд

Описание слайда:

Надежность тестов определяют также по сопоставлению средних оценок четных и нечетных попыток, входящих в тест. Например, среднюю точность бросков в цель из 1, 3, 5, 7 и 9 попыток сравнивают со средней точностью бросков из 2, 4, 6, 8 и 10 попыток. Такой метод оценки надежности называется методом удвоения, или расщеплением. Он используется преимущественно при оценке координационных способностей и в том случае, если число попыток, образующих тестовый результат, не меньше шести.

36 слайд

Описание слайда:

Под объективностью (согласованностью) теста Под объективностью (согласованностью) теста понимают степень согласованности результатов, получаемых на одних и тех же испытуемых разными экспериментаторами (учителями, судьями, экспертами). Для повышения объективности тестирования необходимо соблюдение стандартных условий проведения теста: время тестирования, место, погодные условия; единое материальное и аппаратурное обеспечение; психофизиологические факторы (объем и интенсивность нагрузки, мотивация); подача информации (точная словесная постановка задачи теста, объяснение и демонстрация). Это так называемая объективность проведения теста. Говорят еще об интерпретационной объективности, касающейся степени независимости интерпретации результатов тестирования разными экспериментаторами.

37 слайд

Описание слайда:

В целом, как отмечают специалисты, надежность тестов можно повысить различными путями: более строгой стандартизацией тестирования, увеличением числа попыток, лучшей мотивацией испытуемых, увеличением числа оценщиков (судей, экспертов), повышением согласованности их мнений, увеличением числа эквивалентных тестов. Фиксированных значений показателей надежности теста не имеется. В большинстве случаев пользуются следующими рекомендациями: 0,95 - 0,99 - отличная надежность; 0,90 -- 0,94 -- хорошая; 0,80 -- 0,89 -- приемлемая; 0,70 - 0,79 - плохая; 0,60 - 0,69 - для индивидуальных оценок сомнительная, тест пригоден только для характеристики группы испытуемых.

38 слайд

Описание слайда:

Информативность теста это степень точности, с какой он измеряет оцениваемую двигательную способность или навык. В иностранной (и отечественной) литературе используют вместо слова «информативность» термин «валидность» (от англ. validity-обоснованность, действительность, законность). Фактически, говоря об информативности, исследователь отвечает на два вопроса: что измеряет данный конкретный тест (батарея тестов) и какова при этом степень точности измерения. Различают несколько видов валидности: логическую (содержательную), эмпирическую (на основании опытных данных) и предсказательную.

39 слайд

Описание слайда:

Важными дополнительными критериями тестов, как отмечалось, являются нормирование, сопоставляемостъ и экономичность. Суть нормирования состоит в том, что на основе результатов тестирования можно создать нормы, имеющие особое значение для практики. Сопоставляемостъ теста заключается в возможности сравнивать результаты, полученные по одному или нескольким формам параллельных (гомогенных) тестов. В практическом плане применение сопоставляемых моторных тестов снижает вероятность того, что в результате регулярного применения одного и того же теста оценивается не только и не столько уровень способности, сколько степень навыка. Одновременно сопоставляемые результаты тестов повышают достоверность выводов. Суть экономичности как критерия добротности теста состоит в том, что проведение теста не требует длительного времени, больших материальных затрат и участия многих помощников.

40 слайд

Описание слайда:

ОРГАНИЗАЦИЯ ТЕСТИРОВАНИЯ ПОДГОТОВЛЕННОСТИ ДЕТЕЙ ШКОЛЬНОГО ВОЗРАСТА Второй важной проблемой тестирования двигательных способностей (напомним, что первая - отбор информативных тестов, является организация их применения. Учитель физической культуры должен определить: в какие сроки лучше организовать тестирование, как осуществлять его на уроке и как часто следует проводить тестирование. Сроки тестирования согласуются со школьной программой, которая предусматривает обязательное двухразовое тестирование физической подготовленности учащихся.

41 слайд

Описание слайда:

Знание годичных изменений в развитии двигательных способностей детей позволяет учителю вносить соответствующие коррективы в процесс физической культуры на следующий учебный год. Однако учитель должен и может проводить более частое тестирование, вести так называемый оперативный контроль. Это целесообразно делать для того, чтобы определить, например, изменение уровня скоростных, силовых способностей и выносливости под влиянием уроков легкой атлетики в течение первой четверти. С этой целью учитель может применить тесты для оценки координационных способностей детей в начале и в конце освоения материала программы, например, по спортивным играм, для выявления изменения показателей развития этих способностей.

42 слайд

Описание слайда:

Следует учитывать, что разнообразие решаемых педагогических задач не позволяет предоставить учителю унифицированную методику тестирования, одинаковых правил проведения тестов и оценки результатов тестирования. Это требует от экспериментаторов (учителей) проявления самостоятельности в решении теоретико-методологических и организационных вопросов тестирования. Тестирование на уроке необходимо увязать с его содержанием. Другими словами, примененный тест или тесты при соблюдении соответствующих требований (как к методу исследования) должны органически входить в состав запланированных физических упражнений. Если, допустим, у детей требуется определить уровень развития скоростных способностей или выносливости, то необходимые тесты следует запланировать в ту часть урока, в которой будут решаться задачи развития соответствующих физических способностей.

43 слайд

Описание слайда:

Частота проведения тестирования во многом определяется темпами развития конкретных физических способностей, возрастно-половыми и индивидуальными особенностями их развития. Например, чтобы добиться существенного прироста быстроты, выносливости или силы, требуется несколько месяцев регулярных занятий (тренировок). В то же время для того, чтобы получить достоверный прирост гибкости или отдельных координационных способностей, требуется всего 4-12 тренировок. Достичь улучшения физического качества, если начинать «с нуля», можно и за более короткий срок. А для того, чтобы улучшить это же качество, когда оно у ребенка высокого уровня, требуется больше времени. В этой связи учитель должен глубже изучить особенности развития и совершенствования разных двигательных способностей у детей в разные возрастно-половые периоды.

44 слайд

Описание слайда:

При оценке общей физической подготовленности детей можно использовать самые разнообразные батареи тестов, выбор которых зависит от конкретных задач тестирования и наличия необходимых условий. Однако в связи с тем, что полученные результаты тестирования можно оценивать лишь путем сравнения, целесообразно выбирать тесты, которые широко представлены в теории и практике физического воспитания детей. Например, опираться на те, которые рекомендованы в программе по ФК. Для сравнения общего уровня физической подготовленности ученика или группы учащихся с помощью комплекса тестов прибегают к переводу результатов тестирования в очки или баллы. Изменение суммы очков при повторных тестированиях позволяет судить о прогрессе как отдельного ребенка, так и группы детей.

49 слайд

Описание слайда:

Важной стороной тестирования является проблема выбора теста для оценки конкретной физической способности и общей физической подготовленности.

50 слайд

Описание слайда:

Практические рекомендации и советы. ВАЖНО: Определить (выбрать) батарею (или совокупность) необходимых тестов с подробным изложением всех деталей их проведения; Установить сроки тестирования (лучше - 2-3 недели сентября - 1-е тестирование, 2-3 недели мая - 2-е тестирование); В соответствии с рекомендацией точно определить возраст детей на день тестирования и их пол; Разработать единые протоколы регистрации данных (возможно на основе использования ИКТ); Определить круг помощников и осуществить саму процедуру тестирования; Сразу провести математическую обработку данных тестирования - вычисление основных статистических параметров (средняя арифметическая, ошибка средней арифметической, стандартное отклонение, коэффициент вариации и оценки достоверности различий между средними арифметическими показателями, например параллель классов одной и той же и разных школ детей такого-то возраста и пола); Одним из значительных этапов работы может быть перевод результатов тестирования в очки или баллы. При регулярном тестировании (2 раза в год, в течение нескольких лет) это позволит учителю иметь представление о прогрессе результатов.

51 слайд

Описание слайда:

Москва «Просвещение» 2007 Книга содержит наиболее распространённые двигательные тесты по оценке кондиционных и координационных способностей учащихся. Пособие предусматривает индивидуальный подход учителя физической культуры к каждому конкретному ученику с учётом его возраста и телосложения.