Валидность качественных методов. Критерии качества метода: валидность, надежность Оценка валидности качественных методов в психологии

Другим после надежности ключевым критерием оценки качества методик является валидность. Вопрос о валидности методик решается лишь после того, как установлена достаточная ее надежность, поскольку ненадежная методика без знания ее валидности является практически бесполезной.

Следует заметить, что вопрос о валидности до последнего времени представляется одним из самых сложных. Наиболее укоренившимся определением этого понятия является то, которое приведено в книге А. Анастази: "Валидность теста - понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает" (1982. С. 126). Валидность по своей сути - это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность. По этой причине не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Другими словами, понятие валидности включает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется валидизациеи.

Валидность в первом ее понимании имеет отношение к самой методике, т.е это валидность измерительного инструмента. Такая проверка называется теоретической валидизациеи. Валидность во втором понимании уже относится не столько к методике, сколько к цели ее использования. Это прагматическая валидизация.

Итак, при теоретической валидизации исследователя интересует само свойство, измеряемое методикой. Это, по существу, означает, что проводится собственно психологическая валидизация. При прагматической валидизации суть предмета измерения (психологического свойства) оказывается вне поля зрения. Главный акцент сделан на то, чтобы доказать, что "нечто", измеряемое методикой, имеет связь с определенными областями практики.

Провести теоретическую валидизацию, в отличие от прагматической, порой оказывается значительно труднее. Не вдаваясь пока в конкретные детали, остановимся в общих чертах на том, как проверяется прагматическая валидность: выбирается какой-нибудь независимый от методики внешний критерий, определяющий успех в той или иной деятельности (учебной, профессиональной и т.п.), и с ним сравниваются результаты диагностической методики. Если связь между ними признается удовлетворительной, то делается вывод о практической эффективности, действенности диагностической методики.

Для определения теоретической валидности найти какой-либо независимый критерий, лежащий вне методики, гораздо труднее. Поэтому на ранних стадиях развития тестологии, когда концепция валидности только складывалась, бытовало интуитивное представление о том, что тест измеряет:

1) методика признавалась валидной, так как то, что она измеряет, просто "очевидно"; 2)

доказательство валидности основывалось на уверенности исследователя в том, что его метод позволяет "понять испытуемого"; 3)

методика рассматривалась как валидная (т.е. принималось утверждение, что такой-то тест измеряет такое-то качество) только потому, что теория, на основании которой строилась методика, "очень хорошая".

Принятие на веру голословных утверждений о валидности методики не могло продолжаться длительное время. Первые проявления действительно научной критики развенчали такой подход: начались поиски научно обоснованных доказательств.

Как уже говорилось, провести теоретическую валидизацию методики - это показать, действительно ли методика измеряет именно то свойство, качество, которое она, по замыслу исследователя, должна измерять. Так, например, если какой-то тест разрабатывался для того, чтобы диагностировать умственное развитие школьников, надо проанализировать, действительно ли он измеряет именно это развитие, а не какие-то другие особенности (например, личность, характер и т.п.). Таким образом, для теоретической валиди-зации кардинальной проблемой является отношение между психическими явлениями и их показателями, посредством которых эти психические явления пытаются познать. Она показывает, что замысел автора и результаты методики совпадают.

Не столь сложно осуществить теоретическую валидизацию новой методики, если для измерения данного свойства уже имеется методика с известной, доказанной валидностью. Наличие корреляции между новой и аналогичной старой методиками указывает на то, что разработанная методика измеряет то же психологическое качество, что и эталонная. И если новый метод одновременно оказывается более компактным и экономичным в проведении и обработке результатов, то психодиагносты получают возможность использовать новый инструмент вместо старого. Такой прием особенно часто используется в дифференциальной психофизиологии при создании методик диагностики основных свойств нервной системы человека (см. гл. VII).

Но теоретическая валидность доказывается не только путем сопоставления с родственными показателями, а также и с теми, где исходя из гипотезы значимых связей не должно быть. Таким образом, для проверки теоретической валидности важно, с одной стороны, установить степень связи с родственной методикой (конвергентная валидность) и отсутствие этой связи с методиками, имеющими другое теоретическое основание (дискриминантная валидность).

Гораздо труднее провести теоретическую валидизацию методики тогда, когда такой путь невозможен. Чаще всего именно с такой ситуацией сталкивается исследователь. В таких обстоятельствах только постепенное накопление разнообразной информации об изучаемом свойстве, анализ теоретических предпосылок и экспериментальных данных, значительный опыт работы с методикой позволяет раскрыть ее психологический смысл.

повседневной практики внешним критерием, соответствующим тому, что она измеряет, может быть получена информация, подкрепляющая теоретические представления о ее сущности.

Что касается прагматической валидизации, то она подразумевает проверку методики с точки зрения ее практической эффективности, значимости, полезности. Ей придают большое значение, особенно там, где встает вопрос отбора. Разработка и использование диагностических методик имеет смысл только тогда, когда есть обоснованное предположение, что измеряемое качество проявляется в определенных жизненных ситуациях, в определенных видах деятельности.

Если опять обратиться к истории развития тестологии (А Анастази, 1982; B.C. Аванесов, 1982; К.М. Гуревич, 1970; "Общая психодиагностика", 1987; Б.М Теплов, 1985 и др), то можно выделить такой период (20-30-е гг), когда научное содержание тестов и их теоретический "багаж" интересовали в меньшей степени. Важно было, чтобы тест "работал", помогал быстро отбирать наиболее подготовленных людей. Эмпирический критерий оценки тестовых заданий считался единственно верным ориентиром в решении научных и прикладных задач.

Использование диагностических методик с чисто эмпирическим обоснованием, без отчетливой теоретической базы нередко приводило к псевдонаучным выводам, к неоправданным практическим рекомендациям. Нельзя было точно назвать те способности, качества, которые тесты выявляли. Б.М. Теплов, анализируя тесты того периода, назвал их "слепыми пробами" (1985).

Такой подход к проблеме валидности тестов был характерен вплоть до начала 50-х гг. не только в США, но и в других странах. Теоретическая слабость эмпирических методов валидизации не могла не вызвать критики со стороны тех ученых, которые в разработке тестов призывали опираться не только на "голую" эмпирику и практику, но и на теоретическую концепцию. Практика без теории, как известно, слепа, а теория без практики мертва. В настоящее время теоретико-прагматическая оценка валидности методик воспринимается как наиболее продуктивная.

Для проведения прагматической валидизации методики, т.е. для оценки ее эффективности, действенности, практической значимости, обычно используется независимый внешний критерий - показатель проявления изучаемого свойства в повседневной жизни. Таким критерием может быть успеваемость (для тестов способностей к обучению, тестов достижений, тестов интеллекта), производственные достижения (для методик профессиональной направленности), эффективность реальной деятельности - рисования, моделирования и т.д. (для тестов специальных способностей), субъективные оценки (для тестов личности).

Американские исследователи Тиффин и Маккормик (1968), проведя анализ используемых для доказательства валидности внешних критериев, выделяют четыре их типа:

1) критерии исполнения (в их число могут входить такие, как количество выполненной работы, успеваемость, время, затраченное на обучение, темп роста

квалификации и т.п.);

2) субъективные критерии (они включают различные виды ответов, которые отражают отношение человека к чему-либо или к кому-либо, его мнение, взгляды, предпочтения; обычно субъективные критерии получают с помощью интервью, опросников, анкет);

3) физиологические критерии (они используются при изучении влияния окружающей среды и других ситуационных переменных на организм и психику человека; замеряется частота пульса, давление крови, электросопротивление кожи, симптомы утомления и т.д.);

4) критерии случайностей (применяются, когда цель исследования касается, например, проблемы отбора для работы таких лиц, которые менее подвержены несчастным случаям).

Внешний критерий должен отвечать трем основным требованиям:

он должен быть релевантным, свободным от помех (контаминации) и надежным.

Под релевантностью имеется в виду смысловое соответствие диагностического инструмента независимому жизненно важному критерию. Другими словами, должна быть уверенность в том, что в критерии задействованы именно те особенности индивидуальной психики, которые измеряются и диагностической методикой. Внешний критерий и диагностическая методика должны находиться между собой во внутреннем смысловом соответствии, быть качественно однородными по психологической сущности (К.М. Гуревич, 1985). Если, например, тест измеряет индивидуальные особенности мышления, умение выполнять логические действия с определенными объектами, понятиями, то и в критерии нужно искать проявление именно этих умений. Это в равной степени относится и к профессиональной деятельности. Она имеет не одну, а несколько целей, задач, каждая из которых специфична и предъявляет свои условия к выполнению. Из этого вытекает существование нескольких критериев выполнения профессиональной деятельности. Поэтому не следует проводить сопоставление успешности по диагностическим методикам с производственной эффективностью в целом. Необходимо найти такой критерий, который по характеру выполняемых операций соотносим с методикой.

Если относительно внешнего критерия неизвестно, релевантен он измеряемому свойству или нет, то сопоставление с ним результатов психодиагностической методики становится практически бесполезным. Оно не позволяет прийти к каким-либо выводам, которые могли бы дать оценку валидности методики.

Требования свободы от контаминации вызываются тем, что, например, учебная или производственная успешность зависит от двух переменных: от самого человека, его индивидуальных особенностей, измеряемых методиками, и от ситуации, условий учебы, труда, которые могут привнести помехи, "загрязнить" применяемый критерий. Чтобы в какой-то мере избежать этого, следует отбирать для исследования такие группы людей, которые находятся в более или менее одинаковых условиях. Можно использовать и другой метод. Он состоит в корректировке влияния помех. Эта корректировка носит обычно статистический характер. Так, например, производительность следует брать не по абсолютным значениям, а в отношении к средней производительности рабочих, работающих в аналогичных условиях.

Когда говорят, что критерий должен иметь статистически достоверную надежность, это означает, что он должен отражать постоянство и устойчивость исследуемой функции.

Поиски адекватного и легко выявляемого критерия относятся к очень важным и сложным задачам валидизации. В западной тестологии много методик дисквалифицировано только потому, что не удалось найти подходящего критерия для их проверки. Например, у большей части анкет данные по их валидности сомнительны, так как трудно найти адекватный внешний критерий, отвечающий тому, что они измеряют.

Оценка валидности методики может носить количественный и качественный характер.

Для вычисления количественного показателя - коэффициента валидности - сопоставляются результаты, полученные при применении диагностической методики, с данными, полученными по внешнему критерию, тех же лиц. Используются разные виды линейной корреляции (по Спирмену, по Пирсону).

Сколько испытуемых необходимо для расчета валидности? Практика показала, что их не должно быть меньше 50, однако лучше всего более 200 Часто возникает вопрос, какой должна быть величина коэффициента валидности, чтобы она считалась приемлемой? В общем отмечается, что достаточно того, чтобы коэффициент валидности был статистически значим. Низким признается коэффициент валидности порядка 0,20- 0,30, средним - 0,30-0,50 и высоким - свыше 0,60.

Но, как подчеркивают А. Анастази (1982), К.М. Гуревич (1970) и др, не всегда для вычисления коэффициента валидности правомерно использовать линейную корреляцию. Этот прием оправдан лишь тогда, когда доказано, что успех в какой-то деятельности прямо пропорционален успеху в выполнении диагностической пробы. Позиция зарубежных тестологов, особенно тех, кто занимается профпригодностью и профотбором, чаще всего сводится к безоговорочному признанию того, что для профессии больше подойдет тот, кто больше выполнил заданий в тесте. Но может быть и так, что для успеха в деятельности нужно обладать свойством на уровне 40% решения теста. Дальнейший успех в тесте уже не имеет никакого значения для профессии Наглядный пример из монографии КМ Гуревича: почтальон должен уметь читать, но читает ли он с обычной скоростью или с очень большой скоростью - это уже не имеет профессионального значения. При таком соотношении показателей методики и внешнего критерия наиболее адекватным способом установления валидности может быть критерий различий.

Возможен и другой случай: более высокий уровень свойства, чем это требует профессия, служит помехой профессиональному успеху. Так Ф Тейлор нашел, что наиболее развитые работницы производства имеют невысокую производительность труда. То есть высокий уровень их умственного развития мешает им высокопроизводительно трудиться. В этом случае для вычисления коэффициента валидности более подошел бы дисперсионный анализ или вычисление корреляционных отношений.

Как показал опыт работы зарубежных тестологов, ни одна статистическая процедура не в состоянии полностью отразить многообразие индивидуальных оценок. Поэтому часто для доказательства валидности методик используют другую модель - клинические оценки. Это не что иное, как качественное описание сущности изучаемого

свойства. В этом случае речь идет об использовании приемов, не опирающихся на статистическую обработку.

Существует несколько видов валидности, обусловленных особенностями диагностических методик, а также временным статусом внешнего критерия Во многих работах (А Анастази, 1982; Л.Ф Бурлачук, СМ. Морозов, 1989; КМ. Гуревич, 1970; Б.В Кулагин, 1984; В Черны, 1983; "Общая психодиагностика", 1987 и др) называются чаще всего следующие: 1.

Валидность "по содержанию". Этот прием используется в основном в тестах достижений. Обычно в тесты достижений включается не весь материал, который прошли учащиеся, а какая-то его небольшая часть (3-4 вопроса). Можно ли быть уверенным в том, что правильные ответы на эти немногие вопросы свидетельствуют об усвоении всего материала. На это и должна ответить проверка валидности по содержанию. Для этого проводится сопоставление успешности по тесту с экспертными оценками учителей (по данному материалу). Валидность "по содержанию" также подходит к критериально-ориентированным тестам. Иногда этот прием называют логической валидностью. 2.

Валидность "по одновременности", или текущая валидность, определяется с помощью внешнего критерия, по которому информация собирается одновременно с экспериментами по проверяемой методике. Другими словами, собираются данные, относящиеся к настоящему времени успеваемость в период испытания, производительность в этот же период и т д. С ним коррелируют результаты успешности по тесту.

"Предсказывающая" валидность (другое название - "прогностическая" валидность). Определяется также по достаточно надежному внешнему критерию, но информация по нему собирается некоторое время спустя после испытания. Внешним критерием обычно бывает выраженная в каких-нибудь оценках способность человека к тому виду деятельности, для которой он отбирался по результатам диагностических испытаний. Хотя этот прием наиболее соответствует задаче диагностических методик - предсказанию будущей успешности, применять его очень трудно. Точность прогноза находится в обратной зависимости от времени, заданного для такого прогнозирования. Чем больше проходит времени после измерения, тем большее количество факторов требуется учитывать при оценке прогностической значимости методики. Однако учесть все факторы, влияющие на предсказание, практически невозможно. 4.

Естественнонаучная и гуманитарная парадигма в психологии

Всю историю развития психологии можно охарактеризовать как взаимоотношения двух противоположных подходов - естественнонаучного и гуманитарного, причем в последние десятилетия наблюдается постепенное вытеснение первого вторым. Изначально Аристотель утверждал, что изучение души есть дело естествоиспытателя. Современное положение дел можно охарактеризовать как кризис попыток построения психологии по образцу естественной науки. Наличие отдельных разделов психологии, которые невозможно отнести к естественнонаучной линии (психоанализ, гуманистическая психология, логотерапия) лишь усугубляет кризисное состояние.

Но в отечественной психологии в настоящее время, по мнению В.И. Слободчикова и Е.И. Исаева преобладающей все еще является ориентация на естествознание, на объективность, на измерение и эксперимент как на идеал научности. Советская психология развивалась как академическая, сциентистская дисциплина. В последние годы в рамках психологической практики начала оформляться гуманистическая психология. Осознана необходимость создания особой психотехнической теории, т.е. теории, обосновывающей человековедческую, психологическую практику. По сути, это означает создание гуманитарной психологии как альтернативы естественнонаучной академической психологии .

В.Н. Сурков отмечает, что попытки психологов соответствовать естественнонаучным стандартам в области взаимодействия теории и эксперимента привели к «позитивистскому перенапряжению» психологии. Защитной реакцией психологов на давление «позитивистских ритуалов» является широкое распространение «теневой методологии» (традиции формулировать гипотезы уже после проведения исследования, выводить их из полученных данных, а не из теорий, отбирать лишь «удобные» эмпирические данные и т.п.) ..

Основными причинами, препятствующими оформлению психологии в качестве естественной науки, выступают:

o духовный характер происхождения человека, не позволяющий рассматривать его как объект первой природы или механизм;

o рефлексивность и активность человека; невозможность лишь управления человеком - в отношении человека органичны понимающая позиция, любовь, помощь, поддержка .

Данные причины аналогичны специфическим характеристикам гуманитарного познания, т.к. человек выступает как духовная ценность, а не только как «объект исследования». Основной целью психологии является понимание другого человека, объяснение определенного духовного или культурного феномена, придание смысла. Рефлексивный характер психологического знания проявляется во взаимовлиянии субъекта и объекта познания; направленность психологии предполагает не просто понимание, а активный диалог исследователя и исследуемого объекта.

Таким образом, применение требований естественнонаучного стандарта в психологии является ограниченным. По мнению многочисленных авторов, даже психологический эксперимент, не говоря уже обо всем комплексе психологического знания, должен строиться по гуманитарным канонам.

Заключение

Значительная часть дискуссий о статусе научности психологии связана не столько с обсуждением вопроса о том, является ли психология наукой, сколько с вопросом о том, на какой эталон (естественнонаучный или гуманитарный) ей следует ориентироваться (и каким критериям научности соответствовать).

Зарубежные психологи более склонны воспринимать психологию в рамках гуманитарной психологии, отечественные же психологи до сих пор придают меньшее значение гуманитарному знанию в психологии по сравнению с естественнонаучным. Но тенденцией последних лет является все же гуманизация знания психической реальности. Как справедливо отмечают многие авторы, в основе получения психологического знания должна лежать гуманитарная парадигма, но для доказательства неоспоримых фактов служит естественнонаучная, т.е. обе парадигмы в исследований психической реальности необходимы.

Но, по мнению большинства психологов, с точки зрения перспектив исследовательской деятельности именно в рамках гуманитаризации познания определяются по-настоящему сложные задачи, являющиеся достойным вызовом для научного сообщества.

Критерии валидности, применяемые к качественным исследованиям.

Валидность психодиагностических методик

Другим после надежности ключевым критерием оценки качества методик является валидность. Вопрос о валидности методики решается лишь после того, как установлена достаточная ее надежность, поскольку ненадежная методика не может быть валидной. Но самая надежная методика без знания ее валидности является практически бесполезной.

Валидность по своей сути - это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность, практическая полезность.

По этой причине не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Другими словами, понятие валидности включает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется валидизацией.

Валидность в первом ее понимании имеет отношение к самой методике, т. е. это валидность измерительного инструмента. Такая проверка называется теоретической валидизацией. Валидность во втором понимании уже относится не столько к методике, сколько к цели ее использования. Это прагматическая валидизация.

Обобщая, можно сказать следующее:

При теоретической валидизации исследователя интересует само свойство, измеряемое методикой. Это, по существу, означает, что проводится собственно психологическая валидизация;

При прагматической валидизации суть предмета измерения (психологического свойства) оказывается вне поля зрения. Главный акцент сделан на то, чтобы доказать, что нечто, измеряемое методикой, имеет связь с определенными областями практики.

Провести теоретическую валидизацию, в отличие от прагматической, порой оказывается значительно труднее. Не вдаваясь пока в конкретные детали, остановимся в общих чертах на том, как проверяется прагматическая валидность: выбирается какой-нибудь независимый от методики внешний критерий, определяющий успех в той или иной деятельности (учебной, профессиональной и т. п.), и с ним сравниваются результаты диагностической методики. Если связь между ними признается удовлетворительной, то делается вывод о практической значимости, эффективности, действенности диагностической методики.

1) методика называлась валидной, так как то, что она измеряет, просто очевидно; 2) доказательство валидности основывалось на уверенности исследователя в том, что его метод позволяет понять испытуемого; 3) методика рассматривалась как валидная (т. е. принималось утверждение, что такой-то тест измеряет такое-то качество) только потому, что теория, на основании которой строилась методика, очень хорошая.

Таким образом, провести теоретическую валидизацию методики - это доказать, что методика измеряет именно то свойство, качество, которое она по замыслу исследователя должна измерять.

Так, например, если какой-то тест разрабатывался для того, чтобы диагностировать умственное развитие детей, надо проанализировать, действительно ли он измеряет именно это развитие, а не какие-то другие особенности (например, личность, характер и т. п.). Таким образом, для теоретической валидизации кардинальной проблемой является отношение между психологическими явлениями и их показателями, посредством которых эти психологические явления пытаются познать. Это показывает, насколько замысел автора и результаты методики совпадают.

Не столь сложно провести теоретическую валидизацию новой методики, если для измерения данного свойства уже имеется методика с доказанной валидностью. Наличие корреляции между новой и аналогичной уже проверенной методикой указывает на то, что разработанная методика измеряет то же психологическое качество, что и эталонная. И если новый метод одновременно оказывается более компактным и экономичным в проведении и обработке результатов, то психодиагносты получают возможность использовать новый инструмент вместо старого.

Но теоретическая валидность доказывается не только путем сопоставления с родственными показателями, а также и с теми, где, исходя из гипотезы, значимых связей не должно быть. Таким образом, для проверки теоретической валидности важно, с одной стороны, установить степень связи с родственной методикой (конвергентная валидность) и отсутствие этой связи с методиками, имеющими другое теоретическое основание (дискриминантная валидность).

Гораздо труднее провести теоретическую валидизацию методики тогда, когда такой путь проверки невозможен. Чаще всего именно с такой ситуацией сталкивается исследователь. В таких обстоятельствах только постепенное накопление разнообразной информации о изучаемом свойстве, анализ теоретических предпосылок и экспериментальных данных, значительный опыт работы с методикой позволяет раскрыть ее психологический смысл.

Важную роль для понимания того, что методика измеряет, играет сопоставление ее показателей с практическими формами деятельности. Но здесь особенно важно, чтобы методика была тщательно проработана в теоретическом плане, т. е. чтобы имелась прочная, обоснованная научная база. Тогда при сопоставлении методики с взятым из повседневной практики внешним критерием, соответствующим тому, что она измеряет, может быть получена информация, подкрепляющая теоретические представления о ее сущности.

Важно помнить, что если доказана теоретическая валидность, то интерпретация полученных показателей становится более ясной и однозначной, а название методики соответствует сфере ее применения. Что касается прагматической валидизации, то она подразумевает проверку методики с точки зрения ее практической эффективности, значимости, полезности, поскольку диагностической методикой имеет смысл пользоваться только тогда, когда доказано, что измеряемое свойство проявляется в определенных жизненных ситуациях, в определенных видах деятельности. Ей придают большое значение особенно там, где встает вопрос отбора.

Если опять обратиться к истории развития тестологии, то можно выделить такой период (20-30-е гг. XX в.), когда научное содержание тестов и их теоретический багаж интересовали в меньшей степени. Важно было, чтобы тест работал, помогал быстро отбирать наиболее подготовленных людей. Эмпирический критерий оценки тестовых заданий считался единственно верным ориентиром в решении научных и прикладных задач.

Использование диагностических методик с чисто эмпирическим обоснованием, без отчетливой теоретической базы нередко приводило к псевдонаучным выводам, к неоправданным практическим рекомендациям. Нельзя было точно назвать те особенности, качества, которые тесты выявляли. По существу они являлись слепыми пробами.

Такой подход к проблеме валидности тестов был характерен вплоть до начала 50-х гг. XX в. не только в США, но и в других странах. Теоретическая слабость эмпирических методов валидизации не могла не вызвать критики со стороны тех ученых, которые в разработке тестов призывали опираться не только на голую эмпирику и практику, но и на теоретическую концепцию. Практика без теории, как известно, слепа, а теория без практики мертва. В настоящее время теоретико-практическая оценка валидности методик воспринимается как наиболее продуктивная.

Для проведения прагматической валидизации методики, т. е. для оценки ее эффективности, действенности, практической значимости, обычно используется независимый внешний критерий - показатель проявления изучаемого свойства в повседневной жизни. Таким критерием может быть и успеваемость (для тестов способностей к обучению, тестов достижений, тестов интеллекта), и производственные достижения (для методик профессиональной направленности), и эффективность реальной деятельности - рисование, моделирование и т. д. (для тестов специальных способностей), субъективные оценки (для тестов личности).

Американские исследователи Д. Тиффин и Е. Мак-Кормик, проведя анализ используемых для доказательства валидности внешних критериев, выделяют четыре их типа:

1) критерии исполнения (в их число могут входить такие, как количество выполненной работы, успеваемость, время, затраченное на обучение, темп роста квалификации и т. п.); 2) субъективные критерии (они включают различные виды ответов, которые отражают отношение человека к чему-либо или к кому-либо, его мнение, взгляды, предпочтения; обычно субъективные критерии получают с помощью интервью, опросников, анкет); 3) физиологические критерии (они используются при изучении влияния окружающей среды и других ситуационных переменных на организм и психику человека; замеряется частота пульса, давление крови, электросопротивление кожи, симптомы утомления И т. д.); 4) критерии случайностей (применяются, когда цель исследования касается, например, проблемы отбора для работы таких лиц, которые менее подвержены несчастным случаям).

Внешний критерий должен отвечать трем основным требованиям:

Он должен быть релевантным;

Свободным от помех;

Надежным.

Под релевантностью имеется в виду смысловое соответствие диагностического инструмента независимому жизненно важному критерию. Другими словами, должна быть уверенность в том, что в критерии задействованы именно те особенности индивидуальной психики, которые измеряются и диагностической методикой. Внешний критерий и диагностическая методика должны находиться между собой во внутреннем смысловом соответствии, быть качественно однородными по психологической сущности. Если, например, тест измеряет индивидуальные особенности мышления, умение выполнять логические действия с определенными объектами, понятиями, то и в критерии нужно искать проявление именно этих умений. Это в равной степени относится и к профессиональной деятельности. Она имеет не одну, а несколько целей, задач, каждая из которых специфична и предъявляет свои условия к выполнению. Из этого вытекает существование нескольких критериев выполнения профессиональной деятельности. Поэтому не следует проводить сопоставление успешности по диагностическим методикам с производственной эффективностью в целом. Необходимо найти такой критерий, который по характеру выполняемых операций соотносим с методикой.

Требования свободы от помех вызываются тем, что, например, учебная или производственная успешность зависит от двух переменных: от самого человека, его индивидуальных особенностей, измеряемых методиками, и от ситуации, условий учебы, труда, которые могут привнести помехи, «загрязнить» применяемый критерий. Чтобы в какой-то мере избежать этого, следует отбирать для исследования такие группы людей, которые находятся в более или менее одинаковых условиях. Можно использовать и другой метод. Он состоит в корректировке влияния помех. Эта корректировка носит обычно статистический характер. Так, например, производительность следует брать не по абсолютным значениям, а в отношении к средней производительности рабочих, работающих в аналогичных условиях

Оценка валидности методик может носить количественный и качественный характер.

Сколько испытуемых необходимо для расчета валидности?

Практика показала, что их не должно быть меньше 50, однако лучше всего более 200. Часто возникает вопрос, какой должна быть величина коэффициента валидности, чтобы она считалась приемлемой? В общем отмечается, что достаточно того, чтобы коэффициент валидности был статистически значим. Низким признается коэффициент валидности порядка 0,20-0,30, средним - 0,30-0,50 и высоким - свыше 0,60.

Но, как подчеркивают А. Анастази, К. М. Гуревич и др., не всегда для вычисления коэффициента валидности правомерно использовать линейную корреляцию. Этот прием оправдан лишь тогда, когда доказано, что успех в какой-то деятельности прямо пропорционален успеху в выполнении диагностической пробы. Позиция зарубежных тестологов, особенно тех, кто занимается профпригодностью и профотбором, чаще всего сводится к безоговорочному признанию того, что для профессии больше подойдет тот, кто больше выполнил заданий в тесте. Но может быть и так, что для успеха в деятельности нужно обладать свойством на уровне 40 % решения теста. Дальнейший успех в тесте уже не имеет никакого значения для профессии. Наглядный пример из монографии К. М. Гуревича: почтальон должен уметь читать, но читает ли он с обычной скоростью или с очень большой скоростью - это уже не имеет профессионального значения. При таком соотношении показателей методики и внешнего критерия наиболее адекватным способом установления валидности может быть критерий различий.

Возможен и другой случай: более высокий уровень свойства, чем это требует профессия, служит помехой профессиональному успеху. Так, еще на заре XX в. американский исследователь Ф. Тейлор нашел, что наиболее развитые работницы производства имеют невысокую производительность труда. То есть высокий уровень их умственного развития мешал им высокопроизводительно трудиться. В этом случае для вычисления коэффициента валидности более подошел бы дисперсионный анализ или вычисление корреляционных отношений.

7. Понятия надёжности, валидности, достоверности теста по А.Г. Шмелёву .

Свойства теста

Какие другие важные следствия мы можем вывести из метафоры "тест - оружие"? Эта метафора позволяет нам точнее и глубже осознать ряд инструментальных требований к тестам, которым тесты должны соответствовать, а также нормативы применения тестов. Я вовсе не собираюсь здесь перечислять все психометрические свойства тестов, но все-таки некоторые наиболее важные стоит упомянуть - хотя бы не строго, хотя бы чисто метафорически.

1) Надежность теста . Может ли быть надежным оружие, изготовленное в кустарной полуподвальной мастерской, как говорится, "на коленках"? Это оружие будет стрелять куда попало - иногда в цель, но чаще вбок, а иной раз может и просто разорваться в руках стреляющего. Тут уместно напомнить следующее: надежные тесты не создаются в крошечных лабораториях (и тем более за письменным столом автором-одиночкой). Надежность теста не только проверяется на репрезентативной (массовой) выборке, но просто не вырабатывается без обширной статистики. Репрезентативная выборка для стандартизации теста - это своеобразный полигон для обстрела нового оружия. Только после таких полевых испытаний конструктор теста может внести целенаправленные ("зрячие") коррективы в первоначальную конструкцию своего оружия. Тем самым уже на примере этого одного свойства теста - надежности - мы видим, что? нам дает в этом контексте метафора "тест -оружие". Плохое оружие не усиливает, а, наоборот, ослабляет пользователя, подвергает его риску. Но разве можно судить о качестве оружия вообще по образцам кустарного оружия? Плохими являются не тесты вообще, а ненадежные тесты.

2) Валидность теста . Напомним, что это мера пригодности теста целям психодиагностики, мера соответствия измеряемому свойству. Куда будет стрелять оружие? Это зависит не только от надежности самого теста, но и от пользователя. Ненадежный тест не может быть валидным. Эту аксиому теории измерения в данном контексте легко понять: если вы не попадаете с пяти шагов в силуэт, то о какой валидности, о каком соответствии теста измеряемому свойству может идти речь, ведь вы же можете попасть с помощью такого "теста" не во врага, а в "своего" - того, кто рядом стоит, то есть "цепляете" с помощью теста не целевое, а иное психическое свойство. Но если сам стрелок слепой, если он - дальтоник, который не различает цвета мундиров, в которые одеты свои и чужие, если он к тому же паникер, то будет в панике палить даже из надежного стрелкового оружия и по своим, и по чужим. Таким образом, мы легко формулируем важное следствие: тест не может быть валидным в руках непрофессионала. Вот вам и еще одна аксиома тестологии, которую, увы, так трудно бывает объяснить не только массовой аудитории, но и самим психологам, ибо при словах "надежность" и "валидность" в их сознании вплывают страшные и непонятные психометрические формулы. Поэтому эти понятия кажутся им скорее математическими, чем психологическими, то есть чуждыми их "гуманитарному интеллекту".

Опять же вернемся в этом контексте к критике тестов. Можно ли судить о тесте и тем более тестах вообще, если даже вполне качественное фабричноеоружие передано в руки новобранцев-паникеров, которые то стреляют из пушки по воробьям (например, применяют тяжелую батарею IQ вроде теста Векслера для диагностики дефицита внимания), то бросаются с пистолетиком тщетно обстреливать бронированный танк (пытаются понять природу и содержательный смысл внутреннего конфликта по цветовым предпочтениям в тестике Люшера, пригодного, по моему убеждению, лишь для грубой оценки фона настроения). Любому мало-мальски сведущему в военном деле человеку как дважды два понятно: нет универсального оружия и в разных условиях боя надо применять разное. Но психика человека - более тонкая, невидимая стороннему взгляду реальность, чем поле боя. И вот мы путаем все на свете: вялую позиционную перестрелку, активную артподготовку и яростную штыковую атаку в полный рост, когда пора доставать из-за пояса гранаты. Когда вы проводите какую-нибудь очень краткую пробу из нескольких заданий (несколько спрятанных фигур из теста Готтшальда, несколько чернильных пятен Роршаха), то следует все-таки отдавать себе отчет в том, что вы с такой же вероятностью наткнетесь на диагностически ценную информацию, с какой можно поразить стальной ДОТ с помощью легкой пехотной гранаты. Результата скорее всего не будет никакого! Только следует ли после этого делать вывод о том, что все тесты неэффективны? Я бы сказал, что многие одиночные психологические тестики - это очень слабое оружие против хорошо замаскированных укреплений, против глубокоэшелонированной обороны многоэтажной человеческой психики, которая нарабатывает ко времени социальной зрелости многие слои из весьма изощренных механизмов психологической защиты. Тут мы подходим к проблеме достоверности - проблеме соотношения сознательных и неосознаваемых механизмов психологической защиты от тестирования. Р. Кэттелл назвал это в свое время проблемой мотивационных искажений. Звучит красиво, хотя речь идет о некрасивых вещах - о более или менее осознаваемой лжи.

3) Достоверность . Это проблема фальсификаций. Сформулируем в этом контексте такой несколько парадоксальный профессионально-этический норматив: "Испытуемый имеет право на ложь". В самом деле, если тест - это оружие проникновения в человеческую психику, то испытуемый имеет право на самозащиту - на то, чтобы сопротивляться этому проникновению. В конце концов, можно оправдать испытуемого, сумевшего скрыть свои проблемы, свои дефекты, мобилизовавшись на социально-желательное выполнение теста: таким способом он проявляет в момент тестирования силу своих компенсаторных механизмов, умение решать задачки на моральное развитие, умение решать задачки на интеллектуальное развитие и т.п. 5 , хотя, возможно, в повседневной жизни он ведет себя вовсе и не так. Прочность бронированного корпуса его судна, обеспечивающая ему непотопляемость, оказалась сильнее того удара, который психолог нанес из своего оружия. Честь и хвала такому испытуемому. Но этот тезис имеет и такое важное следствие: положительные результаты тестирования имеют меньшую ценность, меньшую предсказательную силу, чем негативные результаты.

Таким образом, если мы, наконец, разберемся в базисных представлениях о сущности теста, мы научимся адекватным образом его применять в социальной практике. До тех пор, пока мы неверно трактуем сущность теста, не видим адекватным образом ограничений в практике его использования, мы совершаем серьезные ошибки. Нужно ли запрещать распространение оружия в обществе, где никто толком не умеет грамотно им пользоваться? По-видимому, все-таки разумнее не запрещать вовсе, а разумно ограничить более узким кругом подготовленных аттестованных пользователей! И предоставлять им следует только сертифицированные инструменты, а не какие попало. Если горе-строители возводят многоэтажные здания на болотах или зыбучих песках без закладки прочного фундамента, т. е. нарушают все правила технологии безопасного строительства, то таким образом здание не следует строить вообще; это не значит, что следует запретить и архитектурные институты, и все заводы по производству стройматериалов, и сами строительные организации. Если кто-то использует определенные медицинские препараты не по назначению, превращая их в наркотики, то это не значит, что следует запретить фармацевтическую промышленность, хотя строгость в контроле за распространением опасных медицинских препаратов повысить, конечно, придется.

Тесты и экспертные оценки

По моему убеждению, стандартизованные тесты не дают основания для окончательного положительного диагноза (т. е. диагноза о пригодности к определенной деятельности), для этого они должны быть дополнены экспертными оценками (или другими менее стандартизованными диагностическими процедурами, включающими экспертные оценки в той или иной мере, как это, например, происходит в проективных методиках).

Таким образом, позитивный исход тестового испытания выступает логически необходимым, но не достаточным условием для окончательного позитивного заключения. Поскольку мне как тестологу, увы, хорошо известно, что с элементарной логикой у наших сограждан порой возникают серьезные проблемы 5 , схематизируем сказанное в виде следующей таблички:

Поясним это на содержательном примере. Вначале возьмем самый тривиальный случай, далекий от психологии - уже упомянутый экзамен на знание правил дорожного движения. Если кандидат сдал тест по правилам, то ему еще нельзя выдавать права - он должен пройти после этого менее формализованный экзамен на практическое вождение. Если же кандидат провалил тест, то он не допускается до следующего испытания. В этом контексте самое время также сделать и такую оговорку: отрицательный результат тестирования - не приговор. Всем понятно, что правила можно выучить, прийти снова и пересдать экзамен.

Возьмем теперь менее очевидную (не оформленную пока нормативно) процедуру тестирования кандидата при приеме на работу на предмет уровня так называемой "корпоративной лояльности". Предположим, что испытуемому при этом предъявляется совершенно примитивный тест-опросник, содержащий лобовые вопросы типа "Вам никогда не доводилось обманывать учителей при сдаче экзаменов в школе?". Как мы говорили выше, испытуемый в этом случае использует свое право на фальсификацию и отвечает "Верно, не доводилось". И какой вывод в данном случае мы сделаем? Никакой! Но если испытуемый вдруг сам в порыве откровенности отвечает "Неверно, доводилось", то по крайнем мере насторожиться следует.

В еще большей степени этот принцип относится к базовым тестам на элементарные профессиональные знания. Если кандидат в бухгалтеры не может ответить на вопрос конкурсного тест-опросника о том, что такое "план счетов", то следует ли дальше заниматься с этим кандидатом? Следует ли тратить дорогое время квалифицированных экспертов на детальное интервьюирование подобного кандидата? Конечно, нет 6 .

Таким образом, я предлагаю буквально везде, во всех отраслях практики использовать тест как первичный дешевый и формализованный фильтр, предшествующий применению более сложных и дорогих экспертных процедур. В какой-то мере подобной логикой руководствуются в настоящее время специалисты по оценке персонала, которые применяют технологию "Ассессмент-центр".

Таким образом, приведенную выше табличку следует изменить таким образом:

	Позитивный исход экспертной оценки	Негативный исход экспертной оценки
Позитивный исход теста	Вывод о пригодности	Вывод о непригодности
Негативный исход теста	Вывод о непригодности	Вывод о непригодности

Как видим, для позитивного общего заключения требуется конъюнкция (логическое "И") двух независимых событий - позитивного тестового исхода и позитивного исхода экспертной оценки. Отсутствие хотя бы одного из позитивных исходов не дает возможности делать общий позитивный вывод.

Качество такой двухфильтровой системы отбора в любом случае выше, чем любой однофильтровой - основанной только на экспертных оценках или только на тестах. А разговоры о том, что в нашей стране результаты тестирования очень легко купить (увы, такие разговоры часто затевались, например, на дискуссионном форуме портала ЕГЭ ege.edu.ru), носят либо сознательно-демагогический характер, либо опять-таки выявляют дефект логического мышления. Там, где можно купить результаты тестирования, как правило, можно купить и результаты экспертной оценки, и нужно еще специально изучать, какой из фильтров по факту является менее продажным. Если даже при широком распространении теста происходит утечка ключей, негативный исход тестирования продолжает сохранять свою ценность, но особенно важно, чтобы после позитивного исхода в дело вступали неподкупные эксперты. Если мы связываем результаты двух процедур логическим "И", то числовые результаты теста и экспертной оценки правильнее не суммировать, но умножать, то есть агрегировать не аддитивно, а мультипликативно:

где T - результат теста, Е - результат экспертной оценки, О - общая оценка. Если любой из сомножителей принимает нулевое значение (оказывается ниже минимального порога), то общий результат оказывается нулевым независимо от значения второго сомножителя. При ненулевых значениях и того, и другого компонентов формулы максимальный результат достигается в том случае, если значения Т и Е близки друг к другу. ?! Откуда это следует? И при чем тут сумма? Такой подход несколько нивелирует эффект завышения одного показатели вследствие его "покупки".

Похожая информация.

В широком смысле слова валидность, т. е. обоснованность метода, означает ϲᴏᴏᴛʙᴇᴛϲᴛʙие получаемых с его помощью эмпирических данных основным целям исследования. Вопрос о валидности качественных методов в предшествующие годы был сильно запутан специалистами по математической статистике, кᴏᴛᴏᴩые распространили весьма специфичные статистические критерии валидности на классы задач и исследовательских ситуаций, не имеющих ничего общего с идеальными объектами типа вынимаемых из корзины разноцветных шаров, кᴏᴛᴏᴩыми оперирует теория вероятности.

Прежде, чем перейти к описанию качественных исследований, особенно групповых, следует охарактеризовать их отличия от количественных исследований. Чтобы понять данные отличия полнее, крайне важно разобраться в том, что, собственно говоря, будет «ошибкой» исследования.

Количественные социологические исследования будут разновидностью исследований, в основании кᴏᴛᴏᴩых лежит математическая теория вероятности. В числе аксиоматических предпосылок ϶ᴛᴏй теории имеется весьма важная предпосылка о том, что различия между анализируемыми объектами ограничены фиксированным набором дискретных признаков. К примеру, шары, лежащие в корзине, различаются по цвету, размеру и нарисованным на них цифрам. Люди, ϲᴏᴏᴛʙᴇᴛϲᴛʙенно, могут различаться по ϲʙᴏим демографическим признакам, установкам и т. д. , причем важно отметить, что в любом конкретном анкетном опросе набор признаков ограничен числом квантифицированных вопросов анкеты, а все прочие возможные признаки предполагаются идентичными.

Основным критерием, характеризующим исследование статистического типа, будет надежность, т. е. воспроизводимость полученных результатов. В случае если провести повторный опрос по той же методике в той же самой социальной группе, и результаты обоих опросов будут идентичны - значит, они надежны. Сегодня никто не оспаривает тот факт, что при правильно проведенном массовом репрезентативном опросе с помощью формализованных анкет автоматически достигается высокая степень воспроизводимости результатов. При этом вопрос их валидности данным далеко не исчерпывается.

В математической социологии валидность исследования принято трактовать как степень ϲᴏᴏᴛʙᴇᴛϲᴛʙия средства измерения тому, что подлежало измерению . Словарь поясняет далее, что в строгом смысле слова валидизация возможна исключительно при наличии независимого внешнего критерия, но такая ситуация в социологии будет редкостью. Во всех остальных случаях валидность результатов количественных опросов будет не более чем гипотезой, оценка степени правдоподобия кᴏᴛᴏᴩой не имеет ничего общего с математическими и статистическими процедурами. Низкая степень правдоподобия многих неявных содержательных гипотез, латентно закладываемых исследователями в формулировки и структуру формализованных вопросов, а порой и полное отсутствие такого правдоподобия, будет очень серьезной и плохо осознанной проблемой.

Таким образом, статистическую надежность результатов количественных исследований не следует путать с их надежностью и обоснованностью в широком смысле ϶ᴛᴏго слова. Строго говоря, количественные исследования надежны исключительно в той мере, в какой саму проблему надежности удается свести к ее статистическому толкованию. В случае если такое сведение не удалось или в принципе невозможно, количественные данные становятся крайне ненадежной основой для выводов.

Сравнивая количественные и качественные методы с позиции их валидности, следует прежде всего отметить, что сферы их валидного применения не совпадают друг с другом. Это делает бессмысленным обобщенное сравнение их по критерию валидности. Существуют классы задач, в кᴏᴛᴏᴩых количественные методы обладают высокой, а качественные низкой валидностью. Вместе с тем существуют - и ϶ᴛᴏт аспект обычно слабо подчеркивается даже в специальной литературе - другие классы задач, в кᴏᴛᴏᴩых указанное соотношение прямо противоположно.

В задачу нашего учебника не входит рассмотрение вопросов методологии качественных методов вообще. Специфика фокус-групп, а также индивидуальных глубоких интервью, если они проводятся большими сериями, состоит по сути в том, что к ним, по крайней мере теоретически, также применимы статистические критерии обоснованности, хотя и иные, чем в количественных исследованиях.

Отметим, что текстовые расшифровки серии групповых интервью, проведенных на определенную тему, образуют массив первичных данных объемом в несколько сотен страниц. Этот массив вполне пригоден для анализа с применением статистических методов как с точки зрения его размеров, так и с позиции разнородности. Разнородность массива обеспечивается участием нескольких десятков респондентов, что уже дает основания для приблизительного распределения однотипных ответов по трехчленной или пятичленной шкале: явное меньшинство, меньшинство, примерно поровну, большинство, явное большинство. Главное, однако, состоит не в ϶ᴛᴏм. Специфика массива первичных данных групповых интервью состоит по сути в том, что:

1. Единицей анализа будет не респондент, а высказывание. Поскольку каждый респондент будет носителем многих высказываний, ϶ᴛᴏ, как минимум, на порядок увеличивает массив первичных аналитических единиц, делая его статистически значимым.

2. В задачу качественных исследований не входит определение численности или удельного веса носителей той или иной позиции в обществе или его сегменте. По отношению к такому классу проблем качественные методы невалидны.

Задачей качественных методов будет формирование списка так называемых «гипотез существования», т. е. списка мнений, оценок или высказываний, существующих в обществе и, предположительно, имеющих не нулевую степень распространения. При ϶ᴛᴏм, как отмечает Д. Отметим, что темплтон, предпочтительнее ошибиться, выявив несуществующий или малозначимый фактор, чем упустить высокозначимый.

Математический аппарат, приспособленный для решения задач подобного типа, в принципе хорошо известен. Стоит заметить, что он используется в лингвистке при составлении списков звуков и слогов, а также частотных словарей слов и словосочетаний. Этот же аппарат используется и в социологических исследованиях, осуществляемых с помощью контент-анализа. Применительно к последнему случаю математическая постановка задачи выглядит примерно так: «Имеется кандидат в президенты А, о кᴏᴛᴏᴩом пишут в газетах. Требуется составить как можно более полный список эпитетов, кᴏᴛᴏᴩыми авторы статей характеризуют данного кандидата. Какой объем газетных текстов следует изучить, ɥᴛᴏбы с вероятностью 95% число невыявленных эпитетов не превысило 5% ?»

Как и подавляющее большинство прикладных статистических задач, данная задача не решаема без определенных предварительных знаний о характере частотного распределения искомых эпитетов, а также без некᴏᴛᴏᴩых априорных допущений. Учитывая зависимость от практического удобства выбора той или иной системы допущений сама постановка задачи может варьироваться. Углубление в ϶ᴛᴏт вопрос выходит за рамки нашей темы, поскольку в прикладных исследованиях, осуществляемых с помощью метода фокус-групп, статистический аппарат, подобный описанному выше, если где-то и применяется, то исключительно в узкоспециальных исследованиях, далеких от сферы применения маркетинговых фокус-групп.
Стоит отметить, что основных причин ϶ᴛᴏму видится две. Первая - применение такого аппарата сильно удорожает исследования, а коммерческий заказчик не склонен оплачивать математические «красоты», если они никак не влияют на конечные выводы. По ряду причин, кᴏᴛᴏᴩые будут описаны ниже, и заказчики, и исследователи считают вполне достаточной ориентацию на следующий субъективный критерий: если количество новой информации, получаемой от каждой следующей группы, резко упало, исследование следует прекращать.

Вторая причина гораздо более фундаментальная. Стоит заметить, что она связана с тем, что сегодня строго операциональное и поддающееся автоматизации вычленение из текстов смысловых единиц возможно только на уровне слов и устойчивых словосочетаний. Вычленение, группировка и топологизация более сложных смысловых единиц, осуществляемые на аналитической стадии качественного социологического исследования, могут выполняться только человеком на базе еще не изученных бессознательных интеллектуальных алгоритмов. Быстрый прогресс в развитии компьютерных программ автоматизированного перевода дает возможность предположить, что с течением времени станет осуществимым автоматизированное распознавание все более сложных смысловых единиц. При этом на практику фокус-групповых исследований эта работа пока не оказывает никакого влияния. При изучении литературы по маркетинговым фокус-группам мы ни разу не встречались с упоминанием о применении контент-анализа в какой бы то ни было форме. В области академических исследований такие упоминания имеются , однако изучение данного вопроса требует специальной работы. Отметим здесь же, что в начале 90-х годов наиболее современной работой по методам компьютерного контент-анализа считалась работа Вебера .

Резюмируя, обратимся к вопросу определения областей валидных количественных и качественных исследований. Выше было показано, что данные области принципиально различны, поскольку радикально различны решаемые ими классы задач. Область валидного применения формализованных опросов только на первый взгляд кажется беспредельной или очень широкой. На самом деле она ограничена выявлением степени распространенности тех или иных знаний, мнений или установок, кᴏᴛᴏᴩые:

а) должны быть известны заранее, т. е. до проведения опроса;

б) не должны быть навязываемой респонденту фикцией или псевдосуждениями, не ϲʙᴏйственными его сознанию.

Для выявления самого факта существования знаний, мнений или установок количественные методы непригодны, что хорошо видно из следующего сравнения результатов опроса.

А. Количественное исследование

Вопрос: Что Вы предпочитаете - яблочный пирог или шоколадный кекс? (% к числу опрошенных)

Яблочный пирог - 26%

Шоколадный кекс - 22%

И то, и другое - 43%

Затрудняюсь ответить - 9%

Б. Качественное исследование

Вопрос: Что Вы предпочитаете - яблочный пирог или шоколадный кекс?

Ответ: Я не знаю. Я люблю и то, и другое.

Вопрос: Хорошо, если Не стоит забывать, что вам надо взять что-то одно, что ϶ᴛᴏ будет? Подумайте.

Ответ: Конечно, пироги различаются. В случае если у меня будет возможность взять яблочный пирог моей мамы, то я предпочту его любому шоколадному кексу. В случае если крайне важно взять какой-то яблочный пирог, то я точно не знаю.

Вопрос: От чего еще может зависеть Не стоит забывать, что ваш выбор?

Ответ: К примеру, ϶ᴛᴏ зависит от того, что я ем на обед. В случае если у меня полный обед, я думаю, что возьму яблочный пирог. Яблочный пирог - ϶ᴛᴏ большой деликатес в моей семье. Но если на обед я ел что-то легкое, типа рыбы, то лучше взять кекс. В случае если холодно, я не откажусь от шоколадного кекса .

Приведенный диалог хорошо иллюстрирует тот факт, что простой ответ «Я выбираю яблочный пирог» зависит от многих факторов, в данном случае - от того, кто приготовил ϶ᴛᴏт пирог, от степени голода, плотности обеда, температуры окружающей среды. Этот список, вероятно, может быть продолжен. Но, как и во многих других случаях, число таких факторов или, по крайней мере, наиболее распространенных из них, по-видимому, не очень велико. Задачей качественного исследования, как уже говорилось, будет выявление списка данных факторов с разумной степенью полноты. В ϶ᴛᴏй области качественные исследования обладают высокой степенью валидности. Уместно отметить, что определение частотного распределения действия выявленных факторов в изучаемой популяции - дело количественного исследования. Не стоит забывать, что важны, однако, две оговорки:

а) с практической позиции затраты на проведение количественного исследования могут превышать ожидаемый риск от принятия волевого решения, основанного на менее точной информации;

б) адекватная трансформация выявленных факторов в вопросы формализованной анкеты часто затруднена или невозможна, причем часто чрезвычайно трудно бывает даже определить возможную степень ϶ᴛᴏй неадекватности.

Эти обстоятельства нередко снижают валидность количественных исследований до такой степени, что их проведение становится нецелесообразным.

Лишь в тех случаях, когда гипотеза о валидности формулировок вопросов формализованных анкет выглядит обоснованной или правдоподобной, количественное исследование может дать валидный результат, позволяющий принять решение, основанное на более точной информации.

Валидность метода. Валидность метода исследования и диагностики (буквально означает “полноценный, пригодный, соответствующий”) показывает, в какой мере измеряется то качество (свойство, характеристика), для оценки которого он предназначен. Валидность (адекватность) говорит о степени соответствия метода своему назначению. Чем ближе раскрывается в диагностике тот признак, для обнаружения и измерения которого предназначен метод, тем выше его валидность.

Понятие валидности относится не только к методике, но и к критерию оценки ее качества, критерию валидности. Это основной признак, по которому можно практически судить о том, является ли данная методика валидной.

Выделяют несколько видов валидности диагностических методик.

Теоретическая (концептуальная) валидность определяется по соответствию показателей исследуемого качества, получаемых с помощью данной методики, показателям, получаемым посредством других методик (с показателями которых должна существовать теоретически обоснованная зависимость). Теоретическую валидность проверяют по корреляциям показателей одного и того же свойства, получаемым при помощи разных методик, связанных с одной и той же теорией.

Эмпирическая (прагматическая) валидность проверяется по соответствию диагностических показателей реальному жизненному поведению, наблюдаемым действиям и реакциям испытуемого. Если, например, с помощью некой методики мы оцениваем черты характера у данного испытуемого, то применяемая методика будет считаться практически или эмпирически валидной тогда, когда мы установим, что данный человек ведет себя в жизни именно так, как предсказывает методика, т.е. в соответствии с имеющейся у него чертой характера.

Внутренняя валидность означает соответствие содержащихся в методике заданий, субтестов, суждений и т.п. общей цели и замыслу методики в целом. Она считается внутренне невалидной или недостаточно внутренне валидной тогда, когда все или часть включенных в нее вопросов, заданий или субтестов измеряют не то, что требуется от данной методики.

Внешняя валидность – это примерно то же самое, что и эмпирическая валидность, с той лишь разницей, что в данном случае речь идет о связи между показателями методики и наиболее важными, ключевыми внешними признаками, относящимися к поведению испытуемого.

Очевидная валидность описывает представление о методе, сложившееся у испытуемого, т.е. это валидность с точки зрения испытуемого. Методика должна восприниматься обследуемым как серьезный инструмент познания его личности, чем-то схожий с медицинским диагностическим инструментарием.

Прогностическая валидность устанавливается с помощью корреляции между показателями методики и некоторым критерием, характеризующим измеряемое свойство, но в более позднее время. Л. Кронбах считает прогностическую валидность наиболее убедительным доказательством того, что методика измеряет именно то, для чего она была предназначена.

Содержательная валидность определяется через подтверждение того, что задания методики отражают все аспекты изучаемой области поведения. Содержательную валидность часто называют “логической валидностью” или “валидностью по определению”. Она означает, что методика валидна по мнению специалистов. Обычно она определяется у тестов достижений. На практике для определения содержательной валидности подбираются эксперты, которые указывают, какая область (области) поведения наиболее важна.

Из описания видов валидности следует, что не существует какого-либо единичного показателя, с помощью которого устанавливается валидность диагностической методики. Тем не менее разработчик должен представить весомые доказательства в пользу валидности предлагаемой методики.

Легко заметить прямую связь валидности с надежностью. Методика с низкой надежностью не может обладать высокой валидностью, поскольку неверен измерительный инструмент и нестабилен тот признак, который он измеряет. Такая методика при сопоставлении с внешним критерием может в одном случае показать высокие совпадения, а в другом – крайне низкие. Понятно, что при таких данных никаких выводов о соответствии методики своему назначению сделать невозможно.

Выведение коэффициента валидности – трудоемкая процедура, не обязательная в тех случаях, когда методика используется исследователем в ограниченных пределах и не предполагается ее применение в широком масштабе. К коэффициенту валидности предъявляют те же требования, что и к коэффициенту надежности: чем более методически совершенен критерий, тем выше должен быть и коэффициент валидности. Низкий коэффициент валидности чаще всего отмечается при акцентировании внимания на второстепенных аспектах.

Надежность метода исследования. Надежность – один из критериев качества результата в диагностике, относящийся к степени точности и устойчивости показателей диагностируемого признака. Чем больше надежность методики, тем свободнее она от погрешностей измерения. В самом широком смысле надежность – это характеристика того, в какой степени выявленные у испытуемых различия по результатам проведения методики являются отражением действительных различий в измеряемых свойствах и в какой мере они могут быть приписаны случайным ошибкам.

В теории диагностики понятие надежности имеет два значения: надежность методики как определенного инструмента (к примеру, пользуясь метром, мы уверены в том, что он остается неизменным, какие бы измерения мы ни производили) и относительная неизменность объекта диагностики (мы должны быть уверены, что в обычных условиях измеренная величина останется неизменной).

Понятие надежности связано с точностью измерений, вернее, с оценкой погрешности и определением на этой основе истинного значения величины.

Существуют три основных приема для оценки надежности диагностической методики.

Прием ретеста, или повторной диагностики, позволяет обработать одни и те же задания, выполненные одними и теми же испытуемыми в разное время, и просчитать взаимосвязь результатов, выраженную в коэффициенте самокорреляции.

Прием деления пополам – подборка однажды выполненных заданий делится пополам (например, в первый полутест входят задания с нечетным порядковым номером, а во второй полутест – с четным), затем устанавливаются результаты каждого испытуемого по обоим полутестам и вычисляется коэффициент корреляции между полученными результатами.

Прием параллельного теста – для измерения одних и тех же знаний конструируются два различных набора заданий, которые по своему содержанию напоминают близнецов; оба параллельных набора заданий предлагаются непосредственно друг за другом или при удобном случае.

Во всех случаях при коэффициенте корреляции методик r > 0,7 методика считается надежной (о коэффициенте корреляции см. в разд. 4.2).

В тестовой методике принято учитывать три коэффициента надежности:

1) коэффициент стабильности, или постоянства, – показатель корреляции между результатами первого и повторного испытаний одним тестом одной и той же выборки испытуемых;

2) коэффициент эквивалентности, или коэффициент корреляции, результатов тестирования одного и того же контингента испытуемых с помощью вариантов одного и того же теста либо разными, но эквивалентными по форме и цели, тестами;

3) коэффициент внутреннего постоянства, или внутренней однородности, который соответствует корреляции результатов частей теста, показанных одними и теми же испытуемыми.

3. Классификации методов педагогического исследования

Существует несколько классификаций методов педагогического исследования. В зависимости от основания классификации методы исследования в педагогике подразделяются на:

· эмпирические и теоретические;

· констатирующие и преобразующие;

· качественные и количественные;

· частные и общие;

· методы сбора эмпирических данных, проверки и опровержения гипотез и теории;

· методы описания, объяснения и прогноза;

· специальные методы, используемые в отдельных педагогических науках;

· методы обработки результатов исследования и др.

К общенаучным методам (используются разными науками) относятся:

· общетеоретические (абстракция и конкретизация, анализ и синтез, сравнение, противопоставление, индукция и дедукция, т. е. логические методы);

· социологические (анкетирование, интервьюирование, экспертные опросы, рейтинг);

· социально-психологические (социометрия, тестирование, тренинг);

· математические (ранжирование, шкалирование, индексирование, корреляция).

К конкретно-научным (конкретно-педагогическим) относятся методы, которые в свою очередь подразделяются на теоретические и эмпирические (практические).

Теоретические методы служат для интерпретации, анализа и обобщения теоретических положений и эмпирических данных. Это теоретический анализ литературы, архивных материалов и документов; анализ основных понятий и терминов исследования; метод аналогий, построение гипотез и мысленного эксперимента, прогнозирование, моделирование и др.

Эмпирические методы предназначены для создания, сбора и организации эмпирического материла - фактов педагогического содержания, продуктов воспитательной деятельности.

К эмпирическим методам относятся, например, наблюдение, беседа, интервьюирование, анкетирование, методы изучения продуктов деятельности учащихся, школьной документации, методы оценивания (рейтинг, педагогический консилиум, самооценка и т. д.), методы измерения и контроля (шкалирование, срезы, тестирование и т. п.), а также педагогический эксперимент и опытная проверка выводов исследования в условиях массовой школы. Как теоретические, так и эмпирические методы обычно используются в комплексе с математическими и статистическими методами, которые применяются для обработки данных, полученных в ходе исследования, а также для установления количественных зависимостей между изучаемыми явлениями.

Математические методы применяются для обработки полученных методами опроса и эксперимента данных, а также для установления количественных зависимостей между изучаемыми явлениями.

Наиболее распространенными математическими методами , применяемыми в педагогике, являются:

· регистрация – выявление наличия определенного качества у каждого члена группы и общий подсчет тех, у кого данное качество имеется или отсутствует (например, число учеников, активно работающих на занятии, и число пассивных);

· ранжирование (ранговая оценка) – расположение собранных данных в определенной последовательности (в порядке убывания или нарастания каких-то показателей) и соответственно определение места в этом ряду каждого исследуемого (например, составление перечня наиболее предпочитаемых одноклассников);

· шкалирование – введение цифровых показателей в оценку отдельных сторон педагогических явлений; для этой цели испытуемым задают вопросы, отвечая на которые они должны выбрать одну из указанных оценок (например, в вопросе о занятии какой-либо деятельностью в свободное время выбрать один из оценочных ответов: увлекаюсь, занимаюсь регулярно, занимаюсь нерегулярно, ничем не занимаюсь).

Статистические методы применяются при обработке массового материала – определения средних величин полученных показателей: среднего арифметического, медианы – показателя середины ряда, подсчет степени рассеивания около этих величин – дисперсии, коэффициента вариации и др.

Валидность исследования была определена Куком (Cook) и Кэмпбеллом (Campbell) в 1979 году как наилучшая из имеющихся апроксимаций истинных высказываний, включая высказывания затрагивающие причинно-следственные связи. Данное определение относится к установлению точности выводов исследования и подчеркивает относительный характер истины, которой возможно достичь в социальных науках. В любом научном исследовании исследователь должен уметь ответить на следующие вопросы:

1) существует ли зависимость между двумя переменными;

2) носит ли эта зависимость причинный характер;

3) является ли данная зависимость значимой;

4) действительно ли процедуры измерения и наблюдения относятся к исследуемым конструктам;

5) могут ли быть обобщены причинные зависимости, выявленные в ходе исследования.

Выделим следующие типы валидности, относящиеся к этим вопросам.

1. Валидность статистических выводов

Этот тип валидности соответствует проверке статистической значимости зависимости между двумя переменными. Такие выводы всегда являются вероятностными. Действительно, можно совершить два типа ошибок: решить, что зависимость является значимой, в то время, когда это не так, или решить, что значимая зависимость между переменными отсутствует, когда, напротив, она имеется.

Существуют некоторые факторы, которые могут снижать валидность статистических выводов:

1) слабая чувствительность исследований, которая проявляется при недостаточной по численности выборке или при большой изменчивости в сравниваемых группах, то есть испытуемые являются слишком разными и сильно отличаются друг от друга относительно некоторых переменных;

2) низкая надежность методик измерения или процедур манипулирования переменными, которые используются в исследовании;

3) факторы помех, присутствующие в условиях эксперимента;

4) нарушение принятых правил проведения и обработки, которые установлены для различных статистических методов.

Стратегия повышения валидности статистических выводов состоит в уменьшении вариативности ошибки путем применения, например, схемы исследования с повторными пробами или использования однородных групп. Статистическая состоятельность исследования может диагностироваться как на стадии проектирования исследования (например, проверка расчета величины выборки), так и после исследования для оценки его результатов.

2. Внутренняя валидность

Внутренняя валидность – один из самых важных типов валидности, который действительно касается отношений между зависимыми и независимыми переменными. Эта валидность связана с особым процедурами, которые позволяют определить, насколько выводы, сделанные в данном исследовании, достоверны. После того, как установлено существование зависимости между переменной X и переменной Y, необходимо решить, какая из переменных является причиной, а какая следствием, то есть определить направление данной взаимосвязи. Если Y наблюдается после X, то можно сказать, что X является причиной Y.

Однако может оказаться, что отношение зависимости между X и Y вызвано третьей переменной С. Для установления внутренней валидности необходимо рассмотреть все возможности влияния третьей переменной С на переменные X и Y и исключить их. Считается, что исследование обладает внутренней валидностью, если доказано, что существует зависимость причинно-следственного типа между зависимыми и независимыми переменными.

Причины снижения внутренней валидности исследования:

1. Смешение переменных. Это одна из наибольших опасностей для валидности эксперимента. Если в ходе эксперимента какой-либо случайный фактор (неэкспериментальная переменная) взаимодействует с зависимой переменной и это взаимодействие не может быть измерено отдельно от взаимодействия зависимой и независимой переменных, то влияние случайной и независимой переменных неразличимо. Проблема смешения переменных является особенно острой в тех исследованиях, где экспериментатор не может контролировать независимую переменную.

2. Изменения, связанные с испытуемыми. При проверке зависимых переменных изменения, произошедшие между двумя моментами наблюдения, могут быть вызваны не независимыми переменными, а изменениями, произошедшими с самими испытуемыми (например, событиями личной жизни, изменением тех или иных свойств личности и т. д.), то есть факторами "зрелости" и "истории".

Под "зрелостью" понимаются изменения, которые произошли с испытуемым между моментом пред-теста и моментом пост-теста и которые не были связаны с влиянием независимых переменных. Например, в экспериментах по моторной координации у испытуемых может наблюдаться ее улучшение за счет тренировок в период между экспериментами. Данное влияние нельзя смешивать с влиянием независимой переменной. Под фактором "истории" подразумеваются события, которые произошли с испытуемыми и которые повлияли на результаты эксперимента.

3. Влияние пред-теста. Пред-тест вызывает изменения испытуемых, и, следовательно, результаты эксперимента в некоторых случаях могут в основном зависеть от пред-теста, а не от зависимой переменной.

4. Изменение навыков исследователя. Например, исследователь, спустя некоторое время, может стать более опытным в наблюдениях и, следовательно, по-другому интерпретировать поведение испытуемых. Кроме того, на исследователя могут влиять такие факторы, как усталость, что может привести к ошибкам в экспериментах.

5. Регрессия к среднему. Это явление наблюдается тогда, когда индивиды подвергаются повторным испытаниям относительно одной и той же переменной. Установлено, что если испытуемые получили в первом испытании результаты, по величине близкие к высшим показателям шкалы, то при повторном эксперименте их результаты снижаются и становятся ближе к средним показателям, в то время как испытуемые, которые получили в первом испытании результаты, близкие к низшим, при повторном измерении достигают лучших показателей. Регрессия к среднему наблюдается также в случае ошибок, связанных с изменением переменной.

6. Отсев. Известно, что в ходе исследования некоторые испытуемые покидают группу. Оставшиеся испытуемые, естественно, отличаются от выбывших.

Предположим, что исследуется два метода модификации поведения для контроля за весом тела. Группе 1 предписана диета. Кроме того, испытуемые первой группы должны ежедневно записывать в дневник все, что они едят, точно взвешивать все блюда и подсчитывать калорийность пищи. Группе 2 была просто предписана диета. Очевидно, что некоторые испытуемые группы с более обременительным заданием выйдут из эксперимента. В конце эксперимента процент испытуемых с высокой мотивацией в этой группе будет больше. У испытуемых с более высокой мотивацией больше вероятность похудения. Поэтому исследователь может прийти к ошибочному выводу о том, что условия в первой группе более эффективны для похудения.

Некоторые авторы говорят также о конструктной валидности . Конструктная валидность подобна внутренней валидности и подразумевает соответствие между полученными результатами и теорией, которая лежит в основе исследования. Для того, чтобы оценить конструктную валидность, необходимо исключить другие возможные теоретические объяснения результатов. Если есть сомнения в том, насколько экспериментальные результаты соотносятся с теоретическими, необходимо спланировать новый эксперимент, который позволит выбрать одно из нескольких теоретических объяснений результатов. Этот тип валидности наиболее трудно получить, потому что имеются многочисленные теории, с помощью которых можно объяснить соотношение переменных, полученное в эксперименте.

Рассмотрим две причины снижения конструктной валидности. Первая – слабая связь между теорией и экспериментом. Действительно, во многих психологических исследованиях даются нечеткие операционные определения теоретических понятий. Вторая причина определяется, во‑первых, тем, что испытуемые очень часто начинают играть роль "хорошего" объекта исследования и ведут себя таким образом, чтобы доставить удовольствие экспериментатору, и во-вторых, тем, что у испытуемых, особенно в экспериментах, замеряющих их умственные способности или эмоциональную стабильность, развивается высокая тревожность относительно ожидаемой оценки.

3. Валидность процедур

Третий тип валидности – это валидность процедур, которые позволяют варьировать и измерять переменные. Даже необходимость определить в операциональных терминах концептуальные переменные, значимые для исследования, уже является источником риска. Действительно, "перевод" понятия на уровень конкретных операций может неадекватно отразить теоретические положения исследования.

Часто исследователь неосознанно стимулирует ответ, который он ожидает получить. Избежать этого можно, используя стратегии невмешательства в исследования и соответствующие методы измерения. При этом испытуемые не должны знать, что за ними наблюдают, что позволяет снять нежелательную мотивировку по отношению к эксперименту.

4. Внешняя валидность

Под внешней валидностью понимается возможность обобщать результаты исследования, то есть распространять выводы, полученные на экспериментальной выборке, на всю генеральную совокупность. Внешняя валидность существенно зависит от способа формирования выборки. Существует три основных типа выборки:

1. Случайная выборка. Например, результаты исследования группы подростков, сформированной случайным способом, будут справедливы с некоторой степенью вероятности для всех итальянских подростков. Однако такое исследование может оказаться очень сложным и дорогостоящим, так как выборка должна быть многочисленной и однородной.

2. Гетерогенная (неоднородная) выборка. В соответствии с целями исследования выделяются различные группы населения, на которых предполагается получить результаты исследования. Затем анализируется случайная выборка с тем, чтобы убедиться, что она содержит достаточное количество представителей каждой группы.

3. Выборка типичного случая. Например, дается определение среднего молодого итальянца. Для исследования используется выборка, состоящая из индивидов, удовлетворяющих этому определению. Тогда, если проводится эксперимент со студентами университета, например, на способность к ведению переговоров, то нельзя рассчитывать на то, что полученные выводы будут применимы для глав государств.

Внешнюю валидность снижает также несоответствие между явлениями, наблюдаемыми в лаборатории, и явлениями в естественных условиях. Трудно определить, имеет ли место выявленная зависимость только в лаборатории или она наблюдается и вне лаборатории. Внешняя валидность обеспечивается неоднократным проведением эксперимента в гетерогенных условиях.

Необходимо решить, какой тип валидности является главным для данного исследования. Действительно, процедуры, используемые для повышения одного типа валидности, могут снижать другие типы валидности.

Например, для повышения валидности статистических выводов исследователь должен использовать максимально разнородные объекты, снижая таким образом возможность ошибки. При этом внешняя валидность уменьшается.

Тип приоритетной валидности зависит от типа проводимого исследования. Например, если в экспериментальном исследовании устанавливается причинно-следственная зависимость между переменными, то в этом случае внутренняя валидность является основной. Напротив, при вычислении корреляционных связей между переменными невозможно установить направление причинно-следственных отношений, поэтому в данном случае внутренняя валидность не представляет интереса по сравнению с другими типами валидности.

С понятием валидности связано понятие контроля . Под контролем понимается любое средство, используемое для исключения возможности снижения валидности исследования. На практике исследователь проверяет, какие факторы могут снизить валидность исследования и какие методы могут быть использованы для нейтрализации этих факторов.

Различают шесть основных методов контроля.

1. Одним из наиболее часто используемых методов контроля является проведение эксперимента с группой испытуемых, которые не подвержены влиянию исследуемой переменной и которые сравниваются с испытуемыми, подверженными этому влиянию. Например, исследуется две группы относительно независимой переменной. Группа 1 получает воздействие и называется экспериментальной. Группа 2 не получает воздействия и называется контрольной. Результаты экспериментальной группы сравниваются с результатами контрольной группы. Если две группы были одинаковыми до экспериментального воздействия, то любое различие между ними, зафиксированное после эксперимента, может быть отнесено за счет этого воздействия.