Построение проверяющих и диагностических тестов. Павлик А.В

Таблица состояний является удобной формой задания оператором объекта диагностирования. Однако она может содержать избыточное количество проверок, в которых используется большое количество признаков. Поэтому возникает задача выбора минимального количества проверок и признаков, достаточных для решения задач контроля и диагностики.

Пусть в результате анализа объекта диагностирования была составлена функциональная модель и заполнена таблица состояний (табл. 2.6).

Таблица 2.6

Отсутствие одинаковых столбцов в таблице свидетельствует о том, что выбранный набор элементарных проверок (признаков) позволяет различать все восемь состояний, то есть таблица является проверяющей и различающей. Однако этот набор проверок является избыточным и необходимо провести оптимизацию их количества. Оптимизация тестов и выбор минимального количества проверок (признаков) осуществляется в несколько этапов .

Первый этап

Выполняется оценка проверок (признаков) на их информативность. На этом этапе отбрасываются те признаки или проверки, которые в строке имеют все нули или все единицы. То есть отбрасываются проверки (признаки), которые не различают состояния, занесенные в таблицу. В нашей таблице такой проверкой является проверка  12 .

Второй этап

Просматриваются все проверки (признаки) на предмет их тождественности отображения состояния, то есть просматривается таблица на предмет наличия одинаковых строк. Из тождественных признаков вбираются, как правило, те, которые проще всего измерить. В нашей таблице одинаковые строки соответствуют проверкам  1 и  10 , а также  8 и  11 . Следовательно, из представленного в таблице комплекса проверок следует исключить проверки  10 ,  11 ,  12 как неинформативные.

Полученная в результате таблица также является проверяющей и различающей. Однако и эта совокупность проверок все еще остается избыточной. Если бы объект контроля был идеально приспособлен для диагностики, то минимальное число проверок J, необходимое для распознавания N состояний, определялось соотношением J = log 2 N. В нашем случае для разделения восьми технических состояний выполняется девять проверок, что явно не соответствует этому соотношению. Поэтому проводится третий этап оптимизации, который может выполняться различными методами .

Наиболее часто используют метод определения минимального набора прове-рок (признаков) с помощью общей различающей логической функции и таблич-ный метод минимизации теста по максимальному числу вхожденийпроверок в различающую функцию.

Первый метод является математически строгим, позволяет выбрать оптимальный тест, но он достаточно трудоемок. Поэтому рассмотрим более простой и наглядный табличный метод.

Табличный метод минимизации теста по максимальному числу

вхождений проверок в различающую функцию

Перепишем табл. 2.6, исключив из нее неинформативные проверки  10 ,  11 ,  12 . Полученная в результате исключения этих проверок таблица представлена ниже.

Таблица 2.7

Таблица состояний с избыточным числом проверок

Пусть в j-й строке результаты проверки  j примут значение, равное единице, m j раз, а значение, равное нулю, n j раз.

Под числом вхождений проверок (признаков) данной строкипонимают произведение количества нулей на количество единиц:

. (2.6)

В последнем столбце табл. 2.7 приведены значения числа вхождений, подсчитанные для соответствующих проверок (строк). Максимальное число W =16 для трех проверок  5 ,  7 ,  8 . В тест следует выбрать одну из этих проверок. Выбирается тот признак или проверка, которые проще измерить. Например, возьмём проверку под номером пять.

Далее таблица перестраивается таким образом, чтобы она разделялась на две части. В левой половине этой таблицы собираются все состояния, у которых результат пятой проверки равен единице (S 0 , S 5 , S 6 , S 7), а в правой половине все состояния, для которых результат равен нулю (S 1 , S 2 , S 3 , S 4) (табл. 2.8).

Таблица 2.8

На втором шаге также считается количество вхождений для каждой проверки (строки) как сумма вхождений проверок, подсчитанных для первой и второй половин табл. 2.8:

Полученные значения приведены в последнем столбце табл. 2.8. Макси-мальное значение числа вхождений имеет проверка под номером семь  7 . Перестроим табл. 2.8 по  7 таким образом, чтобы новая табл. 2.9 делилась на четыре части, и чтобы в каждой из новых частей были собраны состояния, где  7 равна только единице или только нулю.

Таблица 2.9

На третьем шаге количество вхождений для каждой проверки определяется как сумма вхождений, подсчитанных для каждой из четырех частей таблицы:

Максимальное число вхождений имеет проверка  6 . В результате проверки  5 ,  7 ,  6 не различают только два состояния S 6 и S 7 . Из приведенных таблиц следует, что для их разделения необходимо выполнить проверку  2 . Таким образом мы получаем минимальный тест для разделения восьми технических состояний, в которых может находиться объект, представленный табл. 2.6. В этот тест следует ввести проверки  5 ,  7 ,  6 и  2 . При этом исходную табл. 2.6 следует преобразовать к окончательному виду (табл. 2.10)

Таблица 2.10

Таблица состояний с минимальным набором проверок

Из всего вышеизложенного можно построить дерево алгоритма определения технического состояния объекта диагностики, представленного табл. 2.6 и 2.10 (рис. 2.12).

S 0 S 1 S 2 S 3 S 4 S 5 S 6 S 7

 5

 5 = 1  5 = 0

S 0 S 5 S 6 S 7 S 1 S 2 S 3 S 4

1 0 1 0

S 0 S 5 S 6 S 7 S 3 S 4 S 1 S 2

 6  6  6  6

1 0 0 0 1 0 1 0

S 0 S 5 S 6 S 7 S 4 S 3 S 1 S 2

Рис. 2.12. Алгоритм определения состояния объекта

И функциональная модель, и граф причинно-следственных связей в конечном итоге определяют математическую модель объекта в виде таблицы состояний. Задание оператора объекта диагностирования в табличной форме достаточно удобно. Однако в ряде случаев (например, когда параметры определены на непрерывном множестве) такое представление оператора невозможно. В таких ситуациях математическая модель может быть представлена в виде аналитических зависимостей между входными возмущениями, параметрами технического состояния и диагностическими параметрами.

В технической диагностике математические (диагностические) модели объектов, устанавливающие связь между входными возмущениями, параметрами технического состояния и диагностическими параметрами (признаками) в виде аналитических зависимостей (уравнений) называются аналитическими моделями . Эти аналитические модели (зависимости) чаще всего могут быть представлены в виде алгебраических или дифференциальных уравнений. Познакомимся с некоторыми подобными моделями.

Оценка когнитивных функций является важной задачей при многих заболеваниях нервной системы, в частности, при заболеваниях головного мозга.

Проверка когнитивных нарушений также важна для определения тактики лечения, оценки эффекта проводимой терапии и для решения многих других задач.

Для существует большое количество шкал, одной из самых популярных является шкала MMSE. Название тест получил от аббревиатуры – mini-mental state examination, в переводе мини-исследование когнитивного состояния.

Тест состоит из нескольких вопросов:

Определение ориентирования. Пациента спрашивают, какая сейчас дата (год, время года, день, месяц, день недели) за каждый правильный ответ пациенту добавляется по 1 баллу. Далее спрашивают в какой стране, каком городе, в каком районе города, в каком учреждении, на каком этаже находится больной, за каждый правильный ответ также добавляется по баллу. В данном разделе, таким образом, максимально возможное количество баллов – 10.
Определение восприятия. Пациента просят выслушать и повторить три слова, не связанных между собой (например, яблоко-стол-монета или автобус-дверь-роза). При этом его предупреждают, что их нужно будет воспроизвести через несколько минут. За каждое правильно повторенное слово добавляют 1 балл. При этом следует обратить внимание, с какой попытки пациент повторил все слова.
Определение внимания и способности к счету. Пациента просят устно отнять от 100 7 и так 5 раз подряд. (100-93-86-79-72-65). За каждое правильное вычитание добавляется один балл. При ошибке пациента один раз можно спросить – уверен ли он в ответе. Если ответ был указан неправильно, просят далее отнимать из правильного числа (например, 100-7 был дан ответ 94, тогда далее спрашивают, сколько будет 93-7).
Определение функций памяти. Пациента просят вспомнить три слова, указанные во второй части. За каждое слово – 1 балл.
Определение функций речи, чтения, письма. Пациенту показывают два предмета (часы, карандаш, неврологический молоточек и т.п.). За каждый правильно названный ответ начисляется 1 балл. Просят повторить фразу: «никаких если, но, и, нет». Дается одна попытка, также 1 балл при правильном повторе. Просят прочитать инструкцию (на листке пишут – закройте глаза). Если пациент прочитывает и закрывает глаза, добавляется один балл. Далее дают прочитать задание: взять лист бумаги правой рукой, сложить пополам двумя руками и положить на колени. Потом дают лист бумаги. Если все действия выполнены правильно – начисляют 3 балла (по 1 баллу за каждый шаг). После просят написать на листе бумаги законченное предложение (1 балл). Последним заданием является рисование. Просят срисовать два пересекающихся пятиугольника. При этом правильным считается выполненное задание, если пересечение двух фигур образует четырехугольник и все углы пятиугольников сохранны. Также дается 1 балл. За весь раздел максимально, тем самым, можно получить 8 баллов.

Совокупно за весь тест максимально возможное число баллов – 30. Анализ результатов следующий:

Снижение когнитивных функций в одном случае определяется с учетом имеющегося уровня образования. При отсутствии образования снижение когнитивных функций ставится при результате менее 17 баллов, при среднем образовании при результате меньше 20 баллов, при высшем образовании при результате меньше 24 баллов.
Также существует другой подход к оценке. 29-30 баллов нет когнитивных нарушений, 24-27 баллов легкие когнитивные расстройства, 20-23 баллов деменция легкой степени (умеренные когнитивные нарушения), 11-19 баллов деменция умеренной степени (выраженные когнитивные нарушения), 0-10 баллов – тяжелая деменция. При уровне результатов шкалы меньше 19 баллов рекомендована консультация психиатра для решения вопроса о необходимости назначения специфической терапии.

В заключение хочется сказать также небольшой факт. При оценке результатов опросника необходимо обращать внимание на то, какие функции мозга страдают больше. Порой некоторые нюансы позволяют лучше диагностировать причину когнитивных нарушений.

Для характеристики информативности диагностических методов исследования служат объективные параметры, именуемые операционными характеристиками исследования (теста).

К важнейшим операционным характеристикам метода диагностики относятся:

Чувствительность (Se, sensitivity),

Специфичность (Sp, specificity).

К вспомогательным критериям информативности относятся:

Точность (Ac, accuracy),

(+VP, positive predictive value),

Прогностичность отрицательного результата (-VP, negative predictive value).

3.1. Чувствительность

Чувствительность (Se) - это способность диагностического метода давать правильный результат, который определяется как доля истинно положительных результатов среди всех проведенных тестов.

Определяется по формулам:

Оцениваемые результаты исследования сравнивается с результатами другого инструментального (лабораторного) метода исследования, принятого в качестве «золотого стандарта», данными биопсии (гистологии) или результатами другого лучевого метода. При этом данные

метода - «золотого стандарта» или биопсии являются критерием установления факта наличия или отсутствия болезни.

Чувствительность априори показывает, какова будет доля больных, у которых данное исследование даст положительный результат. Чем выше чувствительность теста, тем чаще с его помощью будет выявляться заболевание, тем, следовательно, он более эффективен.

В то же время, если такой высокочувствительный тест оказывается отрицательным, то наличие заболевания маловероятно. Поэтому их следует применять для исключения заболеваний. В силу этого высокочувствительные методы нередко называют идентификаторами, их рекомендуется применять на ранних этапах диагностического процесса, когда требуется сузить круг предполагаемых заболеваний. Необходимо также отметить, что высокочувствительный тест дает много «ложных тревог», что требует дополнительных затрат на дальнейшее обследование.

3.2. Специфичность

Специфичность (Sp) - это способность диагностического метода не давать при отсутствии заболевания ложноположительных результатов, который определяется как доля истинно отрицательных результатов среди здоровых лиц в группе исследуемых. Данный показатель определяется по формулам:

Определив специфичность, можно априори предполагать, какова доля здоровых лиц, у которых это исследование даст отрицательный результат. Чем выше специфичность метода, тем надежнее с его помощью подтверждается заболевание, и тем, следовательно, он более эффективен. Высокоспецифичные методы называются в диаг-

ностике дискриминаторами. Исследование эффективно на втором этапе диагностики, когда круг предполагаемых заболеваний сужен и необходимо с большой уверенностью доказать наличие болезни. Отрицательным фактором высокоспецифичного метода диагностики является тот факт, что его использование сопровождается значительным числом пропусков заболевания.

В медицинской диагностике оптимален метод исследования, который был бы априорно как высоко специфичен, так и высоко чувствителен. Однако в реальности это труднодостижимо, так как повышение чувствительности теста неизбежно будет сопровождаться потерей его специфичности и наоборот, повышение специфичности сопряжено со снижением его чувствительности.

Методики диагностики с высокой чувствительностью редко «пропускают» пациентов, у которых имеется болезнь, а методики с высокой специфичностью не относят здоровых к категории больных. Чувствительный тест наиболее информативен при отрицательном его результате, т.е. врач более уверен в том, что не пропустил заболевание. Специфичные тесты нужны для подтверждения (установления) диагноза, т.е. при положительном результате врач должен быть почти уверен в том, что не «приписал» здоровому человеку несуществующую болезнь.

Отсюда следует вывод: чтобы создать оптимальную диагностическую систему нужно найти компромисс между показателями чувствительности и специфичности, при которых финансовые затраты на обследование будут оптимально отражать баланс между рисками «ложных тревог» и пропуска заболеваний.

Факторами, влияющими на чувствительность и специфичность метода являются:

1) выбранный критерий отличия нормы от патологии;

2) диагностический метод, используемый в качестве «золотого стандарта»;

3) характеристика популяции, в которой применяется метод;

4) систематическая ошибка;

5) случайная ошибка.

1. Роль критерия разграничения нормы и патологии. Как правило, точка разделения между нормой и патологией устанавливается произвольно. Это связано с тем, что один и тот же исследуемый показатель

может регистрироваться как среди здоровых, так и среди больных людей.

2. Роль «золотого стандарта». Для того, чтобы рассчитать чувствительность и специфичность, опираются на «золотой стандарт», т.е. на результаты исследования, которое считают наиболее точным в определенный период времени для диагностирования болезни. «Золотой стандарт», на основании которого рассчитываются чувствительность и специфичность, в действительности нельзя считать абсолютным. Вероятность ошибки существует в любом случае. Кроме того, если новый тест будет более чувствительным, может показаться, что он дает ложноположительный результат по отношению к старому тесту. Иногда случается наоборот - новый диагностический метод по мере накопления опыта оказывается далеко не таким эффективным, как это казалось ранее. Следует учесть, что результаты «золотого стандарта» тоже могут не быть постоянными.

3. Роль исходного состояния популяции тестируемых пациентов. Чувствительность теста всегда выше у более тяжелых больных. Чувствительность и специфичность не есть постоянная величина для разных категорий пациентов и для разных клиник.

4. Ошибки в интерпретации тестов. Систематические ошибки интерпретации результатов - распространенное явление. Заключения по данным инструментальных исследований часто во многом субъективны и подвержены влиянию дополнительной клинической информации.

Поэтому существует тест на «сходимость» - изучение результатов инструментального метода исследования (рентгенологического изображения, УЗИ, ЭхоКГ) дважды: первый раз - не имея клинической информации, второй раз - располагая ею. Интерпретация результатов под влиянием клинической информации приводит к повышению соответствия между исследуемым и стандартным тестами, т.е. тест кажется более информативным, чем на самом деле.

Случайная ошибка при оценке чувствительности и специфичности обусловлена тем, что информативность диагностической методики изучается в малых группах и результаты могут оказаться искаженными вследствие случайных вариаций популяции с исследуемым заболеванием.

3.3. Точность

Точность (Ac) - это доля правильных результатов теста (т.е. сумма истинно положительных и истинно отрицательных результатов) среди всех обследованных пациентов.

Таким образом, точность показывает, сколько всего правильных результатов получено в ходе применения данного метода исследования. Иногда этот критерий называют показателем диагностической эффективности и обозначают как De - diagnostic efficiency, диагностическая эффективность.

Точность диагностического метода зависит:

От самого метода,

Используемого оборудования,

Выбранного критерия патологии,

Популяции, в которой данный тест используется.

Раньше «качество», точность диагностических исследований оценивали путем сравнения результатов явно больных людей и заведомо здоровых добровольцев. Естественно, что результаты отражали значительные выраженные различия между группами. Для реальной практики результаты таких исследований часто оказываются мало применимыми, поскольку в скрытых случаях болезни дают случайную «вероятность» наличия болезни, а целью диагностических исследований часто является распознавание именно неявных симптомов заболевания.

Кроме этого, с практической точки зрения для оценки результатов исследования интерес представляет вероятность совпадения заклю-

чения с окончательным диагнозом. Для этих целей оцениваются показатели прогностичности.

Так, для правильного понимания диагностической эффективности методов исследования важную роль играют критерии апостериорной вероятности - прогностичность положительного и отрицательного результатов. Именно эти критерии показывают, какова вероятность заболевания (или его отсутствия) при известном результате исследования. Нетрудно понять, что апостериорные показатели имеют большее значение, чем априорные.

3.4. Прогностическая ценность метода

Прогностическая ценность (predictive value) теста - вероятность наличия заболевания при условии известного результата диагностического исследования (теста), (рассчитывается на основании данных о чувствительности и специфичности).

Прогностичность положительного результата - это вероятность заболевания при положительном (патологическом) результате диагностического исследования (теста).

Прогностичность отрицательного характера - вероятность отсутствия заболевания при отрицательном (нормальном) результате диагностического исследования (теста).

Прогностическая ценность - это характеристика не только самого метода. Она зависит как от его чувствительности и специфичности, так и от распространенности заболевания в исследуемой популяции, т.е. доли лиц с изучаемым заболеванием в определенной популяции в данный момент времени. Распространенность - априорная (или претестовая) вероятность, т.е. это вероятность выявления болезни до того, как стали известны результаты исследования.

Чем чувствительнее тест, тем выше прогностическая ценность его отрицательного результата (т.е. возрастает уверенность врача в том, что отрицательные результаты исследования отвергают наличие заболевания). Наоборот, чем специфичнее тест, тем выше прогностическая ценность его положительного результата (т.е. врач может с большей уверенностью считать, что положительные результаты подтверждают предполагаемый диагноз). Поскольку распространенность заболевания влияет на прогностическую ценность диагностического метода, последняя неизбежно зависит и от условий его выполнения. Если положительные результаты даже высокоспецифичного метода получены в популяции с низкой вероятностью

заболевания, то они окажутся преимущественно ложноположительными.

Прогностичность положительного результата (+PV, PVP) - это пропорция истинно положительных результатов среди всех положительных значений теста. Данный показатель определяется по формуле:

Прогностичность положительного результата определяется как частота его совпадения с заболеванием и, таким образом, показывает, насколько велика вероятность наличия болезни (синдрома, симптома) при положительных результатах исследования.

Прогностичность отрицательного результата (-PV, PVN) - это пропорция истинно отрицательных результатов теста среди всех отрицательных значений. Показатель определяется по формуле:

Прогностичность отрицательного результата определяется как частота его совпадения с отсутствием заболевания. Данный критерий, таким образом, показывает, насколько велика вероятность того, что пациент здоров, если результаты исследования отрицательные.

Если операционные характеристики - чувствительность и специфичность - не зависят от частоты заболевания, то прогностичность - положительная и отрицательная - напрямую связана с преваленсом. Чем выше преваленс, тем выше прогностичность положительного результата. Прогностичность диагностических методик также связана с их операционными характеристиками - чувствительностью и специфичностью. Чем выше чувствительность метода, тем выше прогностическая ценность его отрицательного результата. Прогностичность положительного результата в основном зависит от специфичности.

Низкоспецифичные методы сопровождаются большим числом ложноположительных решений. Это приводит к снижению прогностичности положительных результатов исследования.

В качественном исследовании, оценивающем эффективность диагностического метода в способности выявлять определенные патологические изменения, должны отражаться данные о чувствительности, специфичности, прогностической ценности положительного и отрицательного результата. А также обязательно описывается характеристика пациентов, включенных в исследование, обосновываются «точка разделения» больных и здоровых.

Правила при составлении диагностического тестирования

При подготовке материалов для тестового контроля необходимо придерживаться следующих основных правил:

1. Нельзя включать ответы, неправильность которых на момент тестирова
ния не может быть обоснована учащимся.

2. Неправильные ответы должны конструироваться на основе типичных
ошибок и должны быть правдоподобны.

3. Правильные ответы среди всех предлагаемых ответов должны разме
щаться в случайном порядке.

4. Вопросы не должны повторять формулировок учебника.

5. Ответы на один вопрос не должны быть подсказками для ответов на дру-

6. Вопросы не должны содержать «ловушек».

Что такое предварительный контроль?

Успех изучения любой темы зависит от степени усвоения тех понятий, терминов, положений, которые изучались на предшествующих этапах обучения. Если информации об этом у педагога нет, то он лишен возможности проектирования и управления в учебном процессе, выбора оптимального его варианта. Необходимую информацию педагог получает, применяя пропедевтическое диагностирование (предварительный контроль знаний). Он необходим еще для того, чтобы зафиксировать исходный уровень обученности. Что такое текущий контроль?

Текущий контроль необходим для диагностирования хода дидактического процесса, выявления динамики последнего, сопоставления реально достигнутых на отдельных этапах результатов с запроектированными. Кроме собственно прогностической функции, текущий контроль и учет знаний, умений стимулирует учебный труд учащихся, способствует своевременному определению пробелов в усвоении материала, повышению общей продуктивности учебного труда.

Обычно текущий контроль осуществляется посредством устного опроса, который все время совершенствуется: педагоги все шире практикуют такие его формы, как уплотненный, фронтальный, магнитный и др.

Что такое тематический контроль?

Составление тематического тестового задания требует кропотливого и тщательного труда. Ведь речь идет не просто о проверке усвоения отдельных элементов, а о понимании системы, объединяющей эти элементы. Значительную роль при этом играют синтетические, комплексные задания, объединяющие вопросы об отдельных понятиях темы, направленные на выявление информационных связей между ними. Для тематического тестового контроля лучше всего использовать готовые тестовые задания, разработанные профессионалами службы педагогического тестирования.

Что такое итоговый контроль?

Итоговый контроль осуществляется во время заключительного повторения в конце каждой четверти и учебного года, а также в процессе экзаменов или зачетов. Именно на этом этапе дидактического процесса систематизируется и обобщается учебный материал.

С высокой эффективностью могут быть применены соответствующим образом составленные тесты обученности. Главное требование к итоговым тестовым заданиям одно - они должны соответствовать уровню национального стандарта образования.

Что такое обучаемость?

Обучаемость - это способность учащегося овладеть заданным содержанием обучения. Распространенными синонимами понятия обучаемости являются такие понятия, как «податливость», «учебная способность», «потенциальные возможности», «восприимчивость» и другие, выражающие качества обучающейся личности. Какие выделяют компоненты обучаемости?

Важнейшими компонентами понятия обучаемости являются следующие:

1) потенциальные возможности обучаемого- индивидуальные
характеристики обучаемого (восприимчивость, готовность к
умственному труду, способность учиться, успешность познавательной

3) обобщенность мышления (мыслительного процесса) - ответствен за
качество (глубину, эффективность) познавательного процесса;

4) темпы продвижения в обучении (усвоении знаний).

Как диагностируется обучаемость?

Обучаемость учащихся можно диагностировать по темпам.

1. Темп усвоения знаний, умений (Ту). Можно охарактеризовать прежде всего
время усвоения эталонного понятия (выполнения эталонного теста), а также
произвольного понятия или теста:

Ту = Тф/ТэхЮО%, Где:

Тф - фактически затраченное время на полное усвоение эталонного понятия или выполнение эталонного теста конкретным обучаемым; Тэ - среднестатистическое время выполнения эталонного задания.

2. Темпы продвижения в обучении (Тп). Этот показатель темпа намного пол
нее характеризует обучаемость, поскольку учитывает более длительный период
обучения, на котором влияние данного качества проявляется значительно силь
нее:

Тп = Ту/Тэх 100%, Где:

Ту - время полного усвоения раздела конкретным учащимся; Тэ - эталонное время усвоения того же объема учебного материала, установленное экспертным путем или же с помощью теоретических расчетов.

3. Темпы прироста результатов (Тр). Этот показатель характеризует динамику
обучаемости и имеет исключительно важное значение для понимания и
оперативного учета изменений, происходящих в учебном процессе. Эти
изменения носят характер повышения, стабилизации или снижения
результативности. Показатель изменения результативности (Тр) выражает
отношение последующих достижений к предыдущим:

Т = Тп/Тдх 100%

Тп - последующее зафиксированное значение показателя обучения (в процентах, относительных значениях, баллах);

Тд - зафиксированное значение достигнутого (предыдущего) показателя или среднеарифметическое значение ряда показателей.

S в конце теста все полученные баллы суммируются; ■ S на основании полученной суммы выдается та или иная диагностика (текст).

Типы компьютерных тестов

Тест типа YN

· Тест содержит фиксированное количество вопросов (Текст);

· на каждый вопрос можно ответить только «Да» или «Нет»;

· за каждый ответ засчитывается некоторое количество баллов;

· в конце теста все полученные баллы суммируются;

· на основании полученной суммы выдается та или иная диагностика (текст).

Тесты типа VL

тест содержит фиксированное количество вопросов (текст); на каждый вопрос можно дать ответ, выбрав один из предложенных вариантов ответа; для каждого вопроса имеется свой уникальный список вариантов ответа; за каждый ответ начисляется некоторое количество баллов; в конце теста все полученные баллы суммируются; на основании полученной суммы выдается та или иная диагностика (текст).

Тесты типа FC

тест содержит фиксированное количество вопросов (текст); на каждый вопрос можно ответить, выбрав один из вариантов ответа; варианты ответа на все вопросы одинаковые (например "да", "нет", "когда как"); за ответ на каждый вопрос засчитывается некоторое количество баллов; в конце теста все полученные баллы суммируются; на основании полученной суммы выдается та или иная диагностика (текст).

В статье рассмотрены исторические аспекты методологии диагностики. Приведены понятия о диагностических методах, диагностические показания и диагностические тесты, их точность, разновидности, аналитические параметры - стабильные (чувствительность и специфичность) и вторичные (прогностическая ценность позитивных и негативных результатов). Обговаривается биологическая и методическая норма, понятия информативности теста, представления о золотом стандарте диагностики. Рассмотрены внедрения новых диагностических методов в клиническую практику на основах доказательной медицины. Представлены определения предтестовой и послетестовой вероятности диагноза, шансов развития и диагностических критериев заболевания. уделено внимание перекрестным исследованиям как первичным источникам доказательств параметров диагностических тестов.

История развития диагностики, как и история медицины в целом, отображает борьбу мировоззрений, научно-технический и социальный прогресс. У древних ассирийцев был обычай выводить больного человека на дорогу, и каждый, кто шел этим путем, мог его обследовать и дать ему совет; подобные традиции существовали во многих восточных странах, а также в Стародавней Руси. Тщательное наблюдение за больным и анализ фактов были присущи гиппократовской медицине (хотя его заслугой стала разработка системы определения прогноза, а не диагноза); благодаря Галену были заложены основы топической диагностики. Стоить отметить, что практический опыт лечения и профилактики заболеваний накапливался в мире раньше и быстрее, чем опыт диагностики. Например, канон Авесты обязывал врачей Древнего Ирана и Средней Азии быть максимально осторожными при определении диагноза и прогнозах, чтобы не навредить больным и не подорвать собственный авторитет. И хотя первая методическая медицинская школа возникла уже в Древнем Риме, на протяжении многих столетий продолжался эмпирический период ее развития.

Как в свое время писал профессор С.А. Гиляревский, «решающим фактором успешной работы врача в то время был опыт, диагноз ставили на основании жалоб больного, внешнего вида и того впечатления, которое он производил на врача». В XVIII веке нидерландский врач Г. Бургав, которому принадлежит высказывание «Кто хорошо диагностирует, тот хорошо лечит», предложил использовать для диагностики методы наблюдения и аналогии. Важность практики и опыта, учета влияния на развитие заболеваний «духовной жизни» и факторов окружающей среды отмечал выдающийся московский клиницист М.Я. Мудров (1776-1831 гг). Его заслугами в отрасли диагностики считают «разработка и внедрение в практику: 1) метода систематического и всестороннего обследования больного и 2) методического ведения истории болезни». С именем Г.А. Захарьина (1829-1897 гг) в методологии диагностики связано как разграничения «основного заболевания» (diagnosis morbi ) и «второстепенных расстройств и всех особенностей больного» (diagnosis aegri ), так и совершенная разработка метода опроса.

Требования к точности диагноза все больше возрастали, начиная со второй половины XIX века, что было связано с бурным развитием различных методов исследований. Выдающуюся теорию диагностического мышления на то время создал С.П. Боткин (1832-1889 гг), который «поставил методику клинического исследования на природно-научную физиологическую основу и, стремясь к индивидуализации каждого случая, …указал нам, как превратить … диагностику болезни в диагностику больного». Дальнейшее развитие было связано с именем М.П. Кончаловского (1875-1942 гг): он определил четыре аспекта диагноза (морфологический, функциональный, патогенетический и этиологический) и отметил важность определения «диагноз будущего» - прогноз . Работы Г.Ф. Ланга (1875-1948 гг) обогатили методологию диагноза синдромным подходом. Всемирно известным автором нескольких диагностических методик в клинике внутренних болезней является основатель киевской терапевтической школы В.П. Образцов (1849-1920). Заслугами в этой отрасли его ученика М.Д. Стражеска (1876-1952 гг) являются разработка патофизиологического направления и функциональной диагностики, организация проведения в Украине многочисленных клинико-экспериментальных исследований и широкое внедрение синтетического метода диагностики («…на долю интерниста приходится осуществление синтеза всех факторов, полученных разными специалистами при изучении любой проблемы»).

Много актуальных вопросов диагностики в разных отраслях клинической медицины было решено благодаря глубоким фундаментальным и клиническим исследованиям, которые проводились с того времени по сегодняшний день. Как писал академик М.В. Черноруцкий (1884-1957 гг), обязательными этапами распознавания заболеваний является «наблюдение, оценка явлений, которые наблюдаются, и умозаключения». Соответственно составляющими диагностики он называл методы исследования («врачебная техника, … или диагностика в узком смысле»), семиотику (семиологию) и методологию диагноза - «особенности мышления при построении диагностических выводов». Как известно, на протяжении последних десятилетий в медицинской практике внедрены принципы клинической эпидемиологии и доказательный подход . В аспекте клинической и нозологической диагностики это означает: 1) приоритетный выбор тех диагностических методов, точность которых доказана результатами систематических осмотров или контролированных клинических исследований; 2) понимание математической сущности результатов диагностических тестов, отличий между их клинической и статической значительностью; 3) понимание того, что тот или иной диагноз у каждого конкретного пациента следует выражать как вероятность (риск, шансы); 4) индивидуальный, ориентированный на пациента подход - учет его выбора, ожиданий, ценностей и возможностей во время назначения исследований и интерпретации их результатов. Что касается такого раздела диагностики, как семиология, то лучшее описание симптомов и клинической картины приведены в старых учебниках и монографиях. Доказательный подход предусматривает оценку выявленных во время обследования признаков как диагностических тестов, диагностических критериев, факторов риска (ФР) или прогностических маркеров.

Клиническая диагностика была, и будет сложным познавательным процессом, в котором врач всегда полагается на специальные знания, опыт, законы логики и интуицию. Его соображения должны быть определенными (ясными, точными), последовательными (непротиворечивыми) и обоснованными. Сложность диагностического процесса предопределяется множеством факторов, среди которых - особенности клинического течения заболевания у конкретного пациента, влияние сопутствующей патологии и лечения, компетентности врача, доступность необходимых методов диагностики, корректная интерпретация результатов диагностики. Значительное распространение новых диагностических методов в клинической практике является признаком настоящего времени. Правильной выбор того или иного из этих методов или их комбинации, а также трактовка полученных данных имеют решающее значение во многих клинических ситуациях и часто влияют на жизненный прогноз у пациентов. Именно использование методов клинической эпидемиологии и доказательного подхода дает врачам возможность делать справедливые выводы, контролируя влияние систематических ошибок.

Известно, что любой диагностический метод - клинический, физикальный, лабораторный, инструментальный или морфологический - описывает определенный биологический феномен в организме человека. Метод признают диагностическим тестом и используют в клинической практике при условии его воспроизводимости и изученности в стандартных клинических ситуациях у пациентов разных популяций. Диагностический показатель - это биологический феномен, который возникает или меняется при патологии и может быть выявленным при помощи стандартизированного диагностического метода. Как правило, один показатель можно определить при помощи нескольких методов, которые отличаются по аналитическим характеристикам; из-за этого разными являются «границы нормы» и диагностическое значение показателя. Диагностическим тестом является определение конкретного диагностического показателя при помощи конкретного метода, аналитические параметры которого остаются неизменными при условии контроля качества его выполнения.

Диагностические исследования проводят лицам, которые обратились к врачу с жалобами, для выяснения их причин и постановки диагноза. Тот же самый тест, назначенный человеку, которые не имеет жалоб или признаков конкретного заболевания и считает себя здоровым, принято называть скрининговым. Так, для пациента, который жалуется на боль в подложечной области, эзофагогастродуоденоскопия является диагностическим тестом, а для того, кто не имеет жалоб, - скрининговым. Электрокардиография (ЭКГ) с определением индексов Sokolow-Lyon и Cornell и эхокардиография с вычислением массы миокарда левого желудочка являются диагностическими тестами для выявления гипертрофии левого желудочка (ГЛЖ) у лиц с артериальной гипертензией (АГ) и скрининговым - у здоровых лиц. Вообще скрининг (англ. Screen - просеивать) подразумевает массовое обследование людей и является технологией первичной популяционной профилактики и «ранней диагностики скрытых заболеваний». Кроме этого, В.В. Власов разделяет диагностические тесты для выявления сопутствующих заболеваний (такие, что показаны в случае обращения к врачу по каким-либо причинам, например, общий осмотр, общий анализ крови, рентгенография грудной клетки, ЭКГ) и диагностические тесты для оценки эффективности лечения (термометрия пациентов, которые принимают антибиотики; терапия ex juvantibus). Тесты также разделяют на скрининговые и «тесты, которые подтверждают диагноз».

Как видно в таблице 1, диагностические тесты могут быть качественными, порядковыми и колличественными . Во всех случаях клиницисты склонны к упрощенным данным. Примером является использование порядковых шкал - как например представленную на рис. 1 визуальной аналоговой шкалы (ВАШ) для оценки болевого синдрома (от 0 до 3 баллов) как врачами, так и собственно пациентами. Подобные шкалы все чаще используют и в контролируемых клинических исследованиях и в обыкновенной клинической практике.

Рис. 1.

Рис. 2.

На рисунке 2 изображена другая визуальная аналоговая шкала - Бристольская шкала кишечных испражнений, или шкала Маерса, которая представляет современную медицинскую классификацию форм испражнений человека, топ которых зависит от времени их пребывания в толстой кишке. Типы 1 и 2 характерны при запорах, типы 3 и 4 считают «идеальными», типы 5-7 присущи поносам (особенно тип 7, который свидетельствует о высокой вероятности серьезного заболевания).

Еще чаще сложные данные упрощают до дихотомических: «наличие-отсутствие», «патология-норма», «больной-здоровый». Привычными являются такие заключения: «признаков перенесенной стрептококковой инфекции нет», «установлен обратный поток крови в митральном клапане сердца», «лабораторное исследование выявило анемию, лейкоцитоз и бактериоурию».

Лучшая клиническая практика предусматривает использование наиболее полезных и информативных диагностических тестов. Внедрение нового метода диагностики целесообразно в тех случаях, когда имеющиеся методы признаны недостаточно точными или неприемлемыми по другим причинам (инвазивность, высокая стоимость и др.). Наиболее точный, надежный среди имеющихся диагностических тестов называют золотым стандартом диагностики (или эталонным, референтным тестом). Иногда эталонным являются простые в исполнении и относительно дешевые тесты: целенаправленный опрос пациента (диагностика стенокардии при наличии приступов чувства загрудинного «сдавливания», гастроэзофагально рефлюксной болезни - при частых эпизодах изжоги), некоторые лабораторные (определение уровня гемоглобина, эритроцитов в крови и гематокрита при развитии кровотечения, оценка уровня С-реактивного протеина в крови как показателя активности воспаления), морфологические или бактериологические исследования (мазков-отпечатков со слизистой оболочки желудка - для диагностики инфекции H . pylori , мазков с зева - для определения возбудителя ангины). Но чаще всего эталонами являются инвазивные и дорогие тесты, нередко - данные биопсии или аутопсии. На практике врачи и пациенты как правило выбирают неэталонные методы диагностики, по крайней мере на начальном этапе. Например, возбудителя пневмонии предполагают на основании особенностей клинического течения болезни, данных рентгенографии грудной клетки и анализе мокрот, а золотой стандарт диагностики - исследование биоптатов легочной ткани - не является рутинной практикой. Другой пример. В клинических исследованиях доказано, что гипертрофия левого желудочка является независимым фактором риска коронарной болезни сердца, в том числе внезапной сердечной смерти, инфаркта миокарда и желудочковых аритмий, а также фибрилляции предсердий и сердечной недостаточности. Развитие гипертрофии левого желудочка у пациентов с коронарной болезнью сердца и артериальной гипертензией повышает риск развития инфаркта миокарда и инсульта в 5 раз; развитие гипертрофии левого желудочка у больных с первичной артериальной гипертензией приводит к повышению уровня сердечно-сосудистой смертности в 25 раз. Золотым стандартом диагностики гипертрофии левого желудочка является вычисление массы миокарда левого желудочка и индексация ее к площади поверхности тела или роста пациента: критерием является показатель свыше 125 г/м2 у мужчин и свыше 110 г/м2 у женщин. Увеличение индекса массы миокарда левого желудочка на 50 г/м2 повышает риск коронарной болезни сердца на 50%. Эталонным тестом для диагностики гипертрофии левого желудочка является метод магнитно-резонансной томографии (МРТ), который не всегда доступный, в том числе из-за высокой стоимости. Как известно, наиболее доступным диагностическим тестом является ЭКГ (критерии гипертрофии левого желудочка - индекс Sokolow-Lyon >38 мм, индекс Cornell >2440 мм/мс). Оптимальное соотношение информативности, стоимости и затрат времени имеет метод эхокардиографии, что именно и обусловило включение его в стандарты диагностики гипертрофии левого желудочка в клинической практике.

Доказательный подход предусматривает сравнение нового диагностического теста с имеющимся золотым стандартом в контролированных клинических исследованиях. Важно то, что золотой стандарт является не идеальным, а наилучшим среди имеющихся диагностических методов, и новый, более доскональный тест может его заменить.

Для оценки аналитических параметров диагностического теста его используют у лиц двух групп - у пациентов с определенным заболеванием и у лиц контрольной группы. Для этого проводят перекрестные (синоним - одномоментные ) исследования, которые имеют преимущества во времени, позволяя изучать распространенность заболеваний и факторов риска. Недостатки клинических исследований этого типа приведены в таблице 3.

Таблица 2. Определение качества исследования, посвященного оценке диагностического или скринингового теста

Вопросы, на которые нужно последовательно дать ответ	Комментарии
1. Является ли тест полезным для нашей практики?	Позволит ли тест выявить потенциально излечимую болезнь лучше, чем существующие тесты? Повлияет ли его использование на план ведения пациента?
2. Сравнивали ли исследуемый тест с золотым стандартом?	Для многих заболеваний эталон диагностики так и не определен, и в таких случаях используют комбинацию критериев, с которой и сравнивают тест.
3. Насколько адекватную выборку исследовали?	Выборка, в которой проверяли тест, должна быть как можно меньше смещена и репрезентативна.
4. Удалось ли избежать смещения из-за неполного использования золотого стандарта?	У всех пациентов, которые приняли участие в исследовании и получили диагностический тест, должен был быть использованным также и золотой стандарт диагностики.
5. Удалось ли избежать систематической ошибки «из-за ожидания»?	Все оценки должны быть «слепыми»: на интерпретацию результатов теста не должно влиять знание результатов других тестов.
6. Является ли тест воспроизводимым как у того самого, так и у других исследователей?	При интерпретации результатов некоторых тестов (визуализационных, качественных) их воспроизводимость у двоих исследователей должна быть приемлемой.
7. Какими являются характеристики теста на основе результатов исследования?	Достоверность скринингового теста, в отличие от диагностического, не имеет абсолютно четких характеристик.
8. Указаны ли для этих характеристик доверительные интервалы?	Чем больше размер выборки, тем уже доверительные интервалы полученного результата. Следовательно, характеристики доверительного интервала являются особо важными в случае малых выборок.
9. Был ли определен на основании результатов диапазон нормальных значений?	При определении зон риска для непрерывных физиологических или патологических параметров следует оценивать вероятность событий, для предупреждения которых направлено лечение. Самую объективную их оценку обеспечивает расчет отношения правдоподобности.
10. Как интерпретируют тест в контексте других, которые используют в диагностическом поиске при данном состоянии?	Примером может быть многофакторный общий кардиоваскулярный риск или риск желудочно-кишечных кровотечений

Таблица 3. «Недостатки» одномоментных (перекресных) исследований

Не отображают реального распространения заболеваний.
Чем менее распространенным является заболевание, тем выборка должна быть больше, чтобы выявить достаточное количество больных на это заболевание.
Не позволяют оценить вклад некоторых факторов риска в развитие заболевания и установить наличие связи между ними.
Могут привести к ложному определению факторов риска из-за того, что в случае заболевания изменяются определенные показатели и нередко - привычки пациентов.
Не позволяют оценить прогностическую силу отдельных признаков (маркеров).
Не позволяют выучить характеристики умерших от конкретного заболевания.
При обследовании профессиональных групп не позволяют изучить характеристики тех, которые оставили работу из-за состояния здоровья, достижения пенсионного возраста или других причин.

При получении результатов исследований традиционно строят четырехпольную таблицу, или «латинский квадрат» (табл. 4), на основе которого вычисляют аналитические параметры диагностического теста или его операционные характеристики - истинные или ложные результаты, точность, чувствительность и специфичность теста, прогностическую ценность позитивных и негативных результатов, а также отношение правдоподобности.

Таблица 4. Соотношение результатов диагностического теста и наличия заболевания

		ЗАБОЛЕВАНИЕ
		Имеющееся	Отсутствует
ТЕСТ	Позитивный	Истиннопозитивный	Ложнопозитивный
	Позитивный
	Негативный
	Негативный	Ложнонегативный	Истиннонегативный

Опыт доказывает, что как правило по результатам диагностического поиска мы можем только допускать правильность диагноза, нежели утверждать это категорически. В современной медицине принято выражать уверенность в диагнозах из-за вероятности (риски, шансы). Следовательно, врачи должны понимать математическую сущность диагностической ценности тестов в разных клинических ситуациях. В таблице 4 приведены соотношения результатов диагностического теста и правильного диагноза: заболевание имеющееся и отсутствующее, а результат теста - позитивный (патология) или негативный (норма). Существует два конкретных результатов теста - он является позитивным при наличии заболевания (истиннопозитивный результат ) или негативным при отсутствии заболевания (истиннонегативный результат ). Ложнопозитивным называют позитивный результат теста у здорового, ложнонегативным - негативный результат теста у человека, который имеет конкретное заболевание.

Точность теста (англ. Accuracy , A ) отображает часть истинных (корректных) результатов теста в их общем количестве. Индекс точности рассчитывают по формуле: A =(a + b )/(a + b + c + d ). Понятие точности, или аналитической точности, используют для сравнения разных диагностических тестов. Индекс точности позволяет сравнить разные методы определения конкретного показателя при обследовании пациентов этой же популяции.

Термин «априорная», или «предтестовая вероятность заболевания» , в клинической эпидемиологии является синонимом его распространенности (англ. Prevalence , P ) . Ее расчитывают по формуле: P =(a + c )/(a + b + c + d ). Однако перекрестные исследования, как видно в таблице 3, не отображают реального распространения заболевания, и источниками такой информации являются статистические отчеты и мировая медицинская литература. Направление пациентов на диагностическое исследование фактически является способом повышения априорной вероятности заболевания: умозаключения специалистов увеличивают шанс того, что пациент с конкретными жалобами действительно имеет определенное заболевание, и это оправдывает более активный подход к назначению ему диагностических тестов. Так, значительное распространение в популяции такого значительного фактора риска преждевременной смерти, как артериальная гипертензия, обуславливает широкое внедрение измерения артериального давления.

Стабильными характеристиками диагностического теста являются так называемые его первичные параметры - чувствительность и специфичность, ведь они зависят от распространения заболевания у выборки пациентов, которую исследуют.

Чувствительность теста (англ. Sensitivity , Se ) - это часть истинных позитивных результатов в основной группе (т.е. у пациентов с конкретным заболеванием): Se = a /( a + c ).

Специфичность (англ. Specificity , Sp ) - это часть истинных негативных результатов в контрольной группе (т.е. у лиц без этого заболевания): Sp = d /( b + d ) .

Показатель чувствительности отображает вероятность позитивного результата диагностического теста при наличии заболевания. Чувствительный диагностический тест редко «пропускает» пациентов, которые являются больными. Так, повышение температуры тела и содержание С-реактивного белка (СРБ) в крови являются высокочувствительными тестами большого круга воспалительных заболеваний независимо от их природы - инфекционной, аутоиммунной, онкологической и др. Высокочувствительные тесты являются особенно полезными при наличии риска пропустить угрожающие, но излечимые заболевания, а также на ранних стадиях диагностического поиска для сужения его рамок (такие тесты позволяют исключить другие многочисленные заболевания, которые являются маловероятными).

Специфический тест позволяет не отнести здоровых людей к критерию больных. Высокоспецифические тесты являются бесценными в ситуациях, когда ложнопозитивные результаты могут нанести вред физическому или психическому здоровью пациента, например, в результате ошибочно назначенного лечения. К высокоспецифическим тестам относятся и патогномонические признаки конкретных заболеваний.

Особенно информативными для диагностики являются негативные результаты чувствительных тестов и позитивные - специфических. При предположении конкретного диагноза негативный результат высокочувствительного теста позволяет надежно исключить, а положительный результат высокоспецифического теста - подтвердить заболевание. В.В. Власов отмечает такую типовую ошибку врачей, как уверенность в необходимости проведения дифференцированной диагностики при положительных результатах именно чувствительных (а не специфических) тестов. Он также отмечает, что для диагностических тестов «не существует минимально необходимой величины» стабильных параметров: «Тест, который дает позитивный результат у больных чаще, чем у здоровых, может быть полезным». Р. Флетчер и соавт. отмечают, что на практике не используют тесты, чувствительность и специфичность которых не достигает 50%.

Стоит отметить, что стабильные параметры диагностического теста зависят от обратной границы нормы: чем она ниже, тем выше является чувствительность теста и число ложнопозитивных результатов. «Нормальные границы» диагностического теста стоит обговаривать в аспекте именно медицинской нормы» . Если биологическую норму определяет биологическая вариация в популяции параметра, который изучают, то медицинскую - определяют те клинические задания, которые будут решены при помощи диагностического вмешательства. С позиции доказательной медицины результат какого-либо теста более конкретно нужно рассматривать не в связи с нормой, а в связи с доказанным в эпидемиологических исследованиях риском неблагоприятных событий в аналогичных популяциях. Медицинскую норму определяют современные представления медицинской науки. Например, верхняя граница нормы СРБ для диагностики воспалительных процессов установлена на уровне 10 мг/л, а при использовании новых высокочувствительных тестов определение СРБ для оценки кардиоваскулярного риска - 4 мг/л. Наличие нескольких границ нормы определяет информативность теста - условное понятие, которое указывает на объем диагностической информации, которую можно получить при его использовании.

Заполнить все поля «латинского квадрата» для оценки параметров диагностического теста бывает тяжело по этическим и практическим причинам. В медицинской литературе недостаточно информации о негативных результатах диагностических тестов (истинных и ложных), поскольку при нормальных результатах предыдущих тестов тяжело настаивать на дальнейших обследованиях, как правило дорогостоящих и часто связанных с риском для здоровья пациента. Так, при повышенном содержании простатспецифического антигена (ПСА) в крови мужчины чаще соглашаются на проведение биопсии предстательной железы, чем в случае нормальных показателей ПСА. Во-вторых, неверная оценка диагностического теста может быть последствием его исследования только или преимущественно у больных. Например, МРТ поперечного отдела позвоночника как правило назначают пациентам с синдромом боли в нижней части спины, и частой находкой являются грыжи межпозвоночных дисков. Контрольную группу (МРТ у пациентов, которые не имели жалоб) изучали только в сравнительном клиническом исследовании, и частота грыж в этой группе не отличалась от таковой в основной группе.

1. Сравнение с неверно выбранным «эталоном»

Если новый тест является более чувствительным, то обнаруженные при его помощи дополнительные случаи заболевания считаются ложнопозитивными результатами

2. Неучет важных характеристик пациентов, у которых оценивали результаты теста

Чувствительность теста часто коррелируется с тяжестью течения заболевания, иногда - с его длительностью и осложнениями, а пациенты отличаются между собой по этим параметрам, как и по активности, стадией и фазой заболевания.

3. Недостаточный размер выборки, отобранной для оценки теста

Чем меньшей является выборка, тем менее корректным является вывод. Сужение 95% доверительных интервалов при увеличении числа исследуемых означает повышение точности оценки теста.

4. Неучет того, что параметры теста, использованного как скрининговый, отличаются от его параметров как диагностического

При обследовании популяции, в которой нет признаков заболевания, тест на его наличие как правило является недостаточно чувствительным (так как больными является небольшое количество людей, и они имеют более ранние и легкие проявления) и в сравнении более специфическими. Оценка этого теста в выборке с большей вероятностью заболевания демонстрирует большую чувствительность и меньшую специфичность. Поэтому достоверность диагностического теста всегда является выше, чем скринингового.

Распространенным компромиссным решением проблемы повышения точности диагностики является одновременное или последовательное использование нескольких диагностических тестов. Например, учитывают комплекс тестов, которые называют критериями диагноза. Так, в 1987 году Американской коллегией ревматологов (ACR) было предложено 7 диагностических критериев ревматоидного артрита: 1) утренняя скованность; 2) артрит хотя бы трех суставов; 3) артрит суставов кисти; 4) симметрический характер артрита; 5) ревматоидные узлы; 6) ревматоидный фактор в сыворотке крови; 7) типичные рентгенологические изменения суставов. Название каждого теста дополнено детализированной характеристикой и указано, что «для постановки диагноза необходимо наличие каких-либо 4 критериев их 7. Критерии с 1-го по 4-й должны наблюдаться как минимум 6 недель. Чувствительность их комбинации составляет 91,2%, специфичность - 89,3%». Этот пример демонстрирует постановку нозологического диагноза на основании комбинации признаков заболевания, что имеет высокую чувствительность и специфичность. Также стоит отметить, что отсутствие или несовершенство критериев заболеваний ухудшает оценку точности новых диагностических тестов.

Получение результата диагностического теста позволяет оценить послетестовую вероятность наличия заболевания у конкретного пациента. Специальным параметром, наиболее адекватным для интерпретации известного результата теста в конкретной клинической ситуации, является прогностическая ценность теста (ПЦТ , англ. Predictive value , PV ). Показатель отображает вероятность наличия или отсутствия заболевания при известном положительном или отрицательном результате теста (синоним - послетестовая вероятность, апостерирная вероятность ).

Положительная ПЦТ (англ . Positive predictive value , + PV ; синоним - прогностическая ценность позитивного результата, прогноз позитивного результата ) - это вероятность того, что пациент является больным, если получен позитивный результат диагностического теста. Параметр рассчитывается с использованием данных «латинского квадрата» по формуле: + PV = a /(a + b ).

Негативная ПЦТ (англ . Negative predictive value , - PV ; синоним - прогностическая ценность негативного результата, прогноз негативного результата ) - это вероятность отсутствия заболевания при негативном (т.е. нормальном) результате теста. Параметр рассчитывается по формуле: - PV=d/(c+d).

ПЦТ не является стабильным параметром диагностического теста. Позитивная ПЦТ зависит непосредственно от специфичности теста. На практике это означает, что высокие значения позитивной прогностической ценности высокоспецифического теста подтверждают предыдущий диагноз. Негативная ПЦТ связана с чувствительностью теста: негативные (нормальные) результаты высокочувствительного теста опровергают наличие заболевания.

ПЦТ также называю «вторичным» параметром теста, так как она существенно зависит от соотношения включенных в основную и контрольную группу участников исследования: чем больше было обследовано больных, чем здоровых, тем более прогностическая ценность позитивного результата будет выше, и наоборот - преобладание здоровых людей среди обследуемых увеличивает прогностическую ценность негативного результата.

В каждой клинической ситуации врач оценивает вероятность заболевания - до назначения диагностического теста (это этапа характерным является постановка предварительного диагноза). Существует две ситуации, при которых назначают тест, - вероятность болезни является высокой (например, имеющиеся характерные клинические симптомы или факторы риска) или она является низкой (например, существуют данные о низкой распространенности заболевания в данной популяции). Основой расчета послетестовой вероятности заболевания является статистическая теорема Баерса, которая объединяет его предтестовую вероятность, стабильные параметры диагностического теста и прогностическую ценность позитивного результата:

Практически значительным является вывод из этой теоремы: результаты использования диагностических тестов зависят от распространенности заболевания - в популяции с высокой вероятностью заболевания негативные результаты даже высокочувствительного теста являются преимущественно ложными, а в популяции с низкой вероятностью заболевания позитивные результаты даже высокоспецифического теста являются преимущественно ложными. Иначе говоря, если распространенность заболевания приближается к 100%, негативная ПЦТ стремиться к нулю; если распространенность заболевания приближается к нулю, стремится к нулю и позитивное ПЦТ, и тест является практически непригодным. Например, специализированная иммунологическая лаборатория, которая получает биологический материал преимущественно от пациентов с ревматическими заболеваниями, всегда имеет небольшое количество ложных результатов. Самые эффективные диагностические тесты есть в тех популяционных группах, в которых распространенность заболевания не является слишком высокой или слишком низкой.

В монографии Р. Флетчера и соавт. приведен пример исследования прогностической ценности теста на содержание ПСА в крови для диагностики рака предстательной железы. Первую группу составляли мужчины пожилого возраста без признаков заболевания, вероятность рака у которых оценивали в 6-12%. Во 2-й группе риск заболевания оценивали как высокий (из-за наличия клинических признаков) у 26% мужчин. Результаты исследования доказали, что при позитивном результате теста онкологический диагноз подтвердили в 15% пациентов 1-й группы и почти у 40% - 2-й. Следовательно, при использовании теста как скринингового на один случай корректного диагноза рака могло риходиться 5-6 случаев ложного, и такие пациенты подлежали бы дополнительным дорогостоящим инвазивным вмешательствам. Использование теста как диагностического оказалось оправданным.

Еще один вывод из теоремы Баерса заключается в том, что со снижением чувствительности и специфичности теста зависимость ПЦТ от распространенности заболевания увеличивается.

Повысить эффективность диагностики можно при помощи комбинации тестов . Несколько тестов назначают параллельно в случае необходимости быстрой оценки состояния пациента - для максимального повышения предтестовой вероятности диагноза перед назначением более специфических тестов. Для уменьшения количества ложнопозитивных результатов, избегания гипердиагностики целесообразно параллельно целесообразно назначать тесты с высокой специфичностью и низкой чувствительностью. Примером последовательного назначения нескольких тестов является комбинация «скрининговый тест - тест, который подтверждает диагноз». Первый тест является высокочувствительным, и поэтому имеет высокую негативную прогностическую ценность; для верификации диагноза выбирают более специфический тест. Особенно полезным такой подход в тех случаях, когда каждый из тестов не является высокоспецифическим. Параллельное тестирование как правило практикуют в специализированных центрах, последовательное - в амбулаториях. Последняя технология является менее затратной и более специфической. На практике каждый диагностический тест не используют изолированно.

Стоит обратить внимание, что все характеристики диагностического теста (чувствительность, специфичность, ПЦТ) мы выражали через вероятность - в процентах или частях. Для описания приведенных параметров используют также понятие шансов - отношение двух вероятностей:

Шансы события = (вероятность события) / (1 - вероятность события)

Вероятность события = (шансы события) / (1 + шансы события)

Например, если вероятность осложнений в случае отказа от лечения составляет 80%, то шансы их развития составляют (0,8 / (1 - 0,8)) = 0,8: 0,2 = 4:1.

Дополнительным способом описания точности диагностического теста является расчет отношения правдоподобности (англ. Likelihood ratio , LR ) - отношение вероятности данного результата теста у лиц с заболеванием к вероятности такого самого результата у лиц без заболевания. параметр отображает, насколько вероятность конкретного результата теста отличается в основной группе от результата теста в контрольной группе. Существует два варианта параметра: отношение правдоподобности позитивного результата (англ. Positive likeliood ratio , LR + ) и отношение правдоподобности негативного результата (англ. Negative likelihood ratio, LR-) . Их расчитывают по следующим формулам:

Преимуществами использования отношений правдоподобности является то, что они позволяют: 1) определить степень отклонения от нормы, а не только оценить вероятность наличия или отсутствия заболевания (что возможно при помощи показателей чувствительности и специфичнсти); 2) отобразить полученную информацию одним числом ; 3) облегчить расчет послетестовых шансов на основании предтестовых:

Приведем пример расчета параметров диагностического теста - определение сывороточного содержания IgM-РФ (ревматоидный фактор) для диагностики РА (ревматоидного артрита) у пациентов с хроническим полиартритом (табл. 6). По результатам дальнейших исследований у части пациентов был установлен диагноз ревматоидный артрит (по критериям ACR, представленных выше).

Таблица 6. Исследование сывороточного содержания IgM-РФ как диагностического теста на ревматоидный артрит у пациентов с хроническим полиартритом

		ЗАБОЛЕВАНИЕ
		Имеющееся	Отсутствует
ТЕСТ: сывороточный IgM-РФ	Позитивный	Истиннопозитивный 65	Ложнопозитивный 25
	Позитивный
	Негативный
	Негативный	12 Ложнонегативный	127 Истиннонегативный

P=(a+c)/(a+b+c+d)=(65+12)/(65+25+12+127)=77/179=34%

A=(a+d)/(a+b+c+d)=(65+127)/(65+25+12+127)=192/229=84%

Se=a/(a+c)=65/(65+12)=84%

Sp=d/(b+d)=127/(25+127)=83%

PV=a/(a+b)=65/(65+25)=72%

PV=c/(c+d)=12/(12+127)=9%

LR+=0.84/0.164=5.12

LR-=0.16/0.84=0.19

Расчеты свидетельствуют, что: 1) распространенность ревматоидного артрита среди лиц с хроническим полиартритом составила 34%; 2) точность сывороточного содержания IgM-РФ как диагностического теста на ревматоидный артрит составила 84%, чувствительность - 84%, специфичность - 83%; 3) прогностическая ценность позитивного результата теста является достаточно высокой (72%), а исключить диагноз ревматоидный артрит при негативном результате невозможно, так как его прогностическая ценность составила 9%; 4) у больных ревматоидным артритом позитивный результат теста в 5,12 раз более вероятен, чем у пациентов не страдающих РА; 5) отношение правдоподобности негативного результата теста составляет 0,19, следовательно, шансы нормального результата теста при наличии и при отсутствии ревматоидного артрита составляют 1:4,3.

Соответственно по содержанию параметры диагностического теста приведены в таблице 7.

Таблица 7. Соответствие характеристик диагностического теста

Показатель	Соответствуют содержанию других показателей
Предтестовые (априорные) шансы	Распространенность (предтестовая, априорная вероятность) заболевания
Отношение правдоподобности	Чувствительность и специфичность теста
Послетестовые шансы	Прогностическая ценность (послетестовая вероятность) позитивного результата теста

В современной медицинской литературе принято приводить указанные характеристики диагностических тестов. Врачи должны понимать их значение и использовать основные понятия доказательной диагностики на практике.

Внедрение доказательного подхода позволяет повысить качество нозологического и синдромного диагноза путем корректного, дифференцированного назначения наиболее точных диагностических тестов в конкретной клинической ситуации и на популяционном уровне. Доказательная практика предусматривает критическую оценку и использование новых и референтных диагностических тестов с учетом данных клинических исследований, врачебного опыта и выбора пациентов. Владение методологией доказательной медицины не заменяет семиологии, знания диагностических методик и навыков их использования, а является составляющей эрудиции врача и инструментом, который преподносит искусство «диагностики больного» и уровень клинического диагноза. Как писал С.П. Боткин, «чем шире и многостороннее образование врача, тем вернее будет критика фактов и тем вернее, конечно же, будет гипотеза - результат критического разбора всего найденного. Эта гипотеза и составит… распознавание (diagnosis) болезни и индивидуума».