4.1. Валидность

К оглавлению
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 
17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 
34 35 36 37 38 39 40 41 42 43 44 45 46 47 

Валидность – это свойство теста измерять именно то, для чего он предназначен.

Например, мы можем определить что «знание математики» соответствует высоким баллам, полученным по математическим тестам. Но если все задания состоят из простых арифметических задач, то тест будет определять, насколько человек быстро считает. Таким образом, важно понимание того насколько рабочее определение измеряемой величины соответствует концептуальному определению.

В общем случае, достичь абсолютной валидности нельзя. Можно лишь пытаться максимально улучшить валидность в каждом конкретном случае, исходя из критериев, значимых для этого случая.

Существуют разные типы и виды валидности:

Практическая валидность характеризует тест не столько со стороны его психологического содержания, сколько с точки зрения его ценности в отношении достижения определенной практической цели (прогнозирования, диагностики). Выделяют подтипы практической валидности: прогностическая и совпадающая. Тест с высокой прогностической валидностью позволяет сделать прогноз, насколько успешно испытуемый будет выполнять определенную деятельность впоследствии. Тест с высокой совпадающей валидностью позволяет ответить на вопрос: "Какова вероятность того, что индивид Х обладает свойством У в настоящий момент времени?"

 

Валидность по объему отражает степень, в какой объем теста выборочно репрезентирует тот класс ситуаций или учебного материала, относительно которого должны быть сделаны выводы. Валидность по объему показывает, в каком объеме, в какой мере знание чего-либо отражено в методике.

 

Оценочная валидность выражает степень корреляции (соответствия) между показателями, полученными испытуемыми по данному методу, и оценками измерительного свойства со стороны экспертов. Например, при валидизации (проверке теста на валидность) тестов оценки знаний школьников в качестве экспертов обычно выступают учителя.

 

Внешняя валидность означает, что впечатление, которое создается при знакомстве с сугубо внешней стороной тестирования, соответствует заявленному содержанию метода. Это наименее важный аспект валидности, так как требует дополнительной проверки валидности другими методами.

В некоторых случаях исследователи специально ухудшают внешнюю валидность, например, для измерения социально нежелательных характеристик (таких как расизм). В практическом плане, следует быть осторожным относительно тестов, которые должны были бы измерять одну величину, но кажется, что измеряют нечто другое. Например, знание латинских названий различных видов растений не говорит о том, что человек знает латынь.

 

Внутренняя валидность – это необходимое условие возможности интерпретации результатов теста, она спрашивает: «Не изменились ли условия эксперимента в данном случае?»

 

Факторы ухудшающие внутреннюю валидность:

История: некое событие произошло между первым и вторым измерением в дополнение к экспериментальным переменным.

Развитие: процесс внутри испытуемых, как функция от времени (не специфический к частным событиям), например, взросление, усиление чувства голода, усталость и т.д.

Тестирование: эффект первого тестирования влияет на баллы второго.

Инструменты: изменение в наблюдателях или способах получения баллов могут влиять на наблюдаемые величины.

Статистическая регрессия: в случае, если работа идет с группами, отобранными на основе экстремальных значений балов.

Выбор: смещение, возникающее в результате дифференцированного выбора респондентов в пары для сравнения.

Выбывание: дифференциальная потеря респондентов из сравниваемых групп.

Валидность генерализации (репрезентативность), задает вопрос о том, на кого мы можем распространить результаты эксперимента.

 

Факторы ухудшающие репрезентативную валидность:

Реагирующий или взаимодействующий эффект тестирования: значения первого теста могут возрасти.

Эффект взаимодействия смещения выбора и экспериментальных переменных.

Эффект экспериментальной подготовки, который будет препятствовать распространению результата на людей, которые тестируются в не-экспериментальном окружении.

Эффект многократной обработки, когда эффект предыдущих тестов не стирается.

 

Валидность критерия состоит из двух частей:

·             Совместная валидность: «Есть ли какая-либо связь между мерой и другими проявлениями свойства, которого этот тест должен измерить?»

·             Предиктивная валидность: «Предсказывает ли тест уровень развития данной конкретной способности?»

 

Относительная валидность: важно знать насколько результаты данного теста соответствуют результатам аналогичных тестов, которые измеряют то же или близкое свойство.

 

Дискриминантная валидность: важно показать, что мера не измерят то, что не предполагалось измерять, то есть дискриминантна.

Например, можно говорить о дискриминантной валидности, если есть низкая корреляция между результатами теста на скорость чтения и теста на определяющие факторы мотивации, так как способность к чтению не имеет отношения к мотивации.

 

Источники плохой валидности:

1. Плохая надежность теста

2. Ответы на вопросы = психологическая ориентация или предубеждения против данного ответа:

2.1. Уступчивость: тенденция соглашаться, то есть говорить «Да». Следует составлять вопросы.

2.2. Социальная желательность: тенденция показывать себя в лучшем свете. Следует составлять тесты, где социальная желательность не очень заметна.

2.3. Ухудшение: намеренно говорить «Нет», если это принесет какую-нибудь «награду» (например, внимание, компенсацию, социальную помощь и т.д.)

3. Смещение:

1.1  Культурное смещение: имеет ли данное свойство одинаковое значение в разных культурах? Как различные вопросы интерпретируются людьми разных культур? Содержание теста (внешняя валидность) может быть разной для людей разных культур.

1.2   Смещение по половому признаку также может быть возможным.

1.3   Тестовое смещение:

1.3.1  Смещение в измерениях возникает, если тест делает систематическую ошибку в измерении данного свойства. Например, считается, что многие тесты IQ хороши для основной средней массы населения, но не для представителей национальных меньшинств, ведущих отличный образ жизни. Если тест проводится методом интервью, то возникает смещение в направлении хорошо выглядящих экзаменуемых.

1.3.2  Смещение в предпосылках возникает, когда тест делает систематическую ошибку в предсказании некоторого значения или критерия. Также тест может быть хорош только для некоторых групп людей. Например, тест, составленный мужчинами, может не очень хорошо оценивать значение данной характеристики у женщин.

 

Эффективная методика может быть создана, если она прошла все этапы валидации, то есть когда приняты меры для придания ей как содержательной валидности, так и практической.

 

 

Валидизация

Несколько простых способов улучшить валидность теста:

1. Необходимо четко определить, что вы собираетесь измерять. Напишите, какие результаты вы ожидаете получить. Если вы не можете описать это, то вы не можете и измерить это.

2. Протестируйте тест при помощи классической или современной теории тестирования и отбросьте или измените выбивающиеся вопросы (см. приложение пункт 7.1).

3. Сравните результаты теста со всеми доступными вам данными.

 

Методы валидизации:

Есть три основных метода валидизации теста. Ни одному из них нельзя отдать предпочтение, так как выбор, какой метод использовать, определяется конкретной задачей.

 

Валидизация, основанная на критерии:

Метод требует демонстрации корреляции или другой статистической связи между тестовым баллом и уровнем выполнения «работы» (например, решением математических задач). Другими словами, люди с высоким тестовым баллом имеют тенденцию лучше выполнять работу, чем люди с более низким тестовым баллом. Если критерий для сравнения нам известен во время проведения теста, то это называется совместной валидностью, а если значения критерия проявляются в более позднее время, то это предиктивная валидность. Например, соответствие последующей успеваемости студента с баллом вступительных экзаменов – это предиктивная валидность, а согласованность с этим баллом результатов школьных выпускных экзаменов – совместная валидность.

Валидность, основанная на критерии измеряется коэффициентом валидности. Это число между 0 и 1, которое степень близости «r» между тестом и мерой выполнения «работы» (критерием). Чем больше значение коэффициента, тем более вы можете в предсказаниях, основанных на тестовом балле. Тем ни менее, один тест никогда не может полностью предсказать степень исполнения «работы», так как слишком много различных факторов влияют на успех в «работе». Поэтому коэффициент валидности, в отличии от коэффициентов надежности, редко превышает r = 0.40.

 

Интерпретация значений коэффициента валидности

Значение коэффициента

Интерпретация

Выше 0.35

Очень хорошая

0.21-0.35

Можно использовать

0.11-0.20

Можно использовать в зависимости от обстоятельств

ниже 0.11

Не следует использовать

 

Валидность от 0.21 до 0.35 наиболее типична для одиночного теста. Валидность для системы тестов, вероятно, будет больше, так как вы используете несколько инструментов для измерения различных аспектов успешного выполнения «работы».

 Дополнительно, эмпирические доводы в поддержку валидности, основанной на критерии должны включать сравнение значений изучаемого теста и значений внешних критериев, например, школьных оценок, значений других тестов или оценок учителей.

Также, для самопроверки полезно задать следующие вопросы:

- Какие критерии были использованы для оценки валидности? По какой причине были выбраны именно эти способы измерения?

- Является ли распределение баллов по критерию адекватным?

- Какова точность теста? Насколько точны предсказания для экзаменуемых с баллами, близкими к критическим?

 

Валидизация, основанная на содержании:

Метод требует демонстрации того, что вопросы тест измеряют величины, существенные для определения значения данного признака. Например, тест на скорость печатания на клавиатуре будет иметь высокую валидность для подбора людей на должность секретаря, так как, предполагается, что эта работа требует частого использования клавиатуры. Тем ни менее, если работа требует набора текста только изредка, тот же самый тест будет иметь маленькую валидность содержания. В общем случае, валидность основанная на содержании не применяется для измерения способности к обучению и общих способностей решения проблем.

 

Валидность, основанная на содержании, часто оценивается проверкой плана и процедур, использованных при составлении теста:

- Соответствует ли процедура рациональному методу, который гарантирует соответствующее содержание?

- Гарантирует ли процедура то, что данная подборка вопросов будет проявлять соответствующие характеристики?

- Насколько близко содержание к тому содержанию, которое вы собирались измерить?

 

Валидизация, основанная на свойстве:

Метод требует демонстрации того, что тест измеряет свойство или характеристику, для которой он и предназначен. Этот метод часто применяется для тестов, которые меряют абстрактные величины. Например, валидность, основанная на свойстве, может быть использована, когда школа оценивает «хорошесть» учеников. В данном случае, «хорошесть» - не некая наблюдаемая величина, а концепция, созданная, чтобы объяснить возможное поведение учеников в будущем. Чтобы продемонстрировать, что тест имеет хорошую валидность, основанную на свойстве, школе будет необходимо показать, что, во-первых, тест действительно измеряет это свойство и, во-вторых, это свойство связано с хорошей успеваемостью учеников.

 

Валидность, основанная на свойстве, часто используется для измерения психологических черт личности, например, интеллигентность, самосознание или креативность. Есть несколько способов проверить валидность, основанную на свойстве. Например, можно продемонстрировать, что вопросы в тесте связаны и, таким образом, измеряют одну величину. Внутриклассовая корреляция и факторный анализ часто используются для того, чтобы продемонстрировать связь между вопросами. Другой подход – это продемонстрировать, что значения теста ведут себя так же, как вы ожидаете должны вести себя значения свойства. Например, предполагается, что мера креативности должна показывать большую корреляцию с артистическими способностями, чем со школьными успехами.

Также, для самопроверки полезно задать следующие вопросы:

- Действительно ли концептуальная основа для каждого тестируемого свойства хорошо обоснована и ясна?

- Почему мы предполагаем, что свойство связано с целью теста?

 

Анализ заданий.

В качестве дополнительной меры для улучшения валидности теста можно провести анализ заданий. По определению, наличие в тесте задания, провоцирующего социально одобряемые реакции, должно приводить к тому, что распределение ответов на него будет смещено, то есть не будет соответствовать нормальному распределению. Таким образом, устранением из теста заданий с распределением ответов, отличным от нормального, мы избавимся от действия установки на социально одобряемые ответы. Более того, если большинство заданий дают нормальное распределение ответов и они нагружены некоторым общим фактором, тогда установка на социально одобряемые ответы не может оказывать сильное влияние и на другие задания, относящиеся к тому же фактору. Подобные аргументы приводятся при анализе заданий с использованием бисериальной корреляции результатов выполнения каждого задания с общим показателем по тесту. Таким образом, при адекватном анализе те задания, результат выполнения которых подвержен влиянию установки на социально одобряемые ответы, должны быть устранены, если только, по нелепой случайности, все задания, выбранные нами для теста, не оказались измеряющими эту черту.