Типы надежности

К оглавлению
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 
17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 
34 35 36 37 38 39 40 41 42 43 44 45 46 47 

1. Ретестовая надежность:

Ретестовый метод заключается в повторном тестировании выборки испытуемых одним и тем же тестом через определенный интервал времени при одних и тех же условиях. Временной интервал зависит от возраста (например, у маленьких детей изменения могут произойти в течение одного месяца), а также событий, происходящих с испытуемым в жизни. Обычно предполагают, что тест «надежен» в течение двухнедельного интервала, но нет никаких логических обоснований в пользу этого факта, за исключением старого наблюдения, что знание отдельных фактов теряется через этот промежуток времени.

За индекс надежности принимается коэффициент корреляции между результатами двух тестирований (см. приложение пункт 4.). Значения коэффициента варьируются от 0 (низкая надежность) до 1 (высокая надежность) и, в редких случаях, может быть отрицательной, о чем будет рассказано ниже. Полученная высокая корреляция может быть результатом тренированности испытуемого на заданиях подобного типа; низкая корреляция может быть результатом происшедших изменений с испытуемым, а также может свидетельствовать о ненадежности теста. В частности можно использовать коэффициент корреляции Пирсона:

rxy = SPx / √SSx*SSy,    где SPx = ∑(xi – x)(yi – y), SSx = ∑(xi – x)2

 

2. Альтернативные формы

Надежность альтернативных форм, проверяется повторным тестированием одной выборки испытуемых параллельной формой теста через минимальный интервал времени при одних и тех же условиях.

За индекс надежности принимается коэффициент корреляции между результатами тестирования двумя параллельными формами теста. Высокий коэффициент корреляции и большой интервал между двумя испытаниями свидетельствуют о том, что разные формы теста близки между собой. С другой стороны, низкий коэффициент надежности параллельных форм предполагает, что разные формы не сопоставимы, вероятно, они измеряют различные вещи и, соответственно, не могут заменять друг друга.

Возможный обман со стороны испытуемого, его искушенность, события, происшедшие в интервале между тестированиями, не оказывают особого влияния (как в ретестовом методе) на степень надежности теста. Если фактор тренировки снижен при тестировании параллельными формами, то эффект переноса принципа заданий часто имеет место и его следует учитывать при построении параллельных форм.

 

Требования к построению параллельных форм:

· параллельные формы должны быть независимо построенными тестами, но отвечать одним и тем же требованиям;

· должны содержать одинаковое количество заданий со сходной степенью трудности;

· эквивалентность параллельных форм необходимо проверять ретестовым методом.

 

3. Метод расщепления

Метод расщепления состоит в том, что тест разбивают на две сопоставимые части. Респондент выполняет задания этих двух частей в течение одного сеанса с получением двух результатов.

За индекс надежности принимается коэффициент корреляции между результатами тестирования двумя этими частями. Он называется коэффициентом внутренней согласованности теста.

 

4. Внутренняя надежность

Внутренняя надежность показывает, насколько вопросы теста измеряют одну и ту же величину. Внутренняя надежность обычно измеряется при помощи коэффициента Альфа Кронбаха (см. приложение пункт 7.1). Чем больше похожих заданий, тем больше внутренняя надежность. Поэтому часто встречаются очень длинные тесты, задающие один и тот же вопрос множеством разных способов – чем больше похожих вопросов вы добавляете, тем большее значение коэффициента Кронбаха вы получаете.

 

Источники ошибки

Отбор заданий: так как любой тест  - это только некоторая выборка из всех возможных заданий, то этот отбор сам может быть источником ошибки. Более длинные тесты обычно более надежны, так как тогда у нас лучше модель содержания курса и успеваемости студентов. Пусть, например, экзаменатор, чтобы оценить знания студентов по биологии, сделает тест из одного вопроса. Студенты, которые знают ответ на этот конкретный вопрос, очень успешно пройдут этот тест, а те, кто не знают – плохо. Очевидно, что тест из одного вопроса не даст надежной оценки знаний студентов. Соответственно, чем больше вопросов мы добавляем в тест, тем больше тестовые баллы будут соответствовать действительной разнице в успеваемости студентов. Таким образом, увеличиваю длину теста, мы увеличиваем устойчивость измерений.

Также более длинный тест уменьшает влияния таких случайных факторов как угадывание. Например, если тест будет состоять из десяти вопросов, то студент может знать ответы на шесть из них и попытаться угадать ответы на остальные четыре. Если он угадает, то покажет великолепные результаты по тесту, если нет, то пройдет тест только на 60% успешно. Иначе, если тест будет состоять из 100 вопросов, то число правильно угаданных вопросов будет сбалансировано неправильно угаданными и тестовый балл будет более надежным индикатором реальных знаний.

С другой стороны, здесь есть ловушка: удлинение теста улучшает надежность, только если дополнительные задания также хороши и надежны, как и первоначальные. Добавление плохих заданий только увеличит ошибку и понизит надежность. Более того, есть риск дополнительного ухудшение результатов: если мы добавим слишком много вопросов, то студенты утомятся, и надежность ухудшиться.

 

Составление заданий: другая большая сложность - это плохо сформулированные, неоднозначные или хитрые вопросы. Рассмотрим следующие примеры:

 

Какой коэффициент оценки надежности лучше всего использовать школьному учителю?

1.           Расщепления

2.           Кудер-Ричардсон

3.           Стандартную ошибку измерений

Надежность теста зависит от его длины?

1.           Да

2.           Нет

 

Для первого вопроса правильный ответ будет зависеть от того, что экзаменатор понимает под «лучшем» коэффициентом. «Лучший» может означать простоту вычислений, содержательность или что-нибудь еще. Второй вопрос неоднозначен и ответ на него может быть как «Да», так и «Нет» - в зависимости от интерпретации.

Таким образом, вопросы, которые позволяет различную трактовку, вряд ли дадут надежные баллы.

 

Окружение: факторы среды, такие как жара, свет, шум, путающие указания и различное время, предоставленное разным студентам, могут влиять на тестовые баллы. Чем больше таких факторов взаимодействуют с работой студентов, тем меньше у нас уверенности в точности теста.

 

Объективность: степень, до которой одинаково компетентные экзаменаторы получают одинаковые баллы, также является фактором, влияющим на надежность. Объективный тест более надежный, так как тестовые баллы отражают реальные различия среди студентов, а не мнение экзаменаторов. Обычно, тест в виде эссе менее надежен, чем тест, состоящий из вопросов с несколькими возможными вариантами ответов, так как субъективное мнение экзаменаторов понижает надежность. Тем не менее, это не значит, что тесты в виде эссе не надо использовать – есть способы увеличения их надежности.

 

Сложность теста: тест, который или слишком сложен, или слишком легок, также будет иметь низкую надежность. Это происходит потому, что тестовые баллы будут собранны вместе или на высшем, или на низшем конце шкалы, с небольшой разницей между отдельными студентами. Надежность выше, когда баллы распределены по всей шкале, показывая реальную разницу между студентами.

 

Студенческий фактор: усталость студентов, болезнь или беспокойство также порождают ошибки и понижают надежность, так как они мешают тесту быть точной мерой действительных способностей студентов.

 

Советы по улучшению надежности теста:

Пишите длинные тесты: Трудно сказать заранее, какое число вопросов необходимо для составления надежного теста, так как это зависит от качества заданий, их сложности, диапопзона тестовых баллов и других факторов. Лучший совет – это включить столько вопросов, на сколько, как вы думаете, студенты смогут ответить за время тестирования.

 

Увеличение надежности теста с увеличением его длинны более очевидно для коротких тестов. Например, добавление 5 новых вопросов может существенно улучшить надежность теста, состоявшего всего из 5 вопросов, но может только минимально повлиять на тест из 100 заданий. Для оценки надежности более длинного (или более короткого) теста, при известном значении коэффициента Альфа Кронбаха, можно воспользоваться формулой Спирмена-Брауна (Spearmen-Brown):

αnew = m*αold /(1 + (m-1)* αold)

где αnew - это новая оценка надежности после удлинение (или укорачивания) теста, αold - оценка надежности теста на данный момент, m = длинна нового теста/длинна старого теста. Важно отметить, что для корректного использования формулы Спирмена-Брауна необходимо, чтобы задания, добавляемые для увеличения теста, должны быть такого же качества, как и первоначальные задания теста. (см. приложение пункт 7.1)

 

Уделяйте больше внимания тщательному составлению вопросов теста: Формулируйте каждый вопрос ясно, чтобы студенты точно понимали, что вы хотите. Старайтесь писать вопросы, которые бы разделяли студентов на «хороших» и «плохих» на соответствующем уровне сложности.

 

Начинайте планировать тест и заданий заранее: Тест, написанный в спешке в последнюю минуту, вряд ли будет надежным.

 

Пишите четкие указания по проведению теста и используйте стандартные административные процедуры.

 

Используйте несколько тестов: Совместную надежность оценки знаний студентов можно улучшить частым использованием тестов. Составной балл, данный на основании нескольких тестов, обычно, имеет более высокую надежность, чем каждый из его тестов-компонентов. Позитивные и негативные ошибки в оценках студентов имеют тенденцию выравниваться к концу семестра.

 

Отберите хорошие задания: Посчитайте корреляцию между тестом и заданиями и откиньте те из них, для которых она слишком низка. Нет четко критерия того, какая корреляция здесь считается низкой, но часто предполагается, что задания, который коррелирует с тестом на уровне r = 0.25 требуют внимательного рассмотрения. Далее, изучите задания, которые хорошо коррелируют с тестом и напишите побольше аналогичных.

 

Коэффициенты оценки надежности:

Из всего вышесказанного, можно определить, что мерой надежности является соотношение дисперсии действительного балла к дисперсии наблюдаемого тестового балла:

Надежность = σ2(действительный балл) / σ2(наблюдаемый балл)

 Следующие формулы верны при предположении, что нет никаких значимых отличий между экзаменуемыми.

 

Альфа Кронбаха (Cronbach’s Alpha):

Альфа Кронбаха измеряет степень того, насколько задания теста, каждое из которых рассматривается как мини-тест, дают устойчивую информацию относительно знаний студентов в данной области. Поэтому этот коэффициент часто рассматривается как мера гомогенности заданий или внутренней устойчивости теста, то есть большие значения альфы показывает, что задания направлены на одну и ту же область.

 

Коэффициент Альфа Кронбаха:

где k – число заданий, Si2 - дисперсия для задания i, и S2 - общая дисперсия теста.

Значение коэффициента Кронбаха варьируется от 0 до 1, где значения близкие к 1 соответствуют высокой устойчивости. Профессионально разработанные важные тесты должны иметь внутреннюю устойчивость на уровне не менее 0.90. Менее важные стандартизированные тесты должны иметь значение коэффициента не менее 0.80. Для школьного теста желательно иметь значение надежности выше 0.70. Более высокие значение коэффициента надежности необходимы для стандартизованных тестов, так как они проводятся только однажды и на основе их данных делаются выводы относительно достижений студентов в данной области. Для школьного теста приемлемо иметь более низкую надежность, так как окончательная оценка студента не основывается на каком-либо одном тесте, а на нескольких измерениях – тестах, домашней работе, рефератах, докладах и т.д. (см. приложение пункт 7.1)

 

Коэффициент Кудера-Ричардсона (Kuder-Richardson):

Частным случаем коэффициента Кронбаха для случая бинарных (то есть правда/ложь) заданий, является коэффициент Кудера-Ричардсона:

где L – длинна теста, σ ²t – дисперсия тестовых баллов по студентам, pi – число студентов, успешно ответивших на вопрос i, и qi – число не правильно ответивших на этот вопрос. (см. приложение пункт 7.1)

 Коэффициент расщепления (внутренней согласованности теста):

Альтернативный способ измерения надежности заключается в случайном разделении теста на две половины. Если тестовый балл надежнее, то можно ожидать, что обе половины будут хорошо коррелировать.

 

Коэффициент расщепления Спирмена-Брауна (Spearmen-Brown):

rsb = 2rxy /(1+rxy)

где rsb – значение коэффициента расщепления, а rxy – корреляция между двумя половинами теста. (см. приложение пункт 7.1)

 

Трактовка значений коэффициента надежности:

Высокая надежность (больше 0.90) необходима в случаях, когда:

-  на данных теста предполагается делать серьезные выводы,

-  экзаменуемые разделены на множество разных категорий на основании относительно небольших индивидуальных различий, например, интеллекта.

Низкая надежность (около 0.70) приемлема, если:

-  тест используется для получения предварительных выводов,

-  тест используется для сортировки людей на небольшое количество групп на основании больших индивидуальных различий, например, роста или интровертности/экстравертности.

Оценка надежность около 0.80 или выше обычно расценивается как средняя или высокая (примерно, 0.8² * 100% = 16% изменчивости в тестовом балле приходится на долю ошибки).

Оценка надежности менее 0.60 обычно рассматривается неприемлемо низкая.

Отрицательные значения оценок коэффициента надежности:

Отрицательные значения коэффициентов надежности, получаемые при помощи стандартных формул оценок надежности, не корректны ни теоретически, ни численно. В этих, достаточно редких случаях, следует предположить, что тест состоит из более чем одного измерения и эти измерения негативно связаны. Чтобы подтвердить или отвергнуть эту гипотезу, рекомендуется использовать факторный анализ для различных частей теста.

 

Валидность и надежность

Важно понимать разницу между надежностью и валидностью. Валидность говорит о том, насколько хорош тест для данной конкретной ситуации; надежность показывает насколько можно доверять тестовому баллу.

Чтобы быть валидным, тест должен быть надежен, но надежность не гарантирует валидность. Это означает, что он измеряет какое-то свойство очень точно, но какое именно – остается под вопросом, его содержание может быть бессмысленным.  В такой ситуации необходима более точная валидизация теста, как содержательная, так и практическая.

Вообще говоря, валидность теста всегда ограничена его надежностью. Часть тестового балла, приходящаяся на случайную ошибку, не коррелирует с критерием. Поэтому, если надежность теста меньше 1, то есть истинный балл не совпадает с тестовым, то корреляция между двумя тестом и критерием будет занижена. Если нам известна их надежность, то мы можем откорректировать занижение корреляции:

rxy,corrected = rxy /(rxx*ryy)½

где  rxy,corrected – откорректированный коэффициент корреляции между тестом x и критерием y (валидность), rxy – не откорректированный коэффициент корреляции, rxx и ryy – надежность теста x и критерия y, соответственно.

Построение теста при помощи классической теории тестирования

1. Исходя из теоретических предположений и при хорошем понимании того, что надо измерить, пишутся задания теста. Необходимо написать как минимум в два раза больше заданий, чем предполагается включить в окончательный вариант теста.

2. Калибровка: полученные задания нужно протестировать при помощи людей, близких к той популяции, для которой предназначается тест.

3. Следует отбросить задания с низкой (<0,2) или отрицательной корреляцией задание-итоговый балл.

4. Если дискриминация отрицательна, то, возможно, нарушилось предположение об одноразмерности теста.

5. Выбираем нужное число заданий с самой высокой корреляцией задание-итоговый балл, так как они повышают надежность теста, снижая стандартную ошибку измерения.

6. Чтобы подобрать необходимую сложность теста, можно заменить часть заданий на более или менее сложные. Не желательно иметь легкость задания более 0,85 или менее 0,15. Для того, чтобы обучающиеся всех уровней подготовки могли быть оценены, лучше иметь задания разного уровня легкости (сложности).

7. Таким образом получается тест, который будет наиболее адекватным образом оценивать именно ту группу обучаемых, для которых он предназначался.

 Пример построения теста при помощи классической теории тестирования:

Пусть наша задача состоит в том, чтобы построить надежный и достаточно сложный (не более 50% экзаменуемых должны ответить на 8 и более заданий верно) тест из 15 заданий.

Как было описано ранее, напишем 40 заданий и проанализируем их:

Номер задания

Сложность задания (р)

Стандартное отклонение

Число ответов

Среднее, если убрать это задание

Дисперсия, если убрать это задание

Корреляция задание-итоговый балл

Надежность, если убрать задание

1

0.84

0.36

450

21.08

53.27

0.26

0.86

2

0.50

0.50

450

21.42

51.61

0.41

0.86

3

0.60

0.49

450

21.32

52.11

0.35

0.86

4

0.40

0.49

450

21.52

51.93

0.37

0.86

5

0.51

0.50

450

21.42

51.05

0.49

0.86

6

0.63

0.48

450

21.29

51.72

0.41

0.86

7

0.77

0.42

450

21.16

52.81

0.29

0.86

8

0.61

0.49

450

21.31

52.86

0.24

0.87

9

0.24

0.43

450

21.68

51.68

0.45

0.86

10

0.72

0.45

450

21.21

52.85

0.26

0.86

11

0.65

0.48

450

21.28

51.64

0.43

0.86

12

0.33

0.47

450

21.60

51.00

0.53

0.86

13

0.55

0.50

450

21.37

51.37

0.44

0.86

14

0.76

0.43

450

21.16

52.81

0.29

0.86

15

0.47

0.50

450

21.46

50.28

0.60

0.86

16

0.18

0.39

450

21.74

54.41

0.04

0.87

17

0.53

0.50

450

21.39

50.89

0.51

0.86

18

0.74

0.44

450

21.18

54.61

0.00

0.87

19

0.51

0.50

450

21.42

53.14

0.19

0.87

20

0.46

0.50

450

21.47

52.61

0.27

0.86

21

0.74

0.44

450

21.19

52.99

0.25

0.86

22

0.42

0.49

450

21.50

52.41

0.30

0.86

23

0.41

0.49

450

21.51

51.03

0.50

0.86

24

0.54

0.50

450

21.38

50.45

0.58

0.86

25

0.80

0.40

450

21.12

52.12

0.44

0.86

26

0.35

0.48

450

21.58

50.70

0.57

0.86

27

0.62

0.48

450

21.30

52.00

0.37

0.86

28

0.67

0.47

450

21.26

54.46

0.02

0.87

29

0.44

0.50

450

21.48

51.72

0.40

0.86

30

0.38

0.49

450

21.54

51.57

0.43

0.86

31

0.62

0.49

450

21.31

52.18

0.34

0.86

32

0.71

0.45

450

21.22

53.08

0.23

0.87

33

0.67

0.47

450

21.26

51.94

0.39

0.86

34

0.75

0.43

450

21.18

52.76

0.29

0.86

35

0.83

0.37

450

21.09

53.07

0.29

0.86

36

0.21

0.41

450

21.72

52.65

0.34

0.86

37

0.12

0.32

450

21.81

54.25

0.09

0.87

38

0.35

0.48

450

21.57

51.33

0.47

0.86

39

0.49

0.50

450

21.43

51.90

0.37

0.86

40

0.79

0.41

450

21.13

53.18

0.24

0.86

Найдем задания с низкой (<0.2) или отрицательной корреляцией задание-итоговый балл и задания с экстремальными (<0.1 или >0.9) значениями сложности р. Таких всего пять (отмечены красным), удалим их.

Выберем 15 заданий с наиболее высокой корреляцией задание-итоговый балл и посчитаем для них среднее (= 7.3), стандартное отклонение (= 4.08) и надежность (= 0.85).

Так как мы хотели бы, чтобы среднее равнялось 8, то необходимо заменить некоторые из отобранных заданий на более сложные. В первую очередь, следует менять задания с более низкой корреляцией задание-итоговый балл, чтобы минимизировать влияние замены на надежность теста. В данном случае, заменим задания 9, 30 и 2 на 33, 27 и 3.

Тогда для них: среднее = 8.0, стандартное отклонение = 4.01, надежность = 0.84.

Тест построен.