Результаты и их обсуждение

К оглавлению
1 2 3 4 5 6 7 8 9 

L-шкала: оценка надежности. Анализ интеркорреляций между пунктами L-шкалы на основе критерия χ2 свидетельствует, что лишь 37 из 105 проверенных взаимосвязей (35,2%) являются значимыми на конвенционально приемлемом уровне (р < 0,05). Рассмотрение каждого суждения в отдельности показало, что ни одно из них не коррелирует значимо со всеми остальными 14-ю. Даже пункты №№ 45 и 90, имеющие максимальное число статистически значимых корреляций (по 8), взаимосвязаны лишь с половиной тестовых субшкал (табл. 1).

Средний показатель коэффициента контингенции для значимых связей по всему тесту составляет лишь 0,157 при общей вариации значений от 0,003 до 0,292. В целом по матрице связей он едва превышает 0,10. Подобные значения весьма типичны для шкал с невысоким уровнем надежности. В исследовании Н. Брэдберна и С. Садмана, посвященном реинтерпретации шкалы Марлоу-Крауна, средний коэффициент межвопросной корреляции оказался равным 0,09 [11, р. 88], а в исследовании Д. Смита – 0,18 [23, р. 91], что было расценено авторами как веское основание для отрицательного заключения относительно пригодности тестируемого инструмента.

Наиболее сильными переменными L-шкалы могут, по-видимому, считаться суждения №№ 225, 90, 15 и 45. Однако усредненные значения коэффициентов взаимной корреляции по этим вопросам невысоки (0,12-0,13) и не позволяют считать данный вывод окончательным. Наиболее слабыми являются суждения №№ 195, 150, 60 и 165. Однако и это заключение нуждается в дальнейшей проверке и уточнении.

По сути дела все эти данные означают, что в тесте нет высоко скореллированных пунктов. Следовательно, практически все суждения в нем индивидуальны, не взаимозаменяемы, а процедура измерения столь сложного конструкта, как неискренность не может быть сведена к постановке одного или даже нескольких единичных вопросов. Даже если взять четыре указанных выше суждения с наивысшими средними значениями корреляций, то можно заметить, что не все из них значимо коррелируют между собой: № 225, например, выбивается из общей тенденции, хотя и имеет в среднем самый высокий показатель силы взаимосвязей.

Чтобы понять, в какой мере все пункты L-шкалы «работают» на одну и ту же латентную переменную, подлежащую измерению, нами был проведен анализ корреляций каждого ее пункта с интегральным аддитивным показателем, т.е. с суммарным баллом, набранным всеми респондентами по тесту в целом. Результаты, полученные в рамках данной процедуры, чуть более оптимистичны, чем в предыдущем случае, хотя и они свидетельствуют о недостаточной надежности и, в частности, о неполной внутренней консистентности анализируемой шкалы. Все изученные нами корреляции значимы на высоком уровне, однако коэффициенты, характеризующие силу связей, вновь невелики и могут быть интерпретированы скорее как умеренные3. Средний показатель Еta для всего теста равен 0,330, при этом максимальное значение данного коэффициента не достигает 0,5, а минимальное – 0,16 (табл. 2).

Вместе с тем полученные данные позволяют заключить, что как минимум для двух пунктов шкалы (№№ 75 и 150) интенсивность связи с суммой баллов весьма незначительна (0,155 и 0,180, соответственно). Их вклад в значение итогового индекса минимален. Однако вопрос о том, можно ли рассматривать эти суждения в качестве кандидатов на удаление из теста с целью повышения его гомогенности, пока неясен. Для этого необходимо более детально проанализировать влияние данных пунктов (как, впрочем, и всех остальных) на общий показатель надежности L-шкалы. Тем более что при оценке надежности  измерительных инструментов важнее ориентироваться не на высокие значения интеркорреляций или корреляций отдельных суждений с итоговой суммой баллов, а на показатель «их общей внутренней согласованности», традиционно оцениваемый посредством коэффициента Альфа Кронбаха [24, с. 56].

Данный коэффициент, рассчитанный для L-шкалы с помощью программы «Reliability» из SPSS, составил 0,4441, что явно свидетельствует о низком уровне надежности интересующего нас вопросника. Судя по литературе, приемлемым в данном случае можно было бы считать такой показатель корреляции, который превышает 0,8. По сообщению Д. Крауна и Д. Марлоу, коэффициент надежности для их 33-пунктной шкалы социальной желательности составляет 0,88 [11, р. 88]. Ф. Ример считает допустимым значение Альфа, равное 0,69 для 7-пунктной шкалы [18, р. 502]. Тест, сконструированный Е. Головахой, Н. Паниной и А. Горбачиком из 44 вопросов, в эксперименте продемонстрировал общую надежность на уровне 0,867, что было признано авторами весьма высоким показателем [24, с. 56]. Между тем, Н. Брэдберн и С. Садман, обнаружив, что тестированный ими «усеченный» вариант МС-шкалы, сформированной из 10 пунктов, характеризуется коэффициентом, равным 0,497, сделали однозначный вывод о том, что шкала является «относительно слабым» инструментом для измерения неискренности [11, р. 88].

Процедура последовательного исключения пунктов из L-шкалы при одновременном контроле Альфа Кронбаха, результаты которой представлены в табл. 3, показала, что три вопроса в данной шкале (№№ 90, 225 и 165) значимо отрицательно влияют на показатель ее общей надежности, снижая гомогенность теста. Эти суждения, по-видимому, иррелевантны содержанию и структуре вопросника и не отражают истинного значения измеряемой переменной. Одновременное (совместное) удаление всех этих трех вопросов заметно повышает значение Альфа (до 0,5165), хотя и не настолько, чтобы можно было считать его приемлемым. Вместе с тем измерение того же показателя только для этих пунктов дает явно отрицательный результат: Альфа Кронбаха для искусственно созданной 3-пунктной шкалы составляет – 0,0462. Для сравнения отметим, что значение Альфа для шкалы, сформированной из трех высоко надежных вопросов (№№ 30, 75, 150) составило 0,4163. Следовательно, при условии высокой гомогенности L-шкалы был бы смысл в применении сокращенного (12-пунктного) ее варианта для повышения надежности измерения неискренности респондентов. С другой стороны, при решении задачи, связанной с отбором суждений для конструирования «комбинированной шкалы искренности» [2, с.17], целесообразно было бы использовать именно те из указанных пунктов, которые обладают повышенной надежностью (№№ 15, 45, 285, 255, 120, 135 и 30).

Для измерения степени согласованности отдельных вопросов L-шкалы с латентной характеристикой в рамках модели split-scale нами был также рассчитан коэффициент Спирмена-Брауна, фиксирующий меру корреляции между двумя частями теста, каждая из которых включает половину пунктов единого вопросника. По мнению специалистов, чем выше этот коэффициент, тем согласованнее оценки истинного значения переменной, получаемые с помощью данного набора индикаторов [19, с. 114]. Судя по полученным в исследовании данным, вопросы L-шкалы, к сожалению, не обладают указанным свойством: коэффициент Спирмена-Брауна, равный 0,3324, свидетельствует о низкой надежности анализируемого теста по критерию согласованности его субшкал между собой и с латентной переменной.

L-шкала: проблема валидности. Валидность шкалы тестировалась нами в двух отношениях. С одной стороны, нас интересовал вопрос о том, измеряет ли она неискренность как изначально заданное свойство (конструктная валидность). А с другой, мы хотели знать, обладает ли данный инструмент способностью значимо дифференцировать искренних и неискренних респондентов и тем самым продуктивно выполнять свою главную функцию (дискриминантная валидность).

При установлении конструктной валидности проверялось наличие значимых корреляций между искусственно созданными переменными, фиксирующими соотношение искренних и неискренних ответов респондентов на 16 контрольных вопросов анкеты, и общей суммой баллов, набранных ими по шкале социальной желательности. При этом мы исходили из предположения, что если L-шкала на уровне индекса высоко коррелирует с «эталонными» оценками неискренности, полученными посредством контрольной техники, то она действительно измеряет тот самый социально-психологический конструкт, для фиксации которого и создавалась изначально.

В результате проведенного анализа оказалось, что лишь 5 из 16 тестированных зависимостей были статистически значимыми на уровне не ниже 0,05. Из четырех указанных выше «эталонных» переменных («визит

 

В. Путина в США», «дата основания Москвы», «лоббинг» и «куадрин»4) только две последние значимо коррелировали с суммарным «индексом социальной желательности». Все остальные проведенные нами тесты дали основание для отрицательных заключений. Вместе с тем даже в тех случаях, когда наблюдались значимые связи, их интенсивность была незначительной: в среднем для 5 переменных, коррелирующих с суммарным баллом, значение Еta–коэффициента составило лишь 0,206 при максимальном значении, равном 0,253, и минимальном – 0,159. В принципе та же картина наблюдается и для двух значимо коррелирующих «эталонных» вопросов (табл. 4).

Для проверки L-шкалы на дискриминантную валидность мы воспользовались процедурой «двухвыборочного» t-теста. С этой целью в SPSS первоначально были рассчитаны средние баллы, набранные по каждой из 16 контрольных переменных искренними и неискренними респондентами, получившими такую квалификацию на основе ответов на вопросы-«ловушки», а затем эти показатели сравнивались между собой посредством t-статистик. Значимость различий между средними определялась с учетом теста Ливиня для условия о равенстве дисперсий.

В данном случае мы предполагали, что если по всем или хотя бы по большинству сравниваемых пар средних будут получены значимые положительные t-оценки, то L-шкала может считаться инструментом, достоверно дифференцирующим группы искренних и неискренних респондентов, а потому обладает достаточно высокой дискриминантной валидностью.

В результате анализа полученных данных выяснилось, что лишь в половине всех тестируемых сравнений имеются статистически значимые различия между средними баллами, набранными испытуемыми по шкале лжи из MMPI (табл. 5). Следовательно, вероятность правильной идентификации респондентов, склонных к социальной желательности, для данного инструмента не превышает 50%. Фактически это означает, что производимые по L-шкале измерения достигают своей изначальной цели лишь в каждом втором случае. Однако более внимательное рассмотрение данных показывает, что даже эти крайне неутешительные показатели сильно завышены.

В этой связи обращает на себя внимание большое число отрицательных t-статистик. В 9 из 16 всех сравниваемых пар средних и в 5 из 8 случаев значимых различий между ними t-оценки свидетельствуют о наличии обратных тенденций, существование которых противоречит гипотезе о том, что высокие баллы по L-шкале характерны для респондентов, склонных к самопрезентации. Т.е., по сути дела шкала лжи из MMPI смогла достоверно дифференцировать группы искренних и неискренних испытуемых только в 3 из 16 тестированных нами случаев. К тому же в достоверности одного из них (вопрос № 2) имеются большие сомнения, поскольку в группе неискренних респондентов здесь оказалось всего 4 человека. Следовательно, вероятность безошибочных квалификаций, основанных на результатах L-тестирования, на самом деле не превышает 19%. Во всех остальных случаях шкала либо необоснованно пропускает большое количество неискренних респондентов, либо незаслуженно отсеивает «достоверных информантов» во внетестовых ситуациях. При этом последняя из указанных тенденций встречается, по-видимому, значительно чаще.

Эта гипотеза находит, похоже, и еще одно статистическое подтверждение. Проведенный нами корреляционный анализ свидетельствует о существовании слабой обратной взаимосвязи между двумя интегральными индексами: «эталонной лжи» и «социальной желательности», измеренной по L-шкале. Коэффициент корреляции Пирсона (R) составляет – 0,091 при р = 0,074. Следовательно, чем чаще респондент «попался» на контрольные вопросы, тем ниже его балл по L-шкале и, соответственно, меньше вероятность того, что его интервью будет признано невалидным. И, наоборот, чем искреннее человек отвечает на «эталонные» вопросы, тем больше у него шансов не пройти испытание по шкале из MMPI.