§ 6. Статистические взаимосвязи и их анализ

К оглавлению
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 
17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 
34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 
51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 
68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 
85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 
102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 
119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 
136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 
153 154 155 156 157 158 159 160 161 

Различают два вида зависимостей: функциональные (примером

которых могут служить законы Ньютона в классической

физике) и статистические. Закономерности массовых общественных

явлений складываются под влиянием множества

причин, которые действуют одновременно и взаимосвязанно.

Изучение такого рода закономерностей в статистике и называется

задачей о статистической зависимости. В этой задаче полезно

различать два аспекта: изучение взаимозависимости нескольких

величин и изучение зависимости одной или большего

числа величин от остальных. В основном первый аспект

связан с теорией корреляции (корреляционный анализ), второй

— с теорией регрессии (регрессионный анализ). Главное

внимание в этом параграфе уделено изучению взаимозависимостей

нескольких признаков, а основные принципы регрессионного

анализа рассмотрены очень кратко.

В основе регрессионного анализа статистической зависимости

ряда признаков лежит представление о форме, направлении

и тесноте (плотности) взаимосвязи.

Уравнение регрессии. Рассмотрим условный пример использования

уравнения регрессии. На основе выборочного обследования

были получены данные о том, как связаны стаж работы

в организации и заработная плата работника. Эти данные нанесены

на график рис. 21.5.

100 - "°

3 9 15 21 27 33 X

Рис. 21.5. Диаграмма рассеяния для распределения заработной платы

и общего стажа работы

По оси X отложен стаж работы, а по оси Y — заработная

плата. Каждая точка на рисунке характеризует стаж работы и

заработную плату респондента. Видно, что облако точек расположено

некоторым закономерным образом, и можно предположить

следующую зависимость: с увеличением стажа работы

растет и заработная плата. Аналитически эта тенденция может

быть описана с помощью уравнения регрессии.

Рассмотрим две величины х и у. Зафиксируем какое-либо

значение переменной х, тогда _______у, как видно из рисунка, принимает

целый ряд значений. Обозначим у среднюю величину

этих значений у при данном фиксированном х. Уравнение,

описывающее зависимость средней величины ух от х, называется

уравнением регрессии у от х.

Ух = F(x).

Аналогичным образом можно дать геометрическую интерпретацию

регрессионному уравнению:

Уравнение регрессии описывает числовое соотношение

между величинами, выраженное в виде тенденции к возрастанию

(или убыванию) одной переменной величины при возрастании

(убывании) другой.

Характер связи взаимодействующих признаков отражается в

ее форме. В этом отношении различают линейную и нелинейную

регрессии. На рис. 21.6 приведен график нелинейной формы

линии регрессии для случая двух переменных величин.

Рис. 21.6. Линия регрессии криволинейной формы

Меры взаимозависимости для интервального уровня измерения.

Коэффициент корреляции показывает, насколько плотно

облако точек на графике концентрируется около линии

регрессии.

Наиболее широко известной мерой связи служит коэффициент

корреляции Пирсона г (или, как его иногда называют, «коэффициент

корреляции, равный произведению моментов»).

Одно из важнейших предположений, на котором покоится использование

коэффициента г, состоит в том, что регрессионные

уравнения для изучаемых переменных имеют линейную

форму, т. е. либо: л

у = у + Ь{(х-х),

либо

ху=х + Ь2(у-у),

где у — среднее арифметическое для переменной у; х —

среднее арифметическое для переменной х; bl и Ь2 — некоторые

коэффициенты.

Поскольку вычисление коэффициента корреляции и коэффициентов

регрессии 6, и Ь2 проводится по схожим формулам,

то, вычисляя г, получаем сразу же и приближенные регрессионные

модели. Линия регрессии, которая «наилучшим» образом

соответствует эмпирическим данным, вычисляется с помощью

так называемого метода наименьших квадратов, а

именно так, чтобы сумма квадратов отклонений каждой точки

(на диаграмме разброса) от линии регрессии была минимальной.

Выборочные коэффициенты регрессии и корреляции вычисляются

по формулам:

*.

ь2

Sxy

~ 2

Sx

sxy

~ 2

Sy

Sxy

SxSy

Здесь s2

x дисперсия признака х, s2 — дисперсия признака

.у. Величина s называется ковариацией х и у и вычисляется

по формуле:

S Е (х,-х)(у,-у).

"7 п

Следует отметить, что вопрос о том, какую переменную в

каждом случае принимать в качестве зависимой величины, а

какую — в качестве независимой, исследователь решает на основе

качественного анализа и профессионального опыта. Коэффициент

корреляции, по определению, является симметричным

показателем связи: г = г . Область возможного изменения

ху ух

коэффициента корреляции г лежит в пределах от +1 до —1.

Множественная регрессия. Ранее было показано, как можно

по опытным данным найти зависимость одной переменной от

другой, а именно как построить уравнение регрессии вида

у=а + Ьх Если исследователь изучает влияние нескольких переменных

х,, х2, , хк на результатирующий признак у, то возникает

необходимость в умении строить регрессионное уравнение

общего вида, т е

у = а + ^ х , + Ь2х2 + + Ькхк,

где a, bv bv , bk постоянные коэффициенты, называемые

коэффициентами регрессии

С еще более сложной, но более реалистической задачей мы

сталкиваемся, когда исследователь предполагает, что есть набор

связанных между собой переменных Y (зависимые переменные)

и набор независимых переменных X Вычисление параметров

такой модели рассматривается в теории «причинных»

моделей (этот термин часто используется в социологии) или

структурных уравнений1

Корреляционное отношение. Наиболее общим показателем

связи при любой форме зависимости между переменными является

корреляционное отношение х\г Корреляционное отношение

г)* определяется через отношение межгрупповой дисперсии

к общей дисперсии по признаку у

к

2 3> »<>".-*">'

=

а ме= j_J

'>"/* сnfтi обш ж2Ч Х <у-->г>2

I 1

где yt — среднее значение /-го j-сечения (среднее признака у

для объектов, у которых х = х(, т е столбец «/»), J, — среднее

значение /-го х-сечения (т е строка «/»), п — число наблюдений

в ^-сечении, пх число наблюдении' в х-сечении, у —

среднее значение у

Величина г)2 показывает, какая доля изменчивости значения

у обусловлена изменением значения х В отличие от коэффициента

корреляции, Г|2 не является симметричным показателем

связи, т е г)2, Ф г)2 Аналогично определяется корреляционное

отношение х и у

Сравнение статистических показателей г и г\2. Приведем

сравнительную характеристику коэффициента корреляции (будем

сравнивать г2) и корреляционного отношения г|2:

а) г2 = 0, если х и у независимы (обратное утверждение

неверно);

б) г2 = г)2, = 1 тогда и только тогда, когда имеется строгая

линейная функциональная зависимость у от х;

в) г2 = ц2

< 1 тогда и только тогда, когда регрессия х и у

строго линейна, но нет функциональной зависимости;

г) г2 < г\:'• < 1 указывает на то, что нет функциональной зависимости

и существует нелинейная кривая регрессии.

Коэффициенты взаимозависимости для порядкового уровня

измерения. К этой группе относятся коэффициенты ранговой

корреляции Спирмена гч, Кендалла т и у. Эти коэффициенты

ранговой корреляции используются для измерения взаимозависимости

между качественными признаками, значения которых

могут быть упорядочены или проранжированы по степени

убывания (или нарастания) данного качества у исследуемых

социальных объектов. Таким образом, коэффициенты

корреляции Спирмена и Кендалла используются как меры

взаимосвязи рядов рангов, а не как меры связи между самими

переменными.

Коэффициенты Спирмена и Кендалла обладают примерно

одинаковыми свойствами, но т в случае многих рангов, а также

при введении дополнительных объектов в ходе исследования

имеет определенные вычислительные преимущества.

Другая мера связи между двумя упорядоченными переменными

— у. Она, так же как и предыдущие коэффициенты, изменяется

от +1 до - 1 и может быть подсчитана при любом

числе связанных рангов.

Множественный коэффициент корреляции W, иногда называемый

коэффициентом конкордации, используется для измерения

степени согласованности двух или нескольких рядов про-

ранжированных значений переменных.

Коэффициенты взаимозависимости для номинального уровня

измерения. Связь в табл. 2 x 2 . Простейшая задача о взаимозависимости

возникает тогда, когда имеются два признака, каждый

из которых принимает два значения.

Представим данные о группировке по двум признакам так:

А

не А

сумма

В

а

с

а + с

не В

b

d

b+ d

сумма

a + b

c + d

n (либо 100%)

Для характеристики степени связи двух признаков применяется

коэффициент Ф, определяемый формулой:

ab-bc ф =

yl(a + b)(a + c)(b + d)(c + d)

Коэффициент Ф равен 0, если нет соответствия между

двумя дихотомическими переменными, и равен 1 или —1,

когда имеется полное соответствие между ними. В силу трудностей

с интерпретацией знака коэффициента для категори-

зованных (номинальных) переменных часто используют в

анализе лишь абсолютную величину — \ф\. Ф легко интерпретируется,

поскольку показано, что он представляет собой

просто коэффициент корреляции г, если значения каждой

дихотомической переменной обозначить 0 и 1.

Ф вычисляется для категоризованных данных, представляющих

естественные дихотомии: пол, раса и т. п. Приведение

количественных переменных к дихотомическому виду

связано с выбором граничной точки разделения (например,

мужчины до 30 лет и мужчины старше 30 лет). Искусственная

дихотомизация, столь часто необходимая в конкретном

исследовании при изучении взаимосвязи признаков, может

привести к тому, что одна часть дихотомической переменной

по своему воздействию будет более значима для одной

связи, другая — для другой, а это дает ошибочный результат.

Измерение связи в табл. с х к. Рассмотрим теперь более общую

ситуацию, когда две переменные классифицированы на

две или более категории (см. табл. 21.7). Запишем это таким образом:

 «и

"21

пс{

"•1

«12

"22

«с2

"•2

"\к

"2к

"ск

П-к

«1-

п2.

пс.

п

где я — частоты; л,. — маргинальные суммы частот по строкам;

п. — маргинальные суммы частот по столбцам.

Нормированным коэффициентом корреляции для таблицы

схк является коэффициент сопряженности Пирсона (Р):

Р = V

п + х

, 0 < Р< 1.

Коэффициент Р = 0 при полной независимости признаков.

Недостатком его является зависимость максимальной величины

Р от размера таблицы (максимум Р достигается при с = к,

но сама граница изменяется с изменением числа категорий).

В связи с этим возникают трудности сравнения таблиц разного

размера.

Чтобы исправить указанный недостаток, Чупров ввел другую

величину:

1/2

т=< X

п[(с-1Х*-1)] 1/2 , 0 < Т< 1.

При с = кТ достигает +1 в случае полной связи, однако не

обладает этим свойством при к Ф с.

Коэффициент Крамера (К) может всегда достигать +1, независимо

от вида таблицы:

1/2

К = - X

n-mm(c-l,k -1)

Для квадратной таблицы коэффициенты Крамера и Чупро-

ва совпадают, а в остальных К > Т.

Величина у} быстро вычисляется с помощью формулы:

Следующая группа коэффициентов связи для категоризо-

ванных данных основана на предположении, что если две переменные

связаны, то информация об одной переменной может

быть использована для предсказания другой. Так, если

предположить, что связь между полом индивида и его отношением

к правилам уличного движения абсолютно детерминирована,

то либо все мужчины были бы нарушителями, а женщины

— нет, либо наоборот. Поскольку это не так, то возникает

несоответствие, или, как говорят, ошибка предположения абсолютной

связи (обозначим величину этой ошибки 0А).

Вместе с тем можно предположить, что два признака абсолютно

не связаны и нельзя на основе одной переменной предсказать

другую. Поскольку это тоже не так, то возникает ошибка

предположения об отсутствии связи (00).

Тогда величина ®о ~^А может служить мерой относитель

00

ного уменьшения ошибки при использовании информации об

одной переменной для предсказания другой.

Признак, на основе которого предсказывается другой признак,

будем называть независимой переменной, а предсказываемый

— зависимой. Тогда для случая, когда зависимая переменная

расположена по строкам таблицы (т. е. категории расположены

по строкам), вычисляется коэффициент связи Хг:

У^тахпу - maxn.j

Xr= - e ! _ ! ,

n-maxn.,

j '

где max ni наибольшая частота в столбце «i»; max n. — наибольшая

маргинальная частота для строк «j».

Если зависимая переменная — это категории столбцов таблицы,

то совершенно аналогично предыдущему вычисляется:

У.maxn,j -maxя,.

Х = ^ ^ ,

с п - max n,.

i

где max я; — наибольшая частота в строке «j»; max nr — наибольшая

маргинальная частота для столбцов «i». '

Коэффициены Хг и кс имеют пределы изменения от 0 до 1.

Чем ближе Хг или Хс к 1, тем больше относительное уменьшение

в ошибке и больше соответствие (связь) между переменными.

Эти коэффициенты могут быть использованы для таблиц

любого размера.

В ряде случаев удобно использовать симметричную X:

х =А±4.

2 '

Разнообразие корреляционных коэффициентов, применяемых

при анализе социологических данных, продиктовано

стремлением отразить реально существующее разнообразие типов

связей в обществе. Поэтому данное обстоятельство следует

рассматривать скорее как свидетельство достоинств статистического

аппарата, заключающихся в гибкости и большой приспособленности

его к анализу сложнейших взаимосвязей. Каждый

корреляционный коэффициент приспособлен для измерения

вполне определенного вида связи.

Обычно предпочитают использовать наиболее распространенные

в практике социологических исследований коэффициенты,

так как тем самым достигается возможность сравнения

полученных результатов с материалами других исследований.