§ 6. Статистические взаимосвязи и их анализ

К оглавлению
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 
17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 
34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 
51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 
68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 
85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 
102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 
119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 
136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 
153 154 155 156 157 158 159 160 161 

Различают два вида зависимостей: функциональные (примером

которых могут служить законы Ньютона в классической

физике) и статистические. Закономерности массовых общественных

явлений складываются под влиянием множества

причин, которые действуют одновременно и взаимосвязанно.

Изучение такого рода закономерностей в статистике и называется

задачей о статистической зависимости. В этой задаче полезно

различать два аспекта: изучение взаимозависимости нескольких

величин и изучение зависимости одной или большего

числа величин от остальных. В основном первый аспект

связан с теорией корреляции (корреляционный анализ), второй

— с теорией регрессии (регрессионный анализ). Главное

внимание в этом параграфе уделено изучению взаимозависимостей

нескольких признаков, а основные принципы регрессионного

анализа рассмотрены очень кратко.

В основе регрессионного анализа статистической зависимости

ряда признаков лежит представление о форме, направлении

и тесноте (плотности) взаимосвязи.

Уравнение регрессии. Рассмотрим условный пример использования

уравнения регрессии. На основе выборочного обследования

были получены данные о том, как связаны стаж работы

в организации и заработная плата работника. Эти данные нанесены

на график рис. 21.5.

100 - "°

3 9 15 21 27 33 X

Рис. 21.5. Диаграмма рассеяния для распределения заработной платы

и общего стажа работы

По оси X отложен стаж работы, а по оси Y — заработная

плата. Каждая точка на рисунке характеризует стаж работы и

заработную плату респондента. Видно, что облако точек расположено

некоторым закономерным образом, и можно предположить

следующую зависимость: с увеличением стажа работы

растет и заработная плата. Аналитически эта тенденция может

быть описана с помощью уравнения регрессии.

Рассмотрим две величины х и у. Зафиксируем какое-либо

значение переменной х, тогда _______у, как видно из рисунка, принимает

целый ряд значений. Обозначим у среднюю величину

этих значений у при данном фиксированном х. Уравнение,

описывающее зависимость средней величины ух от х, называется

уравнением регрессии у от х.

Ух = F(x).

Аналогичным образом можно дать геометрическую интерпретацию

регрессионному уравнению:

Уравнение регрессии описывает числовое соотношение

между величинами, выраженное в виде тенденции к возрастанию

(или убыванию) одной переменной величины при возрастании

(убывании) другой.

Характер связи взаимодействующих признаков отражается в

ее форме. В этом отношении различают линейную и нелинейную

регрессии. На рис. 21.6 приведен график нелинейной формы

линии регрессии для случая двух переменных величин.

Рис. 21.6. Линия регрессии криволинейной формы

Меры взаимозависимости для интервального уровня измерения.

Коэффициент корреляции показывает, насколько плотно

облако точек на графике концентрируется около линии

регрессии.

Наиболее широко известной мерой связи служит коэффициент

корреляции Пирсона г (или, как его иногда называют, «коэффициент

корреляции, равный произведению моментов»).

Одно из важнейших предположений, на котором покоится использование

коэффициента г, состоит в том, что регрессионные

уравнения для изучаемых переменных имеют линейную

форму, т. е. либо: л

у = у + Ь{(х-х),

либо

ху=х + Ь2(у-у),

где у — среднее арифметическое для переменной у; х —

среднее арифметическое для переменной х; bl и Ь2 — некоторые

коэффициенты.

Поскольку вычисление коэффициента корреляции и коэффициентов

регрессии 6, и Ь2 проводится по схожим формулам,

то, вычисляя г, получаем сразу же и приближенные регрессионные

модели. Линия регрессии, которая «наилучшим» образом

соответствует эмпирическим данным, вычисляется с помощью

так называемого метода наименьших квадратов, а

именно так, чтобы сумма квадратов отклонений каждой точки

(на диаграмме разброса) от линии регрессии была минимальной.

Выборочные коэффициенты регрессии и корреляции вычисляются

по формулам:

*.

ь2

Sxy

~ 2

Sx

sxy

~ 2

Sy

Sxy

SxSy

Здесь s2

x дисперсия признака х, s2 — дисперсия признака

.у. Величина s называется ковариацией х и у и вычисляется

по формуле:

S Е (х,-х)(у,-у).

"7 п

Следует отметить, что вопрос о том, какую переменную в

каждом случае принимать в качестве зависимой величины, а

какую — в качестве независимой, исследователь решает на основе

качественного анализа и профессионального опыта. Коэффициент

корреляции, по определению, является симметричным

показателем связи: г = г . Область возможного изменения

ху ух

коэффициента корреляции г лежит в пределах от +1 до —1.

Множественная регрессия. Ранее было показано, как можно

по опытным данным найти зависимость одной переменной от

другой, а именно как построить уравнение регрессии вида

у=а + Ьх Если исследователь изучает влияние нескольких переменных

х,, х2, , хк на результатирующий признак у, то возникает

необходимость в умении строить регрессионное уравнение

общего вида, т е

у = а + ^ х , + Ь2х2 + + Ькхк,

где a, bv bv , bk постоянные коэффициенты, называемые

коэффициентами регрессии

С еще более сложной, но более реалистической задачей мы

сталкиваемся, когда исследователь предполагает, что есть набор

связанных между собой переменных Y (зависимые переменные)

и набор независимых переменных X Вычисление параметров

такой модели рассматривается в теории «причинных»

моделей (этот термин часто используется в социологии) или

структурных уравнений1

Корреляционное отношение. Наиболее общим показателем

связи при любой форме зависимости между переменными является

корреляционное отношение х\г Корреляционное отношение

г)* определяется через отношение межгрупповой дисперсии

к общей дисперсии по признаку у

к

2 3> »<>".-*">'

=

а ме= j_J

'>"/* сnfтi обш ж2Ч Х <у-->г>2

I 1

где yt — среднее значение /-го j-сечения (среднее признака у

для объектов, у которых х = х(, т е столбец «/»), J, — среднее

значение /-го х-сечения (т е строка «/»), п — число наблюдений

в ^-сечении, пх число наблюдении' в х-сечении, у —

среднее значение у

Величина г)2 показывает, какая доля изменчивости значения

у обусловлена изменением значения х В отличие от коэффициента

корреляции, Г|2 не является симметричным показателем

связи, т е г)2, Ф г)2 Аналогично определяется корреляционное

отношение х и у

Сравнение статистических показателей г и г\2. Приведем

сравнительную характеристику коэффициента корреляции (будем

сравнивать г2) и корреляционного отношения г|2:

а) г2 = 0, если х и у независимы (обратное утверждение

неверно);

б) г2 = г)2, = 1 тогда и только тогда, когда имеется строгая

линейная функциональная зависимость у от х;

в) г2 = ц2