§ 4. Средние величины и характеристики рассеяния значений признака

К оглавлению
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 
17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 
34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 
51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 
68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 
85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 
102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 
119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 
136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 
153 154 155 156 157 158 159 160 161 

Оговоримся сразу, что в этой главе речь пойдет о выборочных

характеристиках распределения (средней, дисперсии и т. д.).

Группировка и построение частотного распределения —

лишь первый этап статистического анализа полученных данных.

Следующим шагом обработки является получение некоторых

обобщающих характеристик, позволяющих в более компактной

форме понять особенности объекта наблюдения. Сюда

относится прежде всего среднее значение признака, вокруг которого

варьируют остальные его значения, и степень колеблемости

рассматриваемого признака. В математической статистике

различают несколько видов средних величин: среднее арифметическое,

медиана, мода и т. д.; существует также несколько

показателей колеблемости (мер рассеяния): вариационный

размах, среднее квадратическое отклонение, среднее абсолютное

отклонение, дисперсия и т. п.

Среднее значение признака. Среднее арифметическое есть частное

от деления суммы всех значений признака на их число.

Обозначается оно х . Формула для вычисления имеет вид:

к 1*.

-_Х\ + Х2 + Х3+ ... +Хп _ ,= |

л — — ,

п п

где xv х2, х3, ..., хп — значение признака; п — число наблюдений.

По следующим данным вычислим среднее число газет, читаемых

ежедневно людьми, в выборке из 10 человек:

Номер опрошенного i 1 2 3 4 5 6 7 8 9 10

к*

Число читаемых газет*, 3 4 4 5 4 2 4 5 5 3 X *'= 39

i - i

По формуле для х находим, что х = 39/10 = 3,9 (газеты).

Если необходимо вычислить среднее для интервального

ряда распределения, то в качестве значения признака для каждого

интервала условно принимают его середину.

Медианой называется значение характеристики у той единицы

совокупности, которая расположена в середине ряда час-

тотного распределения. Если в ряду четное число членов (2к),

то медиана равна среднему арифметическому из двух серединных

значений признака. При нечетном числе членов (2к+ 1)

медианой будет значение признака v(k+ 1) объекта.

Предположим, что в выборке из 10 человек респонденты

проранжированы по стажу работы в данной организации:

Ранг опрошенного i

Стаж х.

1 2 3 4

15 13 10 9

10

Серединные ранги — 5 и 6, поэтому медиана равна (7 + 6)/

/2 = 6,5 лет.

Медиана, как уже отмечалось, делит упорядоченный ряд на

две равные по численности группы. Наряду с медианой можно

рассматривать величины, называемые квантилями, которые

делят ряд распределения на 4 равные части, на 10 частей и т. д.

Квантили, которые делят ряд на 4 равные по объему совокупности,

называются квартилями.

Процентили делят множество наблюдений на 100 частей с

равным числом наблюдений в каждой. Децили делят множество

наблюдений на десять равных частей.

Модой в статистике называется наиболее часто встречающееся

значение признака, т. е. значение, с которым наиболее вероятно

можно встретиться в серии зарегистрированных наблюдений.

В дискретном ряду мода 0) — это значение с наибольшей

частотой.

В интервальном ряду (с равными интервалами) модальным

является класс с наибольшим числом наблюдений. Значение

моды находится в его пределах и вычисляется по формуле:

М0п+8 пмп -п

2пм0 -п -п

где х0 — нижняя граница модального интервала; 8 — величина

интервала; п~ — частота интервала, предшествующего модальному;

пм частота модального класса; п+ — частота интервала,

следующего за модальным.

В совокупностях, в которых может быть произведена лишь

операция классификации объектов по какому-нибудь качественному

признаку, вычисление моды является единственным

способом указать некий центр тяжести совокупности.

К недостаткам моды следует отнести следующее: невозможность

совершать над ней алгебраические действия; зависимость

ее величины от интервала группировки; возможность существования

в ряду распределения нескольких модальных значений

признака.

Целесообразность использования того или иного типа средней

величины зависит по крайней мере от следующих условий:

цели усреднения, вида распределения, уровня измерения характеристики,

вычислительных соображений. Цель усреднения

связана с содержательной трактовкой рассматриваемой задачи.

Однако форма распределения может существенно усложнить

исследование средних. Если для симметричного распределения

мода, медиана и среднее арифметическое тождественны, то

для асимметричного распределения это не так. Например, для

ряда с открытыми конечными интервалами нельзя вычислить

среднее арифметическое, но если распределение близко к

симметричному, то можно подсчитать тождественную ему в

этом случае медиану.