<<
>>

Анализ одномерных распределений

Когда мы говорим об анализе одномерных распределений, то име­ем в виду анализ свойств распределения значений одной перемен­ной. Вопросы, ответы на которые мы находим в процессе одномер­ного анализа, могут звучать примерно таким образом: какова поддержка населением действующего президента в целом по стра­не? насколько типична эта усредненная поддержка, насколько она отражает показатели поддержки в различных регионах или среди различных социальных групп? каков общий размах колебаний этой поддержки, в каких пределах она варьируется? не отражает ли фор­ма распределения поддержки по социальным группам наличия политического раскола в обществе? Во всех случаях мы имеем дело с одной переменной — «поддержка действующего президента населением», — со значениями, которая данная переменная принимает в отдельных случаях.

Наиболее важными операциями в рамках одномерного анализа яв­ляются, во-первых, вычисление средней с определением степени разброса данных вокруг нее, во-вторых — определение формы рас­пределения значений переменной.

Средние величины и меры разброса

Средняя величина является в большинстве случаев весьма инфор­мативной мерой «центрального положения» наблюдаемой перемен­ной. Она позволяет оценивать и сравнивать свойства не отдельных объектов, но групп объектов в целом. Например, мы проводим опрос среди студентов одной учебной группы с целью выявить их полити­ческую самоидентификацию в качестве «левых», «либералов», «национал-патриотов» и «центристов». Всего опрашивается 15 чело­век, каждый респондент относит себя к той или иной категории политических взглядов. Соответственно, по итогам исследования у нас будет ясное представление о политической самоидентифика­ции каждого из студентов курса, т.е. о том, какие значения прини­мает переменная «политическая самоидентификация» в каждом из 15 изученных случаев.

Но почти наверняка мы захотим получить информацию не только о взглядах каждого отдельного студента, но и о том: 1) как распреде­лены студенты по категориям политических убеждений в группе в це­лом; 2) какова «средняя» политическая самоидентификация группы в целом. И здесь мы вступаем на путь статистических расчетов.
Переменная «политическая самоидентификация» является номи­нальной: мы попросту распределяем совокупность изучаемых объек­тов (15 респондентов) по четырем категориям, каждой из которых произвольно присваивается числовой код. Например: 1 — «левые», 2 — «либералы», 3 — «национал-патриоты», 4 — «центристы». Пред­положим, по итогам опроса мы получаем следующий ряд значений: (2,3,4, 4, 1, 1, 1,4, 4,2,2,3,3,4, 2).

Для превращения этих данных в осмысленную статистическую картину необходимо прежде всего рассчитать частотное распределение — показатель того, сколько раз встречается каждое из значений переменной. В нашем случае частота значения 1 («левые») составит 3, значения 2 («либералы») — 4, значения 3 («национал-патриоты») — 3, значения 4 («центристы») — 5. На основании частотного распределения легко вычислить процентное соотношение респондентов, принадлежащих к четырем категориям политической самоидентификации.

Таблица частот для нашего примера будет иметь следующий вид:
Категория Частота % от всех случаев
1 («левые») 3 20%
2 («либералы») 4 26,7%
3 («национал-патриоты») 3 20%
4 («центристы») 5 33,3%

Подобного рода данные удобно визуализировать, сделать нагляд­ными при помощи построения круговой диаграммы или столбчатой гистограммы.

Следует подчеркнуть, что визуализация данных в ста­тистике сама по себе является аналитической процедурой. Сделав данные наглядными, мы сможем обнаружить скрытые в них законо­мерности.

Для нашего примера:


Мы выяснили характер распределения студентов по категориям по­литических предпочтений в группе, теперь следует определиться со средней величиной. На номинальном уровне измерения средняя вели­чина определяется на основе частотного распределения. Это попросту наиболее часто встречающееся значение, именуемое модой (модальным значением). В нашем случае модой является 4; иными словами, в груп­пе наиболее распространены центристские убеждения. Имеющееся распределение будет называться унимодальным, так как значение моды всего одно. В ситуации, когда модальных значений несколько, распре­деление является мультимодальным.

Наконец, необходимо выяснить, насколько средняя в действитель­ности отражает характер распределения, т.е. насколько центристские политические взгляды на самом деле типичны для группы в целом. По­казателем типичности средней для числового ряда в статистике являет­ся коэффициент вариации. Он показывает, насколько существен раз­брос значений вокруг средней.

Как и средние величины, меры вариации различаются на разных уровнях измерения. На номинальном уровне измерения можно использовать лишь один простой показатель — отношение об­щего числа немодальных (т.е. не соответствующих моде) значений к общему числу значений. В нашем случае все респонденты немодаль­ных категорий («левые» + «либералы» + «национал-патриоты») составляют 10; всего же опрошено 15 респондентов. Соответственно, отношение (10:15) составит примерно 0,6. Чем ближе значение коэффициента к 0, тем лучше мода описывает реальное распределение; чем ближе к 1 — тем менее она репрезентативна.

По существу, операциями по расчету частотного распределения, процентного соотношения, моды и коэффициента вариации исчерпываются все возможные вычисления на номинальном уровне. Столь небольшое число опций обусловлено тем, что числа на этом уровне измерения служат не более чем «ярлыками», «опознаватель­ными знаками» категорий признака, не отражая его какие-либо содержательные свойства.

На порядковом уровне измерения, где присутствует упорядочивание категорий с точки зрения возрастания/убывания ин­тенсивности признака, открываются новые статистические возмож­ности.

Основной средней величиной для порядковых переменных явля­ется медиана (М). Медиана представляет собой середину ранжированного числового ряда: выше и ниже медианы должно быть равное чис­ло элементов. Так, для ряда (1, 1, 2, 4, 4, 6, 7, 8, 9) медианой будет 4.
В случае, когда число элементов является четным (1, 1, 2, 4, 4, 6, 7, 8, 9, 9) и возникают как бы две середины числового ряда (4 и 6), медиа­ной станет их среднее арифметическое — 5.

Распространенным способом измерить разброс значений вокруг средней на порядковом уровне является вычисление квартилей — чет­вертей ранжированного ряда. Значение нижнего (первого, Qj) квар­тиля показывает середину части числового ряда от его начала до медианы, верхнего (третьего, Qj)— середину части от медианы до конца ряда. Второй квартиль совпадает с медианой. Чем больше интервал между нижним и верхним квартилем, тем больше разброс значений вокруг средней и тем в меньшей степени средняя является репрезен­тативной для числового ряда. Разность между верхним и нижним квартилем называется квартильным рангом и служит мерой вариации для порядковых переменных.

Проиллюстрируем одномерный анализ порядковых переменных следующим примером. Предположим, имеется две группы по 11 рес­пондентов в каждой, которые должны дать оценку политической влиятельности лидера А по шкале от 0 до 10, где 0 — отсутствие влиятельности, 10 — максимальная влиятельность. Получены также оценки:

Группа Оценки
1 1, 1,2, 3,4,5,6, 7,8,9, 10
2 3,3,4, 4,5, 5,5,5,6, 6,7

В обеих группах медианы получились одинаковые — 5. Другими словами, политическая влиятельность лидера Л оценена респондента­ми обеих групп на одинаковом среднем уровне. Но насколько эта усредненная оценка отражает реальное распределение мнений в каж­дой из групп, насколько едино мнение респондентов в каждой из групп относительно данной оценки?

Чтобы выяснить это, рассчитаем квартальные ранги для каждого случая. В первой группе нижний квартиль равен 2, верхний — 8, квартальный ранг равен 6 (6 = 8—2). Во второй группе нижний квартиль составляет 4, верхний — 6, квартальный ранг равен 2(2 = 6—4).

Группа М Qi Q3 (3-ранг
і 5 2 8 6
2 5 4 6 2

Глядя на эту статистику, можно утверждать, что в первой группе средняя 5 является скорее случайным значением, не репрезентативным по отношению к общей совокупности мнений: разброс вокруг средней очень велик. Напротив, во второй группе наблюдается в до­статочной мере консолидированное мнение, и оценку влиятельности политика ,4 «на среднем уровне» можно считать действительной оцен­кой группы в целом.

На интервальном уровне измерения, предполагаю­щем не только упорядочение категорий по признаку «больше—меньше», но и установление фиксированного интервала измерения, мы способны осуществлять все операции с натуральными числами. На­иболее распространенной средней величиной для интервальных вы­числений является хорошо знакомое еще со школьной скамьи среднее арифметическое. Среднее арифметическое представляет собой результат деления суммы всех элементов совокупности на общее их чис­ло. Так, для числового ряда (1, 2, 3, 4, 5, 6, 7, 8, 9) среднее арифмети­ческое составит 5 (5 = (1+2 + 3+4+ 5 + 6 + 7 + 8+9):9).

Характерной особенностью среднего арифметического является высокая чувствительность к кренам в распределении, связанным с наличием в совокупности одного или нескольких предельных значе­ний. Например, если за партию Х в четырех районах из пяти проголосовало по 2% избирателей, а в одном — 90%, среднее арифметическое составит 19,6% — совершенно не информативное с точки зрения реальной картины распределения число.

Кстати, к таким предельным значениям совершенно не чувствительна медиана, что обусловлено спецификой порядкового уровня. Например, в ряду (1, 2, 3, 4, 5) число 3 является и медианой (больше и меньше его по два значения), и средним арифметическим. Однако если мы находимся на порядковом уровне измерения, то имеем право, к примеру, заменить число 5 на число 100. Такая возможность обусловлена тем, что 100 по-прежнему больше единицы, двойки, тройки и четверки, т.е. порядок чисел с точки зрения отно­шения «больше — меньше» не изменился. В числовом ряду (1, 2, 3, 4, 100) медианой остается 3, тогда как среднее арифметическое ме­няется радикально — 22. Среднее арифметическое чувствительно к абсолютным значениям чисел, а медиана — нет. Соответственно, находясь на порядковом уровне измерения, мы не можем коррект­ным образом рассчитать среднее арифметическое, в то же время расчет медианы для интервальных переменных может оказаться весьма уместным.

Здесь следует подчеркнуть одно правило, связанное с использованием вычислительных процедур на разных уровнях измерения. В бо­лее сложных измерениях могут использоваться все вычисления, применимые на более простых уровнях, но не наоборот. Так, на интервальном уровне можно рассчитывать и среднее арифметическое, и моду, и медиану; на порядковом — моду и медиану; на номиналь­ном — только моду.

Традиционной мерой разброса значений вокруг средней на интер­вальном уровне выступает стандартное отклонение. Вычисление стандартного отклонения — несколько более изощренная процедура по сравнению с подсчетом медианы и моды. Она включает следующие стадии:

• подсчет разностей между средним значением и всеми имеющи­мися значениями, как бы определение расстояния (отклонения) от каждой точки числового ряда до его середины. В нашем примере с экстремальным показателем поддержки партии в одном из пяти рай­онов мы получим четыре одинаковые разности: -17,6 (2—19,6) и одно значение 70,4 (90—19,6);

• возведение в квадрат каждого из полученных отклонений. Получаем четыре значения 309,62 (—17,6 2) и одно значение 4956,16 (70,4 2);

• суммирование всех квадратов отклонений. В нашем случае полу­чится 6195,2 (309,62 + 309,62 + 309,62 + 309,62 + 4956,16);

• деление суммы квадратов отклонений на общее число элементов совокупности минус 1 (N— 1). В нашем случае получим 1548,8 (6195,2: (5-1));

• извлечение из полученного частного квадратного корня: 39,35 (V1548,8). Это очень большое значение стандартного отклонения. Ес­ли бы «аномальный» район отдал партии не 90%, а 10% голосов, зна­чение стандартного отклонения сократилось бы до 3,57.

Таким образом, стандартное отклонение представляет собой сумму квадратов отклонений всех измеренных значений от их среднеарифме­тического значения, деленную на количество элементов совокупности, минус 1.

При одномерном анализе распределений интервальных перемен­ных используют и такие показатели, как минимум (наименьшее зна­чение), максимум (наибольшее значение), размах (разница между ми­нимумом и максимумом).

Форма распределения значений переменной

Оценка формы распределения переменной важна с двух точек зрения. Во-первых, многие статистические методы предъявляют особые требования к форме распределения; если реальное распределение значений переменной не отвечает данным требованиям, результаты анализа могут быть поставлены под сомнение. Во-вторых, форма распреде­ления переменной для политического аналитика может представлять интерес сама по себе, независимо от использования того или иного статистического инструментария. Форма распределения значений пе­ременной может отражать содержательные характеристики изучаемо­го явления.

Большинство статистических методов, работающих с интерваль­ными данными (а это основная часть вообще всех статистических ме­тодов), исходит из предположения о нормальном распределении значе­ний переменной, т.е. большая часть значений группируется около некоторого среднего значения, по обе стороны от которого частота наблюдений равномерно снижается. В более точном смысле основное свойство нормального распределения характеризуется тем, что 68% всех наблюдаемых значений переменной лежит в диапазоне ±1 — стандартное отклонение от среднего, а диапазон ±2 стандартного от­клонения содержит 95% значений. Если же говорить совсем просто, суть «нормальности» распределения состоит в том, что средние и близкие к средним значения встречаются чаще, чем крайние (экстремально большие и экстремально малые).

Почему именно такое распределение называется «нормальным»? Потому что оно типично для окружающего мира, действительности в целом. К примеру, если мы случайно отберем достаточно большое количество людей и измерим их рост, логично предположить, что большинство из них окажутся среднего или близкого к среднему ро­ста, а число очень высоких и людей очень маленького роста будет сравнительно небольшим. Согласитесь, весьма странно в такой ситу­ации смотрелась бы толпа, состоящая в основном из «великанов» и «карликов».

Нормальное распределение описывается колоколообразной кривой (колокол Гаусса). В действительности нормальное распределение «в чистом виде» — т.е. полностью соответствующее кривой Гаусса — можно наблюдать довольно редко. Для большинства статистических методов важно, чтобы распределение в целом соответствовало нор­мальному. Наиболее распространенный (хотя и не единственный) способ тестирования распределения на нормальность — визуальный анализ диаграммы распределения. Наиболее удобная ее форма — уже упоминавшаяся нами столбчатая гистограмма.

На рисунке ниже приведена столбчатая гистограмма, показываю­щая распределение голосов, поданных за одну из политических пар­тий по регионам России на федеральных парламентских выборах 2003 г. Кривая показывает идеальное нормальное распределение для данной переменной. Несмотря на отсутствие полного соответствия очевидна близость распределения переменной к нормальному.

Такого рода гистограмма строится на основе таблиц распределения частот встречающихся значений переменной в определенных интер­валах. Число интервалов в современных статистических программах может быть задано пользователем. Таблица частот в данном случае бу­дет иметь вид:

Интервал Частота % от всех случаев
0 - 2 % голосов 3 3,4%
2-4% 8 8,9%
4-6% 14 15,7%.
6-8% 23 25,8%
8 - 1 0 % 26 29,3%
1 0 - 1 2 % 8 8,9%
12-14% 3 3,4%
14-16% 2 2,3%
1 6 - 1 8 % 1 1,1%
18-20% 1 1,1%

В то же время ненормальность распределения сама по себе может представлять интерес для исследователя. К примеру, мы имеем следу­ющее распределение электоральной поддержки некоторой политиче­ской партии по регионам страны:


Как видно из гистограммы, мы имеем распределение, по сути, об­ратное нормальному: преобладают регионы с очень высокой или, на­против, очень низкой поддержкой данной партии, тогда как средние значения явно «провисают». Содержательно такую картину мы можем интерпретировать как электоральный раскол между регионами страны по критерию поддержки данной партии. Подобную картину можно было наблюдать, например, при голосовании за партию ХСС в Германии.

<< | >>
Источник: Ахременко А.С.. Политический анализ и прогнозирование. 2006
Помощь с написанием учебных работ

Еще по теме Анализ одномерных распределений:

  1. Одномерные и многомерные стили руководства. Решетка стилей руководства Р. Блейка и Д. Моутона
  2. Распределение доходов
  3. § 119. Другие органы распределения
  4. 1. Производство, обмен и распределение
  5. Территориальное распределение экономического потенциала
  6. Глава XIV ОРГАНИЗАЦИЯ РАСПРЕДЕЛЕНИЯ
  7. Глава 10. ДОХОДЫ И ИХ РАСПРЕДЕЛЕНИЕ
  8. 33.3. РАСПРЕДЕЛЕНИЕ НАЛОГОВОГО БРЕМЕНИ
  9. 16.2. Распределение дохода и имущественное неравенство
  10. 41.1. ВЫИГРЫШ ОТ ВНЕШНЕЙ ТОРГОВЛИ И ЕГО РАСПРЕДЕЛЕНИЕ
  11. 3.3. Внешняя торговля и распределение доходов
  12. ГЛАВА 2. ВЫИГРЫШ ОТ ВНЕШНЕЙ ТОРГОВЛИ И РАСПРЕДЕЛЕНИЕ ДОХОДОВ
  13. 3.7.1. Территориальное распределение банковской инфраструктуры
  14. ГЛАВА 4. Структура распределения собственности в Приморском крае