<<
>>

Анализ связей между неметрическими переменными

Прежде всего необходимо напомнить, что неметрическими (категори­альными) переменными называют переменные, измеряемые на номи­нальном уровне. Номинальные переменные — пол, принадлежность к той или иной политической партии, предпочтение определенного кан­дидата — соотносят изучаемые объекты с определенным набором непересекающихся классов (мужской/женский; член КПРФ / член ЛДПР / член «Единой России» и т.д.; поддерживает кандидата А / кандидата В/ кандидата Q.

К неметрическим относятся также порядковые перемен­ные с небольшим числом категорий. Порядковые переменные ранжи­руют объекты по интенсивности определенного признака (например, интенсивность интереса к политике: низкая / средняя / высокая).

Анализ связей между переменными предполагает получение отве­та на три основных вопроса:

• Существует ли связь между переменными?

• Какова интенсивность (плотность) связи между переменными, если она существует?

• Какова направленность (характер) этой связи?

Таблицы сопряженности

Наиболее простым и распространенным способом выявления связи между категориальными переменными является построение таблиц сопряженности, которые показывают, сколько случаев относится од­новременно и к определенной категории переменной А, и к определенной категории переменной В.

Предположим, имеется две номинальные переменные: 1) пол ре­спондента с категориями «мужской» и «женский»; 2) политические предпочтения респондента с категориями «поддержка кандидата в президенты А» и «поддержка кандидата в президенты В» («выбор кандидата»). Всего опрошено 54 респондента, мужчин и женщин среди них поровну (по 27). Кандидатур отдали предпочтение 24 респондента, кандидату В — 30. Возникает вопрос: существует ли связь между половой принадлежностью респондентов и их выбором между кандидатом А и кандидатом В? Чтобы ответить на него, построим матрицу сопряженности переменных «пол» и «выбор кандидата» (этот прием называется кросстабуляцией). В ней будет четыре кате­гории частот:

1) мужчины, поддерживающие кандидата А;

2) мужчины, поддерживающие кандидата В;

3) женщины, поддерживающие кандидата Л;

4) женщины, поддерживающие кандидата В.

Пол мужской Пол женский Всего
Кандидат А 19 5 24
Кандидат В 8 гг 30
Всего 27 27 54

Даже беглого взгляда на матрицу сопряженности достаточно, что­бы убедиться в наличии связи. Так, среди поддерживающих кандида­та Л явно доминируют мужчины (18 мужчин из 23 случаев), электорат же кандидата В представлен в основном женщинами (21 женщина из 29 случаев).

В рамках анализа таблиц сопряженности мы располагаем рядом способов сделать понимание связи более глубоким. Первый из них позволяет вычислить отношения между (1) реально наблюдаемыми частотами и (2) частотами, которые мы ожидали бы увидеть в том случае, если бы связи не существовало.

При отсутствии связи между пе­ременными «пол» и «выбор кандидата» логично ожидать равного выбора кандидата Л и кандидата В для каждого пола.
Таблица ожидаемых частот для нашего примера выглядит следую­щим образом:
Пол мужской Пол женский Всего
Кандидат А 12 12 24
Кандидат В 15 15 30
Всего 27 27 54

Как видим, среди поддерживающих кандидата Л частота значений «мужской пол» выше ожидаемой, а частота значений «женский пол» — ниже. Для кандидата В ситуация обратная. Полезно вычис­лить точные отклонения между наблюдаемыми и ожидаемыми часто­тами, вычтя вторые из первых. Полученные разности будут называть­ся остатками. Таблица остатков в нашем примере будет иметь вид:

Пол мужской Пол женский
Кандидат А 7 -7
Кандидат В -1 7

Еще один способ сделать наше понимание связи между перемен­ными более глубоким — дополнить абсолютные частоты процентными отношениями:

Пол мужской Пол женский Всего
Частота 19 5 24
Кандидат А % от «кандидат» 79,2% 20,8% 100%
% от «пол» 70,4% 18,5% 44,4%
% от «всего» 35,2% 9,3% 44,4%
Частота 8 22 30
Кандидат В % от «кандидат» 26,7% 73,3% 100%
% от «пол» 29,6% 81,5% 55,6%
% от «всего» 14,8% 40,7% 55,6%
Частота 27 27 54
Всего % от «кандидат» 50% 50% 100%
% от «пол» 100% 100% 100%
% от «всего» 50% 50% .. 100%

Из приведенной таблицы следует, в частности, что кандидата А поддерживают 19 из 27, или 70%, опрошенных мужчин. Этого же кандидата поддерживает 5 из 27, или 18%, опрошенных женщин. Доля мужчин в совокупном электорате кандидата Л составляет 79%, доля женщин — 21%. Среди всех опрошенных доля мужчин, поддерживающих кандидата 4, составляет 35%, женщин — 9%. Аналогичным об­разом оценивается и распределение мужской и женской поддержки для кандидата В.

Наиболее показательными с точки зрения оценки связи между пе­ременными являются доли мужчин и женщин среди поддерживающих кандидата А и В соответственно (в таблице эти значения выделе­ны жирным шрифтом). По этим значениям можно построить наглядную столбчатую гистограмму:

Кандидат А Кандидат В

DM аж

Полученные результаты позволяют сделать вывод не только о на­личии связи, но и о ее характере: мужчины склонны в большей степе­ни, чем женщины, поддерживать кандидата А; женщины, напротив, в своем большинстве отдают предпочтение кандидату В.

Меры связи категориальных переменных

С помощью таблиц сопряженности мы получили наглядное представ­ление о сочетаниях категорий переменных и сделали обоснованное предположение о наличии и характере связи между ними. Однако нельзя ли дополнительно получить некую единую числовую «меру уверенности» в том, что связь действительно существует и является значимой? Кроме того, нет ли возможности выявить числовую меру интенсивности (плотности) этой связи? Во многих случаях — особен­но если требуется сопоставить связи между различными переменными — единый числовой коэффициент удобнее, нежели обширная ста­тистика таблиц сопряженности.

Действительно, статистические инструменты позволяют получить ответы на оба вопроса. Существует несколько коэффициентов связи между категориальными переменными.

Идея, лежащая в основе вычисления коэффициента хи- квадрат (х 2), уже была нами затронута при рассмотрении матриц сопряженности. Хи-квадрат оценивает значимость различий между ожидаемыми и наблюдаемыми частотами. Если наблюдаемые значения совпадают с ожидаемыми, переменные считаются взаимно независимыми. Оценивая степень взаимной независимости переменных, хи-квадрат косвенно устанавливает их зависимость.

Хи-квадрат можно рассчитывать разными путями: чаще всего ис­пользуются формула Пирсона и метод максимального правдоподобия. Формула Пирсона имеет следующий вид:

где УД наблюдаемое значение, л — ожидаемое значение.

В нашем случае хи-квадрат по формуле Пирсона равен 14,7. Мно­го это или мало? Чтобы разобраться в этом, следует сначала познако­миться с двумя важными статистическими понятиями: степень свобо­ды и уровень статистической значимости.

Степень свободы (обозначается elf— от англ, degrees of freedom) — это количество ячеек таблицы, которые могут быть заполнены числа­ми, прежде чем содержание всех остальных ячеек станет постоян­ным. Степень свободы вычисляется по формуле:

df= (г - l)(c-1),

где г — количество категорий переменной в строке, с — количество категорий переменной в столбце.

Для нашего примера с переменными «пол» и «выбор кандида­та» df= (2 — 1) (2 - 1) = 1 х 1 = 1. Другими словами, выяснив, что число мужчин, поддержавших кандидата А, составляет 19, мы тем самым предопределяем значения во всех остальных ячейках таб­лицы.

Статистическая значимость результата (/Л-уровень) представляет собой меру уверенности в том, что результат не является случайным, т.е. результат репрезентативен для более широкой выборки. Три ос­новных значения р-уровня, используемых в статистике, — 0,05, 0,01 и 0,001. Если выявленная статистическая связь надежна на уровне 0,05 (5%), имеется не более чем 5%-ная вероятность того, что найденная связь носит случайный характер и не проявится в генеральной сово­купности. На /7-уровне 0,01 вероятность случайности результата сни­жается до 1 % и т.д.

Интерпретация коэффициента хи-квадрат производится на различных уровнях с учетом степени свободы. Имеется специальная таблица распределения у}, фрагмент которой приводится ниже.

df 0,05 0,01 0,001
1 3,841 6,635 10,827
2 5,991 9,210 13,815
3 7,815 11,345 16,266
4 9,488 13,277 18,467
5 11,070 15,086 20,515

Напомним, что для случая с переменными «пол» и «выбор кан­дидата» нами был получен коэффициент 14,7. Степени свободы со­ставляет 1. Чтобы быть статистически значимым на определенном уровне, хи-квадрат должен превышать значение, указанное в таблице для данного />-уровня при соответствующей степени сво­боды. В нашем примере полученный результат значим и на уровне 0,05 (14,7>3,841), и на уровне 0,01 (14,7>6,635), и на уровне 0,001 (14,7> 10,827). Таким образом, мы можем быть уверены относительно статистической надежности полученного результата. Суще­ствует не более одного шанса из тысячи, что связь между полом ре­спондентов и поддержкой одного из кандидатов явится особенностью исключительно одной изученной выборки и не будет фиксироваться вне ее.

Однако мы еще не получили прямого ответа на вопрос о степени интенсивности связи между переменными. Это можно сделать, рас­считав несколько специальных коэффициентов плотности связи между категориальными переменными, наиболее простым из которых является коэффициент ассоциации. Он определяет от­ношение разности произведений диагональных ячеек матрицы со­пряженности к их сумме:

Схематично для нашего примера это выглядит так:

Пол мужской Пол женский
Кандидат А 1 9 ( а ) - - _ — 5(6)
Кандидат В ' - * - 2 2 (d)

Коэффициент ассоциации в нашем случае равен 0,79. Для большинства статистических коэффициентов, отражающих платность связи, близость к единице (иногда к +1) отражает высокую степень связи переменных, близость к 0 — слабую связь или ее отсутствие. Для коэффициента ассоциации статистически показательным является значение, превышающее 0,5.

Чтобы лучше понять логику этих вычислений, рассмотрим расчет коэффициента ассоциации для ожидаемых значений, при которых связь отсутствует. Вернемся к таблице сопряженности, где указаны ожидаемые значения сопряженности переменных «пол» и «выбор кандидата»:

Несложные вычисления покажут, что отношение разности произ­ведений диагональных ячеек и их суммы составит 0/360 = 0.

Существенное ограничение использования коэффициента ассо­циации состоит в том, что обе изучаемые переменные должны быть номинальными и дихотомическими (альтернативными), т.е. измеряться всего двумя взаимоисключающими категориями, охватывающими все пространство универсума. Типичной номинальной дихото­мической переменной является «пол»: две категории «мужской» и «женский» охватывают все возможные состояния признака.

Несколько иной подход к расчету связи неметрических перемен­ных используется при вычислении коэффициента лямбда.

Прежде всего посмотрим на изучаемые переменные «пол» и «вы­бор кандидата» через призму отношений влияния. Зависимой пере­менной будет «выбор кандидата», независимой — «пол респонден­та». Лямбда позволит понять, насколько хорошо мы способны предсказать значения зависимой переменной, используя значения независимой. Для этого сначала следует рассмотреть наши шансы предсказать значение зависимой переменной без обращения к неза­висимой.

В нашем примере кандидата А поддерживают 24 человека, или 44,4% всех респондентов, без различения пола. Кандидата В поддер­живают 30 человек, или 55,6% респондентов. Если нам придется уга­дывать выбор кандидата в каждом отдельном случае, логично называть более часто встречающееся значение, т.е. «кандидат В». В результате мы окажемся правы в 55,6% случаях и не правы в 44,4%.

Следующий вопрос состоит в том, сможем ли мы повысить вероят­ность правильного определения выбора респондентов, если будем учитывать их половую принадлежность. Обратимся еще раз к таблице сопряженности, которую построили ранее:

Пол мужской Пол женский Всего
Кандидат А 19 5 24
Кандидат В 8 22 30
Всего 27 27 54

Для респондентов-мужчин логично сделать предположение о под­держке кандидата А: в этом случае мы угадаем верное значение 19 раз и не угадаем 8 раз. Относительно женщин будет уместна гипотеза о выбо­ре кандидата В — она подтвердится в 22 случаях и не подтвердится в 5 случаях. В общей сложности мы будем правы 41 раз (41 = 19 + 22; 75,9% от всех случаев) и не правы 13 раз (13 = 8 + 5; 24,1% от всех случаев).

Теперь сопоставим точность наших прогнозов без учета независи­мой переменной и с учетом таковой:

Верно Ошибка
Без учета пола 30 (55,6%) 24 (44,4%)
С учетом пола 41 (75,9%) 13(24,1%)

Невооруженным глазом видно, что наши предсказания во втором случае стали существенно точнее: доля ошибки снизилась с 44,4% до 24,1%. Собственно говоря, коэффициент лямбда как раз и дает нам точную меру сокращения ошибок (улучшения качества прогноза) при использовании независимой переменной.

Для вычисления меры связи категориальных переменных исполь­зуются также коэффициент контингенции, коэффициенты взаимной со­пряженности Пирсона и Чупрова. Способы их расчета можно найти в большинстве учебников по статистике.

Для переменных, измеренных на порядковом уровне, можно ис­пользовать как охарактеризованные выше техники (таблицы сопря­женности, хи-квадрат, лямбду), так и совершенно иные. Напомним, что значения переменных порядкового уровня выстраивают объекты в соответствии со степенью выраженности признака (больше — мень­ше), и это дает новые возможности для оценки связи.

Основными мерами связи не метрических порядковых перемен­ных являются гамма (у), с! Сомера и Тау-б (Т. Кендалла). Вычисление каждого из этих критериев основано на одном общем принципе: под­счете количества «инверсий», или «нарушений порядка». Так, отношение инверсии возникает в том случае, когда переменные ранжиру­ются в противоположном порядке: возрастанию значений одной переменной соответствует уменьшение значений другой. Напротив, соответствием считается однонаправленная вариация переменных: увеличение значений одной переменной сопровождается увеличени­ем значений другой.

Наиболее простым коэффициентом связи порядковых перемен­ных является гамма, представляющая собой отношение разности со­ответствий и инверсий к их сумме:

где р— частота соответствий вариации двух переменных, — I частота инверсий.

Коэффициент может принимать значение от 1 до - 1 . Модульное значение коэффициента показывает интенсивность связи: чем ближе оно к 1, тем связь плотнее. При у = 0 связь отсутствует. Знак «—» или « + » (последний не записывается) указывает на направление связи. От­рицательные значения у свидетельствуют об обратной (отрицательной) связи, положительные — о прямой. В таблице ниже приведены примеры вариации порядковых переменных, когда: (а) у – 1 и (б) у = 1

(а)у= 1 (б) у = 1
А В А D
1 3 1 8
1 3 1 8
1 4 1 7
2 4 2 7
2 5 2 6
2 5 2 6
3 6 3 5
3 6 3 5
3 7 3 4
4 7 4 4
4 8 4 3
4 8 4 3


Из таблицы хорошо видно, что гамма (как и другие меры связи порядковых переменных) фиксирует соответствия и инверсии именно рангов переменных, а не их значений. Так, в левом столбце при у = 1 абсолютные значения переменных не совпадают ни разу.

<< | >>
Источник: Ахременко А.С.. Политический анализ и прогнозирование. 2006

Еще по теме Анализ связей между неметрическими переменными:

  1. 2. Возникновение и развитие экономических связей между странами. Интернационализация, транснационализация и глобализация хозяйственной жизни
  2. Сущность и признаки ТС. Состав элементов ТС и их классификации. Виды связей между элементами ТС. Соотношение понятий «территориальная система», «территориальная организация» и «территориальная структура»
  3. 7.3. Ипотечные жилищные кредиты с переменными выплатами
  4. Как бизнес справляется с переменами
  5. 9.1 Системы переменной заработной платы
  6. 9. Внутренняя среда организации, её основные переменные, их характеристика и взаимосвязь
  7. 15.2. ИЗДЕРЖКИ ПРОИЗВОДСТВА В КРАТКОСРОЧНОМ ПЕРИОДЕ: ПОСТОЯННЫЕ, ПЕРЕМЕННЫЕ, ОБЩИЕ, СРЕДНИЕ
  8. 76. Модель взаимодействия экономических и социальных переменных Г. Мюрдаля.
  9. Кредиты с переменными выплатами, по которым фиксируются правила изменения величины платежей
  10. 12.6. Требования к обслуживанию кредитов с переменной ставкой процента и индексируемых кредитов
  11. Формы межрегиональных экономических связей
  12. 1.4. Субъекты мирохозяйственных связей
  13. Валютно-финансовый и кредитный механизм внешнеэкономических связей
  14. Сущность и виды межрегиональных связей
  15. 23.3. Европейский Союз в системе мирохозяйственных связей
  16. Особенности регионализации по странам и формам внешнеэкономических связей
  17. Внешняя политика и система внешнеполитических связей