Анализ связей между неметрическими переменными
Прежде всего необходимо напомнить, что неметрическими (категориальными) переменными называют переменные, измеряемые на номинальном уровне. Номинальные переменные — пол, принадлежность к той или иной политической партии, предпочтение определенного кандидата — соотносят изучаемые объекты с определенным набором непересекающихся классов (мужской/женский; член КПРФ / член ЛДПР / член «Единой России» и т.д.; поддерживает кандидата А / кандидата В/ кандидата Q.
К неметрическим относятся также порядковые переменные с небольшим числом категорий. Порядковые переменные ранжируют объекты по интенсивности определенного признака (например, интенсивность интереса к политике: низкая / средняя / высокая).Анализ связей между переменными предполагает получение ответа на три основных вопроса:
• Существует ли связь между переменными?
• Какова интенсивность (плотность) связи между переменными, если она существует?
• Какова направленность (характер) этой связи?
Таблицы сопряженности
Наиболее простым и распространенным способом выявления связи между категориальными переменными является построение таблиц сопряженности, которые показывают, сколько случаев относится одновременно и к определенной категории переменной А, и к определенной категории переменной В.
Предположим, имеется две номинальные переменные: 1) пол респондента с категориями «мужской» и «женский»; 2) политические предпочтения респондента с категориями «поддержка кандидата в президенты А» и «поддержка кандидата в президенты В» («выбор кандидата»). Всего опрошено 54 респондента, мужчин и женщин среди них поровну (по 27). Кандидатур отдали предпочтение 24 респондента, кандидату В — 30. Возникает вопрос: существует ли связь между половой принадлежностью респондентов и их выбором между кандидатом А и кандидатом В? Чтобы ответить на него, построим матрицу сопряженности переменных «пол» и «выбор кандидата» (этот прием называется кросстабуляцией).
В ней будет четыре категории частот:1) мужчины, поддерживающие кандидата А;
2) мужчины, поддерживающие кандидата В;
3) женщины, поддерживающие кандидата Л;
4) женщины, поддерживающие кандидата В.
Пол мужской | Пол женский | Всего | |
Кандидат А | 19 | 5 | 24 |
Кандидат В | 8 | гг | 30 |
Всего | 27 | 27 | 54 |
Даже беглого взгляда на матрицу сопряженности достаточно, чтобы убедиться в наличии связи. Так, среди поддерживающих кандидата Л явно доминируют мужчины (18 мужчин из 23 случаев), электорат же кандидата В представлен в основном женщинами (21 женщина из 29 случаев).
В рамках анализа таблиц сопряженности мы располагаем рядом способов сделать понимание связи более глубоким. Первый из них позволяет вычислить отношения между (1) реально наблюдаемыми частотами и (2) частотами, которые мы ожидали бы увидеть в том случае, если бы связи не существовало. При отсутствии связи между переменными «пол» и «выбор кандидата» логично ожидать равного выбора кандидата Л и кандидата В для каждого пола.
Таблица ожидаемых частот для нашего примера выглядит следующим образом:
Пол мужской | Пол женский | Всего | |
Кандидат А | 12 | 12 | 24 |
Кандидат В | 15 | 15 | 30 |
Всего | 27 | 27 | 54 |
Как видим, среди поддерживающих кандидата Л частота значений «мужской пол» выше ожидаемой, а частота значений «женский пол» — ниже.
Для кандидата В ситуация обратная. Полезно вычислить точные отклонения между наблюдаемыми и ожидаемыми частотами, вычтя вторые из первых. Полученные разности будут называться остатками. Таблица остатков в нашем примере будет иметь вид:Пол мужской | Пол женский | |
Кандидат А | 7 | -7 |
Кандидат В | -1 | 7 |
Еще один способ сделать наше понимание связи между переменными более глубоким — дополнить абсолютные частоты процентными отношениями:
Пол мужской | Пол женский | Всего | ||
Частота | 19 | 5 | 24 | |
Кандидат А | % от «кандидат» | 79,2% | 20,8% | 100% |
% от «пол» | 70,4% | 18,5% | 44,4% | |
% от «всего» | 35,2% | 9,3% | 44,4% | |
Частота | 8 | 22 | 30 | |
Кандидат В | % от «кандидат» | 26,7% | 73,3% | 100% |
% от «пол» | 29,6% | 81,5% | 55,6% | |
% от «всего» | 14,8% | 40,7% | 55,6% | |
Частота | 27 | 27 | 54 | |
Всего | % от «кандидат» | 50% | 50% | 100% |
% от «пол» | 100% | 100% | 100% | |
% от «всего» | 50% | 50% | .. 100% |
Из приведенной таблицы следует, в частности, что кандидата А поддерживают 19 из 27, или 70%, опрошенных мужчин. Этого же кандидата поддерживает 5 из 27, или 18%, опрошенных женщин. Доля мужчин в совокупном электорате кандидата Л составляет 79%, доля женщин — 21%. Среди всех опрошенных доля мужчин, поддерживающих кандидата 4, составляет 35%, женщин — 9%. Аналогичным образом оценивается и распределение мужской и женской поддержки для кандидата В.
Наиболее показательными с точки зрения оценки связи между переменными являются доли мужчин и женщин среди поддерживающих кандидата А и В соответственно (в таблице эти значения выделены жирным шрифтом). По этим значениям можно построить наглядную столбчатую гистограмму:
Кандидат А Кандидат В DM аж |
Полученные результаты позволяют сделать вывод не только о наличии связи, но и о ее характере: мужчины склонны в большей степени, чем женщины, поддерживать кандидата А; женщины, напротив, в своем большинстве отдают предпочтение кандидату В.
Меры связи категориальных переменных
С помощью таблиц сопряженности мы получили наглядное представление о сочетаниях категорий переменных и сделали обоснованное предположение о наличии и характере связи между ними. Однако нельзя ли дополнительно получить некую единую числовую «меру уверенности» в том, что связь действительно существует и является значимой? Кроме того, нет ли возможности выявить числовую меру интенсивности (плотности) этой связи? Во многих случаях — особенно если требуется сопоставить связи между различными переменными — единый числовой коэффициент удобнее, нежели обширная статистика таблиц сопряженности.
Действительно, статистические инструменты позволяют получить ответы на оба вопроса. Существует несколько коэффициентов связи между категориальными переменными.
Идея, лежащая в основе вычисления коэффициента хи- квадрат (х 2), уже была нами затронута при рассмотрении матриц сопряженности.
Хи-квадрат оценивает значимость различий между ожидаемыми и наблюдаемыми частотами. Если наблюдаемые значения совпадают с ожидаемыми, переменные считаются взаимно независимыми. Оценивая степень взаимной независимости переменных, хи-квадрат косвенно устанавливает их зависимость.Хи-квадрат можно рассчитывать разными путями: чаще всего используются формула Пирсона и метод максимального правдоподобия. Формула Пирсона имеет следующий вид:
где УД наблюдаемое значение, л — ожидаемое значение.
В нашем случае хи-квадрат по формуле Пирсона равен 14,7. Много это или мало? Чтобы разобраться в этом, следует сначала познакомиться с двумя важными статистическими понятиями: степень свободы и уровень статистической значимости.
Степень свободы (обозначается elf— от англ, degrees of freedom) — это количество ячеек таблицы, которые могут быть заполнены числами, прежде чем содержание всех остальных ячеек станет постоянным. Степень свободы вычисляется по формуле:
df= (г - l)(c-1),
где г — количество категорий переменной в строке, с — количество категорий переменной в столбце.
Для нашего примера с переменными «пол» и «выбор кандидата» df= (2 — 1) (2 - 1) = 1 х 1 = 1. Другими словами, выяснив, что число мужчин, поддержавших кандидата А, составляет 19, мы тем самым предопределяем значения во всех остальных ячейках таблицы.
Статистическая значимость результата (/Л-уровень) представляет собой меру уверенности в том, что результат не является случайным, т.е. результат репрезентативен для более широкой выборки. Три основных значения р-уровня, используемых в статистике, — 0,05, 0,01 и 0,001. Если выявленная статистическая связь надежна на уровне 0,05 (5%), имеется не более чем 5%-ная вероятность того, что найденная связь носит случайный характер и не проявится в генеральной совокупности. На /7-уровне 0,01 вероятность случайности результата снижается до 1 % и т.д.
Интерпретация коэффициента хи-квадрат производится на различных уровнях с учетом степени свободы.
Имеется специальная таблица распределения у}, фрагмент которой приводится ниже.df | 0,05 | 0,01 | 0,001 |
1 | 3,841 | 6,635 | 10,827 |
2 | 5,991 | 9,210 | 13,815 |
3 | 7,815 | 11,345 | 16,266 |
4 | 9,488 | 13,277 | 18,467 |
5 | 11,070 | 15,086 | 20,515 |
Напомним, что для случая с переменными «пол» и «выбор кандидата» нами был получен коэффициент 14,7. Степени свободы составляет 1. Чтобы быть статистически значимым на определенном уровне, хи-квадрат должен превышать значение, указанное в таблице для данного />-уровня при соответствующей степени свободы. В нашем примере полученный результат значим и на уровне 0,05 (14,7>3,841), и на уровне 0,01 (14,7>6,635), и на уровне 0,001 (14,7> 10,827). Таким образом, мы можем быть уверены относительно статистической надежности полученного результата. Существует не более одного шанса из тысячи, что связь между полом респондентов и поддержкой одного из кандидатов явится особенностью исключительно одной изученной выборки и не будет фиксироваться вне ее.
Однако мы еще не получили прямого ответа на вопрос о степени интенсивности связи между переменными. Это можно сделать, рассчитав несколько специальных коэффициентов плотности связи между категориальными переменными, наиболее простым из которых является коэффициент ассоциации. Он определяет отношение разности произведений диагональных ячеек матрицы сопряженности к их сумме:
Схематично для нашего примера это выглядит так:
Пол мужской | Пол женский | |
Кандидат А | 1 9 ( а ) - - _ | — 5(6) |
Кандидат В | ' - * - 2 2 (d) |
Коэффициент ассоциации в нашем случае равен 0,79. Для большинства статистических коэффициентов, отражающих платность связи, близость к единице (иногда к +1) отражает высокую степень связи переменных, близость к 0 — слабую связь или ее отсутствие. Для коэффициента ассоциации статистически показательным является значение, превышающее 0,5.
Чтобы лучше понять логику этих вычислений, рассмотрим расчет коэффициента ассоциации для ожидаемых значений, при которых связь отсутствует. Вернемся к таблице сопряженности, где указаны ожидаемые значения сопряженности переменных «пол» и «выбор кандидата»:
Несложные вычисления покажут, что отношение разности произведений диагональных ячеек и их суммы составит 0/360 = 0.
Существенное ограничение использования коэффициента ассоциации состоит в том, что обе изучаемые переменные должны быть номинальными и дихотомическими (альтернативными), т.е. измеряться всего двумя взаимоисключающими категориями, охватывающими все пространство универсума. Типичной номинальной дихотомической переменной является «пол»: две категории «мужской» и «женский» охватывают все возможные состояния признака.
Несколько иной подход к расчету связи неметрических переменных используется при вычислении коэффициента лямбда.
Прежде всего посмотрим на изучаемые переменные «пол» и «выбор кандидата» через призму отношений влияния. Зависимой переменной будет «выбор кандидата», независимой — «пол респондента». Лямбда позволит понять, насколько хорошо мы способны предсказать значения зависимой переменной, используя значения независимой. Для этого сначала следует рассмотреть наши шансы предсказать значение зависимой переменной без обращения к независимой.
В нашем примере кандидата А поддерживают 24 человека, или 44,4% всех респондентов, без различения пола. Кандидата В поддерживают 30 человек, или 55,6% респондентов. Если нам придется угадывать выбор кандидата в каждом отдельном случае, логично называть более часто встречающееся значение, т.е. «кандидат В». В результате мы окажемся правы в 55,6% случаях и не правы в 44,4%.
Следующий вопрос состоит в том, сможем ли мы повысить вероятность правильного определения выбора респондентов, если будем учитывать их половую принадлежность. Обратимся еще раз к таблице сопряженности, которую построили ранее:
Пол мужской | Пол женский | Всего | |
Кандидат А | 19 | 5 | 24 |
Кандидат В | 8 | 22 | 30 |
Всего | 27 | 27 | 54 |
Для респондентов-мужчин логично сделать предположение о поддержке кандидата А: в этом случае мы угадаем верное значение 19 раз и не угадаем 8 раз. Относительно женщин будет уместна гипотеза о выборе кандидата В — она подтвердится в 22 случаях и не подтвердится в 5 случаях. В общей сложности мы будем правы 41 раз (41 = 19 + 22; 75,9% от всех случаев) и не правы 13 раз (13 = 8 + 5; 24,1% от всех случаев).
Теперь сопоставим точность наших прогнозов без учета независимой переменной и с учетом таковой:
Верно | Ошибка | |
Без учета пола | 30 (55,6%) | 24 (44,4%) |
С учетом пола | 41 (75,9%) | 13(24,1%) |
Невооруженным глазом видно, что наши предсказания во втором случае стали существенно точнее: доля ошибки снизилась с 44,4% до 24,1%. Собственно говоря, коэффициент лямбда как раз и дает нам точную меру сокращения ошибок (улучшения качества прогноза) при использовании независимой переменной.
Для вычисления меры связи категориальных переменных используются также коэффициент контингенции, коэффициенты взаимной сопряженности Пирсона и Чупрова. Способы их расчета можно найти в большинстве учебников по статистике.
Для переменных, измеренных на порядковом уровне, можно использовать как охарактеризованные выше техники (таблицы сопряженности, хи-квадрат, лямбду), так и совершенно иные. Напомним, что значения переменных порядкового уровня выстраивают объекты в соответствии со степенью выраженности признака (больше — меньше), и это дает новые возможности для оценки связи.
Основными мерами связи не метрических порядковых переменных являются гамма (у), с! Сомера и Тау-б (Т. Кендалла). Вычисление каждого из этих критериев основано на одном общем принципе: подсчете количества «инверсий», или «нарушений порядка». Так, отношение инверсии возникает в том случае, когда переменные ранжируются в противоположном порядке: возрастанию значений одной переменной соответствует уменьшение значений другой. Напротив, соответствием считается однонаправленная вариация переменных: увеличение значений одной переменной сопровождается увеличением значений другой.
Наиболее простым коэффициентом связи порядковых переменных является гамма, представляющая собой отношение разности соответствий и инверсий к их сумме:
где р— частота соответствий вариации двух переменных, — I частота инверсий.
Коэффициент может принимать значение от 1 до - 1 . Модульное значение коэффициента показывает интенсивность связи: чем ближе оно к 1, тем связь плотнее. При у = 0 связь отсутствует. Знак «—» или « + » (последний не записывается) указывает на направление связи. Отрицательные значения у свидетельствуют об обратной (отрицательной) связи, положительные — о прямой. В таблице ниже приведены примеры вариации порядковых переменных, когда: (а) у – 1 и (б) у = 1
(а)у= 1 | (б) у = 1 | |||
А | В | А | D | |
1 | 3 | 1 | 8 | |
1 | 3 | 1 | 8 | |
1 | 4 | 1 | 7 | |
2 | 4 | 2 | 7 | |
2 | 5 | 2 | 6 | |
2 | 5 | 2 | 6 | |
3 | 6 | 3 | 5 | |
3 | 6 | 3 | 5 | |
3 | 7 | 3 | 4 | |
4 | 7 | 4 | 4 | |
4 | 8 | 4 | 3 | |
4 | 8 | 4 | 3 | |
Из таблицы хорошо видно, что гамма (как и другие меры связи порядковых переменных) фиксирует соответствия и инверсии именно рангов переменных, а не их значений. Так, в левом столбце при у = 1 абсолютные значения переменных не совпадают ни разу.
Еще по теме Анализ связей между неметрическими переменными:
- 2. Возникновение и развитие экономических связей между странами. Интернационализация, транснационализация и глобализация хозяйственной жизни
- Сущность и признаки ТС. Состав элементов ТС и их классификации. Виды связей между элементами ТС. Соотношение понятий «территориальная система», «территориальная организация» и «территориальная структура»
- 7.3. Ипотечные жилищные кредиты с переменными выплатами
- Как бизнес справляется с переменами
- 9.1 Системы переменной заработной платы
- 9. Внутренняя среда организации, её основные переменные, их характеристика и взаимосвязь
- 15.2. ИЗДЕРЖКИ ПРОИЗВОДСТВА В КРАТКОСРОЧНОМ ПЕРИОДЕ: ПОСТОЯННЫЕ, ПЕРЕМЕННЫЕ, ОБЩИЕ, СРЕДНИЕ
- 76. Модель взаимодействия экономических и социальных переменных Г. Мюрдаля.
- Кредиты с переменными выплатами, по которым фиксируются правила изменения величины платежей
- 12.6. Требования к обслуживанию кредитов с переменной ставкой процента и индексируемых кредитов
- Формы межрегиональных экономических связей
- 1.4. Субъекты мирохозяйственных связей
- Валютно-финансовый и кредитный механизм внешнеэкономических связей
- Сущность и виды межрегиональных связей
- 23.3. Европейский Союз в системе мирохозяйственных связей
- Особенности регионализации по странам и формам внешнеэкономических связей
- Внешняя политика и система внешнеполитических связей