<<
>>

Дискриминантный анализ

Дискриминантный анализ, наряду с алгоритмами кластер-анализа, относится к методам многомерной классификации. Однако если кла­стер-анализ устанавливает близость/удаленность объектов в много­мерном признаковом пространстве, то дискриминантный ана­лиз определяет принадлежность объекта к одной из нескольких (как правило, двух) заданных заранее групп.

Многомерный характер метода объясняется тем, что решение о принадлежности объекта к группе оп­ределяется на основе анализа его значений по нескольким независи­мым переменным. Иначе говоря, дискриминантный анализ устанав­ливает, какие переменные лучше всего различают (дискриминируют) две или более группы. Группирующая переменная имеет порядковое или номинальное измерение, как в уже изученном нами примере с ак­тивными и пассивными избирателями.

В такой формулировке цель дискриминантного анализа похожа на цель дисперсионного анализа, но дискриминантный анализ является гораздо более мощным статистическим инструментом. Во-первых, в данном методе корректно использовать независимые переменные, измеренные и на порядковом, и на номинальном уровнях, и — что особенно важно — на интервальном уровне. Так, в дисперсионном анализе переменную «возраст» мы были вынуждены приводить к по­рядковому виду (младший — средний — старший), что имело след­ствием потерю информации и ухудшение качества классификации. Очевидно, что интервальная переменная «возраст» является лучшим предиктором участия в выборах, чем вероятность «человек старшего возраста скорее пойдет на выборы, чем человек младшего возраста». Во-вторых, дискриминантный анализ использует несколько незави­симых переменных, выстраивает целостную модель классификации объектов.

Модель дискриминантного анализа очень напоминает модель мно­жественной регрессии (в целом дискриминантный анализ как бы «вбирает в себя», синтезирует черты нескольких более простых мето­дов, изученных нами ранее).

В центре дискриминантного анализа — вычисление так называемой дискриминантной функции. По аналогии с регрессией она рассчитывается как сумма «вклада» факторных переменных в изменение зависимой переменной:

d = b1X1 + b2X2 +…+ bnXn +a,

где d — значение дискриминантной функции, по которому судят о принадлежности объекта к тому или иному классу; X1 — хп — значения переменных, соответствующих рассматриваемым случаям; b1 — bn — коэффициенты, определяющие вклад каждой независимой переменной в итоговый результат; а — константа.

Именно коэффициенты вклада и константу рассчитывает дискри­минантный анализ, причем таким образом, чтобы значение функции (d) с максимально возможной точностью показывало принадлеж­ность объекта к классу.

Расчет дискриминантной функции может осуществляться тремя основными способами:

• стандартным, предполагающим включение в анализ всех неза­висимых переменных одновременно;

• пошаговым с включением, предполагающим включение в модель на первом шаге переменной, которая лучше всего дискриминирует за­висимую переменную, на втором — вторую по «вкладу» независимую переменную и т.д.;

• пошаговым с исключением, когда все переменные будут сначала включены в модель, а затем на каждом шаге будут удаляться вносящие малый вклад в предсказания. Этот метод оптимален, когда исследова­тель желает оставить в модели только те факторы, которые являются сильными предикторами зависимой переменной.

Стандартный метод, как правило, используется в том случае, если число независимых переменных относительно невелико и каждая из них обладает предсказательной силой по отношению к зависимой пе­ременной. В ситуации поискового исследования (когда в анализ вклю­чается большое число переменных, причем в отношении «предсказа­тельной силы» многих из них сформулированы лишь самые общие предположения) рекомендуется пошаговый метод с исключением. Он позволит «очистить» модель от явно слабых предикторов. К тому же всегда полезно сопоставление результатов, полученных разными мето­дами.

Рассмотрим пример. Пусть зависимой (группирующей) перемен­ной, как и ранее, будет участие/неучастие в выборах. Это номинальная дихотомическая переменная с двумя значениями: О (неучастие); 1 (участие). В качестве независимых переменных возьмем:

• Возраст — интервальная переменная, годы;

• Пол — номинальная переменная (1 — мужской, 2 — женский);

• Доход — интервальная переменная, тыс. руб.

Имеем следующие исходные данные (пример учебный):

Возраст Пол Доход Участие Возраст Пол Доход Участие
87 1 10 і 16 77 2 4 і
19 1 I 0 17 35 2 6 і
3 35 1 2 0 18 51 2 0,9 і
42 1 0,6 0 19 40 2 12 і
5 19 1 3 0 20 33 2 2
6 38 2 5 1 21 21 1 8 і
7 54 2 8 1 22 84 1 2 і
8 76 2 3 1 23 67 1 4 і
9 22 2 2 0 24 24 1 1
10 34 2 2,5 0 25 43 1 15 і
11 60 1 2 1 26 39 2 9 і
12 20 1 3 0 27 45 2 6 і
13 54 1 0,7 0 28 55 2 7 і
14 48 1 0,5 0 29 70 2 2,2 і
15 35 1 0,9 0 30 46 2 3 і

Вычислительный алгоритм дискриминантного анализа относи­тельно сложен, и мы не будем здесь рассматривать его подробно.

Скажем лишь, что в нем используются элементы дисперсионного анали­за, а ключевые вычислительные процедуры базируются на алгоритмах канонического анализа. Этот метод, как и изученный нами метод Пир­сона, выявляет корреляции, но не между двумя переменными, а меж­ду двумя множествами переменных.

Остановимся на интерпретации ключевых позиций весьма обшир­ной итоговой статистики дискриминантного анализа.

В первую очередь (как и в регрессионном анализе) рассматривает­ся статистика, свидетельствующая о качестве полученной модели. Сначала анализируется дисперсионная статистика для изучаемых пе­ременных, которая включает:

• таблицу средних значений каждой переменной для: (а) группы «неучаствующих» (участие = 0), (б) группы «участвующих» (участие = 1) и (в) обеих групп вместе;

• значения теста на значимость различий средних переменных в группах «участвующих» и «неучаствующих». В качестве тестовой величины в дискриминантном анализе обычно служит лямбда (X) Уилка (Wilk's Lambda), иногда используется и простой дисперсионный анализ.

Средние значения переменных
Группа Возраст Пол Доход
Участие = 0 54,89 1,67 5,2
Участие = 1 32,08 1,25 9,73
Обе группы 45,77 1,5 7,01

Значимость различий средних значений
Лямбда Уилка /)-значение
Возраст 0,619915 0,000305
Пол 0,408189 0,123504
Доход 0,538459 0,002121

Гипотеза о различии средних полностью подтвердилась для пере­менных «возраст» и «доход».

Переменная «пол» не проходит тест на уровне /КО,05, однако пока что (в учебных целях) оставим ее в модели.

Теперь можно сделать предположение об «удельном весе» каждой пе­ременной в конечной дискриминантной функции, исходя из/в значения лямбды Уилка. Так, наибольший вклад в дискриминацию внесет пере­менная «возраст», для которой p-значение самое низкое — 0,000305. На втором месте «доход», на третьем — с большим отставанием — «пол».

Рассчитанные коэффициенты самой дискриминантной функции представлены в стандартизированном и нестандартизированном виде (округлены до второго знака после запятой); в статистических про­граммах они обозначаются как Standardized (Unstandardized) Canonical Discriminant Function Coefficients.

Стандартизированные коэффициенты Нестандартизированные коэффициенты
Возраст 0,85 Возраст 0,05
Пол 0,38 Пол 0,81
Доход 0,74 Доход 0,29
Константа -4,69

Нестандартизированные коэффициенты — это те, по которым, собственно, и рассчитываются значения дискриминантной функции (множители заданных значений переменной). В нашем случае:

d = 0,05 х Возраст,, + 0,81 х Пол,, + 0,29 х Доход,- - 4,69.

Нестандартизированные коэффициенты нельзя сравнивать непо­средственно. Фактически это прямой аналог коэффициента b в множе­ственном регрессионном анализе. Стандартизированные же коэффици­енты отражают «вклад» каждой независимой переменной в изменение зависимой и в этом отношении являются прямыми аналогами бета-коэффициентов множественной регрессии.

Наши предположения, осно­ванные на анализе дисперсионной статистики, подтвердились: самым весомым фактором оказался возраст (стандартизированный коэффици­ент 0,85), несколько слабее фактор уровня доходов (0,74), существенно слабее — фактор половой принадлежности (0,38).

Используя нестандартизированные коэффициенты, мы можем вычислить все значения дискриминантной функции для наших случаев. К примеру, значение d для случая 1 составит:

d= 3,54 = 0,05 х 87 + 0,81 х 1 + 0,29 х 10 - 4,69.

Для случая 2d= -2,6 = 0,05 х 19 + 0,81 х 1 + 0,29 х 1 - 4,69 и т.д.
Возраст Пол Доход Участие d Возраст Пол Доход Участие d
1 87 1 10 1 3,54 16 77 2 4 1 2,11
2 19 1 1 0 -2,60 17 35 2 6 1 0,49
3 ~ 3 5 ~ ~ 1 2 0 -1,47 18 51 2 0,9 1 -0,14
4 42 1 0,6 0 -1,51 19 40 2 12 1 2,47
5 19 1 3 0 -2,02 20 33 2 2 -0,76
6 38 2 5 1 0,36 21 21 1 8 1 -0,49
7 54 2 8 1 2,05 22 84 1 2 1 1,09
8 76 2 3 1 1,77 23 67 1 4 1 0,77
9 22 0 -1,34 24 24 1 1 -2,34
10 34 2 2,5 0 -0,57 25 43 1 1,5 1 -1,20
11 60 1 2 1 -0,17 26 39 2 9 1 1,55
12 20 1 3 0 -1,97 27 45 2 6 1 1,01
13 54 1 0,7 0 -0,85 28 55 2 7 1 1,82
14 48 1 0,5 0 -1,22 29 70 2 2,2 1 1,23
15 35 1 0,9 0 -1,79 30 46 2 3 1 0,20

Но каким образом по значению функции определить, к какой группе принадлежит объект? Для этого рассчитываются так называвмые групповые центроиды дискриминантной функции. Делается это очень просто: рассчитываются средние значения дискриминантной функции для группы «участвующих» (участие =1) и для группы «неучаствующих» (участие = 0). В нашем случае:

bgcolor=white>-1,54
Групповые центроиды
Участие = 0
Участие = 1 1,03

Именно групповые центроиды являются «критериями» для отне­сения объекта к той или иной группе. Вычисляется расстояние между значением дискриминантной функции в конкретном случае и обоими центроидами. Если значение ближе к центроиду группы «участие = 0», объект классифицируется как принадлежащий к группе «неучаст­вующих», и наоборот.

Наличие подсчитанных значений дискриминантной функции по­зволяет дополнительно оценить качество модели. Так, мерами удачности дискриминантной функции служат:

• канонический корреляционный коэффициент между ее значениями и показателем принадлежности к группе. В нашем примере он равен 0,793, что свидетельствует о достаточно высоком качестве модели;

• лямбда Уилка, показывающая, значимо ли в обеих группах (учас­твующих и неучаствующих) различие в средних значениях дискрими­нантной функции. В нашем случае р = 0,0000009, что свидетельствует об очень высокой значимости;

• собственное значение (eigenvalue), соответствующее отношению сум­мы квадратов между группами к сумме квадратов внутри групп. Это зна­чение можно получить, проведя дисперсионный анализ значений дис­криминантной функции по переменной «участие». Чем больше собственное значение (относительно 1), тем лучше подобрана функция. В нашем случае eigenvalue = 1,69, что также можно считать хорошим по­казателем.

Однако наиболее комплексным показателем качества модели явля­ется сопоставление результатов классификации, произведенной с помо­щью дискриминантной функции по значениям независимых перемен­ных, и исходных значений зависимой переменной. Проще говоря, нас интересует процент соответствия предсказаний модели и истинных зна­чений. В нашем случае модель неверно классифицировала два случая из 30, что составляет 6,6%. Правильно классифицированных случаев — 28, или 93,3%:

Результаты классификации
Предсказания Всего
Участие = 0 Участие = 1
Исходные 12 0 12
2 16 18
% 100 0 100
11,11 88,89 100
Всего 93,3% случаев классифицированы корректно

Как видно из итоговой таблицы, два «активных» избирателя были ошибочно классифицированы как «пассивные» (в нашем примере это случаи 21 и 25). Постарайтесь самостоятельно определить, почему именно эти случаи оказались «ошибочными».

Если бы мы использовали для тех же самых данных пошаговый анализ с исключением, то переменных в модели оказалось бы всего две: «возраст» и «доход». При этом ее качество снизилось бы очень не­существенно. Это означает, что обычно интервальные переменные являются куда лучшими предикторами, чем номинальные.

Стандартный метод (три переменные в модели) Пошаговый метод с исключением (две переменные в модели)
p-значение лямбды Уилка 0,0000009 0,000006
Канонический коэффици­ент корреляции 0,793 0,769
Собственное значение 1,69 1,45
Процент корректно клас­сифицированных случаев 93,3 93,3

<< | >>
Источник: Ахременко А.С.. Политический анализ и прогнозирование. 2006

Еще по теме Дискриминантный анализ:

  1. ВНЕШНИЙ АНАЛИЗ И АНАЛИЗ ПОКУПАТЕЛЕЙ
  2. Технико-экономический анализ строительного проекта и анализ обеспечения по запрашиваемому строительному кредиту
  3. Анализ внешней среды
  4. АНАЛИЗ ПОЛИТИЧЕСКИЙ
  5. 5.4. SWOT – анализ
  6. ПОЛИТИЧЕСКИЙ АНАЛИЗ
  7. СТРАТЕГИЧЕСКИЙ АНАЛИЗ
  8. Анализ
  9. Анализ инвестиций
  10. Системный анализ
  11. 71. ФУНДАМЕНТАЛЬНЫЙ АНАЛИЗ