Дискриминантный анализ
Дискриминантный анализ, наряду с алгоритмами кластер-анализа, относится к методам многомерной классификации. Однако если кластер-анализ устанавливает близость/удаленность объектов в многомерном признаковом пространстве, то дискриминантный анализ определяет принадлежность объекта к одной из нескольких (как правило, двух) заданных заранее групп.
Многомерный характер метода объясняется тем, что решение о принадлежности объекта к группе определяется на основе анализа его значений по нескольким независимым переменным. Иначе говоря, дискриминантный анализ устанавливает, какие переменные лучше всего различают (дискриминируют) две или более группы. Группирующая переменная имеет порядковое или номинальное измерение, как в уже изученном нами примере с активными и пассивными избирателями.В такой формулировке цель дискриминантного анализа похожа на цель дисперсионного анализа, но дискриминантный анализ является гораздо более мощным статистическим инструментом. Во-первых, в данном методе корректно использовать независимые переменные, измеренные и на порядковом, и на номинальном уровнях, и — что особенно важно — на интервальном уровне. Так, в дисперсионном анализе переменную «возраст» мы были вынуждены приводить к порядковому виду (младший — средний — старший), что имело следствием потерю информации и ухудшение качества классификации. Очевидно, что интервальная переменная «возраст» является лучшим предиктором участия в выборах, чем вероятность «человек старшего возраста скорее пойдет на выборы, чем человек младшего возраста». Во-вторых, дискриминантный анализ использует несколько независимых переменных, выстраивает целостную модель классификации объектов.
Модель дискриминантного анализа очень напоминает модель множественной регрессии (в целом дискриминантный анализ как бы «вбирает в себя», синтезирует черты нескольких более простых методов, изученных нами ранее).
В центре дискриминантного анализа — вычисление так называемой дискриминантной функции. По аналогии с регрессией она рассчитывается как сумма «вклада» факторных переменных в изменение зависимой переменной:d = b1X1 + b2X2 +…+ bnXn +a,
где d — значение дискриминантной функции, по которому судят о принадлежности объекта к тому или иному классу; X1 — хп — значения переменных, соответствующих рассматриваемым случаям; b1 — bn — коэффициенты, определяющие вклад каждой независимой переменной в итоговый результат; а — константа.
Именно коэффициенты вклада и константу рассчитывает дискриминантный анализ, причем таким образом, чтобы значение функции (d) с максимально возможной точностью показывало принадлежность объекта к классу.
Расчет дискриминантной функции может осуществляться тремя основными способами:
• стандартным, предполагающим включение в анализ всех независимых переменных одновременно;
• пошаговым с включением, предполагающим включение в модель на первом шаге переменной, которая лучше всего дискриминирует зависимую переменную, на втором — вторую по «вкладу» независимую переменную и т.д.;
• пошаговым с исключением, когда все переменные будут сначала включены в модель, а затем на каждом шаге будут удаляться вносящие малый вклад в предсказания. Этот метод оптимален, когда исследователь желает оставить в модели только те факторы, которые являются сильными предикторами зависимой переменной.
Стандартный метод, как правило, используется в том случае, если число независимых переменных относительно невелико и каждая из них обладает предсказательной силой по отношению к зависимой переменной. В ситуации поискового исследования (когда в анализ включается большое число переменных, причем в отношении «предсказательной силы» многих из них сформулированы лишь самые общие предположения) рекомендуется пошаговый метод с исключением. Он позволит «очистить» модель от явно слабых предикторов. К тому же всегда полезно сопоставление результатов, полученных разными методами.
Рассмотрим пример. Пусть зависимой (группирующей) переменной, как и ранее, будет участие/неучастие в выборах. Это номинальная дихотомическая переменная с двумя значениями: О (неучастие); 1 (участие). В качестве независимых переменных возьмем:
• Возраст — интервальная переменная, годы;
• Пол — номинальная переменная (1 — мужской, 2 — женский);
• Доход — интервальная переменная, тыс. руб.
Имеем следующие исходные данные (пример учебный):
№ | Возраст | Пол | Доход | Участие | № | Возраст | Пол | Доход | Участие |
87 | 1 | 10 | і | 16 | 77 | 2 | 4 | і | |
19 | 1 | I | 0 | 17 | 35 | 2 | 6 | і | |
3 | 35 | 1 | 2 | 0 | 18 | 51 | 2 | 0,9 | і |
42 | 1 | 0,6 | 0 | 19 | 40 | 2 | 12 | і | |
5 | 19 | 1 | 3 | 0 | 20 | 33 | 2 | 2 | |
6 | 38 | 2 | 5 | 1 | 21 | 21 | 1 | 8 | і |
7 | 54 | 2 | 8 | 1 | 22 | 84 | 1 | 2 | і |
8 | 76 | 2 | 3 | 1 | 23 | 67 | 1 | 4 | і |
9 | 22 | 2 | 2 | 0 | 24 | 24 | 1 | 1 | |
10 | 34 | 2 | 2,5 | 0 | 25 | 43 | 1 | 15 | і |
11 | 60 | 1 | 2 | 1 | 26 | 39 | 2 | 9 | і |
12 | 20 | 1 | 3 | 0 | 27 | 45 | 2 | 6 | і |
13 | 54 | 1 | 0,7 | 0 | 28 | 55 | 2 | 7 | і |
14 | 48 | 1 | 0,5 | 0 | 29 | 70 | 2 | 2,2 | і |
15 | 35 | 1 | 0,9 | 0 | 30 | 46 | 2 | 3 | і |
Вычислительный алгоритм дискриминантного анализа относительно сложен, и мы не будем здесь рассматривать его подробно.
Скажем лишь, что в нем используются элементы дисперсионного анализа, а ключевые вычислительные процедуры базируются на алгоритмах канонического анализа. Этот метод, как и изученный нами метод Пирсона, выявляет корреляции, но не между двумя переменными, а между двумя множествами переменных.Остановимся на интерпретации ключевых позиций весьма обширной итоговой статистики дискриминантного анализа.
В первую очередь (как и в регрессионном анализе) рассматривается статистика, свидетельствующая о качестве полученной модели. Сначала анализируется дисперсионная статистика для изучаемых переменных, которая включает:
• таблицу средних значений каждой переменной для: (а) группы «неучаствующих» (участие = 0), (б) группы «участвующих» (участие = 1) и (в) обеих групп вместе;
• значения теста на значимость различий средних переменных в группах «участвующих» и «неучаствующих». В качестве тестовой величины в дискриминантном анализе обычно служит лямбда (X) Уилка (Wilk's Lambda), иногда используется и простой дисперсионный анализ.
Средние значения переменных | |||
Группа | Возраст | Пол | Доход |
Участие = 0 | 54,89 | 1,67 | 5,2 |
Участие = 1 | 32,08 | 1,25 | 9,73 |
Обе группы | 45,77 | 1,5 | 7,01 |
Значимость различий средних значений | ||
Лямбда Уилка | /)-значение | |
Возраст | 0,619915 | 0,000305 |
Пол | 0,408189 | 0,123504 |
Доход | 0,538459 | 0,002121 |
Гипотеза о различии средних полностью подтвердилась для переменных «возраст» и «доход».
Переменная «пол» не проходит тест на уровне /КО,05, однако пока что (в учебных целях) оставим ее в модели.Теперь можно сделать предположение об «удельном весе» каждой переменной в конечной дискриминантной функции, исходя из/в значения лямбды Уилка. Так, наибольший вклад в дискриминацию внесет переменная «возраст», для которой p-значение самое низкое — 0,000305. На втором месте «доход», на третьем — с большим отставанием — «пол».
Рассчитанные коэффициенты самой дискриминантной функции представлены в стандартизированном и нестандартизированном виде (округлены до второго знака после запятой); в статистических программах они обозначаются как Standardized (Unstandardized) Canonical Discriminant Function Coefficients.
Стандартизированные коэффициенты | Нестандартизированные коэффициенты | ||
Возраст | 0,85 | Возраст | 0,05 |
Пол | 0,38 | Пол | 0,81 |
Доход | 0,74 | Доход | 0,29 |
Константа | -4,69 |
Нестандартизированные коэффициенты — это те, по которым, собственно, и рассчитываются значения дискриминантной функции (множители заданных значений переменной). В нашем случае:
d = 0,05 х Возраст,, + 0,81 х Пол,, + 0,29 х Доход,- - 4,69.
Нестандартизированные коэффициенты нельзя сравнивать непосредственно. Фактически это прямой аналог коэффициента b в множественном регрессионном анализе. Стандартизированные же коэффициенты отражают «вклад» каждой независимой переменной в изменение зависимой и в этом отношении являются прямыми аналогами бета-коэффициентов множественной регрессии.
Наши предположения, основанные на анализе дисперсионной статистики, подтвердились: самым весомым фактором оказался возраст (стандартизированный коэффициент 0,85), несколько слабее фактор уровня доходов (0,74), существенно слабее — фактор половой принадлежности (0,38).Используя нестандартизированные коэффициенты, мы можем вычислить все значения дискриминантной функции для наших случаев. К примеру, значение d для случая 1 составит:
d= 3,54 = 0,05 х 87 + 0,81 х 1 + 0,29 х 10 - 4,69.
Для случая 2d= -2,6 = 0,05 х 19 + 0,81 х 1 + 0,29 х 1 - 4,69 и т.д.
|
Но каким образом по значению функции определить, к какой группе принадлежит объект? Для этого рассчитываются так называвмые групповые центроиды дискриминантной функции. Делается это очень просто: рассчитываются средние значения дискриминантной функции для группы «участвующих» (участие =1) и для группы «неучаствующих» (участие = 0). В нашем случае:
Групповые центроиды | |
Участие = 0 | bgcolor=white>-1,54|
Участие = 1 | 1,03 |
Именно групповые центроиды являются «критериями» для отнесения объекта к той или иной группе. Вычисляется расстояние между значением дискриминантной функции в конкретном случае и обоими центроидами. Если значение ближе к центроиду группы «участие = 0», объект классифицируется как принадлежащий к группе «неучаствующих», и наоборот.
Наличие подсчитанных значений дискриминантной функции позволяет дополнительно оценить качество модели. Так, мерами удачности дискриминантной функции служат:
• канонический корреляционный коэффициент между ее значениями и показателем принадлежности к группе. В нашем примере он равен 0,793, что свидетельствует о достаточно высоком качестве модели;
• лямбда Уилка, показывающая, значимо ли в обеих группах (участвующих и неучаствующих) различие в средних значениях дискриминантной функции. В нашем случае р = 0,0000009, что свидетельствует об очень высокой значимости;
• собственное значение (eigenvalue), соответствующее отношению суммы квадратов между группами к сумме квадратов внутри групп. Это значение можно получить, проведя дисперсионный анализ значений дискриминантной функции по переменной «участие». Чем больше собственное значение (относительно 1), тем лучше подобрана функция. В нашем случае eigenvalue = 1,69, что также можно считать хорошим показателем.
Однако наиболее комплексным показателем качества модели является сопоставление результатов классификации, произведенной с помощью дискриминантной функции по значениям независимых переменных, и исходных значений зависимой переменной. Проще говоря, нас интересует процент соответствия предсказаний модели и истинных значений. В нашем случае модель неверно классифицировала два случая из 30, что составляет 6,6%. Правильно классифицированных случаев — 28, или 93,3%:
Результаты классификации | |||
Предсказания | Всего | ||
Участие = 0 | Участие = 1 | ||
Исходные | 12 | 0 | 12 |
2 | 16 | 18 | |
% | 100 | 0 | 100 |
11,11 | 88,89 | 100 | |
Всего | 93,3% случаев классифицированы корректно |
Как видно из итоговой таблицы, два «активных» избирателя были ошибочно классифицированы как «пассивные» (в нашем примере это случаи 21 и 25). Постарайтесь самостоятельно определить, почему именно эти случаи оказались «ошибочными».
Если бы мы использовали для тех же самых данных пошаговый анализ с исключением, то переменных в модели оказалось бы всего две: «возраст» и «доход». При этом ее качество снизилось бы очень несущественно. Это означает, что обычно интервальные переменные являются куда лучшими предикторами, чем номинальные.
Стандартный метод (три переменные в модели) | Пошаговый метод с исключением (две переменные в модели) | |
p-значение лямбды Уилка | 0,0000009 | 0,000006 |
Канонический коэффициент корреляции | 0,793 | 0,769 |
Собственное значение | 1,69 | 1,45 |
Процент корректно классифицированных случаев | 93,3 | 93,3 |
Еще по теме Дискриминантный анализ:
- ВНЕШНИЙ АНАЛИЗ И АНАЛИЗ ПОКУПАТЕЛЕЙ
- Технико-экономический анализ строительного проекта и анализ обеспечения по запрашиваемому строительному кредиту
- Анализ внешней среды
- АНАЛИЗ ПОЛИТИЧЕСКИЙ
- 5.4. SWOT – анализ
- ПОЛИТИЧЕСКИЙ АНАЛИЗ
- СТРАТЕГИЧЕСКИЙ АНАЛИЗ
- Анализ
- Анализ инвестиций
- Системный анализ
- 71. ФУНДАМЕНТАЛЬНЫЙ АНАЛИЗ