<<
>>

Кластер-анализ

Кластер - анализ представляет собой группу алгоритмов много­мерной классификации объектов, под которой понимается упорядочение в наглядные структуры или группы сходства/различия объектов, облада­ющих множеством характеристик.

В качестве объектов могут высту­пать не только наблюдения (респонденты, политические партии и т.д.), но и переменные.

Например, в парламентских выборах 17 декабря 1995 г. приняли участие 43 избирательных объединения, выборы проводились во всех 89 регионах России. Наша задача — разбить субъекты Федерации на несколько групп по признаку близости политических предпочтений избирателей, выявленных в ходе голосования за избирательные объ­единения и блоки. Наши исходные данные в этом случае составят таб­лицу с 89 столбцами и 43 строками, всего 3287 (43 х 89) числовых дан­ных. Даже если мы проведем предварительное «сжатие» данных с помощью группировки или типологизации, например объединим блоки в несколько идеологически близких групп, — все равно решить поставленную задачу будет крайне проблематично. Если, конечно, не применять кластер-анализ, который как раз и предназначен для ре­шения подобного рода проблем.

Среди различных алгоритмов классификации, объединяемых клас­тер-анализом, наиболее распространены три — иерархический кластер- анализ (tree clustering), метод К-средних (К-means) и двухходовое объеди­нение (two-wayjoining). Мы рассмотрим первые два алгоритма как более активно используемые в анализе политической информации.

Иерархический кластер-анализ

Иерархический кластер-анализ организует данные в наглядные «дре­вовидные» структуры, или дендрограммы. Пример такой структуры приводится ниже; в качестве объектов выступают политические пар­тии и блоки, упорядоченные с точки зрения близости в пространстве голосований в 16 районах Северо-Восточного АО г. Москвы на парла­ментских выборах 1999 г.

Это горизонтальная дендрограмма.

На ней расстояния между объ­ектами и группами объектов (кластерами) различаются по горизон­тальной оси. Так, наименьшее расстояние зафиксировано между объектами партий «Яблоко» и СПС — они соединены самой корот­кой ветвью. Вторые по близости — КПРФ и кластер «"Яблоко" — СПС» о Третьи по близости объекты — «Единство» и «Блок Жириновского.

В древовидной классификации нет четкого правила определения, какие объекты входят в один кластер, а какие нет. Все зависит от исследовательского критерия уникальности объектов. Если критерий уникальности «слабый», т.е. вы хотите получить минимальное число кластеров, можно считать таковыми «"Яблоко" — СПС — КПРФ» (1) и «"Единство" — БЖ — ОВР» (2). Эти два кластера, между прочим, будут сильно различаться по плотности: расстояния в первом класте­ре значительно меньше, чем во втором.

При более «сильном» критерии уникальности можно рассматри­вать ОВР как изолированный объект, не входящий ни в один кластер. При максимально сильном критерии уникальности можно говорить о кластере «"Яблоко" — СПС» и четырех изолированных объектах.

Создание дендрограммы: вычислительный аспект

Для указанного примера мы имеем исходные данные в виде процен­тов голосов, набранных 6 ведущими партиями и избирательными объединениями в 16 районах Северо-Восточного АО г. Москвы на вы­борах депутатов Госдумы 1999 г. Они представлены в таблице.

Район «Яблоко» «Единство» БЖ ОВР КПРФ СПС
Алексеевский 10,72 5,91 1,94 39,83 12,68 14,91
Алтуфьевский 8,13 7,39 3,73 43,57 10,42 9,70
Бабушкинский 8,95 6,68 3,04 42,03 12,44 10,75
Бибирево 9,29 9,58 3,21 40,25 11,04 11,09
Бутырский 10,04 6,84 2,82 40,51 12,18 12,13
Лианозово 8,49 6,73 3,16 45,20 11,46 9,17
Лосиноостровский 9,14 6,51 2,41 43,64 12,80 10,60
Марфино 9,42 6,55 2,84 44,25 11,51 10,60
Марьина Роща 10,00 6,83 2,51 41,07 12,26 12,04
Останкинский 10,61 5,78 1,92 39,97 12,31 14,64
Отрадное 9,71 6,74 3,38 42,42 10,93 11,07
Ростокино 8,98 6,97 2,23 41,66 11,88 12,49
Свиблово 9,00 6,38 2,71 43,16 11,17 11,29
Северное Медведково 8,83 6,67 3,21 45,27 10,70 9,95
Южное Медведково 9,03 6,55 2,89 44,52 11,43 10,11
Ярославский 8,54 6,68 2,88 44,25 11,50 10,88

В кластер-анализе используется принцип геометрического представ­ления, о котором уже говорилось ранее.

Мы представляем объекты как точки в л-мерной системе координат. В нашем случае каждая партия бу­дет иметь определенную позицию в 16-мерном (по числу районов) при­знаковом пространстве. Естественно, если число измерений превышает три, мы не можем получить визуальное геометрическое представление. Впрочем, это никоим образом не мешает нашему исследованию.

Создание дендрограммы происходит в два этапа:

1) построение матрицы расстояний (измерение расстояния между всеми парами имеющихся объектов);

2) построение дендрограммы на основе полученной матрицы рассто­яний.

Уже и а стадии построения матрицы расстояний воз­никает возможность выбирать из нескольких вариантов: что именно считать расстоянием, какую метрику использовать? В стандартных компьютерных программах кластер-анализа мы имеем семь-восемь различных мер близости (или мер расстояния — англ, distance measure). Среди них: евклидово расстояние, взвешенное евклидово расстояние, манхэттенское расстояние, расстояние Чебышева, степенное расстоя­ние, процент несогласия, коэффициент Пирсона. Более подробно ос­тановимся на евклидовом расстоянии (eucledian distance) и расстоянии, основанном на коэффициенте корреляции Пирсона (1 — г).

Евклидово расстояние — это кратчайшее расстояние (dist) между двумя точками х и у в л-мерном евклидовом пространстве. Оно вычисляется по простой формуле:

Так, если мы имеем х с координатами (1; —1) и у (2; 0), то расстоя­ние между ними составит:

Используя эту формулу, можно подсчитать все парные расстояния для наших исходных данных и получить матрицу расстояний:

«Яблоко» «Единство» БЖ ОВР КПРФ СПС
«Яблоко»
«Единство» 11,17
БЖ 26,37 16,21
ОВР 133,53 143,45 159,31
КПРФ 9,8 20,14 35,74 124,05
СПС 9,08 19,8 35,03 125,71 5,28

Вариацией евклидова расстояния является взвешенное евклидово расстояние.

Эта мера близости отличается тем, что отсутствует опера­ция извлечения квадратного корня:

Таким образом, происходит «растягивание» дистанций: большие расстояния становятся многократно больше, незначительные же уве­личиваются не столь существенно. Большим расстояниям придается больший вес, отсюда и название меры близости. Для наших данных матрица расстояний во взвешенной евклидовой метрике имела бы следующий вид:

«Яблоко» «Единство» БЖ ОВР КПРФ СПС
«Яблоко»
«Единство» 124,81
БЖ 695,33 262,87
ОВР 17830,31 20576,99 25378,81
КПРФ 96,14 405,48 1277,05 15388,04
СПС 82,49 392,12 1227,05 15803,83 27,87

Так, расстояние «"Яблоко" — СПС» увеличилось с 9 до 82, тогда как расстояние «БЖ — ОВР» — со 159 до 25 378.

Такой прием может понадобиться тогда, когда различия расстояний между объектами незначительны и структура объектов ненаглядна. В нашем же случае го­раздо удобнее использовать обычное евклидово расстояние.

Принципиально иной метод вычисления матрицы расстояний ос­нован на парном корреляционном анализе Пирсона, о котором подробно говорилось выше. Сначала вычисляется матрица парных корреляций, которая для наших данных будет иметь вид:

«Яблоко» «Единство» БЖ ОВР КПРФ СПС
«Яблоко»
«Единство» -0,31
БЖ -0,68 0,51
ОВР -0,76 -0,14 0,51
КПРФ 0,58 -0,43 -0,79 -0,48
СПС 0,86 -0,33 -0,82 -0,82 0,59

Затем коэффициенты корреляции преобразуются в расстояния с помощью простейшей формулы: dist= 1-е.

«Яблоко» «Единство» БЖ ОВР КПРФ СПС
«Яблоко»
«Единство» 1,31
БЖ 1,68 0,49
ОВР 1,76 1,14 0,49
КПРФ 0,42 1,43 1,79 1,48
СПС 0,14 1,33 1,82 1,82 0,41

Плотная положительная корреляция «СПС — "Яблоко"» (г= 0,86) стала наименьшим расстоянием — 0,14.

Плотная отрицательная кор­реляция «БЖ — СПС» (г= -0,82) стала наибольшим расстоянием — 1,82. Следует оговориться, что мера расстояния 1 - г не используется; если кластеризация случаев осуществляется на основании всего двух переменных, она будет давать только значения -1 или + 1.

После вычисления матрицы парных расстояний можно присту­пать к формированию дендрограммы. Однако и на этой стадии мы имеем достаточно широкий набор опций. Основной во­прос состоит в том, каким образом связывать вместе несколько объ­ектов, как следует определить расстояния между кластерами, т.е. не­обходимо выбрать правило объединения (или правило связи). Как и в случае с мерой близости, в статистических программах имеется около семи вариантов выбора правила объединения. Основные из них: оди­ночная связь (метод ближайшего соседа), полная связь (метод даль­них соседей), невзвешенное и взвешенное попарное среднее, невзве­шенный и взвешенный центроидный метод, метод Варда.

Например, в случае использования метода ближайшего соседа (near­est neighbour, single linkage) расстояние между двумя кластерами опре­деляется расстоянием между двумя наиболее близкими объектами в различных кластерах. Построение дендрограммы начинается с нахож­дения наименьшего значения среди всех парных расстояний. В методе дальних соседей (complete linkage), напротив, расстояния между класте­рами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах. Соответственно, формирование дендрограммы начинается с поиска самой удаленной пары объектов.

Как выбирать меры близости и правило объединения? В некото­рых случаях существуют четкие критерии. Так, процент несогласия как мера расстояния «работает» только на категориальных данных. Однако чаще простых и ясных критериев не существует. Чтобы с ходу «попасть в яблочко», требуются серьезная статистическая подготовка и глубокое понимание специфики изучаемых объектов. Практичес­кие же советы таковы:

1. Следует, не ограничиваясь одной мерой близости и одним пра­вилом объединения, пробовать различные комбинации (конечно, в разумных пределах). Особого внимания заслуживает общее в кластер­ной структуре объектов, обнаруживаемое в разных сочетаниях.

2. Необходимо проводить содержательную интерпретацию получа­емых результатов, ни в коем случае не ограничиваясь «механическим перебором».

В продолжение рассмотрения нашего примера с электоральной статистикой построим четыре дендрограммы, используя комбинации мер расстояния (евклидово и 1 - г) и правил связи (полная и одиноч­ная связь).

1 — «Яблоко»; 2 — КПРФ; 3 = СПС; 4 — «Единство»; 5 — БЖ; 6 — ОВР

Сопоставляя полученные результаты, попробуем найти общие мо­менты и дать им содержательное объяснение.

Так, на трех дендрограммах (1,2,4) четко видно изолированное по­ложение блока «Отечество — вся Россия» (ОВР). Напомним, что кла­стер-анализ осуществлялся на данных избирательных комиссий рай­онов Москвы, мэр которой Ю.М. Лужков являлся одним из лидеров блока. При этом парламентские выборы в декабре 1999 г. проходили одновременно с выборами столичного главы. Несомненно, все это способствовало более четкому позиционированию ОВР в глазах сто­личных избирателей.

На всех дендрограммах фиксируется близость «Яблока» и СПС, причем в двух случаях (3,4) это наименьшее расстояние между объек­тами. Здесь «московская специфика», скорее всего, ни при чем — бли­зость электората СПС и «Яблока» в территориальном разрезе являлась на тот момент общероссийской тенденцией (мы уже рассматривали этот вопрос в параграфе, посвященном корреляционному анализу). Общероссийской закономерностью на парламентских выборах 1999 г. являлась также близость в территориальном разрезе электоратов «Единства» и «Блока Жириновского» (все дендрограммы).

Больше вопросов вызывает близость, с одной стороны, СПС и «Яблока», с другой — КПРФ. Казалось бы, эти партии в значительной мере полярны по своим идеологическим установкам. Ключ к ответу содержится, вероятно, в дендрограммах 3 и 4, демонстрирующих картину двух противостоящих кластеров: «"Единство" — БЖ — ОВР» и «СПС — "Яблоко" — КПРФ». Содержательное различие между двумя кластерами можно представить как признак отсутствия/наличия вы­раженной политической идеологии. «Правые» СПС и «Яблоко» и «левая» КПРФ были четко позиционированы в политико-идеологичес­ком спектре, в отличие от «партий власти» ОВР и «Единства» (и в меньшей степени «Блока Жириновского»). Таким образом, можно предполагать наличие «раскола» (электорального размежевания) в Москве по линии «идейные» — «властные» партии.

К проблеме интерпретации структур электорального выбора мы вернемся, когда будем рассматривать факторный анализ.

Метод К-средних

При всех сильных сторонах иерархического кластер-анализа он обла­дает одним существенным недостатком. С ним трудно работать при наличии большого числа объектов, так как дендрограммы становятся перегруженными и теряют наглядность. В таких случаях используют другой метод кластеризации — метод К-средних. Впрочем, этот метод весьма эффективен и при незначительном количестве объектов: его можно и нужно сочетать с древовидной классификацией для получе­ния более надежных результатов.

Принципиальное отличие метода К-средних от иерархического кла­стер-анализа заключается в том, что исследователю необходимо изначально определить число кластеров, на которое требуется разбить изучаемую совокупность. Соответственно, желательно еще до начала анализа иметь гипотезу о структуре исследуемой совокупности. В ином случае рекомендуется «разведочный» алгоритм: сначала совокупность делится на два кластера, затем на три и так до тех пор, пока не будет найдено оптимальное число кластеров.

Вычислительный алгоритм кластеризации в методе К-средних можно проиллюстрировать простейшим примером. Предположим, мы имеем пять объектов — а, Ь, с, d, е, — для каждого из которых за­даны координаты:

а b С d е
X 1 3 2 10 9
У 1 2 0 и 12

Уже на диаграмме рассеяния мы видим, что объекты должны быть сгруппированы в два четких кластера. Однако к этому еще необходи­мо прийти математическим путем.

1. Центры кластеров (их число определено исследователем, в на­шем случае их два) задаются случайным образом. Предположим, слу­чайные координаты центра первого кластера (3;3), второго — (8;8).

2. Рассчитываются расстояния от центров кластеров до всех объек­тов (используется евклидово расстояние). В нашем случае матрица ев­клидовых расстояний будет такой:

а ь С d е
Центр 1 2,83 1 3,16 10,63 10,82
Центр 2 9,89 7,81 10 3,60 4,13

3. Объекты «приписываются» к тем кластерным центрам, к кото­рым они ближе находятся. Так, объекты а, b и с приписываются к первому кластеру, объекты d и е — ко второму.

Затем производится смещение центров кластеров таким образом, чтобы минимизировать расстояние между объектами внутри класте­ров и максимизировать расстояние между кластерами.

4. Вычисляются средние значения переменных для объектов каж­дого кластера:

5. Вычисленные средние становятся координатами нового центра каждого кластера.

6. Повторяются шаги 2 — 5 до момента, когда кластерные центры перестанут «мигрировать» и займут устойчивое положение.

В нашем простейшем случае это происходит уже на первой итера­ции. Координаты центра первого кластера — (2;1), второго — (9,5; 11,5). Расстояния от центров кластеров до всех объектов:

а b С d е
Центр 1 1 1,4 1 13 12,9
Центр 2 13,5 11,5 13,7 0,7 0,7

Одна из проблем метода К-средних состоит в том, что результат классификации может оказаться зависимым от начальных позиций кластерных центров, которые выбираются случайно. Если существует несколько устойчивых положений центров кластеров, анализ остано­вится только на одном из них, не обязательно оптимально отражаю­щем структуру изучаемой совокупности. Один из таких примеров приводится на рисунке ниже.

Вернемся к нашему примеру с голосованием за политические пар­тии и попробуем поработать с этими данными с помощью метода К- средних.

Сначала разобьем объекты на два кластера. Мы уже имеем пред­ставление о структуре совокупности благодаря ранее проведенному иерархическому анализу, поэтому можем сформулировать предполо­жение о том, как произойдет разбиение. Скорее всего, оно будет соот­ветствовать дендрограммам 1 и 2, поскольку метод К-средних исполь­зует евклидову метрику, т.е. мы получим классификацию «ОВР — все остальные».

Так и происходит (числа указывают расстояние каждого объекта до кластерного центра):

При разбиении совокупности объектов на три кластера картина получается также вполне ожидаемая — в полном соответствии с на­шей содержательной интерпретацией дендрограмм.

Сравнивая внутрикластерные расстояния, можно заметить, что клас­тер «"Единство" — БЖ» является менее плотным (однородным), нежели кластер «"Яблоко" — СПС — КПРФ». Это также вполне согласуется с результатами иерархического кластер-анализа. Кроме того, с помощью данных о расстоянии объекта до центра кластера можно определить, на­сколько «типичным» является данный объект для кластера. Иными сло­вами, находится ли он на периферии (и, следовательно, вполне может быть «притянут» другим кластером) или непосредственно возле центра кластера (т.е. является типичным представителем кластера).

Кроме принадлежности объектов к кластерам и размера расстоя­ний до кластерных центров метод К-средних может дать нам и другую полезную информацию, в частности позволит узнать координаты каждого кластерного центра. В нашем случае их будет 16 (по числу районов).

Район Номер кластера
3 1 2
Алексеевский 3,93 39,83 12,77
Алтуфьевский 5,56 43,57 9,42
Бабушкинский 4,86 42,03 10,71
Бибирево 6,40 40,25 10,47
Бутырский 4,83 40,51 11,45
Лианозово 4,94 45,20 9,71
Лосиноостровский 4,46 43,64 10,85
Марфино 4,69 44,25 10,51
Марьина Роща 4,67 41,07 11,43
Останкинский 3,85 39,97 12,52
Отрадное 5,06 42,42 10,57
Ростокино 4,60 41,66 11,11
Свиблово 4,55 43,16 10,49
Северное Медведково 4,94 45,27 9,83
Южное Медведково 4,72 44,52 10.19
Ярославский 4,78 44,25 10,31

Можно классифицировать любой объект, не участвовавший в ана­лизе, зная его значения по переменным и координаты центров (в на­шем случае — еще одна партия с результатами голосования по райо­нам). Для этого надо вычислить расстояния (в евклидовой метрике) до центра первого, второго и третьего кластеров и отнести объект к ближайшему из них.

Мы также имеем данные расстояний между кластерными центра­ми. В нашем случае наиболее удаленным от всех других является кла­стер с единственным объектом — ОВР (№ 1).

№ 1 № 2 № 3
№ 1
№ 2 31,9
№ 3 37,8 6,1

Профессиональные статистические программы позволяют про­сматривать результаты дисперсионного анализа переменных, по ко­торым проходит классификация объектов методом К-средних. Так, можно оценить вклад каждой переменной в разбиение совокупности на кластеры. Об этом свидетельствуют следующие показатели:

• насколько кластеры различаются между собой по этой перемен­ной (межгрупповая дисперсия);

• вариативность объектов внутри кластера по данной переменной (внутригрупповая дисперсия);

• отношение межгрупповой и внутригрупповой дисперсий ^-от­ношение). Чем сильнее различия между кластерами и чем выше одно­родность объектов внутри кластеров, тем больше /"-отношение.

Рассмотрим некую «инверсию» нашего примера с голосованием за партии в Москве: в качестве объектов классификации возьмем райо­ны Северо-Восточного АО, а в качестве переменных — политические партии. Разбив совокупность из 16 районов на 4 кластера, посмотрим на статистику дисперсионного анализа:

Как видим, вклад переменных в формирование кластеров очень неравномерен. Кластерообразующими являются прежде всего переменные СПС и ОВР.

<< | >>
Источник: Ахременко А.С.. Политический анализ и прогнозирование. 2006

Еще по теме Кластер-анализ:

  1. Кластер-анализ в исследовании образов политическихлидеров
  2. Региональные кластеры. Концепция ромба национальных конкурентных преимуществ. Типы кластерных стратегий
  3. ВНЕШНИЙ АНАЛИЗ И АНАЛИЗ ПОКУПАТЕЛЕЙ
  4. Технико-экономический анализ строительного проекта и анализ обеспечения по запрашиваемому строительному кредиту
  5. SWOT-анализ
  6. Анализ внешней среды
  7. АНАЛИЗ ПОЛИТИЧЕСКИЙ
  8. 5.4. SWOT – анализ
  9. ПОЛИТИЧЕСКИЙ АНАЛИЗ
  10. СТРАТЕГИЧЕСКИЙ АНАЛИЗ