[МУЗЫКА] [МУЗЫКА]
[МУЗЫКА] А теперь, давайте, посмотрим какие
возможности иерархического кластерного анализа реализованы в пакете SPSS.
Возьмём тот рейтинг, о котором мы говорили.
То есть модель мы уже с вами разобрали,
давайте посмотрим как её задать в статистическом пакете.
Вот, открыт у меня, сейчас, массив данных, этот самый рейтинговый,
мы видим в нём несколько переменных.
Первая — это, собственно, рейтинговая позиция, дальше идёт зарплата, балл ЕГЭ,
процент остающихся в городе обучения, и, последняя переменная — это город,
если нам, вдруг, захочется посмотреть в каких городах находятся университеты
из полученных кластеров.
Основные переменные для построения кластерной модели, это, вот, у нас три
рейтинговых переменных: зарплата, балл ЕГЭ и процент остающихся в городе обучения.
Все кластерные модели лежат в меню «Анализ», «Классификация».
И если мы зайдем, увидим что есть «двухэтапный»,
«k-средними» и сейчас нам нужна «иерархическая кластеризация».
Зайдём. Для начала располагаем переменные в окно
«Переменные», те три переменные, на которых будет у нас строиться
классификация: зарплата, ЕГЭ и процент остающихся в городе обучения.
Дальше идём по кнопкам.
«Статистики».
Здесь обязательно сохраняем порядок агломерации.
То есть это тот самый протокол объединения,
в котором отражается как пошагово самые близкие, а потом более, более,
более отдалённые объекты постепенно объединяются в кластеры.
Именно по этой таблице мы потом будем делать вывод о том,
сколько кластеров нам следует оставить.
Сохраняем, продолжаем.
В «Графиках».
Здесь у нас есть возможность сохранить дендрограмму.
Сохраняем её, так же, здесь сосульчатая диаграмма здесь же реализована,
но мы её пока отключим.
Мы говорили что она менее информативна, но если захотите,
вы сможете потом с ней поэкспериментировать самостоятельно.
«Метод».
Здесь мы задаём, собственно, метод, по которому будут строиться кластеры.
По умолчанию тут реализован метод межгрупповой связи, но мы говорили о том,
что для нашей задачи метод Уорда более подходящий.
Поэтому мы его и выставим.
И «Меру» оставим по умолчанию: интервальная шкала,
квадрат евклидового расстояния.
Продолжаем.
Важная кнопка «Сохранить».
Потому что если мы не сохраняем ничего, то тогда то,
что мы получим будет использоваться только для иллюстративных целей.
Для того чтобы мы построенные кластеры могли потом использовать,
нам нужно сохранить построенную классификацию.
И здесь у нас есть возможность сохранить или одно решение, если мы наверняка знаем
сколько нам кластеров понадобится, либо можем сохранить несколько решений.
Мы помним,
что несколько решений могут быть полезны для проверки устойчивости, поэтому давайте
сохраним два: четырёхкластерное и пятикластерное решение.
Здесь вот мы можем это вбить.
Но диапазон может быть, конечно, любым.
Продолжаем, сохраняем.
Всё. Вроде бы всё задали,
запускаем процедуру и смотрим что же мы увидим в выдаче.
Значит, первое что мы видим это, вот, табличка обобщающая,
что у нас 47 объектов.
95 % — определенные, и 2 % — неопределенные, потому что мы помним,
что мы удалили университет с нетипичной зарплатой и удалили один объект,
где было нетипично маленькое значение остающихся в городе обучения.
То есть вот эти два пропущенных указаны, остальные валидные и, именно,
на них строится классификация.
Дальше табличка — собственно, протокол агломерации.
Мы видим, что на первом шаге у нас объединились объекты 41 и 44,
на вот таком вот небольшом расстоянии.
И дальше этот коэффициент близости начинает по табличке потихоньку
увеличиваться.
И здесь же, вот,
то что вы видели в лекциях, на 41, 42 шаге у нас происходит тот самый скачок,
на котором следует разорвать и принять решение о таком количестве кластеров.
Дальше мы видим дендрограмму.
И это вот тот график, где мы видим, что вот у нас кластер 1-й, 2-й,
3-й, 4-й и 5-й.
И если бы нас устроила более крупная классификация,
мы могли бы увеличить расстояние, провести линию, скажем, вот здесь.
И тогда у нас было бы немножечко меньше кластеров,
но они были бы более крупные, более разрозненные внутри.
Откуда мы знаем, что у нас попало в какой кластер?
Если мы посмотрим в массив данных,
мы увидим что у нас добавилось две новых переменных.
CLU — это от слова cluster первые три буквы, дальше 5.1 и 4.1.
5.1 — это пятикластерная модель, первая попытка,
4.1 — это четырхкластерная модель, первая попытка.
И мы видим, что какие-то объекты у нас остаются в одном и том же кластере.
Хоть на пять дели, хоть на четыре.
А какие-то объекты меняют своё положение при переходе от 4-х кластерной к 5-ти
кластерной модели.
Давайте посмотрим как вообще происходит это изменение,
за счёт чего формируется пятый кластер.
Для этого мы зайдём в «Анализ» > «Описательные статистики» > «Таблицы
сопряженности» и просто построим таблицу сопряженности между этими двумя
переменными.
Пересечём 4-х и 5-ти кластерное решение.
Посмотрим что у нас получится.
5-ти кластерное, 4-х кластерное.
Запускаем.
Здесь мы видим, в табличке, что по столбцам у нас 4-х кластерное решение.
В первом кластере 2 объекта, во втором 17, в третьем 8 и 20 потом.
5-ти кластерное решение у нас по строкам показано, и мы видим,
что там у нас численность другая немножко и за счёт чего они формируются.
Кластер из двух объектов воспроизвёлся полностью, кластер из 20-ти объектов,
четвёртый, также воспроизвёлся полностью,
а вот если мы посмотрим на второй кластер в четырёхкластерном решении,
мы увидим что он развалился на две достаточно крупных группы.
То есть у нас 17 объектов развалились на две группы: одна — 7, вторая — 10.
И это нам говорит о том, что 4-х кластерное решение неустойчивое,
и значит у нас в этом кластере были две выраженные группы,
внутри которых объекты однородные, но разрозненные между собой.
Поэтому 5-ти кластерное решение нам оставить рекомендовано, что мы,
собственно, в лекции и сделали, как вы помните.
Для того чтобы понять какие именно университеты попали в каждый кластер,
нам нужно сделать дополнительное действие и выдать табличку со средними значениями,
которые будут у нас координатами центров кластеров и позволят нам, собственно,
интерпретировать кто у нас куда попал.
Для этого мы заходим в «Сравнение средних»,
знакомая нам уже тоже команда меню.
И в качестве независимой переменной ставим 5-ти кластерную модель,
которую мы решили оставить.
А в качестве зависимых переменных, ставим те самые три,
на основе которых мы строили кластерную модель.
Здесь убираем всё ненужное, оставляем только средние значения, потому что нам,
по большому счёту, нужно только охарактеризовать то, что мы получили.
Продолжаем, запускаем.
По этой табличке мы можем сказать, что в первый кластер у нас попали, относительно,
высокооплачиваемые ВУЗы,
средняя по выборке у нас зарплата — 79 тысяч, а в первом кластере — 110 тысяч.
То есть,
это высокооплачиваемые университеты с высоким баллом ЕГЭ и абитуриентов.
И с неплохим процентом остающихся в городе обучения.
Третий кластер, к примеру, отличается тем, что там тоже высокие показатели,
выше средних по выборке и по зарплате и по ЕГЭ, но не такие высокие как в предыдущем,
но здесь характерно то, что очень большой процент,
больше 90 % остаются в том городе, в котором они учились.
То есть это такой более патриотичный кластер.
Ну и далее, по аналогии,
мы можем анализировать содержание вот этих кластеров, называть их
как-то и потом работать с ними, как с обычной номинальной переменной.
На этом мы заканчиваем рассмотрение иерархического кластерного анализа.
И в следующем модуле поговорим о других методах кластеризации,
которые называются итерационными.