[МУЗЫКА] И последним методом аналитической работы, который мы сегодня рассмотрим, будет кластерный анализ. Кластерный анализ — это статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке тех или иных объектов, и позволяющая затем упорядочить эти объекты в сравнительно однородные группы. Для чего нужен кластерный анализ, на какие вопросы он позволяет отвечать и чем он может быть полезен в исследовании, в том числе, сферы образования? Основной задачей кластерного анализа является типологизация или классификация изучаемых объектов. К примеру, вы проводите исследования или сравнительный анализ образовательных организаций того или иного региона. Вы понимаете, что сравнивать их все между собой будет не совсем правильно, я бы даже сказал, совсем неправильно, поскольку они работают в очень разных условиях, имеют очень разные характеристики, которые обуславливаются, в том числе, и объективными факторами. У вас есть школы элитные, гимназии, лицеи с селективным отбором детей, есть более массовые, более большие школы, расположенные в городах, есть малокомплектные сельские школы, есть сельские школы, расположенные в удаленных и труднодоступных территориях. И понятно, что вот эта вот специфика социально-экономическая, территориальная и так далее будет очень много на что влиять. Вот именно для того, чтобы разбить изучаемые объекты на более такие однородные группы со своей спецификой, и нужен кластерный анализ. Кроме того, он позволяет проверить, опять же, гипотезу, сделанную, например, экспертным путем. То есть вот это наше с вами понимание того, что все школы можно разделить на элитные, на крупные городские, на сельские, на трудноудаленные и так далее. Основным преимуществом кластерного анализа является его объективность и математическая точность. То есть в данном случае в кластерном анализе не предусматривается какая-то экспертная оценка или что-то такое, то есть это чистая математика. Пример использования кластерного анализа. Мы с коллегами, с Сергеем Измаиловичем и с Татьяной Анатольевной не так давно закончили работу над одним из наших исследований под названием «Индекс образовательной инфраструктуры российских регионов». В нем мы анализировали все регионы России на предмет развития инфраструктуры образовательных организаций. И в конечном итоге мы для каждого региона России получили числовой индекс, характеризующий как раз развитие образовательной инфраструктуры. То есть по сути мы получили показатель, с помощью которого мы можем выстроить рейтинг. При этом, как вы уже обсуждали, и как вы обсуждали с Татьяной Анатольевной ранее, рейтинг — штука, скажем так, своеобразная, и подходить к нему следует с большим умом. Мы понимаем, что сравнивать все 85 регионов между собой, просто отсортировав их по полученному нами индексу от большего к меньшему, будет некорректным, потому что везде разные социально-экономические условия, и понятно, что сравнить, например, Московскую область и Тыву будет некорректно. Поэтому нашей задачей было, помимо анализа образовательных показателей, коими в нашем случае были показатели образовательной инфраструктуры, помимо этого нам нужно было типологизировать субъекты Российской Федерации по показателям социально-экономического развития, для того чтобы получить более однородные группы, которые потом мы будем сравнивать между собой. И прежде всего мы будем сравнивать между собой регионы, входящие только в одну и ту же группу, то есть имеющие схожие стартовые условия, схожую специфику по социально-экономическому развитию. По каким показателям мы проводили кластерный анализ? У нас было две группы показателей. Первый из них — это финансово-экономические показатели. Они представлены на слайде. Использовалось в этой группе три показателя: это удельный вес расходов на образование в общих расходах консолидированного бюджета регионов в процентах, отношение среднемесячной начисленной заработной платы к стоимости фиксированного набора потребительских товаров и услуг в потребительской корзине. Как мы сегодня уже ранее обсуждали — взять в чистом виде среднюю заработную плату мы не можем, поскольку в разных регионах разная стоимость жизни, поэтому мы брали именно вот это вот отношение зарплаты к стоимости потребительской корзины. И третьим показателем было отношение объема государственного долга региона к доходам его консолидированного бюджета, то есть то, насколько регион закредитован, насколько высоки у него государственные долги. И второй группой показателей, которые мы использовали, были демографические показатели. В этой группе было всего два показателя. Первый — это доля городских школьников в общем числе школьников, то есть своего рода образовательная урбанизация. И второй показатель — это коэффициент естественного прироста населения в промилле, то есть характеристика демографической активности региона, поскольку демографическая ситуация по этому показателю между российскими регионами может быть очень разная. У нас есть регионы этнически русские, центральной части России, например, в которых традиционно уже наблюдается убыль населения, и есть, к примеру, этнические республики, которые, опять же, традиционно являются демографически активными. Что здесь важно отметить? В итоге мы использовали в кластерном анализе пять показателей. Однако изначально у нас их было значительно больше, порядка 15 или 20. Почему мы не можем использовать в кластерном анализе большое количество показателей? Например, 40 или 50? В этом случае мы либо получим большое количество кластеров, допустим, несколько десятков, состоящих из двух-трех регионов, и в этом случае это будем слишком пестрая картинка, мы в дальнейшем не сможем ее использовать, не очень пригодная для дальнейшего анализа. Либо же мы, наоборот, получим несколько кластеров, но в которые будут входить очень разнородные регионы с очень разными условиями. Поэтому оптимальным для использования в кластерном анализе, особенно при анализе социальной сферы, является количество индикаторов где-то в четыре-шесть штук. И для того чтобы уменьшить количество наших индикаторов мы как раз-таки и проводили факторный и корреляционный анализы, о которых мы с вами говорили чуть ранее. К примеру, факторный анализ позволил нам выявить связь между показателем доли городских школьников в общей численности школьников и, например, показателем плотности населения. Понятно, что эти два показателя связаны, они характеризуются одним и тем же фактором, то есть структурой расселения. Плотность населения будет выше там, где больше будет городов, это достаточно логично, поскольку город является вообще концентрацией населения. То есть мы видим, что эти два показателя связаны и по сути они про одно и то же, поэтому мы оставляем, естественно, только один из них, для того чтобы уменьшить количество показателей для дальнейшего использования в кластерном анализе. Мы использовали при кластерном анализа метод k-средних — это один их наиболее из распространенных методов кластерного анализа. Его специфика заключается в том, что вы изначально должны знать количество кластеров, которые вы хотите получить, поэтому мы несколько раз проводили эту процедуру, настраивая разное количество кластеров, которые мы хотим на выходе иметь, от трех где-то до десяти, и наиболее оптимальным нам показался вариант кластеризации с пятью кластерами, сейчас мы чуть-чуть подробнее на них остановимся. Итак, мы получили пять кластеров. Первый из них — это лидеры по покупательной способности, высокоурбанизированные, со средними или ниже кредитными задолженностями. Второй кластер — это середняки по большинству показателей, с высокой долей расходов на образование в общих расходах консолидированного бюджета. Третий кластер — это регионы с высокими кредитными задолженностями, отрицательным приростом населения и средние по всем остальным показателям. Четвертый кластер — это регионы с наименьшей кредитной задолженностью, с самыми низкими расходами на образование и средние по остальным показателям. И пятый кластер — это регионы с невысоким уровнем урбанизации, сельские, с низкой покупательной способностью и высоким естественным приростом населения. И на вот этом слайде вы видите распределение этих регионов, отдельно отмечу в данном случае первый и пятый кластеры. Первый кластер — это как раз лидеры по покупательной способности, то есть это экономически благополучные регионы, достаточно высоко урбанизированные и так далее. Сюда у нас входят, как вы можете обратить внимание, Московская область, нефтяные регионы Урала, республика Саха, Чукотка, то есть достаточно действительно правдоподобная, скажем так, получилась группа. И пятый кластер я бы отметил именно потому, что в него попали этнические регионы, республики, демографически активные, в основном сельские, с невысокой покупательной способностью. Что, кстати, важно отметить при кластерном анализе — не ожидайте, что вы получите всегда какие-то очень яркие, однородные такие вот кластеры. В данном случае мы действительно получили интересную картинку по первому и пятому кластерам, три оставшихся — они более такие гетерогенные, скажем так. Ну вот обратите внимание, третий кластер, выделенный желтым. В него попадает большинство регионов центральной части России, потому что действительно они во многом схожи между собой, при том, что, конечно, специфика может быть разной. Но, тем не менее, математика их определила в одну и ту же группу. [МУЗЫКА]