[МУЗЫКА] Двигаемся дальше, уважаемые слушатели. И рассмотрим еще несколько крайне полезных и часто используемых методов аналитической работы, которые могут быть очень полезны при анализе статистических данных. Начнем с корреляционного анализа. Корреляционный анализ (от латинского «связь» или «соотношение») — это метод обработки статистических данных, с помощью которого измеряется теснота связи между двумя или более переменными. То есть корреляционный анализ позволяет нам увидеть математическую взаимосвязь между двумя показателями и, следовательно, понять, что, если значение по одному из них становится выше, то и другой показатель в разрезе, например, региона, муниципалитета, школы, города тоже станет выше. Для чего используется корреляционный анализ? На какие вопросы он позволяет нам ответить? Прежде всего он позволяет проверить исходную гипотезу исследования. Например, начиная исследование, у вас есть некоторое предположение о взаимосвязи двух переменных. Например, вы считаете, что образовательные результаты в той или иной территории, в разрезе тех или иных территорий связаны, например, с социально-экономическим статусом семей, в общем, по международным исследованиям это подтверждается. И корреляционный анализ сразу же позволяет вам проверить правдивость этой гипотезы. Что здесь важно учитывать? Что при наличии причинно-следственной связи между двумя показателями — прямой причинно-следственной связи, то есть один непосредственно влияет на другой, между ними всегда будет корреляционная связь. И, следовательно, если корреляционная связь не найдена, то есть мы не видим математической взаимосвязи между двумя переменными, то мы можем сразу же говорить об отсутствии причинно-следственной связи прямой между двумя рассматриваемыми показателями. Большим плюсом корреляционного анализа является то, что он выполняется в большинстве программных средств для анализа данных, включая широко известный и, пожалуй, самый доступный из них Microsoft Excel. Мы не будем сегодня подробно останавливаться на том, как выглядит сама эта процедура. Информацию об этом вы легко найдете в Интернете. Ничего сложного в этой процедуре нет. Отмечу только, что в качестве показателя степени и величины статистической связи между двумя показателями используется так называемый коэффициент корреляции. Обычно он обозначается латинской буквой K. Значение коэффициента корреляции может быть от −1 до +1. −1 означает обратную связь между двумя показателями, то есть чем один ниже, тем второй выше, а +1 означает прямую функциональную связь — чем выше один, тем выше второй. При этом в социальных науках сильной корреляцией считается математическая связь с коэффициентом либо менее −0,7, либо более +0,7. При этом, как и у любого метода аналитической работы, у корреляционного анализа есть свои требования и свои ограничения. Прежде всего надо отметить, что достоверность связи между двумя переменными зависит не только от величины коэффициента корреляции, но и от количества экспериментальных данных, то есть от количества случаев, которые были рассмотрены в процессе корреляционного анализа. То есть формально вы можете провести корреляционный анализ, например, на пяти регионах. У вас есть два показателя и пять случаев — пять субъектов Российской Федерации. Вы получите некий коэффициент корреляции, но он будет не очень достоверен, потому что у вас всего лишь пять наблюдений. И чем больше, скажем так, случаев входит в корреляционный анализ, тем более точные результаты, тем более достоверную связь вы получите. Также очень важный момент. Анализируемые перемененные обязательно должны быть количественными. Мы не можем использовать качественные переменные, например, типы, в том числе и закодированные, зашифрованные в виде цифр, например, первый тип, второй тип, третий. Так или иначе, это будут качественные данные. В корреляционном анализе их использование является некорректным. Важный момент. Корреляционный анализ не выявляет наличие причинно-следственных отношений и не выявляет направление взаимосвязи, то есть корреляционный анализ не позволяет нам ответить на вопрос, какой из двух показателей влияет на второй. Мы только видим, что между ними есть связь, но мы не можем сказать, что первый показатель непосредственно влияет на второй. Кроме того, обе анализируемые переменные могут изменяться под влиянием какой-то третьей или даже нескольких переменных. То есть они могут быть не связаны напрямую друг с другом, а связаны с некой третьей переменной, которую мы в данный момент не анализируем, поэтому связь между ними будет, но она не является, скажем так, прямой. Она косвенная. И еще один важный момент — это так называемые ложные корреляции. Если вы посмотрите в Интернете, вы найдете достаточно много таких забавных и курьезных даже в какой-то степени статистических взаимосвязей, например, между количеством самоубийств и числом пчел на пасеках. Понятно, что, скорее всего, по крайней мере, связи между двумя этими переменными нет, но, скажем так, в качестве и в результате некоторого такого математического совпадения коэффициент корреляции там может быть крайне высоким. Корреляционный анализ тесно связан с факторным анализом. Факторный анализ является методом, применяемым для изучения также взаимосвязей значений между переменными, и исходит из того, что все наши рассматриваемые переменные зависят от меньшего количества неизвестных переменных, также известных как факторы. Что это значит? Какие цели у факторного анализа? Их можно выделить две. Первая — это сокращение числа переменных, то есть это крайне полезно в случае, если у вас слишком много данных, которые вам необходимо проанализировать, то есть у вас, например, 50 или, не знаю, 100, 200 показателей, и вы понимаете, что для вашей цели, для вашего исследования это избыточно и вам нужно это количество сократить. Вторая цель факторного анализа — он позволяет определить структуру взаимосвязи между рассматриваемыми переменными, то есть классифицировать имеющиеся у вас данные. Факторный анализ исходит из базовой идеи о том, что все ваши анализируемые показатели можно объяснить тем, что все они зависят от меньшего числа других неизмеряемых, неанализируемых в данный момент переменных или факторов. То есть, к примеру, у вас есть два показателя: один измеряет рост учеников в сантиметрах, другой измеряет рост учеников в дюймах. Понятно, что между ними будет очень сильная корреляционная связь, потому что оба этих показателя, по сути, объединяются в один и тот же фактор — в физический размер, физический рост ученика. Следовательно, факторный анализ позволяет нам в таком случае понять, что между ними, между подобными показателями есть связь, и оставить только один из них. Из менее очевидных, хотя все еще достаточно понятных примеров можно привести, например, средний тестовый балл ЕГЭ и балл ЕГЭ уже в том значении, в котором он ставится в аттестат. Понятно, что между тоже ними коэффициент корреляции будет 1. Это, по сути, одно и то же. У них просто немного разные единицы измерения. Вот именно для сокращения количества используемых данных и понимания связи между ними и используется факторный анализ. [МУЗЫКА]