[МУЗЫКА] [МУЗЫКА] Я думаю, что не будет преувеличением сказать, что цель практически любого исследования заключается в поиске взаимосвязей величин и создании основы для предсказания чего-то неизвестного на основе имеющихся данных. Каждая наука по-своему подходит к достижению этой цели, однако в современном мире выявление взаимосвязей, а главное доказательство их значимости, проходит исключительно с применением математического аппарата, собственно, которому будет посвящена вся оставшаяся часть нашего курса. Итак, в примере, который мы с вами разбираем, мы задались целью установить, существует ли связь между размером головного мозга и показателем интеллекта. После того как такие данные были представлены и загружены в среду R, мы можем приступить к решению этой задачи. Однако тут надо сделать небольшое отступление и ответить на, казалось бы, простой вопрос: а что такое взаимосвязь? Наш бытовой опыт хорошо знаком с так называемыми причинно-следственными связями, например, между тем, что дует ветер, и тем, что раскачиваются деревья, несомненно, существует связь. И взрослый человек понимает эту связь как причинно-следственную. Ветер — это причина раскачивания деревьев. Однако вспомним себя в детстве, когда все могло выглядеть с точностью до наоборот. Мы еще могли считать, что деревья, раскачиваясь, создают ветер. Однако несмотря на наш возраст, связь между двумя явлениями никуда не делась: есть ветер, есть раскачивающиеся деревья. И вот наука очень часто оказывается в такой ситуации, когда причинно-следственные связи неизвестны, но связь между какими-то явлениями присутствует. И вот связь между явлениями принято называть корреляцией, и выявлением связей, их количественной оценкой занимается специальный раздел статистики, который называется корреляционный анализ. Имея дело с корреляционным анализом, мы должны принять два базовых утверждения. Во-первых, это самое главное, наличие связи между явлениями не означает, что между ними существует причинно-следственная связь. То есть наличие корреляции ничего не говорит о том, что является причиной, а что — следствием. И вторая важная посылка заключается в том, что связь между явлениями можно измерить количественно, и вот корреляционный анализ к этому и стремится. Однако для начала эту связь необходимо выявить, обнаружить. Если мы умеем изучаемые явления описывать количественно, то оценить наличие связей между двумя явлениями довольно просто. И как мы уже подчеркивали, в математических методах самое ценное при каком-то поиске, при разведочном анализе — это визуальное представление. Лучше привести один график, чем много чисел в каких-то таблицах. И вот для визуализации связей между двумя численно выраженными величинами можно использовать простейший прием, который называется построение точечной диаграммы. Вот давайте такую диаграмму построим, заодно потренируемся в применении функции пакета ggplot2. Для этого мы построим график, выглядеть этот график будет вот так. Далее мы будем строить много графиков для визуализации тех или иных связей, и вот давайте мы сразу договоримся, что на таких графиках по оси y мы будем откладывать зависимую переменную, то есть поведение которой мы хотим изучить. А по оси x будем откладывать те величины, от которых зависит эта зависимая переменная, в данном случае мы хотим выяснить, как уровень интеллекта зависит от величины размера мозга. Такие переменные, от которых что-то зависит, еще называют предикторами. Соответственно, в нашем примере по оси x мы будем откладывать переменную MRINACount, а по оси y — PIQ. Вообще-то говоря, для корреляционного анализа это не столь важно, что по каким осям откладывать, но в дальнейшем такое разделение на зависимую переменную и переменную-предиктора будет очень полезно. Так вот, для построения этого графика мы написали следующий код. Во-первых, мы загружаем пакет ggplot2 с помощью функции library, устанавливаем в качестве рабочей темы black and white с помощью функции theme_set, а далее начинаем создавать наш график. Соответственно, первым делом задаем базовый слой, в котором мы указываем, что источником данных будет датафрейм brain. И эстетика x, то есть то, что у нас будет откладываться по оси x, будет отражать величину MRINACount, а эстетика y, то есть то, что у нас будет откладываться по оси y, соответственно будет отражать величину PIQ. Далее мы задаем, что визуализировать отношения между этими величинами будет точечная диаграмма, это мы обозначаем с помощью функции geom_point. Ну и осталось подписать оси на этом графике. Это мы сделаем с помощью функции labs, где указываем, что по оси x пойдет фраза «размер головного мозга», а по оси y будет написано «уровень интеллекта», в скобочках — PIQ. Все эти слои, которые мы создали, — базовый слой, слой, сделанный с помощью geom_point, слой, сделанный с помощью функции labs, — мы помещаем в переменную pl_brain. Ну и далее нам необходимо вызвать эту переменную, что и приведет к появлению вот этого графика на экране. И вот полученная нами картинка — эту картинку еще называют облаком точек, и вот это облако точек имеет явную тенденцию возрастать по мере увеличения одной переменной, отложенной по оси x, и, соответственно, возрастает вторая переменная, отложенная по оси y. Вот такое поведение облака точек свидетельствует о наличии положительной корреляции между величинами. Всего можно выделить три основных формы облака точек, которые описывают взаимосвязь между двумя величинами, измеренными количественно. Здесь, как и в нашем случае, мы видим возрастающий паттерн в облаке точек. Соответственно, в данном случае мы можем говорить о положительной корреляции между первой величиной и второй величиной. В данном случае мы наблюдаем обратную ситуацию: по мере увеличения величины, отложенной по оси x, вторая величина, отложенная по оси y, уменьшается. Ну и, наконец, возможен третий вариант: это не положительная и не отрицательная корреляция, когда никакой особой взаимосвязи мы не наблюдаем. Соответственно, никаких явных паттернов в этом облаке точек не выделяется, и такое состояние — свидетельство об отсутствии корреляции. Соответственно, это положительная корреляция, это отрицательная корреляция, и в данном случае мы имеем корреляцию, равную нулю. Однако возможны и вот такие криволинейные связи. В данном случае корреляция на самом деле тоже есть. Однако в данном случае это корреляция, которая описывается вот такой вот синусоидальной кривой. Она тоже есть, взаимосвязь между величинами есть, только ее описать простыми линейными паттернами уже не удается. В данном случае тоже существует довольно хорошо выраженная связь между явлениями первой и второй величиной, но опять же она не имеет формы прямой. Соответственно, вот такие криволинейные связи между величинами можно тоже описывать с помощью специальных математических методов, однако в нашем курсе мы рассматривать такой аппарат не будем. Однако есть и хорошая новость. Очень часто криволинейные зависимости можно обойти, применив некоторые математические трюки, которые позволят свести их к простым линейным зависимостям. Иногда это, правда, приводит к потере информации, но с этим иногда приходится мириться.