Здравствуйте! Меня зовут Марина Варфоломеева, и я ассистент Санкт-Петербургского государственного университета. Сейчас мы поговорим о том, как можно подобрать линейную зависимость при помощи функций R. Самая главная функция для работы с линейным моделями называется lm, от английского linear model, и у этой функции довольно простой синтаксис. Нам понадобится всего два аргумента, первый аргумент - это формула, условная запись модели, при помощи специального языка формул, с которым мы с вами чуть попозже познакомимся, и второй аргумент должен сообщать функции откуда нужно брать данные, чтобы мы могли к переменным в датафрейме, где лежат данные, обращаться непосредственно без всяких знаков долларов без всяких знаков кавычек. То, что функция возвращает, объект с подобранной линейной моделью, нам лучше положить в отдельную переменную, потому что нам понадобится для дальнейшей работы. У функции lm есть еще какие-то параметры, и вы о них можете прочитать в справке, но сейчас нам больше ничего не потребуется. Модели линейной регрессии можно записать на специальном языке формул. И вот как это выглядит, давайте посмотрим, как выглядят самые простые элементы этого языка на примерах, а потом мы постепенно будем усложнять по мере знакомства с линейными моделями. Вот представьте себе модель простой линейной регрессии с одним единственным предиктором, ее можно записать на языке формул тремя разными способами. Во всех формула единообразно, в середине стоит знак тильда, а слева указывается зависимый аргумент прямо по имени переменной и как она хранится в названии датафрейма из аргумента data. Справа вы в самом минимальном варианте должны указать название этого единственного предиктора. Здесь он у нас допустим называется X. Видите, коэффициент b нулевое мы никаким образом не обозначаем, по умолчанию он и так будет добавлен в модель, но если вы хотите его упомянуть в явном виде, вам нужно записать единицу. Неважно, в каком месте вы ее запишите, вы можете записать перед именем предиктора X или после. Модель все равно будет подобрана одна и та же, модель простой линейной регрессии. Что будет если вы хотите подобрать такую зависимость, которая проходит через ноль? Мы с вами разобрались когда говорили коэффициентах, что у такой линейный регрессии коэффициент нулевое будет равен нулю, то есть intercept-а в модели не будет таким образом. Очень просто можно записать формулу такой модели. Вам нужно перед знаком intercept-а написать минус. Это значит, что этот элемент формулы будет убран из модели, и опять же неважно в начале это записывать или в конце. Вот модель линейной регрессии, которая проходит через ноль, она без intercept-а. Бывают случаи, когда нам нужна самая простая модель простой линейной регрессии, в которой вообще нет никаких предикторов, в которых все описывается одним единственным коэффициентом, b нулевое, т.е. мы описываем среднее значение нашей переменной отклика, среднее значение Y. Такую модель тоже очень легко записать в R. Вы можете написать справа от тильды просто единицу, то есть в модели есть единственный коэффициент, это intercept, или вы можете в явном виде перечислить те предикторы, которые вы хотите из нее исключить. Эта запись будет синонимична, так обычно никто не пишет, конечно, пишут вот первым способом. Если в вашей регрессии предикторов несколько, мы пока еще не знакомились с вами с такой ситуацией, но в одном из следующих модулей мы разберем, как устроено множественные линейные регрессии. Если у вас несколько предикторов в модели, вы их просто перечисляете, соединяя знаком плюс. Давайте подберем модель простой линейной регрессии в R для наших данных, которые описывают зависимость величины IQ от размера головного мозга, но на картинке MRT. Как это делается? Нам понадобится функция lm. Формула для нашей модели выглядит очень просто. Зависимая переменная, это величина IQ, предиктор единственный в модели, это переменная, которая называется MRINACount, число пикселей на картинке MRT. Данные хранятся в датафрейме brain. Результаты мы складываем в переменную brain_model, и если мы ее просто распечатаем в консоли, нам покажут всего лишь как была создана модель, это раздел, который называется call, это всегда нелишне напомнить человеку, как он создал какой-то объект, если прошло много времени, это может быть очень полезно, еще нам покажут коэффициенты этой линейной модели, и этого уже достаточно, чтобы мы могли описать форму зависимости. Уравнение модели в данном случае будет выглядеть примерно так: предсказанное значение IQ будет равно вот такой величине intercept-а, и оно будет увеличивается при увеличении MRINACount на один пиксель на вот такую маленькую величину, то есть на величину коэффициента угла наклона. Но не думайте, что в тот момент, когда вы записали уравнение линейной регрессии, на этом анализ заканчивается. Мы, конечно, записали уравнение прямой линии и можем, например, подставить в него конкретное значение и использовать его для предсказаний, на самом деле этим заниматься еще рано. Мы должны сделать несколько вещей, во-первых, хорошо бы описать насколько наша регрессия действительно может описывать те данные, которые у нас есть. Может быть она их не очень хорошо описывает, и объясняет не очень много изменчивости. Во-вторых, хорошо бы понять значима ли это зависимость статистически. То есть для этого нам нужно сделать какие-то статистические тесты, а уж если речь пошла о тестах, то конечно же, у этих тестов будут свои условия применимости, и нам нужно будет их проверить прежде чем иметь возможность обсуждать результаты. Всеми этими этапами анализа мы займемся в следующих видео.