[МУЗЫКА] [МУЗЫКА] В этом видео мы сделаем первый шаг к освоению регрессионного анализа. Сам по себе регрессионный анализ является развитием идеи корреляционного анализа. Мы знаем, что корреляционный анализ позволяет лишь выявить силу и направление связи, а также оценить статистическую значимость этой связи. Регрессионный же анализ дает возможность построить модель, описывающую эту связь. То есть с его помощью можно вывести формулу модели и построить график, визуализирующий данную модель. Надо пару слов сказать о происхождении термина «регрессионный анализ». Иногда разнообразные коннотации слова «регрессия» смущают людей. Этот термин был введен Фрэнсисом Гальтоном, кузеном Чарльза Дарвина, который показал, что рост потомков очень высоких людей оказывается меньше, чем их родителей, то есть рост регрессирует к популяционной средней. Коэффициент, описывающий связь роста родителей и роста потомков, Гальтон назвал коэффициентом регрессии, с тех пор этот термин и прижился. Итак, регрессионный анализ позволяет построить стохастическую линейную модель, описывающую взаимосвязь между величинами. Но где эта связь отображается? Ну, если вы внимательно изучили материалы нашего первого курса, то вы однозначно ответите: конечно же, в генеральной совокупности. Но вот вы тут же должны вспомнить, что то, что происходит в генеральной совокупности, нам неизвестно. Мы можем лишь оценить то, что там происходит по выборке. В регрессионном анализе логика абсолютно такая же. Мы предполагаем, что в генеральной совокупности существует некоторая взаимосвязь между величиной x и величиной y. Эта взаимосвязь определяется формулой с коэффициентами β0 и β1. И поскольку в природе все величины, которые существуют объективно, подвержены изменчивости, поэтому данная модель обязательно будет иметь случайную часть ε, вот она. Соответственно, когда мы пытаемся оценить эту связь, то мы должны взять некоторую выборку, и данная выборка сформирует нам два сопряженных вектора x и y, в каждом из которых будет пара чисел. То есть у некоторого объекта мы изучили объект i и изучили величину x и величину y. Соответственно, дальше полученные два ряда чисел ложатся в основу регрессионного анализа, который позволяет построить модель, которая будет являться оценкой той модели, которая описывает связь между x и y в генеральной совокупности. Вот именно вот такая модель и называется регрессионной моделью. Естественно, как только мы заговорили об оценках, на горизонте должны появиться стандартные ошибки и оценки статистической значимости. Все это будет у нас впереди. Простая регрессионная модель — это простая стохастическая линейная модель, и в ней есть следующие компоненты. Формула включает в себя, собственно, следующие величины: y, вот она, это зависимая переменная, ее еще называют переменной отклика, или response variable. Собственно, это та величина, поведение которой нас интересует. x — это независимая переменная, предиктор, которая, как мы предполагаем, определяет поведение нашей зависимой переменной. Параметры модели b0 и b1 имеют специальное название. Параметры b0 — это свободный член, или его еще называют отрезком, или intercept. И второй параметр b1 — его называют угловым коэффициентом, или slope. Случайная часть модели — ее называют остатками, она обозначается латинской буквой e, и она определяет варьирование, связанное с неучтенными фиксированной частью модели, то есть вот этой частью модели, какими-то факторами. Данные, вошедшие в выборку, на основе которой проведен данный анализ, можно изобразить в виде графика, который имеет вид облака точек. Каждая точка — это отдельная пара измерений. Обсудим вот эти компоненты модели чуть более подробно. Если говорить только о фиксированной части модели, то есть о вот этой части, то без учета, собственно, мы сейчас не будем учитывать остатки, то формула будет выглядеть вот так. Обратите внимание, в данном случае мы будем говорить не о любом значении y, а о значениях y, которые обозначаются как y с шапочкой, это предсказанные моделью значения. В такой ситуации вместо исходных значений зависимой переменной мы будем использовать предсказанные значения, и тогда у нас пропадает вот эта случайная часть модели, и модель приобретает вид, в которой присутствует только фиксированная часть. Соответственно остатки, которые нам надо охарактеризовать, это будет разница между наблюдаемым значением и предсказанным значением модели. Соответственно, предсказанные значения, которые предсказывает данная модель, это значения, которые лежат на линии регрессии. А остатки — это величины, которые соответствуют разнице между предсказанным значением и наблюдаемым. Наблюдаемые значения и предсказанные значения. Теперь давайте поговорим о том, какова суть углового коэффициента. Угловой коэффициент, или slope, показывает, на сколько единиц изменяется предсказанное значение y с шапочкой при изменении величины предиктора на одну единицу. Соответственно, если у нас величина предиктора увеличивается на одну единицу Δx = 1, то вот эта величина, на которую возрастает предсказанное значение, и составляет величину, равную b1. Еще один коэффициент — свободный член, или intercept, b0. Он определяет предсказанное значение (напоминаю, что оно лежит опять же на линии регрессии) при нулевом значении предиктора. Иногда интерсепт не имеет прямого смысла: согласитесь, странно говорить о весе человека при нулевом росте, хотя между ростом и весом можно построить совершенно нормальную регрессионную модель. Это просто поправочный коэффициент, но тем не менее он практически всегда будет присутствовать в тех моделях, которые мы будем строить, если мы специально не скажем, что его не надо учитывать. Для наглядности давайте посмотрим на графики, отражающие поведение модели при разных значениях параметров. Посмотрим на этот график. Здесь мы будем видеть, что при одинаковом интерсепте, то есть все линии регрессии, соответствующие трем облакам точек, пересекаются в одной и той же точке, будут наблюдаться три разных угловых коэффициента. Соответственно, вот это облако точек будет описываться одним угловым коэффициентом, это облако точек — другим угловым коэффициентом, это облако точек — третьим угловым коэффициентом. На этом графике мы видим, что все три линии регрессии идут параллельно друг другу. Это означает, что у этих трех совокупностей коэффициент b1 оказывается одним и тем же. Но точки пересечения с осью oy в значении предиктора, равным нулю, будут у них разные. Соответственно, это равные угловые коэффициенты, но разные интерсепты. Наконец третий вариант. В данном случае мы видим, что опять же наблюдаются параллельные линии, но у всех этих линий угловой коэффициент равен нулю. Но при этом интерсепты различаются. Вот держа перед глазами такой график, вы всегда сможете вспомнить суть тех коэффициентов, которые мы будем вычислять при построении регрессионных моделей.