[МУЗЫКА] [МУЗЫКА] В этом видео мы поговорим о том, как же подбираются линии регрессии. Понятно, что для того, чтобы построить любую прямую, надо знать значение интерсепта и углового коэффициента. Но как можно вычислить эти коэффициенты? Для этого обратимся к нашим реальным данным, на которых мы изучаем связь IQ с размером головного мозга. Как мы уже знаем, выборку, на основе которой мы проводим регрессионный анализ, можно изобразить в виде облака точек. И вот линия регрессии, которая должна пройти через это облако точек, должна пройти неким наилучшим образом. Встает вопрос — что значит наилучшим образом? И вот посмотрите, на этом графике мы провели три линии. Красная линия проходит как-то не очень хорошо, она чуть выше, чем всё облако точек находится. Зелёное облако напротив чуть ниже и угол какой-то не тот. А вот синяя линия, которая проходит через облако точек почему-то кажется, что она, действительно, лучше вписывается в это самое облако точек. Вот задумаемся, давайте, почему это так. Синяя линия отличается от красной и зелёной тем, что облако точек более или менее равномерно распределено вокруг этой линии. Остаётся только формализовать это свойство, и помогут нам в этом остатки. Мы помним, что остатки — это отклонения от предсказанных значений наших наблюдаемых значений, то есть отклонение точек от линии регрессии. Стало быть, линия регрессии отличается от всех прочих линий, которые можно провести через облако точек только тем, что остатки в этой ситуации будут минимальны, то есть для этого здесь применяется небольшой математический трюк. Дело в том, что остатки могут быть как положительными, так и отрицательными. Соответственно, точки, который находятся выше линии регрессии, у них будут положительные остатки, а те, которые находятся ниже, у них будут отрицательные остатки. Так вот, для того, чтобы избавиться от знака, давайте работать не с самими остатками, а с их квадратами. Так вот, в случае с линией регрессии мы должны подобрать такую линию, у которой сумма квадратов остатков будет минимальной. Вот тот метод, который мы будем с вами сейчас использовать, называется методом наименьших квадратов. Сразу оговоримся, что метод наименьших квадратов — это не единственный метод подбора линии регрессии. Но о другом методе, который называется методом максимального правдоподобия, мы будем говорить в другом курсе. Метод наименьших квадратов основан на поиске минимума некоторой функции, то есть ее экстремума. Вообще эта задачка входит в число стандартных задач математического анализа в школьной программе. Давайте вспомним такие азы матана. Пусть у нас есть некоторая квадратичная функция, которая задается вот таким уравнением, и у этой функции существует некоторый минимум. Соответственно, вот график этой функции, у которой есть минимум, который находится где-то вот здесь. В этой классической параболе существует экстремум. Как его найти? На самом деле минимум будет в той точке, где первая производная от данной функции будет равна нулю. Давайте вспомним, как берутся производные. Берём первую производную от исходной функции, и этот член у нас исчезает, от этого члена у нас остается только 12, эта двоечка переходит сюда и умножается на 3, и, соответственно, получаем вот вот такое нехитрое уравнение. Далее находим значение x, при котором значение первой производной будет равно нулю, соответственно, приравниваем значение первой производной нулю и решаем несложное уравнение. Соответственно, величина, при которой будет наблюдаться экстремум, это x = 2. Если подставить значение x в исходную функцию, то минимальное значение вычисляется очень несложно. Соответственно, мы берем минимальное значение x, подставляем в уравнение, и получается, что минимум, наблюдаемый в данном графике, будет приходиться на точки с координатами x = 2, y = 88. Теперь перейдем к методу наименьших квадратов. Пусть у нас есть два сопряженных ряда чисел x и y, и мы хотим подобрать линию регрессии, которая описывается вот таким вот уравнением. Обратите внимание, что будем в данной ситуации говорить о предсказанных значениях, соответственно, будет y с шапочкой наверху. Собственно, нам надо найти такие b0 и b1, при которых сумма квадратов остатков будет минимальной. Сумму квадратов остатков мы можем представить в виде функции, в которой будет два аргумента b0 и b1. Обратите внимание, что в качестве аргументов будут выступать уже коэффициенты b0 и b1, то есть они уже будут не параметрами, а будут аргументами новой функции. И нам нужно найти такое значение b0 и b1, при которых эта функция, которую мы здесь записали, эта функция будет иметь минимальное значение. Для упрощения дальнейших преобразований давайте перепишем функцию, которую мы только что вывели, чуть в более сложном виде, раскроем скобки. Это простейшая алгебра, которая, как известно, есть лишь искусство переписывания. И вот после того, как мы раскрыли скобки, мы получим вот такую длинную запись. Она немножко страшно выглядит, но на самом деле ничего страшного там нет, не падайте духом. Сейчас мы все это дело упростим. Так вот в этой страшной функции по-прежнему присутствуют два аргумента b0, b0 вот здесь, b0, b0 и b1, вот они. Так вот, поскольку аргументов два, то для поиска минимума этой функции необходимо взять две частные производные: одну относительно b0, а другую относительно b1. И производная относительно b0, частная производная относительно b0 записывается следующим образом. Поскольку у нас все члены исходной функции, в которой отсутствует b0, исчезают в первой производной, то тогда у нас остается всего лишь несколько элементов. Первый, которой полностью получается вот отсюда, второй, который получается из этого квадрата, и третий, который получается вот отсюда. Соответственно, приведя приведение подобных членов и вынося за скобки константы, мы получаем вот такую нехитрую функцию. Теперь давайте найдем частную производную относительно b1. Здесь всё аналогично. Поскольку в этом элементе никаких следов b1 нет, он исчезает, в данном случае у нас остаётся только вот этот кусочек, потому что первая производная здесь будет таким образом вычисляться. Этот кусок полностью исчезает, здесь нет b1. От этого кусочка остается только вот этот элемент, этот кусочек полностью исчезает, и здесь остаётся только вот эта часть. Итак, после приведения подобных членов и раскрытия скобок, вынесение за знак суммы константы, мы получаем вот такую нехитрую функцию, которая тоже не вызывает серьезных ужасов. Далее для поиска минимума нам необходимо обе полученные частные производные приравнять 0 или решить вот такую систему уравнений. Итак, решение этой системы уравнений, может быть, несколько громоздкое, но опять же это ничем не сложнее, чем все остальные предыдущие этапы. Итак, решением, которое вы потом можете проделать самостоятельно все ходы, будет вот такая система уравнений, в результате которых написаны функции для вычисления b0 и b1. Таким образом, для того, чтобы вычислить b1, нам нужны только исходные значения x и y, и они у нас уже есть. А вот для поиска b0 все те же исходные данные и значение b1, которое нам нужно подставить в формулу для вычисления b0. Более того, если вы внимательно присмотритесь к этим формулам, то увидите кое-что знакомое. Вот это ведь не что иное, как среднее значение, согласитесь. А это среднее значение для y, а это среднее значение для x. Если вы внимательно присмотритесь к формуле b1, то увидите здесь кусочки от формулы коэффициента корреляции, которая находится здесь. И, действительно, коэффициент b1 равен коэффициенту корреляции между x и y, умноженному на отношение среднеквадратического отклонения y к среднеквадратичному отклонению x. Таким образом, всё то, что мы сейчас с вами сделали, это не что иное, как реализация одних и тех же вещей, которые мы обсуждали ранее, всё это стороны одной медали.