Обобщённые линейные модели были предложены в 1972 году британскими статистиками: Джоном Нелдером и Робертом Ведербёрном. Джон Нелдер долгое время возглавлял отдел статистики на не безызвестной экспериментальной станции в Родхемстеде, из которой вообще-то вышло довольно много разных известных статистиков, а Роберт Ведербёрн был его аспирантом. Нелдер работал в области оценок полученных методом максимального правдоподобия, а Ведербёрн знал прекрасно свойство распределения семейства экспоненциальных и вместе, соответственно, они смогли эти знания использовать, чтобы получить нечто совершенно новое, чтобы разработать новый "framework" анализа обобщенной линейной модели. После публикации статьи, через 3 года к сожалению Роберт Ведербёрн погиб, потому что его укусила пчела. У него была сильная аллергическая реакция, а так может быть он бы смог нам предложить какие-нибудь другие новые методы, но увы. Подбор коэффициентов обобщенных линейных моделей делается методом максимального правдоподобия. Чтобы с этим методом работать нужно хорошо знать, как устроены функции распределения, которые мы используем в обобщенной линейной модели. В этом видео мы с вами поговорим о формулировке линейных моделей в общем виде и поговорим о том, что же такое правдоподобие? А для начала давайте вспомним, что такое общая модель, и как она формулируется в таком виде "distribution centric view", его называют еще, когда основной фокус делается на то, каким образом распределена зависимая переменная. Общая линейная модель состоит из 2 компонентов: у нее есть случайная часть, это как раз та часть, где мы говорим, что переменная отклик подчиняется нормальному распределению для общих линейных моделей и других вариантов нет, и у этого нормального распределения есть среднее значение "μ" и параметр "σ", который описывает разброс значений независимой переменной. И мы моделируем математическое ожидание этой переменной отклика, то есть "μ", как линейную комбинацию предикторов со своими коэффициентами и вот эта часть, она называется фиксированная часть модели, она абсолютно детерминистская, это линейный предиктор. В обобщённых линейных моделях появляется новый компонент, это функция связи она будет связывать математическое ожидание отклика и линейный предиктор у нас появится новая ступень и, собственно, случайная часть модели тоже немножко изменится, потому что сейчас нам нужно предусмотреть не только тот случай, когда отклик подчиняется нормальному распределению, но и другие варианты. То есть мы говорим, что переменная отклик она подчиняется какому-то распределению семейства экспоненциальных и у этого распределения есть его собственные параметры (набор параметров). Вы знаете он зависит от того, что это было за распределение. Мы его обозначим просто буквой "Θ". Это будут все те параметры, соответственно, в "Θ" для нормального распределения войдут "μ" и "σ" в "Θ" для распределения Пуассона войдет только "μ". Раз "у" это случайная величина, то у нее есть математическое ожидание. Что это за математическое ожидание? Будет зависеть от того, какое мы использовали распределение, ну в целом это будет "μ". Математическое ожидание непосредственно мы не можем моделировать при помощи линейной связи. Во всяком случае не всегда можем. Мы должны линеаризовать зависимость при помощи функции связи. Она будет трансформировать значение математического ожидания, превращать их в линейный предиктор, который мы будем моделировать, как линейную комбинацию независимых переменных, которые мы используем в модели. И, собственно, вот это вот фиксированная часть. Смотрите! Фиксированная часть она осталась абсолютно той же самой. Случайная часть она немножечко изменилась, она теперь включает не только нормальное распределение, но и другие распределения. И у нас появился мостик, функция связи, которая нам помогает пройти в одну сторону, от математического ожидания до линейного предиктора, но когда мы из такой модели получаем предсказания, мы получаем их, как раз из этой фиксированной части. И эти предсказания они будут в масштабе заданном функцией связи, для того чтобы нам перейти обратно к той величине, которая нас интересует в зависимой переменной отклику, нам нужно будет проделать обратный путь и этот обратный путь, можно проделать при помощи функции, обратной функции связи. В зависимости от того, какое мы выбрали распределение отклика для моделирования зависимой переменной, функция связи может выглядеть по-разному. Давайте разберемся, как она выглядит в самых распространенных случаях обобщённых линейных моделей и начнем с простого? Самый простой случай когда мы предполагаем, что переменный отклик подчиняется нормальному распределению со своими параметрами, с параметрами "μ" и "σ". Математическое ожидание такой величины, тоже будет "μ". И вы знаете, что мы можем эту величину (математическое ожидание) моделировать в виде линейной зависимости. Вы это знаете еще по общим линейным моделям. То есть по идеи функция связи нам здесь не нужна. Но, раз уж мы перешли в новое так сказать "framework" анализа нам нужно найти для нее место. Эта функция связи будет называться - идентичность. Она просто берет математическое ожидание отклика и передает его в линейный предиктор ничего с ним не делая. Соответственно, чтобы проделать обратный путь от предсказаний фиксированной части модели к исходным величинам, нам нужно применить обратную функцию связи, которая тоже ничего не будет делать это тоже идентичность (очень удобно). Теперь давайте рассмотрим другой случай. Допустим мы моделируем какую-то счетную величину, и эта величина "у" подчиняется распределению Пуассона с параметром "μ". Математическое ожидание такой величины тоже будет "μ", но мы не можем счет моделировать при помощи обычной линейной регрессии. Нам нужно что-то с ним сделать, потому что счет на самом деле это строго положительное значение, иногда нули, но они не бывают отрицательными. Нам нужно их как-то преобразовать, чтобы они стали более или менее непрерывны, например, их можно логарифмировать. Мы логарифмируем математическое ожидание это функция связи логарифма и вот это вот логарифмированное значение мы можем уже моделировать при помощи линейной регрессии. То есть фиксированная часть модели, будет работать с логарифмами, но и у этого есть обратная сторона. Предсказания нашей модели они тоже будут в масштабе функций связи, в масштабе логарифмов. Это совсем не то, что мы изучали, что мы моделировали в самом начале. Мы же работаем со счетом, чтобы вернуться, обратно от логарифмов к счетным величинам, нам нужно будет применить обратную функцию связи. То есть нам нужно будет использовать число "e" возвести его в степень того, что предсказывает линейный предиктор в степень "ƞ". И наконец, давайте представим себе такую ситуацию когда, то, что мы моделируем переменный отклик она подчиняется биномиальному распределению. Это какая-то дискретная бинарная величина. Допустим, мы моделируем долю пациентов, которым помогло лечение. Эта величина будет подчиняться биномиальному распределению, помогло или не помогло лечение и у этой величины будет математическое ожидание Пай. Мы не можем такие величины (то есть, вероятности и доли), мы не можем их моделировать при помощи нормального распределения, потому что они совсем по другому устроены. Они не могут принимать значения меньше 0 или больше 1. Они варьируют строго в ограниченных пределах. Поэтому их нужно трансформировать и мы применяем функцию связи "logit" ("logit" трансформацию). Мы берем вероятность положительного исхода, делим ее на вероятность отрицательного исхода и все это помещаем под знак натурального логарифма. У нас получается трансформируемая величина "ƞ". И вот ее логиты мы можем моделировать в виде простой линейной регрессии. Соответственно, предсказанное значение для этой модели мы будем получать тоже в масштабе функции связи, мы будем получать логиты. А интересует нас на самом деле вероятности, то с чего мы начали. Чтобы вернуться от логитов к вероятностям нам понадобится применить обратную функцию связи, то есть вот эта вот экспоненциальная функция где наверху в числителе стоит число "e" в степени линейного предиктора, а в знаменателе 1 плюс число "e" в степени линейного предиктора. Она нам позволит обратить, то, что ранее функция связи "logit" сделала с нашими математическими ожиданиями и мы снова получим вероятности. Вот так устроены обобщённые линейные модели в общем виде. Чтобы найти параметры обобщенных линейных моделей, нам нужно пользоваться методом максимального правдоподобия. Мы уже не сможем использовать метод наименьших квадратов, как таковую, с которым вы может быть хорошо знакомы. Нам придется работать с правдоподобиями и учитывать разную форму распределения переменных, которые мы моделируем. Собственно, правдоподобия это способ измерить, то насколько те данные, которые у нас есть, соответствуют тому, что можно получить из этой модели (искусственной), которую мы построили для данных. Если они соответствуют, то правдоподобие будет большим. Собственно, правдоподобие это произведение вероятностей получение каждой из точек данных. Функция правдоподобия обозначается заглавной буквой "L" в скобках там написано параметры "Θ" при условии, зафиксированные данные. И функция правдоподобия это произведение вероятностей, вот этот знак обозначает, что мы посчитали при помощи функции распределения, которую мы используем в данной обобщённой линейной модели, вероятность получения данных при определенных значениях параметров "Θ". И перемножили эти вероятности. Чтобы найти параметры обобщенной линейной модели нам нужно найти такое сочетание параметров "Θ", которое будет максимизировать правдоподобие модели. То есть нам нужно найти максимум функции правдоподобия. Функция правдоподобия - это произведение вероятностей. Вероятности все ограничены и изменяются в пределах, от 0 до 1. Соответственно, то, что мы получаем в результате это тоже величина, которая меняется от 0 до 1. Это очень маленькая величина и из-за специфики хранения данных в компьютере с ними, с этими правдоподобиями непосредственно работать не очень удобно. Зато, если мы логарифмируем правдоподобия, то мы получим уже величину, которая меняется совсем в других пределах, в более широких пределах от 0 до минус бесконечности. И эти логарифмы правдоподобий уже можно будет максимизировать. К сожалению эти параметры, которые максимизируют правдоподобия или максимизируют логарифм правдоподобия их нечасто можно найти аналитически. То есть только для каких-то частных случаев, как для нормального распределения. Поэтому, чаще всего для их подбора используются методы численной оптимизации. В следующем видео мы с вами познакомимся с тем, как устроена функция правдоподобия для обобщённой линейной модели с нормальным распределением отклика. Вы хотя бы сможете посмотреть на то, как это устроено и мы с вами попытаемся разобраться. Где конкретно нам скрыты параметры линейной регрессии? Как все это выглядит?