[МУЗЫКА] [МУЗЫКА] Здравствуйте, меня зовут Марина Варфоломеева, я ассистент Санкт-Петербургского государственного университета. Вы знаете, что линейная регрессия — это довольно удобный способ описания зависимостей между величинами. Она описывает то, как некоторая переменная-отклик зависит от одного или нескольких переменных предикторов, и все это выглядит, как прямая линия, если предиктор всего один, или как какая-то многомерная фигура, гиперплоскость в многомерном пространстве, если предикторов много. В уравнении линейной модели есть две части. Одна часть — это часть, которая как раз описывает положение точек на вот этой прямой линии, но отдельные наблюдения никогда практически не лежат совершенно точно на этой линии, они отклоняются от нее на какое-то расстояние вверх и вниз, и эту величину, эти отклонения, их называют остатками. Остатки — мы считаем, что это случайная какая-то величина, нормально распределенная, со своей дисперсией, которая описывает разброс точек отдельных наблюдений вокруг линии регрессии. К сожалению, применимость общих линейных моделей ограничена как раз в силу того, что мы накладываем определенные ограничения на то, как распределены остатки. Потому что в уравнении модели одна часть жестко фиксированная, это та часть, которая показывает положение прямой линии, и единственным источником случайностей в значении переменной-отклика являются остатки. Соответственно, говоря о том, что остатки — это нормально распределенная величина, мы на самом деле имеем в виду, что эта переменная-отклик — нормально распределенная величина, математическое ожидание которой лежит на линии регрессии, и есть какой-то разброс значений этой самой зависимой переменной. Соответственно, линейную модель можно записать не в таком вот виде, к которому мы с вами привыкли на протяжении нескольких курсов, а в таком вот виде, где основной фокус делается на то, каким образом распределена зависимая переменная. В таком виде мы с этой линейной моделью будем работать в течение этого курса. Если мы предполагаем в простой линейной модели, что отклик подчиняется нормальному распределению, то это значит, что такую модель нельзя применить к таким данным, где зависимая переменная не подчиняется нормальному распределению. Нужно каким-то образом модифицировать модель, и такая модификация существует. Это называется обобщенные линейные модели. Обобщенные линейные модели позволяют моделировать зависимости не только для нормально распределенных величин, но и для величин, которые подчиняются другим распределениям из семейства экспоненциальных. Название этого метода очень похоже на то, с чем мы работали раньше, на общие линейные модели, и даже по-английски они созвучны: обобщенные линейные модели, которые учитывают разные распределения, называются generalized linear models, а то, с чем мы работали раньше и где переменная-отклик могла подчиняться только нормальному распределению, они называются general linear models. Так что даже аббревиатуры названий этих методов выглядят совершенно одинаково, поэтому будьте осторожны и помните, что как только речь заходит о такой модели, где моделируется величина, которая не подчиняется нормальному распределению, то скорее всего вы имеете дело именно с обобщенными — generalized linear models. Чтобы понять, как устроены обобщенные линейные модели, нам нужно будет для начала разобраться с тем, какие бывают распределения вероятностей в экспоненциальном семействе, чтобы у вас было представление о полном спектре величин, которые мы можем моделировать при помощи обобщенных линейных моделей. Затем нам понадобится сформулировать обобщенную линейную модель в общем виде, чтобы у вас был какой-то шаблон, с которым вы можете сравнивать на первый взгляд не похожие, очень не похожие друг на друга модели для величин, которые подчиняются очень разным распределениям. То есть вы сможете вычленять общие части, если у вас будет вот такая общая формулировка обобщенной линейной модели. Затем, и это будет в этом модуле и в следующем модуле, мы разберемся с основным инструментарием работы с этими моделями. Мы разберем методы подбора, поймем, как можно диагностировать, валидна модель или не валидна, и поговорим о сравнении моделей. Мы это будем делать на таких моделях, которые вам на самом деле уже довольно хорошо знакомы. Мы будем разбирать только модели с нормальным распределением отклика, так что вы сможете всегда немного оглянуться назад и установить параллели с простой линейной регрессией и понять, чем отличается простая линейная регрессия от обобщенных линейных моделей. И после этого мы будем уже достаточно хорошо вооружены, чтобы разбираться с обобщенными линейными моделями с другими распределениями.