Итак, если зависимость для обоих групп выглядит одинаково, как вот в этом случае или у нас наблюдаются очень близкие линии регрессии, которые практически не расходятся, то в такой ситуации мы можем пользоваться общей линейной регрессией и не учитывать группу. И вот влияние дискретного фактора в такой ситуации не наблюдается и вообще то мы можем смело исключить его из модели. Естественно, для этого мы должны провести сравнение полной модели включающей данный фактор в средуцированную вложенной моделью, в которой этого предиктора нет. В случае же значимого влияния дискретного фактора его исключить уже нельзя. Если же взаимодействия нет, то есть линия регрессии параллельная как в данном случае, то запись общего уравнения модели должна включать переменную индикатор, который мы с вами уже обсуждали в прошлый раз и связанные с ней прочные коэффициенты. Это общее уравнение модели можно разложить на составляющие построив уравнение для каждой из групп. Если за базовый уровень взята группа №1, то тогда для нее все наши переменные болванки, которые мы здесь включали/выключали должны равняться нулю. И в такой ситуации мы получаем уже известную нам модель в которой присутствуют только два коэффициента b0 и b1. Для второй группы, которая не является базовым уровнем, переменная болванка должна стать переменной индикатор стать равной единице. И в этой ситуации модель у нас приобретает немножко другой вид. У нас появляется поправочный коэффициент для интерсепта и соответственно его значение изменится. Что мы собственно и видим для этих двух групп в случае наших регрессионных прямых. Это будет одна прямая у которой интерсепт будет 1, это вторая прямая у которой будет интерсепт другой. В случае, когда взаимодействие присутствует, но различия между интерсептами у двух групп нет у нас появляется коэффициент связанный не только с переменной индикатором, но и с угловым коэффициентом. Для базового уровня, когда переменная болванка будет равна нулю уравнения будет иметь вот такой вид и мы видим, что здесь никаких изменений, никаких дополнений не произошло. Но, в случае со второй градацией фактора не являющееся базовым уровнем переменный индикатор становятся равный единице и в уравнение входит коэффициент b2, который соответственно уже не будет равен нулю из-за того, что здесь появилась переменная индикатор и в такой ситуации мы получаем уравнение в который поправочный коэффициент влияет на угловой коэффициент. Ну и наконец возможно последняя самая общая ситуация, если в двух группах существенно различаются как интерсепты так и свободные члены, то есть когда у нас прямые не параллельные и еще и не пересекаются одновременно в точке равны X равны нулю. В общем уравнении модели соответственно появляются два коэффициента связанные со своими переменными индикаторами. Вот они здесь и здесь. Для базового уровня, когда переменная болванка переменная индикатор равна нулю эти поправочные коэффициенты исчезают и мы вновь имеем обычное уравнение регрессии, которое будет соответствовать прямой проходящей через облако точек соответствующая базовому уровню. Но, если мы рассмотрим вторую градацию, второй уровень этого фактора, то тогда переменная индикатор у нас будет равна единице и у нас появляются две группы коэффициентов, которые изменяются. Изменяются как свободный член, так и угловой коэффициент. Таким образом, в случае с дискретными факторами и предиктором которые взаимодействуют друг с другом у нас появляются два дополнительных коэффициента, которые надо включать в модель. Что же делать, если у дискретного предиктора становится больше уровней. На самом деле, по большому счету ничего особенного не изменится. Для каждого уровня дискретного фактора кроме базового у нас появится свой поправочный коэффициент. Соответственно будет поправочный коэффициент для интерсепта связанный с соответствующей переменной индикатором. Вот они поправочные коэффициенты для интерсепта и будут свои поправочные коэффициенты для угловых коэффициентов и в такой ситуации при разложении этого общего уравнения на отдельные составляющие нам просто нужно будет принять во внимание ту группу, которую мы рассматриваем. Для базового уровня все эти кусочки становятся равными нулю и уравнение у нас приобретает обычный вид прямой линии. Если же у нас рассматривается группой несоответствующей с базовым уровню, то тогда появляется поправочные коэффициенты для b0 и b1 и тоже будут прямые только с другими параметрами, с измененными b0 и b1. После того как мы поняли как записываются уравнения регрессионных моделей включающих взаимодействие дискретного и непрерывного предиктора мы можем обратиться к философской сущности взаимодействия предикторов. В методологии науки есть очень важный принцип, который сформулировал Вильгельм Оккомский, который еще называют бритвой Оккома. По-русски это знаменитое высказывание, которое здесь написано по латыни звучит так: - не надо умножать сущности без необходимости. В случае регрессивных моделей мы должны помнить, что они как и любая модель являются интеллектуальным отражением реальности и стало быть добавление в модель взаимодействия предикторов это всегда усложнение модели. То есть, вводя в модель взаимодействия предикторов мы вводим дополнительную сущность, но так ли она нужна. Так как модель - это отражение реальности. То чем проще модель, тем легче понять взаимосвязь между явлениями. Присутствием в модели взаимодействия это усложняет модель. Мы должны помнить о том, что влияние одного из предикторов будет разным при разных значениях другого предиктора. Поэтому важный этап построения модели это ее адекватное упрощение и более простая модель она оказывается предпочтительней чем более сложная но, это возможно далеко не всегда. Иногда мир оказывается сложнее чем хочется и приступая к регрессионному анализу реальных наблюдений мы не знаем существует ли взаимодействие между предикторами. Только проведя анализ мы сможем сказать можем ли мы упростить модель и избавиться от за воздействия или это приведет к огрублению модели, которая перестанет адекватно описывать мир. Поэтому мы не всегда можем себе позволить упростить модель отбросив взаимодействия. Однако не надо впадать в другую крайность. Например, не стоит в модель вводить все возможные взаимодействия, если на то нет существенных причин. Дело в том, что за все придется платить, иногда в буквальном смысле деньгами, потому что для оценки статистической значимости коэффициентов в число которых как мы помним возрастает по мере усложнение модели нам понадобятся дополнительные данные, иногда эти данные стоят немалых денег и тогда добыча того, что нам необходимо для тестирования значимости коэффициентов стоит очень дорого. Поэтому модели в которых подразумевается наличие взаимодействия требуют больше данных, чем модели взаимодействия. И поэтому крайне важно твердо понимать так ли нам нужны в модели какие-то взаимодействий, если можно обойтись без них, то мы можем быть счастливы. Проблема заключается в том, что при исследовании многих систем такого простого решения не наблюдается. Так что нам придется немножко поработать, чтобы понять можно ли убрать взаимодействие или нет.