Перейдём к оценке моделей методом наименьших квадратов. Оценим model_0, это будет совсем простая модель, мы будем оценивать ее по, соответственно, данным по стоимости квартир в Москве, и здесь мы предположим, что логарифм цены квартиры зависит только от логарифма общей площади. Это будет модель 1. В модель 2... Вернее, это будет model_0, а model_1 — это будет линейная модель, данные мы возьмём из того же набора данных f, и здесь логарифм цены квартиры будет объясняться уже двумя объясняющими переменными, двумя регрессорами: логарифмом общей площади квартиры, а также переменной, которая отвечает за кирпичность. Это будет первая модель. И у нас ещё будет вторая модель. Давайте её опишем. Это будет модель, она будет тоже оцениваться на основе набора данных f; зависимая переменная так же будет логарифм цены квартиры; объясняющей будет логарифм общей площади; также объяснять будет кирпичность — тоже регрессор, который равен единичке, если кирпичный дом, ноль — если не кирпичный; и плюс ещё будет одна переменная, которую мы запишем таким особым синтаксисом: brick: log(totsp). Соответственно, оцениваем модель и сейчас скажем, что она означает. Это модель, в которую вошли три объясняющих переменных: логарифм общей площади квартиры, переменная, которая равна единичке или нулю в зависимости от того, кирпичный дом или нет, и переменная, которая равна произведению кирпичности дома помножить на логарифм общей площади, то есть эта переменная — она равна нулю, ну когда умножаем ноль на неважно какое число, мы получаем ноль, поэтому эта переменная равна нулю для некирпичных домов, и эта переменная равна логарифму общей площади для кирпичных домов. То есть можно посмотреть описание каждой модели. Ну, например, мы можем набрать классическое summary(model_0). И здесь у нас видно, что все коэффициенты значимы, везде p-value меньше 5 %. Можно посмотреть более красивый отчёт с помощью функции mtable, скажем, model_2. Вот и здесь у нас данные представлены немножко в другом виде, но то же самое — табличка. Коэффициент, в скобках стандартная ошибка. И видно здесь: коэффициент при, свободный член значим, коэффициент при логарифме общей площади значим, коэффициент при переменной brick не значим и коэффициент при новой искусственной переменной тоже значим. Почему вот здесь я не написал умножить? Это очень хороший вопрос. Оказывается, у R значки «+», «*» и «:» внутри формулы, они имеют свой особый смысл, а именно, например, значок «*» означает следующее. Давайте я оценю model_2b. Я оценю её по тому же набору данных. Опять же логарифм цены будет зависеть, — а здесь я напишу brick помножить на логарифм общей площади. Вот это «*» — это не умножение в буквальном алгебраическом смысле, это умножение в таком формульном смысле, это означает, что надо взять все переменные, которые проще, чем brick, помноженный на логарифм общей площади. То есть если вот так написать, то компьютер автоматом включит сразу три переменных: он включит переменную brick, которая равна единичке или нулю в зависимости от типа дома, переменную log(totsp), которая равна логарифму общей площади, и переменную, которая равна их произведению. То есть на самом деле вот эта model_2b, она полностью эквивалентна model_2, просто более компактная запись. То есть в R, когда мы пишем формулы, то значок умножения означает все коэффициенты, которые, у которых степени ниже, чем brick помножить на log(totsp), то есть все коэффициенты проще этого. Соответственно, можно, например, посмотреть в одной табличке на model_2 и model_2b и увидеть, что это абсолютно одна и та же модель, но просто немножко по-разному названы коэффициенты, и поэтому функция mtable так сразу автоматом не распознаёт, что на самом деле вот этот коэффициент и вот этот — это одно и то же. А так по-хорошему — одна и та же модель. Тут раз, два, три, четыре коэффициента оценивается, и тут раз, два, три, четыре коэффициента оценивается. Точно так же мы можем визуализировать результаты какой-нибудь одной из моделей. Например, sjp.lm. И посмотрим на model_2, визуальное представление коэффициентов. Вот здесь по графику мы видим, что все коэффициенты, кроме коэффициента при brick, значимы. То есть этот коэффициент значимый, у него доверительный интервал не пересекает ноль. Этот коэффициент значим, но так на границе уже значимости, ноль чуть-чуть не пересекает. И последний коэффициент при brick хотя и не значим, но тоже на границе значимости, краешком доверительного интервала пересекает ноль. То есть, в принципе, все коэффициенты можно считать, поскольку есть теоретические основания считать, что стоимость квартиры зависит от кирпичности дома, от общей площади, то поэтому есть основания считать, что этот коэффициент не равен нулю. И, соответственно, давайте посмотрим и руками выпишем, что означает каждая модель в плане уравнений для каждой из частей выборки, для кирпичных домов и для не кирпичных домов. Проинтерпретируем результаты, которые нам выдал R. У нас есть три модели. Модель 0, что говорит модель 0? Уравнение выглядит следующим образом, что логарифм цены квартиры равен минус 0.77 плюс 1.3 умножить на логарифм общей площади квартиры. Соответственно, эта модель, она не отличает кирпичный и не кирпичные дома. У нас одна и та же модель для домов обоих типов. Модель 1. Её оценённое уравнение выглядит как логарифм цены квартиры i-тый равняется минус 0.65 плюс 1.26 умножить на логарифм общей площади плюс 0.13 умножить на дамми-переменную brick, которая равна единичке для кирпичных домов и ноль иначе. Соответственно, модель1 — она выдаёт нам разные зависимости для кирпичных домов и для не кирпичных, а именно: хотя это уравнение одно оценивается по всему набору данных, но на самом деле оно означает, что для кирпичных домов и для не кирпичных модель разная. Для кирпичных модель 1 говорит, что логарифм цены квартиры равен... Для кирпичных домов переменная brick равна единичке, поэтому вместо brick можно подставить единичку, ну 0.13 сложится с минус 0,65 и получится минус 0.52, плюс 1.26 на логарифм общей площади. А для не кирпичных переменная brick равна нулю и, соответственно, логарифм цены квартиры равен минус 0.65 плюс 1.26 на логарифм общей площади. Соответственно, мы видим, что при одинаковой общей площади логарифм цены квартиры в кирпичном доме выше, потому что здесь минус 0.52, а здесь минус 0.65, — выше, чем логарифм цены в не кирпичном доме. Можно даже оценить численно во сколько, чему равна эта разница. Соответственно, если я перейду к цене квартиры, то цена, она равна экспоненте от логарифма цены и, соответственно, при возведении в степень, при экспоненцировании, при экспоненцировании у меня сложение превратится в умножение. И, следовательно, я буду получать, что. При прочих равных, отношение цены в кирпичном доме к цене в не кирпичном доме при одинаковом объеме жилой площади это равняется экспонента от 0.13. Ну, соответственно, это число больше единички. Что говорит модель 2? Модель 2. Она говорит, что логарифм цены квартиры определяется по следующей формуле: минус 0.46 плюс 1,22 помножить на логарифм общей площади квартиры минус 0.35 помножить на данную переменную, отвечающую за кирпичность и плюс 0,11 помножить на искусственную переменную, которая равна произведению индикатора кирпичности дома помножить на логарифм общей площади квартиры — это произведение. Соответственно, что эта модель, как, во что она превращается для кирпичных и для не кирпичных домов? Ну, соответственно, чтобы это выяснить, надо просто подставить вместо данной переменной brick единичку и нолик. Если я подставлю единичку, то у меня получится, что модель 2 для кирпичных домов прогнозирует их цену ну, точнее логарифм цены, следующим образом: минус 0.46 минус 35 соответственно, минус 0.81 здесь 1.22 да еще плюс 11, плюс 1.33 помножить на логарифм общей площади. А для не кирпичных домов, логарифм цены, мы просто вместо brick подставляем нолик, эти слагаемые исчезают и остается минус 0.46 плюс 1,22 помножить на логарифм общей площади. То есть в чем разница между моделью 0, моделью 1 и моделью 2? Модель 0 предполагает, что зависимость цены квартиры от общей площади одинакова для кирпичных и не кирпичных домов. Модель 1 предполагает, что влияние площади одинаково для кирпичных и не кирпичных домов, но при одной и той же общей площади, разная стоимость ожидаемая в домах кирпичных и не кирпичных. А модель 2, она еще более общая. Она предполагает, что в кирпичных и не кирпичных домах отличаются не только свободные коэффициенты, отвечающие за логарифмы цены, но также и воздействие площади, оно в кирпичных и не кирпичных домах разное, вот здесь мы видим, что при росте площади квартиры на 1 %, цена в кирпичном доме растет на 1.33 %, в том время, как при росте площади на 1 % в не кирпичном доме, цена квартиры в не кирпичном доме растет слабее — на 1.22 %. А в модели 0 предполагалось, что вообще нет никакой разницы между кирпичными и не кирпичными домами. А в модели 1 предполагалось, что эффект роста общей площади одинаковый, но тем не менее при одинаковой общей площади есть, тем не менее разница. Вот она разница между моделью 0, моделью 1 и моделью 2.