В этом модуле мы познакомились с простейшими способами описания связи между переменными. Когда мы говорим "связь между переменными", то это не значит, что эта связь причинно-следственная, чтобы установить такие отношения, что является причиной, что является следствием. Вам нужно как правило привлечь какие-то дополнительные данные, а возможно даже провести эксперимент, а просто описать связь мы можем при помощи коэффициента корреляции, это самый простой способ. О силе связи мы можем судить по значению коэффициента корреляции, оно может меняться от единицы до минус единицы, а по знаку коэффициента корреляции мы можем судить о направлении связи. Значимость коэффициента корреляции проверяется при помощи этой критерии и нулевая гипотеза там отсутствие связи, соответственно, мы проверяем равно ли значение коэффициента корреляции нулю, в той выборке, которую мы наблюдаем. Если вы хотите получить описание функциональной независимости вам нужно использовать другой метод, это регрессионный анализ. В регрессионном анализе мы используем метод наименьших квадратов, чтобы описать зависимость между двумя величинами в виде линейного уравнения, и мы при помощи этого метода получаем оценки коэффициентов в уравнении. Но эти оценки могут быть не точны, это может быть связано с выборочным характером наших данных, мы работаем с выборкой, а выборки не отражают генеральную совокупность на сто процентов, они всего лишь насколько-то подобно тому, что там происходит. И из-за неопределенности оценок коэффициентов возникает неопределенность, того где на самом деле лежит линия регрессии относительно той выборки, которую мы получили. Точно так же, возникает неопределенность другого сорта, где на самом деле могут находиться истинное значение в других выборках, это неопределенность групповых предсказаний. И то и другое можно описать при помощи соответствующей доверительной зоны. На самом деле уравнение регрессии можно использовать для предсказаний, но лучше придерживаться правила и предсказывать в диапазоне интерполяции, не пытайтесь экстраполировать те предсказания, которые дает ваша линейная регрессия за пределы ее зоны определения. На самом деле подбор коэффициентов линейной регрессии, это еще не последний этап работы. Это на самом деле только начало, потому что мы еще не знаем ответов на несколько вопросов. Мы не знаем значимо ли эта зависимость, насколько хорошо она может описывать данные, потому что может быть уравнение мы можем построить всегда, но насколько это уравнение действительно отражает то, что происходит в генеральной совокупности мы можем быть уверены не всегда. Более того, если мы тестируем значимость, как всей линии регрессии целиком, так и отдельных ее коэффициентов. Мы используем статистические тесты которые основаны на каких-то предположениях и эти предположения не всегда выполняются на наших реальных данных. Это называется, условие применимости, и о проверке условий применимости, мы поговорим дальше.