В этом уроке мы будем с вами заниматься методами, позволяющими проанализировать взаимосвязь между одним признаком и большим количеством других. Давайте рассмотрим следующий пример. Пусть нас интересует: влияет ли употребление алкоголя на успеваемость школьников? Лучший способ это понять — провести эксперимент. Возьмем случайную выборку школьников. Каждому из них назначим случайную еженедельную дозу алкоголя. По окончании учебного года измерим корреляцию между назначенной дозой и успеваемостью школьников. Наш эксперимент идеален, поскольку доза назначается случайно, наша выборка автоматически балансируется по всем возможным типам школьников, которые только могут быть. Еще лучше этот эксперимент был бы только, если школьники бы сами не знали какое количество алкоголя они принимают, но это достаточно сложно обеспечить. Еще один более существенный недостаток этого эксперимента заключается в том, что нам никогда не дадут его провести — это неэтично. Такие ситуации возникают достаточно часто. Мы никогда не сможем исследовать взаимосвязь между уровнем насилия в видеоиграх и агрессивностью детей в жизни, поскольку мы не можем заставить детей играть в видеоигры с высоким уровнем насилия какое-то продолжительное количество времени, если они сами этого не хотят. Иногда проведение эксперимента не только неэтично, а попросту невозможно. Например, если вы хотите понять, как влияет средняя дневная температура на вероятность возникновения лесного пожара, у вас нет никакого способа провести эксперимент, потому что средней дневной температурой в лесу вы управлять никак не можете. Единственное, что остается в таких условиях, когда нельзя провести эксперимент, — это использовать обзервационные данные. То есть данные, которые собраны каким-то образом просто путем наблюдения за выборкой. В задаче исследования успеваемости школьников мы можем, например, взять данные по 633 ученикам старших классов двух португальских школ, для которых известно большое количество разных демографических показателей и показателей успеваемости. В частности, среди всех показателей есть уровень потребления алкоголя по выходным и финальная оценка по португальскому языку. Если мы посмотрим только на эти две оценки, мы увидим вот что. Здесь на горизонтальной оси отложено потребление алкоголя, от 1 до 5 (увеличение), а по вертикальной оси — средняя оценка, опять же, естественно, чем больше она, тем лучше. Мы видим, что эти две величины друг с другом отрицательно коррелированы. Эта корреляция значима. Значит ли это, что потребление алкоголя влияет на успеваемость старшеклассников? Значит ли это, что чем больше алкоголя они потребляют, тем хуже они учатся? Чтобы точнее ответить на этот вопрос мы можем использовать еще 29 признаков, которые у наших школьниках описаны. Эти признаки потенциально влияют на успеваемость гораздо сильнее, чем употребление алкоголя. Например, возраст учеников или доход их родителей... Это вещи, которые определяют успеваемость гораздо более явно. Если мы учтем влияние этих признаков, останется ли у потребления алкоголя предсказательная сила? Можно ли утверждать, что потребление алкоголя вызывает снижение оценки по португальскому языку? То есть можно ли утверждать, что между этими двумя признаками есть причинно-следственная связь? Оказывается на такие вопросы можно отвечать с помощью линейной регрессии. Задача линейной регрессии: у нас есть n объектов, на которых измерены значения k признаков x и, кроме того, на них известно значение отклика y. Мы ищем какой-то вектор константы β такой, что y примерно приближается линейной комбинации x с весами β. Когда мы строим регрессию, мы строим наилучшее линейное по x приближение условного математического ожидания y при таких x. В линейной регрессии коэффициент βj показывает, насколько в среднем увеличивается отклик y, если xj увеличивается на 1, а все остальные x зафиксированы. Таким образом, используя регрессию, мы можем изолировать эффект интересующей нас переменной и посмотреть на него отдельно. Иногда этот эффект можно даже интерпретировать как причинно-следственную связь, при выполнении некоторых особенных условий. Строить обычную линейную регрессию очень просто. Мы все это очень хорошо умеем. Однако если мы хотим по построенной модели делать какие-то выводы с использованием статистических методов, необходимо приложить дополнительные усилия. Именно этому и будет посвящен этот урок.