В этом видео мы поговорим про соответствие между корреляциями и причинно-следственными связями. Спойлер: оно не взаимно однозначное. Давайте проанализируем корреляцию между такими двумя признаками: один из них — это суммарные продажи мороженого за день, а второй — это количество людей, которое в этот день утонуло на всех пляжах города. Корреляция между этими двумя признаками положительная, она равна 0,30. Достигаемый уровень значимости критерия Стьюдента — 0,0009. 95 % доверительный интервал для корреляции Пирсона от 0,138 до 0,491. Значит ли это, что чем больше люди едят мороженого, тем чаще они тонут? Или может быть, это значит, что из-за того, что люди часто тонут, другие люди больше едят мороженого? На самом деле мы прекрасно понимаем, что это не так. Мы уже видели, что продажи мороженого очень неплохо коррелированы со среднедневной температурой. Если мы посмотрим на корреляцию между среднедневной температурой и вторым признаком (число утонувших людей), мы увидим, что она еще больше, это естестественно. Таким образом, в нашем примере значимость корреляции между продажами мороженого и числом утонувших людей объясняется воздействием третьего признака — это среднедневная температура. Мы совершенно уверены в том, что именно этот третий признак — это единственный из трех, который оказывает причинно-следственное влияние на оставшиеся два. Никаких других причинно-следственных связей между этими тремя признаками быть просто не может. В учебниках по статистике можно найти большое количество веселых примеров таких ложных корреляций, объясняющихся воздействием третьего скрытого признака. Например, количество самоубийств и радиоприемников на душу населения высоко положительно коррелировано, и объясняется это воздействием признака «размер города». Уровень углекислого газа в атмосфере планеты и распространенность ожирения также высоко положительно коррелированы, и объясняется это ростом со временем уровня жизни. Рыночная доля браузера Internet Explorer и количество убийств в США тоже положительно коррелированы, и объясняется это в первую очередь фактором времени: во времени снижается и тот, и другой показатель. Иногда корреляцию между парой признаков нельзя объяснить даже влиянием никакого третьего другого, а эта корреляция просто случайна. Если мы возьмем достаточное количество величин и будем искать среди них все возможные попарные корреляции, мы найдем очень много странного. Например, можно показать, что значима положительная корреляция между количеством людей, которые утонули при падении в бассейн, и количеством фильмов, в которых снялся за год Николас Кейдж. Корреляция Пирсона между этими двумя признаками равна 0,67. Достигаемый уровень значимости критерия Стьюдента — 0,02. 95 % доверительный интервал для корреляции Пирсона — от примерно 0,1 до примерно 0,9. Несмотря на то, что он довольно широкий, 0 он не содержит. Тем не менее, абсолютно очевидно, что связать эти два признака какой бы то ни было цепочкой причинно-следственных связей не представляется возможным. Этот эффект явно случайный, и то, что мы его нашли, — это следствие того, что мы очень хорошо искали. В следующем видео мы будем говорить о том, как с этим бороться. А главные выводы, которые вы должны вынести из этого видео, — это что из корреляции никогда не следует причинно-следственная связь, но из причинно-следственной связи часто следуют корреляции. Причинно-следственная связь оставляет в данных какие-то следы, которые можно обнаружить в том числе и корреляционными методами. Однако для этого есть другие специальные методы, связанные с построением графов причинности, и лучше использовать именно их.