В общем
случае мы получаем,
что у нас k главных компонент, то есть главных компонент ровно столько же,
сколько исходных объясняющих переменных.
И каждая главная компонента выражена как линейная комбинация исходных регрессоров.
Первая главная компонента, у нее свои веса перед каждым регрессором.
Вторая главная компонента, у нее свои веса и так далее.
При этом главные компоненты обладают свойством, что выборочные корреляции между
двумя разными новыми переменными, главными компонентами, равна нулю.
И второе очень важное красивое свойство, что суммарная дисперсия,
суммарный разброс всех исходных регрессоров
равен суммарному разбросу всех главных компонент.
Это очень важное свойство.
Поскольку главные компоненты подбираются так, чтобы дисперсия выборочная
каждой главной компоненты на каждом шаге была максимально возможной при условии,
что они независимы друг от друга, то поэтому получается, зачастую,
что первая главная компонента, ее выборочная дисперсия,
вбирает в себя существенную часть суммарного разброса,
суммарной дисперсии всех исходных переменных, всех исходных иксов.
То есть оказывается, что можно заменить все k исходных переменных.
Ну, если повезет, то на одну или на две, ну, возможно, на большее число, но тем не
менее гораздо меньше, чем изначально было новых искусственных главных компонент.
То есть меньшее количество переменных несет в себе почти всю информацию,
которая содержится в исходном наборе данных.
То есть, скажем, первые две главных компоненты, первая главная компонента
№ 1 и № 2 могут вбирать в себя 90 % общей дисперсии 20-ти
или даже большего количества исходных объясняющих переменных.
Отметим, что знание линейной алгебры в данном случае позволяет
легко вывести общие формулы для каждой главной компоненты.
Оказывается, что квадрат длины главной компоненты — это
соответствующее собственное число матрицы X'Х,
а веса с которыми исходные объясняющие переменные входят в главную
компоненту — это есть собственный вектор матрицы X'X.
Что же дают нам главные компоненты?
Самое главное, что позволяют сделать главные компоненты,
это — визуализировать сложный набор данных.
Если у вас есть тысяча переменных, и вы не знаете, как,
какие графики можно построить.
Если у вас тысяча переменных, то хотя бы даже попарных графиков будет очень много,
то можно поступить следующим образом.
Выбрать несколько первых главных компонент, скажем,
две или три из тысячи, и построить графики ваших наблюдений в осях.
По одной оси отложить первую главную компоненту, по другой — вторую.
И, возможно, вы уже увидите что-то интересное в вашем наборе данных.
Вторая задача, неразрывно связанная с первой, это — то, что
метод главных компонент позволяет оставить наиболее информативные переменные.
Если у вас есть несколько переменных, одна из которых практически не меняется,
а вторая и третья меняются существенно, то метод главных компонент позволит
выбросить переменную, которая практически не меняется и практически не несет в себе
полезной информации, и оставить только информативные переменные,
которые сильнее всего дифференцируют ваши наблюдения.
В-третьих, метод главных компонент позволяет увидеть особенные наблюдения.
Если мы увидим, что у какого-то наблюдения
главная компонента принимает очень непохожее на другие наблюдения значение,
это будет говорить о том, что наблюдение сильно отличается от других.
И конечно,
метод главных компонент позволяет перейти к некоррелированным переменным.
А некоррелированные переменные означают, в частности, автоматически,
отсутствие какой-бы то ни было мультиколлинеарности.
На практике при использовании метода главных компонент,
можно столкнуться с некоторыми трудностями.
Первая трудность — это принципиально разные переменные,
которые измеряются в разных единицах измерения.
Ну скажем, одна переменная — это валютный курс, а вторая — это объем торгов.
В этой ситуации, поскольку они измеряются в разных единицах измерения,
то разброс одной переменной просто не сопоставим с разбросом другой переменной.
И вторая потенциальная трудность — это бездумное применение
метода главных компонент при отборе переменных для построения регрессии.
Из-за того, что метод главных компонент выбирает самую изменчивую переменную
или несколько самых изменчивых, он не дает никакой гарантии,
что будет выбрана переменная сильнее всего связанная с объясняемой переменной.
И тут надо быть осторожным, надо понимать, что, действительно,
то что меняется сильнее всего в данных, это то,
что сильнее всего объясняет зависимую переменную.
Соответственно, проблема разных единиц измерения у переменных решается
довольно легко.
Хотя мы понимаем, что простое применение метода главных компонент в
лоб приведет к тому, что будет выбрана самая изменчивая переменная,
не факт что сама информативная.
Возможно, наоборот, самая шумная.
Однако, легко скорректировать переменные так,
чтобы метод главных компонент был по-прежнему применим.
А именно можно нормировать каждую переменную,
то есть из каждой рассматриваемой переменной вычесть ее среднее
арифмитическое и поделить на стандартную ошибку данной переменной.
Соответственно, при такой нормировке у нас окажется, что выборочная дисперсия
всех новых переменных одинакова, и к новым нормированным переменным
уже можно спокойно применять метод главных компонент.
И вторая трудность,
это — вопрос применения метода главных компонент в сочетании
с последующей регрессией зависимой переменной на главные компоненты.
Обычно процедура устроена следующим образом.
Из большого количество сильно коррелированных переменных с
помощью метода главных компонент отбирают несколько главных компонент, скажем, две.
И дальше строят регрессии не на исходные переменные,
а на главные компоненты.
Соответственно, тут возникают некоторые проблемы с интерпретацией,
потому что главные компоненты, они не несут прямого смысла.
Можно попытаться выглядеть смысл в главных компонентах, но тем не менее четкого,
ясного однозначного смысла каждая главная компонента не несет.
И, опять же, надо быть очень уверенным в том, что изменчивость
переменных объясняющих связана с изменчивостью объясняемой переменной.
Итак, в этой лекции мы рассмотрели метод главных компонент и мультиколлинеарность.
Отметим, что метод главных компонент, прежде всего,
полезен сам по себе, он позволяет снизить размерность имеющегося набора данных,
и от большого числа переменных, которые трудно интерпретировать, перейти к
меньшему числу переменных, которые, если повезет, легко интерпретировать.
Ну и, в частности, он может использоваться при борьбе с мультиколлинеарностью.
Еще раз подведем итог — что такое мультиколлинеарность.
Мультиколлинеарность — это зависимость, идеальная или не совсем идеальная,
между объясняющими переменными, которые приводят прежде всего к тому,
что у нас очень высокие стандартные ошибки коэффициентов.
Стандартные ошибки высокие приводят к тому,
что у нас широкие доверительные интервалы для коэффициентов, и, соответственно,
мы не можем отвергнуть гипотезу о том, что коэффициент равен нулю, то есть не можем
понять — есть ли зависимость на самом деле от объясняющей переменной данной или нет.
И, соответственно, в качестве способов борьбы с мультиколлинеарностью,
мы предложили либо в жертву принести несмещенность оценок
и отказаться от включения нескольких переменных в рассматриваемую модель,
либо использовать метод наименьших квадратов со штрафом,
в частности алгоритм ридж- регрессии или алгоритм LASSO.
В следующих лекциях мы поговорим о более серьезных проблемах,
о более серьезных нарушениях предпосылки теоремы Гаусса-Маркова.
А именно о гетероскедастичности и об автокорреляции.