Теперь перейдем к очень ценному методу главных компонентов. Он может пригодиться в разных задачах: и когда у вас много-много-много переменных, а вы хотите хоть как-то представить себе ваш набор данных, и визуализировать его, или сохранить максимум информации о ваших данных в минимальном количестве переменных. Для всего этого вам пригодится метод главных компонентов. Еще он может пригодиться и в борьбе с мультиколлинеарностью. Соответственно, в чем суть метода главных компонентов? Он позволяет уменьшить число переменных, выбрав самые изменчивые из них. А именно, по своей математической сути — это просто замена переменных, переход к новым переменным. Ну если рассмотреть совсем-совсем простой пример: было у вас две исходных переменных, давайте для простоты представим себе, что они центрированы, то есть у них среднее значение равно нулю. Итак, было у вас два исходных регрессора: x1 и x2. И метод главных компонент позволит из этих регрессоров, возможно сильно коррелированных между собой, получить две новых переменных, которые будут между собой некоррелированы и которые будут представлять собой взвешенные исходные переменные. Ну, например, так может оказаться, что первая главная компонента равна 1 делить на корень из двух помножить на первый регрессор плюс 1 делить на корень из двух помножить на второй регрессор. А вторая главная компонента, например, так может оказаться равна половине первого регрессора минус корень из трех на два второго регрессора. Вот эти веса они в методе главных компонентов всегда должны подчиняться следующему условию: сумма квадратов весов любой главной компоненты должна равняться единице. То есть в данном случае: один делить на корень из двух в квадрате — это половина плюс еще один делить на корень из двух — это половина, получается один. То есть сумма весов в каждой главной компоненте равна единичке. Итак, метод главных компонент создает нам новые переменные, исходя из старых. При этом, какова же цель создания этих новых переменных? А цель такая: надо выбрать максимально изменчивые переменные, забрать всю изменчивость. Поэтому, первая главная компонента pc1 имеет максимальную выборочную дисперсию, то есть алгоритм так подбирает веса, чтобы разброс первой главной компоненты был максимально возможным, ну, естественно, при ограничении, что сумма квадратов весов каждого входящего регрессора в первую главную компоненту равнялась бы единичке. Затем, когда у нас сформирована первая главная компонента, мы можем сформировать вторую главную компоненту. Вторая главная компонента ее веса алгоритм подбирает так, чтобы с одной стороны, эта вторая главная компонента была некоррелирована с первой главной компонентой, а с другой, чтобы эта вторая главная компонента имела тоже дисперсию выборочную побольше, максимальную из возможных. И так далее подбираются веса каждой последующей главной компоненты. Соответственно, веса третьей главной компоненты подбираются так, чтобы третья главная компонента, третья искусственная переменная была некоррелирована с первой главной компонентой, некоррелирована со второй главной компонентой и имела при этих двух условиях максимально возможную дисперсию. Давайте рассмотрим игрушечный пример для пояснения этой идеи. Рассмотрим результаты, скажем, по биологии и по математике различных людей. Вот у нас есть оценки по биологии и по математике. Если наша задача как можно сильней дифференцировать школьников, то есть отобрать предмет, который бы сильней всего их дифференцировал. Мы видим, что по биологии почти у всех стоит 4. Поэтому, для задачи дифференциации школьников биологию использовать в данном примере нехорошо. Гораздо удобней использовать математику, поскольку выше разброс оценок. И поэтому в данном игрушечном примере первой главной компонентой будет математика, а вторая главная компонента это будет биология. Сейчас мы на простом примере попробуем проиллюстрировать, что такое главная компонента, ну и заодно посчитать первую главную компоненту при небольшом количестве наблюдений. Итак, представим себе, что у нас есть две переменные: a1 и a2 и какие-то наблюдения. Соответственно, на плоскости можно представить наш набор наблюдений в виде облака точек. Есть координаты a₁, a₂ и некое облако точек. Для удобства мы центрируем наши переменные. То есть находим геометрический центр облака, и получаем новые переменные: x₂ и x₁. То есть x₁ = a₁ – a₁ среднее и x₂ = a₂ – a₂ среднее. Это одна из возможных замен переменных, и главная компонента — это всего лишь другая замена переменных. Главные компоненты вводят новые, точно так же перпендикулярные оси pc1 и pc2. Причем, первая главная компонента, она устроена таким образом, она проходит так, чтобы вдоль нее изменчивость показателей была максимальной. То есть в данном случае облако вытянуто в этом направлении, а в этом оно сжатое. Соответственно, первая главная компонента пройдет примерно вот так вот. Это будет первая главная компонента. А вторая главная компонента будет перпендикулярна первой. Соответственно, у каждой точки будут старые координаты. Если это точка A, то у нее есть старые координаты — a₁(A), есть a₂(A), и есть новые координаты — координаты в главных компонентах — pc1(A) и pc2(A). Ну а теперь давайте попробуем на простом численном примере найти эти самые новые координаты.