Что такое PCA?

Предположим, вам необходимо предвидеть, каким будет совокупный национальный объем производства (Валовой внутренний продукт) США в 2017 году. У вас есть масса доступных данных: Валовой внутренний продукт США за основной квартал 2017 года, Валовой внутренний продукт США за весь 2016, 2015 год и т.д. У вас есть любой открытый доступный денежный указатель, аналогичный показателю уровня безработицы, темпов роста и т.д. У вас есть регистрационная информация по США за 2010 г. с оценкой того, сколько американцев работает в каждой отрасли, а также информация American People Group Review, освежающая эти оценки в середине каждой статистики. Вы знаете, какое количество людей из Палаты представителей и Сената имеет место в каждой идеологической группе. Вы можете накапливать информацию о стоимости акций, количестве первичных публичных предложений, проводимых в течение года, и о том, какое количество вождей, по-видимому, выдвигает предложение об открытии своего офиса. Несмотря на ошеломляющее количество факторов, которые следует учитывать, эта ярмарка начинает раскрывать то, что находится под ней.

Вы можете задать вопрос: “Как бы я воспринял все собранные мною факторы и сосредоточился бы только на паре из них?”. Если говорить специализированно, вам нужно “уменьшить компонент пространства ваших элементов”. Уменьшая элемент пространства элементов, Вы имеете меньше связей между факторами, которые необходимо учитывать, и Вы более не склонны к тому, чтобы перекрывать Вашу модель. (Обратите внимание: это не означает, что переподстановка и так далее никогда больше не повторится – однако, мы движемся правильным путем!).

В некоторой степени очевидно, что уменьшение элемента компонентного пространства классифицируется как “уменьшение размерности”. Существует множество подходов к снижению размерности, однако большую часть этих процедур можно отнести к одному из двух классов:

Уничтожение размеров

Извлечение светильников

Избавление от яркости – это то, что кажется: мы уменьшаем пространство компонентов, избавляясь от яркости. В приведенной выше модели Валового внутреннего продукта вместо того, чтобы думать о каждом факторе, мы можем опустить все факторы, за исключением трех, которые, как нам кажется, будут лучше всего предвидеть, как будет выглядеть американский совокупный национальный выпуск. Интересно отметить, что конечные приемы включают в себя безукоризненность и сохранение интерпретируемости ваших факторов.

Однако, как услуга, вы не получите никаких данных из тех переменных, которые вы уронили. В случае, если мы просто используем Валовой внутренний продукт год назад, степень населения в сборе профессий в соответствии с последними цифрами исследования американской группы людей, и уровень безработицы, чтобы предсказать Валовой внутренний продукт текущего года, мы упускаем все, что упавшие факторы могли бы добавить в нашу модель. Отбросив основные моменты, мы дополнительно полностью убрали все преимущества, которые могли бы дать эти снижающиеся факторы.

Извлечение основных моментов, как бы то ни было, не вторгается в этот вопрос. Предположим, что у нас есть десять автономных факторов. Включая извлечение, мы делаем десять “новых” автономных факторов, где каждый “новый” свободный фактор является смесью каждого из десяти “старых” автономных факторов. В любом случае, мы делаем эти новые свободные переменные с определенной целью и запрашиваем эти новые факторы, исходя из того, насколько хорошо они предвидят нашу зависимую переменную.

Вы можете сказать: “Где снижение размерности становится неотъемлемым фактором?”. Ну, мы сохраняем то же количество новых свободных переменных, которое нам нужно, однако, мы опускаем “наименее значимые”. Поскольку мы запросили новые переменные по тому, насколько хорошо они предвидят нашу нуждающуюся переменную, мы понимаем, какая переменная является наиболее значимой и наименее значимой. Как бы то ни было, – и вот кикер – на том основании, что эти новые бесплатные факторы являются смесями наших старых, независимо от того, сохраняем ли мы самые значительные куски наших старых факторов, в любом случае, когда мы бросаем хотя бы одну из этих “новых” переменных!

Исследование сегмента головы – это метод включения добычи – поэтому он объединяет наши информационные факторы с определенной целью, в этот момент мы можем опустить “наименее значимые” факторы, сохранив при этом самые важные куски всей совокупности факторов! Дополнительным преимуществом является то, что каждый из “новых” факторов после РСА в целом свободен друг от друга. Это преимущество в свете того, что презумпции прямой модели требуют, чтобы наши автономные факторы были свободны друг от друга. На случай, если мы решим подогнать прямую модель рецидива под эти “новые” переменные (см. ниже “рецидив головной части”), это предположение по существу будет выполнено.

Когда мне будет целесообразно использовать PCA?

Хотели бы Вы уменьшить количество факторов, однако, не готовы признать факторы, чтобы полностью исключить их из мышления?

Хотите ли вы гарантировать, что ваши факторы свободны друг от друга?

Правда ли, что вы готовы сделать свои свободные факторы менее интерпретируемыми?

В том случае, если вы ответили “да” на каждый из трех запросов, то на тот момент PCA является достойной стратегией для использования. В случае, если Вы ответили “нет” на третий вопрос, Вы не должны использовать PCA.

Как работает PCA?

В следующем сегменте рассматриваются причины, по которым работает PCA, однако для настройки может оказаться полезным дать краткий обзор, прежде чем приступать к расчету:

Мы разработаем рамки, в которых будет показано, как все наши факторы отождествляются друг с другом.

На этом этапе мы разделим эту решетку на два отдельных сегмента: заголовок и величие. Затем мы сможем понять “заголовки” нашей информации и ее “объем” (или то, насколько “значительным” является каждый курс). На снимке экрана, сделанном внизу, из апплета setosa.io, показаны два основных направления этой информации: “красный курс” и “зеленый заголовок”. Для этой ситуации “красный курс” является более значимым. Однако, мы разберемся, почему это так, позже, учитывая, как организованы пятна, вы сможете понять, почему “красный курс” выглядит более значимым, чем “зеленый курс” (указание: На что может быть похожа линия, наиболее подходящая для этой информации?).

https://miro.medium.com/max/374/1*P8_C9uk3ewpRDtevf9wVxg.png

Мы изменим нашу уникальную информацию, чтобы соответствовать этим значимым рубрикам (которые представляют собой смесь наших уникальных факторов). Захват экрана под (опять же из setosa.io) – это неотличимая сверху точная информация, но измененная с целью, чтобы x- и y-томагавки в настоящее время были “красным курсом” и “зеленым заголовком”. Как может выглядеть линия, наиболее подходящая для этой цели?

https://miro.medium.com/max/373/1*wsezmnzg-0N_RP3meYNXlQ.png

В то время как визуальная модель здесь двумерная (и по этим линиям у нас есть два “заголовка”), рассмотрим ситуацию, когда наша информация имеет больше измерений. Определив, какие “подшипники” обычно являются “значимыми”, мы можем упаковать или расширить нашу информацию в небольшое пространство, опустив “заголовки”, которые являются “наименее значимыми”. Предвосхищая нашу информацию в небольшом пространстве, мы уменьшаем размерность нашего компонентного пространства… но так как мы изменили нашу информацию этими различными “способами”, мы сделали вывод о том, что каждая уникальная переменная в нашей модели должна быть сохранена!