O que é PCA?

Suponha que você precisa prever qual será a produção nacional total (Produto Interno Bruto) dos EUA para 2017. Você tem pilhas de dados acessíveis: o Produto Interno Bruto dos EUA para o principal trimestre de 2017, o Produto Interno Bruto dos EUA para o total de 2016, 2015, etc. Você tem qualquer ponteiro monetário de acesso aberto, semelhante à taxa de desemprego, taxa de expansão, etc. Você tem informações cadastrais dos EUA de 2010 avaliando o número de americanos que trabalham em cada indústria e grupo American People Review informações atualizando essas avaliações no meio de cada estatística. Você sabe qual o número de indivíduos da Câmara e do Senado que tem um lugar em cada grupo ideológico. Você pode acumular informações sobre o valor das ações, a quantidade de ofertas públicas iniciais ocorrendo em um ano e o número de Chiefs que aparecem para montar uma oferta de escritório aberto. Apesar de ser um número assombroso de fatores a considerar, esta feira começa a expor o que está por baixo.

Você pode colocar a pergunta: “Como eu tomaria a totalidade dos fatores que eu reuni e centralizaria em torno de apenas um par deles”? Em termos especializados, você precisa “diminuir o componente do espaço do seu elemento”. Ao diminuir o elemento do seu espaço elementar, você tem menos conexões entre os fatores a considerar e você é mais avesso a sobreajustar o seu modelo. (Nota: Isto não implica rapidamente que o sobreajuste, e assim por diante, nunca mais são preocupações – no entanto, estamos seguindo o caminho correto!

Em certa medida, obviamente, a diminuição do elemento espaço componente é classificada como “diminuição da dimensionalidade”. Existem inúmeras abordagens para realizar a diminuição da dimensionalidade, porém uma grande parte desses procedimentos pode ser classificada como uma das duas classes:

Destaque Eliminação

Extração em Destaque

A disposição de destaque é o que parece: diminuímos o espaço dos componentes, dispensando os destaques. No modelo de Produto Interno Bruto acima, em vez de pensarmos em cada um dos fatores, podemos deixar de lado todos os fatores, com exceção dos três que achamos que serão os que melhor preverão o que serão os Estados Unidos. Os pontos de interesse das técnicas de ponta de destaque incorporam a falta de esforço e a manutenção da interpretabilidade de seus fatores.

Como um mau serviço, no entanto, você não ganha nenhum dado dessas variáveis que você deixou cair. No caso de utilizarmos há apenas um ano o Produto Interno Bruto, a extensão da população na montagem de ocupações por grupo de pessoas americanas mais recentes, e a taxa de desemprego para prever o Produto Interno Bruto do ano corrente, estamos repassando o que quer que os fatores de queda possam acrescentar ao nosso modelo. Ao dispensarmos os destaques, descartamos totalmente quaisquer vantagens que esses fatores de queda possam trazer.

Destacar a extração, seja ela qual for, não se esbarra nesta questão. Vamos supor que temos dez fatores autônomos. Na extração inclusa, fazemos dez “novos” fatores autônomos, onde cada “novo” fator livre é uma mistura de cada um dos dez “velhos” fatores autônomos. Em qualquer caso, fazemos essas novas variáveis livres com um certo objetivo em mente e solicitamos esses novos fatores pelo quão bem eles prevêem a nossa variável dependente.

Você pode afirmar: “Onde a diminuição da dimensionalidade se torna um fator integral”? Bem, nós mantemos o mesmo número de novas variáveis livres que precisamos, porém, deixamos cair as “menos significativas”. Como solicitamos as novas variáveis pelo quão bem elas prevêem nossa variável carente, percebemos qual é a variável mais significativa e a menos significativa. Seja como for – e aqui está o pontapé de saída – com o argumento de que esses novos fatores livres são misturas das nossas antigas, independentemente de estarmos mantendo as partes mais significativas dos nossos antigos fatores, de qualquer forma, quando deixamos cair pelo menos uma dessas “novas” variáveis!

A investigação do segmento de cabeça é um método para incluir a extração – assim consolida nossos fatores de informação com um certo objetivo em mente, nesse ponto podemos deixar de lado os fatores “menos significativos” e ao mesmo tempo segurar as peças mais importantes da totalidade dos fatores! Como vantagem adicional, cada um dos “novos” fatores após o PCA está, no geral, livre um do outro. Esta é uma vantagem, tendo em vista que os pressupostos de um modelo reto exigem que nossos fatores autônomos estejam livres uns dos outros. Na hipótese remota de escolhermos um modelo de recidiva reta com estas “novas” variáveis (ver “recidiva da cabeça” abaixo), esta presunção será essencialmente cumprida.

Quando seria aconselhável para mim utilizar o PCA?

Você gostaria de diminuir o número de fatores, entretanto, não está pronto para reconhecer fatores a serem totalmente expulsos do pensamento?

Você gostaria de garantir que seus fatores estão livres um do outro?

É verdade que você está aberto a tornar seus fatores livres menos interpretáveis?

Caso você diga “sim” a cada uma das três consultas, nesse momento, o PCA é uma estratégia decente a ser utilizada. No caso de você ter dirigido “não” ao endereço 3, você não deve utilizar o PCA.

Como funciona o PCA?

O segmento após isso examina porque o PCA funciona, porém, dar uma pequena sinopse antes de saltar para o cálculo pode ser útil para a configuração:

Descobriremos uma estrutura que delineia como todos os nossos fatores se identificam uns com os outros.

Nesse momento vamos separar essa malha em dois segmentos separados: direção e grandeza. Poderíamos então compreender os “cabeçalhos” de nossas informações e sua “extensão” (ou quão “significativa” é cada curso). A captura de tela abaixo, a partir do applet setosa.io, mostra os dois principais rolamentos nesta informação: o “curso vermelho” e o “curso verde”. Para esta situação, o “curso vermelho” é o mais significativo. Mais tarde entraremos em detalhes sobre o porquê desta situação, entretanto, dada a organização das manchas, você seria capaz de perceber alguma razão pela qual o “rumo vermelho” parece mais significativo que o “rumo verde”? (Indicação: O que poderia se encaixar uma linha de melhor ajuste a esta informação?)

Mudaremos nossas informações exclusivas para nos alinharmos com esses títulos significativos (que são misturas de nossos fatores exclusivos). A captura de tela abaixo (novamente de setosa.io) é indistinguível de informações precisas de cima, mas alteradas com o objetivo de que os x e y-tomahawks sejam atualmente o “rumo vermelho” e o “rumo verde”. Como poderia ser a linha de melhor ajuste aqui?

Enquanto que o modelo visual aqui é bidimensional (e nesta linha temos dois “cabeçalhos”), considere uma situação em que nossas informações têm mais medidas. Ao distinguir quais “rolamentos” são geralmente “significativos”, podemos embalar ou ampliar nossas informações em um pequeno espaço, deixando cair os “cabeçalhos” que são os “menos significativos”. Ao antecipar nossas informações para um pouco de espaço, estamos diminuindo a dimensionalidade do nosso espaço componente… mas como mudamos nossas informações nessas diversas “formas”, fizemos questão de manter cada variável única em nosso modelo!