Com uma aprendizagem mecânica cada vez mais avançada e algoritmos de aprendizagem profunda, é possível resolver quase todos os problemas com conjuntos de dados adequados. No entanto, à medida que a complexidade do modelo aumenta, eles estão a tornar-se difíceis de interpretar. Quando se fala da interpretabilidade dos modelos de aprendizagem da máquina, a primeira coisa que nos vem à mente é a Regressão Linear. A Regressão Linear é um modelo que é bastante simples e fácil de interpretar. Para além de ser simples, inclui vários problemas de interpretabilidade, especialmente em termos de violações do pressuposto de regressão linear. Também se pode referir a pressupostos de Regressão Linear como Multicolinearidade.

O que é a Multicolinearidade?

Num modelo de regressão, quando duas ou mais de duas variáveis independentes se correlacionam entre si, pode referir-se ao modelo como Multicolinearidade. Indica que se pode prever uma variável independente com outra variável independente neste tipo de modelo. As variáveis podem incluir peso e altura, consumo de água e rendimento familiar, preço do carro e quilometragem, tempo de lazer e de estudo, e outras.

Pode tirar qualquer variável da sua vida quotidiana. Por exemplo, adora comer batatas fritas enquanto vê televisão – a taxa de satisfação aumenta quando vê mais televisão e come mais batatas fritas. Agora, quando considerar as coisas que o vão manter ocupado e o vão fazer feliz, que actividade vai achar interessante e ter um maior impacto no seu nível de felicidade? Sentir-se-á mais feliz quando comer batatas fritas ou quando vir televisão?

Isto seria difícil de medir porque quando vê mais televisão, vai comer mais batatas fritas, e quando come mais batatas fritas, tem de ver mais televisão. Ambas estas actividades estão correlacionadas entre si. Vai achar difícil determinar o impacto de uma actividade na outra para a felicidade. É isto que é realmente o problema da multicolinearidade. Agora vamos descobrir como irá medir a multicolinearidade com referência à aprendizagem mecânica.

Tipos de Multicolinearidade

A multicolinearidade consiste em dois tipos diferentes. O primeiro tipo de multicolinearidade é estrutural. É um subproduto. Como irá criar esta hipótese com a ajuda da variável independente existente, pode facilmente localizá-la. A variável independente x do primeiro tipo é ao quadrado. Por exemplo, se a multicolinearidade estrutural considerar que tem um conjunto de dados e utilizar um registo para normalizar ou escalonar as características. O segundo tipo é a multicolinearidade de dados, que é mais perigosa do que a estrutural. Esta multicolinearidade será mais difícil de identificar e interpretar. Se estiver a utilizar um quadro de dados pandas, este já incorporará este tipo de multicolinearidade.

Detecção e Remoção da Multicolinearidade

A solução óptima para categorizar a multicolinearidade é calcular o Factor de Inflação da Variância equivalente a cada variável individual nos dados. Ao compreender o Factor de Inflação da Variância, é possível determinar se a variável é previsível ou não. Para tal, utilizará outras variáveis independentes. Podemos compreender o conceito com o seguinte exemplo:

Assumindo estas nove variáveis diferentes, é possível calcular o Factor de Inflação de Variância para a primeira variável, ou seja, V1. Para calcular a variável V1, deve considerá-la como variável alvo e isolá-la de todas as outras variáveis. Tratar todas as outras variáveis como variáveis preditoras.

Utilizando outras variáveis, podemos encontrar o valor correspondente de R2. Para encontrar o valor, treine o seu modelo de regressão utilizando as variáveis preditoras. Pode calcular o valor VIF com a ajuda do valor R2. O resultado será:

Da fórmula acima, podemos ver claramente que ambos, o valor R2 e o Factor de Inflação da Variância, aumentarão simultaneamente. Quando o valor R2 é superior, indica que as outras variáveis independentes estão a explicar correctamente a variável independente do alvo. Agora, para decidir se devemos manter ou remover a variável, vamos considerar o valor limite do Factor de Inflação da Variância.

O valor do Factor de Inflação da Variância deve ser desejavelmente pequeno. No entanto, este valor pode remover as variáveis independentes do conjunto de dados. Por conseguinte, os peritos normalmente consideram que o limiar do Factor de Inflação de Variação é igual a cinco. Isto indica que se o valor de qualquer variável independente for superior a cinco, ela será removida. Mas o valor do limiar ideal dependerá do problema encontrado.

Conclusão

A influência da Regressão Linear depende da simplicidade de interpretação do modelo. Não será possível encontrar a finalidade do modelo se falhar a multicolinearidade. A partir do contexto acima, compreende o significado da multicolinearidade e como esta afecta a Regressão Linear. Além disso, pode agora detectar e remover a multicolinearidade para qualquer problema que venha a encontrar no futuro.