Ao desenvolver um modelo de aprendizagem de máquinas, pode encontrar inúmeros problemas. Um problema comum relacionado com a selecção de características determina quão relevantes são as características de entrada para a produção preditiva. Pode utilizar testes estatísticos para compreender como a variável de saída depende da variável de entrada. Estes testes são úteis quando as variáveis de entrada são definitivas. Se o resultado indicar que a saída é independente, deverá remover a variável de entrada, uma vez que é irrelevante para o problema. O teste de qui-quadrado de Pearson identificará se as variáveis categóricas são independentes ou não.

O que é um teste de qui-quadrado?

Um teste de qui-quadrado é uma técnica estatística para determinar a relação entre duas variáveis de um conjunto de dados semelhante. Podemos compreender o conceito a partir do seguinte exemplo:
Vamos supor que um investigador quer descobrir uma relação para colocar os estudantes num departamento com base nos seus CGPAs. Ele extrairá registos aleatórios do departamento durante os últimos cinco anos. Registará o número de estudantes e os seus CGPA, que estavam disponíveis para esta categoria, ou seja, abaixo de 6, 6-7, 7-8, 8-9, 9-10.
Se ele não conseguiu encontrar qualquer relação entre a colocação dos estudantes e a sua CGPA, deverá igualmente dividir os estudantes em diferentes categorias. Contudo, se todos os estudantes da categoria tiverem um CGPA de mais de 8, então os estudantes abaixo desta pontuação não serão incluídos em nenhuma categoria.

Pressupostos do Teste

Como o teste Chi é um teste estatístico, inclui alguns pressupostos:
– Os dados serão obtidos utilizando uma selecção aleatória a partir do conjunto de dados.
– Cada sujeito só caberá numa única categoria. Por exemplo, se considerar o número de funcionários que não estavam disponíveis apenas na segunda-feira, não os poderá incluir na terça-feira.
– Necessita de recolher os dados em contagens ou frequência. Não considerar os dados em percentagem.
– Os dados não devem conter grupos, uma vez que afectarão as observações.
– Não pode utilizar o Qui-quadrado se o valor de 20% das frequências esperadas for inferior a 5.

Como realizar o Teste Qui-Quadrado?

Siga estes passos para realizar o teste e encontrar as variáveis de confiança:
1. Identificar a hipótese
2. Criação de uma tabela de contingência
3. Determinação dos valores esperados
4. Computação das estatísticas do Qui-quadrado
5. Aceitar e rejeitar a Hipótese Nula

1. Identificar a Hipótese

A Hipótese Nula ou H1 indicaria que ambas as variáveis são independentes. No entanto, incluirá também uma hipótese alternativa ou H1. Isto indica que ambas as variáveis não são independentes.

2. Criação de uma Tabela de Contingência

Nesta etapa, será criada uma tabela de contingência indicando a distribuição de ambas as variáveis. Colocar a primeira variável numa linha e as outras variáveis na coluna. Esta tabela irá ajudá-lo a compreender a relação entre ambas as variáveis.

A tabela de contingência incluirá também os graus de liberdade. Indicará os graus de liberdade como (r-1)x(c-1). Nesta equação, r serão as linhas, e c será a coluna. Aqui:
Df = (2-1) x (2-1) = 1
A partir do quadro acima, calculámos todos os valores observados. A seguir, encontraremos os valores esperados. Para isso, precisamos de encontrar o valor Qui-Quadrado e identificar a relação.

3. Determinação dos Valores Esperados

De acordo com a hipótese nula, as duas variáveis não são dependentes. Por conseguinte, podemos considerar a seguinte equação assumindo que A e B são dois eventos diferentes e independentes:

Agora podemos calcular o valor esperado a partir da primeira célula. A primeira célula inclui os indivíduos do sexo masculino que saíram do banco.

Da mesma forma, utilizando a mesma equação, podemos determinar os resultados também para outras células. Aqui está o resultado:

4. Cálculo da estatística de Chi-Suqare

Podemos agora determinar o valor Qui-Quadrado colocando os valores esperados calculados e os valores observados na tabela abaixo:

A tabela acima indica O como os valores observados e E como os valores esperados. Considerando a fórmula estatística do Qui-quadrado para o valor acima, encontramos o Qui-quadrado como 2,22.

5. Aceitar e Rejeitar a Hipótese Nula

Agora, podemos verificar se deve aceitar ou rejeitar o Chi-Square calculado com 95% de confiança. A confiança é alfa, o que equivale a 0,05. Colocando os valores que calculámos a partir das fórmulas acima, podemos verificar se o Qui-quadrado deve ser aceite ou rejeitado.
– Grau de liberdade = 1 (de acordo com a tabela de contingência)
– Alfa = 0.05
– Valor Qui-Quadrado = 3,84
Pode encontrar o valor do Qui-Quadrado utilizando esta tabela.
Como existe uma enorme diferença entre valores Observados e Valores Esperados, a distribuição cairá para o lado direito.

A partir da figura acima, podemos compreender que o valor do Qui-Quadrado varia entre 0 e inf. Contudo, o alfa situa-se na direcção oposta, variando entre 0 e 1. Se o valor do Qui-quadrado cair para a região do erro, terá de rejeitar a hipótese Nula. A região do erro será o alfa e variará entre 0 e 0,05. Contudo, no exemplo acima, o valor do Qui-quadrado é inferior ao valor crítico do Qui-quadrado, pelo que aceitará a hipótese nula.

Conclusão

A compreensão do contexto acima descrito sobre o teste Qui-quadrado dar-lhe-á uma imagem clara do conceito. Tenha em mente que o teste irá ajudá-lo a identificar a relação entre os valores observados e os estimados. Além disso, indica se as variáveis são dependentes ou independentes. Contudo, não é possível determinar porque é que estas variáveis são dependentes e a relação entre elas.