O conceito é um pouco confuso para muitas pessoas por causa do método a utilizar. Para começar, diferentes investigadores têm diferentes explicações para variáveis confusas. Ainda que a definição seja a mesma, o contexto da investigação é moderadamente específico do campo. Por conseguinte, especialistas em diferentes indústrias aplicam esta técnica para soluções de formas únicas. Por isso, antes de explicar a sua tomada em conta de variáveis de confusão, é importante compreender a implicação do termo para a outra pessoa. Assim, este artigo inclui informações valiosas que confundem variáveis na aprendizagem de máquinas.
Variáveis de confusão
Uma variável confusa é uma influência externa numa experiência. Por outras palavras, estas variáveis afectam a saída do modelo através da manipulação de variáveis dependentes e independentes. Subsequentemente, as variáveis confusas actuam sobre as variáveis dependentes, conduzindo a resultados imprecisos.
No decurso da investigação correlacional, estas variáveis têm um grande impacto na relação superficial relativa a duas variáveis. Define se as variáveis dependentes e independentes mudam para valor zero, negativo, ou positivo. Pode também referir-se a variáveis confusas como um factor que um investigador não pode remover ou controlar, mesmo que isso altere a validade do modelo.
Confundir na aprendizagem de máquinas
Anteriormente, variáveis confusas agitavam os resultados nas estatísticas aplicadas. Tendo em conta a estatística, a investigação depende da relação das variáveis independentes com as variáveis dependentes nos dados. Os investigadores resolvem variáveis confusas e melhoram as relações para o resultado através de métodos estatísticos. Concebem estas técnicas para invalidar ou corromper as descobertas.
Os profissionais da aprendizagem de máquinas estão preocupados em melhorar as capacidades do modelo preditivo em vez da interpretabilidade e correcção estatística. No entanto, variáveis confusas são o centro das atenções durante a selecção e preparação dos dados. Mas enquanto se desenvolvem os modelos estatísticos descritivos, estas variáveis são menos importantes. Ainda assim, os peritos em aprendizagem aplicada à máquina consideram a variável confusa como sendo criticamente essencial.
Os cientistas de dados fazem experiências com variáveis dependentes e independentes para avaliar o modelo de aprendizagem de máquinas. Principalmente, o foco destas experiências é minimizar a variável de confusão e a sua influência nos resultados.
Impacto da Avaliação do Modelo de Aprendizagem com Máquina
Se conhece a aprendizagem aplicada à máquina, pode ser surpreendente para si, uma vez que as práticas de normas de ouro incluem variáveis confusas. As experiências de aprendizagem de máquinas para variáveis confusas incluem a escolha e a interpretação de técnicas para avaliar o modelo de aprendizagem de máquinas. É essencial considerar o impacto das variáveis enquanto se avalia o modelo e se identificam variáveis independentes. Aqui estão algumas escolhas que têm impacto nas variáveis dependentes ao longo da experiência:
– Preparação dos esquemas de dados,
– Algoritmo de aprendizagem,
– Configuração do algoritmo de aprendizagem,
– Inicialização do algoritmo de aprendizagem,
– Uma amostra do conjunto de dados de formação
– Uma amostragem do conjunto de dados do teste.
Assim, pode-se escolher estas métricas enquanto se avalia a capacidade do modelo para gerar previsões exactas. Considerando a avaliação do modelo de aprendizagem da máquina, a concepção e execução das experiências controladas será favorável. Numa experiência controlada, o modelo isola outras variáveis e concentra-se num único elemento. Os dois tipos de experiências controladas comuns são:
– Avaliação do algoritmo de aprendizagem
– Avaliação de configurações de algoritmos de aprendizagem
Randomização na aprendizagem mecânica
As experiências controladas não podem manter constantes todas as variáveis confusas. Assim, existem fontes de aleatoriedade que indicam que se a experiência mantiver estas variáveis constantes, a avaliação do modelo acabará por se revelar inválida:
– Inicialização do modelo
– Amostra de dados
– Algoritmo de aprendizagem
Por exemplo, uma rede neural inclui pesos que inicializam os valores aleatórios. Ao contrário de diferentes actualizações, a descida de gradiente estocástico irá aleatorizar a ordem da amostra dos dados. Para seleccionar o limite possível numa floresta aleatória, a selecção de subconjuntos aleatórios será reconfortante. Não é apropriado considerar a aleatorização como um erro num algoritmo de aprendizagem da máquina. Esta característica melhora o desempenho do modelo através de métodos determinísticos tradicionais.
Como é importante a minimização de variáveis confusas?
Compreender a variável confusa é a essência de assegurar a validade interna. A incapacidade de reduzir as variáveis de confusão da sua pesquisa ou modelo não irá gerar a relação real entre duas variáveis. Como resultado, irá encontrar resultados inconsistentes. Comparativamente, o resultado que descobrir incluirá uma relação de causa e efeito, o que não é o caso na realidade. Como a variável independente não produz o efeito, acabará por medir a variável confusa.
Diminuir os Efeitos do Valor de Confusão
Uma vez concluída a investigação, utilizar métodos estatísticos para reduzir os efeitos de confusão no modelo. O método de estratificação irá aumentar a eficiência dos resultados, desde que os potenciais confundidores sejam pequenos em número. Este método para reduzir as variáveis de confusão consiste em dividir o resultado em grupos mais pequenos. Assim, separa as variáveis de confusão em grupos. Em seguida, observe a relação entre ambas as variáveis, independentes e dependentes, em cada grupo.
Suponhamos que a sua pesquisa é sobre a identificação de fumadores e não fumadores para a taxa de mortalidade também inclui pessoas com dependência do álcool. Isto irá afectar o resultado, uma vez que o consumo de álcool também afecta a moralidade. Utilizando a técnica da estratificação, crie diferentes pequenos grupos de fumadores e não-fumadores. Em consequência, observar a relação entre o uso de álcool e a mortalidade em cada grupo.
A análise multivariada reduzirá a influência de valores confusos num modelo com um enorme número de potenciais confundidores. Esta técnica de análise inclui a regressão linear ou logística.
Conclusão
Irá gerar resultados distorcidos quando não modificar a terceira variável que afecta uma relação entre duas variáveis. A determinação da variável confusa é a essência para a avaliação do modelo de aprendizagem da máquina. O modelo pode incluir muitos factores de confusão desconhecidos, o que altera o resultado. O seu planeamento, concepção, e execução do modelo de previsão não terá qualquer utilidade, uma vez que manipularão as variáveis independentes. Assim, a redução dos efeitos do algoritmo é necessária para produzir resultados específicos e isentos de erros.