Cada algoritmo de aprendizagem de máquinas analisa e processa os dados de entrada e gera as saídas. Os dados de entrada incluem características em colunas. Estas colunas são estruturadas para categorização. Algoritmos requerem algumas características e características para funcionarem correctamente. Aqui estão os dois principais objectivos da engenharia de características:
– A engenharia de características irá melhorar o desempenho do modelo
– Preparar dados de entrada relevantes que sejam compatíveis com os requisitos do algoritmo

Engenharia de características

A engenharia de características permite-lhe transformar dados brutos em características. Estas características realçam os problemas dos modelos preditivos. Portanto, pode resolver estes problemas e melhorar a precisão do modelo para novos dados. A engenharia de características ajuda com a
– A medida de desempenho do modelo
– Enquadrar o problema
– Previsão da produção dos modelos
– Amostragem, formatação e limpeza dos dados em bruto

Importância da Engenharia das Características

As características do modelo influenciarão os modelos preditivos, resultando numa utilização e resultado precisos. Deverá preparar e escolher melhores características para melhores resultados. A produção que escolher, as características que fornecer, e os dados são todos os factores do seu modelo. O objectivo do modelo e o enquadramento do problema também estimará a precisão do projecto. Existem numerosas propriedades interdependentes, e o seu resultado dependerá delas. Deverá ter características relevantes e definir a estrutura dos seus dados.

– Flexibilidade com melhores características

É possível obter bons resultados com os modelos errados. A maioria dos modelos irá criar uma estrutura de dados óptima. A flexibilidade das características permite-lhe com modelos menos complicados. Estes modelos são fáceis de compreender, fáceis de manter e rápidos na realização de actividades.

– Modelos mais simples com melhores características

Quando o seu modelo contém características bem concebidas, proporciona um resultado eficaz, mesmo que o objectivo do modelo seja o mesmo. Não necessitará de muito tempo e esforço para escolher os modelos certos e optimizar os parâmetros. As boas características oferecer-lhe-ão uma análise atenta dos problemas subjacentes. Além disso, ajuda na classificação dos dados e dos problemas subjacentes.

Lista de Técnicas de Engenharia de Características

1. Imputação

Ao recolher os dados para o seu projecto de aprendizagem da máquina, deparar-se-á com problemas comuns de dados em falta. Os problemas de dados em falta surgem devido a erro humano, preocupações com a privacidade, e interrupção do fluxo de dados. Independentemente do motivo, os valores em falta afectarão o desempenho dos modelos de aprendizagem da máquina. É possível resolver este problema através da queda de colunas e filas, aumentando o limiar.

2. Manuseamento de Outliers

É possível detectar e lidar com os valores anómalos, visualizando os dados. Com esta técnica, é possível tomar decisões de alta precisão e reduzir os erros. As metodologias estatísticas são rápidas e superiores, mas oferecem menos precisão. Pode lidar com os valores anómalos usando métodos de percentil e desvio padrão.

3. Colagem

Os factores de fiação podem ajudar com dados numéricos e categóricos. Pode desenvolver um modelo robusto, utilizando a motivação de descaroçar e prevenir o sobreajustamento. Sempre que se procede à recolha das informações, os dados são regularizados. Um ponto-chave do processo de fiação é o compromisso entre o sobreajustamento e o desempenho.

4. Transformação de toros

A transformação de registos é comum na engenharia de características. Após a transformação, é possível tratar os dados distorcidos, e a distribuição de dados será normal. Além disso, a transformação de toros reduzirá o efeito de outliers. Isto tornará o modelo mais robusto, devido à normalização das diferenças de magnitude.

5. Codificação de uma só vez

Este método de codificação é uma das técnicas mais comuns na aprendizagem de máquinas. A codificação One-Hot espalhará os valores em múltiplas colunas de bandeira. Além disso, atribui 0 ou 1 a cada valor. Com a ajuda destes valores binários, o modelo expressa uma relação entre colunas codificadas e agrupadas.

6. Operações de Agrupamento

O principal objectivo da operação de agrupamento é a escolha das funções de agressão. As opções convenientes para as funções de agregação das características incluem média e soma.

7. Separação das características

Pode utilizar as características de divisão para utilizar o conjunto de dados no processo de aprendizagem da máquina. Os conjuntos de dados incluem normalmente colunas de cordas que violam os princípios da arrumação de dados. Quando extrai secções das colunas em diferentes e novas características, pode:
– Utilizar o algoritmo de aprendizagem da máquina e compreender os dados
– Lixeira e agrupar os dados
– Melhorar o desempenho do modelo, revelando informação potencial

8. Escala

As características numéricas dos dados são geralmente diferentes umas das outras e não incluem um determinado intervalo. Se considerarmos isto num exemplo real, as colunas de rendimento e idade não podem ter o mesmo intervalo. No entanto, quando consideramos este problema a partir do modelo de aprendizagem da máquina, a comparação é possível. É possível resolver o problema com a ajuda da escala. Após o processo de escalonamento, as características contínuas terão um alcance semelhante. Algoritmos para calcular a distância, tais como k-Means ou k-NN, têm características contínuas em escala como a entrada do modelo.

9. Data de extracção

A coluna de datas fornece informações essenciais sobre o modelo. Muitos profissionais negligenciam os dados como entrada e não os utilizam nos algoritmos de aprendizagem da máquina. Se deixar as datas sem manipulação, achará um desafio desenvolver uma relação entre modelos. Portanto, pode utilizar a engenharia de características para extrair datas e especificá-las como uma característica.

Conclusão

A engenharia de características permite métodos modernos de aprendizagem profunda, tais como máquinas Boltzmann restritas e autoencoders, para alcançar o sucesso. Estes modelos são automáticos mas executam a função como métodos semi-supervisionados ou não supervisionados. Além disso, ajuda a aprender a visualização abstracta das características, a gerar resultados de alta qualidade para a classificação da imagem, reconhecimento da fala, reconhecimento de objectos, e outras áreas.