A mineração de dados é o caminho para encontrar projetos em enormes índices informativos, incluindo estratégias de convergência de IA, insights e sistemas de banco de dados. A mineração de informação é um subcampo interdisciplinar de engenharia de software e medições com o objetivo geral de remover dados (com técnicas inteligentes) de uma coleção de informações e transformar os dados em uma estrutura inteligível para uso posterior. A mineração de informação é o exame do procedimento de “divulgação de aprendizagem em bancos de dados” ou KDD[5]. Além da etapa de investigação bruta, ela também inclui banco de dados e informações os ângulos do quadro, pré-manuseio de informações, modelos e suposições de contemplações, medições de qualidade intrigantes, contemplações de natureza multifacetada, pós-preparação de estruturas encontradas, percepção e atualização on-line.

A expressão “mineração de informação” é um termo errado, tendo em conta que o objectivo é a extracção de exemplos e informação de muita informação, e não a extracção (mineração) de informação em si. Além disso, é uma palavra-chave e é aplicada a qualquer tipo de informação ou preparação de dados em grande escala (acumulação, extração, armazenamento, exame e insights), assim como qualquer utilização da rede de apoio emocional da escolha do PC, incluindo raciocínio humano (por exemplo, IA) e conhecimento de negócios. O livro Information mining: Aparelhos e sistemas pragmáticos de IA com Java (que cobre, em sua maioria, material de IA) foi inicialmente nomeado simplesmente IA Down to earth, e o termo escavação de dados foi incluído por razões de promoção[9]. Regularmente os termos mais amplos (enorme escala) investigação e exame de informação – ou, quando se faz alusão a técnicas reais, inteligência artificial, e IA – são progressivamente adequados.

A verdadeira tarefa de mineração de informação é o auto-carregador ou o exame programado de enormes quantidades de informação para extrair antecipadamente exemplos obscuros e fascinantes, como por exemplo, a recolha de registos de informação (investigação de grupo), registos não habituais (identificação de inconsistências), e condições (regra de filiação de mineração, mineração de exemplo consecutivo). Isto normalmente inclui a utilização de sistemas de bases de dados, por exemplo, listas espaciais. Estes exemplos poderiam então ser vistos como uma espécie de resumo dos dados, e poderiam ser utilizados na investigação posterior ou, por exemplo, na IA e no exame presciente. Por exemplo, a etapa de mineração de informação pode distinguir numerosas reuniões na informação, que seriam então capazes de ser utilizadas para obter resultados de previsão progressivamente precisos por uma escolha de rede de apoio emocional. Nem a acumulação de informação, nem a disposição da informação, nem a elucidação e detalhamento dos resultados é uma parte da etapa de mineração de informação, mas tem um lugar com o processo geral de KDD como etapas extras.

A distinção entre o exame da informação e a mineração de informação é que a investigação da informação é utilizada para testar modelos e teorias sobre o conjunto de dados, por exemplo, dissecando a viabilidade de um esforço publicitário, dando pouca atenção à medida da informação; inversamente, a mineração de informação usa IA e modelos factuais para revelar desenhos sub-reptícios ou encobertos em um enorme volume de dados.

Os termos relacionados com a pesquisa de informação, pesca de informação e bisbilhotice de informação fazem alusão à utilização de técnicas de mineração de informação para testar porções de um índice informativo populacional maior que são (ou podem ser) muito pequenas para que deduções factuais confiáveis sejam feitas sobre a legitimidade de quaisquer exemplos encontrados. Estas técnicas podem, no entanto, ser utilizadas para fazer novas especulações para testar contra os maiores populacões de informação.

Processo:

O processo de descoberta de conhecimento em bancos de dados (KDD) é comumente definido com as etapas:

Seleção

Pré-processamento

Transformação

Extracção de dados

Interpretação / avaliação.

Existe, no entanto, em muitas variações sobre este tema, tais como o processo padrão da Cross-industrial para mineração de dados (CRISP-DM) que define seis fases:

Conhecimento do negócio

Compreensão dos dados

Preparação dos dados

Modelagem

Avaliação

Implantação

ou um processo simplificado como o Pré-processamento, Data Mining e Validação de Resultados.

Pré-preparação

Antes que os cálculos de mineração de informação possam ser utilizados, um índice informativo objetivo deve ser acumulado. Como a mineração de informação pode apenas revelar desenhos realmente presentes na informação, o índice informativo objetivo deve ser enorme o suficiente para conter estes exemplos, mantendo-se sucinto o suficiente para ser minado dentro de um tempo limite satisfatório. Um hotspot típico para informação é uma loja de informação ou um armazém de informação. A pré-preparação é fundamental para dissecar as coleções informativas multivariadas antes da mineração da informação. O conjunto de objectivos é então limpo. A limpeza da informação expulsa as percepções que contêm comoção e aquelas com informação em falta.

extração de dados

A mineração de dados inclui seis classes regulares de tarefas:[5]

Oddity recognition (anomaly/change/deviation location) – A prova distintiva de registros de dados incomuns, que podem ser fascinantes ou erros de dados que requerem um exame mais aprofundado.

Aprendizagem de regras de filiação (demonstração de confiança) – Varreduras para conexões entre fatores. Por exemplo, uma mercearia pode acumular dados sobre propensões de compra de clientes. Utilizando o aprendizado de regras de afiliação, a loja pode descobrir quais itens são comprados juntos o mais frequentemente possível e utilizar esses dados para fins publicitários. Isto é de vez em quando aludido como investigação de caixa de mercado.

Bunching – é o recado de encontrar coleções e estruturas nos dados que são de alguma forma ou outra ou outra “comparável”, sem utilizar estruturas conhecidas na informação.

Ordem – é o recado da soma da estrutura realizada para aplicar aos novos dados. Por exemplo, um programa de e-mail pode tentar encomendar um e-mail como “genuíno” ou como “spam”.

Relapse – tenta descobrir uma capacidade que modele a informação com o mínimo de engano, ou seja, para avaliar as conexões entre as informações ou conjuntos de dados.

Esboço – dando um retrato progressivamente reduzido da coleção informativa, incluindo representação e idade do relatório.

Aprovação de resultados

Um caso de dados criados através da pesquisa de informação num bot trabalhado pelo analista Tyler Vigen, demonstrando evidentemente uma ligação próxima entre a melhor palavra ganhar uma rivalidade ortográfica entre abelhas e o número de indivíduos nos EUA abatidos por aracnídeos venenosos. A semelhança nos padrões é claramente um evento fortuito.

A mineração de dados pode ser abusada acidentalmente, e então seria capaz de criar resultados que têm todas as marcas de destaque; mas que não antecipam realmente a conduta futura e não podem ser repetidos em outro exemplo de informação e têm pouca utilidade. Frequentemente este resultado resulta da pesquisa de um número excessivo de teorias e da não realização de testes apropriados de teoria factual. Uma variante direta desta questão na IA é conhecida como sobreajustamento, entretanto, uma questão semelhante pode surgir em vários períodos do procedimento e, ao longo destas linhas, uma divisão trem/teste – quando pertinente por qualquer meio – pode não ser adequada para evitar que isto aconteça.