Il data mining è il modo per trovare i progetti in enormi indici informativi, comprese le strategie alla convergenza di IA, intuizioni e sistemi di database. L’information mining è un sottocampo interdisciplinare dell’ingegneria del software e delle misurazioni con l’obiettivo generale di rimuovere i dati (con tecniche sagge) da una raccolta di informazioni e modificare i dati in una struttura intelligibile per un ulteriore utilizzo. L’information mining è l’impresa di esame della procedura di “apprendimento della divulgazione nelle banche dati” o KDD.[5] Oltre alla fase di indagine grezza, comprende anche le banche dati e le informazioni, gli angoli di bordo, la pre-manipolazione delle informazioni, le contemplazioni di modelli e supposizioni, le misure di qualità intriganti, le contemplazioni della natura sfaccettata, la post-preparazione delle strutture trovate, la percezione e l’aggiornamento online.

L’espressione “estrazione di informazioni” è un termine improprio, alla luce del fatto che l’obiettivo è l’estrazione di esempi e informazioni da molte informazioni, non l’estrazione (estrazione) delle informazioni stesse. Inoltre è una parola d’ordine ed è applicata per la maggior parte del tempo a qualsiasi tipo di informazione o preparazione di dati su vasta scala (accumulazione, estrazione, immagazzinamento, esame e approfondimento) proprio come qualsiasi utilizzo della rete di supporto emozionale scelta dal PC, compreso il ragionamento artificiale (ad esempio, l’intelligenza artificiale) e la conoscenza del business. Il libro Information mining: Apparati e sistemi di IA pragmatici con Java (che copre, per la maggior parte, il materiale di IA) doveva inizialmente essere chiamato semplicemente AI Down to earth AI, e il termine scavo di dati è stato incluso per motivi di promozione[9] Regolarmente i termini più ampi (su vasta scala) di indagine ed esame delle informazioni – o, quando si allude a tecniche reali, la forza cerebrale artificiale, e AI – sono progressivamente adatti.

La vera e propria commissione di information mining è l’auto-caricamento o l’esame programmato di enormi quantità di informazioni per estrarre a priori esempi oscuri e affascinanti, ad esempio, la raccolta di record di informazioni (indagine di gruppo), record non ordinari (identificazione di incongruenze) e condizioni (affiliation rule mining, esempio consecutivo di mining). Ciò include normalmente l’utilizzo di sistemi di database, ad esempio, liste spaziali. Questi esempi potrebbero essere considerati come una sorta di analisi dei dati e potrebbero essere utilizzati per ulteriori indagini o, ad esempio, per l’analisi dell’intelligenza artificiale e per l’esame preveggente. Ad esempio, la fase di estrazione dell’informazione può distinguere numerose raccolte di informazioni, che potrebbero poi essere utilizzate per ottenere risultati previsionali progressivamente precisi da una rete di supporto emotivo. Né l’accumulo di informazioni, né la disposizione delle informazioni, né la chiarificazione dei risultati e dei dettagli sono una parte della fase di information mining, ma hanno un posto nel processo generale di KDD come passi extra.

La distinzione tra l’esame dell’informazione e l’information mining è che l’indagine dell’informazione viene utilizzata per testare modelli e teorie sul set di dati, ad esempio, sezionando la fattibilità di uno sforzo pubblicitario, prestando poca attenzione alla misura dell’informazione; al contrario, l’information mining utilizza l’IA e i modelli fattuali per rivelare modelli surrettizi o velati in un enorme volume di dati.

I termini correlati scavo di informazioni, pesca di informazioni e curiosare nelle informazioni alludono all’utilizzo di tecniche di estrazione di informazioni per testare porzioni di un indice informativo di popolazione più grande che sono (o potrebbero essere) troppo poche per poter fare deduzioni fattuali affidabili sulla legittimità di qualsiasi esempio trovato. Queste tecniche possono, tuttavia, essere utilizzate per fare nuove speculazioni da testare contro la maggiore popolarità dell’informazione.

Processo:

Il processo di scoperta della conoscenza nelle banche dati (KDD) è comunemente definito con le fasi:

Selezione

Pre-elaborazione

Trasformazione

Estrazione dei dati

Interpretazione / valutazione.

Esiste, tuttavia, in molte varianti su questo tema, come ad esempio il processo standard intersettoriale per il data mining (CRISP-DM) che definisce sei fasi:

Comprensione commerciale

Comprensione dei dati

Preparazione dei dati

Modellazione

Valutazione

Distribuzione

o un processo semplificato come il pre-elaborazione, l’estrazione dei dati e la convalida dei risultati.

Pre-preparazione

Prima di poter utilizzare i calcoli di information mining, è necessario accumulare un indice informativo oggettivo. Poiché l’information mining può solo rivelare i progetti realmente presenti nell’informazione, l’indice informativo oggettivo deve essere abbastanza grande da contenere questi esempi, pur rimanendo abbastanza succinto da essere estratto entro un limite di tempo soddisfacente. Un tipico hotspot di informazioni è un negozio di informazioni o un magazzino di informazioni. La preparazione preliminare è fondamentale per sezionare le raccolte informative multivariate prima di estrarre le informazioni. L’obiettivo prefissato viene poi ripulito. La pulizia delle informazioni espelle le percezioni che contengono confusione e quelle che contengono informazioni mancanti.

data mining

Il data mining comprende sei classi di compiti regolari:[5]

Riconoscimento di stranezze (anomalia/modifica/luogo di deviazione) – La prova distintiva di record di dati non comuni, che possono essere affascinanti o errori di dati che richiedono un ulteriore esame.

Apprendimento delle regole di affiliazione (dimostrazione di affidabilità) – Scansione delle connessioni tra i fattori. Ad esempio, un negozio di alimentari può accumulare dati sulle propensioni all’acquisto dei clienti. Utilizzando l’apprendimento delle regole di affiliazione, il negozio può capire quali articoli sono acquistati il più spesso possibile insieme e utilizzare questi dati per scopi pubblicitari. A questo si fa di tanto in tanto riferimento come indagine di mercato delle casse.

Bunching – è il compito di trovare raccolte e strutture nei dati che siano in qualche modo o in un altro modo “comparabili”, senza utilizzare strutture note nelle informazioni.

Ordine – è la commissione di riassunto della struttura realizzata da applicare ai nuovi dati. Ad esempio, un programma di posta elettronica può tentare di ordinare un’e-mail come “genuina” o come “spam”.

Relapse – si sforza di scoprire una capacità che modella le informazioni con il minimo errore, cioè di valutare le connessioni tra informazioni o insiemi di dati.

Schema – che fornisce una rappresentazione progressivamente ridotta della raccolta di informazioni, compresa la rappresentazione e l’età del rapporto.

Approvazione dei risultati

Un caso di dati creati dalla ricerca di informazioni attraverso un bot elaborato dall’analista Tyler Vigen, che dimostra evidentemente una stretta connessione tra la parola migliore che ha vinto la rivalità tra api ortografiche e il numero di individui macellati negli Stati Uniti da aracnidi velenosi. La somiglianza nei modelli è chiaramente un evento fortuito.

L’estrazione dei dati può essere accidentalmente abusata, e sarebbe quindi in grado di creare risultati che hanno tutte le caratteristiche per essere degni di nota, ma che in realtà non anticipano i comportamenti futuri e non possono essere ripetuti su un altro esempio di informazione e non servono a molto. Spesso questo risultato è dovuto alla ricerca di un numero eccessivo di teorie e alla mancanza di un’adeguata verifica teorica dei fatti. Una variante diretta di questo problema nell’IA è nota come overfitting, tuttavia, un problema simile può emergere in vari periodi della procedura e lungo queste linee, una scissione treno/test – quando pertinente con qualsiasi mezzo – può non essere adeguata per evitare che questo accada.