Storia dell’analisi predittiva e dei progressi attuali

Sebbene l’analisi predittiva sia in circolazione da decenni, è una tecnologia il cui tempo è giunto. Sempre più organizzazioni si rivolgono all’analisi predittiva per aumentare i loro profitti e il loro vantaggio competitivo. Perché ora?

I volumi e i tipi di dati sono in crescita, e c’è più interesse nell’utilizzare i dati per produrre preziose intuizioni.

Computer più veloci e meno costosi.

Software più facile da usare.

Condizioni economiche più dure e necessità di differenziazione competitiva.

Con la crescente popolarità di software interattivi e facili da usare, l’analisi predittiva non è più solo dominio dei matematici e degli statistici. Anche gli analisti di business e gli esperti di settore utilizzano queste tecnologie.

Perché l’analisi predittiva è importante?

Le organizzazioni si rivolgono all’analisi predittiva per aiutare a risolvere problemi difficili e scoprire nuove opportunità. Gli usi comuni includono:

Individuare le frodi. La combinazione di più metodi di analisi può migliorare l’individuazione dei modelli e prevenire i comportamenti criminali. Con la cyber-sicurezza – come la sicurezza informatica diventa una preoccupazione crescente, l’analisi comportamentale basata sulle prestazioni esamina tutte le azioni su una rete in tempo reale per identificare le anomalie che possono suggerire frodi, vulnerabilità zero-day e minacce persistenti avanzate.

Ottimizzazione delle campagne di marketing. L’analisi predittiva viene utilizzata per determinare le risposte dei clienti o gli acquisti, oltre a promuovere le opportunità di cross-selling. I modelli predittivi aiutano le aziende ad attrarre, mantenere e far crescere clienti più redditizi.

Migliorare le operazioni. Molte aziende utilizzano modelli predittivi per prevedere l’inventario e gestire gli asset. Le compagnie aeree utilizzano l’analisi predittiva per stabilire i prezzi dei biglietti. Gli hotel cercano di prevedere il numero di ospiti per notte per massimizzare l’occupazione e aumentare le entrate. L’analisi predittiva consente alle organizzazioni di funzionare in modo più efficiente.

Ridurre i rischi. I punteggi di credito sono utilizzati per valutare la probabilità di inadempienza dell’acquirente sugli acquisti e sono un noto esempio di analisi predittiva. Un credit score è un numero generato da un modello predittivo che incorpora tutti i dati rilevanti per il merito di credito di una persona. Altri usi legati al rischio includono i crediti e gli incassi assicurativi.

Chi lo utilizza?

Qualsiasi settore può utilizzare l’analisi predittiva per ridurre il rischio, ottimizzare le operazioni e aumentare le entrate. Ecco alcuni esempi.

Servizi bancari e finanziari

Il settore finanziario, con enormi quantità di dati e denaro in gioco, ha da tempo abbracciato l’analisi predittiva per individuare e ridurre le frodi, misurare il rischio di credito, massimizzare le opportunità di cross-sell/up-sell e fidelizzare i clienti di valore. Commonwealth Bank utilizza l’analisi per prevedere la probabilità di attività di frode per qualsiasi transazione prima che venga autorizzata – entro 40 millisecondi dall’inizio della transazione.

Retail

Dall’ormai famigerato studio che ha dimostrato che gli uomini che comprano pannolini spesso comprano la birra contemporaneamente, i rivenditori di tutto il mondo utilizzano l’analisi predittiva per la pianificazione della merce e l’ottimizzazione dei prezzi, per analizzare l’efficacia degli eventi promozionali e per determinare quali offerte sono più adatte ai consumatori. Staples ha guadagnato la comprensione dei clienti analizzando il comportamento, fornendo un quadro completo dei loro clienti e ottenendo un ROI del 137 per cento.

Petrolio, gas e servizi pubblici

Sia che si tratti di prevedere i guasti delle apparecchiature e le future esigenze di risorse, di mitigare i rischi per la sicurezza e l’affidabilità o di migliorare le prestazioni complessive, l’industria energetica ha abbracciato con vigore l’analisi predittiva. Il Salt River Project è la seconda più grande azienda elettrica pubblica degli Stati Uniti e uno dei maggiori fornitori di acqua dell’Arizona. L’analisi dei dati dei sensori delle macchine prevede quando le turbine che generano energia necessitano di manutenzione.

Governi e settore pubblico

I governi sono stati attori chiave nel progresso della tecnologia dell’informazione. L’Ufficio Censimento degli Stati Uniti ha analizzato i dati per comprendere le tendenze della popolazione per decenni. I governi ora utilizzano l’analisi predittiva come molti altri settori – per migliorare il servizio e le prestazioni, individuare e prevenire le frodi e comprendere meglio il comportamento dei consumatori. Utilizzano anche l’analisi predittiva per migliorare la sicurezza delle informazioni.

Come funziona

I modelli predittivi utilizzano risultati noti per sviluppare (o addestrare) un modello che può essere utilizzato per prevedere valori per dati diversi o nuovi. La modellazione fornisce risultati sotto forma di previsioni che rappresentano una probabilità della variabile target (ad esempio, i ricavi) sulla base della significatività stimata di un insieme di variabili di input.

Questo si differenzia dai modelli descrittivi che aiutano a capire cosa è successo, o dai modelli diagnostici che aiutano a capire le relazioni chiave e a determinare perché qualcosa è successo. Interi libri sono dedicati ai metodi e alle tecniche analitiche. Programmi universitari completi esplorano questo argomento in modo approfondito. Ma per cominciare, ecco alcune nozioni di base.

Ci sono due tipi di modelli predittivi. I modelli di classificazione prevedono l’appartenenza a una classe. Per esempio, si cerca di classificare se è probabile che qualcuno se ne vada, se risponderà a una sollecitazione, se si tratta di un rischio di credito buono o cattivo, ecc. Di solito, i risultati del modello sono sotto forma di 0 o 1, e 1 è l’evento target. I modelli di regressione prevedono un numero – ad esempio, quanto un cliente genererà nell’anno successivo o il numero di mesi prima che un componente si guasti su una macchina.

Le tecniche di modellazione predittiva più comunemente usate sono gli alberi decisionali, la regressione e le reti neurali.

Gli alberi decisionali sono modelli di classificazione che suddividono i dati in sottoinsiemi basati su categorie di variabili di input. Aiuta a capire il percorso delle decisioni di qualcuno. L’albero decisionale è presentato come un albero con ogni ramo che rappresenta una scelta tra un insieme di alternative e ogni foglia che rappresenta una classificazione o una decisione. Esso guarda i dati e cerca di trovare l’unica variabile che divide i dati in gruppi logici che sono i più diversi. Gli alberi decisionali sono popolari perché sono facili da capire e da interpretare. Gestiscono bene anche i valori mancanti e sono utili per la selezione preliminare delle variabili. Quindi, se si hanno molti valori mancanti o si desidera una risposta rapida e facile da interpretare, si può iniziare con un albero.

La regressione (lineare e logistica) è uno dei metodi più popolari nelle statistiche. L’analisi di regressione stima le relazioni tra le variabili. Destinata a dati continui che possono essere assunti per seguire una distribuzione normale, trova modelli chiave in grandi insiemi di dati ed è spesso utilizzata per determinare come fattori specifici, come il prezzo, influenzano il movimento di un asset. Con l’analisi di regressione, vogliamo predire un numero, chiamato risposta o variabile Y. Con la regressione lineare, una variabile indipendente viene utilizzata per spiegare e/o predire l’esito di Y. La regressione multipla utilizza due o più variabili indipendenti per predire l’esito. Con la regressione logistica, le variabili sconosciute di una variabile discreta vengono predette in base al valore noto di altre variabili. La variabile di risposta è categorica, il che significa che può assumere solo un numero limitato di valori. Una variabile di risposta ha solo due valori come 0 o 1 nella regressione logistica binaria. Una variabile di risposta può avere diversi livelli, come basso, medio e alto, o 1, 2 e 3 nella regressione logistica multipla… Sono popolari perché sono potenti e flessibili. Il potere deriva dalla loro capacità di gestire relazioni non lineari nei dati, che è sempre più comune man mano che vengono raccolti più dati. Sono spesso utilizzati per confermare i risultati di tecniche semplici come la regressione e gli alberi decisionali. Le reti neurali si basano sul riconoscimento di modelli e su alcuni processi di IA che graficamente “modellano” i parametri. Questi funzionano bene quando non esiste una formula matematica conosciuta che metta in relazione gli input con gli output, la previsione è più importante della spiegazione o ci sono molti dati di formazione. Le reti neurali artificiali sono state originariamente sviluppate da ricercatori che hanno cercato di imitare la neurofisiologia del cervello umano.

Altre tecniche popolari che si possono sentire su

Analisi bayesiana. I metodi bayesiani trattano i parametri come variabili casuali e definiscono la probabilità come “gradi di credenza” (cioè la probabilità di un evento è il grado in cui si ritiene che l’evento sia vero). Quando si esegue un’analisi bayesiana, si parte da una credenza precedente relativa alla distribuzione di probabilità di un parametro sconosciuto. Dopo aver appreso le informazioni dai dati in vostro possesso, modificate o aggiornate la vostra convinzione sul parametro sconosciuto.

Assemblare i modelli. I modelli Ensemble sono prodotti addestrando diversi modelli simili e combinando i loro risultati per migliorare l’accuratezza, ridurre la distorsione, ridurre la varianza e identificare il modello migliore da utilizzare con i nuovi dati.

Aumentare il gradiente. Questo è un approccio di incremento che ricampiona il set di dati più volte per generare risultati che formano una media ponderata del set di dati ricampionati. Come gli alberi decisionali, il boosting non fa ipotesi sulla distribuzione dei dati. Il boosting è meno incline a sovradimensionare i dati rispetto a un singolo albero decisionale, e se un albero decisionale si adatta abbastanza bene ai dati, allora il boosting spesso migliora l’adattamento. (L’overfitting dei dati significa che si stanno utilizzando troppe variabili e il modello è troppo complesso. Sottoadattamento significa il contrario: non ci sono abbastanza variabili e il modello è troppo semplice. Entrambi riducono la precisione di previsione).

Risposta incrementale (chiamata anche modelli di sollevamento o di sollevamento a rete). Questi modelli rappresentano il cambiamento di probabilità causato da un’azione. Sono ampiamente utilizzati per ridurre il churn e per scoprire gli effetti di diversi programmi di marketing.

K-nearest vicino (knn). È un metodo non parametrico di classificazione e regressione che coinvolge i valori di un oggetto o di un’appartenenza ad una classe sulla base di esempi di formazione k-closest.

Ragionamento basato sulla memoria. Il ragionamento basato sulla memoria è una tecnica k-nearest vicina per classificare o prevedere le osservazioni.

Minimi quadrati parziali. Questa tecnica statistica flessibile può essere applicata a dati di qualsiasi forma. Modella le relazioni tra gli ingressi e le uscite anche quando gli ingressi sono correlati e rumorosi, ci sono più uscite o ci sono più ingressi che osservazioni. Il metodo dei minimi quadrati parziali cerca fattori che spiegano sia la risposta che le variazioni dei predittori.

Analisi dei componenti principali. Lo scopo dell’analisi delle componenti principali è di ricavare un piccolo numero di combinazioni lineari indipendenti (componenti principali) di un insieme di variabili che conservano quante più informazioni possibili nelle variabili originali.

Supporto macchina vettoriale. Questa tecnica di apprendimento macchina supervisionata utilizza algoritmi di apprendimento associati per analizzare i dati e riconoscere i modelli. Può essere usata sia per la classificazione che per la regressione.

Data mining di serie temporali. I dati delle serie temporali sono cronometrati e raccolti nel tempo in un determinato intervallo di tempo (vendite in un mese, chiamate al giorno, visite web all’ora, ecc.) Il data mining delle serie temporali combina le tradizionali tecniche di data mining e di previsione. Le tecniche di data mining come il campionamento, il clustering e gli alberi decisionali sono applicate ai dati raccolti nel tempo con l’obiettivo di migliorare le previsioni.