Il Gradient boosting è una tecnica popolare tra gli scienziati dei dati per la sua precisione e velocità, dati particolarmente complessi e consistenti.
Cos’è il Boosting?
È necessario comprendere le basi del boosting prima di imparare il gradient boosting. È un metodo per trasformare gli studenti deboli in forti. Nel panorama del boosting, ogni albero si adatta alla versione modificata del primo set di dati. È possibile spiegare l’algoritmo del gradient boosting stabilendo l’algoritmo di Ada Boost. Si inizia con l’addestramento degli alberi decisionali. Ad ogni osservazione durante questa procedura viene assegnato un peso uguale.
Dopo aver analizzato il primo albero, gli scienziati dei dati alzano il peso di ogni osservazione che trovano complicato da classificare. D’altra parte, diminuiscono i pesi per quelle in cui la classificazione non è un problema. Pertanto, si noterà il secondo albero che cresce sui dati ponderati. L’idea originale è quella di migliorare le previsioni del primo albero.

Quindi, il nuovo modello che useremo è l’albero uno più l’albero due. Calcoleremo quindi gli errori di classificazione dal nuovo modello di insieme e svilupperemo un terzo albero per la previsione dei residui modificati. Ripeteremo questa procedura per una particolare quantità di iterazioni. I prossimi alberi ci aiuteranno a determinare ogni osservazione in cui gli alberi precedenti hanno fallito o hanno mostrato errori.
Pertanto, le previsioni dell’ultimo modello d’insieme saranno le previsioni complessive ponderate fornite dai precedenti modelli ad albero. Il Gradient boosting fornisce l’addestramento a diversi modelli in modo sequenziale, additivo e graduale. La differenza principale tra il gradient boosting e gli algoritmi di Ada boosting è il modo in cui determinano le carenze degli allievi deboli.
Il modello Ada boost determina i difetti utilizzando punti di dati ponderati. Noterete alcune somiglianze nel gradient boosting in quanto funziona sfruttando i gradienti nelle funzioni di perdita. Per coloro che non lo sanno, la funzione di perdita indica la qualità dei coefficienti di un modello e se si adatta ai dati fondamentali.
Una ragionevole comprensione di questa funzione dipende da vari fattori come quello che si desidera ottimizzare. Ad esempio, se si utilizza la regressione per prevedere i prezzi di vendita, la funzione di perdita si baserebbe su errori tra i prezzi previsti e quelli autentici.
Allo stesso modo, se la classificazione dei crediti in sofferenza è il vostro obiettivo primario – la funzione di perdita diventerebbe una misura per classificare i prestiti sfavorevoli. Una motivazione significativa per utilizzare il gradient boosting è la sua capacità di ottimizzare le varie funzioni di costo specificate dagli utenti. È di gran lunga migliore delle funzioni di perdita in quanto di solito fornisce meno controllo e non riesce a fondersi con le applicazioni nel mondo reale.
Boosting e Ensemble
L’adattamento individuale dei modelli di macchine per l’apprendimento dei dati è straordinariamente semplice. È possibile anche fonderli in un insieme. Il termine “ensemble” si riferisce ad una combinazione di modelli individuali che creano un modello più forte e potente.
La maggior parte degli scienziati dei dati ricorre al machine learning boosting per creare insiemi. Si inizia inserendo un modello primario come la regressione lineare o ad albero con i dati. Successivamente, un secondo modello si concentra sulla fornitura di previsioni accurate per i casi con modelli poco performanti. La combinazione di questi modelli è spesso migliore di un modello singolo. È necessario ripetere più volte il processo di boosting. Ogni modello successivo cerca di correggere i difetti dell’insieme blended boosted di modelli precedenti.
Comprensione del Boosting Gradiente
Il Gradient Boosting è un tipo di potenziamento di apprendimento macchina. Si basa fortemente sulla previsione che il modello successivo ridurrà gli errori di previsione se miscelato con quelli precedenti. L’idea principale è quella di stabilire dei risultati target per questo modello imminente per ridurre al minimo gli errori.
Quindi, come si calcolano gli obiettivi? Il risultato di ogni caso dipende dal numero di modifiche apportate dalla previsione e dai suoi effetti sull’errore di previsione.
- Se la previsione ha un piccolo cambiamento e causa un significativo calo dell’errore, il risultato atteso del caso avrà un valore elevato. Le previsioni fornite dai nuovi modelli potrebbero ridurre gli errori fintanto che sono vicini ai loro obiettivi.
- Se non ci sono cambiamenti di errore causati da un piccolo cambiamento di previsione, il prossimo risultato del caso sarà zero. Non è possibile ridurre al minimo l’errore modificando la previsione.
Il termine gradient boosting è emerso perché gli esiti di ogni caso si basano sull’errore del gradiente rispetto alle previsioni. Ogni modello riduce gli errori di previsione facendo un passo nella direzione corretta.
Come è utile il gradient boosting?
Come discusso in precedenza, il gradient boosting è una tecnica molto diffusa per la creazione di modelli predittivi. È possibile applicarla a numerose funzioni correlate al rischio e migliorare l’accuratezza predittiva del modello. Il gradient boosting aiuta anche a risolvere vari problemi di multicollinearità in cui esistono elevate correlazioni tra le variabili predittive.
Sareste sorpresi di vedere la quantità di successo derivante dalle macchine per il gradient boosting. Numerose applicazioni di machine learning lo hanno utilizzato.
Cosa deve funzionare l’algoritmo di incremento del gradiente
Ecco un elenco dei componenti essenziali richiesti dagli algoritmi di potenziamento del gradiente:
Modello additivo
Cerchiamo di ridurre al minimo le perdite attuando più alberi decisionali. Possiamo anche diminuire i tassi di errore riducendo al minimo i parametri. In casi come questi, creiamo il modello per garantire che non ci siano modifiche all’albero esistente nonostante l’aggiunta di un altro.
Imprenditore debole
Gli studenti deboli sono una parte essenziale del potenziamento del gradiente per fare previsioni. Utilizziamo alberi di regressione per estrarre valori autentici. È essenziale sviluppare alberi avidamente per arrivare al punto di divisione più favorevole. È un motivo significativo per cui il modello è per lo più sovrapponibile al set di dati specifici.
Funzione di perdita
Dobbiamo ottimizzare le funzioni di perdita per ridurre gli errori di previsione. Contrariamente ad Ada Boost, il risultato sbagliato non riceve un aumento di peso nel gradiente boosting. Al contrario, riduce al minimo la funzione di perdita da parte degli allievi deboli ottenendo medie di uscita.
Pensieri finali
Il Gradient Boosting dimostra che è probabilmente la tecnica più potente per creare modelli predittivi nella regressione e nelle classificazioni. È anche possibile utilizzare vari metodi di regolarizzazione o di vincolo per migliorare l’overfitting di combattimento e le prestazioni dell’algoritmo. I programmatori possono anche sfruttare il restringimento, il campionamento randomizzato, i vincoli dell’albero e l’apprendimento penalizzato per combattere l’overfitting. Il Gradient boosting è stato strumentale per risolvere numerose sfide di machine learning nella vita reale.