Capire le Foreste Casuali

Le foreste casuali sono un metodo di apprendimento automatico per la classificazione degli algoritmi. Comprende diversi alberi decisionali individuali che si basano su caratteristiche casuali e sull’addestramento dei dati per raggiungere un’ipotesi intelligente che ha più credibilità di un singolo albero decisionale. Tutti gli alberi decisionali nella foresta casuale sono modelli separati. Ognuno di essi utilizza un sottoinsieme di caratteristiche casuali per prevedere un bersaglio, e tutti questi bersagli previsti si accumulano insieme per prevedere un bersaglio più preciso.

Partendo dagli alberi decisionali

Considerando che non tutti coloro che leggono questo potrebbe essere a conoscenza del gergo di machine learning, abbiamo deciso di suddividere i concetti in termini profani. Tutti, consapevolmente o inconsapevolmente, hanno usato gli alberi delle decisioni sia durante gli anni accademici che durante la loro vita professionale. Il concetto è come un diagramma di flusso in cui si scompongono dati o testi complessi in semplici passaggi sotto forma di diagramma a scatola.

Anche se le cose non sono così semplici e unilaterali in un albero decisionale come lo sono in un diagramma di flusso, in un albero decisionale si parte da una parte iniziale e si continua a creare nodi tra le variabili fino a raggiungere il proprio obiettivo. Per esempio, qualcuno vuole che si preveda il grado della sua squadra di calcio preferita in un prossimo torneo. Qui, inizierete con la probabilità iniziale. Ma questa probabilità iniziale non può essere la risposta assoluta, soprattutto quando ci sono dei pregiudizi coinvolti nel processo di predizione.

Dovrete dare delle motivazioni e sgranocchiare i numeri per rendere la vostra ipotesi il più credibile possibile.

La prima variazione deriverà dalla vostra domanda che vi aiuterà a decidere come raggiungere il vostro obiettivo. Ogni domanda che porrete creerà una variante seguita da un percorso “sì o no” o “vero o falso”, che alla fine aggiungerà un ramo al vostro albero decisionale. Ogni volta che prenderete un percorso, dovrete stabilire una relazione tra le conoscenze che avete acquisito prima di quel punto. In un certo senso, tutto dipende dalla vostra capacità di porre le domande che vi aiuteranno ad acquisire le conoscenze più appropriate per raggiungere l’obiettivo desiderato.

La correlazione tra l’albero decisionale e la foresta casuale

Come già detto, i boschi casuali sono una congregazione di diversi alberi decisionali individuali. Tutti gli alberi decisionali che ne fanno parte utilizzano variabili diverse dello stesso insieme di dati, anche se tutti raggiungono l’obiettivo desiderato con mezzi diversi. La credibilità di queste foreste si basa sul fatto che non esistono due persone che possano raggiungere un obiettivo utilizzando lo stesso percorso o lo stesso ragionamento. E anche se alcuni sono simili, è sempre possibile utilizzare questi schemi ripetitivi nella foresta per tentativi ed errori.

Per esempio, un analista sportivo, un ex giocatore di calcio, un giornalista sportivo, un appassionato di sport, un tifoso entusiasta e un arbitro in pensione porranno una domanda diversa per prevedere il risultato di una partita. Tutti loro hanno competenze, informazioni e conoscenze diverse del gioco; quindi i loro metodi per raggiungere l’obiettivo di previsione saranno diversi. Non solo il loro gioco di conoscenza, ma anche il loro ragionamento per stabilire una relazione tra le variabili recuperate dai dati acquisiti è diverso.
Ora gli alberi decisionali di tutte queste persone creeranno un modello. Collettivamente, questo modello è una “foresta casuale”. Si hanno tutte queste previsioni individuali da diversi alberi decisionali non correlati tra loro, e tutti hanno usato modi unici per prevedere l’obiettivo desiderato. Potete usare tutte queste previsioni per aumentare l’accuratezza della vostra previsione finale.

Come funziona

La creazione di una foresta casuale non è solo una questione di creare variabili drasticamente opposte o di scegliere caratteristiche casuali dai dati disponibili. È necessario avere un senso della mappatura dei dati e un’abilità nel fare domande ragionevoli per fare un’ipotesi accurata. Le macchine possono imparare a fare questo memorizzando le informazioni che gli si forniscono nel corso degli anni, ma non saranno ancora in grado di porre le domande rivoluzionarie che un essere umano farebbe di fronte a un vicolo cieco in un albero delle decisioni.
Per far funzionare una foresta a caso, è necessario raccogliere diversi alberi decisionali. Tutti questi alberi utilizzeranno dati di formazione casuali, che aiuteranno a stabilire le caratteristiche. Sappiate che le caratteristiche sono le relazioni che un classificatore costruisce tra i dati nell’apprendimento automatico e ciò che vogliamo prevedere è l’obiettivo.

Vantaggi

Di seguito sono riportati alcuni vantaggi di una foresta casuale:
La foresta casuale aumenta la precisione della vostra previsione
Stai usando la saggezza di una folla invece di una persona o di una macchina
Nessuna delle decisioni relative a una foresta è correlata tra loro

Conclusione

L’apprendimento automatico può avere diversi concetti e termini complicati che vanno al di là della comprensione di un estraneo, ma la foresta casuale è un termine che si avvicina al suo significato originale. Ogni albero decisionale che ne fa parte è il suo elemento costitutivo e funge da ramo di un albero. Mettete insieme più alberi decisionali e avrete in mano uno dei più credibili e accurati algoritmi di classificazione delle previsioni di apprendimento automatico, noto come foresta casuale.