La Foresta irregolare è uno dei calcoli di IA più famosi e dominanti. Si tratta di una sorta di calcolo dell‘IA di una troupe chiamata Bootstrap Aggregation o packing.

In questo post, troverete il calcolo della raccolta dei sacchi e il calcolo della Foresta Casuale per la dimostrazione preveggente. Dopo aver letto questo post ci penserete:

La strategia di bootstrap per la valutazione di quantità misurabili dai test.

Il calcolo di aggregazione Bootstrap Aggregation per la realizzazione di vari modelli a partire da un set di dati di preparazione solitario.

Il calcolo Random Forest che fa una piccola modifica all’insaccamento e risulta in un classificatore estremamente innovativo.

Metodo con la cinghia da stivale

Prima di arrivare a Bagging, dovremmo indagare su un sistema di stabilimento significativo chiamato bootstrap.

Il bootstrap è un’incredibile tecnica misurabile per valutare una quantità da un test informativo. È meno impegnativo capire se la quantità è una misura illuminante, per esempio una media o una deviazione standard.

Che ne dite se accettiamo di avere un esempio di 100 qualità (x) e ci piacerebbe avere una misura della media dell’esempio.

Possiamo calcolare la media legittimamente dall’esempio come:

media(x) = 1/100 * somma(x)

Ci rendiamo conto che il nostro esempio è poco e che il nostro meschino si è sbagliato. Possiamo migliorare la misura del nostro mezzo utilizzando la tecnica del bootstrap:

Fare molti (per esempio 1000) sub-test irregolari del nostro set di dati con una sostituzione (il che significa che possiamo scegliere un valore simile in diverse occasioni).

Ascertare la media di ogni sotto-test.

Ascertare la normale dell’insieme dei nostri metodi raccolti e utilizzarli come mezzo di valutazione per l’informazione.

Per esempio, supponiamo di utilizzare 3 ricampioni e di ottenere le qualità medie 2.3, 4.5 e 3.3. Prendendo la normale di questi potremmo prendere la media valutata delle informazioni per essere 3,367.

Questa procedura può essere utilizzata per valutare diverse quantità come la deviazione standard e anche le quantità utilizzate nei calcoli dell’IA, come coefficienti accademici.

Raccolta Stivaletto (Stivaggio)

Bootstrap Accumulation (o Sacking in breve), è una tecnica di troupe semplice ed eccezionalmente innovativa.

Una strategia di troupe è un metodo che consolida le aspettative dei vari calcoli dell’IA per fare previsioni più precise di qualsiasi altro modello individuale.

Bootstrap Accumulation è una strategia generale che può essere utilizzata per ridurre il cambiamento per quel calcolo che ha una grande differenza. Un calcolo che ha un’elevata differenza è costituito da alberi di scelta, simili agli alberi di caratterizzazione e di ricaduta (Truck).

Gli alberi di scelta sono delicati per le particolari informazioni su cui sono preparati. Nella remota possibilità che le informazioni sulla preparazione vengano modificate (per esempio un albero viene preparato su un sottoinsieme delle informazioni sulla preparazione), l’albero di scelta successivo può essere molto unico e quindi le aspettative possono essere molto straordinarie.

Il saccheggio è l’uso della strategia Bootstrap per un calcolo di IA ad alto cambiamento, comunemente alberi di scelta.

Dovremmo aspettarci di avere un set di dati di esempio di 1000 occasioni (x) e stiamo utilizzando il calcolo Truck. Lo stivaggio del calcolo del Camion si riempirebbe come inseguimenti.

Effettuare molti (ad esempio 100) sub-test irregolari del nostro set di dati con la sostituzione.

Addestrare un modello di autocarro su ogni esempio.

Dato un altro set di dati, calcolare la normale aspettativa di ogni modello.

Per esempio, nel caso in cui avessimo 5 alberi di scelta impacchettati che fanno le aspettative della classe di accompagnamento per un test in ingresso: blu, blu, rosso, rosso, blu e rosso, prenderemmo la classe più incessante e prevederemmo il blu.

Quando stivare con alberi di scelta, siamo meno preoccupati che i singoli alberi siano sovradimensionati rispetto alle informazioni sulla preparazione. Per questo motivo e per competenza, i singoli alberi di scelta sono sviluppati in profondità (per esempio quasi nessun test di preparazione ad ogni foglia-mozzo dell’albero) e gli alberi non vengono potati. Questi alberi avranno sia un’alta differenza che una bassa inclinazione. Si tratta di una rappresentazione significativa dei sottomodelli quando si consolidano le previsioni utilizzando l’imballaggio.

I parametri principali quando si impacchettano gli alberi di scelta sono il numero di prove e quindi il numero di alberi da incorporare. Questo può essere scelto espandendo il numero di alberi in fase di inseguimento fino a quando l’esattezza inizia a smettere di indicare il miglioramento (ad esempio su un tackle di prova di approvazione incrociata). Quantità molto enormi di modelli possono mettere da parte un lungo sforzo per prepararsi, ma non si adatta troppo alle informazioni di preparazione.

Proprio come gli stessi alberi di scelta, il saccheggio può essere utilizzato per problemi di sistemazione e ricadute.

Legni irregolari

Timberland irregolari sono un miglioramento rispetto a imballato via alberi scelta.

Un problema con alberi di scelta come Truck è che sono bramosi. Scelgono la variabile da dividere in parti utilizzando un calcolo avido che limita l’errore. Così, anche con Stowing, gli alberi di scelta possono avere una tonnellata di similitudini ausiliarie e quindi hanno una connessione elevata nelle loro aspettative.

Unirsi alle aspettative di numerosi modelli di abiti funziona meglio se le previsioni dei sottomodelli non sono correlate o, nella migliore delle ipotesi, corrispondono pietosamente.

Il bosco arbitrario cambia il calcolo per il modo in cui vengono scoperti i sottoalberi con l’obiettivo che le previsioni successive dell’insieme dei sottoalberi abbiano meno relazione.

È un cambiamento semplice. In Truck, mentre si sceglie un punto di divisione, il calcolo di apprendimento è permesso di guardare attraverso tutti i fattori e ogni singolo incentivo variabile in modo da scegliere il punto di divisione più ideale. Il calcolo arbitrario di Timberland cambia questa metodologia con l’obiettivo che il calcolo di apprendimento sia vincolato ad un esempio irregolare di punti salienti di cui guardare.

Il numero di punti salienti che si possono osservare in ogni punto di divisione (m) deve essere determinato come parametro per il calcolo. Si possono tentare varie qualità e sintonizzarle utilizzando l’approvazione incrociata.

Per la caratterizzazione un default decente è: m = sqrt(p)

Per le ricadute il valore predefinito è: m = p/3

Dove m è la quantità di punti salienti scelti arbitrariamente che si possono guardare in un punto di divisione e p è la quantità di fattori di informazione. Per esempio, nella remota possibilità che un set di dati abbia 25 fattori di informazione per un problema di raggruppamento, a quel punto:

m = mq(25)

m = 5

Esecuzione valutata

Per ogni prova di bootstrap presa dalle informazioni di preparazione, ci saranno prove disertate che sono state escluse. Questi esempi sono i test Out-Of-Sack o OOB.

L’esposizione di ogni modello sul lato sinistro, quando si trova il valore medio, può dare un’aspettativa di esattezza dei modelli imballati. Questa mostra valutata è spesso chiamata il calibro OOB di esecuzione.

Queste stime di esposizione sono solidi misuratori di errori di prova e corrispondono bene ai misuratori di approvazione trasversale.