Immaginate di dover acquistare un veicolo, OK andate semplicemente in un negozio e acquistate il primo che vedete? No, non è così? Per la maggior parte di voi consigliare quasi nessun individuo intorno a voi, prendere la loro conclusione, aggiungere la vostra esplorazione ad esso e poi andare per una conclusione definitiva. Dovremmo prendere una situazione meno difficile: a qualunque punto si vada per un film, ci si avvicina ai propri compagni per dei sondaggi sul film (a meno che non si tratti di uno dei personaggi preferiti sullo schermo)?

Vi è mai capitato di chiederci per quale motivo riceviamo informazioni sui loro sentimenti o sulle loro verifiche prima di andare a vedere un film o prima di acquistare un veicolo o potrebbe esserlo, prima di organizzare un’occasione? Questo sulla base del fatto che l’indagine di una persona potrebbe essere unilaterale secondo la sua inclinazione; sia come sia, quando chiediamo a diversi individui stiamo cercando di espellere la predisposizione che un individuo solitario può dare. Una persona può avere un’avversione molto solida per un obiettivo particolare a causa del suo coinvolgimento in quell’area; in ogni caso, altre dieci persone possono avere una propensione molto solida per un obiettivo simile, dato che hanno avuto un magnifico incontro in quell’area. Da ciò possiamo dedurre che una persona è stata progressivamente simile a un caso eccellente e che la sua esperienza potrebbe essere un caso.

Un altro modello che sono certo tutti noi abbiamo sperimentato è durante gli incontri in qualsiasi organizzazione o scuola. Spesso abbiamo bisogno di fare esperienza di vari cicli di incontri. Nonostante il fatto che le richieste poste in vari cicli di incontri siano comparative, se non identiche, le organizzazioni mettono ancora tutto in gioco. La spiegazione è che hanno bisogno di vedere da vari pionieri dell’arruolamento. Nella remota possibilità che numerosi pionieri si stiano concentrando su un’emergente, a quel punto la probabilità che finisca per essere un contratto decente è alta.

Nel mondo dell’analitica e della scienza dei dati, questo si chiama “assembramento”. L’assemblaggio è un “tipo di tecnica di apprendimento supervisionato in cui più modelli sono addestrati su un set di dati di formazione e i loro risultati individuali sono combinati da una qualche regola per ricavare il risultato finale”.

Che ne dite di rompere la definizione di cui sopra e di dare un’occhiata a poco a poco.

Nel momento in cui dichiariamo che su un set di dati vengono preparati vari modelli, lo stesso modello con vari iperparametri o vari modelli possono essere preparati sul set di dati di preparazione. La preparazione delle percezioni può variare in qualche modo durante l’ispezione; sia come può, in generale, la popolazione continua come prima.

“Gli output sono combinati da una qualche regola” – ci potrebbero essere più regole con cui gli output sono combinati. Le più riconosciute sono quelle normali (per quanto riguarda il rendimento numerico) o il voto (per quanto riguarda il rendimento netto). Quando diversi modelli ci danno il rendimento numerico, possiamo semplicemente prendere la media di tutti gli output e usare la media come risultato. Se si dovesse verificare un’uscita in chiaro, possiamo utilizzare il voto – l’uscita che si verifica il maggior numero di volte è l’ultima uscita. Ci sono altre strategie complesse per determinare in aggiunta al rendimento, ma sono fuori dalla portata di questo articolo.

Random Forest è uno di questi incredibili calcoli di AI che funziona facendo vari alberi di scelta e consolidando poi la resa creata da ognuno degli alberi di decisione. L’albero di scelta è un modello di disposizione che funziona a partire dall’idea del guadagno di dati in ogni hub. Per ognuno dei focus di informazione, l’albero delle decisioni cercherà di caratterizzare i focus di informazione in ognuno degli hub e di controllare il guadagno di dati in ogni hub. In quel punto ordinerà all’hub dove l’aumento dei dati è maggiore. Proseguirà questa procedura lungo queste linee fino a quando tutti gli hub non saranno esauriti o non ci sarà un ulteriore guadagno di dati. Gli alberi decisionali sono modelli eccezionalmente semplici e semplici, ma hanno un basso potere di preveggenza. A dire il vero, sono chiamati studenti deboli.

Arbitrario Backwoods prende un colpo contro l’equivalente studenti deboli. Si unisce al rendimento di vari alberi di scelta e dopo, finalmente, inventa il proprio rendimento. Arbitrary Woods si occupa di una linea guida simile a quella di Decision Tress; in ogni caso, non sceglie tutte le informazioni e i fattori di ogni albero. Testa a caso le informazioni focalizzate e i fattori in ognuno degli alberi che produce e poi si unisce alla produzione verso la fine. Espelle la predisposizione che un modello di albero di scelta può presentare nel quadro. Allo stesso modo, migliora del tutto il potere preveggente. Lo vedremo nella seguente area quando prenderemo un esempio di raccolta di informazioni e penseremo alla precisione di Arbitrary Woodland e Decision Tree.

Attualmente, dovremmo fare un po’ di analisi contestuale e tentare di eseguire vari modelli di Backwoods Irregolari con vari iperparametri, e analizzare uno dei modelli Arbitrary Woodland con il modello Decision Tree. (Sono certo che sarete d’accordo con me su questo – anche senza attualizzare il modello, possiamo dire istintivamente che i Backwoods Irregular Backwoods ci daranno risultati preferibili rispetto al Choice Tree). Il set di dati è tratto dal sito dell’UCI e può essere trovato su questo collegamento. Le informazioni contengono 7 fattori – sei logici (Valore d’acquisto, Supporto, NumDoors, NumPersons, BootSpace, Benessere) e una variabile di reazione (Condition). I fattori sono chiari come il cristallo e alludono alle qualità dei veicoli e la variabile di reazione è ‘Vehicle Worthiness’. Ognuno di questi fattori è tutto in natura e ha 3-4 livelli di figure ciascuno.

Iniziamo l’implementazione del codice R e prevediamo l’accettabilità dell’auto sulla base di variabili esplicative.

1 2 3 4 # Fonte dei dati: https://archive.ics.uci.edu/ml/machine-learning-databases/car/   install.packages (“randomForest”) biblioteca(randomForest)
1 2 3 4 5 6 7 8 # Carica il dataset ed esplora dati1 <- read.csv(file.choose(), intestazione = VERO)   testa(dati1)   str(dati1)   riepilogo(dati1)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 > testa(dati1)   AcquistoPrezzo Manutenzione NumPorte NumPersone BootSpace Condizione di sicurezza 1 vhigh vhigh 2 2 piccolo basso unacc 2 vhigh vhigh 2 2 piccoli med unacc 3 vhigh vhigh 2 2 piccolo alto unacc 4 vhigh vhigh 2 2 med low unacc 5 vhigh vhigh 2 2 med med unacc 6 vhigh vhigh 2 2 med high unacc > str(dati1) data.frame”: 1728 oss. di 7 variabili:  $ BuyingPrice: Fattore con 4 livelli “alto”, “basso”, “med”, …: 4 4 4 4 4 4 4 4 4 4 4 4 …  Manutenzione: Fattore con 4 livelli “alto”, “basso”, “med”, …: 4 4 4 4 4 4 4 4 4 4 4 4 …  $ Numeri Porte : Fattore con 4 livelli “2”, “3”, “4”, “5more”: 1 1 1 1 1 1 1 1 1 1 …  $ NumPersone : Fattore con 3 livelli “2”, “4”, “more”: 1 1 1 1 1 1 1 1 1 2 …  $ BootSpace : Fattore con 3 livelli “grande”, “med”, “piccolo”: 3 3 3 2 2 2 1 1 1 3 …  $ Sicurezza : Fattore con 3 livelli “alto”, “basso”, “med”: 2 3 1 2 3 1 2 3 1 2 …  $ Condizione: Fattore con 4 livelli “acc”, “buono”, “unacc”, …: 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 … > riepilogo(dati1)  AcquistoPrezzo Manutenzione NumPorte NumPersone BootSpace Condizione di sicurezza    alto :432 alto :432 alto :432 2 :432 2 :576 grande :576 alto:576 acc : 384   basso :432 basso :432 basso :432 3 :432 4 :576 med :576 basso :576 basso :576 buono : 69   med :432 med :432 4 :432 più:576 piccolo:576 med :576 unacc:1210   vhigh:432 vhigh:432 5more:432 vgood: 65 

Ora, divideremo il set di dati in treno e validazione impostata nel rapporto 70:30. Possiamo anche creare un dataset di test, ma per il momento ci limiteremo a mantenere il treno e il set di validazione.

1 2 3 4 5 6 7 8 # Split in Train and Validation sets # Training Set : Set di validazione = 70 : 30 (casuale) set.seme(100) treno <- campione(nrow(dati1), 0.7*nrow(dati1), sostituire = FALSO) TrainSet <- dati1[treno,] ValidSet <- dati1[-treno,] riepilogo (TrainSet) riepilogo(ValidSet)
1 2 3 4 5 6 7 8 9 10 11 12 > sommario (TrainSet)  AcquistoPrezzo Manutenzione NumPorte NumPersone BootSpace Condizione di sicurezza   alto :313 alto :287 2 :305 2 :406 grande :416 alto :396 acc :264   basso :292 basso :317 3 :300 3 :300 4 :399 med :383 basso :412 buono : 52   med :305 med :303 4 :295 più:404 più:404 più piccolo:410 med :401 unacc:856   vhigh:299 vhigh:302 5more:309 vgood: 37  > sommario(ValidSet)  AcquistoPrezzo Manutenzione NumPorte NumPersone BootSpace Condizione di sicurezza   alto :119 alto :119 alto :145 2 :127 2 :170 grande :160 alto :180 acc :120   basso :140 basso :140 basso :115 3 :132 4 :177 med :193 basso :164 basso :164 buono : 17   med :127 med :129 4 :137 più:172 più:172 più piccolo:166 med :175 unacc:354   vhigh:133 vhigh:130 5more:123