R-CNN

Per aggirare la questione della scelta di innumerevoli aree, Ross Girshick et al. hanno proposto una tecnica in cui utilizziamo una ricerca specifica per separare solo 2000 distretti dal quadro e li ha chiamati consigli locali. In questo modo, attualmente, invece di tentare di caratterizzare un numero colossale di distretti, si può semplicemente lavorare con 2000 aree. Queste 2000 proposte locali sono prodotte utilizzando il particolare calcolo dell’inseguimento che è composto sotto.

Ricerca selettiva:

1. Generiamo una sotto-segmentazione iniziale, generiamo molte regioni candidate

2. 3. Utilizzare l’algoritmo dell’avidità per combinare ricorsivamente regioni simili in regioni più grandi

3. 3. Utilizzare le regioni generate per produrre le proposte di regioni candidate finali

Queste 2000 raccomandazioni di area up-and-comer sono distorte in un quadrato e alimentate in un sistema neurale convoluzionale che fornisce un vettore di 4096 elementi dimensionali come rendimento. La CNN funziona come un estrattore di componenti e lo strato spesso di rendimento comprende le evidenziazioni separate dall’immagine e le evidenziazioni estratte sono sostenute in un SVM per caratterizzare la vicinanza dell’elemento all’interno di quella proposizione di area up-and-comer. Pur prevedendo la vicinanza di un elemento all’interno della proposta di distretto, il calcolo prevede anche quattro qualità che sono qualità controbilanciate per costruire l’esattezza della casella di delimitazione. Per esempio, data una proposizione distrettuale, il calcolo avrebbe anticipato la vicinanza di un individuo, ma l’essenza di quell’individuo all’interno di quella proposizione distrettuale avrebbe potuto essere tagliata a metà. In questo modo, le stime di controbilanciamento aiutano a cambiare la casella di salto della proposizione distrettuale.

Problemi con R-CNN

Indipendentemente dal fatto che richiede un certo investimento per preparare il sistema come si dovrebbe caratterizzare 2000 raccomandazioni di area per ogni immagine.

Non può essere attualizzato in corso, in quanto occorrono circa 47 secondi per ogni immagine di prova.

Il calcolo specifico della caccia è un calcolo fisso. In questo modo, in quella fase non si verifica alcun apprendimento. Ciò potrebbe provocare l’età di terribili raccomandazioni da parte del distretto richiedente.

R-CNNN veloce

Un simile creatore della carta del passato (R-CNNN) ha svelato una parte dei lati negativi di R-CNN per costruire un calcolo più rapido del ritrovamento di un elemento ed è stato chiamato Quick R-CNNN. La metodologia è come il calcolo R-CNNN. Tuttavia, piuttosto che rinforzare la proposta di area alla CNN, noi alimentiamo l’immagine delle informazioni alla CNN per produrre una mappa convoluzionale di inclusione. Dalla mappa dell’inclusione convoluzionale, distinguiamo il distretto di raccomandazioni e lo trasformiamo in quadrati e, utilizzando uno strato di pooling del capitale iniziale di investimento, lo rimodelliamo in una dimensione fissa con l’obiettivo di incoraggiarlo in uno strato completamente associato. Dal ritorno per il denaro investito includono vettore, utilizziamo uno strato softmax per anticipare la classe del distretto proposto e, inoltre, le stime di controbilanciamento per la casella di salto.

La spiegazione “Quick R-CNNN” è più rapida di R-CNN, in quanto non è necessario rinforzare la proposta di area 2000 al sistema neurale convoluzionale senza sosta. Piuttosto, l’attività di convoluzione viene eseguita una sola volta per immagine e da essa viene creata una mappa dei componenti.

Dai diagrammi sopra riportati, si può dedurre che Quick R-CNNN è essenzialmente più veloce nella preparazione e nelle sessioni di test su R-CNNN. Nel momento in cui si dà un’occhiata alla mostra di Quick R-CNNN durante il tempo di test, la proposta di distretto incluso ostacola il calcolo fondamentalmente quando si contrasta con il non utilizzo delle raccomandazioni di area. Lungo queste linee, la proposta di area diventa un collo di bottiglia nel calcolo di Quick R-CNNN influenzando la sua esposizione.

R-CNNN più veloce

Entrambi gli algoritmi di cui sopra (R-CNNN e Quick R-CNNN) utilizzano una ricerca particolare per scoprire la proposta locale. La ricerca particolare è una procedura lenta e noiosa che influenza la presentazione del sistema. Così, Shaoqing Ren et al. hanno pensato ad un articolo di calcolo della localizzazione che dispone del calcolo specifico della caccia e dà al sistema la possibilità di familiarizzare con la proposta del distretto.

Come Quick R-CNN, l’immagine è data come contributo ad un’organizzazione convoluzionale che dà una mappa convoluzionale di evidenziazione. Invece di utilizzare un calcolo specifico dell’indagine sulla guida degli elementi per distinguere le raccomandazioni dell’area, viene utilizzato un sistema diverso per prevedere la proposizione locale. La proposta di distretto anticipata viene poi rimodellata utilizzando un livello di pooling di ritorno per il denaro investito, che viene poi utilizzato per organizzare l’immagine all’interno dell’area proposta e prevedere le stime di equilibrio per i riquadri di delimitazione.

Dal grafico sopra riportato, si può notare che R-CNNN più veloce è molto più veloce dei suoi predecessori. Pertanto, può anche essere utilizzato per il rilevamento di oggetti in tempo reale.

YOLO – Si guarda una volta sola

L’insieme dei calcoli di identificazione degli articoli del passato utilizza aree per limitare l’articolo all’interno dell’immagine. Il sistema non dà un’occhiata all’immagine totale. Piuttosto, porzioni dell’immagine che hanno un’alta probabilità di contenere l’articolo. YOLO o You Just Look Once è un calcolo di riconoscimento dell’articolo completamente diverso dai calcoli basati sul distretto visti in precedenza. In YOLO un’organizzazione convoluzionale solitaria prevede le caselle di delimitazione e le probabilità di classe per questi contenitori.

Come funziona YOLO è che noi scattiamo una foto e la dividiamo in un reticolo SxS, all’interno di ogni rete che prendiamo m jumping box. Per ognuno dei jumping box, il sistema produce una probabilità di classe e controbilancia le stime per il bounding box. I bounding box che hanno la probabilità di classe superiore alla stima del bordo vengono scelti e utilizzati per trovare l’oggetto all’interno dell’immagine.

YOLO è una richiesta di misura più veloce (45 contorni al secondo) rispetto ad altri calcoli di identificazione dell’articolo. Il vincolo del calcolo di YOLO è che si scontra con piccoli articoli all’interno del quadro, per esempio, può avere problemi nel distinguere un gruppo di creature piumate. Ciò è dovuto ai limiti spaziali del calcolo.