L’apprendimento del trasferimento sfrutta le conoscenze acquisite durante la risoluzione di un problema e le applica ad un problema speciale ma correlato.
Ad esempio, le conoscenze acquisite mentre si impara a riconoscere le auto sono spesso in qualche misura in grado di riconoscere i camion.
Pre-formazione
Quando addestriamo la rete su un dataset sovradimensionato (per esempio: ImageNet) , addestriamo tutti i parametri della rete neurale e quindi il modello viene appreso. ci vorranno ore sulla vostra GPU.
Messa a punto
Possiamo dare il nuovo set di dati per mettere a punto la CNN pre-formata. Si consideri che il nuovo dataset è quasi simile al dataset originale usato per la pre-formazione. Poiché il nuovo dataset è analogo, spesso si usano pesi equivalenti per estrarre le caratteristiche dal nuovo dataset.
Se il nuovo dataset è estremamente piccolo, è meglio allenare solo gli ultimi strati della rete per evitare l’overfitting, mantenendo tutti gli altri strati fissi. Quindi rimuovere gli ultimi strati della rete preallenata. Aggiungere nuovi strati. Allenare solo i nuovi strati.
Se il nuovo set di dati è estremamente grande, riqualificare l’intera rete con i pesi iniziali del modello pre-addestrato.
Come mettere a punto se il nuovo dataset è estremamente diverso dal dataset originale?
Le caratteristiche precedenti di un ConvNet contengono caratteristiche più generiche (ad esempio i rilevatori di bordi o i rilevatori di blob di colore), ma gli strati successivi del ConvNet diventano progressivamente più specifici per la piccola stampa delle classi contenute nel dataset originale.
I livelli precedenti possono aiutare ad estrarre le caratteristiche dei nuovi dati. Quindi sarà bene fissare i primi strati e riqualificare i rimanenti strati, se si acquista solo un po’ di conoscenza.
Se si dispone di una grande quantità di conoscenza, si aggiornerà l’intera rete con i pesi inizializzati dalla rete pre-formata.