AlexNet venceu amplamente o desafio LSVRC-2012 da ImageNet por uma margem enorme (15,3% contra 26,2% (segunda posição) de erro). Aqui nós examinamos as sutilezas da engenharia de neurônios do papel relacionado ImageNet Characterization with Profound Convolutional Neural Systems.

As características do papel

Use Relu ao invés de Tanh para incluir a não-linearidade. Ele acelera a velocidade em várias vezes com uma precisão semelhante.

Use o dropout em vez da regularização para gerenciar o overfit. De qualquer forma, o tempo de preparação é multiplicado com o ritmo de desistência de 0,5.

Cobertura de piscina para diminuir o tamanho do sistema. Diminui as melhores taxas de erro 1 e top-5 em 0,4% e 0,3%, respectivamente.

A engenharia

Contém 5 camadas convolutivas e 3 camadas completamente associadas. Relu é aplicado após uma camada muito convolutiva e completamente associada. O dropout é aplicado antes do primeiro e segundo ano completamente associado. O tamanho da imagem no gráfico de arquitetura que o acompanha deve ser 227 * 227 ao invés de 224 * 224, como é chamado à atenção por Andrei Karpathy em seu renomado CS231n Course. Ainda mais interessante, o tamanho da informação é 224 * 224 com 2 amortecedores na visão de queimadura de pytorch. A largura de rendimento e o talez deve ser (224-11+4)/4 + 1=55.25! O esclarecimento aqui é que o pytorch Conv2d aplica o administrador do piso ao resultado acima, e, ao longo destas linhas, o último acolchoamento é desconsiderado.

O sistema tem 62,3 milhões de parâmetros, e requer 1,1 bilhão de unidades de cálculo em um passe adiante. Podemos observar também camadas de convolução, que representam 6% do número considerável de parâmetros, gasta 95% do cálculo. Isto leva o outro trabalho de Alex, que utiliza este componente para melhorar a execução. O pensamento essencial desse papel é o seguinte, caso você fique intrigado:

Duplicar as camadas de convolução em várias GPUs; Transportar as camadas completamente associadas em várias GPUs.

Alimentar um cluster de preparação de informações em camadas convolutivas para cada GPU (Paralelo de Informações).

Alimentar as conseqüências das camadas convolucionais na aglomeração de camadas completamente associadas disseminadas por cluster (Modelo Paralelo) Quando o último avanço é realizado para cada GPU. Backpropogate cluster pelas camadas convolucionais e sincronizar as cargas das camadas convolucionais.

Claramente, ele explora os destaques que falamos acima: camadas convolucionais têm um par de parâmetros e bocados de cálculo, camadas completamente associadas são o inverso exato.

Preparando

O sistema leva 90 idades em cinco ou seis dias para se preparar em duas GPUs GTX 580. O SGD com taxa de aprendizagem 0,01, energia 0,9 e apodrecimento de peso 0,0005 é utilizado. A taxa de aprendizagem é dividida por 10, uma vez que os níveis de exatidão. A taxa de inclinação é diminuída várias vezes durante o procedimento de preparação.