Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

AlexNet в целом выиграла в конкурсе 2012 ImageNet LSVRC-2012 с огромным преимуществом (15,3% против 26,2% (второе место) ошибок). Здесь мы рассматриваем тонкости нейронной инженерии из соответствующей работы ImageNet Characterization with Profound Convolutional Neural Systems.

Особенности работы

Используйте Relu, а не Tanh для включения нелинейности. Он ускоряет скорость в несколько раз с одинаковой точностью.

Используйте отсев, а не регуляризацию для управления переподгонкой. В любом случае, время подготовки умножается на скорость отсева в 0,5 раза.

Объединение покрытия для уменьшения размера системы. Это уменьшает коэффициент ошибок 1 и 5 лучших ошибок на 0,4% и 0,3%, соответственно.

Инжиниринг

Он содержит 5 конволюционных слоев и 3 полностью связанных слоя. Рельеф наносится после очень конволюционного и полностью связанного с ним слоя. Выпадающий слой наносится до первого и второго полностью ассоциированного года. Размер картинки в сопровождающей архитектурной схеме должен быть 227 * 227, а не 224 * 224, как это называет внимание Андрея Карпати в его известном курсе CS231n. Тем более интересно, что размер информации 224 * 224 с 2 амортизацией в видении ожога питора. Ширина и высота урожая должны быть (224-11+4)/4 + 1=55.25! Уточнение здесь – pytorch Conv2d применяет к вышеуказанному результату администратор пола, при этом последнее амортизация не учитывается.

https://miro.medium.com/max/1536/1*qyc21qM0oxWEuRaj-XJKcw.png

Система имеет 62,3 миллиона параметров и требует 1,1 миллиарда расчетных единиц в форвардном проходе. Мы также можем наблюдать слои свертки, которые составляют 6% от значительного числа параметров, расходует 95% от суммы расчетов. Это приводит к другой работе Алекса, который использует эту составляющую для улучшения исполнения. Основная мысль этой работы заключается в том, что в случае, если вы заинтригованы:

Дублируйте слои свертки на различные GPU; переносите полностью связанные слои на различные GPU.

Подать один кластер подготовки информации в конверсионные слои для каждого GPU (Information Parallel).

Подавать последствия конволюционных слоев в рассеянные полностью ассоциированные слои, собирать по кластерам (Model Parallel) Когда завершено последнее продвижение для каждого GPU. Кластер обратных наклонов по группе и синхронизация нагрузок на конволюционные слои.

Очевидно, что он использует основные моменты, о которых мы говорили выше: конволюционные слои имеют пару параметров и пучков вычислений, полностью связанные слои являются точной обратной стороной.

Подготовка

Подготовка системы к работе на двух графических процессорах GTX 580 занимает 90 лет за пять-шесть дней. Используется SGD со скоростью обучения 0,01, энергией 0,9 и весом гниения 0,0005. Скорость обучения делится на 10 раз по степени точности. Скорость наклона уменьшается в несколько раз во время подготовки.

https://miro.medium.com/max/866/1*zRCEzN657yvGBXZGBoG2Jw.png