В данной статье дается базовое разъяснение по групповой стандартизации. Я написал эту статью после того, что я получил от Fast.ai и deeplearning.ai. Я начну с того, зачем она нам нужна, как она работает, как включить ее в заранее подготовленные системы, например, VGG.

По какой причине мы используем групповую стандартизацию?

Мы стандартизируем информационный слой, изменяя и масштабируя нормативные акты. Например, когда у нас есть выделения от 0 до 1 и некоторые от 1 до 1000, мы должны стандартизировать их, чтобы ускорить процесс обучения. Если информационный слой извлекает из этого выгоду, почему бы не достичь чего-то очень похожего на качество скрытых слоев, которое постоянно меняется, и получить многократное или большее улучшение в скорости подготовки.

Стандартизация группы уменьшает сумму на то, на что движутся почести скрытой единицы (ковариационный ход). Чтобы прояснить ковариационный ход, как насчет того, чтобы иметь глубокую систему распознавания кошек. Мы тренируем нашу информацию только на картинках темных кошек. В соответствии с этим, в случае, если мы в настоящее время пытаемся применить эту систему к информации с нарисованными кошками, это само собой разумеется; мы не собираемся развиваться восхитительно. Подготовительный и прогнозный набор – это снимки двух линий, но они несколько отличаются друг от друга. В конце концов, если вычисления адаптировали некоторое отображение X к Y, и если есть вероятность того, что циркуляция X изменится, то в этот момент нам, возможно, придется переучить вычисления обучения, попытавшись приспособить распространение X к передаче Y. ( Глубокое изучение.ai: По какой причине работает норма Bunch? (C2W3L06))

Кроме того, стандартизация компоновки позволяет каждому слою системы учиться без чьего-либо участия несколько свободнее разных слоев.

Мы можем использовать более высокие темпы обучения, так как стандартизация кластеров гарантирует, что не произойдет ничего по-настоящему высокого или по-настоящему низкого. Кроме того, к тому же, вещи, которые уже не смогли получить возможность подготовиться, начнут готовиться.

Это уменьшает переоснащение в свете того, что оно оказывает незначительное влияние на регуляризацию. Как и отсев, он добавляет немного шума к инициациям каждого зачехленного слоя. Таким образом, при отсутствии шансов, что мы используем стандартизацию клампов, мы будем использовать меньше выпаданий, за что стоит быть благодарным в свете того, что мы не потеряем много данных. Как бы то ни было, мы не должны зависеть только от групповой стандартизации для регуляризации; мы должны лучше использовать ее вместе с выпаданием данных.

Как работает групповая стандартизация?

Для повышения устойчивости нейронной сети, пакетная нормализация нормализует выход предыдущего активационного слоя путем вычитания среднего и деления на среднеквадратическое отклонение пакета.

Как бы то ни было, после такого перемещения/размеров введения в действие дает урожайность по некоторым произвольно заданным параметрам, нагрузки в следующем слое больше никогда не будут идеальными. SGD ( Stochastic angle drop) исправляет эту стандартизацию, если это путь к ограничению несчастной работы.

Следовательно, пакетная нормализация добавляет два обучаемых параметра к каждому слою, поэтому нормализованный выход умножается на параметр “стандартное отклонение” (гамма) и добавляет “средний” параметр (бета). В конце концов, пакетная стандартизация позволяет SGD выполнять денормализацию, изменяя только эти две нагрузки при каждом инициировании, вместо того, чтобы терять прочность системы, изменяя каждую из нагрузок.

Групповая стандартизация и предварительно подготовленные системы, такие как VGG:

В VGG нет кластерного стандартного уровня, так как до VGG не существовало групповой стандартизации. На случай, если мы будем тренировать его с ним с самого начала, заранее подготовленная масса выиграет от стандартизации действий. Поэтому включение группового стандартного уровня действительно улучшает ImageNet, что очень круто. Вы можете добавлять ее в толстые слои, а также в конволюционные слои.

В случае, если мы встраиваем групповой стандарт в заранее подготовленную систему, это изменит предварительно подготовленные нагрузки, так как это вычтет среднее значение и зазор по среднему отклонению стандарта для слоев принятия, и нам не нужно, чтобы это произошло в свете того, что нам нужно, чтобы эти предварительно подготовленные нагрузки оставались эквивалентными. В соответствии с этим, нам нужно внедрить групповой стандартный слой и понять смысл гаммы и бета-версии, чтобы зафиксировать изменение урожайности.

Чтобы сгущать все, можно рассмотреть стандартизацию пучков как выполнение препроцессинга на каждом слое системы.