Este artigo esclarece a padronização do grupo de uma forma básica. Eu compus este artigo depois do que ganhei do Fast.ai e do deeplearning.ai. Começarei com o porquê de precisarmos dele, como funciona, nesse momento como incorporá-lo em sistemas pré-preparados, por exemplo, o VGG.

Por que razão usamos a padronização de grupos?

Padronizamos a camada de informação modificando e escalonando as leis. Por exemplo, quando temos destaques de 0 a 1 e alguns de 1 a 1000, devemos padronizá-los para acelerar a aprendizagem. Caso a camada de informação esteja lucrando com isso, por que não realizar algo muito semelhante também para as qualidades das camadas ocultas, que estão mudando constantemente, e obter múltiplas vezes ou uma melhoria maior na velocidade de preparação.

A padronização do grupo diminui a soma pelo que a unidade oculta estima se move (movimento de covariância). Para esclarecer o movimento de covariância, que tal termos um sistema profundo de reconhecimento de felinos. Treinamos as nossas informações apenas em imagens de felinos escuros. Nesta linha, no caso de tentarmos aplicar este sistema à informação com os felinos escuros, é evidente; não vamos progredir de forma admirável. O conjunto de preparação e o conjunto de previsão são as fotos dos dois felinos, mas elas variam um pouco. No final do dia, se um cálculo adaptou algum mapeamento de X a Y, e na hipótese remota de a circulação de X mudar, nesse ponto podemos precisar de re-treinar o cálculo da aprendizagem, tentando ajustar a disseminação de X à transmissão de Y. ( Deeplearning.ai: Por que razão a Norma Bunch funciona? (C2W3L06))

Além disso, a padronização de tufos permite que cada camada de um sistema aprenda sem a entrada de mais ninguém, um pouco mais livremente de diferentes camadas.

Podemos utilizar taxas de aprendizagem mais elevadas, uma vez que a padronização de clusters garante que não há nenhuma atuação que tenha ficado verdadeiramente elevada ou verdadeiramente baixa. Além disso, com isso, coisas que já não puderam ter a oportunidade de se preparar, começarão a se preparar.

Reduz o excesso de adaptação, tendo em conta o facto de que tem um ligeiro impacto de regularização. Como o abandono, adiciona algum clamor às iniciações de cada camada envolta. Desta forma, na hipótese remota de usarmos a padronização de tufos, utilizaremos menos dropout, o que é algo pelo qual vale a pena estar agradecido, tendo em conta que não perderemos grande quantidade de dados. Seja como for, não devemos depender apenas da padronização de grupo para a regularização; devemos utilizá-la melhor junto com a desistência.

Como funciona a padronização de grupos?

Para aumentar a estabilidade de uma rede neural, a normalização dos lotes normaliza a saída de uma camada de ativação anterior, subtraindo a média do lote e dividindo pelo desvio padrão do lote.

Seja como for, após este movimento/tamanho de promulgação produzir por alguns parâmetros arbitrariamente instaurados, as cargas na camada seguinte nunca mais são ideais. O SGD (Stochastic angle drop) corrige essa padronização se for um caminho para que ela limite o trabalho infeliz.

Consequentemente, a normalização dos lotes adiciona dois parâmetros treináveis a cada camada, de modo que a saída normalizada é multiplicada por um parâmetro “desvio padrão” (gama) e adiciona um parâmetro “médio” (beta). No final do dia, a padronização de lotes permite que o SGD faça a desnormalização alterando apenas estas duas cargas para cada iniciação, em vez de perder a força do sistema alterando cada uma das cargas.

Padronização de grupos e sistemas pré-preparados como o VGG:

VGG não tem uma camada padrão de cluster, já que a padronização de grupos não existia antes de VGG. Na hipótese de treiná-la com ela desde o início, o peso pré-preparado irá lucrar com a padronização das ações. Portanto, incluir uma camada padrão de grupo realmente melhora a ImageNet, o que é legal. Você pode adicioná-lo a camadas grossas, e além disso a camadas convolutivas.

No caso de incorporarmos um padrão de grupo em um sistema pré-preparado, ele irá alterar as cargas pré-preparadas, uma vez que irá subtrair a média e a lacuna pelo desvio padrão para as camadas de promulgação e não precisamos que isso aconteça em função do fato de que precisamos que essas cargas pré-preparadas permaneçam o equivalente. Nesta linha, o que temos de fazer é incorporar uma camada padrão de grupo e fazer sentido de gama e beta de modo a fixar a mudança de rendimento.

Para condensar tudo, pode-se considerar a padronização de lotes como fazendo o pré-processamento em cada camada do sistema.