Este artículo aclara la estandarización de grupos de manera básica. Compuse este artículo después de lo que obtuve de Fast.ai y deeplearning.ai. Empezaré con el porqué lo necesitamos, cómo funciona, en ese punto cómo incorporarlo en sistemas ya preparados, por ejemplo, VGG.

¿Por qué razón usamos la estandarización de grupos?

Estandarizamos la capa de información modificando y escalando las promulgaciones. Por ejemplo, cuando tenemos los puntos destacados de 0 a 1 y algunos de 1 a 1000, debemos estandarizarlos para acelerar el aprendizaje. En el caso de que la capa de información se beneficie de ello, ¿por qué no lograr algo muy similar de la misma manera para las cualidades de las capas ocultas, que están cambiando constantemente, y obtener múltiples veces o mayor mejora en la velocidad de preparación.

La estandarización de grupos disminuye la suma por lo que la unidad oculta estima que se mueve (movimiento de covarianza). Para aclarar el movimiento de covarianza, ¿qué tal si tenemos un sistema profundo de reconocimiento de felinos? Entrenamos nuestra información sólo en las imágenes oscuras de los felinos. En este sentido, en el caso de que actualmente intentemos aplicar este sistema a la información de los felinos oscuros, es evidente que no vamos a progresar de forma admirable. El juego de preparación y el juego de pronóstico son las dos fotos de los felinos, pero varían un poco. Al final del día, si un cálculo adaptaba algunos mapas de X a Y, y por si acaso la circulación de X cambia, en ese momento puede que necesitemos volver a entrenar el cálculo de aprendizaje intentando ajustar la difusión de X a la transmisión de Y. ( Deeplearning.ai: ¿Por qué razón funciona la norma del grupo? (C2W3L06))

Además, la estandarización de los grupos permite que cada capa de un sistema aprenda sin la entrada de nadie más un poco más libremente de las diferentes capas.

Podemos utilizar tasas de aprendizaje más altas ya que la estandarización de los grupos asegura que no haya ninguna actuación que se haya ido realmente elevada o realmente baja. También, por eso, las cosas que ya no pudieron tener la oportunidad de prepararse, comenzarán a prepararse.

Disminuye el exceso de equipamiento a la luz del hecho de que tiene un ligero impacto de regularización. Como la deserción, añade un poco de clamor a las iniciaciones de cada capa cubierta. De esta manera, en la remota posibilidad de que usemos la estandarización de los grupos, utilizaremos menos abandono, lo cual es algo que vale la pena agradecer a la luz del hecho de que no perderemos una gran cantidad de datos. Sea como fuere, no debemos depender sólo de la estandarización de grupos para la regularización; debemos utilizarla mejor junto con la deserción.

¿Cómo funciona la normalización de grupos?

Para aumentar la estabilidad de una red neuronal, la normalización de lotes normaliza la salida de una capa de activación anterior restando la media del lote y dividiéndola por la desviación estándar del lote.

Sea como fuere, después de que este movimiento/tamaño de promulgación ceda por algunos parámetros arbitrariamente instaurados, las cargas en la siguiente capa nunca más son ideales. El SGD (caída de ángulo estocástica) fija esta estandarización si es un camino para que limite el trabajo de la desgracia.

En consecuencia, la normalización de los lotes añade dos parámetros entrenables a cada capa, de modo que la salida normalizada se multiplica por un parámetro de “desviación estándar” (gamma) y añade un parámetro “medio” (beta). Al final del día, la normalización de los lotes permite a SGD hacer la desnormalización cambiando sólo estas dos cargas para cada iniciación, en lugar de perder la fuerza del sistema cambiando cada una de las cargas.

Estandarización de grupos y sistemas preparados como el VGG:

La VGG no tiene una capa estándar de grupo, ya que la estandarización de grupo no existía antes de la VGG. Por si acaso lo entrenamos con él desde el principio, el peso preparado se beneficiará de la estandarización de las acciones. Así que incluir una capa estándar de grupo realmente mejora ImageNet, lo cual es genial. Puedes añadirlo a las capas gruesas, y además a las capas convolucionales.

En el caso de que incrustemos un estándar de grupo en un sistema preparado, cambiará las cargas preparadas, ya que restará la media y la brecha por la desviación estándar para las capas de promulgación y no necesitamos que eso suceda a la luz del hecho de que necesitamos que esas cargas preparadas sigan siendo equivalentes. En esta línea, lo que tenemos que hacer es incrustar una capa estándar de grupo y darle sentido a la gamma y a la beta para fijar el cambio de rendimiento.

Para condensar todo, puedes considerar la estandarización del grupo como hacer un preprocesamiento en cada capa del sistema.