Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

La GRU, también conocida como Gated Recurrent Unit, se introdujo en 2014 para resolver el problema común de gradiente desvanecido al que se enfrentaban los programadores. Muchos también consideran la GRU una variante avanzada de la LSTM debido a sus diseños similares y a sus excelentes resultados. 

Unidades Recurrentes Cerradas: cómo funcionan

Como se ha mencionado anteriormente, las Unidades Recurrentes Cerradas (GRU) son una variación avanzada de las SRRN (redes neuronales recurrentes estándar). Sin embargo, es posible que se pregunte por qué las GRU son tan eficaces. Averigüémoslo. 

Las GRUs utilizan la puerta de actualización y la puerta de reinicio para resolver el problema del gradiente de fuga de una RNN estándar. Se trata esencialmente de 2 vectores que deciden el tipo de información que se pasa a la salida. Lo que hace que estos vectores sean especiales es que los programadores pueden entrenarlos para almacenar información, especialmente de hace mucho tiempo. El diagrama siguiente muestra las matemáticas implicadas en el proceso:

A continuación, una mirada más detallada al GRU

 

Cómo funcionan estas UGR

Muchas personas se preguntan a menudo cómo funcionan Siri o la búsqueda por voz de Google. Pues bien, la respuesta es muy sencilla: la red neuronal recurrente. Las RNN tienen complicados algoritmos que siguen los mismos principios que las neuronas presentes en el cerebro humano.  El algoritmo RNN memoriza toda la entrada que tiene gracias a una memoria interna que lo hace ideal para cualquier problema de aprendizaje automático con datos cronológicos. 

Aunque las RNN tienden a ser increíblemente robustas, a menudo se enfrentan a problemas relacionados con la memoria a corto plazo. A pesar de ser una serie larga de datos, la RNN se enfrenta a problemas cuando se trata de transferir datos de pasos anteriores a otros nuevos. Por ejemplo, si se ha procesado un párrafo para completar las predicciones, la RNN podría correr el riesgo de omitir información significativa del principio. 

También hay que tener en cuenta que la red neuronal recurrente de retropropagación se enfrenta a problemas de gradiente desvanecido en los que los gradientes son valores utilizados para actualizar el peso del sistema neuronal. 

Explicación de los problemas de gradiente de desvanecimiento

Para aquellos que se lo preguntan, los problemas de gradiente desvanecido ocurren cuando el gradiente tiende a reducirse después de retropropagarse en el tiempo y no ofrece valor en el proceso de aprendizaje. Por lo tanto, en las redes neuronales registradas, si los primeros niveles ganan la menor cantidad de gradiente, su proceso de aprendizaje se interrumpe. Como estas capas no aprenden, la RNN no recuerda nada de la experiencia en series de datos más largas y se enfrenta a problemas de memoria a corto plazo.  

Las LSTM y las GRUs son soluciones ideales para resolver este problema.

Cómo resuelve el problema la UGR

Como ya se ha mencionado, las GRUs o unidades de corriente cerrada son una variación del diseño de las RNN. Utilizan un proceso de compuerta para gestionar y controlar el flujo de automatización entre las células de la red neuronal. Las GRUs pueden facilitar la captación de dependencias sin ignorar la información pasada de trozos masivos de datos secuenciales. 

La GRU hace todo esto utilizando sus unidades con compuertas, que ayudan a resolver los problemas de gradiente de desaparición/explosión que se encuentran a menudo en las redes neuronales registradas tradicionales. Estas puertas son útiles para controlar la información que debe mantenerse o descartarse en cada paso. También vale la pena tener en cuenta que las unidades recurrentes con compuertas hacen uso de las compuertas de reinicio y actualización. A continuación las vemos. 

Función de la puerta de actualización

La función principal de la puerta de actualización es determinar la cantidad ideal de información anterior que es importante para el futuro. Una de las principales razones por las que esta función es tan importante es que el modelo puede copiar todos los detalles del pasado para eliminar el problema del gradiente de desvanecimiento.

La función de la puerta de reinicio

Una de las principales razones por las que la puerta de reinicio es vital es porque determina cuánta información debe ser ignorada. Sería justo comparar la puerta de reinicio con la puerta de olvido de LSTM porque tiende a clasificar los datos no relacionados, seguido de conseguir que el modelo los ignore y proceda sin ellos. 

Qué diferencia a la GRU de la LSTM

La LSTM, a la que mucha gente también se refiere como memoria a largo plazo, resulta ser una arquitectura artificial de RNN, utilizada a menudo en el aprendizaje profundo. Las redes de memoria a corto plazo tienden a ser bastante adecuadas para hacer previsiones, clasificar y procesar sobre la base de datos de cadenas de tiempo. Esto se debe a que siempre existe la posibilidad de que haya lagunas en períodos no identificados dentro de los eventos vitales presentes en las cadenas de tiempo. 

Las unidades recurrentes reguladas se introdujeron en 2014 para resolver los problemas de gradiente a los que se enfrentaban las RNN. Las GRU y las LSTM comparten múltiples propiedades. Por ejemplo, ambos algoritmos utilizan un método de gating para gestionar los procedimientos de memorización. Dicho esto, las GRU no son tan complejas como las LSTM y su cálculo no requiere demasiado tiempo. 

Aunque hay varias diferencias entre la LSTM y la GRU, la principal es que la memoria a corto plazo tiene tres puertas de entrada, a saber: olvido, salida y entrada. Por otro lado, en la GRU sólo hay dos puertas, que son: actualización y reinicio. Además, las GRU no son demasiado complejas y la razón principal es el menor número de puertas en comparación con las LSTM.

Por qué las UGR son superiores

Las GRU se consideran muy superiores a las LSTM porque su modificación es relativamente sencilla, ya que no requieren unidades de memoria. A menudo se confía en las GRUs cuando hay una pequeña serie de datos. Sin embargo, cuando hay una serie de datos grande, los LSTM son la opción preferida. 

No hace falta decir que GRU y LSTM son necesarios en una variedad de dominios complicados que incluyen la comprensión de la máquina, la predicción del precio de las acciones, el análisis del sentimiento, la síntesis del habla, el reconocimiento del habla, la traducción automática y más. 

Las Unidades Recurrentes Cerradas (GRU) son una parte vital del panorama de la ciencia de datos y aprender sobre ellas es vital para asegurarse de que se pueden utilizar adecuadamente. Debido a su capacidad para resolver el problema del gradiente de fuga, las GRUs han demostrado ser un regalo del cielo en el mundo de la ciencia de datos y los programadores las están entrenando y utilizando adecuadamente para escenarios complicados.