Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

Le GRU, également appelé Gated Recurrent Unit, a été introduit en 2014 pour résoudre le problème courant de gradient évanescent auquel les programmeurs étaient confrontés. Beaucoup considèrent également le GRU comme une variante avancée du LSTM en raison de leurs conceptions similaires et de leurs excellents résultats. 

Unités récurrentes à barrière – Comment fonctionnent-elles ?

Comme nous l’avons mentionné précédemment, les Gated Recurrent Units sont une variation avancée des SRRN (réseau neuronal récurrent standard). Cependant, vous vous demandez peut-être pourquoi les GRU sont si efficaces. Nous allons le découvrir. 

Les GRU utilisent la porte de mise à jour et la remise à zéro pour résoudre le problème de gradient de fuite d’un RNN standard. Il s’agit essentiellement de 2 vecteurs qui décident du type d’information à transmettre vers la sortie. Ce qui rend ces vecteurs spéciaux, c’est que les programmeurs peuvent les entraîner à stocker des informations, surtout celles qui datent d’il y a longtemps. Le diagramme ci-dessous illustre les mathématiques impliquées dans le processus :

Vous trouverez ci-dessous un aperçu plus détaillé du GRU.

 

Comment ces GRUs fonctionnent-elles ?

De nombreuses personnes se demandent souvent comment fonctionnent Siri ou la recherche vocale de Google. Eh bien, la réponse est assez simple, il s’agit d’un réseau neuronal récurrent. Le RNN possède des algorithmes compliqués qui suivent les mêmes principes que les neurones présents dans le cerveau humain.  L’algorithme RNN mémorise toutes les entrées qu’il reçoit grâce à une mémoire interne qui le rend idéal pour tout problème d’apprentissage automatique avec des données chronologiques. 

Bien que les RNN aient tendance à être incroyablement robustes, ils sont souvent confrontés à des problèmes de mémoire à court terme. Bien qu’il s’agisse d’une longue série de données, les RNN rencontrent des difficultés lorsqu’il s’agit de transférer des données d’étapes plus anciennes à des étapes plus récentes. Par exemple, si un paragraphe a été traité pour compléter les prédictions, le RNN risque d’oublier des informations importantes du début. 

Il convient également de garder à l’esprit que le réseau neuronal récurrent à propagation arrière est confronté à des problèmes de gradient d’évanouissement dans lesquels les gradients sont des valeurs utilisées pour mettre à jour le poids du système neuronal. 

Explication des problèmes de gradient d’évanouissement

Pour ceux qui se posent la question, les problèmes de gradient en fondu se produisent lorsque le gradient a tendance à se réduire après s’être propagé en retour dans le temps et qu’il n’offre plus de valeur dans le processus d’apprentissage. Par conséquent, dans les réseaux neuronaux enregistrés, si les premiers niveaux gagnent la plus petite quantité de gradient, leur processus d’apprentissage s’interrompt. Comme ces couches ne parviennent pas à apprendre, le RNN ne se souvient pas de l’expérience acquise dans les séries de données plus longues et est confronté à des problèmes de mémoire à court terme.  

Les LSTM et les GRU sont des solutions idéales pour traiter ce problème.

Comment l’UGR résout le problème

Comme nous l’avons mentionné précédemment, les GRU ou unités de courant à grille sont une variante de la conception des RNN. Elles font appel à un processus à porte pour gérer et contrôler le flux d’automatisation entre les cellules du réseau neuronal. Les GRU peuvent faciliter la détection des dépendances sans ignorer les informations antérieures provenant de gros blocs de données séquentielles. 

Le GRU fait tout cela en utilisant ses unités à portes qui aident à résoudre les problèmes de gradient de disparition/explosion que l’on trouve souvent dans les réseaux neuronaux enregistrés traditionnels. Ces portes sont utiles pour contrôler toute information à conserver ou à éliminer à chaque étape. Il convient également de garder à l’esprit que les unités récurrentes gated utilisent des portes de réinitialisation et de mise à jour. Voici un aperçu de celles-ci. 

La fonction de la porte de mise à jour

La principale fonction de la porte de mise à jour est de déterminer la quantité idéale d’informations antérieures qui sont importantes pour l’avenir. L’une des principales raisons pour lesquelles cette fonction est si importante est que le modèle peut copier chaque détail du passé pour éliminer le problème du gradient d’évanouissement.

La fonction de la porte de réinitialisation

Une raison majeure pour laquelle la porte de réinitialisation est vitale est qu’elle détermine la quantité d’informations à ignorer. Il serait juste de comparer la porte de réinitialisation à la porte d’oubli du LSTM, car elle tend à classer les données sans rapport, puis à faire en sorte que le modèle les ignore et procède sans elles. 

Ce qui rend GRU différent de LSTM

Le LSTM, que beaucoup de gens appellent aussi mémoire à long terme, est une architecture artificielle de RNN, souvent utilisée dans l’apprentissage profond. Les réseaux de mémoire à long terme conviennent parfaitement à la réalisation de prévisions, à la classification et au traitement sur la base de données chronologiques. En effet, il existe toujours un risque d’avoir des lacunes dans les périodes non identifiées au sein des événements vitaux présents dans les chaînes de temps. 

Les unités récurrentes à grille ont été introduites en 2014 pour résoudre les problèmes de gradient auxquels les RNN étaient confrontés. Les GRU et les LSTM partagent de multiples propriétés. Par exemple, ces deux algorithmes utilisent une méthode de gating pour gérer les procédures de mémorisation. Cela dit, les GRU ne sont pas aussi complexes que les LSTM et leur calcul ne prend pas trop de temps. 

Bien qu’il existe plusieurs différences entre la LSTM et la GRU, la principale est que la mémoire à long terme possède trois portes d’entrée, à savoir : oubli, sortie et entrée. D’autre part, il n’y a que deux portes présentes dans la GRU, à savoir : mise à jour et réinitialisation. En outre, les GRU ne sont pas trop complexes et la principale raison en est le nombre inférieur de portes par rapport aux LSTM.

Pourquoi les URG sont supérieures

Les GRU sont considérés comme bien supérieurs aux LSTM parce que leur modification est relativement simple, car ils n’ont pas besoin d’unités de mémoire. On fait souvent confiance aux GRU lorsqu’il y a une petite série de données. Cependant, lorsqu’il y a une grande série de données, les LSTM sont le choix préféré. 

Il va sans dire que les GRU et les LSTM sont nécessaires dans une variété de domaines complexes, notamment la compréhension automatique, la prédiction du cours de la bourse, l’analyse des sentiments, la synthèse et la reconnaissance vocales, la traduction automatique, etc. 

Les unités récurrentes à grille (Gated Recurrent Units) constituent un élément essentiel du paysage de la science des données et il est vital de les connaître pour être sûr de pouvoir les utiliser correctement. En raison de leur capacité à résoudre le problème du gradient évanescent, les GRU se sont révélées être une aubaine dans le monde de la science des données et les programmeurs se forment et les utilisent correctement pour des scénarios compliqués.

Langages

Weekly newsletter

No spam. Just the latest releases and tips, interesting articles, and exclusive interviews in your inbox every week.