GRU, ook wel Gated Recurrent Unit genoemd, werd in 2014 geïntroduceerd voor het oplossen van het veel voorkomende vanishing gradient probleem waarmee programmeurs werden geconfronteerd. Velen beschouwen de GRU ook als een geavanceerde variant van LSTM vanwege hun vergelijkbare ontwerpen en uitstekende resultaten.
Gated Recurrent Units – Hoe werken ze?
Zoals eerder vermeld, zijn Gated Recurrent Units een geavanceerde variant van SRRNs (standaard recurrent neuraal netwerk). Maar misschien vraag je je af waarom GRUs zo effectief zijn. Laten we dat eens uitzoeken.
GRUs gebruiken update gate en reset get voor het oplossen van een standaard RNN’s verdwijnende gradiënt probleem. Dit zijn in wezen 2 vectoren die beslissen welk type informatie wordt doorgegeven aan de uitgang. Wat deze vectoren speciaal maakt is dat programmeurs ze kunnen trainen om informatie op te slaan, vooral van lang geleden. Het onderstaande diagram toont de wiskunde die bij dit proces komt kijken:
Hieronder volgt een meer gedetailleerde kijk op de GRU
Hoe werken deze GRU’s
Veel mensen vragen zich vaak af hoe Siri of Google voice search werken. Wel, het antwoord is vrij eenvoudig, recurrent neural network. RNN heeft ingewikkelde algoritmen die dezelfde principes volgen die neuronen in het menselijk brein volgen. Het RNN-algoritme onthoudt alle input die het heeft dankzij een intern geheugen, waardoor het ideaal is voor elk machine-leer-probleem met chronologische gegevens.
Hoewel RNN’s ongelooflijk robuust zijn, hebben zij vaak te kampen met problemen in verband met het kortetermijngeheugen. Ondanks het feit dat het om een lange reeks gegevens gaat, ondervindt het RNN problemen wanneer het erom gaat gegevens van oudere naar nieuwere stappen over te brengen. Als bijvoorbeeld een alinea is verwerkt om voorspellingen te voltooien, loopt het RNN het risico dat het belangrijke informatie uit het begin vergeet.
Het is ook de moeite waard in gedachten te houden dat back-propagation recurrent neuraal netwerk te maken krijgt met fading gradient problemen waarbij gradiënten waarden zijn die worden gebruikt voor het bijwerken van het gewicht van het neurale systeem.
Fading Gradient Problemen Uitgelegd
Voor wie het zich afvraagt, Fading gradient problemen doen zich voor wanneer de gradiënt de neiging heeft te verminderen na back-propagatie in de tijd en geen waarde meer biedt in het leerproces. Daarom, in geregistreerde neurale netwerken, als de eerste niveaus de kleinste hoeveelheid gradiënt krijgen, stopt hun leerproces. Omdat deze lagen er niet in slagen te leren, onthoudt het RNN niets van de ervaring in langere gegevensreeksen en krijgt het te maken met korte-termijn geheugenproblemen.
LSTM en GRUs zijn ideale oplossingen om dit probleem op te lossen.
Hoe lost GRU het probleem op
Zoals eerder vermeld, zijn GRU’s of gated current units een variatie op het ontwerp van RNN’s. Zij maken gebruik van een “gated process” voor het beheren en controleren van de automatiseringsstroom tussen de cellen van het neurale netwerk. GRU’s kunnen helpen bij het opvangen van afhankelijkheden zonder voorbij te gaan aan informatie uit het verleden van enorme brokken sequentiële gegevens.
De GRU doet dit alles door gebruik te maken van zijn gated units die helpen bij het oplossen van verdwijnende/exploderende gradiëntproblemen die vaak voorkomen in traditionele geregistreerde neurale netwerken. Deze gates zijn nuttig voor het controleren van de informatie die moet worden behouden of verwijderd voor elke stap. Het is ook de moeite waard in gedachten te houden dat gated recurrente eenheden gebruik maken van reset en update gates. Hier is een blik op hen.
De functie van de update poort
De belangrijkste functie van de update poort is het bepalen van de ideale hoeveelheid van eerdere info die belangrijk is voor de toekomst. Een van de belangrijkste redenen waarom deze functie zo belangrijk is, is dat het model elk detail uit het verleden kan kopiëren om het fading gradient probleem te elimineren.
De functie van Reset Gate
Een belangrijke reden waarom de reset-gate van vitaal belang is, is dat het bepaalt hoeveel informatie genegeerd moet worden. Het zou eerlijk zijn om de reset-gate te vergelijken met de vergeet-gate van LSTM, omdat deze de neiging heeft om ongerelateerde gegevens te classificeren, waarna het model deze negeert en verder gaat zonder deze gegevens.
Wat maakt GRU anders dan LSTM
LSTM, door veel mensen ook wel langetermijngeheugen (long short term memory) genoemd, is een kunstmatige architectuur van RNN, die vaak wordt gebruikt bij deep learning. Lange-korte-termijngeheugennetwerken zijn over het algemeen zeer geschikt voor het doen van voorspellingen, classificeren en verwerken op basis van tijdreeksgegevens. Dit komt omdat er altijd een kans is op hiaten in niet-geïdentificeerde perioden binnen vitale gebeurtenissen die aanwezig zijn in tijdreeksen.
Gated recurrent units werden in 2014 geïntroduceerd voor het oplossen van gradiëntproblemen waarmee RNN’s werden geconfronteerd. GRU en LSTM delen meerdere eigenschappen. Zo maken beide algoritmen gebruik van een gating-methode voor het beheer van memorisatieprocedures. Dat gezegd zijnde, zijn GRU’s niet zo complex als LSTM’s en kost het berekenen ervan niet al te veel tijd.
Er zijn verschillende verschillen tussen LSTM’s en GRU’s, maar het belangrijkste verschil is dat het lange-korte-termijngeheugen drie ingangspoorten heeft, namelijk: vergeten, uitvoer en invoer. Daarentegen zijn er slechts 2 poorten aanwezig in GRU, en dat zijn: update en reset. Bovendien zijn GRU’s niet al te ingewikkeld en de belangrijkste reden daarvoor is het lagere aantal poorten in vergelijking met LSTM.
Waarom GRU’s superieur zijn
GRU’s worden beschouwd als veel superieur ten opzichte van LSTM’s omdat het modificeren ervan relatief eenvoudig is aangezien ze geen geheugeneenheden vereisen. Dit maakt ook het trainingsproces voor GRU’s veel sneller dan LSTM’s. GRU’s worden vaak gebruikt wanneer er een kleine reeks gegevens is. Wanneer er echter sprake is van een grote gegevensreeks, wordt de voorkeur gegeven aan LSTM’s.
Onnodig te zeggen dat GRU’s en LSTM’s nodig zijn in een verscheidenheid van gecompliceerde domeinen, zoals machine begrip, voorspelling van aandelenkoersen, sentiment analyse, spraaksynthese, spraakherkenning, automatische vertaling en nog veel meer.
Gated Recurrent Units zijn een vitaal onderdeel van het data science landschap en er meer over leren is van vitaal belang om er zeker van te zijn dat je ze op de juiste manier kunt gebruiken. Door hun vermogen om het verdwijnende gradiëntprobleem op te lossen, zijn GRU’s een godsgeschenk gebleken in de data science wereld en programmeurs trainen en gebruiken ze op de juiste manier voor ingewikkelde scenario’s.