Wanneer een kind wordt geboren, heeft het enige tijd nodig om het vermogen om te spreken en te begrijpen te ontwikkelen. Kinderen leren alleen de taal die de mensen om hen heen zullen spreken. Mensen kunnen snel talen leren in hun eentje, maar computers kunnen dat niet. Zo kun je bijvoorbeeld gemakkelijk het verschil begrijpen tussen kat en hond, man en vrouw, enzovoort.
Dit gebeurt omdat onze neurale netwerken anders zijn dan de kunstmatige neurale netwerken die machines hebben. Computers leren talen anders dan mensen. Ze gebruiken woord inbeddingstechnieken om de taal van de mens te begrijpen.

Wat is Word Embedding?

De eenvoudige definitie van word embedding is het omzetten van tekst in getallen. Om de computer de taal te laten begrijpen, zetten we de tekst om in vectorvorm, zodat computers verbindingen tussen vectoren en woorden kunnen ontwikkelen en begrijpen wat we zeggen. Met woordinbedding lossen we problemen op met betrekking tot Natural Language Processing.

Begrijpen van NLP

Natural Language processing helpt machines te begrijpen en het vermogen te ontwikkelen om te schrijven, te lezen en te luisteren naar wat we zeggen. Google, DuckDuckGo en vele andere browsers gebruiken NLP om de taalbarrières tussen mens en machine te verkleinen. Bovendien zijn Microsoft Word en Google Translate NLP-toepassingen.

Algoritmen van Word Embedding

Woordinbedding is een vectorvoorstelling en vereist machinale leertechnieken en algoritmes. Deze algoritmen maken gebruik van kunstmatige neurale netwerken en gegevens om de verbindingen van verschillende woorden te genereren. Als een model bijvoorbeeld de woorden “Koning” en “Koningin” leert, zal de vectorenvorm aan elkaar gerelateerd zijn. Dit helpt de machine om te differentiëren en toch beide woorden met elkaar in verband te brengen. Hieronder zullen we drie veelgebruikte algoritmen begrijpen die je kunt gebruiken bij het machinaal leren voor het inbedden van woorden.

1. Word2Vec

Word2Vec is het meest populaire algoritme voor woordinbedding. Dit algoritme maakt gebruik van neurale netwerken om de inbedding efficiënter te leren. Dit algoritme is eigenlijk een reeks van algoritmen. U kunt deze algoritmen gebruiken voor NLP-taken. Word2Vec gebruikt slechts één verborgen laag en verbindt deze met het neurale netwerk. Alle lineaire neuronen zijn de verborgen lagen in de neuronen. Om het model te trainen zal de invoerlaag het aantal neuronen bevatten dat gelijk is aan de woorden in het vocabulaire. De grootte van de uitvoer- en invoerlaag blijft gelijk. De grootte van de verborgen laag wordt echter ingesteld op basis van de vectoren van de afmetingen van de woorden in het resultaat. U kunt de inbedding van woorden met Word2Vec op twee manieren uitvoeren. Bij beide methoden heeft u kunstmatige neurale netwerken nodig. Deze methoden zijn:

– CBOW of gewone zak met woorden

In deze methode is elk woord een input, en het neurale netwerk voorspelt het woord dat betrekking heeft op de context. Bijvoorbeeld, “Ik ga naar huis met een bus.” In dit voorbeeld zullen we het woord bus invoeren in het neurale netwerk met context naar huis. Dan zal de machine een vector genereren die “reizen naar huis” verbindt met de bus die wordt voorgesteld als de bron van het reizen.

– Skim Gram

Skim Gram gebruikt dezelfde truc als een gewone zak met woorden of een ander machinaal leeralgoritme. Omdat we ongelabelde woorden hebben, is het woord inbedding in wezen halfbewaakt leren. In deze methode gebruikt het algoritme naburige woorden en labelt ze dienovereenkomstig.

2. GloVe

Global Vectors for Word Representation of GloVe-algoritme is vrij gelijkaardig aan Word2Vec. De methode is echter een beetje anders. GloVe beschouwt de contextuele informatie alleen op basis van 1-1. Dit betekent dat GloVe alleen een woordgerelateerde matrix creëert, die de waarschijnlijkheid P (a | b) bevat die het k-woord rond het woord b bekijkt.
Het belangrijkste doel van deze techniek is om de representatie van de twee vectoren te vinden op een manier die de logkans van hun puntproducten gelijk is aan de co-occasion. Ze hebben geweldige resultaten voor het relateren van de woorden in de context aan elkaar.

3. Embeddende laag

Dit is de eerste verborgen laag van het kunstmatige neurale netwerk. Deze laag moet drie augmenten aangeven.
Ingangsdimensie
Dit geeft de omvang van de woordenschat in de tekstgegevens weer. Als u bijvoorbeeld gegevens heeft met gehele codering en waarden van 0 tot 10, dan is de grootte van de woordenschat 11.
Uitgangsdimensie
Ze vertegenwoordigen de grootte van de vectorruimte. De vectorruimte zou bestaan uit de ingebedde woorden. Dit kan 32, 100 of groter zijn.
Invoerlengte
Dit geeft de lengte van de invoerreeksen weer. Als de woorden in uw invoerdocumenten bijvoorbeeld maximaal 1000 zijn, dan zou deze waarde ook 1000 zijn.

Conclusie

Word Embedding is essentieel voor het machinaal leren, omdat dit computers helpt om uw taal te begrijpen. Het bevat verschillende algoritmen die woorden op een andere manier verwerken, maar de belangrijkste focus is om de machine te helpen bij het leren van talen. Computers kunnen niet begrijpen wat we vragen. In plaats daarvan worden computers voor elk woord gecodeerd met een vectorvoorstelling die betrekking heeft op andere woorden volgens de context.