Pense em quando estamos a ouvir uma história ou quando alguém está a comunicar connosco. Consideramos cada palavra individualmente e processamos cada palavra que falam, ou ligamos uma palavra à seguinte e assim por diante para compreender a sua conversa? Suponhamos que o nosso cérebro trabalhou de forma a processar cada palavra individualmente. Seria muito difícil compreendermo-nos uns aos outros. Contudo, as redes artificiais tradicionais não eram tão avançadas e tinham de processar cada pedaço de dados individualmente. Da mesma forma, suponha que está a ver um filme, e que a sua mente teve de processar cada cena individualmente. Seria preciso muito tempo para compreender
a parcela.

LSTM ajuda o sistema a transportar os dados durante um longo período de tempo. As redes neurais artificiais também funcionam da mesma maneira. Para compreender o conceito de LSTM, é necessário primeiro compreender o que são as Redes Neurais Recorrentes e como funcionam.

Redes Neuronais Artificiais

As redes neurais artificiais são uma rede artificial que realiza actividades semelhantes aos nossos cérebros. O cérebro humano e o seu processo inspiraram o modelo das redes neuronais artificiais. Temos neurónios nos nossos cérebros que se ligam e ajudam a transmitir a mensagem e a aprendizagem.

A rede neural artificial desempenha a mesma função e tem a mesma natureza que as redes do nosso cérebro. Os dados são transferidos para o neurónio através de entrada, e os dados são enviados como saída após processamento. As redes neurais artificiais ajudam a executar tarefas como a classificação dos dados e o reconhecimento do padrão.

Estas redes artificiais são as camadas de diferentes unidades de neurónios. Estas unidades consistem em três camadas. Uma entrada recebe os dados, a camada oculta utiliza peso para calcular o resultado, e depois o resultado passa para o nível superior do neurónio através da camada de saída. Este algoritmo ajuda o sistema no processo de aprendizagem.

Redes Neurais Recorrentes

O conceito de redes neurais recorrentes é o de seguir a sequência da informação. No método tradicional, não fomos capazes de considerar colectivamente diferentes entradas e saídas. Mesmo que a informação estivesse ligada, considerávamo-la um indivíduo. Isto criou vários desafios para muitas tarefas. É óbvio que é necessário conhecer a primeira palavra para prever a palavra seguinte, uma vez que ambas estão interligadas.
A razão pela qual esta rede neural é recorrente porque pode processar a mesma tarefa da mesma forma, mantendo os dados numa sequência. A saída em redes neurais recorrentes é de acordo com o cálculo anterior. Também se pode considerar redes neurais recorrentes como uma memória que reúne e armazena informações sobre o que o sistema calculou até agora. Um sistema de redes neurais recorrentes pode olhar para trás em alguns passos para utilizar informações anteriores para os resultados actuais.

Memória de longo prazo de curto prazo (LSTM)

O LSTM é útil para a aprendizagem profunda da máquina. Em LSTM, encontrará a ligação do feedback. LSTM pode processar dados únicos, bem como uma sequência, como um vídeo completo. Esta aplicação é para o reconhecimento da fala e reconhecimento da escrita à mão. Ajuda a evitar problemas relacionados com dependência a longo prazo. A sua utilização mais comum é o desenvolvimento do processo de aprendizagem de enormes problemas.

A memória a longo e curto prazo é também uma rede neural recorrente, mas é diferente de outras redes. Outras redes repetem o módulo cada vez que a entrada recebe nova informação. No entanto, a LSTM lembrar-se-á do problema durante mais tempo e tem uma estrutura em cadeia para repetir o módulo. Interagem num método especial e contêm quatro camadas de redes neuronais.

O Mecanismo de Trabalho do LSTM

O processo de transferência de dados é o mesmo que o das redes neurais recorrentes padrão. No entanto, a operação de propagação da informação é diferente. Quando a informação passa, a operação decide qual a informação a processar mais e qual a informação que deve deixar passar. A operação principal é constituída por células e portões. O estado das células funciona como um caminho para a transferência da informação. É possível considerar as células como memória.

Existem vários portões no processo LSTM. Quando o estado da célula transporta a informação, estes portões ajudam o novo fluxo de informação. Os portões indicarão quais os dados que são úteis para guardar e quais os dados que não são úteis, o que faz com que seja possível lançar. Assim, apenas os dados relevantes passam através da cadeia de sequência para uma fácil previsão.

Sigmoid

Os portões contêm várias activações chamadas sigmoid, que contêm alguns valores. Estes valores variam de zeros a um. Estes valores ajudam a esquecer e a manter a informação. Se os dados se multiplicarem por um, o valor desses dados permanece o mesmo. No entanto, se os dados se multiplicarem por zero, o valor torna-se zero e desaparece. Podemos aprender mais se compreendermos bem estes portões. Existem três tipos de portões:

Esqueça o portão

O primeiro portão que iremos compreender é o portão do esquecimento. A função deste portão é decidir manter ou esquecer a informação. Apenas a informação proveniente de camadas previamente ocultas e a entrada actual permanece com a função sigmóide. Qualquer valor que esteja mais próximo de um ficará, e qualquer valor mais próximo de zero desaparecerá.

Portão de entrada

A porta de entrada ajuda na actualização do estado da célula. A entrada actual e a informação do estado anterior passam através da função sigmóide, que actualizará o valor multiplicando por zero e um. Da mesma forma, para regular a rede, os dados também passam pela função tanh. Agora, a saída do sigmóide multiplica-se pela saída do tanh. A saída de sigmoid identificará informação valiosa a guardar da saída de tanh.

Estado da célula

Agora, a informação de que dispomos ajudar-nos-á a calcular o estado da célula. O valor do estado da célula pode cair se o valor multiplicado for próximo de zero após multiplicar o vector de esquecimento e o estado da célula anterior. Agora, podemos encontrar o novo estado da célula adicionando a saída da porta de entrada no sentido apontado.

Porta de saída

O próximo estado oculto é definido na porta de saída. Para encontrar a informação do estado oculto, precisamos de multiplicar a saída sigmóide com a saída tanh. É possível prever a seguinte informação a partir de um estado oculto. Agora, o novo estado oculto e o novo estado da célula viajará para o próximo passo.

Conclusão

Agora sabe como a informação viaja através das redes neurais recorrentes da LSTM. Embora as redes neurais recorrentes desempenhem tarefas semelhantes às do cérebro humano, continuam a ser diferentes. É por isso que é necessário introduzir uma grande variedade de dados para que o sistema possa desenvolver adequadamente um bom processo de aprendizagem.