Подумайте о том, когда мы слушаем историю или кто-то с нами общается. Рассматриваем ли мы каждое их слово индивидуально и обрабатываем ли они каждое из них, или соединяем одно слово с другим и так далее, чтобы понять их разговор? Предположим, что наш мозг работает так, что обрабатывает каждое слово индивидуально. Было бы очень трудно понять друг друга. Однако традиционные искусственные сети не были настолько развиты и должны были обрабатывать каждую единицу данных индивидуально. Точно так же предположим, что вы смотрите фильм, и ваш мозг должен был обрабатывать каждую сцену индивидуально. Потребовалось бы много времени, чтобы понять
сюжет.

LSTM помогает системе переносить данные в течение длительного времени. Искусственные нейронные сети также работают таким же образом. Чтобы понять концепцию LSTM, сначала нужно понять, что такое повторяющиеся нейронные сети и как они функционируют.

Искусственные нейронные сети

Искусственные нейронные сети – это искусственные сети, которые осуществляют деятельность, похожую на деятельность нашего мозга. Человеческий мозг и его процесс вдохновили на создание модели искусственных нейронных сетей. В нашем мозге есть нейроны, которые соединяют и помогают передавать сообщение и обучение.

Искусственная нейронная сеть выполняет ту же функцию и имеет ту же природу, что и сети нашего мозга. Данные передаются в нейрон через вход, а данные после обработки передаются на выход. Искусственные нейронные сети помогают выполнять такие задачи, как классификация данных и распознавание образца.

Эти искусственные сети являются слоями различных нейронных единиц. Эти единицы состоят из трех слоев. На вход поступают данные, скрытый слой использует вес для вычисления результата, а затем результат переходит на более высокий уровень нейрона через выходной слой. Этот алгоритм помогает системе в процессе обучения.

Повторяющиеся нейронные сети

Понятие рекуррентных нейронных сетей заключается в том, чтобы следовать последовательности информации. В традиционном методе мы не могли рассматривать различные входы и выходы в совокупности. Даже если информация была связана, мы считали ее индивидуальной. Это создавало различные проблемы для многих задач. Очевидно, что нужно знать первое слово, чтобы предсказать следующее, так как оба слова взаимосвязаны.
Причина, по которой эта нейронная сеть повторяется, в том, что она может обрабатывать одну и ту же задачу одним и тем же способом, сохраняя данные в последовательности. Выход в рекуррентных нейронных сетях соответствует предыдущим вычислениям. Также можно рассматривать рекуррентные нейронные сети как память, в которой собирается и хранится информация о том, что система вычислила до сих пор. Периодическая нейросетевая система может оглянуться на несколько шагов назад, чтобы использовать предыдущую информацию для текущих вычислений.

Долгосрочная краткосрочная память (LSTM)

LSTM полезен для глубокого машинного обучения. В LSTM вы найдете связь обратной связи. LSTM может обрабатывать как отдельные данные, так и последовательность, например, полное видео. Это приложение предназначено для распознавания речи и почерка. Оно помогает избежать проблем, связанных с долгосрочной зависимостью. Их наиболее распространенное применение – разработка процесса изучения огромных проблем.

Долгосрочная и краткосрочная память также является рекуррентной нейронной сетью, но она отличается от других сетей. Другие сети повторяют модуль каждый раз, когда на вход поступает новая информация. Однако LSTM запомнит проблему на более длительное время и имеет цепную структуру для повторения модуля. Они взаимодействуют специальным методом и содержат четыре слоя нейронной сети.

Рабочий механизм LSTM

Процесс передачи данных такой же, как и в стандартных рекуррентных нейронных сетях. Однако операция по распространению информации отличается. Когда информация проходит, операция решает, какую информацию обрабатывать дальше, а какую отпустить. Основная операция состоит из ячеек и ворот. Состояние клетки работает как путь для передачи информации. Ячейки можно рассматривать как память.

В процессе LSTM существуют различные врата. Когда клеточное состояние переносит информацию, эти ворота помогают новому потоку информации. Шлюзы будут указывать, какие данные полезно хранить, а какие – нет, поэтому их можно бросать. Таким образом, только соответствующие данные проходят через цепочку последовательностей для легкого предсказания.

Sigmoid

Ворота содержат различные активации, называемые сигмоидами, которые содержат некоторые значения. Эти значения варьируются от нулей до единицы. Эти значения помогают забыть и сохранить информацию. Если данные умножаются на единицу, то значение этих данных остается неизменным. Однако, если данные умножаются на ноль, то значение становится нулевым и исчезает. Мы можем узнать больше, если внимательно рассмотрим эти врата. Существует три типа врат:

Забудьте о вратах

Первые ворота, которые мы поймем, это ворота забывчивости. Функция этих ворот заключается в том, чтобы решить сохранить или забыть информацию. Сигмоидальной функцией остается только информация, поступающая с ранее скрытых слоев и текущий вход. Любое значение, которое ближе к единице, останется, а любое значение, которое ближе к нулю, исчезнет.

Входной шлюз

Входные ворота помогают обновить состояние ячейки. Текущая входная и предыдущая информация о состоянии проходят через сигмоидальную функцию, которая обновит значение, умножив его на ноль и единицу. Аналогичным образом, для регулирования сети данные также проходят через функцию танха. Теперь выход сигмоида умножается на выход танх. Вывод сигмоида будет идентифицировать ценную информацию, которую нужно сохранить от вывода в танх.

Состояние ячейки

Теперь, информация, которая у нас есть, поможет нам рассчитать состояние клетки. Значение состояния ячейки может уменьшиться, если после умножения вектора забывчивости и предыдущего состояния ячейки умноженное значение будет близко к нулю. Теперь мы можем найти новое состояние ячейки, добавив вывод входных ворот по точкам.

Выходные ворота

Следующее скрытое состояние определяется в выходных воротах. Чтобы найти информацию о скрытом состоянии, нам нужно умножить вывод сигмоида на вывод танх. Вы можете предсказать следующую информацию из скрытого состояния. Теперь новое скрытое состояние и новое состояние ячейки перейдут к следующему шагу.

Заключение

Теперь вы знаете, как информация проходит через повторяющиеся нейронные сети LSTM. Хотя рецидивирующие нейронные сети выполняют задачи, похожие на задачи человеческого мозга, они все же отличаются друг от друга. Именно поэтому вам нужно вводить большой объем данных, чтобы система могла должным образом развить хороший процесс обучения.