Когда ребенок рождается, ему требуется некоторое время, чтобы развить способность говорить и понимать. Дети изучают только тот язык, на котором будут говорить окружающие их люди. Люди могут быстро выучить язык самостоятельно, но компьютеры не могут сделать то же самое. Например, можно легко понять разницу между кошкой и собакой, мужчиной и женщиной и так далее.
Это происходит потому, что наши нейронные сети отличаются от искусственных нейронных сетей, которыми обладают машины. Компьютеры изучают языки иначе, чем люди. Они используют технику вставки слов, чтобы понять язык человека.
Что такое встраивание слов?
Простое определение встраивания слов – это преобразование текста в числа. Чтобы компьютер понимал язык, мы преобразуем текст в векторную форму, чтобы компьютеры могли развивать связь между векторами и словами и понимать то, что мы говорим. С помощью встраивания слов мы решаем проблемы, связанные с обработкой естественного языка.
Понимание НЛП
Обработка естественного языка помогает машинам понять и развить способность писать, читать и слушать то, что мы говорим. Google, DuckDuckGo и многие другие браузеры используют NLP для уменьшения языкового барьера между человеком и машиной. Кроме того, Microsoft Word и Google Translate являются приложениями NLP.
Алгоритмы вложения Word
Внесение слов является векторным представлением и требует техники и алгоритмов машинного обучения. Эти алгоритмы используют искусственные нейронные сети и данные для генерации соединений различных слов. Например, если модель учит слова “король” и “королева”, то векторная форма будет соотноситься друг с другом. Это помогает машине различать, но при этом соотносить оба слова. Ниже мы рассмотрим три общих алгоритма, которые Вы можете использовать в машинном обучении для встраивания слов.
1. Word2Vec
Word2Vec – самый популярный алгоритм встраивания слов. Этот алгоритм использует нейронные сети для более эффективного изучения встраивания. На самом деле этот алгоритм представляет собой серию алгоритмов. Вы можете использовать эти алгоритмы для NLP задач. Word2Vec использует только один скрытый слой и соединяет его с нейросетью. Все линейные нейроны являются скрытыми слоями в нейронах. Для обучения модели входной слой будет включать количество нейронов, равное словам в словаре. Размер выходного и входного слоя останется прежним. Однако размер скрытого слоя задается в соответствии с векторами размеров результирующих слов. Встраивание слов в Word2Vec можно осуществлять двумя способами. В обоих методах нужны искусственные нейронные сети. Этими методами являются:
– CBOW или Общий мешок слов
В этом методе каждое слово является входным, а нейронная сеть предсказывает слово, относящееся к контексту. Например, “Я еду домой на автобусе”. В этом примере мы введем слово bus в нейронной сети с контекстом “еду домой” или “еду домой”. Затем машина сгенерирует вектор, который соединяет “путешествие домой” с шиной, представленной в качестве источника путешествия.
– Обезжиренная грамма
Skim Gram использует тот же трюк, что и обычный пакет слов или любой другой алгоритм машинного обучения. Так как у нас есть немаркированные слова, встраивание слов по сути является полууправляемым обучением. В этом методе алгоритм использует соседние слова и маркирует их соответствующим образом.
2. GloVe
Глобальные векторы для Word-представления или алгоритм GloVe довольно похож на Word2Vec. Однако, метод немного отличается. GloVe рассматривает контекстную информацию только на основе 1-1. Это означает, что GloVe создает только матрицу, связанную со словом, которая включает в себя вероятность P (a | b) просмотра k-слова вокруг слова b.
Основная цель этой методики – найти такое представление двух векторов, которое генерирует вероятность лога их точечных продуктов, равное кооперации. Они имеют отличные результаты для сопоставления слов в контексте друг с другом.
3. Встраиваемый слой
Это первый скрытый слой искусственной нейронной сети. Этот слой должен указать три дополнения.
Вход тусклый
Это представляет собой размер словарного запаса в текстовых данных. Например, если у Вас есть данные с целочисленной кодировкой и значениями от 0 до 10, то размер словаря будет 11.
Выход тусклый
Они представляют собой размер векторного пространства. Векторное пространство будет состоять из вложенных слов. Это может быть 32, 100 или больше.
Длина входного пространства
Это представляет собой длину входных последовательностей. Например, если количество слов в исходных документах достигает 1000, то это значение также будет 1000.
Заключение
Word Embedding необходим для машинного обучения, так как это помогает компьютерам понимать ваш язык. Она содержит различные алгоритмы, которые обрабатывают слова по-разному, но основное внимание уделяется тому, чтобы помочь компьютеру в изучении языков. Компьютеры не могут понять то, что мы просим. Вместо этого, для каждого слова, компьютеры кодируются с векторным представлением, которое соотносится с другими словами в соответствии с контекстом.