Понимание BERT

Недостаток данных об обучении – вероятно, самая сложная проблема, с которой сталкивается обработка естественного языка, более известная как NLP. Для тех, кто не знает, NLP – это невероятно разнообразная область, содержащая различные задачи. В большинстве случаев наборы данных для решения конкретных задач состоят из сотен или тысяч обучающих примеров (помеченных человеком).
При этом современные модели глубокого изучения естественного языка извлекают выгоду из значительных объемов данных. Для них требуются миллионы, если не миллиарды учебных примеров с аннотациями. Исследователи упорно трудились, изобретая решение для устранения этого пробела в данных. Они разработали различные методики для обучения моделей GPL (язык общего назначения) с использованием тонны и тонны аннотированного текста, также называемого предварительным обучением.
Затем программисты могут точно настраивать предварительно подготовленные модели по NLP-задачам с небольшими данными, такими как анализ настроений и ответы на вопросы, что приводит к невероятно точным улучшениям, которые значительно лучше, чем тренировочные наборы данных с самого начала.
BERT, сокращение от Bidirectional Encoder Representations from Transformers (двунаправленное представление кодировщика от трансформаторов), создает массивные волны в области машинного обучения. Группа исследователей, работающих в Google AI, недавно опубликовала BERT. BERT вызывает ажиотаж из-за его невероятно точных результатов в различных задачах программирования на естественном языке, таких как MNLI (естественный языковой вывод), Squad V1.1 (ответ на вопрос) и некоторых других.
Реализация обучения на трансформаторе является важной причиной того, что сообщество специалистов по обучению машинному оборудованию считает BERT важной технической инновацией. Языковое моделирование BERT обещает поднять машинное обучение на новый уровень. Оно противоположно предыдущим усилиям, которые были направлены на изучение последовательностей текста, начинающихся справа налево или слева направо.
Результаты показывают, что языковые модели, подготовленные на конкурсной основе, имеют глубокое понимание потока и языкового контекста по сравнению с языковыми моделями, основанными на однонаправленном обучении. Исследователи ИИ Берта обсуждают обширный новый метод под названием MLM (Masked LM.) Метод обеспечивает двунаправленное обучение в моделях, которые раньше невозможно было обучить.
BERT широко использует трансформатор. Это механизм внимания, способный изучать контексты между словами текста и даже подсловами для тех, кто не знает. В чистом виде, Трансформатор состоит из двух различных механизмов: кодировщика и декодера. Первый читает входные данные, а второй создает предсказание задачи.
Удивительно, но BERT требует только механизм кодирования, так как его основной задачей является создание эффективной языковой модели. Подробная статья исследователей Google рассказывает о том, как работает Трансформатор.
В отличие от моделей направленности, которые понимают последовательность ввода текста (справа налево или слева направо), кодировщики Трансформатора сильно отличаются друг от друга. Почему? Потому что они могут читать последовательность за раз, отсюда и термин двунаправленный. Хотя, некоторые утверждают, что ненаправленное чтение было бы более точным. Использование этой характеристики позволяет модели изучать контекст слова в соответствии с его окружением.
Несмотря на то, что при обучении моделей существует множество проблем, определение цели прогнозирования, возможно, является самой большой проблемой. Как уже говорилось ранее, большинство моделей предсказывают слова последовательно. Конечно, это было полезно в течение длительного времени, но такой подход имеет свои ограничения. Почему? Потому что он ограничивает контекст обучения. BERT преодолевает эту проблему, используя следующие стратегии обучения:
Перед вводом последовательностей слов в BERT маркер, известный как [MASK], заменяет пятнадцать процентов инструкций каждой строки. Затем модель пытается предсказать исходное значение слова с маской в соответствии с контекстом, заданным не маскированными терминами. Технически говоря, для предсказания выходного слова требуется:
Помните, что функция BERT’s loss учитывает только прогнозы маскированных значений и игнорирует прогнозы не маскированных слов. Соответственно, модель объединяет медленнее, чем обычные модели направлений, атрибут, который возникает из-за гиперконтекстного знания.
При реализации BERT необходимо быть более внимательным, так как оно не заменяет каждое маскированное слово.
Модель в процессе обучения BERT получает различные пары вводных предложений. Она учится прогнозировать, является ли второе предложение в строке следующим. Пятьдесят процентов вводимых данных – это пара, в которой второе предложение часто является следующим в первом документе. С другой стороны, оставшиеся пятьдесят процентов содержат случайные слова в качестве второго предложения. Согласно предположениям, случайные предложения отделяются от первого.
Чтобы помочь модели определить разницу между двумя предложениями во время обучения, это то, что происходит перед тем, как войти в модель:
Вот список шагов, которые необходимо выполнить, если вы хотите посмотреть, есть ли связь между вторым и первым предложением:
Вы можете использовать BERT для различных языковых задач. Более того, для базовой модели потребуется только крошечный слой.
Время BERT использовало эту технику для достижения экстраординарных результатов на различных сложных задачах естественного языка.