В статье рассматривается применение механизмов соответствия сгенерированных и нормированных слов. Вычислительные эксперименты показывают преимущество предложенной модели по сравнению с charRNN. В документе также рассматривается применение предлагаемой модели к системам ответов на вопросы.
Модели Seq2Seq являются наиболее часто используемой архитектурой в системах машинного перевода и системы нейросетевых вопросов и ответов. Наибольший объем памяти в таких моделях тратится на хранение матрицы представлений, содержащих представление каждого слова из словаря. В этой статье мы предлагаем компромисс между характером и пословными моделями. Предлагаемая модель состоит из двух компонентов: генератора и соответствующего устройства.
Долгосрочная память (LSTM) [1] — популярная повторяющаяся сетевая архитектура. Основная идея этой архитектуры — выделить ячейку памяти, ответственную за хранение информации, полученной в предыдущие моменты времени. Функция ячейки памяти подобна состояниям в детерминированной машине конечного состояния, но в этом случае состояние «распределено» и позволяет работать с бесконечным числом состояний. Сети LSTM очень популярны, поскольку они способны обнаруживать долгосрочные зависимости в данных.
Сети LSTM обучаются с использованием алгоритма обратного распространения ошибок во времени (backpropagation through time), идея которого заключается в том, чтобы расширить график вычислений во времени. Из сетей LSTM можно строить многослойные нейронные сети, передавая выходную последовательность следующего слоя на вход следующего. Одной из самых популярных архитектур машинного перевода является последовательность для последовательности (Seq2Seq) [3]. Такие модели состоят из двух рекуррентных сетей: кодера и декодера. Кодер строит представление последовательности входных слов. Полученный вид (последний вывод и значение сетевой ячейки) затем копируется в декодер. Декодер пытается восстановить целевую последовательность слов на основе полученного представления. В задачах машинного перевода входные и выходные последовательности представляют собой предложения на разных языках. В вопросительно-ответных и диалоговых системах — вопрос и ответ. Для преобразования слов во входные векторы используется так называемая матрица представления (матрица вложения). Количество строк в этой матрице равно размеру словаря, а число столбцов равно размеру ячейки LSTM. Каждая строка соответствует векторному представлению соответствующего слова. Каждое слово перед входом в сеть LSTM заменяется соответствующей строкой матрицы вида.
Чтобы генерировать длинные предложения, к функции ранжирования добавляется штраф, чтобы стимулировать создание большого количества слов. Обычно Y | a | выбран как таковой, где | A | — число сгенерированных слов, а Y — гиперпараметр.
Механизмы внимания — это подход к компьютерному обучению, который заключается в выборе части входных данных (областей изображения, текстовых фрагментов) для более детальной обработки. Механизмы внимания также часто используются в машинных переводах нейронной сети. Проблема с обычными моделями Seq2Seq заключается в необходимости сжимать всю информацию в векторе представления. Эта проблема становится особенно важной при переводе длинных последовательностей. Было показано, что Seq2Seq с вниманием значительно улучшает качество работы над длинными последовательностями. Выходы последнего слоя кодирующей части для каждого слова используются в качестве объекта внимания в таких моделях. В качестве ключа выбирается выход последнего слоя декодирующей части. Для генерации слов вектор контекста объединяется с ключом и проходит через другой повторяющийся уровень.
Описание предлагаемой модели. Модель сопоставления слов получает вопрос и нормализованный ответ в качестве входных данных, и из этих данных он генерирует согласованный ответ, содержащий такое же количество слов, что и нормализованный ответ. Это преобразование происходит в четыре этапа: генерация, представление, генерация представления слов, нормализованный ответ, трансформация идей, генерация слов когерентного ответа. Первоначально, используя рекурсивную сеть по символам, каждое слово вопроса преобразуется в векторное представление q ^. Эти векторы кодируют информацию, которая может быть полезна для сопоставления слов в ответе. Предположительно, этот вектор может кодировать такие функции, как время, пол, число, случай и т. Д. Этот вектор также может быть полезен для перемещения собственных имен из вопроса в ответ.
На втором этапе создается набор представлений — один вид a для каждого слова нормализованного ответа. Кроме того, этот набор модифицируется, чтобы принимать во внимание другие нормированные слова и слова из вопроса. Обе эти модификации происходят в соответствии с той же схемой, описанной ниже. Его основная идея — использовать механизм внимания для выбора важных слов для координации (сначала из вопроса, затем из нормализованного ответа) и учитывать информацию, полученную в презентации.
Представления A не способны генерировать последовательный ответ, потому что они не используют информацию о других словах в нормализованном ответе, поэтому решающее значение того, какие слова следует придавать большему весу, имеет решающее значение в этой модели. Чтобы дать модели возможность указать вес внимания, модификацию слов вопроса, который использовался ранее. Модель получает важную информацию о времени и количестве от нее, что позволяет более точно производить весы на следующем этапе.
Модель для согласования слов может быть использована системами Вороновича. Основная проблема моделей Seq2Seq для языков с богатой морфологией — необходимость хранить словарные формы большинства слов. Для решения этой проблемы предлагается разделить проблему на две части: формирование нормализованного ответа и дальнейшая координация сгенерированного текста. Работа на уровне слов с нормализованным словарем несколько раз уменьшает объем словаря. В дополнение к усилению памяти, работа с меньшим словарем ускоряет изучение словесных представлений, что время от времени сокращает время конвергенции.
Модель сравнивалась с посимвольным Seq2Seq с двумя слоями с 1024 нейронами и вниманием к выходам кодирующей части. Эта модель далее упоминается как charRNN. Ввод этой модели представляет собой строку, содержащую вопрос и ответ, разделенные специальной последовательностью.
Сравнение с charRNN. Для оценки качества использовались четыре метрики: недоумение, доля правильно предсказанных символов (точность символов), доля правильно предсказанных слов (точность слов) и доля правильно предсказанных предложений (точность предложения). Метрика точности слова не рассматривается для модели charnn, потому что модель не работает на словах как отдельные объекты. Наша модель обучается значительно быстрее charRNN. Это связано с тем, что сетевая архитектура позволяет вам легко научиться копировать слово для первого несколько эпох, а затем изучить необходимую трансформацию для координации.
Модели обучались с параметрами, аналогичными предыдущим, но без некоторых частей модели: без слов, без внимания к символам и без внимания к соседним словам. Для сравнения такой модели и модели, подготовленной по символам, использовалась оценка оценщика. Оценщикам были показаны проблемы управления данными и два возможных ответа в случайном порядке: сформированная модель характерного уровня и кучка словесного слова от. В результате эксперимента было отмечено 682 вопроса. В 62,1 % случаев, оценщики выбрали предложенную модель, 37,9 % — характер.
В документе предлагается модель для сопоставления слов для языков с богатой морфологией. Построенная модель может использоваться в большом количестве приложений: создавать фрагменты, создавать новости и системы ответов на вопросы. Предложенный подход к системам ответов на вопросы является компромиссным решением между генерацией текста по символу и нормализованным словарем. Рассматриваемая модель демонстрирует значительную предварительную подобие моделей персонажей. Предлагается метод сопоставления нормализованных предложений с центральной ролью, которую играют механизмы внимания. Было исследовано применение предложенной модели к системам вопросов и ответов нейронной сети;
Литература:
- Sepp Hochreiter and Jurgen Schmidhuber. Long short-term memory. Neural computation, 9(8):1735–1780, 1997.
- Klaus Greff, Rupesh Kumar Srivastava, Jan Koutnik, Bas R Steunebrink, and Jurgen Schmidhuber. Lstm: A search space odyssey. arXiv preprint arXiv:1503.04069, 2015.
- Ilya Sutskever, Oriol Vinyals, and Quoc V Le. Sequence to sequence learning with neural networks. In Advances in neural information processing systems, pages 31043112, 2014.