Механизмы работы нейронных сетей | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 30 ноября, печатный экземпляр отправим 4 декабря.

Опубликовать статью в журнале

Авторы: ,

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №1 (239) январь 2019 г.

Дата публикации: 08.01.2019

Статья просмотрена: 580 раз

Библиографическое описание:

Мухамадиева, К. Б. Механизмы работы нейронных сетей / К. Б. Мухамадиева, С. С. Самадов. — Текст : непосредственный // Молодой ученый. — 2019. — № 1 (239). — С. 21-23. — URL: https://moluch.ru/archive/239/54451/ (дата обращения: 16.11.2024).



В статье рассматривается применение механизмов соответствия сгенерированных и нормированных слов. Вычислительные эксперименты показывают преимущество предложенной модели по сравнению с charRNN. В документе также рассматривается применение предлагаемой модели к системам ответов на вопросы.

Модели Seq2Seq являются наиболее часто используемой архитектурой в системах машинного перевода и системы нейросетевых вопросов и ответов. Наибольший объем памяти в таких моделях тратится на хранение матрицы представлений, содержащих представление каждого слова из словаря. В этой статье мы предлагаем компромисс между характером и пословными моделями. Предлагаемая модель состоит из двух компонентов: генератора и соответствующего устройства.

Долгосрочная память (LSTM) [1] — популярная повторяющаяся сетевая архитектура. Основная идея этой архитектуры — выделить ячейку памяти, ответственную за хранение информации, полученной в предыдущие моменты времени. Функция ячейки памяти подобна состояниям в детерминированной машине конечного состояния, но в этом случае состояние «распределено» и позволяет работать с бесконечным числом состояний. Сети LSTM очень популярны, поскольку они способны обнаруживать долгосрочные зависимости в данных.

Сети LSTM обучаются с использованием алгоритма обратного распространения ошибок во времени (backpropagation through time), идея которого заключается в том, чтобы расширить график вычислений во времени. Из сетей LSTM можно строить многослойные нейронные сети, передавая выходную последовательность следующего слоя на вход следующего. Одной из самых популярных архитектур машинного перевода является последовательность для последовательности (Seq2Seq) [3]. Такие модели состоят из двух рекуррентных сетей: кодера и декодера. Кодер строит представление последовательности входных слов. Полученный вид (последний вывод и значение сетевой ячейки) затем копируется в декодер. Декодер пытается восстановить целевую последовательность слов на основе полученного представления. В задачах машинного перевода входные и выходные последовательности представляют собой предложения на разных языках. В вопросительно-ответных и диалоговых системах — вопрос и ответ. Для преобразования слов во входные векторы используется так называемая матрица представления (матрица вложения). Количество строк в этой матрице равно размеру словаря, а число столбцов равно размеру ячейки LSTM. Каждая строка соответствует векторному представлению соответствующего слова. Каждое слово перед входом в сеть LSTM заменяется соответствующей строкой матрицы вида.

Чтобы генерировать длинные предложения, к функции ранжирования добавляется штраф, чтобы стимулировать создание большого количества слов. Обычно Y | a | выбран как таковой, где | A | — число сгенерированных слов, а Y — гиперпараметр.

Механизмы внимания — это подход к компьютерному обучению, который заключается в выборе части входных данных (областей изображения, текстовых фрагментов) для более детальной обработки. Механизмы внимания также часто используются в машинных переводах нейронной сети. Проблема с обычными моделями Seq2Seq заключается в необходимости сжимать всю информацию в векторе представления. Эта проблема становится особенно важной при переводе длинных последовательностей. Было показано, что Seq2Seq с вниманием значительно улучшает качество работы над длинными последовательностями. Выходы последнего слоя кодирующей части для каждого слова используются в качестве объекта внимания в таких моделях. В качестве ключа выбирается выход последнего слоя декодирующей части. Для генерации слов вектор контекста объединяется с ключом и проходит через другой повторяющийся уровень.

Описание предлагаемой модели. Модель сопоставления слов получает вопрос и нормализованный ответ в качестве входных данных, и из этих данных он генерирует согласованный ответ, содержащий такое же количество слов, что и нормализованный ответ. Это преобразование происходит в четыре этапа: генерация, представление, генерация представления слов, нормализованный ответ, трансформация идей, генерация слов когерентного ответа. Первоначально, используя рекурсивную сеть по символам, каждое слово вопроса преобразуется в векторное представление q ^. Эти векторы кодируют информацию, которая может быть полезна для сопоставления слов в ответе. Предположительно, этот вектор может кодировать такие функции, как время, пол, число, случай и т. Д. Этот вектор также может быть полезен для перемещения собственных имен из вопроса в ответ.

На втором этапе создается набор представлений — один вид a для каждого слова нормализованного ответа. Кроме того, этот набор модифицируется, чтобы принимать во внимание другие нормированные слова и слова из вопроса. Обе эти модификации происходят в соответствии с той же схемой, описанной ниже. Его основная идея — использовать механизм внимания для выбора важных слов для координации (сначала из вопроса, затем из нормализованного ответа) и учитывать информацию, полученную в презентации.

Представления A не способны генерировать последовательный ответ, потому что они не используют информацию о других словах в нормализованном ответе, поэтому решающее значение того, какие слова следует придавать большему весу, имеет решающее значение в этой модели. Чтобы дать модели возможность указать вес внимания, модификацию слов вопроса, который использовался ранее. Модель получает важную информацию о времени и количестве от нее, что позволяет более точно производить весы на следующем этапе.

Модель для согласования слов может быть использована системами Вороновича. Основная проблема моделей Seq2Seq для языков с богатой морфологией — необходимость хранить словарные формы большинства слов. Для решения этой проблемы предлагается разделить проблему на две части: формирование нормализованного ответа и дальнейшая координация сгенерированного текста. Работа на уровне слов с нормализованным словарем несколько раз уменьшает объем словаря. В дополнение к усилению памяти, работа с меньшим словарем ускоряет изучение словесных представлений, что время от времени сокращает время конвергенции.

Модель сравнивалась с посимвольным Seq2Seq с двумя слоями с 1024 нейронами и вниманием к выходам кодирующей части. Эта модель далее упоминается как charRNN. Ввод этой модели представляет собой строку, содержащую вопрос и ответ, разделенные специальной последовательностью.

Сравнение с charRNN. Для оценки качества использовались четыре метрики: недоумение, доля правильно предсказанных символов (точность символов), доля правильно предсказанных слов (точность слов) и доля правильно предсказанных предложений (точность предложения). Метрика точности слова не рассматривается для модели charnn, потому что модель не работает на словах как отдельные объекты. Наша модель обучается значительно быстрее charRNN. Это связано с тем, что сетевая архитектура позволяет вам легко научиться копировать слово для первого несколько эпох, а затем изучить необходимую трансформацию для координации.

Модели обучались с параметрами, аналогичными предыдущим, но без некоторых частей модели: без слов, без внимания к символам и без внимания к соседним словам. Для сравнения такой модели и модели, подготовленной по символам, использовалась оценка оценщика. Оценщикам были показаны проблемы управления данными и два возможных ответа в случайном порядке: сформированная модель характерного уровня и кучка словесного слова от. В результате эксперимента было отмечено 682 вопроса. В 62,1 % случаев, оценщики выбрали предложенную модель, 37,9 % — характер.

В документе предлагается модель для сопоставления слов для языков с богатой морфологией. Построенная модель может использоваться в большом количестве приложений: создавать фрагменты, создавать новости и системы ответов на вопросы. Предложенный подход к системам ответов на вопросы является компромиссным решением между генерацией текста по символу и нормализованным словарем. Рассматриваемая модель демонстрирует значительную предварительную подобие моделей персонажей. Предлагается метод сопоставления нормализованных предложений с центральной ролью, которую играют механизмы внимания. Было исследовано применение предложенной модели к системам вопросов и ответов нейронной сети;

Литература:

  1. Sepp Hochreiter and Jurgen Schmidhuber. Long short-term memory. Neural computation, 9(8):1735–1780, 1997.
  2. Klaus Greff, Rupesh Kumar Srivastava, Jan Koutnik, Bas R Steunebrink, and Jurgen Schmidhuber. Lstm: A search space odyssey. arXiv preprint arXiv:1503.04069, 2015.
  3. Ilya Sutskever, Oriol Vinyals, and Quoc V Le. Sequence to sequence learning with neural networks. In Advances in neural information processing systems, pages 31043112, 2014.
Основные термины (генерируются автоматически): LSTM, модель, нормализованный ответ, слово, механизм внимания, машинный перевод, предлагаемая модель, предложенная модель, система ответов, богатая морфология.


Похожие статьи

Использование нейросетевого подхода для верификации рукописной подписи

В статье рассматривается система для статического распознавания и верификации рукописной подписи с учетом глобальных особенностей подписи. Распознавание и верификация рукописных подписей осуществляется с помощью искусственной нейронной сети на основе...

Разработка и отладка программного обеспечения для подавления артефактов в электрокардиограмме

В данной статье описана спроектированная программа, представляющая виртуальную программу для подавления артефактов в электрокардиограмме, написанная в среде Mathcad. Так же был построен график спектральной области, по которому можно найти оптимальное...

Использование псевдосплошных образов для идентификации сигналов

В работе рассмотрен новый метод идентификации сигналов, основанный на вводимых авторами псевдосплошных образах. Это позволяет передавать информацию более эффективно, чем при использовании применяемых методов модуляции сигнала. Данный подход значитель...

Основы разработки модулярных нейрокомпьютеров для обработки сигналов

В статье рассмотрен один из подходов решения задач повышения уровня параллелизма вычислительных систем обработки сигналов. Одним из возможных способов решения этой проблемы является внедрение в производство нейросетевых технологий, которые рассмотрен...

Математическое моделирование систем распознавания изображений, содержащих текстовую информацию, на основе нейронных сетей

В данной статье приводится математическая модель системы распознавания изображений, содержащих текстовую информацию или использующих такую информацию при своей генерации. Предполагается, что рассматриваемые системы будет основаны на возможностях нейр...

Синтез структуры мультисервисной сети на базе генетических алгоритмов

В статье рассмотрены вопросы структурного синтеза мультисервисной сети с помощью генетических алгоритмов. При этом все возможных решений представлены в виде хромосомы, а структура сети в виде графов. Такой подход позволяет объединить в единый комплек...

Инжиниринг трафика в программно определяемых сетях

В статье рассматривается проблема развертывания программно-определяемых компонент в уже существующую сеть. Дается формулировка проблемы оптимизации контроллера программно определяемой сети и математическое описание на основе прямо-двойственного алгор...

Разработка программного модуля для проведения оценки тяжести поражения легких при COVID-19 по данным компьютерной томографии

В статье автор демонстрирует результаты, достигнутые в проводимом им исследовании, связанным с разработкой алгоритма, решающего задачу оценивания степени поражения легких при COVID-19 по данным компьютерной томографии с использованием нейронных сетей...

Аналоги применения системы Building Information Modeling, описанные в литературе

Статья посвящена поиску предпосылок к появлению системы BIM в прошлом и изучению области применения в настоящее время. Анализ проведен на основе данных из учебника Талапова В. В. «Основы информационного моделирования» и доклада Autodesk University Ru...

Применение демонстрационных материалов на лекциях по физике

В данной статье авторы рассматривают различные способы улучшения качества обучаемости. Анализируют опыт применения презентаций и демонстрационных материалов на лекциях, а также приводят пример использования макетов.

Похожие статьи

Использование нейросетевого подхода для верификации рукописной подписи

В статье рассматривается система для статического распознавания и верификации рукописной подписи с учетом глобальных особенностей подписи. Распознавание и верификация рукописных подписей осуществляется с помощью искусственной нейронной сети на основе...

Разработка и отладка программного обеспечения для подавления артефактов в электрокардиограмме

В данной статье описана спроектированная программа, представляющая виртуальную программу для подавления артефактов в электрокардиограмме, написанная в среде Mathcad. Так же был построен график спектральной области, по которому можно найти оптимальное...

Использование псевдосплошных образов для идентификации сигналов

В работе рассмотрен новый метод идентификации сигналов, основанный на вводимых авторами псевдосплошных образах. Это позволяет передавать информацию более эффективно, чем при использовании применяемых методов модуляции сигнала. Данный подход значитель...

Основы разработки модулярных нейрокомпьютеров для обработки сигналов

В статье рассмотрен один из подходов решения задач повышения уровня параллелизма вычислительных систем обработки сигналов. Одним из возможных способов решения этой проблемы является внедрение в производство нейросетевых технологий, которые рассмотрен...

Математическое моделирование систем распознавания изображений, содержащих текстовую информацию, на основе нейронных сетей

В данной статье приводится математическая модель системы распознавания изображений, содержащих текстовую информацию или использующих такую информацию при своей генерации. Предполагается, что рассматриваемые системы будет основаны на возможностях нейр...

Синтез структуры мультисервисной сети на базе генетических алгоритмов

В статье рассмотрены вопросы структурного синтеза мультисервисной сети с помощью генетических алгоритмов. При этом все возможных решений представлены в виде хромосомы, а структура сети в виде графов. Такой подход позволяет объединить в единый комплек...

Инжиниринг трафика в программно определяемых сетях

В статье рассматривается проблема развертывания программно-определяемых компонент в уже существующую сеть. Дается формулировка проблемы оптимизации контроллера программно определяемой сети и математическое описание на основе прямо-двойственного алгор...

Разработка программного модуля для проведения оценки тяжести поражения легких при COVID-19 по данным компьютерной томографии

В статье автор демонстрирует результаты, достигнутые в проводимом им исследовании, связанным с разработкой алгоритма, решающего задачу оценивания степени поражения легких при COVID-19 по данным компьютерной томографии с использованием нейронных сетей...

Аналоги применения системы Building Information Modeling, описанные в литературе

Статья посвящена поиску предпосылок к появлению системы BIM в прошлом и изучению области применения в настоящее время. Анализ проведен на основе данных из учебника Талапова В. В. «Основы информационного моделирования» и доклада Autodesk University Ru...

Применение демонстрационных материалов на лекциях по физике

В данной статье авторы рассматривают различные способы улучшения качества обучаемости. Анализируют опыт применения презентаций и демонстрационных материалов на лекциях, а также приводят пример использования макетов.

Задать вопрос