Вопросно-ответная система, основанная на семантическом вероятностном выводе | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 28 декабря, печатный экземпляр отправим 1 января.

Опубликовать статью в журнале

Автор:

Рубрика: Технические науки

Опубликовано в Молодой учёный №12 (92) июнь-2 2015 г.

Дата публикации: 11.06.2015

Статья просмотрена: 868 раз

Библиографическое описание:

Тойтеев, О. К. Вопросно-ответная система, основанная на семантическом вероятностном выводе / О. К. Тойтеев. — Текст : непосредственный // Молодой ученый. — 2015. — № 12 (92). — С. 331-334. — URL: https://moluch.ru/archive/92/20246/ (дата обращения: 19.12.2024).

Данная статья содержит описание методов извлечения ответов на простые вопросы и процесс логического вывода, который содержит действительность и контекстный охват ответа на вопросы со сложной структурой, путем доступа к богатой семантической структуре текста. Обработка сложных вопросов включает в себя выявление нескольких форм комплексных семантических структур. Извлечение ответа осуществляется путем распознавания взаимосвязей нескольких событий и синтезируя предложения и тексты, используя априорные знания.

Ключевые слова: извлечение ответов, логический вывод, семантическая структура.

 

Введение. Современные вопросно-ответные системы извлекают ответы из больших текстов путем (1) классификации вопросов по типу ожидаемых ответов; (2) с помощью ключевых слов или шаблонов на вопросы для выявления релевантного отрывка текста и (3) ранжирование вариантов ответов для выявления куска текста, содержащего ответ. Некоторые системы основаны на логике предикатов первого порядка. Такой метод ограничивается предположением, что ответ может быть найден, потому что он в нем используются слова из вопроса. Во многих случаях это работает, но данное предположение не распространяется на большинство случаев, когда информативный ответ отсутствует из-за того, что его выявление требует более сложной семантической обработки, чем извлечение именованных сущностей и определение типа ожидаемого ответа. Поэтому доступ к богатым семантическим структурам, полученных из вопросов и ответов позволит извлекать более точные ответы, а также более точный процесс вывода, который содержит действительность и контекстный охват ответа.

Существует несколько этапов семантической обработки. Первых этап включает в себя семантические парсеры или идентификаторы структур предикатных аргументов. Обработка сложных вопросов состоит из следующих шагов:

-          синтаксическая обработка вопроса и сбор текстов

-          выявление именованных сущностей

-          выявления структур предикат-аргумент

-           определение типа ответа, это скорее не простая структура, а сложная концептуальная структура

-          определение ключевых слов, для поиска релевантного отрывка текста

Обработка документа осуществляется индексированием и извлечением трех форм семантической информации:

-          классы именованных сущностей

-          структуры предикат-аргумент

-          онтологии возможных типов ответов

Кроме того, чем сложнее смысловая структура текста, распознанная ответом на вопрос, тем жестче осуществляется индексация и извлечение информация, учитывая концептуальные схемы и тематические модели, так как для ответа, возможно, потребуется слияние информации с различных источников.

Обработка вопроса используя различные семантические ресурсы.

Учитывая размер сегодняшних хранилищ документов, можно ожидать, что информация на любую сложную тему будет найдена и рассмотрена с различных точек зрения. Это осуществляется путем различных техник разложения вопроса, которые генерируют набор из нескольких вопросов для того, чтобы покрыть все возможные интерпретации сложной темы. Тем не менее, набор разложившихся вопросов может в конечном итоге привести к потенциально противоречивым наборам ответов. Для того, чтобы вопросно-ответные системы могли использовать этот набор ответов с пользой, слияние должно быть выполнено для того, чтобы определить единственный, уникальный, и адекватный ответ.

Рассмотрим синтезирование ответов пошагово. Сначала, формируется шаблон ответа на основе структуры предикат-аргумент. Затем обучается вероятностная модель для обнаружения связей между извлеченными шаблонами. Последним шагом является построение объединенного ответа используя операторы для слияния набора шаблонов. Архитектура синтеза ответов показана на рисунке 1. На рисунке 2, продемонстрирован пример.

Вопрос 1: Когда был утвержден первый президент Франции?

Вопрос 2: Из какой страны Россия импортирует мясо?

Вопрос 3: Что способствовало программе Казахстан 2050?

В вопросе 1, ключевое слово «когда» означает, что тип ответа является временным блоком, что в конечном итоге выражается в виде даты. Чтобы найти ответ, важно опознание слова “Франции” и других именованных сущностей. Определение именованных сущностей также является ключевым во втором вопросе, так как не только “России” должно быть распознана как страна, но и другие названия стран нужно определить для ответа на вопрос. Для обработки второго вопроса, потребуется дополнительная семантическая информация в виде структуры предикат-аргумент, которая определит ответ гораздо лучше, вместо того, чтобы искать все страны которые экспортируют мясо или страны у которых Россия импортирует продукты питания. Это возможно путем трансформации вопроса 2 в следующую структуру.

Предикат: импорт

Арг 0: (роль = импортер): Россия

Арг 1: (роль = товар): мясо

Арг 2: (роль = экспортер): ОТВЕТ

Рис. 1. Структура предикат-аргумент на вопрос 2

 

Предикат-аргумент структура также необходима для обработки вопроса 3, так как вопрос является довольно размытым. Ключевое слово «что» и именованная сущность «Казахстан» может относиться к широкому диапазону событий и сущностей.

Предикат: способствовать

Арг 0: (роль = агент): ОТВЕТ (часть 1)

Арг 1: (роль = событие): Казахстан 2050

Арг 2: (роль = инструмент): ОТВЕТ (часть 2)

Рис. 2. Структура предикат-аргумент на вопрос 3

 

Структура предикат-аргумент показанная на рисунке 2 показывает, что ответ может содержать роли “агент” или даже роль “инструмент”.

Вопрос 4: Как можно обнаружить применение биологического оружия?

Ответ: Применение противником биологического оружия может быть обнаружено по следующим видимым внешним признакам: образование аэрозольного облака после взрыва боеприпасов или при срабатывании генераторов; обнаружение остатков специальных контейнеров, боеприпасов и других видов вооружения; наличие большого количества насекомых, клещей, грызунов, неизвестных для данной местности, и т. п.

Рис. 3. Сложный вопрос и ответ на него взят с Википедии

 

Для ответа на вопрос 4 недостаточно ключевого слова “как”, чтобы определить шаги обнаружения, и даже использование структуры предикат-аргумент (рисунок 4) нам не поможет. В данном случае потребуется более сложная семантическая обработка: тематическое моделирование.

Вопрос 4: Как можно обнаружить применение биологического оружия?

Шаблон вопроса:

Как обнаружить Х?

 

Структура предикат-аргумент

Предикат: обнаружить

Арг 0: (роль = обнаружитель): ОТВЕТ

Арг 1: (роль = обнаружено): оружие

Арг 2: (роль = инструмент): ОТВЕТ

 

Тематическое моделирование

Простые связи (Typical connections):

Оружие ß Разработка

Возможные пути действия (paths of action):

Разработка à выпуск à доставка

Рис. 4. Обработка вопроса 4 различными способами

 

Нахождение ответа, основанное на семантической обработке.

В базовой архитектуре для нахождения ответа используется тип ожидаемого ответа или структура предикат-аргумент. Ответы на вопросы со сложной структурой, находятся путем заполнения их семантической информацией, взятой из коллекций текстов. Ответ на вопрос 4 извлечен следующим путем: (1) найден текст содержащий ответ (2) семантическая структура ответа извлечена из текста (3) заполняются указатели, ссылающиеся на пустые места в семантической структуре ответа и источником текста. Такие указатели могут быть дополнены пошаговыми действиями дедуктивного процесса.

В данной статье описано, что на текущий момент был достигнут значительный прогресс в анализе естественного языка, но до сих пор существует множество проблем с предоставлением знаний и оперированием ими для передовых вопросно-ответных систем. Показан метод обработки сложных вопросов, которые включает в себя идентификацию нескольких форм комплексных смысловых структур и применяя мощную семантическую грамматику.

 

Литература:

 

1.                  Sanda Harabagiu, Dan Moldovan, Christine Clark, Mitchell Bowden, John Williams and Jeremy Bensley. Answer Mining by Combining Extraction Techniques with Abductive Reasoning, 2003

2.                  Dragomir R. Radev and Kathleen McKeown. Generating natural languages summaries from multiple online sources, 1998

Основные термины (генерируются автоматически): ответ, роль, структура, биологическое оружие, ключевое слово, Россия, конечный итог, логический вывод, семантическая информация, семантическая обработка.


Ключевые слова

семантическая структура, извлечение ответов, логический вывод, семантическая структура.

Похожие статьи

Сравнительный анализ методик обработки спонтанных устных текстов о себе

В статье рассматриваются методики обработки устных спонтанных монологических текстов. Построение графов семантических связей полей в тексте производилось в ИС «Семограф». С целью выбора адекватного метода семантического анализа текста один и тот же т...

Исследование методов сентимент-анализа русскоязычных текстов

В статье рассматриваются методы анализа тональности текста (сентимент анализа), необходимые для автоматического определения отношения автора к упомянутой теме. Сентимент анализ — область компьютерной лингвистики, является одной из проблем обработки е...

Математическое моделирование систем распознавания изображений, содержащих текстовую информацию, на основе нейронных сетей

В данной статье приводится математическая модель системы распознавания изображений, содержащих текстовую информацию или использующих такую информацию при своей генерации. Предполагается, что рассматриваемые системы будет основаны на возможностях нейр...

Разработка и совершенствование методов получения и обработки информации для задач управления крупным предприятием

Представлена методика применения метода анализа иерархий для определения параметров целевой функции оптимизационной задачи, из решения которой устанавливаются структура и характеристики среднесрочного плана деятельности крупного предприятия. Указанны...

Решение задач классификации методами машинного обучения

В данной работе проанализирована актуальность методов машинного обучения для решения задач классификации, определены понятия машинного обучения, нейронной сети. Выявлена необходимая информация для анализа машинного обучения. Определены понятия класси...

Современные подходы в обучении грамматике неродного языка: сравнение и сопоставление

Статья посвящена сравнению и сопоставлению своевременных подходов к обучению грамматике неродного языка. В статье рассматривается структура каждого отдельного подхода, выделяются и сравниваются их основные особенности, а также анализируются возможнос...

Проблемы автоматизированного сбора данных

Рассматриваются основные проблемы, связанные с извлечением слабоструктурированных данных с веб-страниц. Слабоструктурированные данные представляют собой информацию, лишенную явного разделения на атрибуты и значения, что делает задачу их извлечения не...

Структурно-грамматический анализ предложений в процессе преподавания иностранного языка в техническом вузе

Данная статья посвящена рассмотрению структурно-грамматического анализа в процессе преподавания иностранного языка в техническом вузе. Обучение чтению трудных оригинальных текстов следует начинать со структурно-грамматического анализа предложения, с ...

Структурно-логические схемы как технология формирования культуры научного мышления на уроках литературы

В данной статье ставится задача рассмотреть дидактические возможности использования структурно-логических схем (СЛС) на уроках литературы. Автор доказывает, что данная технология способствует формированию культуры научного познания, активизирует логи...

Математические методы системного анализа

Системный анализ как пограничная наука между практическим анализом и математикой включает в себя множество базовых понятий и инструментов, которые практически всегда используются для решения той или иной проблемы. Такое сочетание этих объектов в опре...

Похожие статьи

Сравнительный анализ методик обработки спонтанных устных текстов о себе

В статье рассматриваются методики обработки устных спонтанных монологических текстов. Построение графов семантических связей полей в тексте производилось в ИС «Семограф». С целью выбора адекватного метода семантического анализа текста один и тот же т...

Исследование методов сентимент-анализа русскоязычных текстов

В статье рассматриваются методы анализа тональности текста (сентимент анализа), необходимые для автоматического определения отношения автора к упомянутой теме. Сентимент анализ — область компьютерной лингвистики, является одной из проблем обработки е...

Математическое моделирование систем распознавания изображений, содержащих текстовую информацию, на основе нейронных сетей

В данной статье приводится математическая модель системы распознавания изображений, содержащих текстовую информацию или использующих такую информацию при своей генерации. Предполагается, что рассматриваемые системы будет основаны на возможностях нейр...

Разработка и совершенствование методов получения и обработки информации для задач управления крупным предприятием

Представлена методика применения метода анализа иерархий для определения параметров целевой функции оптимизационной задачи, из решения которой устанавливаются структура и характеристики среднесрочного плана деятельности крупного предприятия. Указанны...

Решение задач классификации методами машинного обучения

В данной работе проанализирована актуальность методов машинного обучения для решения задач классификации, определены понятия машинного обучения, нейронной сети. Выявлена необходимая информация для анализа машинного обучения. Определены понятия класси...

Современные подходы в обучении грамматике неродного языка: сравнение и сопоставление

Статья посвящена сравнению и сопоставлению своевременных подходов к обучению грамматике неродного языка. В статье рассматривается структура каждого отдельного подхода, выделяются и сравниваются их основные особенности, а также анализируются возможнос...

Проблемы автоматизированного сбора данных

Рассматриваются основные проблемы, связанные с извлечением слабоструктурированных данных с веб-страниц. Слабоструктурированные данные представляют собой информацию, лишенную явного разделения на атрибуты и значения, что делает задачу их извлечения не...

Структурно-грамматический анализ предложений в процессе преподавания иностранного языка в техническом вузе

Данная статья посвящена рассмотрению структурно-грамматического анализа в процессе преподавания иностранного языка в техническом вузе. Обучение чтению трудных оригинальных текстов следует начинать со структурно-грамматического анализа предложения, с ...

Структурно-логические схемы как технология формирования культуры научного мышления на уроках литературы

В данной статье ставится задача рассмотреть дидактические возможности использования структурно-логических схем (СЛС) на уроках литературы. Автор доказывает, что данная технология способствует формированию культуры научного познания, активизирует логи...

Математические методы системного анализа

Системный анализ как пограничная наука между практическим анализом и математикой включает в себя множество базовых понятий и инструментов, которые практически всегда используются для решения той или иной проблемы. Такое сочетание этих объектов в опре...

Задать вопрос