Построение векторного пространства текста, составленного на естественном языке | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 7 декабря, печатный экземпляр отправим 11 декабря.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №49 (287) декабрь 2019 г.

Дата публикации: 06.12.2019

Статья просмотрена: 259 раз

Библиографическое описание:

Долбин, А. В. Построение векторного пространства текста, составленного на естественном языке / А. В. Долбин. — Текст : непосредственный // Молодой ученый. — 2019. — № 49 (287). — С. 19-22. — URL: https://moluch.ru/archive/287/64831/ (дата обращения: 24.11.2024).



Данная работа посвящена двум распространенным методам построения векторного пространства текста на естественном языке: латентное размещение Дирихле и латентно-семантический анализ. Основной целью исследовательской работы было сравнение полноты информационного поиска обоих методов. В ходе исследования выяснилось, что использование только одного метода не дает высокой точности при распознавании. Построенное векторное пространство в дальнейшем может быть использовано для извлечения фактов из сформированной информационной модели.

Ключевые слова: латентно-семантический анализ, латентное размещение Дирихле, text mining

Введение. Распознавание именованных сущностей относится к категории задач информационного поиска. На данный момент существует большое число методов для извлечения знаний из текста.

Несмотря на то, что подобная задача появилась относительно недавно, она уже является одним из самых важных направлений в сфере компьютерных технологий. Благодаря извлеченным знаниям возможно получение дополнительной информации об объекте исследования, о которой в тексте явно не написано. К примеру, если из текста извлечь информацию, относящуюся к элементам внешнего вида человека, то можно сделать выводы о его профессиональной деятельности или привычках. В связи с этим, данное направление является очень перспективным для дальнейших исследований. [1]

В рамках данной статьи рассматривается исключительно анализ теста на русском языке. Но стоит принять во внимание тот факт, что методы анализа текста, описанные в статье, могут быть адаптированы и под другие языке при использовании соответствующих корпусов текста или словарей. [2]

Эта статья представляет собой результат исследования методов построения векторного пространства текста для информационной модели внешнего вида человека. Человек является одной из самых сложных именованных сущностей для нахождения в тексте на естественном языке. Конечно, у личности есть ряд отличительных признаков, по которым можно ее распознать. Если в тексте явно указана фамилия или отчество, то для программы для распознавания сущностей данный случай не составит никаких проблем. Однако, такие идеальные случаи встречаются крайне редко. Разработанная информационная модель представлена на рисунке 1. [3]

Рис. 1. Информационная модель внешнего вида человека

Латентное размещение Дирихле. Латентное размещение Дирихле используется для автоматической идентификации одной или более тем, которые содержат документы. Данный метод принимает на вход 3 параметра:

  1. количество итераций,
  2. количество тем для классификации,
  3. анализируемый текст.

Латентное размещение Дирихле представляет из себя набор тем, которые формируют слова с определенной вероятностью. Таким образом, данный метод не учитывает семантику предложения, а просто работает с «мешком слов».

Алгоритм работы данного метода следующий:

  1. задание списка ключевых слов,
  2. для каждого слова в каждом документа назначить тему случайно или основываясь на каких-либо признаках,
  3. для каждого слова в документе вычислить процентное соотношение слов, относящихся к данной теме в текущем документе и процентное соотношение того, что текущее слово относится к данной теме в пространстве всех документов,
  4. повторить предыдущий шаг заданное число итераций.

С одной стороны, латентное размещение Дирихле дает информацию о том, с какой вероятностью каждое ключевое слово может относиться к каждой из потенциальных тем. С другой стороны, на выходе также получаем вероятность того, насколько документ может относиться к одной из тем. [4]

Латентно-семантический анализ. Латентно-семантический анализ — это метод обработки текстовой информации, который анализирует связь между заданной коллекцией терминов и документов. Главная цель данного метода — найти документы, векторное пространство которых максимально близко к векторному пространству поискового слова. [5]

Латентно-семантический анализ работает по следующему принципу:

  1. выделить ключевые слова предметной области,
  2. составить частотную матрицу (для входного текста посчитать количество вхождений каждого ключевого слова в каждый документ),
  3. для того, чтобы результаты были наиболее релевантными преобразовать частотную матрицу методом TF-IDF,
  4. над полученной матрицей нужно применить операцию сингулярного разложения матрицы, в результате которой будут получены матрицы пространства документов (U), пространства слов (Vt) и диагональная матрица (S),
  5. в результате сингулярного разложения можно отбросить из матрицы Vt строки с индексом больше определенного значения и столбцы из матрицы U,
  6. с использованием матриц U и Vt определить, какие документы или предложения расположены максимально близко к поисковому запросу.

Проведение тестовых испытаний. Была реализована программа на языке Python3 для построения информационной модели внешнего вида человека. Также был использован корпус русского языка “OpenCorpora”, который насчитывает около полутора миллионов словоупотреблений.

Пусть N — общее число элементов внешнего вида человека в документе, а Nr число найденных элементов. Полнота информационного поиска оценивалась как отношение числа найденных элементов к общему числу элементов внешнего вида человека в документе:

(1)

Результаты проведенного эксперимента представлены в таблице 1. Тексты на русском языке, используемые в данном эксперименте, были взяты из следующих областей: художественная литература, блоги, юридические тексты. Таблица 1 показывает, что если поиск выполняется только на отрывках текста с упоминание человека, то точность распознавания с использованием метода латентно-семантического анализа показывает более высокую точность по сравнению с латентным размещением Дирихле, хотя прирост является незначительным. [6]

При проведении эксперимента на более больших объемах данных или иной предметной области результаты могут незначительно отличаться из-за определенных особенностей.

Таблица 1

Результаты сравнения методов построения векторного пространства текста

Количество документов

Число слов вдокументе

ЛСА

ЛДА

5

200

0.69

0.67

7

200

0.67

0.65

10

500

0.65

0.62

12

500

0.64

0.62

15

500

0.64

0.61

Заключение. Было проведено исследование на предмет извлечения элементов внешнего вида человека из текста на естественном языке с использованием методов латентно-семантического анализа и латентного размещения Дирихле. В качестве критерия эффективности для сравнения указанных методов была выбрана полнота информационного поиска. Оба метода показали хорошие результаты по результатам эксперимента. Однако стоит отметить, что ЛСА показал более высокий показатель полноты информационного поиска по сравнению с ЛДА.

Литература:

  1. Батура Т. В. Семантический анализ и способы представления смысла текста в компьютерной лингвистике // Программные продукты и системы. Тверь: ЗАО НИИ ЦПС, 2016. № 4. C. 45–57.
  2. Методы и модели анализа данных OLAP и Data Mining / А. А. Баргесян [и др.]. — Спб.: БХВ-Петербург, 2004. — 336 с.
  3. Processing of Spatial and Temporal Information in the Text / А. С. Дмитриев, А. В. Заболеева-Зотова, Ю. А. Орлова, В. Л. Розалиев // World Applied Sciences Journal (WASJ). — 2013. — Vol. 24, Spec. Issue 24: Information Technologies in Modern Industry, Education & Society. — C. 133–137.
  4. Маннинг, К. Д. Введение в информационный поиск / К. Д. Маннинг, П. Рагхаван, Х. Шютце; пер. с англ. под ред. П. И. Браславского, Д. А. Клюшина, И. В. Сегаловича. — Москва.: И. Д. Вильямс, 2011. — 528 с.
  5. Латентно-семантический метод извлечения информации из интернет ресурсов / А. А. Стенин [и др.] // Восточно-Европейский журнал передовых технологий. Автоматика. Вычислительная техника. — 2013. — Вып. 9, Том 4. — С. 19–22.
  6. A. Sysoev, I. Andrianov, Named Entity Recognition in Russian: the Power of Wiki-Based Approach, Proceedings of the International Conference “Dialogue 2016”, 2016.
Основные термины (генерируются автоматически): латентное размещение, внешний вид человека, латентно-семантический анализ, информационный поиск, документ, векторное пространство текста, естественный язык, информационная модель, русский язык, текст.


Похожие статьи

Аналитическое сравнение рекуррентных моделей в задаче прогнозирования динамики ценных бумаг

В данной статье рассматриваются подходы машинного обучения в задаче анализа и прогнозирования рынка ценных бумаг. В работе сравниваются такие аспекты, как количество занимаемой памяти, число параметров, а также величина затраченного на обучение модел...

Разработка алгоритма эффективного кодирования на основе неравенства Крафта

Эффективное кодирование применяется для уменьшения объема занимаемого данными для хранения информации и с целью сокращения времени передачи информации. Разработаны новые алгоритмы эффективного кодирования и декодирования информации на основе неравенс...

Кибернетика распределенных реестров на технологиях блокчейна

В статье автор строит модель блокчейн сети, основанной на «доказательстве работы» (PoW). Проведен математический анализ модели. Выполнено численное моделирование работы сети при различном количестве участников. Применена линейная регрессия для собран...

Текстовая классификация документов на основе текстовой сегментации

Целью данного исследования является разработка модели классификации текстовых документов с несколькими метками. Вкратце рассмотрены основые работы по данной проблематике. Основываясь на том, что текстовые документы хорошо организованы, некоторые част...

Использование преобразования Гильберта-Хуанга для формирования моделей фонем русского языка в задаче распознавания речи

В статье исследуются возможности использования преобразования Гильберта-Хуанга для создания моделей фонем русского языка в системе преобразования речи в текст. Производится сравнение предложенного метода с преобразованием Фурье и вейвлет-преобразован...

Сравнительный анализ методик обработки спонтанных устных текстов о себе

В статье рассматриваются методики обработки устных спонтанных монологических текстов. Построение графов семантических связей полей в тексте производилось в ИС «Семограф». С целью выбора адекватного метода семантического анализа текста один и тот же т...

Реализация новых технологий WolframAlpha в исследовании феномена «потребление»

В центре внимания статьи — практическая реализация модели Дж. Кейнса, целью которой является исследование зависимости потребления от дохода. Раскрыты прикладные возможности использования современной базы знаний и набора вычислительных алгоритмов Wolf...

Методы и алгоритмы эффективного решения задачи маршрутизации транспорта на сетях больших размерностей

В данной работе подробно рассмотрена задача маршрутизации транспорта с временными окнами и ограниченной грузоподъёмностью. В ходе работы рассматриваются различные эвристические и мета-эвристические алгоритмы, применённые к данному типу задач. Более п...

Вопросно-ответная система, основанная на семантическом вероятностном выводе

Данная статья содержит описание методов извлечения ответов на простые вопросы и процесс логического вывода, который содержит действительность и контекстный охват ответа на вопросы со сложной структурой, путем доступа к богатой семантической структуре...

Особенности организации пространства и времени в романе Ф. Томпсон «Lark Rise to Candleford»

Целью данного исследования является изучение особенностей организации пространства и времени в художественном произведении. Также предлагается анализ пространственно-временных маркеров с помощью теории функционально-семантического поля. Представлен а...

Похожие статьи

Аналитическое сравнение рекуррентных моделей в задаче прогнозирования динамики ценных бумаг

В данной статье рассматриваются подходы машинного обучения в задаче анализа и прогнозирования рынка ценных бумаг. В работе сравниваются такие аспекты, как количество занимаемой памяти, число параметров, а также величина затраченного на обучение модел...

Разработка алгоритма эффективного кодирования на основе неравенства Крафта

Эффективное кодирование применяется для уменьшения объема занимаемого данными для хранения информации и с целью сокращения времени передачи информации. Разработаны новые алгоритмы эффективного кодирования и декодирования информации на основе неравенс...

Кибернетика распределенных реестров на технологиях блокчейна

В статье автор строит модель блокчейн сети, основанной на «доказательстве работы» (PoW). Проведен математический анализ модели. Выполнено численное моделирование работы сети при различном количестве участников. Применена линейная регрессия для собран...

Текстовая классификация документов на основе текстовой сегментации

Целью данного исследования является разработка модели классификации текстовых документов с несколькими метками. Вкратце рассмотрены основые работы по данной проблематике. Основываясь на том, что текстовые документы хорошо организованы, некоторые част...

Использование преобразования Гильберта-Хуанга для формирования моделей фонем русского языка в задаче распознавания речи

В статье исследуются возможности использования преобразования Гильберта-Хуанга для создания моделей фонем русского языка в системе преобразования речи в текст. Производится сравнение предложенного метода с преобразованием Фурье и вейвлет-преобразован...

Сравнительный анализ методик обработки спонтанных устных текстов о себе

В статье рассматриваются методики обработки устных спонтанных монологических текстов. Построение графов семантических связей полей в тексте производилось в ИС «Семограф». С целью выбора адекватного метода семантического анализа текста один и тот же т...

Реализация новых технологий WolframAlpha в исследовании феномена «потребление»

В центре внимания статьи — практическая реализация модели Дж. Кейнса, целью которой является исследование зависимости потребления от дохода. Раскрыты прикладные возможности использования современной базы знаний и набора вычислительных алгоритмов Wolf...

Методы и алгоритмы эффективного решения задачи маршрутизации транспорта на сетях больших размерностей

В данной работе подробно рассмотрена задача маршрутизации транспорта с временными окнами и ограниченной грузоподъёмностью. В ходе работы рассматриваются различные эвристические и мета-эвристические алгоритмы, применённые к данному типу задач. Более п...

Вопросно-ответная система, основанная на семантическом вероятностном выводе

Данная статья содержит описание методов извлечения ответов на простые вопросы и процесс логического вывода, который содержит действительность и контекстный охват ответа на вопросы со сложной структурой, путем доступа к богатой семантической структуре...

Особенности организации пространства и времени в романе Ф. Томпсон «Lark Rise to Candleford»

Целью данного исследования является изучение особенностей организации пространства и времени в художественном произведении. Также предлагается анализ пространственно-временных маркеров с помощью теории функционально-семантического поля. Представлен а...

Задать вопрос