Построение векторного пространства текста, составленного на естественном языке

Долбин, Алексей Витальевич

Построение векторного пространства текста, составленного на естественном языке

Автор: Долбин Алексей Витальевич

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №49 (287) декабрь 2019 г.

Дата публикации: 06.12.2019 2019-12-06

Статья просмотрена: 261 раз

Скачать электронную версию

Скачать Часть 1 (pdf)

Библиографическое описание:

Долбин, А. В. Построение векторного пространства текста, составленного на естественном языке / А. В. Долбин. — Текст : непосредственный // Молодой ученый. — 2019. — № 49 (287). — С. 19-22. — URL: https://moluch.ru/archive/287/64831/ (дата обращения: 25.04.2025).

Данная работа посвящена двум распространенным методам построения векторного пространства текста на естественном языке: латентное размещение Дирихле и латентно-семантический анализ. Основной целью исследовательской работы было сравнение полноты информационного поиска обоих методов. В ходе исследования выяснилось, что использование только одного метода не дает высокой точности при распознавании. Построенное векторное пространство в дальнейшем может быть использовано для извлечения фактов из сформированной информационной модели.

Ключевые слова: латентно-семантический анализ, латентное размещение Дирихле, text mining

Введение. Распознавание именованных сущностей относится к категории задач информационного поиска. На данный момент существует большое число методов для извлечения знаний из текста.

Несмотря на то, что подобная задача появилась относительно недавно, она уже является одним из самых важных направлений в сфере компьютерных технологий. Благодаря извлеченным знаниям возможно получение дополнительной информации об объекте исследования, о которой в тексте явно не написано. К примеру, если из текста извлечь информацию, относящуюся к элементам внешнего вида человека, то можно сделать выводы о его профессиональной деятельности или привычках. В связи с этим, данное направление является очень перспективным для дальнейших исследований. [1]

В рамках данной статьи рассматривается исключительно анализ теста на русском языке. Но стоит принять во внимание тот факт, что методы анализа текста, описанные в статье, могут быть адаптированы и под другие языке при использовании соответствующих корпусов текста или словарей. [2]

Эта статья представляет собой результат исследования методов построения векторного пространства текста для информационной модели внешнего вида человека. Человек является одной из самых сложных именованных сущностей для нахождения в тексте на естественном языке. Конечно, у личности есть ряд отличительных признаков, по которым можно ее распознать. Если в тексте явно указана фамилия или отчество, то для программы для распознавания сущностей данный случай не составит никаких проблем. Однако, такие идеальные случаи встречаются крайне редко. Разработанная информационная модель представлена на рисунке 1. [3]

Рис. 1. Информационная модель внешнего вида человека

Латентное размещение Дирихле. Латентное размещение Дирихле используется для автоматической идентификации одной или более тем, которые содержат документы. Данный метод принимает на вход 3 параметра:

количество итераций,
количество тем для классификации,
анализируемый текст.

Латентное размещение Дирихле представляет из себя набор тем, которые формируют слова с определенной вероятностью. Таким образом, данный метод не учитывает семантику предложения, а просто работает с «мешком слов».

Алгоритм работы данного метода следующий:

задание списка ключевых слов,
для каждого слова в каждом документа назначить тему случайно или основываясь на каких-либо признаках,
для каждого слова в документе вычислить процентное соотношение слов, относящихся к данной теме в текущем документе и процентное соотношение того, что текущее слово относится к данной теме в пространстве всех документов,
повторить предыдущий шаг заданное число итераций.

С одной стороны, латентное размещение Дирихле дает информацию о том, с какой вероятностью каждое ключевое слово может относиться к каждой из потенциальных тем. С другой стороны, на выходе также получаем вероятность того, насколько документ может относиться к одной из тем. [4]

Латентно-семантический анализ. Латентно-семантический анализ — это метод обработки текстовой информации, который анализирует связь между заданной коллекцией терминов и документов. Главная цель данного метода — найти документы, векторное пространство которых максимально близко к векторному пространству поискового слова. [5]

Латентно-семантический анализ работает по следующему принципу:

выделить ключевые слова предметной области,
составить частотную матрицу (для входного текста посчитать количество вхождений каждого ключевого слова в каждый документ),
для того, чтобы результаты были наиболее релевантными преобразовать частотную матрицу методом TF-IDF,
над полученной матрицей нужно применить операцию сингулярного разложения матрицы, в результате которой будут получены матрицы пространства документов (U), пространства слов (Vt) и диагональная матрица (S),
в результате сингулярного разложения можно отбросить из матрицы Vt строки с индексом больше определенного значения и столбцы из матрицы U,
с использованием матриц U и Vt определить, какие документы или предложения расположены максимально близко к поисковому запросу.

Проведение тестовых испытаний. Была реализована программа на языке Python3 для построения информационной модели внешнего вида человека. Также был использован корпус русского языка “OpenCorpora”, который насчитывает около полутора миллионов словоупотреблений.

Пусть N — общее число элементов внешнего вида человека в документе, а N_r число найденных элементов. Полнота информационного поиска оценивалась как отношение числа найденных элементов к общему числу элементов внешнего вида человека в документе:

(1)

Результаты проведенного эксперимента представлены в таблице 1. Тексты на русском языке, используемые в данном эксперименте, были взяты из следующих областей: художественная литература, блоги, юридические тексты. Таблица 1 показывает, что если поиск выполняется только на отрывках текста с упоминание человека, то точность распознавания с использованием метода латентно-семантического анализа показывает более высокую точность по сравнению с латентным размещением Дирихле, хотя прирост является незначительным. [6]

При проведении эксперимента на более больших объемах данных или иной предметной области результаты могут незначительно отличаться из-за определенных особенностей.

Таблица 1

Результаты сравнения методов построения векторного пространства текста

Количество документов	Число слов вдокументе	ЛСА	ЛДА
5	200	0.69	0.67
7	200	0.67	0.65
10	500	0.65	0.62
12	500	0.64	0.62
15	500	0.64	0.61

Заключение. Было проведено исследование на предмет извлечения элементов внешнего вида человека из текста на естественном языке с использованием методов латентно-семантического анализа и латентного размещения Дирихле. В качестве критерия эффективности для сравнения указанных методов была выбрана полнота информационного поиска. Оба метода показали хорошие результаты по результатам эксперимента. Однако стоит отметить, что ЛСА показал более высокий показатель полноты информационного поиска по сравнению с ЛДА.

Литература:

Батура Т. В. Семантический анализ и способы представления смысла текста в компьютерной лингвистике // Программные продукты и системы. Тверь: ЗАО НИИ ЦПС, 2016. № 4. C. 45–57.
Методы и модели анализа данных OLAP и Data Mining / А. А. Баргесян [и др.]. — Спб.: БХВ-Петербург, 2004. — 336 с.
Processing of Spatial and Temporal Information in the Text / А. С. Дмитриев, А. В. Заболеева-Зотова, Ю. А. Орлова, В. Л. Розалиев // World Applied Sciences Journal (WASJ). — 2013. — Vol. 24, Spec. Issue 24: Information Technologies in Modern Industry, Education & Society. — C. 133–137.
Маннинг, К. Д. Введение в информационный поиск / К. Д. Маннинг, П. Рагхаван, Х. Шютце; пер. с англ. под ред. П. И. Браславского, Д. А. Клюшина, И. В. Сегаловича. — Москва.: И. Д. Вильямс, 2011. — 528 с.
Латентно-семантический метод извлечения информации из интернет ресурсов / А. А. Стенин [и др.] // Восточно-Европейский журнал передовых технологий. Автоматика. Вычислительная техника. — 2013. — Вып. 9, Том 4. — С. 19–22.
A. Sysoev, I. Andrianov, Named Entity Recognition in Russian: the Power of Wiki-Based Approach, Proceedings of the International Conference “Dialogue 2016”, 2016.

Основные термины (генерируются автоматически): латентное размещение, внешний вид человека, латентно-семантический анализ, информационный поиск, документ, векторное пространство текста, естественный язык, информационная модель, русский язык, текст.

Ключевые слова

латентно-семантический анализ, латентное размещение Дирихле, text mining

Построение векторного пространства текста, составленного на естественном языке

Библиографическое описание:

Ключевые слова

Похожие статьи

Аналитическое сравнение рекуррентных моделей в задаче прогнозирования динамики ценных бумаг

Разработка алгоритма эффективного кодирования на основе неравенства Крафта

Кибернетика распределенных реестров на технологиях блокчейна

Текстовая классификация документов на основе текстовой сегментации

Использование преобразования Гильберта-Хуанга для формирования моделей фонем русского языка в задаче распознавания речи

Сравнительный анализ методик обработки спонтанных устных текстов о себе

Реализация новых технологий WolframAlpha в исследовании феномена «потребление»

Методы и алгоритмы эффективного решения задачи маршрутизации транспорта на сетях больших размерностей

Вопросно-ответная система, основанная на семантическом вероятностном выводе

Особенности организации пространства и времени в романе Ф. Томпсон «Lark Rise to Candleford»

Похожие статьи

Аналитическое сравнение рекуррентных моделей в задаче прогнозирования динамики ценных бумаг

Разработка алгоритма эффективного кодирования на основе неравенства Крафта

Кибернетика распределенных реестров на технологиях блокчейна

Текстовая классификация документов на основе текстовой сегментации

Использование преобразования Гильберта-Хуанга для формирования моделей фонем русского языка в задаче распознавания речи

Сравнительный анализ методик обработки спонтанных устных текстов о себе

Реализация новых технологий WolframAlpha в исследовании феномена «потребление»

Методы и алгоритмы эффективного решения задачи маршрутизации транспорта на сетях больших размерностей

Вопросно-ответная система, основанная на семантическом вероятностном выводе

Особенности организации пространства и времени в романе Ф. Томпсон «Lark Rise to Candleford»

Ответим на ваш вопрос!