Анализ методов тематического моделирования текстов на естественном языке | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 7 декабря, печатный экземпляр отправим 11 декабря.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №19 (205) май 2018 г.

Дата публикации: 13.05.2018

Статья просмотрена: 1927 раз

Библиографическое описание:

Глушков, Н. А. Анализ методов тематического моделирования текстов на естественном языке / Н. А. Глушков. — Текст : непосредственный // Молодой ученый. — 2018. — № 19 (205). — С. 101-103. — URL: https://moluch.ru/archive/205/50247/ (дата обращения: 24.11.2024).



В работе рассматриваются различные методы тематического моделирования текстов на естественном языке, приводятся их достоинства и недостатки.

Ключевые слова: тематическое моделирование, векторная модель, латентный семантический анализ, латентное размещение Дирихле.

В связи с бурным развитием массовой и деловой коммуникации, ростом информационных потоков, интенсивным накоплением информации, предназначенной для систематизации, хранения и использования, актуальной становится задача извлечения информации (информационного поиска) и ее анализа. Подобный анализ позволяет собирать основную информацию о тематике, направленности и настроении текстов, что в дальнейшем упрощает автоматизированную работу с ними, такую как каталогизация, поиск и сравнение. Наиболее популярным направлением извлечения информации из текстов на данный момент является использование различных статистических методов для обработки текста, например, построение частотных словарей, конкордансов (словарей словосочетаний), сравнение с использованием выделенных сущностей и т. п. Одним из таковых методов является метод тематического моделирования, позволяющий построить модель коллекции текстовых документов, определяющую тематическую направленность каждого из них [2].

Тематическое моделирование — это способ построения модели корпуса текстов, отражающий переход от совокупности документов, совокупности слов в документах к набору тем, характеризующих содержание данных документов. Тематические модели — это модели со скрытыми переменными, для выявления которых лучше всего подходит нечеткая кластеризация, при которой любое слово или документ с некоторой вероятностью относится к нескольким темам [1].

Наиболее популярные в настоящий момент методы тематического моделирования можно разделить на две основных группы — алгебраические и вероятностные (генеративные) [2;4]. К алгебраическим моделям относятся стандартная векторная модель текста VSM (Vector Space Model) и латентно-семантический анализ LSA (Latent Semantic Analysis), а среди вероятностных наиболее популярными являются вероятностный латентно-семантический анализ pLSA (probabilistic LSA) и латентное размещение Дирихле LDA (Latent Dirichlet Allocation).

Далее приведен краткий анализ некоторых методов.

Векторная модель текстов — это способ представления коллекции документов в виде векторов из общего для всей коллекции векторного пространства. Данная модель используется для решения множества задач быстрого анализа документов, а также для составления таблиц поиска, классификации и кластеризации, и выступает как основа для множества других алгоритмов [2].

В данной модели, документ рассматривается как неупорядоченное множество термов — слов и дополнительных элементов, из которых состоит текст, исключая знаки препинания. Для каждого документа строится матрица терм-документ, где строка — это уникальное слово, а столбец — документ. Значением ячейки данной матрицы является вес данного слова в документе, способ вычисления которого может изменяться в зависимости от алгоритма.

Данная модель достаточно популярна для решения задач сравнения текстов между собой, однако в изначальном варианте работает недостаточно быстро для больших объемов документов, а также занимает достаточно много памяти. Развитием данного метода является латентно-семантический анализ [2].

Латентно семантический анализ (ЛСА, LSA) — это статистический метод обработки текстовой информации на естественном языке, позволяющий определить взаимосвязь между коллекциями документов и терминами, в них встречающимися. В основе данного метода лежит принцип факторного анализа, в частности выявление латентных связей изучаемых явлений и объектов. При классификации и кластеризации документов, данный метод позволяет извлечь контекстно-зависимые значения лексических единиц [2].

Основной алгоритм данного метода можно разделить на четыре шага: предобработку, нахождение весов слов любым методом, например, с помощью алгоритма tf-idf, построение весовой матрицы, разложение матрицы методом сингулярного разложения (англ. singular value decomposition, SVD). Результатом работы алгоритма будет являться матрица, визуализация которой позволит отразить общую семантическую близость документов друг к другу.

Основными достоинствами данного метода можно считать высокое качество определения тематик в случае, если корпус текстов достаточно большой, а также возможность нахождения неочевидных семантических зависимостей между словами.

К недостаткам данного алгоритма относятся высокая вычислительная сложность и низкая скорость работы, требующая повторного вычисления всех метрик для всего корпуса в случае добавления нового документа, а также высокие требования к корпусу, который должен состоять из множества разнообразных по тематикам текстов.

Вероятностный латентно-семантический анализ — это статистический метод анализа корреляций двух типов данных. В общем смысле, данный метод является развитием латентно-семантического анализа, однако в отличие от своего предшественника, который по своей сути являлся алгоритмом построения векторного представления с последующим снижением его размерности, вероятностной латентно-семантический анализ основан на смешанном разложении и использовании вероятностной модели, что позволяет более качественно определять возможные тематики документов [4].

К достоинствам данной модели относительно алгебраических можно отнести возможность нахождения вероятности отношения каждого документа к каждой из представленных тем, с последующей группировкой, что является достаточно трудоемкой задачей для алгоритма LSA.

Недостатками данной модели являются те же недостатки, присущие и LSA, к которым относится необходимость перестройки всех модели в случае добавления нового документа, а также линейная зависимость количества параметров от количества документов.

Латентное размещение Дирихле — применяемая в информационном поиске порождающая модель, позволяющая объяснить результаты наблюдений с помощью неявных (латентных) групп. Данная модель является расширением модели pLSA, и устраняет основные ее недостатки путем использования распределения Дирихле в качестве априори распределения, в результате чего набор тематик получается более конкретный и четкий [1].

Данная модель позволяет уйти от недостатков pLSA, таких как «переобучаемость» и отсутствие закономерности при генерации документов из набора полученных тем, что значительно улучшает итоговую выборку [2].

В результате рассмотрения некоторых основных методов тематического моделирования можно прийти к выводу, что методы, основанные на вероятностных моделях наилучшим образом пригодны для решения поставленной задачи, однако требуют высоких вычислительных затрат при реализации в исходном виде. Метод LDA является наиболее сложным, и при этом позволяет достичь наилучших результатов, и избежать основных недостатков обычного pLSA.

Литература:

  1. Кольцов С. Н., Кольцова О. Ю., Митрофанова О. А., Шиморина А. С. Интерпретация семантических связей в текстах русскоязычного сегмента Живого Журнала на основе тематической модели LDA // XVII Всероссийская Объединенная Конференция «Интернет И Современное Общество», 2014.
  2. Коршунов А., Гомзин А. Тематическое моделирование текстов на естественном языке // Труды Института системного программирования РАН, Том 23. — M.: РАН, 2012. С. 215–242.
  3. Воронцов К. В. Аддитивная регуляризация вероятностных тематических моделей [Электронный ресурс]. URL: http://www.machinelearning.ru/wiki/images/6/63/Voron13mmro-talk.pdf (Дата обращения: 15.03.2018)
  4. Воронцов К. В. Вероятностное тематическое моделирование [Электронный ресурс]. URL: www.machinelearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf (Дата обращения: 12.03.2018).
Основные термины (генерируются автоматически): LSA, тематическое моделирование, LDA, латентно-семантический анализ, модель, документ, латентное размещение, вероятностный латентно-семантический анализ, естественный язык, информационный поиск.


Ключевые слова

тематическое моделирование, векторная модель, латентный семантический анализ, латентное размещение Дирихле

Похожие статьи

Детерминированный метод факторного анализа

В статье изучен метод факторного анализа экономики детерминирование, а также рассмотрены способы детерминированного анализа. Рассмотрены модели детерминированного факторного анализа.

Использование алгоритма вероятностного латентно-семантического анализа для построения тематической модели коллекции текстов

В работе рассматриваются использование алгоритма вЛСА для построения тематической модели коллекции текстов, написанных на естественном языке.

Применение вычислительного дизайна при разработке рационального очертания пространственной стержневой конструкции

В статье авторы рассматривают моделирование пространственной стержневой системы с помощью методов вычислительного дизайна. Исследуют применимость алгоритмического проектирования в задачах моделирования однослойных стержневых оболочек с треугольным де...

Использование в педагогическом исследовании математических методов установления зависимостей

В статье исследуются математические методы установления зависимостей в различных педагогических исследованиях. В частности, рассматриваются методы установления количественных зависимостей, вычисления элементарных статистик и методы статистического вы...

Анализ существующих моделей управления семантическими данными

Статья посвящена анализу существующих моделей управления семантическими данными. В статье рассмотрены: теоретико-методологические основы моделей управления семантическими данными; выделены и проанализированы концепции основных моделей управления сема...

ER-моделирование. Особенности семантического моделирования

Статья посвящена семантическому моделированию, применяемому при разработ-ке систем баз данных.

Теория концептуальной интеграции и лингвистические средства ее выражения

В статье рассматриваются основные положения теории концептуальной интеграции, включая структуру, этапы и свойства процесса концептуальной интеграции; также представлены лингвистические средства выражения теории концептуальной интеграции.

Сравнение как объект лингвистического исследования

В данной статье реализован анализ конструкции сравнения в качестве объекта лингвистического исследования. Детально изучены различные точки зрения отечественных лингвистов на предмет исследования сравнения в художественном тексте. Также определены рол...

Применение нечеткой логики и методов визуализации графических решений при анализе показателей финансового рынка

В данной статье проведен анализ мультипликаторов финансового рынка, на основании чего была представлена система вывода, которая базируется на нечеткой логике. Также были реализованы методы визуализации импликаций.

Моделирование комбинаторных систем при помощи сводимости

Статья посвящена моделированию систем, ее реализации в компьютере, в частности с использованием сводимости, в то же время рассматривается теория алгоритмов и возможность ее применения к моделированию.

Похожие статьи

Детерминированный метод факторного анализа

В статье изучен метод факторного анализа экономики детерминирование, а также рассмотрены способы детерминированного анализа. Рассмотрены модели детерминированного факторного анализа.

Использование алгоритма вероятностного латентно-семантического анализа для построения тематической модели коллекции текстов

В работе рассматриваются использование алгоритма вЛСА для построения тематической модели коллекции текстов, написанных на естественном языке.

Применение вычислительного дизайна при разработке рационального очертания пространственной стержневой конструкции

В статье авторы рассматривают моделирование пространственной стержневой системы с помощью методов вычислительного дизайна. Исследуют применимость алгоритмического проектирования в задачах моделирования однослойных стержневых оболочек с треугольным де...

Использование в педагогическом исследовании математических методов установления зависимостей

В статье исследуются математические методы установления зависимостей в различных педагогических исследованиях. В частности, рассматриваются методы установления количественных зависимостей, вычисления элементарных статистик и методы статистического вы...

Анализ существующих моделей управления семантическими данными

Статья посвящена анализу существующих моделей управления семантическими данными. В статье рассмотрены: теоретико-методологические основы моделей управления семантическими данными; выделены и проанализированы концепции основных моделей управления сема...

ER-моделирование. Особенности семантического моделирования

Статья посвящена семантическому моделированию, применяемому при разработ-ке систем баз данных.

Теория концептуальной интеграции и лингвистические средства ее выражения

В статье рассматриваются основные положения теории концептуальной интеграции, включая структуру, этапы и свойства процесса концептуальной интеграции; также представлены лингвистические средства выражения теории концептуальной интеграции.

Сравнение как объект лингвистического исследования

В данной статье реализован анализ конструкции сравнения в качестве объекта лингвистического исследования. Детально изучены различные точки зрения отечественных лингвистов на предмет исследования сравнения в художественном тексте. Также определены рол...

Применение нечеткой логики и методов визуализации графических решений при анализе показателей финансового рынка

В данной статье проведен анализ мультипликаторов финансового рынка, на основании чего была представлена система вывода, которая базируется на нечеткой логике. Также были реализованы методы визуализации импликаций.

Моделирование комбинаторных систем при помощи сводимости

Статья посвящена моделированию систем, ее реализации в компьютере, в частности с использованием сводимости, в то же время рассматривается теория алгоритмов и возможность ее применения к моделированию.

Задать вопрос