Сравнительный анализ моделей векторного представления слов в задаче текстовой классификации | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 1 февраля, печатный экземпляр отправим 5 февраля.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №26 (316) июнь 2020 г.

Дата публикации: 26.06.2020

Статья просмотрена: 306 раз

Библиографическое описание:

Калинина, А. В. Сравнительный анализ моделей векторного представления слов в задаче текстовой классификации / А. В. Калинина. — Текст : непосредственный // Молодой ученый. — 2020. — № 26 (316). — С. 28-30. — URL: https://moluch.ru/archive/316/72121/ (дата обращения: 19.01.2025).



Ключевые слова: обработка естественного языка, компьютерная лингвистика, интеллектуальный анализ данных, модели векторизации слов.

Впоследние десятилетия разительно увеличились объемы накопленной текстовой информации и возросли потребности практической реализации эффективных средствах ее анализа. При этом наибольший прирост наблюдается в области научно-технических данных. С целью структурирования массивов текстовых документов и сокращения информационной нагрузки на пользователя возобновились работы по созданию алгоритма классификации текстовых данных, способного обеспечивать высокоточную классификацию документов по заданным классам. Немаловажную роль здесь играет выбор оптимальной модели векторного представления слов. Несмотря на интенсификацию работ в этом направлении, попытки создать универсальные методы обработки документов не увенчались успехом, ведь результаты классификации во многом зависят от конкретной задачи, в частности, объема обучающих выборок, количества классов, размера текстов, предметной области.

Изучение и сравнительный анализ существующих моделей векторного представления данных представляют собой достаточно сложную задачу, поскольку результат напрямую зависит от количества и качества входного потока данных. Текстовая информация поступает на многих языках, с использованием различных стилей изложения материала.

  1. Формализация задачи. Текстовая классификация — это отнесение текстовых документов к одной или нескольким заранее заданным категориям (классам, рубрикам) по определенным признакам [1]. Существует набор размеченных данных, содержащий 10000 записей о научных исследованиях с охватом всех мировых журналов. Для обучения и тестовых испытаний модели классификатора необходимо перевести текстовое содержимое в числовой вектор признаков.
  2. Обзор моделей векторного представления. Вданном разделе приводится обзор некоторых алгоритмов для построения распределенных векторных представлений слов естественного языка с учетом последних разработок в данном направлении.

Данные методы базируются на дистрибутивной гипотезе, которая утверждает, что лингвистические единицы, встречающиеся в схожих контекстах, имеют близкие значения [2].

Word2Vec: В данной модели для получения хороших векторов используется машинное обучение. Одним из популярных методов является построение искусственных нейронных сетей. Изначально задается размерность векторов, которые заполняются случайными величинами. Во время обучения вектор каждого слова будет максимально схож с векторами типичных соседей, и максимально отличаться от векторов слов, которые соседями данному слову не являются. Но и здесь не все так гладко, при обучении нейронных сетей требуется очень много времени и огромные вычислительные затраты.

В 2013 Tomas Mikolov вместе с соавторами опубликовал статью «Efficient Estimation of Word Representations in Vector Space» [3], а позже выложил код утилиты Word2Vec, которая позволяет тренировать нейронные языковые модели на больших словарях. Word2Vec обучается на порядок быстрее, чем нейронные языковые модели до него.

Каждому слову ставится в соответствие ровно один уникальный вектор (one-hot-encoding, биекция между лексиконом и входным слоем). Модель строит векторные представления в процессе прохода по словам входного корпуса скользящим окном и максимизации своей целевой функции. Авторы модели определяют размер скользящего окна динамическим, а именно: равновероятно принимает целые значения из отрезка , где

— параметр модели, определяющий максимальный размер окна. Скорость обучения моделей (learning rate) линейно уменьшается в процессе обучения до нуля.

Основные свойства данных моделей:

– простая архитектура;

– устойчивость к входным данным;

– высокое качество выходных представлений;

– большое количество гиперпараметров.

На рис. 1 представлены архитектуры модели Word2Vec. Архитектура CBOW аналогична нейронной сети прямого распространения, где нелинейный скрытый слой удаляют, а проекция слоя является общей для всех слов, таким образом, все слова находятся в одинаковом положении. Задача архитектуры при обучении модели — предсказать слово по имеющемуся контексту.

Архитектуры модели Word2Vec: CBOW и Skip-gram

Рис. 1. Архитектуры модели Word2Vec: CBOW и Skip-gram

Далее приводится детальная характеристика CBOW и Skip-gram.

Continuous Bag-of-Words: Continuous Bag-of-Words — предсказывает слово по его контексту .

Обучение сети заключается в минимизации штрафной функции следующего вида:

Архитектура представленной нейронной сети (рис. 2) состоит из 3-х полносвязных слоев, которые называются input, projection(hidden) и output слои соответственно. В синаптических весах input-слоя размера заключены векторные представления слов входного корпуса. Projection-слой размера предназначен для усреднения распределенных векторов, соответствующих словам контекста. Output-слой имеет размер V×N и реализует softmax с целью получения распределения вероятности каждого слова в контексте рассматриваемого.

Архитектура Continuous Bag-of-Words

Рис. 2. Архитектура Continuous Bag-of-Words

Skip-gram : вторая представленная модель называется Skipgram и отличается от ContinuousBag-of-Words тем, что предсказывает контекст по слову , а не наоборот (рис. 3).

Архитектура Skip-gram

Рис. 3. Архитектура Skip-gram

Hidden-слой архитектуры нейронной сети представляет из себя копию строки input-слоя, которая соответствует рассматриваемому слову. Ключевое отличие в том, что слово предсказывается столько раз, сколько слов содержится во всех его контекстах, на основе только одного из слов в текущем контексте.

Выводы. Сравнительный анализ существующих моделей векторного представления помог выяснить, что в задаче тестовой классификации с учетом объема записей в наборе данных и различных приемов предварительной обработки оптимальным вариантом является модель Continuous Bag-of-Words.

Литература:

  1. Sebastiani, F. Machine learning in automated text categorization / F. Sebastiani. ACM Computing Surveys, 34 (1), 2002. — Pp. 1–47.
  2. Harris, Z. Distributional structure. 1954
  3. Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at International Conference on Learning Representations (ICLP) — 2013.
  4. Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado, and Jeffrey Dean. Distributed representations of words and phrases and their compositionality. 27th Annual Conference on Neural Information Processing Systems 2013. Proceedings of a meeting held December 5–8, 2013, Lake Tahoe, Nevada, United States., pages 3111–3119.
Основные термины (генерируются автоматически): CBOW, слово, векторное представление слов, архитектура модели, векторное представление, входной корпус, естественный язык, нейронная сеть, скользящее окно, сравнительный анализ.


Похожие статьи

Анализ существующих моделей управления семантическими данными

Статья посвящена анализу существующих моделей управления семантическими данными. В статье рассмотрены: теоретико-методологические основы моделей управления семантическими данными; выделены и проанализированы концепции основных моделей управления сема...

Лингвистика и формы ее взаимообусловленности

В данной статье идет речь об отборах в современных лингвистических теориях, синтаксической теории языка при анализе семантического различия.

Анализ методов тематического моделирования текстов на естественном языке

В работе рассматриваются различные методы тематического моделирования текстов на естественном языке, приводятся их достоинства и недостатки.

Сравнение методов оценки тональности текста

Овладение операциями морфемного анализа в курсе русского языка начальной школы

В статье рассматриваются основные положения овладения операциями морфемного анализа в курсе русского языка начальной школы, анализируются основные положения подходов к методике формирования операций морфемного анализа.

Создание и практическое использование статистики морфем казахского языка

При обработке казахского языка на ЭВМ возникают множество дополнительных задач, среди которых для казахского языка как для представителя агглютинативного языка актуальна проблема с морфологией. В статье рассматривается статистический метод создания с...

Методы выделения ключевых слов в контексте электронных обучающих систем

В работе рассматриваются методы выделения ключевых слов из текстовых документов. Выделены задачи применения данных методов в электронных обучающих системах.

Семантика в задачах автоматической обработки данных

В данной статье рассматриваются методы повышения качества и эффективности решения поисково-аналитических за счёт разработки и применения метода оценки сходства текстов, учитывающего лексико-морфологическую, синтаксическую и семантическую информацию, ...

ER-моделирование. Особенности семантического моделирования

Статья посвящена семантическому моделированию, применяемому при разработ-ке систем баз данных.

Анализ особенностей параметрической архитектуры

Похожие статьи

Анализ существующих моделей управления семантическими данными

Статья посвящена анализу существующих моделей управления семантическими данными. В статье рассмотрены: теоретико-методологические основы моделей управления семантическими данными; выделены и проанализированы концепции основных моделей управления сема...

Лингвистика и формы ее взаимообусловленности

В данной статье идет речь об отборах в современных лингвистических теориях, синтаксической теории языка при анализе семантического различия.

Анализ методов тематического моделирования текстов на естественном языке

В работе рассматриваются различные методы тематического моделирования текстов на естественном языке, приводятся их достоинства и недостатки.

Сравнение методов оценки тональности текста

Овладение операциями морфемного анализа в курсе русского языка начальной школы

В статье рассматриваются основные положения овладения операциями морфемного анализа в курсе русского языка начальной школы, анализируются основные положения подходов к методике формирования операций морфемного анализа.

Создание и практическое использование статистики морфем казахского языка

При обработке казахского языка на ЭВМ возникают множество дополнительных задач, среди которых для казахского языка как для представителя агглютинативного языка актуальна проблема с морфологией. В статье рассматривается статистический метод создания с...

Методы выделения ключевых слов в контексте электронных обучающих систем

В работе рассматриваются методы выделения ключевых слов из текстовых документов. Выделены задачи применения данных методов в электронных обучающих системах.

Семантика в задачах автоматической обработки данных

В данной статье рассматриваются методы повышения качества и эффективности решения поисково-аналитических за счёт разработки и применения метода оценки сходства текстов, учитывающего лексико-морфологическую, синтаксическую и семантическую информацию, ...

ER-моделирование. Особенности семантического моделирования

Статья посвящена семантическому моделированию, применяемому при разработ-ке систем баз данных.

Анализ особенностей параметрической архитектуры

Задать вопрос