В последние годы происходит бурный рост размеров Интернета, в том числе русскоязычного сегмента. Вместе с увеличением числа пользователей сети Интернет, возрастает и количество генерируемого ими контента. Люди оставляют сообщения на форумах, пишут посты в блогах, комментируют товары на страницах интернет-магазинов и пишут в социальных сетях. Согласно исследованиям Всероссийского центра изучения общественного мнения, количество россиян, регулярно (не реже раза в месяц) пользующихся интернетом выросло с 38% в 2010 г. до 55% в 2012 г. Число зарегистрированных в социальных сетях россиян за эти 2 года (с 2010 по 2012 гг.) также значительно возросло – с 53% до 82%.[1]
Весь этот контент несет в себе огромное количество информации, которую можно и даже нужно использовать. Существует отдельное направление искусственного интеллекта и математической лингвистики – обработка естественного языка, или компьютерная лингвистика. Оно позволяет извлекать разнообразную информацию, находящуюся в форме текста на естественном языке. Одно из перспективных направлений компьютерной лингвистики – анализ тональности текста.
Анализ тональности текста позволяет извлекать из текста эмоционально окрашенную лексику и эмоциональное отношение авторов по отношению к объектам, о которых идет речь в тексте. Большинство современных систем используют бинарную оценку – «положительный сентимент» или «отрицательный сентимент», однако некоторые системы позволяют выделять силу тональности.
В современном мире на наш выбор в каких-либо ситуациях зачастую влияет мнение других людей – мы читаем отзывы о товаре, прежде чем заказать его в интернет-магазине, узнаем мнение других людей, прежде чем проголосовать на выборах за того или иного кандидата, долго и тщательно выбираем себе ВУЗ, место работы и ресторан, который мы собираемся посетить. Эта информация представляет значительный интерес для маркетологов, социологов и многих других специалистов.
Кроме того, для владельцев интернет-ресурсов жизненно важно знать мнение пользователей – будь это мнение относительно сделанного на вашем портале нововведения, свежей новости на вашем сайте или оценка пользователями товара в вашем интернет-магазине.[2]
Все вышесказанное делает актуальной задачу анализа тональности текста.
Однако, несмотря на перспективность и актуальность этой задачи, существует сравнительно малое число систем, способных анализировать тональность текста на русском языке. Нами предложен список и описание самых известных на сегодняшний день систем и компонентов анализа тональности текста
Список и описание популярных систем анализа тональности текста на русском языке.
1. «SentiStrength» [3] — система, разработанная M. Thelwall, K. Buckley, G. Paltoglou и D. Cai. Первоначально, данная система была разработана для анализа коротких неструктурированных неформальных текстов на английском языке. Однако, она может быть сконфигурирована для работы с текстами на ряде других языков, в том числе и для текстов на русском языке.
Результат выдается в виде двух оценок – оценка позитивной составляющей текста (по шкале от +1 до +5) и оценка негативной составляющей (по шкале от -1 до -5). Кроме того, существует возможность предоставления оценок в другом виде:
Бинарная оценка (позитивный/негативный текст)
Тернарная оценка (позитивный/негативный/нейтральный)
Оценка по единой шкале от -4 до +4
Алгоритм основан на поиске максимального значения тональности в тексте для каждой шкалы (т.е. поиск слова с максимальной негативной оценкой и слова с максимальной позитивной оценкой). При работе алгоритма учитывается простейшее взаимодействие слов (например, слова-усилители усиливают значение тональности для слова, на которое они действуют – «очень злой» будет иметь более негативную оценку, нежели просто «злой») и идиоматические выражения.[4]
Недостатки системы: хотя система может быть сконфигурирована для русского языка, реализованные в ней алгоритмы не учитывают его специфику, в том числе русскую морфологию, что приводит к ряду проблем. Например, для полноценной работы системы с русским языком необходимо в банке данных иметь все словоформы для каждого слова. Кроме того, система считает лишь общую тональность текста, не выделяя субъекты и объекты тональности.
2. Компонент анализа тональности текста в составе систем «Аналитический курьер» и «X-files» [5] — разработан компанией «Ай-Теко». Компонент определения тональности текста реализует метод, основанный на словарях и правилах.
Данная система выдает пользователю массив размеченных предложений. В предложениях размечаются объекты тональности (при наличии таковых) и цепочка слов, несущая в себе тональность по отношению к ним. Кроме того, на основании найденных цепочек слов подсчитывается общая тональность для каждого предложения. Для подсчета общей тональности используется ряд специальных правил. Например (для предложения «Доктор Смит вылечил больного гриппом»), есть правило, которое говорит, что сочетание позитивного глагола «вылечить» с негативной цепочкой (в данном случай «больной гриппом») приписывает позитив подлежащему глагола (в нашем примере — «доктору Смиту»). Тональность оценивается по тернарной шкале (позитивный/негативный/нейтральный).[6]
Система работает в несколько этапов:
Предварительная обработка текста, выделение и классификация найденных слов
Объединение найденных слов в связанные друг с другом цепочки
Выделение объектов тональности
Недостатки системы: отсутствие количественной оценки текста.
3. «Ваал» [7] – система, разработанная Шалак Владимиром. Данная система предназначена для оценки «неосозноваемого эмоционального воздействия фонетической структуры текста и отдельных слов на подсознание человека». Работа системы основана на превращении текста в частотный словарь и отнесении некоторых слов к определенным психолингвистическим категориям.
Результат анализа выдается пользователю в виде набора оценок по ряду критериев, относящихся к данному тексту/слову («гладкий – шероховатый», «могучий – хилый») и т.д.
Недостатки системы: система не производит анализ семантики текста, что ведет к сильной ограниченности применимости продукта. Кроме того, использование данного продукта людьми, не являющимися специалистами в области психолингвистики, не представляется возможным.
4. Компонент анализа тональности в составе системы RCO Fact Extractor [8] – система, разработанная компанией RCO. Для анализа тональности текста система использует подход, основанный на правилах. Данная система учитывает синтаксическую структуру текста и взаимодействие различных типов слов.
Работа компонента происходит в пять этапов:
Распознавание всех упоминаний об объекте во всех формах, включая полные, краткие и другие формы упоминаний
Отсев и полный синтаксический разбор конструкций, в которых отражаются все события и признаки, связанные с целевым объектом
Выделение и классификация тех позиций, в которых явно выражается тональность, и тех пропозиций, которые описывают эмоционально-коннотативные ситуации
Для каждой пропозиции принятие решения о тональности «позитив-негатив» с учетом тех мест, которые занимают в её составе эмоционально-коннотативные, тональные и нейтральные слова, средства выражения отрицания
Оценка общей тональности текста на основе тональностей всех входящих в него пропозиций
Для своей работы компонент использует модули синтаксического анализа текста и отождествления наименований, разработанные также в компании RCO.[9]
Недостатки системы: отсутствие количественной оценки текста.
Заключение
В данной статье были рассмотрены и проанализированы самые популярные системы анализа тональности текста для русского языка. Приведенные системы основаны на различных подходах к решению задачи и предназначены для использования в различных условиях. Стоит отметить, что все приведенные системы являются закрытыми и платными. Каждая система имеет ряд преимуществ и недостатков. Выбирать систему для использования нужно, исходя из задачи. Например, при необходимости анализа общей тональности коротких неструктурированных текстов (сообщений в социальной сети) разумнее всего будет использование системы SentiStrength, а при социологических анализах записей блогов – систему «Аналитический Курьер».
По мнению авторов, несмотря на наличие ряда готовых систем, существует острая нехватка решений для анализа тональности текста на русском языке; данная задача к настоящему моменту полностью не решена. Для того, чтобы получить наиболее универсальный и качественный инструмент, необходимо создать систему, удовлетворяющую следующим условиям:
Система должна учитывать специфику русского языка – его морфологию, свободный порядок слов и т.д. – в противном случае, эффективность анализа будет снижаться
Система должна учитывать семантику текста
Оценка должна производиться по более широкой шкале, чем бинарная – зачастую, в тексте интересен не только сам факт наличия эмоциональной окраски, но и его сила
Результат пользователю должен выдаваться в простой и понятной форме, доступной к использованию не специалистами
Система, созданная с учетом этих условий, будет сочетать в себе достоинства приведенных в данной статье систем, при этом устраняя их недостатки. Такая система будет иметь высокую эффективность анализа и широкие области применения.
Литература:
РИФ+КИБ: Тренды Рунета-2012: всегда и везде быть в сети [Электронный ресурс]: Всероссийский центр изучения общественного мнения. – Режим доступа: http://wciom.ru/index.php?id=270&uid=112746 28.11.2012
Bo Pang, Lillian Lee Opinion Mining and Sentiment Analysis // Journal Foundations and Trends in Information Retrieval. 2008. C. 1–135
SentiStrength [Электронный ресурс]: SentiStrength – sentiment strength detection in short texts. – Режим доступа: http://sentistrength.wlv.ac.uk/#About 28.11.2012
Thelwall M., Buckley K., Paltoglou G., Cai D., Kappas A. Sentiment strength detection in short informal text // Journal of the American Society for Information Science and Technology. 2010.
Система извлечения знаний из текстов «Аналитический курьер» [Электронный ресурс]: АйТеко. – Режим доступа: http://www.i-teco.ru/ac.html
Модуль определения тональности системы «Аналитический Курьер» [Электронный ресурс]: АйТеко. – Режим доступа: http://x-file.su/tm/Description.html
Проект ВААЛ [Электронный ресурс]: ВААЛ. – Режим доступа: http://www.vaal.ru/
RCO Fact Extractor SDK [Электронный ресурс]: RCO. – Режим доступа: http://www.rco.ru/product.asp?ob_no=5047
Ермаков А.Е., Киселев С.Л. Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог’2005. – Москва, Наука, 2005