Цель данной статьи — рассмотреть различные техники предсказания движения цен на бирже, используя анализ тональности социальных сетей. При этом социальные сети предоставляют людям большие возможности для выражения своих мыслей и чувств. Это постоянно растущий источник текстов — от наблюдений до обсуждений. Эта статья является вкладом в область эмоционального анализа, целью которой — выделение из текста настроение и мнений по теме фондового рынка. Основная задача — классифицировать тексты на эмоционально-позитивные или негативные.
Ключевые слова: фондовый рынок, анализ мнений, анализ тональности.
Фондовый рынок
Фондовый рынок или рынок акций — это объединение продавцов и покупателей акций. Он может включать ценные бумаги из списка, а также те, которые торгуются в частном порядке. Акции могут быть определены в категории определённым образом. Один из самых распространённых — это по стране, в которой компания домицилирована, то есть, зарегистрирована и платит налоги. Например, Nestlé и Novartis являются резидентами Швейцарии, поэтому их можно рассматривать как участников швейцарского фондового рынка, хотя их акции также могут торговаться на биржах в других странах. В конце 2012 года размер мирового фондового рынка (общая рыночная капитализация) составлял около 55 триллионов долларов США. Наибольшим рынком были Соединенные Штаты (около 34 %), за ними следуют Япония (около 6 %) и Соединенное Королевство (около 6 %).
Фондовая биржа — это место или организация, с помощью которой трейдеры (люди и компании) могут торговать акциями. Компании могут захотеть разместить свои акции на бирже. Другие акции могут быть проданы «через счетчик», то есть через дилера. Крупная компания, как правило, размещает свои акции сразу на нескольких биржах по всему миру. Биржи могут также охватывать другие виды ценных бумаг, такие как облигации и процентные деривативы. Торговля на фондовых рынках означает перевод денег или ценных бумаг от продавца покупателю. Это требует от участников соглашения в цене. Акции предоставляют долю собственности в определенной компании. Участники фондового рынка варьируются от мелких инвесторов до крупных трейдеров, которые могут базироваться в любой точке мира, и являться банками, страховыми компаниями, пенсионными фондами, а также хедж-фондами. Их заказы на покупку или продажу могут быть совершены биржевым трейдером. Примером такой биржи является Нью-Йоркская фондовая биржа. Другой тип фондовой биржи — это её виртуальный вид, состоящий из сети компьютеров, где торговля проходит в электронном виде. Примером электронной биржи является NASDAQ.
Прогнозирование фондового рынка всегда привлекало исследователей. Хотя и были предприняты многочисленные научные попытки, не было обнаружено никакого метода для точного прогнозирования движения цены акций. Трудность прогнозирования заключается в сложностях моделирования динамики рынка. Даже при отсутствии последовательных методов прогнозирования были некоторые незначительные успехи. Исследование фондового рынка включает в себя два элементарных подхода: фундаментальный и технический. В фундаментальном анализе считается, что движение цен на фондовом рынке происходит благодаря информации от надёжных источников. В техническом анализе полагаются на исторические данные. Люди, занимающиеся техническим анализом, используют диаграммы и техники моделирования для определения тенденций в движениях цен и объемов продаж. Эти индивидуалисты полагаются на исторические данные, чтобы предсказать будущие результаты. Одна из областей фондового рынка, в которой можно преуспеть, кроется в изучении текстовых данных. Информация из квартальных отчетов или новостных репортажей может резко повлиять на цену акций. Наиболее захватывающая литература по интеллектуальному анализу финансовой информации основана на определении заранее заданного набора ключевых слов и методов машинного обучения. Суть этих методов заключается в присвоении веса ключевым словам в зависимости от их влияния на движение рынка. Эти типы анализов показали слабую, но довольно определенную способность прогнозировать направление цен на акции. В англоязычных источниках эти методы известны под названием Sentiment Analysis и Opinion Mining, а в русских — анализ тональности текста или же анализ мнений.
Анализ тональности текста
Анализ тональности относится к использованию обработки естественного языка, текстового анализа и вычислительной лингвистики для идентификации и извлечения субъективной информации в исходных материалах. Вообще говоря, анализ тональности направлен на определение отношения говорящего или писателя к какой-то теме или на определение общей контекстуальной направленности документа. Отношением может являться суждение или оценка, эмоциональное состояние или предполагаемый эмоциональный посыл. Основная задача при анализе тональности — классифицировать полярность данного текста в документе, предложении, любом другом уровне текста на позитивную, негативную или нейтральную. Продвинутая, «сверхполярная» классификация тональности выражается в таких состояниях как «сердитый», «грустный» и «счастливый».
Существующие подходы анализа тональности можно сгруппировать в четыре основные категории: определение ключевых слов, лексическое сходство, статистические и концептуальные методы. Определение ключевых слов классифицирует текст по категориям воздействия, основываясь на наличии однозначно трактующихся словах, таких как: счастье, грусть, страх и скука. Лексическая близость не только обнаруживает очевидные слова воздействия, она также присваивает произвольным словам вероятную схожесть с определенными эмоциями. Статистические методы используют элементы машинного обучения, такие как латентно-семантический анализ, метод опорных векторов, «мешок слов» и «семантическая сеть». Концептуальные подходы используют элементы из представления знаний, такие как онтологии и семантические сети, а следовательно, также способны обнаруживать связь, которая представлена в неявном виде, например, путем анализа понятий, которые явно не передают необходимую информацию, но которые неявно связаны с другими концепциями, которые делают это.
Анализ мнений
С ростом сети за последнее десятилетие, мнения теперь можно найти почти везде — блоги, сайты социальных сетей, такие как Facebook и Вконтакте, порталы новостей, сайты электронной коммерции и т. д. Хотя эти мнения призваны быть полезными, их огромное количество и доступность становится ошеломляющей и не позволяет людям быстро проанализировать. За последние несколько лет эта специальная задача суммирования мнений вызвала огромный интерес среди сообществ по обработке естественного языка (NLP) и текстового анализа. «Мнения» в основном включают в себя достоверные текстовые данные, такие как статьи обзоров или блогов, а также связанные с ними числовые данные, такие как рейтинг. В то время как разные группы людей имеют разные представления о том, какое мнение должно быть в итоге, следует рассматривать любое исследование, которое пытается обобщить несколько мнений и предоставить общую картину с определённой тональностью. Задача предсказания тональности или самоклассификации изучалась уже много лет. Новое поколение обзоров включает структурированные сводки, которые обеспечивают хорошо организованную разбивку по темам с временной визуализацией. Различные форматы обобщения дополняют друг друга и выводят аналитиков на совершенно новый уровень понимания информации. Например, прогнозирование настроения отзывов о продукте может дать конкретное представление о том, понравился ли продукт покупателю. Если покупателю требуется более подробная информация, то такие сводки могут быть более полезными и позволит проще и быстрее переварить всю ту информацию, что он может найти в интернете. Подходы, используемые для обобщения, сильно различаются и касаются различных областей исследований, включая текстовую кластеризацию, предсказание тональности, интеллектуальную обработку текста, анализ обработки естественного языка и т. д. Некоторые из этих подходов основаны на простых эвристиках, в то время как другие используют надежные статистические модели.
Методы для предсказания движения цен на рынке
Метод опорных векторов
Метод опорных векторов (SVM) уже давно был определён как способ обработки многоразмерных массивов данных. Поэтому аналитики используют SVM с линейным ядром в качестве модели прогнозирования. Для оценки эффективности анализа настроений на досках объявлений разработаны шесть наборов функций. Первый использовал только исторические цены. Другие методы включали информацию о настроении в модель прогнозирования.
Поиск периодичности
В этом методе для прогнозирования движения цен используются только исторические данные. Цель этого метода состоит в том, чтобы исследовать, существуют ли на бирже паттерны движения цен. Для нахождения периодичности, использовались 5 методов: индекс относительной силы, типичная цена, линии Боллинджера, индикатор неустойчивости рынка, скользящая средняя. Наиболее результативным оказались линии Боллинджера, так как показали 85 % точность. Кроме того, модель использовалась в качестве основы для того, чтобы сравнить эффективность различных методов оценки тональности. Функции, используемые для обучения SVM, — это pricet-1 и pricet-2, которые являются движениями цены (вверх, вниз) для дат транзакций t-1 и t-2 соответственно.
Сигналы аналитиков.
Эта модель интегрировала сигналы, которые сделали сами аналитики в модель предсказания цен. Набор данных, которые пользователи выбирают на основе сигналов о покупке или продаже, соотносятся с публикациями. Вместо использования всех сообщений, следует использовать только те сообщения, которым люди присвоили сигналы, и отбросить все остальные. Далее, выделяются только сигналы, а текст, который они содержат — отбрасывается. Суть данного метода в том, чтобы оценить возможность использования человеческих эмоции для оценки биржевых котировок. Поскольку аналитикой всё ещё занимаются люди — этот метод можно считать достаточно достоверным для прогнозирования рынка.
Классификация сигналов
Чтобы использовать сообщения без явных сигналов, можно использовать модель для извлечения сигналов и для этих сообщений. Модель классификации была протестирована на сообщениях с сигналами на основе обучающей выборки. Затем, она использовалась, чтобы классифицировать оставшиеся сообщения на пять классов: активная покупка, покупка, удержание, продажа и активная продажа.
Латентное размещение Дирихле (LDA)
В этой модели можно рассмотреть каждое сообщение как смесь скрытых тем. Латентное размещение Дирихле является генеративной вероятностной моделью. Основная идея заключается в том, что документы представлены в виде случайных латентных (скрытых) тематик, каждая из которых характеризуется распределением по словам. Поэтому LDA можно выбрать в качестве простой тематической модели для обнаружения этих скрытых тем.
Тема и настроение
Когда люди публикуют сообщение в социальных сетях, чтобы высказать свое мнение по данной ценной бумаге, они склонны высказывать свое мнение только по определенной теме, например, прибыль и дивиденды. Основываясь на показателях, тема и настроение, они решат, куда будет двигаться цена той или иной акции.
Анализ показателей тональности
Вместо того чтобы рассматривать наборы скрытых тем и тональностей, как в предыдущей модели, в этой модели смеси не скрыты. Каждое сообщение представляется в виде списка тем и соответствующих значений тональности. В данном методе это представлено в виде последовательного ряда существительных в предложении.
Вывод
Таким образом, были рассмотрены различные методы прогнозирования цен фондового рынка с использованием анализа тональностей. Благодаря высокому спросу, анализ мнений стал активной областью исследований. По мере увеличения объема данных, их анализ и классификация становится все более важным аспектом. Для выполнения таких задач предлагается множество методов обобщения мнений. Вероятностные подходы с использованием статистики и эвристических методов с использованием предопределенных правил являются показательными. Несмотря на многочисленные исследования в области прогнозирования цен, все еще присутствует множество ограничений, которые стоит изучить.
Литература:
- Обучаем компьютер чувствам (sentiment analysis по-русски) // habr.com. URL: https://habr.com/post/149605/ (дата обращения: 31.05.2018).
- Современные методы анализа тональности текста // http://datareview.info. URL: http://datareview.info/article/sovremennyie-metodyi-analiza-tonalnosti-teksta/ (дата обращения: 31.05.2018).
- Hong Keel Sul,Alan R. Dennis,Lingyao (Ivy) “Trading on Twitter: The Financial Information Content of Emotion in Social Media”, 2014 47th Hawaii International Conference on System Science.
- M. Bautin, L. Vijayarenu, S. Skiena, International sentiment analysis for news and blogs, in: Proceedings of the International Conference on Weblogs and Social Media, 2008.
- E. Cambria, C. Havasi, A. Hussain, Senticnet 2: a semantic and affective resource for opinion mining and sentiment analysis, in: FLAIRS Conference, 2012, pp. 202–207.