В современных условиях лавинообразного роста информации использование интеллектуальных методов анализа данных в системах поддержки принятия решений является очевидным и закономерным шагом. Особенно актуально это для информационных систем федерального и муниципального уровня.
Прежде чем начать рассмотрение содержательной части, определим используемые понятия.
«Прогнозная, предсказательная, предикативная аналитика (Predictive Analytics) — набор методов интеллектуального анализа данных направленного на прогнозирование будущего поведения объектов и субъектов. В основе прогнозной аналитики лежит автоматизированная обработка относительно больших массивов данных. Целью такой обработки является извлечение из имеющихся массивов закономерностей и зависимостей, позволяющих строить прогнозные модели. Осуществляется это преимущественно с помощью статистических методов.
«Машинное обучение (Machine Learning) — подраздел искусственного интеллекта, математическая дисциплина, использующая разделы математической статистики, численных методов оптимизации, теории вероятностей, дискретного анализа, и выделяющая знания из данных. Различают два типа обучения. Обучение по прецедентам, или индуктивное обучение, основано на выявлении закономерностей в эмпирических данных. Дедуктивное обучение предполагает формализацию знаний экспертов и их перенос в компьютер в виде базы знаний. Дедуктивное обучение принято относить к области экспертных систем, поэтому термины машинное обучение и обучение по прецедентам можно считать синонимами. Многие методы индуктивного обучения разрабатывались как альтернатива классическим статистическим подходам. Многие методы тесно связаны с извлечением информации, интеллектуальным анализом данных» [1].
По сути, машинное обучение — это набор программных решений, алгоритмов и математических методов, применяемых в автоматизированном интеллектуальном анализе данных. Это целый класс программно-математических решений, позволяющих строить модели на основе массива данных, а также извлекать из этих данных неочевидные на первый взгляд закономерности. Машинное обучение имеет более широкий смысл, чем прогнозная аналитика. Можно сказать, что прогнозная аналитика базируется на методах машинного обучения.
Стоит обозначить приоритетные цели использования озвученных выше подходов в контексте разработки информационно-аналитических систем поддержки принятия решений. Первая цель — это интеллектуальный, автоматизированный анализ данных, извлекающий скрытые зависимости и правила. Вторая цель — это построение прогнозных моделей на базе имеющихся массивов и использование полученных моделей для исследования социально-экономических явлений.
В качестве иллюстрации рассмотрим несколько реальных примеров применения прогнозной аналитики.
Реклама имаркетинг. Это, наверное, одна из самых привлекательных с коммерческой точки зрения область применения. Рассмотрим классическую задачу рассылки рекламных предложений по почте. Стоимость каждого отправления имеет какую-то вполне определенную цену, и чем больше охват (количество отправлений), тем больше затраты. Вполне закономерно желание владельца бизнеса сократить расходы путем увеличение их эффективности. Классическое маркетинговое решение — это выбор целевой группы, т. е. рассылка осуществляется только тем, кто с большей вероятностью откликнется на предложение. Однако поиск такой целевой группы — далеко не тривиальная задача. Как правило, маркетолог делает какие-то свои предположения на этот счет и проверяет их на практике. Очевидно, что от ошибочных предположений никто не застрахован и большая доля провальной рекламы — это скорее правило, чем исключение.
Применение методов прогнозной аналитики позволяет повысить эффективность рассылки. Все, что для этого нужно — история рекламных обращений, каждая запись которой включает в себя профиль адресата (возраст, пол, материальное положение и др. параметры) и признак успеха или неудачи рекламного обращения. Таким образом, мы имеем набор предположительно взаимосвязанных признаков. С помощью математических методов можно установить наличие зависимости одних признаков от других, т. е. какие признаки больше всего влияют на интересующие нас признаки (в данном случае успешность рекламного обращения).
Обучение специально разработанной для этого программы на основе имеющегося массива рекламных обращений — это, собственно, и есть машинное обучение. Результатом такого обучения будет сформированная программой модель, которая позволяет прогнозировать последствия рекламного обращений к новому адресата. Успех построения прогнозной модели зависит, прежде всего, от объема истории и ширины профиля: чем больше было обращений (как успешных, так и неуспешных) и чем больше признаков в профиле адресата, тем лучше. Это исходные данные, по которым стоится модель. Если их мало, если имеющиеся параметры профиля никак не влияют на отклик (нет зависимостей), то модель не удастся построить.
По такой же схеме прогнозную аналитику используют для показа рекламных объявлений на сайтах, где есть возможность собирать персонализированные данные (пользователь заполняет свой профиль), например, на сайтах, занимающихся предоставлением образовательных услуг, сайтах знакомств, почтовых сайтах и др.
Работа сперсоналом. Аналогичный подход на основе прогнозной аналитики используется в компании Hewlett-Packard для оценки сотрудников по шкале «риск ухода» [2]. Компания, имея обширную историю увольнений (на 2015 г. в компании работало 302 тыс. сотрудников), разработала модель, позволяющую прогнозировать увольнение того или иного сотрудника. Сотрудники, работающие с персоналом, отслеживая ситуацию, могут вовремя вмешаться в происходящее (например, скорректировать условия работы, обязанности, вознаграждение и т. д.), чтобы не допустить увольнение ценного сотрудника.
Подобный подход также применятся для удержания клиента, т. е. на основе истории взаимодействия с клиентами, можно построить прогнозную модель их ухода.
Страхование икредитование. Прогнозная аналитика широко применяется в страховой и банковской сфере. Рассмотренный выше алгоритм для рекламы может быть использован для построения прогнозной модели наступления страхового случая, невозврата кредита или задержки по выплатам. Подход здесь ровно такой же: определяются измеримые параметры и формируется история, а затем с помощью специальных математических методов формируется модель. Параметрами могут быть: пол, возраст, семейное положение, доход, количество детей, город проживания, величина страховки, кредита и др. Все они могут влиять на вероятность наступления страхового случая или невозврата кредита.
Программный инструментарий
Наибольшую заинтересованность в интеллектуальном анализе данных испытывает бизнес, многие из рассмотренных выше примеров применения прогнозной аналитики подразумевают существенную коммерческую выгоду. Поэтому с одной стороны, есть потенциальные потребители такого рода решений, а с другой — уже зарекомендовавшие себя компании, предоставляющие соответствующие услуги и продукты, т. е. программную инфраструктуру. При этом существуют как платные, так и бесплатные программные решения, к последним можно отнести т. н. оpen-source системы.
Open-source системы, которые можно использовать для предикативного анализа: R, KNIME, RapidMiner, Weka. Коммерческие системы, которые можно использовать для предикативного анализа: TIBCO (Tibco Spotfire), Angoss KnowledgeSTUDIO, KXEN Modeler, Mathematica, MATLAB, Oracle Data Mining, Pervasive, SAP, SAS, Minitab, StatSoft STATISTICA, IBM SPSS. В этом списке перечислены как специализированные продукты, так и системы общего назначения (MATLAB, STATISTICA, SPSS), которые также можно использовать при построении прогнозных моделей.
Интеллектуальный анализ данных вРоссии
Если активное применение методов прогнозной аналитики в коммерческом секторе вполне ожидаемо, т. к. приносит существенную финансовую выгоду, то их использование для решения государственных, региональных и муниципальных задач пока еще не нашло широкого распространения. Хотя работы в этом направлении ведутся.
«По словам экспертов, среди госструктур обработку big data внедрили Федеральная налоговая служба, аналитический центр правительства России, Пенсионный фонд, правительство Москвы, Фонд обязательного медицинского страхования, Федеральная служба безопасности, Следственный комитет и Служба внешней разведки. С применением анализа больших данных в отечественной медицине все печально — о реальных внедрениях речь пока не идет, несмотря на высочайший потенциал» [3].
Под термином big data здесь понимается весь спектр методов и технологий машинного обучения, т. е. подразумевается использование методов интеллектуального анализа данных на относительно больших массивах данных.
Исходные данные для интеллектуального анализа
«В общем случае под информационно-аналитической системой (ИАС) понимается компьютерная система осуществляющая хранение, обработку, анализ и предоставление информации в удобном для пользователя виде. В более узком смысле это система, оперирующая большими массивами данных и выполняющая их анализ, именно в этом контексте наиболее полно проявляются возможности и достоинства таких систем» [4].
Исходя из раннее выделенных аспектов, существенно влияющих на разработку ИАС [4], использование методов прогнозной аналитики затрагивает два аспекта: информационный и методический. Информационный аспект связан со сбором исходных данных, необходимых для работы ИАС, методический аспект затрагивает вопросы анализа данных, построения алгоритмов обработки данных.
В контексте обработки больших наборов данных (традиционно используемых в методах прогнозной аналитики) наиболее привлекательным является автоматизированное получение т. н. отрытых данных (Open Data). Речь идет о машиночитаемых данных федерального и регионального уровня, размещаемых в сети Интернет для публичного доступа. В качестве примера источника таких данных можно привести «Портал открытых данных Российской Федерации», размещенный по адресу: data.gov.ru
Обработку информации с таких порталов относительно просто автоматизировать, поэтому их удобно использовать в качестве устойчивых каналов поступления данных в ИАС. Информация на порталах открытых данных весьма разнообразна, что позволяет использовать ее для построения прогнозных моделей. Среди этого разнообразия можно искать скрытые зависимости и корреляции одних параметров от других. Так, например, на портале открытых данных Татарстана (open.tatarstan.ru/data/dataset) представлено более полутысячи наборов данных. В одном лишь блоке «Экономика» присутствует 55 наборов данных (информация по состоянию на начало марта 2016 года). Среди них такие наборы как «Среднемесячная заработная плата», «Среднедушевые денежные доходы», «Оборот розничной торговли» и др. потенциально полезные для ИАС сведения. Большая часть наборов обновляется ежемесячно. Таким образом, накопленные за несколько лет данные — это исходный массив для построения прогнозной модели.
Литература:
- Машинное обучение [Электронный ресурс]. — Режим доступа: https://ru.wikipedia.org/wiki/Машинное_обучение
- Сигель, Э. Просчитать будущее. Кто кликнет, купит, соврет или умрет [Текст]: пер. с англ. / Э. Сигель — М.: Альпина Паблишер, 2014
- Соколова, А. Как устроен рынок big data в России [Электронный ресурс]. — Режим доступа: http://rusbase.com/howto/big-data-in-russia/
- Чугреев, В. Л. Методологические аспекты разработки информационно-аналитических систем для решения задач развития территорий [Электронный ресурс] / В. Л. Чугреев, Д. А. Баданин // Вопросы территориального развития. — 2015. — № 10. — Режим доступа: http://vtr.vscc.ac.ru/article/1710