Решение задачи идентификации представляет собой, по существу, интеллектуальный процесс обработки данных с получением новых знаний в виде математической модели. Проблема разработки методов и алгоритмов интеллектуального анализа и извлечения данных, в зарубежной литературе определяемых под общим термином Data Mining, с каждым годом приобретает все большее практическое значение при решении реальных задач, возникающих во многих областях науки, промышленности и экономики [1].
Чтобы воспользоваться этими данными, необходимо применение отдельных программных средств автоматического извлечения и анализа данных с целью установления полезных, нетривиальных и ранее неизвестных закономерностей на основе применения специализированных методов и алгоритмов. Таким образом, перед современными программными средствами ставится задача интеллектуальной обработки информации для извлечения знаний. Знания — это больше, чем сумма фактов, поскольку они основаны на закономерностях, а не на списках данных. Именно эту задачу выполняют современные средства Data Mining [2].
Сырые данные могут быть полностью либо частично структурированными и потому эти системы должны работать как с реляционными, так и с другими видами баз данных (например, многомерными базами данных). Собственно математический аппарат, определяющий эффективность извлечения и анализа данных, мало зависит от способа и формы хранения информация [3, 4, 5].
Современные системы хранения информации способны содержать огромные массивы данных, которые при этом обладают следующими особенностями [6, 7]:
− Как правило, описание объектов содержит не менее 25–50 характерных признаков или полей базы данных, где каждый признак может быть дискретным (и иметь 5–10 и более значений) или непрерывным.
− Множество значений и признаков не является окончательным и может измениться.
− Критерии, определяющие качество объектов, носят как формальный, так и экспертный характер, т. е. не всегда могут быть выражены явной зависимостью.
− Объем данных (примеров объектов) достаточно велик и растет, причем, некоторые удачные в прошлом объекты теряют свое качество во времени из-за постоянного развития технологий.
− Опытный эксперт обладает интуитивным знанием закономерности, определяющей качественный объект, и способен отделить удачные объекты от неудачных, но не может выразить свои знания в явном виде.
− Процесс оценки и ранжирования объектов занимает существенное время.
Резюмируя, можно подчеркнуть, что системы Data Mining, работая с неограниченными объемами неоднородных данных, должны предоставлять пользователю простые в использовании инструменты для получения практически полезных, конкретных, понятных и неочевидных результатов. Учитывая это, становится понятным, что поиск закономерностей с использованием технологии интеллектуального анализа данных требует значительных вычислительных ресурсов и синтеза разных методов и подходов к организации процесса извлечения знаний из потока данных.
Рассмотрим основные виды закономерностей, соответствующие задачи Data Mining и соответствующие им некоторые алгоритмы, лежащие в основе многих современных средств и систем интеллектуального анализа данных.
Типы задач и виды алгоритмов интеллектуального анализа данных.Существуют различные виды алгоритмов анализа данных. Среди них можно выделить некоторые наиболее популярные методы и подходы — такие, как различные методы статистического анализа (например, корреляционный, факторный, регрессивный, дисперсионный и кластерный анализ), многомерные таблицы, генетические алгоритмы и нейронные сети, нечеткая логика, алгоритм ближайшего соседа, групповой учет аргументов и деревья решений.
Выбор алгоритма обработки данных зависит от многих факторов, однако, в первую очередь, следует учитывать тип задачи, которую предстоит решать системе, и в соответствии с этим тип закономерности, которую система должна выявить в исследуемом объеме данных. Традиционно в Data Mining выделяют следующие типовые задачи (и соответственно типовые закономерности):
− ассоциация;
− кластеризация;
− классификация;
− исключение;
− прогнозирование.
Задача нахождения ассоциаций сводится к поиску связанных свойств объекта, при этом проблема состоит именно в том, чтобы правильно диагностировать и установить связи между полями базы. По своим методам, задача нахождения ассоциаций схожа с задачей кластеризации, с той лишь разницей, что первая работает с признаками объекта, а вторая собственно с самими объектами. В качестве подкласса задач определения связей можно выделить задачу определения временной последовательности. В отличие от классической задачи нахождения ассоциаций, которая концентрируется на определении связей между свойствами объекта, задача определения последовательности связана с выявлением связанных по времени событий. Помимо прочего, это могут быть и цепочки связанных по времени изменений свойств объекта.
Задача кластеризации заключается в выделении групп объектов со сходными свойствами, при этом (в отличие от классификации) сами группы заранее не определены. Приложение, анализирующее данные, должно самостоятельно определить, по каким критериям и признакам следует отличать группы объектов и тем самым использовать их для последующей кластеризации. Традиционно решение этой задачи (определение групп объектов) может служить отправной точкой для выполнения задачи классификации.
Задача классификации состоит в выявлении признаков, характеризующих группу, и последующем распознавании, т. е. соотнесении массива анализируемых объектов с определенной группой на основе сравнения их атрибутов с контрольными атрибутами обучающей выборки. При этом важными требованиями к приложениям, классифицирующим данные, являются минимальное количество исключений, а также наличие механизма оптимизации процесса распознавания, поскольку количество объектов и их свойств может быть очень большим. Далее, на основе знаний, полученных в результате выполнения задачи классификации, можно выполнять более уточняющую задачу исключения.
Задача поиска исключений направлена на нахождение объектов, значения атрибутов которых резко отличаются от других. При этом, основываясь на выявленных ранее значениях средних параметров объектов, особое внимание уделяют тем объектам, параметры которых наиболее сильно отличаются от этих средних значений. Помимо прочих целей, этот анализ можно проводить и для верификации точности выполнения задачи классификации.
Результаты выполнения вышеуказанных задач, в свою очередь, используются при решении конечной задачи — прогнозирования. При выполнении этой задачи цель состоит в том, чтобы предсказать по значениям одних полей объекта значения остальных. Кроме того, отдельной задачей прогнозирования также является определение тех полей и их оптимальных значений, которые играют ключевую роль в достижении ожидаемых результатов по конкретному заданному полю.
Таким образом, из описания задач интеллектуального анализа данных видно, что их специфика в значительной мере определяет выбор соответствующего алгоритма решения.
Таким образом, очевидно, что выбор правильного алгоритма зависит от класса задачи, которую требуется решить, а также от состава и объема исходных данных. Так, например, задачи классификации неоднородных данных лучше решать с помощью алгоритма деревьев решений, а задачи прогнозирования или выявления неявных закономерностей — с помощью метода кластеризации.
Важно отметить, что алгоритм выявления закономерностей является, пожалуй, важнейшим компонентом, определяющим эффективность работы системы; однако при этом существуют другие факторы и средства, значительно облегчающие успешное решение аналитических задач. Так, например, все в том же Analysis Services СУБД Microsoft SQL Server, полезными представляются функциональные дополнения для T-SQL и OLE DB для Data Mining. С помощью Data Shaping Service в OLE DB а также специального столбца типов содержания, так называемого столбца таблицы, OLE DB для Data Mining позволяет использовать как вложенные операторы выбора (nested cases), так и невложенные (non nested cases), для обучения и прогнозирования.
Литература:
- Бирюков А. Системы принятия решений и хранилища данных // СУБД. № 4, 1997.
- Львов В. Создания систем поддержки принятия решений на основе хранилищ данных // СУБД. № 3, 1997.
- Львович О. Data Warehousing — выход из кризиса оперативного анализа // Read Me, № 6, 1998.
- Inmon W. H. Building the Data Warehouse. — Wellesley, MA: QED Publishing Group, 1992.
- Городецкий В. И. Многоагентные системы: современное состояние исследований и перспективы применения // «Новости искусственного интеллекта». № 1, 1996.
- Inmon W. H., Welch J. D., Glassey Katherine L. Managing the Data Warehouse. Wiley Computing Publishing, 1997.
- Oracle Method. Custom Development. Data Warehouse Method Handbook, Release 1.0.0, 2002 Oracle Corporation.