На современном уровне развития информационных технологий предъявляются все более высокие требования к хранилищам данных, которые являются основой для построения систем поддержки принятий решений. При постоянном росте размеров хранилищ данных для эффективной аналитической обработки становиться не достаточно существующих методов поиска в реляционных, полнотекстовых и мультимедийных базах данных, требуются новые средства организации доступа к информации, многие из которых должны быть отнесены к задачам искусственного интеллекта. Основной недостаток существующих методов связан с тем, что при поиске информации не учитывается смысловая характеристика, которую несет информация. Вследствие чего поиск по реляционным атрибутам, вхождению слов (тем) в документ зачастую не обеспечивают адекватного выбора информации по запросу пользователя, так как необходимо точно знать предметную область, терминологию и четко определить границы своих интересов [1].
Для организации поиска по хранилищу данных, который бы учитывал семантику отношений между объектами и атрибутами, требуется:
- создать хранилище метаданных - хранилище, описывающее все информационные ресурсы организации, хранящуюся в них информацию и способы доступа к ней.
- унифицировать структуру объектов и их атрибутов в хранилище данных.
В основу хранилища метаданных положена модель семантической сети, вершинами которой являются объекты предметной области, а связями различные отношения между данными объектами. Атрибуты содержат различные характеристики объектов и сведения о ресурсах хранилища данных [2].
При построении хранилища метаданных отношения между объектами и связями должны быть представлены на естественном языке, что позволит избежать указанных ранее недостатков при поиске информации. Для организации эффективного поиска в хранилище метаданных целесообразно применять фактографический анализ информации
Основными элементами фактографического анализа являются следующие сущности:
- факты, описания которых ищут в тексте;
- объекты мониторинга для сбора фактов;
- атрибуты объектов, к которым относятся факты;
- досье, где собирается информация обо всех найденных фактах.
Модель факта задается множеством лингвистических описаний - шаблонов, каждый из которых описывает множество изоморфных семантических сетей, соответствующих некоторому типовому способу описания ситуации в тексте. Основными элементами лингвистических описаний являются:
- целевые фигуранты – узлы сети, которые соответствуют интересующим сущностям, выделенным в тексте;
- вспомогательные фигуранты – узлы сети с заданными ограничениями на атрибуты, которые позволяют распознать присутствие описания ситуации в тексте;
- схема ситуации – набор связей между фигурантами и вспомогательными элементами с заданными ограничениями на атрибуты связей.
Поиск факта есть поиск в семантической сети текста такой подсети, которая изоморфна одному из шаблонов. Если подсеть найдена, факт считается установленным, после чего производится извлечение сущностей и их маркировка ролями, заданными в соответствующих узлах лингвистических описаний [4].
Текстовой метаинформацией следует снабжать следующие типы источников информации в хранилище данных:
- агрегированную информацию в витринах данных, материализованных представлениях и.т.д.;
- полнотекстовые базы (для формирования целевой выборки информации, по которой гораздо эффективнее устраивать поиск);
- мультимедиа информацию (при отсутствии инструментов распознавания речи и изображения поиск по данной информации может быть организован только по метаданным);
- реляционные базы данных, содержащие презентативную информацию о физических и юридических лицах (БД кредитных историй, БД CRM-систем, БД налоговой инспекции и таможни) [3].
Метаданными не целесообразно снабжать базы данных OLTP систем, особенно БД типа трафика: телефонный биллинг, IP-траффик, финансовые транзакции. Одной из основных проблем, с которой сталкиваются разработчики хранилища данных при организации фактографического поиска является выбор естественного языка, на котором описываются метаданные. Во-первых, необходимо выбрать: будет ли это естественный язык, на котором представлена информация в хранилище данных или это будет язык мирового общения, например английский. Во-вторых, требуется определить степень “естественности языка”, так как очевидно, что при введении ограничений на синтаксис используемых конструкций в метаданных результат фактографического поиска будет более конкретен. В-третьих, необходимо решить, как поступать, если в хранилище данных представлена информация на разных естественных языках.
Для организации эффективного поиска в хранилище метаинформации требуются специализированные поисковые системы и системы визуализации информации. Для визуализации результатов могут использоваться различные системы, от простейших с растровой графики до полнофункциональных систем визуализации информации, к которым следует отнести i2 Analyst’s Notebook [5] и VisuaLinks [6]. Данные системы обладают рядом встроенных поисковых возможностей, однако с помощью них нельзя строить сложные аналитические запросы по хранилищу метаданных. Поэтому требуется использование стороннего программного обеспечения для проведения сложных аналитических операций с целью актуализации и сборки их результатов в перечисленных системах визуализации информации.
В рамках научно-исследовательских работ, которые проводятся в лаборатории прикладного программирования университета по данной тематике, получены следующие результаты:
- разработан лингвистический процессор на основе поисковой машины Oracle Text и ПО Russian Context Optimizer;
- разработана модель фактов для проведения аналитических исследований об физических и юридических лицах.
- разработан “Конструктор аналитических запросов” для организации фактографического поиска по хранилищу данных и метаданных.
- система i2 Analyst’ s Notebook применена для визуализации результатов фактографического поиска.
Список литературы
- А.В. Вохминцев, А.В. Мельников “Интеграция гетерогенных информационных ресурсов на основе семантических сетей”, Вычислительная техника и новые информационные технологии. Уфа, 2007.
- А.В. Вохминцев, “Применение семантических сетей для организации фактографического поиска в гетерогенных хранилищах данных”, Информационно-математические технологии в экономике, технике и образовании”, Екатеринбург, 2007
- A.V. Voxmitsev, A.V. Melnikov “Fact-based search technology in data warehouse with heterogeneous structure”, International Workshop on Computer Science and Information Technologies CSIT’2007, Ufa, Russia, 2007.
- Ермаков А.Е., Плешко В.В. Доклад на 3-ей конференции «Конкурентная разведка в металлургии»., Москва, 2005 г.
- Analyst’s Notebook 6: User Guide//i2 Limited.–Cambridge, June 2005.–Version 6.0;
- www.visualanalytics.com/