При автоматизации поиска документальной информации важнейшей является задача формализации содержания документа и запроса. При этом поиск происходит по всему тексту документа или по его поисковому образу, а в качестве запроса чаще всего выступают отдельные ключевые слова или их логические комбинации. Именно на этой технологии основано действие информационно-поискового тезауруса (ИПТ).
Можно выделить два определения информационно-поискового тезауруса:
1. Информационно-поисковый тезаурус представляет собой словарь, отображающий семантические отношения между лексическими единицами дескрипторного информационно-поискового языка и предназначенный для поиска слов по их смысловому содержанию.
2. Информационно-поисковый тезаурус (ИПТ) – контролируемый словарь терминов предметной области, создаваемый для улучшения качества информационного поиска в этой предметной области.
И в том, и в другом случае речь идет о словаре, который призван облегчить поиск необходимой информации.
Возможно два способа расположения слов в словарях: по близости их буквенного состава и по смысловой близости.
По первому способу создаются алфавитные словари. По второму способу – тезаурусы. Алфавитные словари служат для раскрытия значения данного слова. Тезаурусы служат для поиска слов для выражения данного понятия. То есть, если в обычном словаре по слову ищется его смысл, то в тезаурусе по заданному смыслу ищутся слова, которые этот смысл выражают [1].
Основными целями разработки традиционных ИПТ являются следующие:
· обеспечение перевода естественного языка документов и пользователей на контролируемый словарь, применяемый для индексирования и поиска;
· обеспечение последовательного использования единиц индексирования;
· описание отношений между терминами;
· использование как поискового средства при поиске документов;
· единицы традиционных информационно-поисковых тезаурусов.
Построение информационно-поискового тезауруса
Тезаурусы разрабатываются для отдельных отраслей. Например, существует «Тезаурус по документации», «Дескрипторный словарь по информатике» и т.п. Тезаурус может быть разработан и для обслуживания конкретной информационно-поисковой системы.
Построение тезауруса состоит из нескольких взаимосвязанных этапов.
Первый этап - формирование словаря. Словарь – первоначальные множества ключевых слов. При этом рассматривается представительный массив наиболее информативных для данной предметной области документов. Например, реферативные журналы, словари, учебники, справочники, нормативные документы, и т.д. Выбираются слова, употребляемые в этих источниках, при всем этом устанавливается частота употребления слов и учитываются все формы, которые могут иметь слова.
Второй этап – формирование множества ключевых слов. Из словаря формируется множество ключевых слов. При отборе ключевых слов учитывается информативность слова, которая определяется исходя из частоты встречаемости слова, роли слова в этой предметной области. Процесс выбора ключевых слов достаточно сложно формализовать. Например, такой критерий, как частота встречаемости не может быть абсолютным. Если слово встречается в текстах очень часто, это может означать, что оно выражает чрезмерно широкое понятие, либо недостаточно четко определено, т.е неинформативно. Если ключевое слово встречается очень редко, это может означать, что оно выражает новое понятие и таким образом является информативным.
Третий этап – формирование классов эквивалентности. Выделение дескрипторов.
Автоматические информационно-поисковые тезаурусы являются составным элементом автоматического индексирования документов и запросов. В словарной статье автоматического тезауруса, как правило, зафиксированы отношения условной эквивалентности, отношения подчинения и ассоциативные отношения.
На данный момент в мире нет универсальных контролируемых словарей. Построение такого словаря необходимо для организации информационно-поискового тезауруса.
Под информационно-поисковым тезаурусом (ИПТ) понимается словарь лексических единиц информационно-поискового языка, в котором заданы парадигматические (базисные) смысловые отношения между этими единицами.
Контролируемый словарь описывает отношения между терминами, которые относятся к теме «Электронные библиотеки». Такой словарь предназначен для помощи при информационном поиске и представляет собой список тем и ключевые термины (основные и дополнительные) (рис. 1). Ключевые термины привязываются к словарным статьям через id.
Связи между темами и словарем задается жестко. А связи между терминами задаются легко, т.е. зависит от того присутствует этот термин в описании или нет.
Рисунок 1. Контролируемый словарь
Контролируемый словарь состоит из следующих элементов:
· Персоны (persons_cat);
· Ресурсы в коллекции (publ_cat);
· Список разделов (тем) (temas_class).
Объекты, которые хранятся в системе, являются статьями. К типам этих объектов относятся: персоны, публикации, которые имеют выходные данные, прочие документы (автобиография, письма), и словарные статьи. Между ними устанавливаются соотношения связи по ключевым терминам id [2].
Словари (ключевые признаки, ключевые термины) - это особый вид метаданных, которые отражают наиболее существенные свойства объекта и их специфика определятся терминологией конкретной предметной области. Необходимо рассматривать различные типы ключевых терминов, а именно:
· ключевые термины в стандартном понимании;
· ключевые термины, описывающие персону;
· ключевые термины, описывающие организацию;
· ключевые термины, описывающие временные периоды;
· ключевые термины, описывающие географические понятия.
Классификация тем и терминов представлена в виде десятичного рубрикатора по правилам классификации Дьюи.
Наш подход к описанию терминологии с помощью тезауруса во многом опирается на работы [Никитина, 1978, 1987, 1996]. Свойства терминов предметной области – системность, устойчивость и регулярность связей, установка на объективность описания – делают возможным адекватное описание терминологии с помощью тезаурусов. Ключевой момент такого подхода – учет системных свойств терминов предметной области (понятийной структуры терминологии по [Шелов, 2001]).
Формат должен выполнять также коммуникативную функцию, т.е. способствовать повторному использованию, обмену и интеграции терминологических данных в виде тезаурусов.
Кроме того, при разработке перед нами стояла традиционная задача сохранения баланса между развитостью структуры, выразительными возможностями формата – с одной стороны – и простотой, прозрачностью описания – с другой.
Исходя из этих требований, в качестве формата представления тезауруса мы выбрали язык XML [3]. Формат тезауруса описывается в виде XML Schema [XML].
В качестве аналогов при работе мы рассматривали формат словаря Virtual HyperGlossary и документы проекта SALT [Virtual, SALT]. При разработке формата описания тезауруса мы старались ориентироваться на отечественный и международный стандарты [ГОСТ, ISO]. В частности, мы стремились привести словарь описания тезауруса к словарю стандарта ISO 12620: 1999 Computer applications in terminology – Data categories.
Литература:
1. Ивасенко А.Г. Информационное технологии и управлении. – М.: КНОРУС, 2007. – 106 с.
2. Овчинников Д.В. Разработка системы автоматизации функций формирования SCORM совместимых метаданных для информационных ресурсов. – М., 2011. – С. 18.
3. Лапо П.М., Соколов А.В. Введение в электронные библиотеки. – М., 2005. - С. 27-32.