В настоящей работе предлагается релевантный набор признаков текстов тувинского героического эпоса, позволяющий формировать контекст и применять в исследовании корпуса тувинского языка математический аппарат теории распознавания образов и теории решеток (в частности, анализ формальных понятий).
Ключевые слова: компьютерная лингвистика, корпус, тувинский героический эпос, контекст, анализ формальных понятий.
Корпус — это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме [3]. Национальный корпус представляет данный язык на определенном этапе его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов. Корпус включает в себя различные типы письменных и устных текстов (художественные и публицистические произведения, учебные, научные, деловые, религиозные, бытовые и диалектные тексты), представленные в данном языке, а также информацию о свойствах входящих в него текстов — разметку. Разметка — главная характеристика корпуса. Разметка отличает корпус от простых коллекций (или библиотек) текстов.
Большинство крупных языков мира уже имеет свои национальные корпуса, различающиеся по полноте и уровню научной обработки текстов. Национальный корпус русского языка создается лингвистами, специалистами по корпусной лингвистике. На сегодняшний день он включает в себя более 500 миллионов слов. Для многих языков народов Российской Федерации, в том числе для тюркских языков (шорского, башкирского, казахского, хакасского, тувинского), ведутся работы по созданию национальных корпусов.
Работа над созданием Национального корпуса тувинского языка была начата сотрудниками Научно-образовательного центра «Тюркология» и преподавателями филологического факультета Тувинского государственного университета при поддержке Российского гуманитарного фонда в 2011 г. [9]. На сегодняшний день в Национальном корпусе тувинского языка содержатся тексты тувинской художественной литературы (прозы, поэзии, драматургии, фольклора), официально-деловых документов [6-8]. В корпус также входят частотный словарь по художественным произведениям на тувинском языке, тувинско-русский электронный словарь «ТывЛин», словарь диалектных слов алтайского диалекта тувинского языка, морфемно-орфографический словарь тувинского языка, составленный М. В. Бавуу-Сюрюн и С. М. Далаа. В корпусе предусмотрен поиск слов и морфем в заданном тексте. Работы по расширению информационного содержания Национального корпуса и углублению уровня обработки текстов продолжаются. Особый интерес представляют исследования произведений тувинского героического эпоса, как важной составляющей этнокультурного наследия Республики Тыва [5, 8].
Всякий корпус, как информационная лингвистическая система, включает в себя информационные и программные составляющие. Создание корпуса предполагает выполнение следующих работ [3]: определение перечня хранимых текстов, оцифровка текстов, выверка и корректировка текстов, выбор типов разметки, разметка текстов (вручную или автоматически), определение и реализация поискового аппарата — множества возможных запросов к данным, разработка программных средств обеспечения доступа к корпусу.
Существенной частью поискового аппарата корпуса является метаразметка. Под метаразметкой понимается приписывание тексту атрибутов — параметров, характеризующих текст в целом. Совокупность этих параметров называют паспортом текста [5]. Паспорт произведения тувинского героического эпоса содержит следующие параметры: сведения о сказителе, библиографические сведения, жанровые и стилевые особенности текстов, а также сведения относительно тематики произведений.
Информация, отражающая метаразметку, как правило, хорошо структурирована и допускает представление ее в виде матрицы «объект-признак», называемой контекстом. В настоящей работе предлагается релевантный набор признаков текстов тувинского героического эпоса, позволяющий формировать контекст и применять в исследовании корпуса тувинского языка математический аппарат теории распознавания образов и теории решеток (в частности, анализ формальных понятий) для решения филологических задач, сводимых к задаче классификации по положительным и отрицательным прецедентам. В частности, можно решать следующие важные филологические задачи в корпусе тувинского героического эпоса: задачи классификации по заданным признакам, например, принадлежности определенному жанру, тематике и пространственно-временному периоду, атрибуция текста — исследование текста с целью установления сказителя или получения каких-либо сведений о сказителе и условиях создания текстового документа.
АФП — современный метод анализа данных. АФП и его методы предоставляют математический аппарат для исследования и представления иерархий данных, отражающих их объектно-признаковые зависимости [1]. В обычной жизни, используя слово «понятие», мы подразумеваем некоторое высказывание, выделяющее и обобщающее предметы некоторого класса по их общим и характерным для них признакам. На основе этой идеи АФП формализует термин «понятие», что позволяет строго описывать, с помощью решеток формальных понятий, теоретико-порядковые отношения и зависимости между объектами и признаками. Основные идеи АФП был сформулирован Рудольфом Вилле в его работе [10], а наиболее полной монографией по АФП является книга Гантера и Вилле [11]. Данный метод нашел широкое применение в различных областях машинного обучения, таких как информационный поиск, обработка документов и текстов, распознавание образов [1, 4]. Преимуществом метода АФП является наглядное и удобное для изучения представления результатов в виде решеток. С помощью АФП и методов на его основе можно выделять наборы понятий и решать задачи бинарной классификации по положительным и отрицательным прецедентам, возникающие при исследовании корпусов естественных корпусов.
Формальный контекст в терминах АФП — тройка K = (G, M, I), где G и M — непустые конечные множества, называемые соответственно множествами объектов и признаков, а I — соответствие между G и M, называемое отношением инцидентности. Для записи этого соответствия принята инфиксная форма записи: запись gImозначает, что объект gGобладает признаком mM. Соответствие Iоднозначно определяется (0, 1)-матрицей T. Для произвольных подмножеств A и B, где AG, BM, введем два отображения φ: 2G → 2Mи : 2M → 2Gтакие, что
φ(A) = {m M | g A(gIm)},
ψ(B) = {g G | m B(gIm)},
где 2G–всевозможные подмножества множества G, 2M — всевозможные подмножества множества M. Пусть A = φ(A) и B = ψ(B).Таким образом, A — множество признаков, которыми обладают все объекты из множества A, B– множество объектов, которые обладают всеми признаками из множества B. Пара множеств (A, B), AG, BM, таких, что A = Bи B = A, называется формальным понятием контекста K. При этом Aназывается объемом, а B— содержанием формального понятия (A, B). Если контекст K = (G, M, I) представлен в виде (0,1)-матрицы T, то формальному понятию (A, B) соответствует максимальная подматрица матрицы T, заполненная единицами. Это означает, что подмножество объектов Aобладает всеми признаками из B, и наоборот, все признаки из B характерны для всех объектов из A[7].
Формальные понятия могут быть рассмотрены как бикластеры, в которых отношение сходства объектов отражается в признаковой компоненте бикластера, т. е. в содержании. Таким образом, всякий бикластер — это набор текстов и совокупность, характерных для них признаков. Метод АФП позволяет для заданного набора текстов выявлять бикластеры, связывать их в решетку, выполнять классификацию по положительным и отрицательным прецедентам.
Применительно к тувинскому героическому эпосу для решения выше перечисленных задач были определены следующие релевантные наборы признаков:
1) род, вид, сюжет, мотив, клише, форма, герой, зачин. Этот набор ориентирован на задачи определения принадлежности к жанру, тематике;
2) жанр, тема, ареал, годы жизни, место жительство, клише, характерные термины. Предназначен для задачи атрибуции или получения каких-либо сведений о сказителе и условиях создания текстового документ;
3) сказитель, периоды (ранний, зрелый и поздний) творчества, сюжет, тема. Для задач, связанных с выявлением пространственно-временного периода сказителя.
Данные наборы признаков были согласованы с экспертом — профессором ТувГУ, канд. филол. наук, руководителем научно-образовательного центра «Тюркология» М. В. Бавуу-Сюрюн. Список релевантных признаков текстов героического эпоса можно расширять. С помощью выявленных наборов признаков можно составлять различные контексты K в зависимости от поставленной задачи.
В таблице 1 представлен объектно-признаковый контекст из 8 произведений тувинского фольклора.
Таблица 1
Объектно-признаковая таблица произведений тувинского фольклора
№ |
Название |
Сказитель |
Ареал (горный / не горный) |
Богатырь (есть / нет) |
Сюжет |
1 |
Арзылаӊ-Кара аъттыг Хунан-Кара |
Ооржак Ч. Ч. |
горный |
есть: Хунан-Кара |
сватовство |
2 |
Мөрүн-Хүлүк |
Кашкак Д. С. |
не горный |
есть: Мөрүн-Хүлүк |
сватовство |
3 |
Өлээдей-Мерген |
Хертек Ш. Ч. |
горный |
есть: Өлээдей-Мерген |
сестра добывает брату суженую |
4 |
Элестей ашак |
Ооржак Ч. Ч |
горный |
есть |
сестра добывает брату суженую |
5 |
Бокту-Кириш, бора-Шээлей |
Хертек С. С. |
горный |
есть |
сестра добывает брату суженую |
6 |
Чечен-Маанай и Тенек-Тулун |
народ |
не горный |
нет |
другой |
7 |
Караты-хан биле Алдын-кыс |
народ |
горный |
есть |
сватовство |
8 |
Кыс-Халыыр |
народ |
горный |
нет |
другой |
Выполним операцию шкалирования этого контекста — переход к (0, 1)-матрице Т. Ее результат представлен в таблице 2. Имена объектов здесь заменены их порядковыми номерами, а признаки означают: s1 — сказитель Кашкак, s2 — сказитель Хертек, s3 — сказитель Ооржак, s4 — другой сказитель или народ, a1 — горный ареал, a2 — не горный ареал, g1 — богатырь, g2 — не богатырь, c1– сюжет сватовство, c2– сюжет сестра добывает брату суженую, c3 — другой сюжет. Признаки: сказитель, сюжет, зачин — номинальные, а остальные — дихотомические.
Таблица 2
Контекст Kпроизведений тувинского фольклора
ID |
Сказитель s1 |
Сказитель s2 |
Сказитель s3 |
Сказитель s4 |
Ареал a1 |
Ареал a2 |
Герой g1 |
Герой g2 |
Сюжет c1 |
Сюжет c2 |
Сюжет с3 |
1 |
|
|
+ |
|
+ |
|
+ |
|
+ |
|
|
2 |
+ |
|
|
|
|
+ |
+ |
|
+ |
|
|
3 |
|
+ |
|
|
+ |
|
+ |
|
|
+ |
|
4 |
|
|
+ |
|
+ |
|
+ |
|
|
+ |
|
5 |
|
+ |
|
|
+ |
|
+ |
|
|
+ |
|
6 |
|
|
|
+ |
|
+ |
|
+ |
|
|
+ |
7 |
|
|
|
+ |
+ |
|
+ |
|
+ |
|
|
8 |
|
|
|
+ |
|
+ |
|
+ |
|
|
+ |
Данный контекст K произведений тувинского фольклора используется для исследования корпуса тувинского героического эпоса с целью выявление понятий (бикластеров) и связей между ними, решения задачи бинарной классификации по положительным и отрицательным примерам. Существует различные алгоритмы решения этих задач, обзор данных алгоритмов представлен в работе [4].
Таким образом, для исследования корпуса текстов тувинского героического эпоса необходимо сначала сформировать контекст в зависимости от поставленной задачи. Потом разработать алгоритмы и программы на основе АФП для решения задачи, и внедрение этих средств в корпус тувинского языка.
Литература:
- Гуров, С.И. Классификация на основе АФП и бикластеризации: возможности подхода / С.И. Гуров, А.А. Онищенко // Прикладная математика и информатика: Труды факультета Вычислительной математики и кибернетики. — 2011. — Т.38. — С. 77–87.
- Гуров, С. И. Упорядоченные множества и универсальная алгебра (вводный курс) / С. И. Гуров. — М.: Издат. отд. ф-та ВМиК МГУ, 2004. — 100 с.
- Захаров, В. П. Корпусная лингвистика: учебно-методическое пособие/ В. П Захаров. — СПб.: БВХ-Петербург, 2005. — 48 с.
- Игнатов, Д. И.О поиске сходства Интернет-документов с помощью частых замкнутых множеств признаков / Д. И. Игнатов С. О. Кузнецов // Труды 10-й национальной конференции по искусственному интеллекту с международным участием. — 2006. — Т.2. — С. 249–258.
- Курбатский Г. Н. Тувинцы в своем фольклоре: историко-этнографическая аспекты тувинского фольклора/ Г. Н. Курбатский. — Кызыл: Тувинское книжное изд-во, 2001. — 464 с.
- Салчак, А. Я. Электронный корпус текстов тувинского языка // Тюрко-монгольские народы Центральной Азии: язык, этническая история и фольклор.– 2012. — № 1. — С. 72—74.
- Салчак, А. Я. Электронный корпус тувинского языка: состояние, проблемы / А.Я. Салчак, А.В. Байыр-оол// Мир науки, культуры, образование. –2013. — № 6. — С. 408—409.
- Орус-оол, С. М. Тувинские героические сказания/ С. М. Орус-оол. —Новосибирск: «Наука», 1997. — 584 с.
- Электронный корпус тувинского языка. — Режим доступа: http://www.tuvancorpus.ru.
- Ganter B. Formal Concept Analyses: Mathematical Foundations. Springer / B. Ganter, R. Wille., 1999.
- Wille R. Restructuring Lattes Theory: an Approach Based on Hierarchies of Concepts, In: Order Sets (I. Rival, ed.), Reidel, Dordrecht-Boston, 445 — 470, 1982.