При обработке казахского языка на ЭВМ возникают множество дополнительных задач, среди которых для казахского языка как для представителя агглютинативного языка актуальна проблема с морфологией. В статье рассматривается статистический метод создания списка морфем.
Ключевые слова: морфема, статистика, электронная вычислительная машина, автоматическая обработка текста, анализ
Проблема работы с морфологией казахского языка обусловлена множественными вариациями как самих морфем, так и их сочетании. При автоматической обработке текста следует учитывать все возможные сочетания морфем и при этом уметь отделять от них корень, что так же неоднозначно в силу действия омонимии.
Наиболее очевидным решением могло бы быть ручное создание списка морфем. По причине большой статистической выборки текста, которую нужно сделать для создания списка, имелось два варианта решения данной задачи:
- Автоматический анализ слов с предшествующим созданием простого списка морфем исследователем.
- Автоматический анализ слов, которые были обработаны и размечены исследователем.
В силу колоссального объёма работы по разметке большого количества текста требуемого для второго варианта, предпочтительным выглядит вариант использования Алматинского корпуса казахского языка созданный в КазНУ им аль-Фараби, либо разрабатываемый Институтом языкознания при Академии наук Республики Казахстан Национальный корпус казахского языка (что подразумевает сложности с продолжающейся разработкой корпуса, и сопутствующей ее закрытостью).
В свою очередь, первый сценарий подразумевает наличие списка всех морфем для точного их разделения. Такого рода список не предполагает необходимость разделения морфем по категориям или добавления дополнительной информаций к ним, лишь предварительно уточняются сочетания и условия отсутствия морфем. При анализе слова происходит сверка всех возможных вариантов морфем с пунктами списка, и последующая проверка соседних элементов для проверки неверного разделения. К примеру, слово адамдарымыздың, составлен следующим образом — адам-дар-ым-ыз-дың. Без какого указателя разделения, и с учетом того, что морфема может иметь длину от одного до трех знаков, можно получить большое количество возможных сочетании. Перебор всех вариантов перестановок выделения блоков возможных морфем займет заметное количество времени у человека, а у ЭВМ лишь увеличивает энтропию при анализе большого количества текста.
При анализе слов поиск морфем может начинаться с конца ли начала слова. Казахскому языку свойственно всегда ставить к начало конструкции слова корень, с последующим присоединением аффиксов. По этой же причине начинать анализ с начала слова возможно лишь при наличии базы данных слов и имен, чье наличие, в свою очередь, может существенно уменьшит объем требуемых работ.
При поиске с конца слова применим алгоритм поиска по последней букве в слове и аффиксе списка. К примеру, возьмем слово бала-лар-дың. Последняя буква ң сверяется со списком и находится варианты, скажем, ң, ның, ің, дің, дың, что приведет к проверке предыдущих букв. Учитывая максимальную длину в три знака, и минимальную в один, компьютер выдаст два варианта: ң и дың, для выбора из которых нужно начать поиск следующего предполагаемого аффикса с опорой на то, что предшествующая найденным вариантам буква — последняя буква предыдущего. При разработке программы или с помощью доработки программы возможна, и желательна функция запоминания комбинации при выборе верного варианта учителем, как и установка минимальной длины корня для предотвращения разделения корня.
Данный процесс можно доработать основываясь на работе Института языкознания в Алматы с 1965 по 1973 годы по статистике казахского языка, в том числе и морфологии. Несмотря на несколько отдельный характер работы, результаты статистики аффиксов, записанных в формате аффикс/частота, можно использовать посредством сверки по списку частотности аффиксов, что обеспечивает статистический большую вероятность нахождения правильного варианта с первых попыток. Данная работа проводилась на текстах художественного и публицистических стилей, и дана абсолютная частота, но с учетом относительной актуальности языка того времени и большому объему слов, будет достаточно обоснованно использовать данные списки с переводом их абсолютной частоты в относительную по простой формуле (1)
(1)
Где x — количество вариантов, f (x) — частота вариантов, p (x) — относительная частота.
Другим, упомянутым ранее, вопросом является выделение корня. К примеру, слово өнім-дер-ің-ді (ваши продукции) имеет корень өнім, тогда как слово дер-ің-ді (то, что хочешь сказать) имеет корень де (скажи). Два абсолютно разных слова будут восприниматься ЭВМ одинаково в силу схожего строения, и корень второго слова будет считаться аффиксом, что безусловно будет предотвращено правилом минимальной длины корня, но даже в этом случае часть корня может быть захвачено ЭВМ как аффикс. В силу разнообразия онимов и слов, простая сверка корней с собранной базой данных может занять некоторое время. Для решения данной проблемы следует ввести статистику использования корней, уже на основе этого проекта, с допущением медленного набора статистики и отсутствию слов в базе данных.
Наибольшим препятствием в анализе слов может являться наличие названия в виде корня, что предполагает не только большой массив онимов со всех сфер, но и присутствие довольно большого количества непереведенных, либо неправильно использованных слов, что встречается довольно часто как ошибка, так и стилистический прием в журналистике. Данный факт не мешает сбору и использованию статистики корней, но увеличивает время и ресурсы, необходимые для пополнения базы, а в дальнейшем создает массивную базу.
Решением в данный момент служит использование вариации морфем, число которых конечно. Основываясь на алгоритме, указанном выше, просматриваются все варианты морфем и при нахождении встречающейся комбинации она задается как верно разделенная. Данное решение не способно снизить количество ошибок к нулю, но гарантирует существенно меньший процент ошибок, и при методе работы программы с «учителем», покрывает все встречающиеся варианты.
Собранные данные могут служить различным целям: орфографическая проверка, предугадывание ввода, автоматический анализ текста и т. д. В данный момент наибольшую актуальность имеет проверка орфографии. Данная система имеет возможность проверки слов, эталоны которых не имеются в базе данных, посредством отдельной проверки корня и морфологической последовательности. В дополнение, при вводе отдельных правил, выполняется проверка по закону сингармонизма, актуальную для подавляющего большинства слов в казахском языке.
К примеру, слово құжат-тар-дың может быть ошибочно записано как құжат-тар-дің. Аффиксы дің и дың имеют одинаковое значение, но, в силу фонетических правил казахского языка, ставятся после разных наборов гласных букв. Уже имея наработанную базу морфем, необходимо лишь указать правило следования гласных как указано на таблице 1. Хотя данное правило не действительно для некоторых заимствованных слов и имен, их количество вызывает лишь малую статистическую погрешность.
Таблица 1
Гласные последнего слога корня |
Последующие гласные вморфемах |
А, О, Ы, Ұ, У, Я, Э, Ю |
Ы и А |
Ә, І, Ү, Ө, Е |
І и Е |
Морфология в агглютинативных языках играет важную роль, внося не столько элементы, усложняющих определенные процедуры обработки языка, столько облегчающих. В данный момент решены многие проблемы их систематизации, многие находятся в процессе их решения для изучения и использования языка на ЭВМ.
Литература:
- Статистика казахского языка / ответ. редакторы: Хасенова А. К.; Бектаев К. Б. — АЛМА-АТА, 1973. — 696 с.
- Большакова Е. И. и др. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. — М.: МИЭМ, 2011. — 272 с.