Создание и практическое использование статистики морфем казахского языка | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 28 декабря, печатный экземпляр отправим 1 января.

Опубликовать статью в журнале

Автор:

Рубрика: Филология, лингвистика

Опубликовано в Молодой учёный №22 (156) июнь 2017 г.

Дата публикации: 05.06.2017

Статья просмотрена: 82 раза

Библиографическое описание:

Сматаев, Н. К. Создание и практическое использование статистики морфем казахского языка / Н. К. Сматаев. — Текст : непосредственный // Молодой ученый. — 2017. — № 22 (156). — С. 485-487. — URL: https://moluch.ru/archive/156/44168/ (дата обращения: 20.12.2024).



При обработке казахского языка на ЭВМ возникают множество дополнительных задач, среди которых для казахского языка как для представителя агглютинативного языка актуальна проблема с морфологией. В статье рассматривается статистический метод создания списка морфем.

Ключевые слова: морфема, статистика, электронная вычислительная машина, автоматическая обработка текста, анализ

Проблема работы с морфологией казахского языка обусловлена множественными вариациями как самих морфем, так и их сочетании. При автоматической обработке текста следует учитывать все возможные сочетания морфем и при этом уметь отделять от них корень, что так же неоднозначно в силу действия омонимии.

Наиболее очевидным решением могло бы быть ручное создание списка морфем. По причине большой статистической выборки текста, которую нужно сделать для создания списка, имелось два варианта решения данной задачи:

  1. Автоматический анализ слов с предшествующим созданием простого списка морфем исследователем.
  2. Автоматический анализ слов, которые были обработаны и размечены исследователем.

В силу колоссального объёма работы по разметке большого количества текста требуемого для второго варианта, предпочтительным выглядит вариант использования Алматинского корпуса казахского языка созданный в КазНУ им аль-Фараби, либо разрабатываемый Институтом языкознания при Академии наук Республики Казахстан Национальный корпус казахского языка (что подразумевает сложности с продолжающейся разработкой корпуса, и сопутствующей ее закрытостью).

В свою очередь, первый сценарий подразумевает наличие списка всех морфем для точного их разделения. Такого рода список не предполагает необходимость разделения морфем по категориям или добавления дополнительной информаций к ним, лишь предварительно уточняются сочетания и условия отсутствия морфем. При анализе слова происходит сверка всех возможных вариантов морфем с пунктами списка, и последующая проверка соседних элементов для проверки неверного разделения. К примеру, слово адамдарымыздың, составлен следующим образом — адам-дар-ым-ыз-дың. Без какого указателя разделения, и с учетом того, что морфема может иметь длину от одного до трех знаков, можно получить большое количество возможных сочетании. Перебор всех вариантов перестановок выделения блоков возможных морфем займет заметное количество времени у человека, а у ЭВМ лишь увеличивает энтропию при анализе большого количества текста.

При анализе слов поиск морфем может начинаться с конца ли начала слова. Казахскому языку свойственно всегда ставить к начало конструкции слова корень, с последующим присоединением аффиксов. По этой же причине начинать анализ с начала слова возможно лишь при наличии базы данных слов и имен, чье наличие, в свою очередь, может существенно уменьшит объем требуемых работ.

При поиске с конца слова применим алгоритм поиска по последней букве в слове и аффиксе списка. К примеру, возьмем слово бала-лар-дың. Последняя буква ң сверяется со списком и находится варианты, скажем, ң, ның, ің, дің, дың, что приведет к проверке предыдущих букв. Учитывая максимальную длину в три знака, и минимальную в один, компьютер выдаст два варианта: ң и дың, для выбора из которых нужно начать поиск следующего предполагаемого аффикса с опорой на то, что предшествующая найденным вариантам буква — последняя буква предыдущего. При разработке программы или с помощью доработки программы возможна, и желательна функция запоминания комбинации при выборе верного варианта учителем, как и установка минимальной длины корня для предотвращения разделения корня.

Данный процесс можно доработать основываясь на работе Института языкознания в Алматы с 1965 по 1973 годы по статистике казахского языка, в том числе и морфологии. Несмотря на несколько отдельный характер работы, результаты статистики аффиксов, записанных в формате аффикс/частота, можно использовать посредством сверки по списку частотности аффиксов, что обеспечивает статистический большую вероятность нахождения правильного варианта с первых попыток. Данная работа проводилась на текстах художественного и публицистических стилей, и дана абсолютная частота, но с учетом относительной актуальности языка того времени и большому объему слов, будет достаточно обоснованно использовать данные списки с переводом их абсолютной частоты в относительную по простой формуле (1)

(1)

Где x — количество вариантов, f (x) — частота вариантов, p (x) — относительная частота.

Другим, упомянутым ранее, вопросом является выделение корня. К примеру, слово өнім-дер-ің-ді (ваши продукции) имеет корень өнім, тогда как слово дер-ің-ді (то, что хочешь сказать) имеет корень де (скажи). Два абсолютно разных слова будут восприниматься ЭВМ одинаково в силу схожего строения, и корень второго слова будет считаться аффиксом, что безусловно будет предотвращено правилом минимальной длины корня, но даже в этом случае часть корня может быть захвачено ЭВМ как аффикс. В силу разнообразия онимов и слов, простая сверка корней с собранной базой данных может занять некоторое время. Для решения данной проблемы следует ввести статистику использования корней, уже на основе этого проекта, с допущением медленного набора статистики и отсутствию слов в базе данных.

Наибольшим препятствием в анализе слов может являться наличие названия в виде корня, что предполагает не только большой массив онимов со всех сфер, но и присутствие довольно большого количества непереведенных, либо неправильно использованных слов, что встречается довольно часто как ошибка, так и стилистический прием в журналистике. Данный факт не мешает сбору и использованию статистики корней, но увеличивает время и ресурсы, необходимые для пополнения базы, а в дальнейшем создает массивную базу.

Решением в данный момент служит использование вариации морфем, число которых конечно. Основываясь на алгоритме, указанном выше, просматриваются все варианты морфем и при нахождении встречающейся комбинации она задается как верно разделенная. Данное решение не способно снизить количество ошибок к нулю, но гарантирует существенно меньший процент ошибок, и при методе работы программы с «учителем», покрывает все встречающиеся варианты.

Собранные данные могут служить различным целям: орфографическая проверка, предугадывание ввода, автоматический анализ текста и т. д. В данный момент наибольшую актуальность имеет проверка орфографии. Данная система имеет возможность проверки слов, эталоны которых не имеются в базе данных, посредством отдельной проверки корня и морфологической последовательности. В дополнение, при вводе отдельных правил, выполняется проверка по закону сингармонизма, актуальную для подавляющего большинства слов в казахском языке.

К примеру, слово құжат-тар-дың может быть ошибочно записано как құжат-тар-дің. Аффиксы дің и дың имеют одинаковое значение, но, в силу фонетических правил казахского языка, ставятся после разных наборов гласных букв. Уже имея наработанную базу морфем, необходимо лишь указать правило следования гласных как указано на таблице 1. Хотя данное правило не действительно для некоторых заимствованных слов и имен, их количество вызывает лишь малую статистическую погрешность.

Таблица 1

Гласные последнего слога корня

Последующие гласные вморфемах

А, О, Ы, Ұ, У, Я, Э, Ю

Ы и А

Ә, І, Ү, Ө, Е

І и Е

Морфология в агглютинативных языках играет важную роль, внося не столько элементы, усложняющих определенные процедуры обработки языка, столько облегчающих. В данный момент решены многие проблемы их систематизации, многие находятся в процессе их решения для изучения и использования языка на ЭВМ.

Литература:

  1. Статистика казахского языка / ответ. редакторы: Хасенова А. К.; Бектаев К. Б. — АЛМА-АТА, 1973. — 696 с.
  2. Большакова Е. И. и др. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. — М.: МИЭМ, 2011. — 272 с.
Основные термины (генерируются автоматически): казахский язык, слово, последняя буква, абсолютная частота, автоматическая обработка текста, автоматический анализ слов, анализ слов, баз данных, минимальная длина корня, ЭВМ.


Ключевые слова

анализ, статистика, морфема, автоматическая обработка текста, электронная вычислительная машина

Похожие статьи

Метрики семантических данных

Данная статья повествует о семантической метрике извлечения перечня понятий из текстов на соответствующую тематику. Онтологический анализ представляет основу для данной метрики. Для обнаружения семантической метрики применяется два показателя — показ...

Семантика в задачах автоматической обработки данных

В данной статье рассматриваются методы повышения качества и эффективности решения поисково-аналитических за счёт разработки и применения метода оценки сходства текстов, учитывающего лексико-морфологическую, синтаксическую и семантическую информацию, ...

Формирование контекста для исследования корпуса тувинского героического эпоса на основе анализа формальных понятий

В настоящей работе предлагается релевантный набор признаков текстов тувинского героического эпоса, позволяющий формировать контекст и применять в исследовании корпуса тувинского языка математический аппарат теории распознавания образов и теории решет...

Анализ методов тематического моделирования текстов на естественном языке

В работе рассматриваются различные методы тематического моделирования текстов на естественном языке, приводятся их достоинства и недостатки.

Анализ существующих моделей управления семантическими данными

Статья посвящена анализу существующих моделей управления семантическими данными. В статье рассмотрены: теоретико-методологические основы моделей управления семантическими данными; выделены и проанализированы концепции основных моделей управления сема...

Сравнительный анализ моделей векторного представления слов в задаче текстовой классификации

Анализ эффективности алгоритмов сортировки и вcтроенных реализаций на примере языка программирования Java

В данной статье показана значительная роль проведения анализа работы алгоритмов сортировки на массивах данных различной размерности. Рассмотрены актуальные алгоритмы и стандартные реализации сортировки в языке программирования Java.

Применение векторизации слов для нечеткого поиска

В этой статье рассматриваются вопросы выполнения нечеткого поиска, извлечение семантики слов и применение векторной модели для расширения поиска. Изложены общие идеи при решении поставленной задачи, приводятся алгоритмы с их последующей реализацией и...

Применение программного комплекса ANSYS в компьютерном моделировании

В статье представлены известные и современные программные комплексы для компьютерного моделирования конструкций, изделий и их составных частей. Программы основаны на методе конечных элементов, как метод численного моделирования и анализа. Показаны во...

Анализ нечетких методов сравнения при работе с несколькими источниками данных

При сопоставлении данных, собранных из различных источников, появляется сложность, связанная с возможными различиями формообразования в наименованиях и возникающих ошибках при ручном вводе данных. Были рассмотрены методы нечёткого сравнения строк.

Похожие статьи

Метрики семантических данных

Данная статья повествует о семантической метрике извлечения перечня понятий из текстов на соответствующую тематику. Онтологический анализ представляет основу для данной метрики. Для обнаружения семантической метрики применяется два показателя — показ...

Семантика в задачах автоматической обработки данных

В данной статье рассматриваются методы повышения качества и эффективности решения поисково-аналитических за счёт разработки и применения метода оценки сходства текстов, учитывающего лексико-морфологическую, синтаксическую и семантическую информацию, ...

Формирование контекста для исследования корпуса тувинского героического эпоса на основе анализа формальных понятий

В настоящей работе предлагается релевантный набор признаков текстов тувинского героического эпоса, позволяющий формировать контекст и применять в исследовании корпуса тувинского языка математический аппарат теории распознавания образов и теории решет...

Анализ методов тематического моделирования текстов на естественном языке

В работе рассматриваются различные методы тематического моделирования текстов на естественном языке, приводятся их достоинства и недостатки.

Анализ существующих моделей управления семантическими данными

Статья посвящена анализу существующих моделей управления семантическими данными. В статье рассмотрены: теоретико-методологические основы моделей управления семантическими данными; выделены и проанализированы концепции основных моделей управления сема...

Сравнительный анализ моделей векторного представления слов в задаче текстовой классификации

Анализ эффективности алгоритмов сортировки и вcтроенных реализаций на примере языка программирования Java

В данной статье показана значительная роль проведения анализа работы алгоритмов сортировки на массивах данных различной размерности. Рассмотрены актуальные алгоритмы и стандартные реализации сортировки в языке программирования Java.

Применение векторизации слов для нечеткого поиска

В этой статье рассматриваются вопросы выполнения нечеткого поиска, извлечение семантики слов и применение векторной модели для расширения поиска. Изложены общие идеи при решении поставленной задачи, приводятся алгоритмы с их последующей реализацией и...

Применение программного комплекса ANSYS в компьютерном моделировании

В статье представлены известные и современные программные комплексы для компьютерного моделирования конструкций, изделий и их составных частей. Программы основаны на методе конечных элементов, как метод численного моделирования и анализа. Показаны во...

Анализ нечетких методов сравнения при работе с несколькими источниками данных

При сопоставлении данных, собранных из различных источников, появляется сложность, связанная с возможными различиями формообразования в наименованиях и возникающих ошибках при ручном вводе данных. Были рассмотрены методы нечёткого сравнения строк.

Задать вопрос