В данной статье рассмотрены основные виды систем машинного перевода. Рассмотрены основные системы машинного перевода, произведено их сравнение и анализ. Сделаны предположения о возможных путях развития подобных систем.
Ключевые слова: машинный перевод, обработка естественного языка, компьютерная лингвистика.
Введение
Машинный перевод представляет собой процесс связанного перевода текстов компьютерной программой с одного естественного языка на другой. [1]
Различают следующие основные цели использования машинного перевода [2, 3]:
- Быстрое ознакомление с интересующей информацией — машинный перевод позволяет получить в общих чертах информацию о содержании статьи, книги, научной работы и т. д.;
- Возможность коммуникаций — машинный перевод дает возможность написать любому человеку из любой точки Земли;
- Автоматическая локализация — позволяет быстрорастущим компаниям увеличивать рынок сбыта;
- Упрощение работы переводчика — используя машинный перевод, переводчик может значительно ускорить перевод текста;
В данной статье будут рассмотрены виды машинного перевода, самые популярные системы, работающие с русским языком, разобран принцип их работы, описаны основные достоинства и недостатки. Так же будут сделаны предположения о путях развития машинного перевода.
Виды машинного перевода
В настоящее время различают три вида систем машинного перевода [4, 5, 6]:
- Системы на основе грамматических правил (Rule-Based Machine Translation, RBMT);
- Статистические системы (Statistical Machine Translation, SMT);
- Гибридные системы;
Системы на основе грамматических правил производят анализ текста, который используется в процессе перевода. Перевод производится на основе встроенных словарей для данной языковой пары, а так же грамматик, охватывающих семантические, морфологические, синтаксические закономерности обоих языков. На основе всех этих данных исходный текст последовательно, предложение за предложением, преобразуется в текст на требуемом языке. Основной принцип работы таких систем — связь структур исходного и конечного текстов.
Системы на основе грамматических правил часто разделяют еще на три подгруппы — системы пословного перевода, трансфертные системы и интерлингвистические системы.
Преимуществами систем на основе грамматических правил являются грамматическая и синтаксическая точность, стабильность результата, возможность настройки на специфическую предметную область. К недостаткам систем на основе грамматических правил относят необходимость создания, поддержки и обновления лингвистических баз данных, трудоемкость создания такой системы, а так же ее высокая стоимость.
Статистические системы при своей работе используют статистический анализ. В систему загружается двуязычный корпус текстов (содержащий большое количество текста на исходном языке и его «ручной» перевод на требуемый язык), после чего система анализирует статистику межъязыковых соответствий, синтаксических конструкций и т. д. Система является самообучаемой — при выборе варианта перевода она опирается на полученную ранее статистику. Чем больший словарь внутри языковой пары и чем точнее он составлен, тем лучше результат статистического машинного перевода. С каждым новым переведенным текстом улучшается качество последующих переводов.
Статистические системы отличаются быстротой настройки и легкостью добавления новых направлений перевода. Среди недостатков наиболее значительными являются наличие многочисленных грамматических ошибок и нестабильность перевода.
Гибридные системы сочетают в себе подходы, описанные ранее. Ожидается, что гибридные системы машинного перевода позволят объединить все преимущества, которыми обладают статистические системы и системы, основанные на правилах.
Крупнейшие системы машинного перевода, работающие с русским языком
В этой части будут рассмотрены три крупнейшие системы машинного перевода, работающие с русским языком — Abbyy Compreno [7], Google Translate [8] и Яндекс.Перевод [9, 10, 11]. Каждая из этих систем продолжает активно развиваться, совершенствуясь и увеличивая качество перевода.
AbbyyCompreno
Abbyy Compreno — технология, разработанная российской компанией «Abbyy», а также одноименная система, созданная ей же.
Для перевода система строит полное синтаксическое дерево исходного текста. Для его построения она использует отдельно заданные правила для каждого языка. Причем Compreno способна правильно обрабатывать анафоры, эллипсис и другие трудно поддающиеся обработке языковые конструкции. При переводе учитываются связи между словами в этом дереве, возможное положение этих слов в USH (Universal Sematic Hierarchy — иерархии универсальных семантических значений и отношений между ними) а также статистика взаимоотношений между словами.
Основным недостатком данной системы является её закрытость, отсутствие данных о полномасштабных тестированиях данной системы, что делает невозможным оценку качества производимого ей машинного перевода.
Google Translate
Google Translate — система, в настоящий момент разрабатываемая компанией Google. Первоначально разрабатывалась Franz Josef Och. Построена на статистическом методе перевода. Для обучения системы первоначально использовались параллельные корпуса текстов ООН, представленные на шести официальных языках ООН.
Данная система не осуществляет прямой перевод для языковых пар, в которые не входит английский язык. То есть, при переводе, например, с русского языка на французский, сначала будет осуществлен перевод с русского на английский язык, а после этого — с английского на французский.
Более того, для некоторых языков таких шагов больше. Например, тексты на белорусском языке вначале переводятся на русский, после этого на английский и только потом превращаются в текст на конечном языке. Это значительно снижает точность перевода и делает систему абсолютно непригодной для перевода ряда текстов.
Яндекс.Перевод
Яндекс.Перевод представляет собой сервис автоматического перевода слов, фраз, целых текстов, а так же веб-страниц. Как и Google Translate, Яндекс.Перевод использует статистический перевод. Яндекс.Перевод состоит из двух частей — модели перевода и модели языка. Модель перевода занимается построением графа, содержащего все возможные варианты перевода предложения. Модель языка выбирает лучший вариант перевода с точки зрения оптимальной сочетаемости слов в естественном языке. []
Хотя список доступных для перевода языков у Яндекс.Перевода значительно меньше, чем у Google Translate, перевод осуществляется напрямую, без использования промежуточных звеньев.
Анализ
В настоящий момент, наиболее распространены системы машинного перевода, основанные на статистическом анализе. Эти системы проще создать и поддерживать. Кроме того, для обучения этих систем доступно огромное количество данных: в их распоряжении параллельные корпуса текстов, книги, переведенные на разные языки, веб-сайты, имеющие возможность выбора языка и многие другие источники данных.
В противоположность им, системы, основанные на правилах трудоемки в разработке и поддержке. Например, у компании Abbyy на создание своей Abby Compreno ушло около 15 лет! [7]
Однако, системы, основанные на правилах, уже сейчас имеют куда более высокое качество перевода, чем системы, основанные на статистике. Кроме, того, они куда более перспективны. Следует понимать, что с увеличением числа данных для статистики, качество перевода систем, основанных на статистике, увеличивается нелинейно, и в определенный момент настанет ситуация, после которой увеличение числа данных уже не будет давать хоть сколько-нибудь заметного улучшения качества перевода. Именно поэтому, разработки систем на основе правил будут представлять больший интерес.
Но построение систем на основе правил — задача хоть и необходимая и перспективная, но невероятно трудоемкая. Над созданием правил трудятся десятки лингвистов в течение многих лет. Поэтому прекрасным вариантом будет построение гибридной системы машинного перевода, которая будет обладать следующими качествами:
- Открытость — благодаря ей становится возможно пополнение базы правил не только ограниченной группой лиц, но силами всего сообщества
- Гибридный принцип построения — сочетание статистических и естественно-языковых технологий позволит при меньшей базе правил добиться существенного повышения качества перевода
Возможность работы над системами, используя силы русского NLP-сообщества (научное сообщество, занимающееся проблемами компьютерной обработки естественного языка), успешно доказана проектами OpenCorpora [12] и NLPub [13].
Вывод
В статье рассмотрены виды систем машинного перевода, приведены примеры таких систем, произведено их сравнение и анализ. Наибольший интерес представляют системы, основанные на правилах и гибридные системы.
Будущим исследователям и разработчикам систем машинного перевода следует обратить внимание на создание открытых гибридных систем машинного перевода, которые бы развивались и дополнялись силами научного сообщества.
Литература:
1. СЛОВАРИ И СИСТЕМЫ МАШИННОГО ПЕРЕВОДА [Электронный ресурс]: IT LAND. — Режим доступа: http://www.itland.com.ua/products/sect.php?SECTION_ID=306 20.11.2013
2. Машинный перевод: исторический обзор и преимущества [Электронный ресурс]: Компания ПРОМТ. — Режим доступа: http://www.promt.ru/company/press/pdf/mt_istorich_obzor_preimushestva.pdf 20.11.2013
3. Появление машинного перевода. Викрам Денди [Электронный ресурс]: Журнал MSDN Magazine Январь 2009 — Режим доступа: http://msdn.microsoft.com/ru-ru/magazine/dd315410.aspx 20.11.2013
4. RULE BASED MACHINE TRANSLATION SYSTEM [Электронный ресурс]: Natural language processing — Режим доступа: http://language.worldofcomputing.net/machine-translation/rule-based-machine-translation.html 21.11.2013
5. Статистический машинный перевод [Электронный ресурс]: Википедия. Свободная энциклопедия — Режим доступа: http://ru.wikipedia.org/wiki/ %D0 %93 %D0 %B8 %D0 %B1 %D1 %80 %D0 %B8 %D0 %B4 %D0 %BD %D1 %8B %D0 %B9_ %D0 %BC %D0 %B0 %D1 %88 %D0 %B8 %D0 %BD %D0 %BD %D1 %8B %D0 %B9_ %D0 %BF %D0 %B5 %D1 %80 %D0 %B5 %D0 %B2 %D0 %BE %D0 %B4 21.11.2013
6. Гибридный машинный перевод [Электронный ресурс]: Искусственный интеллект. Системы и модели. — Режим доступа: http://www.rriai.org.ru/statisticheskiy-mashinnyiy-perevod.html 21.11.2013
7. Научные разработки в бизнесе [Электронный ресурс]: ABBYY — Режим доступа http://www.abbyy.ru/science/technologies/business/compreno/ 22.11.2013
8. Перевод [Электронный ресурс]: Google — Режим доступа http://translate.google.ru 22.11.2013
9. Яндекс.Перевод [Электронный ресурс]: Yandex — Режим доступа http://translate.yandex.ru 22.11.2013
10. Яндекс.Перевод Справка [Электронный ресурс]: Yandex — Режим доступа http://translate.yandex.ru/help 22.11.2013
11. Машинный перевод [Электронный ресурс]: Yandex — Режим доступа http://company.yandex.ru/technologies/translation 22.11.2013
12. Проект «Открытый корпус» [Электронный ресурс]: OpenCorpora: открытый корпус русского языка– Режим доступа http://opencorpora.org
13. NLPub — каталог лингвистических ресурсов для обработки русского языка. [Электронный ресурс]: NLPub — Режим доступа http:// nlpub.ru 22.11.2013