Обзор систем машинного перевода | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 28 декабря, печатный экземпляр отправим 1 января.

Опубликовать статью в журнале

Авторы: , ,

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №12 (59) декабрь 2013 г.

Дата публикации: 05.12.2013

Статья просмотрена: 12868 раз

Библиографическое описание:

Андреева, А. Д. Обзор систем машинного перевода / А. Д. Андреева, И. Л. Меньшиков, А. А. Мокрушин. — Текст : непосредственный // Молодой ученый. — 2013. — № 12 (59). — С. 64-66. — URL: https://moluch.ru/archive/59/8581/ (дата обращения: 18.12.2024).

В данной статье рассмотрены основные виды систем машинного перевода. Рассмотрены основные системы машинного перевода, произведено их сравнение и анализ. Сделаны предположения о возможных путях развития подобных систем.

Ключевые слова: машинный перевод, обработка естественного языка, компьютерная лингвистика.

Введение

Машинный перевод представляет собой процесс связанного перевода текстов компьютерной программой с одного естественного языка на другой. [1]

Различают следующие основные цели использования машинного перевода [2, 3]:

-          Быстрое ознакомление с интересующей информацией — машинный перевод позволяет получить в общих чертах информацию о содержании статьи, книги, научной работы и т. д.;

-          Возможность коммуникаций — машинный перевод дает возможность написать любому человеку из любой точки Земли;

-          Автоматическая локализация — позволяет быстрорастущим компаниям увеличивать рынок сбыта;

-          Упрощение работы переводчика — используя машинный перевод, переводчик может значительно ускорить перевод текста;

В данной статье будут рассмотрены виды машинного перевода, самые популярные системы, работающие с русским языком, разобран принцип их работы, описаны основные достоинства и недостатки. Так же будут сделаны предположения о путях развития машинного перевода.

Виды машинного перевода

В настоящее время различают три вида систем машинного перевода [4, 5, 6]:

-          Системы на основе грамматических правил (Rule-Based Machine Translation, RBMT);

-          Статистические системы (Statistical Machine Translation, SMT);

-          Гибридные системы;

Системы на основе грамматических правил производят анализ текста, который используется в процессе перевода. Перевод производится на основе встроенных словарей для данной языковой пары, а так же грамматик, охватывающих семантические, морфологические, синтаксические закономерности обоих языков. На основе всех этих данных исходный текст последовательно, предложение за предложением, преобразуется в текст на требуемом языке. Основной принцип работы таких систем — связь структур исходного и конечного текстов.

Системы на основе грамматических правил часто разделяют еще на три подгруппы — системы пословного перевода, трансфертные системы и интерлингвистические системы.

Преимуществами систем на основе грамматических правил являются грамматическая и синтаксическая точность, стабильность результата, возможность настройки на специфическую предметную область. К недостаткам систем на основе грамматических правил относят необходимость создания, поддержки и обновления лингвистических баз данных, трудоемкость создания такой системы, а так же ее высокая стоимость.

Статистические системы при своей работе используют статистический анализ. В систему загружается двуязычный корпус текстов (содержащий большое количество текста на исходном языке и его «ручной» перевод на требуемый язык), после чего система анализирует статистику межъязыковых соответствий, синтаксических конструкций и т. д. Система является самообучаемой — при выборе варианта перевода она опирается на полученную ранее статистику. Чем больший словарь внутри языковой пары и чем точнее он составлен, тем лучше результат статистического машинного перевода. С каждым новым переведенным текстом улучшается качество последующих переводов.

Статистические системы отличаются быстротой настройки и легкостью добавления новых направлений перевода. Среди недостатков наиболее значительными являются наличие многочисленных грамматических ошибок и нестабильность перевода.

Гибридные системы сочетают в себе подходы, описанные ранее. Ожидается, что гибридные системы машинного перевода позволят объединить все преимущества, которыми обладают статистические системы и системы, основанные на правилах.

Крупнейшие системы машинного перевода, работающие с русским языком

В этой части будут рассмотрены три крупнейшие системы машинного перевода, работающие с русским языком — Abbyy Compreno [7], Google Translate [8] и Яндекс.Перевод [9, 10, 11]. Каждая из этих систем продолжает активно развиваться, совершенствуясь и увеличивая качество перевода.

AbbyyCompreno

Abbyy Compreno — технология, разработанная российской компанией «Abbyy», а также одноименная система, созданная ей же.

Для перевода система строит полное синтаксическое дерево исходного текста. Для его построения она использует отдельно заданные правила для каждого языка. Причем Compreno способна правильно обрабатывать анафоры, эллипсис и другие трудно поддающиеся обработке языковые конструкции. При переводе учитываются связи между словами в этом дереве, возможное положение этих слов в USH (Universal Sematic Hierarchy — иерархии универсальных семантических значений и отношений между ними) а также статистика взаимоотношений между словами.

Основным недостатком данной системы является её закрытость, отсутствие данных о полномасштабных тестированиях данной системы, что делает невозможным оценку качества производимого ей машинного перевода.

Google Translate

Google Translate — система, в настоящий момент разрабатываемая компанией Google. Первоначально разрабатывалась Franz Josef Och. Построена на статистическом методе перевода. Для обучения системы первоначально использовались параллельные корпуса текстов ООН, представленные на шести официальных языках ООН.

Данная система не осуществляет прямой перевод для языковых пар, в которые не входит английский язык. То есть, при переводе, например, с русского языка на французский, сначала будет осуществлен перевод с русского на английский язык, а после этого — с английского на французский.

Более того, для некоторых языков таких шагов больше. Например, тексты на белорусском языке вначале переводятся на русский, после этого на английский и только потом превращаются в текст на конечном языке. Это значительно снижает точность перевода и делает систему абсолютно непригодной для перевода ряда текстов.

Яндекс.Перевод

Яндекс.Перевод представляет собой сервис автоматического перевода слов, фраз, целых текстов, а так же веб-страниц. Как и Google Translate, Яндекс.Перевод использует статистический перевод. Яндекс.Перевод состоит из двух частей — модели перевода и модели языка. Модель перевода занимается построением графа, содержащего все возможные варианты перевода предложения. Модель языка выбирает лучший вариант перевода с точки зрения оптимальной сочетаемости слов в естественном языке. []

Хотя список доступных для перевода языков у Яндекс.Перевода значительно меньше, чем у Google Translate, перевод осуществляется напрямую, без использования промежуточных звеньев.

Анализ

В настоящий момент, наиболее распространены системы машинного перевода, основанные на статистическом анализе. Эти системы проще создать и поддерживать. Кроме того, для обучения этих систем доступно огромное количество данных: в их распоряжении параллельные корпуса текстов, книги, переведенные на разные языки, веб-сайты, имеющие возможность выбора языка и многие другие источники данных.

В противоположность им, системы, основанные на правилах трудоемки в разработке и поддержке. Например, у компании Abbyy на создание своей Abby Compreno ушло около 15 лет! [7]

Однако, системы, основанные на правилах, уже сейчас имеют куда более высокое качество перевода, чем системы, основанные на статистике. Кроме, того, они куда более перспективны. Следует понимать, что с увеличением числа данных для статистики, качество перевода систем, основанных на статистике, увеличивается нелинейно, и в определенный момент настанет ситуация, после которой увеличение числа данных уже не будет давать хоть сколько-нибудь заметного улучшения качества перевода. Именно поэтому, разработки систем на основе правил будут представлять больший интерес.

Но построение систем на основе правил — задача хоть и необходимая и перспективная, но невероятно трудоемкая. Над созданием правил трудятся десятки лингвистов в течение многих лет. Поэтому прекрасным вариантом будет построение гибридной системы машинного перевода, которая будет обладать следующими качествами:

-          Открытость — благодаря ей становится возможно пополнение базы правил не только ограниченной группой лиц, но силами всего сообщества

-          Гибридный принцип построения — сочетание статистических и естественно-языковых технологий позволит при меньшей базе правил добиться существенного повышения качества перевода

Возможность работы над системами, используя силы русского NLP-сообщества (научное сообщество, занимающееся проблемами компьютерной обработки естественного языка), успешно доказана проектами OpenCorpora [12] и NLPub [13].

Вывод

В статье рассмотрены виды систем машинного перевода, приведены примеры таких систем, произведено их сравнение и анализ. Наибольший интерес представляют системы, основанные на правилах и гибридные системы.

Будущим исследователям и разработчикам систем машинного перевода следует обратить внимание на создание открытых гибридных систем машинного перевода, которые бы развивались и дополнялись силами научного сообщества.

Литература:

1.                  СЛОВАРИ И СИСТЕМЫ МАШИННОГО ПЕРЕВОДА [Электронный ресурс]: IT LAND. — Режим доступа: http://www.itland.com.ua/products/sect.php?SECTION_ID=306 20.11.2013

2.                  Машинный перевод: исторический обзор и преимущества [Электронный ресурс]: Компания ПРОМТ. — Режим доступа: http://www.promt.ru/company/press/pdf/mt_istorich_obzor_preimushestva.pdf 20.11.2013

3.                  Появление машинного перевода. Викрам Денди [Электронный ресурс]: Журнал MSDN Magazine Январь 2009 — Режим доступа: http://msdn.microsoft.com/ru-ru/magazine/dd315410.aspx 20.11.2013

4.                  RULE BASED MACHINE TRANSLATION SYSTEM [Электронный ресурс]: Natural language processing — Режим доступа: http://language.worldofcomputing.net/machine-translation/rule-based-machine-translation.html 21.11.2013

5.                  Статистический машинный перевод [Электронный ресурс]: Википедия. Свободная энциклопедия — Режим доступа: http://ru.wikipedia.org/wiki/ %D0 %93 %D0 %B8 %D0 %B1 %D1 %80 %D0 %B8 %D0 %B4 %D0 %BD %D1 %8B %D0 %B9_ %D0 %BC %D0 %B0 %D1 %88 %D0 %B8 %D0 %BD %D0 %BD %D1 %8B %D0 %B9_ %D0 %BF %D0 %B5 %D1 %80 %D0 %B5 %D0 %B2 %D0 %BE %D0 %B4 21.11.2013

6.                  Гибридный машинный перевод [Электронный ресурс]: Искусственный интеллект. Системы и модели. — Режим доступа: http://www.rriai.org.ru/statisticheskiy-mashinnyiy-perevod.html 21.11.2013

7.                  Научные разработки в бизнесе [Электронный ресурс]: ABBYY — Режим доступа http://www.abbyy.ru/science/technologies/business/compreno/ 22.11.2013

8.                  Перевод [Электронный ресурс]: Google — Режим доступа http://translate.google.ru 22.11.2013

9.                  Яндекс.Перевод [Электронный ресурс]: Yandex — Режим доступа http://translate.yandex.ru 22.11.2013

10.              Яндекс.Перевод Справка [Электронный ресурс]: Yandex — Режим доступа http://translate.yandex.ru/help 22.11.2013

11.              Машинный перевод [Электронный ресурс]: Yandex — Режим доступа http://company.yandex.ru/technologies/translation 22.11.2013

12.              Проект «Открытый корпус» [Электронный ресурс]: OpenCorpora: открытый корпус русского языка– Режим доступа http://opencorpora.org

13.              NLPub — каталог лингвистических ресурсов для обработки русского языка. [Электронный ресурс]: NLPub — Режим доступа http:// nlpub.ru 22.11.2013

Основные термины (генерируются автоматически): машинный перевод, система, естественный язык, перевод, правило, русский язык, английский язык, исходный текст, научное сообщество, статистический анализ.


Похожие статьи

Машинный перевод: история, классификация, методы

В данной работе описываются основные достижения за историю существования машинного перевода. Статья раскрывает суть работы двух современных систем машинного перевода, использующихся на практике — система статистического перевода и перевода, основанно...

Особенности дистанционного обучения

В статье приведены основные направления развития системы образования в контексте ее дальнейшей информатизации. Рассмотрены задачи системы открытого образования и современные технологии дистанционного обучения. Перечислены свойства учебных материалов,...

К вопросу об эволюционных проблемах языков программирования

В данной статье рассматриваются ключевые исторические этапы развития подходов к программированию, а также делается предположение о будущем пути их развития. Приведены проблемы, под влиянием которых языки изменялись на каждой эволюционной стадии, и тр...

Этапы процесса обучения чтению и виды чтения на иностранном языке

Данная статья посвящена рассмотрению понятия чтения и его этапов в процессе обучения иностранному языку. Рассмотрена и дана краткая характеристика основным видам чтения.

Алгоритмы преобразования Фурье и их применение при анализе звуковой информации

В этой статье представлен вашему вниманию обзор алгоритмов преобразования Фурье и их применение при анализе звуковой информации. В статье представлены несколько конкретных реализаций преобразования Фурье, их анализ, а также накладываемые ограничения....

Основы разработки баз данных реального времени

В статье кратко представлены основы разработки баз данных реального времени при создании автоматизированных систем реального времени. Такие базы данных могут быть полезны в области банковского дела, медицины, автоматизации сложных технологических про...

Исследование методов сентимент-анализа русскоязычных текстов

В статье рассматриваются методы анализа тональности текста (сентимент анализа), необходимые для автоматического определения отношения автора к упомянутой теме. Сентимент анализ — область компьютерной лингвистики, является одной из проблем обработки е...

Моделирование технических систем в среде Unity 3D

В статье предложена концепция трёхмерного моделирования технических систем и процессов с помощью программных средств разработки компьютерных игр, одним из которых является среда Unity 3D. Применение указной концепции открывает широкие возможности по ...

Обзор аппаратных генераторов случайных чисел

Данная статья посвящена исследованию основных способов построения аппаратных генераторов случайных чисел. Рассмотрены их схемы и отличительные способности. В заключении статьи приведен краткий вывод.

Метод проектов в подготовке будущих учителей математики

В статье рассматривается вопрос по реализацию метода проектов по математическим и методическим дисциплинам, приводится пример серий проектов, реализуемых в курсе математического анализа и методики преподавания математики. А также описание некоторых к...

Похожие статьи

Машинный перевод: история, классификация, методы

В данной работе описываются основные достижения за историю существования машинного перевода. Статья раскрывает суть работы двух современных систем машинного перевода, использующихся на практике — система статистического перевода и перевода, основанно...

Особенности дистанционного обучения

В статье приведены основные направления развития системы образования в контексте ее дальнейшей информатизации. Рассмотрены задачи системы открытого образования и современные технологии дистанционного обучения. Перечислены свойства учебных материалов,...

К вопросу об эволюционных проблемах языков программирования

В данной статье рассматриваются ключевые исторические этапы развития подходов к программированию, а также делается предположение о будущем пути их развития. Приведены проблемы, под влиянием которых языки изменялись на каждой эволюционной стадии, и тр...

Этапы процесса обучения чтению и виды чтения на иностранном языке

Данная статья посвящена рассмотрению понятия чтения и его этапов в процессе обучения иностранному языку. Рассмотрена и дана краткая характеристика основным видам чтения.

Алгоритмы преобразования Фурье и их применение при анализе звуковой информации

В этой статье представлен вашему вниманию обзор алгоритмов преобразования Фурье и их применение при анализе звуковой информации. В статье представлены несколько конкретных реализаций преобразования Фурье, их анализ, а также накладываемые ограничения....

Основы разработки баз данных реального времени

В статье кратко представлены основы разработки баз данных реального времени при создании автоматизированных систем реального времени. Такие базы данных могут быть полезны в области банковского дела, медицины, автоматизации сложных технологических про...

Исследование методов сентимент-анализа русскоязычных текстов

В статье рассматриваются методы анализа тональности текста (сентимент анализа), необходимые для автоматического определения отношения автора к упомянутой теме. Сентимент анализ — область компьютерной лингвистики, является одной из проблем обработки е...

Моделирование технических систем в среде Unity 3D

В статье предложена концепция трёхмерного моделирования технических систем и процессов с помощью программных средств разработки компьютерных игр, одним из которых является среда Unity 3D. Применение указной концепции открывает широкие возможности по ...

Обзор аппаратных генераторов случайных чисел

Данная статья посвящена исследованию основных способов построения аппаратных генераторов случайных чисел. Рассмотрены их схемы и отличительные способности. В заключении статьи приведен краткий вывод.

Метод проектов в подготовке будущих учителей математики

В статье рассматривается вопрос по реализацию метода проектов по математическим и методическим дисциплинам, приводится пример серий проектов, реализуемых в курсе математического анализа и методики преподавания математики. А также описание некоторых к...

Задать вопрос