В статье дано определение каталога лингвистических ресурсов, описан структурный состав и качественные характеристики. Проведён сравнительный обзор существующих каталогов. Сформулированы гипотезы о перспективах развития каталогов лингвистических ресурсов как тематических сообществ. Введение
Такие информационные ресурсы, как словари и тезаурусы, корпусы текстов и банки данных, имеют огромную ценность в области обработки естественного языка. Это обусловлено спецификой фундаментальных и прикладных задач компьютерной лингвистики, нередко решаемых при помощи разнообразных статистических методов.
Часто задачи обработки текста сводятся к задачам машинного обучения: формируется вектор признаков, генерируется обучающая выборка, по выборке обучается классификатор, а полученный классификатор уже используется в составе какого-либо программного обеспечения.
Эффективность таких методов достаточно высока, что подчёркивается фразой Фредерика Йелинека [1], известного учёного в области теории вычислительных систем: «Каждый раз, когда лингвист покидает коллектив, качество распознавания речи возрастает»1.
Несмотря на ценность и очевидную как научную, так и коммерческую значимость исследований и разработок в области обработки естественного языка, сегодня наблюдаются следующие проблемы:
отсутствие доступного качественного инструментария2 и вспомогательных утилит для обработки текста, для распознавания речи, и т. д.;
нехватка доступных информационных ресурсов: машиночитаемых словарей, тезаурусов, размеченных корпусов текстов, банков данных;
дефицит экспертов, а также тематических мероприятий и образовательных программ в регионах.
Данные проблемы делают особенно актуальной задачу сбора, систематизации и распространения сведений о доступных средствах и ресурсах для обработки русского языка. Каталог лингвистических ресурсов
Под каталогом лингвистических ресурсов понимается систематизированная совокупность электронных материалов, направленная на удовлетворение информационных потребностей пользователей, исследователей и разработчиков в области компьютерной лингвистики. Структурный состав
Каталог лингвистических ресурсов не имеет строгие требований к тематике материалов, однако возможно условно выделить следующие категории:
программное обеспечение («ПО») — инструментарий для обработки естественного языка;
ресурсы («Р») — словари, тезаурусы, корпусы текстов, банки данных, и т. д.;
методы («М») — модели, способы, алгоритмы, подходы к решению фундаментальных и прикладных задач компьютерной лингвистики;
мероприятия («МП») — тематические конференции, семинары, гранты, стипендии;
образование («О») — высшие образовательные учреждения, стажировки;
персоналии («П») — эксперты в области обработки естественного языка: представители предприятий и учреждений, учёные, прочие исследователи;
организации («ОР») — предприятия и учреждения, деятельность которых связана с обработкой естественного языка;
ссылки («С») — перечни ссылок на тематические ресурсы и сообщества.
Может оказаться, что некоторые категории оказываются заполнены значительно больше, чем другие. В таком случае целесообразно добавить дополнительную классификацию по направлениям внутри области обработки естественного языка: автоматическая обработка текста, распознавание и синтез речи, информационный поиск, и т. д. Качественные характеристики
Данные характеристики необходимо сформулировать с точки зрения всех категорий пользователей каталогов лингвистических ресурсов:
представители коммерческих компаний и бюджетных учреждений, желающие улучшить потребительские характеристики своих продуктов или услуг при помощи лингвистических технологий: каталог поможет снизить затраты на НИОКР благодаря детальному перечню доступных технологических решений, их особенностей и производителей;
исследователи, стремящиеся опубликовать свои разработки и имеющие необходимость сравнить полученные научные результаты с достижениями других исследователей и коллективов: каталог поможет оперативнее определить вектор развития науки и техники в данной области;
разработчики программного обеспечения: опубликованные в каталоге сведения о специфике разработки и функционирования инструментов обработки естественного языка позволят избежать лишних ошибок при проектировании и технической реализации собственного программного обеспечения;
студенты и аспиранты, интересующимся информационными технологиями: каталог позволит быстрее разобраться в специфике обработки естественного языка, получить хорошие результаты выполнения курсовых и дипломных работ, а также продолжить работу в данной области.
Таким образом, можно выделить пять качественных характеристик, позволяющих оценить и сравнить существующие каталоги:
системность («С») — структурное представление электронных материалов в унифицированной форме;
доступность («Д») — каталог бесплатно доступен любому пользователю Интернета на условиях какой-либо свободной лицензии;
открытость («О») — возможность любого человека самостоятельно внести изменения в содержимое ресурса и участвовать в организационных процессах каталога;
коммуникативность («К») — наличие сетевого сообщества: группы компетентных людей, связанных общей целью развития и популяризации каталога;
актуальность («А») — состояние активности обновления каталога на текущий момент времени.
При составлении обзора рассматривались популярные российские каталоги лингвистических ресурсов, найденные при помощи поисковых машинах «Яндекс» и Google. «Портал знаний по компьютерной лингвистике»
Портал знаний по компьютерной лингвистике призван обеспечить систематизацию и интеграцию знаний и информационных ресурсов по компьютерной лингвистике в единое информационное пространство, а также содержательный доступ к интегрированным знаниям и ресурсам [2].
На портале представлены знания об основных разделах компьютерной лингвистики, о ее предмете и объектах исследования, используемых в ней моделях и методах, разработанных в рамках компьютерной лингвистики технологиях, системах, программных продуктах и лингвистических ресурсах (словарях, корпусах и лингвистических баз данных), а также информация об ученых, сообществах, организациях, включенных в процесс исследования по компьютерной лингвистики и о выполняемых проектах в этой области.
Все изменения в содержимом портала осуществляются администрацией под руководством представителей Сибирского отделения РАН. «Речевые технологии»
Портал «Речевые технологии» посвящён вопросам исследований в области распознавания и синтеза речи, разработки средств речевого управления и голосовой идентификации [3].
На портале имеется каталог программного обеспечения и банков данных для пользователя и разработчика инструментов работы с речью, тематический форум, а также лента новостей. Сведения об информационных ресурсах добавляются и корректируются администрацией портала. «Лингвистика в России: ресурсы для исследователей»
Научно-образовательный портал «Лингвистика в России. Ресурсы для исследователей» создан в феврале 2006 года по инициативе Научно-исследовательского Вычислительного Центра МГУ им. Ломоносова и ГОУ ВПО «Казанский государственный университет им. В. И. Ульянова-Ленина» [4].
Задачей портала «Лингвистика в России» является создание инфраструктуры для поддержки сообществ исследователей и преподавателей для информирования и открытого обсуждения научных и образовательных задач российской лингвистики, интеграция лингвистического сообщества РФ.
На портале собран каталог ссылок на различные российские проекты в области компьютерной лингвистики. Развитие каталога осуществляется администрацией портала под руководством представителей КГУ им В. И. Ульянова-Ленина. «Каталог лингвистических программ и ресурсов в Cети»
Данный каталог включает в себя описание программ, связанных с анализом текстов и вычислительной лингвистикой, а также соответствующих ресурсов, доступных сегодня в глобальной сети Интернет [5].
Упор при составлении каталога делался на бесплатные программы, доступные для загрузки. Однако также описаны некоторые on-line и коммерческие версии программ. Тематически каталог разбит на следующие разделы: программы анализа и лингвистической обработки текстов; программы преобразования текстов; психолингвистические программы; генераторы текстов и "говорящие" программы; системы обработки естественного языка; коллекции ресурсов; словари и тезаурусы. «mathlingvo»
mathlingvo — проект кафедры информационных систем в искусстве и гуманитарных науках СПбГУ, посвящённый математической и компьютерной лингвистике в России [6].
Представляет собой коллективный блог под руководством представителей кафедры, в котором уделено внимание перечням тематических конференций, периодических изданий, вакансиям. Также является представительством различных общественных инициатив, таких как OpenCorpora [7]. «NLPub»
NLPub — каталог лингвистических ресурсов, организованный в виде Вики-проекта, доступного для редактирования любому желающему [8]. Содержит пять категорий — инструменты (обработка текста, распознавание речи, утилиты), ресурсы (словари, тезаурусы, корпусы текстов, банки данных), а также сведения о тематических мероприятиях и доступных образовательных программах. Сравнение каталогов
Сравнение каталогов будет проводиться путём изучения их содержимого на предмет наличия в них характеристик, описанных выше. Внимание уделяется двум аспектам: структурному составу и качественным характеристикам.
В табл. 1 представлено сравнение каталогов лингвистических ресурсов по структурному составу, в табл. 2 приведены результаты сравнения каталогов лингвистических ресурсов на основании приведённых выше качественных характеристик.
Таблица 1
Сравнение каталогов лингвистических ресурсов по структурному составу
№ |
Название каталога |
ПО |
Р |
М |
МП |
О |
П |
ОР |
С |
Σ |
1 |
Портал знаний по компьютерной лингвистике |
1 |
1 |
1 |
0 |
0 |
1 |
1 |
1 |
6 |
2 |
Речевые технологии |
1 |
1 |
0 |
0 |
0 |
0 |
0 |
1 |
3 |
3 |
Лингвистика в России: ресурсы для исследователей |
0 |
0 |
1 |
1 |
1 |
1 |
0 |
1 |
5 |
4 |
Каталог лингвистических ресурсов и программ в Сети |
1 |
1 |
0 |
0 |
0 |
0 |
0 |
1 |
3 |
5 |
mathlingvo |
0 |
0 |
0 |
1 |
1 |
1 |
0 |
1 |
4 |
6 |
NLPub |
1 |
1 |
1 |
1 |
1 |
0 |
0 |
0 |
5 |
Таблица 2
Сравнение каталогов лингвистических ресурсов по качественным характеристикам
№ |
Название каталога |
С |
Д |
О |
К |
А |
Σ |
1 |
Портал знаний по компьютерной лингвистике |
1 |
1 |
0 |
0 |
1 |
3 |
2 |
Речевые технологии |
0 |
1 |
0 |
1 |
1 |
3 |
3 |
Лингвистика в России: ресурсы для исследователей |
0 |
1 |
0 |
0 |
1 |
2 |
4 |
Каталог лингвистических ресурсов и программ в Сети |
0 |
1 |
0 |
0 |
0 |
1 |
5 |
mathlingvo |
0 |
1 |
1 |
1 |
1 |
4 |
6 |
NLPub |
1 |
1 |
1 |
1 |
1 |
5 |
Наиболее полным и систематизированным источником является каталог «Портал знаний по компьютерной лингвистике» [2], который ориентирован на предметных специалистов и труден для восприятия людям без соответствующей квалификации. Также этот каталог не уделяет внимания образовательным программам и мероприятиям, что сужает область его применения. Отсутствие сообщества вокруг данного каталога делает затруднительным использование опубликованных знаний со стороны неспециалистов.
Портал «Речевые технологии» [3] является более любительским сообществом, посвящённым синтезу и анализу речи. Сообщество больше сосредоточено на общении, поэтому особого внимания каталогу не уделяется.
Каталог «Лингвистика в России: ресурсы для исследователей» [4] не заостряет своё внимание на обработке естественного языка, делая акцент на лингвистику в целом. Этим обусловлено отсутствие акцента на программное обеспечение и банки данных при достаточном количество ссылок на тематические ресурсы.
Сайт «Каталог лингвистических ресурсов и программ в Сети» [5] является слабоструктурированным каталогом ссылок, поддержка которого прекратилась автором в 2002 г., однако представленные материалы имеют ценность до сих пор.
Коллективный блог «mathlingvo» [6] является хорошим новостным ресурсом, куда любой желающий может прислать материал о мероприятии, образовательной программе, однако не уделяет внимания перечням программного обеспечения и информационных ресурсов (за исключением проекта OpenCorpora).
Вики-проект «NLPub» [8] направлен на коллективное пополнение каталога лингвистических ресурсов силами тематического сообщества. Нехватка данных может быть ликвидирована при возникновении социального заказа, учтённого критической массой активных участников сообщества. Заключение
В работе предложено определение каталога лингвистических ресурсов с обоснованием структурного состава и качественных характеристик каталогов. Проведён сравнительный обзор существующих информационных источников.
Сравнительный обзор каталогов лингвистических ресурсов по структурному составу и качественным характеристикам показал актуальность организации сетевых сообществ вокруг данных информационных источников.
При наличии технических и организационных возможностей, развитое тематическое сообщество способно самостоятельно закрывать нехватку каких-либо сведений в каталоге, тем самым решая две важные задачи: популяризацию области обработки естественного языка среди неспециалистов и предоставление ценных уникальных данных для предметных специалистов. Литература:
D. Jurafsky, J. H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. Prentice-Hall, 2000.
Портал знаний по компьютерной лингвистике [Электронный ресурс]: Портал знаний по компьютерной лингвистике. — Режим доступа: http://uniserv.iis.nsk.su/cl/ (дата обращения: 27.11.2012)
Речевые технологии информационный портал - распознавание речи, синтез речи [Электронный ресурс]: Речевые технологии. — Режим доступа: http://speech-soft.ru/ (дата обращения: 25.11.2012)
Компьютерная лингвистика [Электронный ресурс]: Научно-образовательный портал «Лингвистика в России: ресурсы для исследователей». — Режим доступа: http://uisrussia.msu.ru/linguist/_B_comput_ling.jsp (дата обращения: 26.11.2012)
Каталог лингвистических программ и ресурсов в Cети [Электронный ресурс]: РВБ. — Режим доступа: http://www.rvb.ru/soft/catalogue/catalogue.html (дата обращения: 26.11.2012)
Математическая и компьютерная лингвистика [Электронный ресурс]: mathlingvo. — Режим доступа: http://mathlingvo.ru/ (дата обращения: 28.11.2012)
OpenCorpora: открытый корпус русского языка [Электронный ресурс]: OpenCorpora. — Режим доступа: http://opencorpora.org/ (дата обращения: 28.11.2012)
NLPub — Заглавная страница [Электронный ресурс]: NLPub. — Режим доступа: http://nlpub.ru/ (дата обращения: 21.11.2012)
1 “Anytime a linguist leaves the group the recognition rate goes up.”
2 Речь идёт о программном обеспечении для обработки русского языка по сравнению с программным обеспечением для обработки западноевропейских языков.