Возможность распознавания белорусского языка различных исторических периодов по фрагменту текста
Автор: Кувыкова Дарья Сергеевна
Рубрика: Вопросы переводоведения
Опубликовано в Филология и лингвистика №2 (4) июль 2016 г.
Дата публикации: 25.06.2016
Статья просмотрена: 275 раз
Библиографическое описание:
Кувыкова, Д. С. Возможность распознавания белорусского языка различных исторических периодов по фрагменту текста / Д. С. Кувыкова. — Текст : непосредственный // Филология и лингвистика. — 2016. — № 2 (4). — С. 47-49. — URL: https://moluch.ru/th/6/archive/33/1104/ (дата обращения: 18.12.2024).
Возможность определения языка по фрагменту текста не является сложной проблемой для современной науки, так как в течение многих лет лингвистами были выявлены некоторые символы в алфавитах разных языков, отличающие один язык от другого. Но, если языки, которые надо отличить, являются близкородственными и используют одну письменность, эта задача становится сложнее. Лингвистам приходится искать не только символы, отличающие алфавиты этих языков, но и различные сочетания букв, которые позволили бы определить язык, в случае не употребления «эксклюзивных» символов алфавита в данном фрагменте текста. Есть и другие проблемы, отягощающие определение языка. Например, использование языком в разные периоды истории разные письменности. Таким является белорусский язык, который в разные периоды своего развития использовал 3 вида письменности: кириллическую, латинскую (лацінка) и арабскую (арабіца). Арабским письмом написаны знаменитые белорусские Китабы (от арабского كتاب — книга). Эти рукописи датируются 14–19 веками.
Обратимся к истории белорусского языка и обнаружим, что в отдельный период истории белорусский язык использовал латинскую письменность.
Белорусский латинский алфавит, также известный как лацiнка — письменностьбелорусского языканаоснове латиницы. Используется с XVII века. Первоначально был построен по моделипольской письменности. Латиницей были написаны некоторые произведениябелорусской литературыXIX века, на ней издавалась первая газета на белорусском языке «Мужыцкая праўда» (1862–1863годы); параллельно с кириллицей на ней выходила«Наша ніва» (1906–1915). Существовало несколько вариантов этой письменности. В настоящее время «лацiнка», имеет распространение среди белорусской диаспоры, особенно вСШАиКанаде, и в политической среде. Крометого,известныслучаиупотребления«лацiнки»науличныхуказателяхв Беларусисовременными производителяминасвоейпродукции(например,надписьна«лацiнке», сделаннуюв стекле,можнонайтинабутылкахбелорусскогоалкогольногонапиткаКрамбамбуля).В2012 годунадписина«лацiнке»появилисьв Минскомметрополитене.
Отличия лицінки от кириллицы. Неслоговое«у»первоначальнообозначалось,каки полнаягласная,буквойu(иногдаееособоепроизношениевыражалосьдругимшрифтом). Позже эта буква стала обозначаться как «u c гачеком»В1920-егоды«лацинка»подвергласьсущественнойпереработке:вместо польскихобозначенийcz,sz,żдляшипящих[ч], [ш],
[ж]быливведеныбуквыč,š,žсгачекомчешско-хорватскогообразца.Чутьпозжевместоw сталиписатьv.Однакосохраниласьпольская букваł(дляобозначениятвёрдого[л]),а такжебуквыć,ś,źи ń,которыетакжеиспользуютсяи впольскомалфавите.
Современнаябелорусскаялатиницапредставляетсобойтрадиционныйлатинскийалфавитс добавлениембуквč,š,ž,ć,ś,ź,ń,ŭ,ł.
А теперь узнаем частоту употребления букв белорусской лацiнки. Данные получены в результате анализа отрывков статей газеты «Наша Нива», а также с сайта http://www.lacinka.com.
Частота употребления букв “беларускай лацінкі”
Буква |
Частота употребления |
A |
0.082 |
B |
0.0101 |
C |
0.0182 |
Ć |
0.0157 |
Č |
0.0076 |
D |
0.0149 |
Dz |
0.0023 |
D ź |
0.00001 |
E |
0.03 |
F |
0.0034 |
G |
0.002 |
H |
0.01 |
Ch |
0.003 |
I |
0.0584 |
J |
0.022 |
K |
0.023 |
L |
0.0137 |
Ł |
0.0071 |
M |
0.0187 |
N |
0.0384 |
Ń |
0.0034 |
O |
0.0208 |
P |
0.022 |
R |
0.028 |
S |
0.0181 |
Š |
0.0066 |
T |
0.0216 |
U |
0.0187 |
Ŭ |
0.0109 |
V |
0.0103 |
Y |
0.0235 |
Z |
0.012 |
Ž |
0.0032 |
Ź |
0.0037 |
Теперь вычислим частоту употребления букв схожего с белорусским польского языка.
Буква |
Частота употребления |
А |
0.0521 |
Ą |
0.0056 |
В |
0.0064 |
С |
0.0236 |
Ć |
0.0009 |
D |
0.0183 |
E |
0.0462 |
Ę |
0.0053 |
F |
0.0017 |
G |
0.0077 |
H |
0.0059 |
I |
0.048 |
J |
0.0146 |
K |
0.0215 |
L |
0.0157 |
Ł |
0.0011 |
M |
0.0138 |
N |
0.0343 |
Ń |
0.002 |
O |
0.052 |
Ó |
0.049 |
P |
0.025 |
R |
0.0322 |
S |
0.0302 |
Ś |
0.0032 |
T |
0.0247 |
U |
0.014 |
W |
0.0323 |
Y |
0.0224 |
Z |
0.0331 |
Ź |
0.002 |
Ż |
0.0004 |
Статистические данные по буквосочетаниям (лацінка)
Далее представлен сравнительный анализ частоты употребления характерных для белорусского и польского языков буквосочетаний, и на его основе постараемся определить возможность различения белорусской латиницы от польского языка во времена начала использования латиницы белорусами, так как в то время алфавиты этих языков абсолютно совпадали.
Буквосочетание |
В белорусском языке |
В польском языке |
Ce |
0.00013 |
0.00645 |
Cy |
0.00265 |
0.00367 |
Ca |
0.00209 |
0.00205 |
Co |
0.00015 |
0.00243 |
Zz |
0.00023 |
0.00138 |
Cc |
0.00187 |
0.00012 |
Ch |
0.00045 |
0.00476 |
Dz |
0.00423 |
0.00397 |
Rz |
0.00007 |
0.00467 |
Cz |
0.00003 |
0.00359 |
Sz |
0.00005 |
0.00158 |
Судя по статистическим данным частоты употребления букв и буквосочетаний можно различить белорусский язык, записанной латиницей, от польского языка, алфавиты которых полностью совпадают. Статистические данные выявляют характерные буквы и буквосочетания для одного или другого языка.
Мало кто может представить, нооказывается, что существуют тексты на белорусском языке, записанные арабским письмом, так называемые Белорусские Китабы. Белорусский арабский алфавит использовалсялитовскими татарами, которые жили на территориисовременной Белоруссии, являвшейся частьюВеликого княжества Литовского. В течениеXIV—XVI вековони перестали использовать собственный язык и начали использоватьзападнорусский письменный язык, который записывали арабским алфавитом. Тексты Китабов представляют огромный интерес для историков и лингвистов, так как язык белорусских китабов неоднородный, основным языком, конечно же, является белорусский, но ввиду того, что татары селились на границе Белоруссии и Польши, китабы содержат достаточное количество текстов, записанных на польском языке арабским письмом. Именно поэтому белорусские китабы являются основным источником истории развития языковых польско-белорусских отношений. Распознавание языка фрагмента текста китабов составляет большую проблему для китабистов, не говоря уже о людях, не занимающихся историей языка. Дело в том, что для записи и белорусского, и польского теста татары использовали один и тот же алфавит, к тому же польский и белорусский языки родственные и достаточно близкие друг другу, что еще раз усложняет задачу распознавания текста. Так можно ли вообще отличить белорусский язык от польского, записанного арабской вязью? Возможно, для этого придется воспользоваться статистической информацией, собранной на основе фрагментов китабов. Дело в том, что татары, как и современные белорусы и поляки, использовали фонетический принцип письма, поэтому статистические данные по употреблению букв становится ключом к распознаванию языка того или иного фрагмента китабов. Ниже приведена таблица, отражающая эти данные.
Буква |
Частота употребления вбелорусском языке |
Частота употребления впольском языке |
ب |
0.0067 |
0.0057 |
|
0.0089 |
0.0006 |
چ |
0.0023 |
0.0016 |
ح |
0.0036 |
0.0019 |
د |
0.0156 |
0.0195 |
ج |
0.0006 |
0.0009 |
غ |
0.0023 |
0.0002 |
ه |
0.0346 |
0.0045 |
ي |
0.0167 |
0.0387 |
ق |
0.0245 |
0.0213 |
ل |
0.0134 |
0.0157 |
م |
0.0168 |
0.0134 |
ن |
0.0356 |
0.0323 |
پ |
0.0021 |
0.0033 |
ر |
0.0287 |
0.0326 |
ص |
0.0268 |
0.0387 |
ش |
0.0054 |
0.0004 |
ط |
0.0362 |
0.0245 |
و |
0.0424 |
0.0153 |
ا |
0.0485 |
0.0184 |
ض |
0.0159 |
0.0342 |
ژ |
0.0046 |
0.0003 |
س |
0.0134 |
0.0007 |
|
0.0367 |
0.0312 |
ل |
0.0156 |
0.0008 |
ن |
0.0026 |
0.0017 |
ث |
0.0012 |
0.0045 |
ز |
0.0032 |
0.0087 |
ت |
0.0015 |
0.0026 |
ك |
0.0003 |
0.0012 |
Как видно из статистических данных, возможно отличить белорусский язык, записанный арабским письмом, от польского, записанного таким же образом. Исследуя статистические данные, выводятся более частотные буквы для одного или другого языка. Отличить белорусский и польский, записанный арабским письмом, без статистических данных невозможно, так как именно частота употребления тех или иных букв отражает фонетику того или другого языка, а алфавиты в данном случае, как и в случае со временем начала использования белорусской латиницы, абсолютно совпадают!
По полученым результатам можно понять, что отличить белорусский от польского (14–19 веков) человеку, который не знает ни одного из перечисленных выше языков, достаточно сложно, но вполне возможно, опираясь на статистические данные частоты употребления букв того или иного языка, когда алфавиты языков полностью совпадают, так как именно статистические данные отражают принципы письма данных языков, определяют характерные тому или иному языку буквы или буквосочетания. Именно на основе этих статистических данных могут делаться выводы о развитии языка в той или иной период времени и,конечно же, на основе полученных данных можно наблюдать развитие русско-белорусских и русско-польских языковых отношений в разные периоды развития белорусского языка.
Литература:
- https://ru.wikipedia.org/wiki
- Гилевич Н. С. Трагічны дзевяноста шосты.
- В.Тарас многие произведения
- Петрашкевіч Аляксандр Лявонавіч «Алесь Петрашкевіч» Прарок для Айчыны
- Произведения из сборника «Белорусская поэзия из века в век»
- https://ru.wikipedia.org/wiki/Белорусский_латинский_алфавит
- Фрагменты белорусских «Китабов»