Методы криптографии зачастую использовались для шифрования тайных посланий, указывающих место нахождения клада или тайника с документами и разработками. До сих пор существуют невзломанные шифры, содержащие загадки для человечества. Именно загадочность, таинственность побуждают авторов художественных произведений включать элементы шифрования и дешифровки в свои работы.
Примечательно, что при переводе литературных произведений с содержанием криптографических элементов, не всегда производится адаптация переводимого текста к языку. Не учитываются особенности языка, а также не изменяется последовательность рассуждений при взломе шифра.
Криптография — наука о методах обеспечения конфиденциальности, целостности и аутентификации информации. Под конфиденциальностью здесь понимается невозможность прочтения информации несанкционированными людьми, целостность данных подразумевает невозможность внесения в них незаметных изменений, а аутентификация означает проверку подлинности авторства и свойств данных.
Криптоанализ — наука, изучающая математические методы нарушения конфиденциальности и целостности информации, то есть взлом шифров.
Залогом успеха в расшифровке сообщения является определение языка написания текста, а также способа шифрования. Дальнейший взлом текстов, зашифрованных методом простой подстановки (именно этот метод используется авторами художественных произведений чаще всего) производится на основе статистических особенностей языка и специальных методов. Суть метода простой подстановки заключается в замене каждой буквы исходного текста на другой постоянный символ, рисунок, букву или цифру.
Основным способом взлома текса, зашифрованного методом простой подстановки (одноалфавитной замены) является использование метода частотного анализа символов. Следует отметить, что применение данного метода возможно лишь при наличии достаточного количества текста. Так что для взлома достаточно большого текста, зашифрованного методом простой перестановки, можно посчитать, насколько часто встречается та или иная буква в тексте и сравнить полученные частоты с данными, приведенными в таблицах 1–3.
Таблица 1
Частоты встречаемости символов английского алфавита в текстах [2, стр. 63]
Буква |
Частота |
Буква |
Частота |
Буква |
Частота |
Буква |
Частота |
E |
0,130 |
S |
0,061 |
U |
0,024 |
K |
0,004 |
T |
0,105 |
H |
0,052 |
G |
0,020 |
X |
0,0015 |
A |
0,081 |
D |
0,038 |
Y |
0,019 |
J |
0,0013 |
O |
0,079 |
L |
0,034 |
P |
0,019 |
Q |
0,0011 |
N |
0,071 |
F |
0,029 |
W |
0,015 |
Z |
0,0007 |
R |
0,068 |
C |
0,027 |
B |
0,014 |
||
I |
0,063 |
M |
0,025 |
V |
0,009 |
Так, наиболее встречаемая буква в английских текстах — E. Она встречается в 13 % случаев. Наиболее встречаемая согласная в английском языке — T встречается в 10,5 % случаев.
Таблица 2
Частоты встречаемости символов немецкого алфавита в текстах [3, стр. 112]
Буква |
Частота |
Буква |
Частота |
Буква |
Частота |
Буква |
Частота |
E |
0,192 |
H |
0,050 |
F |
0,020 |
P |
0,005 |
N |
0,102 |
D |
0,049 |
M |
0,017 |
J |
0,002 |
I |
0,082 |
U |
0,042 |
B |
0,016 |
Q |
0,0001 |
S |
0,071 |
G |
0,036 |
W |
0,014 |
X |
- |
R |
0,070 |
L |
0,035 |
K |
0,013 |
Y |
- |
T |
0,059 |
C |
0,029 |
Z |
0,012 |
||
A |
0,055 |
O |
0,022 |
V |
0,008 |
Данные таблицы 2 демонстрируют, что в немецком языке та же буква Е встречается в 19 % случаев, что почти в 1,5 раза чаще, чем в английском языке. Буква N в немецком языке встречается в 1 случае из 10.
Рассмотрим данные частоты для русского языка.
Таблица 3
Частоты встречаемости символов русского алфавита в текстах [2, стр. 67]
Буква |
Частота |
Буква |
Частота |
Буква |
Частота |
Буква |
Частота |
О |
0,111 |
Р |
0,046 |
Ы |
0,020 |
Х |
0,009 |
Е/Ё |
0,084 |
В |
0,043 |
Ь |
0,019 |
Ш |
0,008 |
А |
0,079 |
К |
0,034 |
З |
0,018 |
Ю |
0,006 |
И |
0,068 |
М |
0,033 |
Г |
0,017 |
Э |
0,0038 |
Н |
0,067 |
Д |
0,031 |
Б |
0,017 |
Щ |
0,0037 |
Т |
0,062 |
П |
0,028 |
Ч |
0,015 |
Ц |
0,0036 |
С |
0,053 |
У |
0,028 |
Й |
0,011 |
Ф |
0,0019 |
Л |
0,050 |
Я |
0,021 |
Ж |
0,011 |
Ъ |
0,0002 |
В русском языке, наиболее встречаемая буква — О. Она встречается в 11 % случаев. Самая распространенная согласная буква — Н.
Также в любом тексте могут быть зашифрованы пробелы. Частота их встречаемости в среднем составляет 18–19 %.
Обычно, для совпадения основных частот символов необходимы тексты от 300 знаков, что может гарантировать криптоаналитику правильное распределение частот символов. Данный метод очень часто дополняется интуитивным методом расшифровки.
Интуитивный метод заключается в том, что, зная состав и структуру языка и текста, можно более верно делать предположения о том, какое перед нами слово или фраза. При криптоанализе текста обращают внимание на следующие основные моменты:
- В начале текста обычно стоит приветственное слово или обращение к кому-то конкретному. Это может быть «Привет», «Здравствуй», «Hi», «Hello», «Hallo» и т. д. Также следует обратить внимание, что в конце текста бывает напутствие, прощание или имя автора текста [2, стр. 112].
- Обратите внимание на длину слова. Она может значительно упростить понимание того, на каком языке написан текст. Таблица длин слов для русского, английского и немецкого языков представлена в таблице 4.
Таблица 4
Среднестатистическая длина слова в немецком, английском и русском языках, букв
Язык |
Разговорный |
Художественный |
Научно-популярный и публицистический |
Английский |
3,5–4,5 |
4,5–5,5 |
5,5–7,5 |
Немецкий |
7,2–10,2 |
10,2–11,2 |
11,2–15,2 |
Русский |
4,0–4,9 |
4,9–5,9 |
5,9–7,9 |
В среднем, в русском языке слово состоит примерно из 6 букв, в английском на одну букву меньше, а в немецком составляет почти 11 букв.
- Количество слов в тексте, состоящих из 1, 2, 3 букв.
В русском языке встречаются следующие слова, состоящие из 1 буквы [6]: местоимение: я; предлоги: в, к, о, с, у; союзы: и, а; частица: б; междометия: а, о, э, у.
В английском языке может присутствовать неопределенный артикль A и местоимение I [5].
В немецком языке однобуквенные слова не встречаются [7].
Среди слов русского языка можно выделить следующие группы двухбуквенных слов: местоимения: вы, ты, он, мы, ее, их, та, те; частицы: бы, аж, да, же, то; союз: но; существительные: ад, еж, ил, ля, ми, ма, ор, пи, Ра, си, су, уж, ум, ус, фа, фо, щи, яд, яр, як, юг; междометия: ох, ах, ух, ых, ех, ам, ау, ой, ай, ба, бр, ну, ок, уф, фи, фу, ха, хе, хи, хм, чу, эй, эм; предлоги: во, со, до, за, из, на, об; глагол: ем, ел; сокращение величин: см, мм, дм, км, кг, мг и тд.
В английском языке можно встретить следующие двухбуквенные слова: междометия и частицы: ah, eh, hi, lo, no, ok, oh, so; артикль: an; глаголы: am, be, do, go, is; предлоги: as, at, by, in, on, of, to; существительные: fa, up; местоимения: he, it, me, my, us, we; союзы: if, or.
В немецком языке: предлоги: ab, am, an, im, in, um, zo; наречия: da, no, so, wo; местоимения: du, er, es, je; частица: ja.
Как мы видим, несмотря на то, что средняя длина английского слова меньше, чем русского, двухбуквенных слов на русском языке практически в 2 раза больше.
Среди трехбуквенных слов внимание криптоаналитика должны привлекать те, что очень часто встречаются или которые содержат 2 одинаковые буквы.
Для русского языка: еще, тот, оно, или, ага, асс, боб, вов, гиг, дед, еле, иди, ими, как, кок, кик, инн, мем, мим, нее, обо, око, оно, поп, тут, уху и т. д.
Для английского языка: определенный артикль the, слова: aad, abb, add, all, bee, dad, bib, dud, goo, eel, egg, eke, eve, ewe, eye, fee, ill, mom, nan, nee, odd, off, see, tat, tee, waw, woo, tot, zoo и т. д.
Для немецкого языка: частицы перед существительными: der, das, die, слова: all, nun, fee, tee, tot, see, zoo.
Зная эти слова и видя одинаковые знаки в трехбуквенных словах, можно по смыслу подобрать подходящие слова.
- Средняя длина предложения. Для русского языка — примерно 10 слов, для английского языка — 15–20 слов, для немецкого — 10–15 слов.
- Многобуквенные слова, в которых многократно повторяется одна и та же буква. Например: молоко, never и т. д.
- Если соблюдена пунктуация, то в русском языке она наиболее насыщенная.
- Предполагать слова, аббревиатуры и сокращения, которые обязательно должны быть в тексте.
Дополняя метод частотного анализа символом методом интуитивного анализа, можно существенно ускорить расшифровку текста.
«Пляшущие человечки» (англ. The Adventure of the Dancing Men) — один из 56 рассказов английского писателя Артура Конан Дойла о сыщике Шерлоке Холмсе и докторе Ватсоне. Сам писатель поставил свой рассказ на третье место среди лучших работ. В рассказе великий сыщик Шерлок Холмс разоблачает загадку таинственного шифра, состоящего из изображений пляшущих человечков [8, стр. 45].
Оригинальным языком произведения «The Adventure of the Dancing Men» является английский язык. Следовательно, и взлом сообщения, зашифрованного в рассказе, производился на основе правил английского языка и использования анализа частоты встречаемости символов.
Расшифровки сообщений производилась по мере накопления записок. Однако, уже по первой записке Шерлок Холмс, посчитав количество букв и количество самых встречаемых букв, предположил, что это буква E [9, стр. 60]. Эта буква встречается в английском письме чаще остальных. Также Холмс предположил, что флаги являются разделителями слов.
Получив ещё три записки, Холмс подставляет известную ему букву E в одну из них (в четвёртую, которая была дописана под третьей и, по мнению Холмса, была ответом миссис Кьюбит) — .E.E. . Он предполагает, что это слово NEVER и получает три буквы — N , V , R .
Холмс обращает внимание на третью записку, ...E E...E . Он предполагает, что это обращение к миссис Кьюбит, вероятно, призыв — COME ELSIE . Так Холмс получает ещё шесть букв — C , O , M , I , L , S .
Сыщик заполняет первую записку известными ему буквами — .M.ERE..E SL.NE. . Холмс заканчивает второе слово — HERE , подбирает букву A , так как она встречается в записке три раза, — AM HERE A.E SLANE. и заполняет пробелы в популярных американских имени и фамилии — AM HERE ABE SLANEY . Полученные буквы — A , H , B , Y .
Заменив известных ему человечков на буквы во второй записке, Холмс получает A. ELRI.ES и предполагает, что это описание места, AT ELRIGES . Полученные буквы — T , G . И так разгадывая шифры, Холмс приходит к ответу.
В русской версии произведения зашифрованы те же фразы, что и в английском, но только в переводе (в хронологическом порядке):
− «Я здесь. Аб Слени»
− «Илси, я живу у Элриджа»
− «Илси, приходи» (Аб Слени)
− «Никогда» (Илси Патрик)
− «Илси, готовься к смерти» (Аб Слени)
− «Приходи немедленно» (Шерлок Холмс)
Переводчик также считал, что флажки в записках являются символом конца слова [4]. Далее в английских и русских изданиях Холмс действовал по-разному из-за различных частотных характеристик английского и русского языков. Далее приведен процесс дешифровки в русском варианте:
Холмс предположил, что первое слово второй и третьей записки — обращение к миссис Кьюбит, ИЛСИ . Таким образом, он получил 3 буквы — И , Л , С .
Далее обратил внимание на второе слово третьей записки — из 7 букв, третья и последняя — И . Из предположений о возможном смысле записи следовало, что это — ПРИХОДИ . Найденные буквы: П , Р , Х , О , Д .
По мнению Холмса, четвёртую записку написала миссис Кьюбит. Всего одно слово: .И. О. Д. — НИКОГДА . Шерлок получил буквы: Н , К , Г , А .
Теперь первая записка выглядела так: ..Д. С. А. СЛ.НИ. Аб и Слени — распространённые в Америке, соответственно, имя и фамилия. Первое слово — Я , второе — ЗДЕСЬ . Вся фраза — Я ЗДЕСЬ АБ СЛЕНИ . Новые буквы: Я , З , Е , Ь , Б .
Вторая записка: Я.И....ЛРИД.А — Я ЖИВУ У ЭЛРИДЖА . Новые буквы: Ж , В , У , Э .
Последняя записка Аба Слени: ИЛСИ ГО.ОВЬСЯ К С.ЕР.И — расшифровывается просто ( ИЛСИ ГОТОВЬСЯ К СМЕРТИ ). Полученные буквы: Т , М .
Таким образом, в руках у Холмса оказались все 23 буквы.
Составление записок на русском языке, а также последовательность рассуждений Шерлока Холмса логична и понятна русскому человеку практически любого возраста. Это позволяет инициировать интерес со стороны читателя к криптографической составляющей рассказа и полностью раскрыть гений главного персонажа. Хотя переводчики не пользуются вовсе методом частотного анализа, они постарались на основе метода интуитивного анализа шифра логически его взломать.
В рассмотренном нами произведении на немецком языке [10] авторы представляют расшифровку записок по последовательности английского текста. При этом по тексту даны предложения на английском языке и их перевод на немецкий язык.
То есть читатель, который, по каким-то причинам, не знает английского языка, не сможет разобраться в криптографических тонкостях и не заинтересуется процессом криптографии. Он не будет знать, какие особенности языка привели к подобным рассуждениям и взлому шифра.
По этой причине было принято решение на основе особенностей немецкого языка предложить последовательность расшифровки записок. Это позволит показать все достоинства криптографического взлома на основе частотного анализа символов и интуитивного подхода.
Также как и в предыдущих вариантах, автору следует отталкиваться от подсчета частоты встречаемости букв. В немецком языке, также как и английском, самая часто встречаемая буква Е. Она в первых трех записках встречается 9 раз, частота встречаемости составляет 21,4 %, что позволяет предположить, что это именно буква E.
Затем, как и в русском варианте, следует обратить внимание на обращение в начале второй и третьей записки. Тем более, что имя героини содержит самую часто встречаемую букву. Таким образом, Шерлок найдет следующие буквы: L S I .
Далее обратим внимание на четырехбуквенное слово с двойной повторяющейся буквой в конце. Третья записка состоит из имени героини и данного слова, значит неизвестное слово — глагол, а точнее призыв к какому-то действию. Это могли быть слова fass (хватай) и komm (приходи). Но буква S уже появлялась в имени героини и быть сдвоенной согласной не могла. Значит это слово ПРИХОДИ. Здесь мы получаем буквы K O M .
Подставив их в 4 записку получаем: .IEM.LS
В короткой записке, состоящей из одного слова угадывается НИКОГДА или NEIMALS. Таким образом, нас становятся известны буквы N и A
Elsie, ma.he.i...e.ei.,.einem.o...e.en..e…..e.en.
Здесь становятся понятными сразу четыре слова mache (сделай) dich (ты, себя) bereit (готовым) то есть приготовься, deinem (твой, свой). Получает буквы: С H D B R T .
Вставляя все найденные буквы на свои места, можно быстро расшифровать все послание.
Для букв немецкого языка был разработан немецкий алфавит соответствия пляшущим человечкам:
Фразы по порядку выглядят следующим образом:
Используя данный алфавит и фразы, можно каждому читателю книги «Пляшущие человечки» (Die tanzenden Männchen) на немецком языке подробно и логично показать основные принципы взлома криптографических текстов и ее последовательности, что может пробудить интерес к шифрованию и криптоанализу.
Чтобы проверить какой вариант будет более предпочтителен, было предложено прочесть оба варианта рассуждений: с применением пояснений на английском языке и авторскую последовательность для аудитории, проживающей в Австрии, Германии и преподающей немецкий язык на территории России. Предпочтение было отдано авторскому варианту, особенно в тех случаях, когда читатели не знали английского языка.
Литература:
- Бабаш А. В., Шанкин Г. П. История криптографии. Часть I. — М.: Гелиос АРВ, 2014. — 240 с.
- Душкин, Р. Шифры и квесты: таинственные истории в логических загадках. — м.: Издательство АСТ, 2017–288с.
- Жельников В. Появление шифров // Кpиптография от папируса до компьютера. — М.: ABF, 1996. — 335 с.
- Конан Дойл, Артур. Шерлок Холмс: Лучшие повести и рассказы / вступ. ст. и коммент. Нины Щербак. — М.: АСТ, 2015.
- Мюллер, В. Самый полный англо-русский русско-английский словарь.- М.: АСТ, 2016.- 800 с.
- Ожегов, С. Словарь русского языка. — М.: Мир и образование, 2019. — 1376 с.
- Современный немецко-русский русско-немецкий словарь 125 000 слов и словосочетаний с транскрипцией. М.: Хит-книга, 2019. — 768 с.
- Щербак Н. Секреты Шерлока Холмса // Конан Дойл, 2015.
- Conan Doyle Arthur «Еру Adventure of the Dancing Men» by Smith, Elder and Co. of London. P.65
- Gutenberg > Arthur Conan Doyle > Die tanzenden Männchen Режим доступа: https://gutenberg.spiegel.de/buch/die-tanzenden-mannchen-5942/2