Автоматизированный информационный анализ поэтических произведений | Статья в журнале «Юный ученый»

Отправьте статью сегодня! Журнал выйдет 28 декабря, печатный экземпляр отправим 1 января.

Опубликовать статью в журнале

Автор:

Научный руководитель:

Рубрика: Информатика

Опубликовано в Юный учёный №2 (5) март 2016 г.

Дата публикации: 12.02.2016

Статья просмотрена: 470 раз

Библиографическое описание:

Курбанова, К. А. Автоматизированный информационный анализ поэтических произведений / К. А. Курбанова, И. С. Гомбоева. — Текст : непосредственный // Юный ученый. — 2016. — № 2 (5). — С. 84-87. — URL: https://moluch.ru/young/archive/5/271/ (дата обращения: 19.12.2024).

 

Душевный строй истинного поэта выражается во всем, вплоть до знаков препинания.

А. Блок

 

Разработка проблемы числовых оценок литературных произведений впервые была осуществлена в трудах известного русского математика А. А. Маркова (старшего) в начале XX века, который рассматривал вероятность появлений букв алфавита в определенных позициях слова в процессе анализа произведения А. С. Пушкина «Евгений Онегин» [2]. Информационное измерение текстов естественного языка также осуществляется с помощью формулы К. Шеннона.

В данной статье рассматривается применение формулы К. Шеннона для вычисления количественной меры информации (энтропии информации), позволяющей выяснить индивидуальность стиля поэта.

Проведем процедуру расчета количественной меры информации поэтических текстов Бориса Пастернака с использованием офисных программ MicrosoftWord и MicrosoftExcel [1, с. 31].

С этой целью проанализируем 50 стихотворных произведений, которые поделены на две группы: стихи из романа «Доктор Живаго» [3] (стихи Юрия Живаго) и остальные стихи поэта, выбор которых осуществлялся случайным образом [4]. Нами была выдвинута следующая гипотеза: значение энтропии информации для стихов из романа «Доктор Живаго» может отличаться от значений энтропии для остальных произведений Пастернака, так как в первом случае стихи написаны от имени героя романа, а во втором — от имени самого поэта.

На первом этапе осуществляется подготовка текста в программе MicrosoftWord для переноса в программу MicrosoftExcel. В программе Word набирается текст стихотворения, затем все пробелы автоматически заменяются на символ конца абзаца, в результате чего текст стихотворения располагается вертикально столбиком. После этого он копируется в программу Excel.

Рис. 1.

 

На рисунке 1 показан фрагмент таблицы с вычислениями. В столбец А занесен текст стихотворения. В ячейки столбца В с помощью функции =ЛЕВСИМВ(A2) вносятся все первые буквы слов, находящихся в столбце А. Столбец D заполняется числовыми данными от 1 до 33 (количество букв в русском алфавите), в столбец Е вносится алфавит. В столбец F вводится формула: =СЧЁТЕСЛИ(B:B;E2), по которой вычисляется количество слов в стихотворении, начинающихся на букву из столбца Е. Столбец G содержит формулу: =F2/F$35, которая вычисляет значение pi — вероятность появления в сообщении i-го символа алфавита. В столбце Н находится формула =ЕСЛИ(G2=0;0;-G2*LOG(G2;2)). Это формула Шеннона, по которой вычисляется среднее значение количества информации, приходящегося на один символ алфавита: .

Затем по столбцу Н с помощью функции СУММ рассчитывается сумма значений Нi.

Аналогично проводятся вычисления для остальных стихотворений.

Полученные результаты заносятся в таблицу 1.

 

Таблица 1

 п/п

Автор

Произведение

Н, бит

1

Борис Пастернак

«Разрыв»

3,5435

«После грозы»

3,5863

«Цветы ночные утром спят»

3,6811

«Следы на снегу»

3,6597

«Ивака»

3,9500

«Ледоход»

3,7967

«В больнице»

3,5192

«Снежок»

3,8086

«Любить иных — тяжелый крест…»

3,3700

«Близнецы»

3,8860

«Все наденут сегодня пальто»

3,5019

«Зазимки»

3,4224

«Дик прием был, дик приход»

3,4784

«Единственные дни»

3,6901

«Импровизация»

3,8530

«Как бронзовой золой жаровень»

3,8793

«Как у них»

3,4676

«Когда разгуляется»

3,7809

«Образец»

3,7044

«Красавица моя, вся стать»

3,3641

«Сирень»

3,5295

«Любка»

4,0090

«Память Рейснер»

3,9754

«Ева»

3,8459

«Память демона»

3,8399

2

Юрий Живаго

«Гамлет»

4,13

«Март»

3,8556

«На Страстной»

4,0192

«Белая ночь»

4,0507

«Весенняя распутица»

3,9401

«Объяснение»

4,0904

«Лето в городе»

3,9093

«Ветер»

3,9662

«Хмель»

3,8166

«Бабье лето»

3,9832

«Свадьба»

3,6369

«Осень»

3,3944

«Сказка»

3,1186

«Август»

3,5289

«Зимняя ночь»

4,1413

«Разлука»

3,8434

«Свидание»

3,8553

«Рождественская звезда»

3,5321

«Рассвет»

3,8553

«Чудо»

3,7476

«Земля»

3,6885

«Дурные дни»

3,5895

«Магдалина» 1

3,8359

«Магдалина» 2

3,6602

«Гефсиманский сад»

3,5859

 

Из таблицы видно, что количественная мера информации H для стихов Б. Пастернака различна для каждого произведения и находится в пределах от 3 до 4. Выдвинутая нами гипотеза о том, что значение энтропии информации для стихов из романа «Доктор Живаго» может отличаться от аналогичных значений для других произведений поэта не нашла своего экспериментального подтверждения. Данный факт свидетельствует об индивидуальности творчества Б. Пастернака и наличии сформированного стиля, как результата работы творческой мысли писателя.

 

Литература:

 

  1.                Астафьева Н. Е. Информатика и ИКТ: практикум для профессий и специальностей технического и социально-экономического профилей / Н. Е. Астафьева, С. А. Гаврилова, М. С. Цветков. — М.: Издательский центр «Академия», 2012. — 272 с.
  2.                Марков А. А. Пример статистического исследования над текстом «Евгения Онегина», иллюстрирующий связь испытаний в цепь // Известия Императорской Академии Наук, VI серия, 1913, том 7, выпуск 3, С. 153–162. [Электронный ресурс]. — Режим доступа: http://www.mathnet.ru/links/388c98604da09f561ec90ec85590b029/im6612.pdf.
  3.                Пастернак Б. Л. Доктор Живаго / Б. Л. Пастернак. — М.: Эксмо, 2010. — 624 с.
  4.                Пастернак Б. Л. Строку диктует чувство: стихотворения / Б. Л. Пастернак. — М.: Эксмо, 2008. — 413 с.
Основные термины (генерируются автоматически): количественная мера информации, текст стихотворения, значение энтропии информации, столбец Н, Столбец, программа, стих.


Задать вопрос