В данной работе описан процесс проектирования и разработки веб-сервиса для автоматизированной генерации звуков по изображению. Также описан основной метод для с синтеза музыки изображению, который основывается на совместном использовании нейронных сетей и светомузыкальной теории. Описано тестирование программы.
Ключевые слова: рекуррентная нейронная сеть, светомузыкальная теория, Keras, автоматизированная генерация музыки, схемы соотнесения цветов и нот.
На данный момент публикуется всё больше работ, направленных на автоматизацию процесса создания музыкальных композиций, однако данный процесс является творческим, зависит от многих факторов, начинаю от опыта и настроения композитора, заканчивая областью проживания и другими внешними факторами, поэтому создание музыки не может проходить в автоматическом режиме, поэтому роль пользователя-композитора очень высока и можно лишь говорить об автоматизации этого процесса. Передаваемая музыкой и картинами эмоциональность сложно распознаваема [1, с. 67]. Процесс создания музыки хотя и основывается на чётко определённых музыкальных правилах, однако не поддаётся полной формализации.
Для снижения роли пользователя в процессе выбора характеристик музыкальной композиции, а также для учёта эмоциональной составляющий (например, эмоционального состояния пользователя-композитора), в данной работе предполагается получать характеристики композиции с изображения.
Первым этапом разработки сервиса является определение основного метода программы — метода генерации музыкального материала по изображению. Данный метод состоит из двух составляющих алгоритмов: алгоритм соотнесения цветовых и музыкальных характеристик; алгоритм генерации мелодической части с использованием нейронных сетей.
Основными параметрами результирующего музыкального произведения является тональность и темп. Именно эти параметры определяют эмоциональную составляющую произведения, и должны быть определены путём анализа цветовой гаммы изображения. Для этого, в первую очередь, необходимо определить соотношение цветовых и музыкальных характеристик [2]: оттенок цвета соотносится с высотой ноты, цветовая группа с музыкальным ладом, яркость с октавой ноты, насыщенность с длительностью. Затем, необходимо определить схему соотнесения названия цвета и ноты. На данный момент существует большое количество подобных схем, однако в данной работе была реализованы схемы И. Ньютона, Луи-Бертрана Кастеля, А. Уоллеса Римингтона, А. Эппли и Л. Дж. Бельмонта [3]. Алгоритм определения тональности опирается на анализ изображения и состоит из 4 шагов.
Первый шаг — преобразуем входное изображение из цветового пространства RGB в HSV. Данный шаг позволяет преобразовать изображение к более удобному виду, поскольку HSV пространство уже содержит необходимые характеристики — название цвета (определяется по параметру hue), насыщенность (параметр saturation) и яркость (параметр brightness).
Второй шаг — анализируя в целом изображение, определяем преимущественный цвет.
Третий шаг — определяем название и цветовую группу преимущественного цвета.
Четвёртый шаг — согласно выбранной схеме соотнесения цветов и нот, а также результатах, полученных на предыдущих шагах, определяем тональность произведения.
Для определения темпа произведения, необходимо получить яркость и насыщенность (по параметрам saturation и brightness) преимущественного цвета, и рассчитать темп, согласно данным параметрам.
В данной работе предполагается следующий алгоритм получения композиции по изображению (алгоритм генерации мелодической части с использованием нейронных сетей):
1) согласно методу соотнесения цветовых и музыкальных характеристик получаем тональность произведения и последовательность первых 20 % нот, считанных с изображения;
2) далее по полученной последовательности нот предсказываем продолжение произведения с помощью обученной модели и нейронной сети;
3) по итоговой последовательности нот и тональности, согласно методу соотнесения цветовых и музыкальных характеристик, строим гармоническую часть произведения.
Архитектура предложенной программы представлена на рисунке 1.
Рис. 1. Архитектура веб-сервиса для генерации звуков по изображению
Скриншоты веб-сервиса для генерации музыкальной последовательности по изображению представлены на рисунках 2, 3 и 4.
Рис. 2. Главная страница веб-сайта
Рис. 3. Страница генерации звуков по изображению
Рис. 4. Страница скачивания сгенерированных звуков
Для оценки композиций были привлечены специалисты-эксперты, которые оценивали композиции по следующим критериям: соответствие характеру изображения; реалистичность звучания инструмента (фортепьяно или гитара); мелодичность композиции; качество гармонии (аккомпанемента); приятность мелодии для восприятия; цельность композиции; реалистичность/искусственность композиции.
Проанализировав оценки всех экспертов и высчитав средние по каждому критерию, можно сделать вывод о том, что фортепьяно на слух экспертов звучит реалистичнее, чем гитара. Также можно сделать вывод о том, что композиция, сгенерированная по абстрактным изображениям, более приятна на слух, чем генерация по пейзажам. В целом общее впечатление от сгенерированных звуков у экспертов положительное. Среди минусов некоторые эксперты выделяют однотипность гармонии, иногда рваность и недостаточную реалистичность произведения, и не достаточную реалистичность гитары.
Литература:
- Розалиев, В. Л. Methods and Models for Identifying Human Emotions by Recognition Gestures and Motion / Розалиев В. Л., Заболеева-Зотова А. В. // The 2013 2nd International Symposium on Computer, Communication, Control and Automation 3CA 2013, December 1–2, 2013, Singapore: Papers. — [Amsterdam — Beijing — Paris]: Atlantis Press, 2013. — P. 67–71.
- Caivano J. L. Colour and sound: Physical and Psychophysical Relations // Colour Research and Application. — 1994. — № 12. — pp. 126–132.
- Чернышев, Д. Цвета и ноты [Электронный ресурс]. — М., 2014. — Режим доступа: http://mi3ch.livejournal.com/2506477.html