Классификация аудиосигналов с помощью нейронных сетей | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 26 октября, печатный экземпляр отправим 30 октября.

Опубликовать статью в журнале

Авторы: ,

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №48 (286) ноябрь 2019 г.

Дата публикации: 27.11.2019

Статья просмотрена: 3111 раз

Библиографическое описание:

Игнатенко, Г. С. Классификация аудиосигналов с помощью нейронных сетей / Г. С. Игнатенко, А. Г. Ламчановский. — Текст : непосредственный // Молодой ученый. — 2019. — № 48 (286). — С. 23-25. — URL: https://moluch.ru/archive/286/64455/ (дата обращения: 17.10.2024).



В статье дано краткое описание существующих подходов к классификации аудио сигналов с помощью нейронных сетей, приводятся ссылки на смежные исследования, описаны детали подготовки нейронной сети, а также проблемы, которые могут возникнуть в процессе обучения.

Ключевые слова: нейронная сеть, свёрточная нейронная сеть, классификация сигналов, обработка сигналов.

Исследование применимости нейронных сетей является новой областью в эпоху глобализации, которая полностью основана на концепции технологий мягких вычислений. В наши дни нейронная сеть с ее многомерным подходом дают возможность для решения стека проблем, связанных с неточностью и неопределенностью в больших и сложных пространствах поиска.

В последние годы классификация изображений становится все более популярной задачей машинного обучения, используемой в крупномасштабных приложениях, таких как Google Photos и теги Facebook. Успех этих сетей в области классификации изображений поднимает вопрос о их применимости к другим областям, где существуют скрытые объекты. Одной из таких областей является прослушивание, где могут содержаться скрытые звуковые сигнатуры. Как можно заметить, это аналогично распознаванию изображений, когда в пространстве существуют скрытые объекты. Таким образом, можно сделать вывод, что это идеальный домен для изучения.

Существующие исследования

Проблема классификации аудио сигналов была затронута научным сообществом в различных исследованиях, которые посвящены таким областям, как аугментация данных классификации звуков среды [1], распознавание акустических событий с использованием глубоких нейронных сетей [2], классификация звуков среды с помощью сверточных нейронных сетей [3], классификация звуковых сцен с глубокой рекуррентной нейронной сетью [4], обучение и анализ глубоких рекуррентных нейронных сетей [5].

Методы и прикладные области этих исследований различны, но имеют общую архитектуру, основанную на глубокой сверточной или рекуррентной нейронной сети. Каждый слой такой сети является рекуррентным, т. е. получает скрытое состояние предыдущего слоя в качестве входных данных. Эта архитектура позволяет выполнять иерархическую обработку сложных временных задач и более естественно фиксировать структуру временных рядов. Такие сети в различных интерпретациях оказались мощными моделями для решения таких задач, как распознавание речи и распознавание рукописных цифр.

Структура решения

Существует несколько основных шагов в разработке решения для классификации аудиосигналов. Первый — это предварительная обработка, используемая для фильтрации сигнала, может включать нормализацию амплитуды, кадрирование, блокировку кадров и оконное управление. Второй — это извлечение признаков, которые выделяются из каждого кадра отдельно, чтобы представить аудиоданные упрощенным набором акустических признаков. Из-за присутствия бесшумных кадров из каждого аудиофайла выбирается фиксированное число наиболее энергоемких(громких) кадров, отбрасывая остальные. Количество кадров, приходящих из каждого файла, независимо от длины файла при таком подходе остается неизменным. Для моделирования динамических свойств звуков также учитываются смежные кадры. Количество признаков, представляющих каждый кадр, увеличивается путем объединения признаков текущего кадра с определенным количеством соседних (левого и правого) кадров. Затем данные делятся на три отдельных набора, а именно: набор для обучения, проверки и тестирования. Учебный комплект используется для обучения классифицирующей нейросети в первую очередь без учителя. Затем следует обучение с учителем, которое проводится путем загрузки размеченных примеров в сеть. Набор валидации используется для настройки параметров обучения нейронной сети и для настройки ее топологии. Он также играет важную роль в принятии решения о прекращении обучения контролируемой нейронной сети. Наконец, набор тестов просто используется для оценки производительности обученного нейросетевого классификатора.

В статье [2] приведена следующая схема:

Рис. 1. Схема системы классификации акустических событий

Аугментация данных

Необходимо отметить, что глубокие нейронные сети, с высокой производительностью модели, особенно зависят от доступности большого количества обучающих данных для изучения нелинейной функции от входа к выходу, которая хорошо обобщает и дает высокую классификацию точность по скрытым объектам. Возможным объяснением ограничений исследования сверточной нейронной сети научным сообществом и сложности усовершенствования простых моделей является относительный дефицит маркированных данных для классификации звуков окружающей среды. Хотя в последние годы было выпущено несколько новых наборов данных, они все еще значительно меньше, чем наборы данных, доступные для исследования, например, по классификации изображений.

Элегантным решением этой проблемы является аугментация данных — применение одной или нескольких деформаций к коллекции аннотированных обучающих данных, которые приводят к новым, дополнительным обучающим данным. Ключевая концепция аугментации данных заключается в том, что деформации, применяемые к помеченным данным, не изменяют семантического значения меток. Если взять пример из компьютерного зрения, повернутое, переведенное, зеркальное или масштабированное изображение автомобиля все равно будет согласованным изображением автомобиля, и, таким образом, можно применять эти деформации для получения дополнительных данных обучения при сохранении семантической достоверности меток. Обучая сеть дополнительными искаженными данными, можно надеяться, что сеть станет нечувствительной к этим деформациям и сможет лучше обобщить скрытые данные.

Деформации, сохраняющие семантику, также были предложены для звуковой области, и было показано, что они повышают точность модели для задач классификации музыки. Тем не менее, в случае классификации звуков окружающей среды применение дополнения данных было относительно ограниченным, поскольку авторы, которые использовали случайные комбинации сдвига во времени, коррекцию высоты тона и деформации длительности сигнала для аугментации данных, сообщали, что «простые методы дополнения оказались неудовлетворительными для набора данных UrbanSound8K, учитывая значительное увеличение времени обучения, которое они произвели, и незначительное влияние на точность модели».

Заключение

Не смотря на бурный рост популярности нейронных сетей, некоторые области их использования до сих пор слабо изучены, также существуют проблемы в виде дефицита размеченных данных для обучения сети. Автоматическая классификация звуков окружающей среды событий может быть полезна в поиске информации, имея приложения для мультимедиа контент-анализа, контекстно-зависимые устройства и устройства аудио-наблюдения и мониторинга. Также эффективная классификация звуков среды может помочь решить проблему фильтрации посторонних шумов при обработке сигнала, несущего информацию.

Литература:

  1. Deep Convolutional Neural Networks and Data Augmentation for Environmental Sound Classification, Justin Salamon and Juan Pablo Bello, IEEE Signal processing letters;
  2. Recognition of acoustic events using deep neural networks, Oguzhan Gencoglu, Tuomas Virtanen, Heikki Huttunen, Department of Signal Processing, Tampere University of Technology, 33720 Tampere, Finland;
  3. Environmental sound classification with convolutional neural networks, Karol J. Piczak, Institute of Electronic Systems Warsaw University of Technology, 2015 IEEE International workshop on machine learning for signal processing, sept. 17–20, 2015, Boston, USA;
  4. Audio Scene Classification with Deep Recurrent Neural Networks, Huy Phan, Philipp Koch, Fabrice Katzberg, Marco Maass, Radoslaw Mazur and Alfred Mertins;
  5. Training and Analyzing Deep Recurrent Neural Networks, Michiel Hermans, Benjamin Schrauwen, Ghent University, ELIS departement Sint Pietersnieuwstraat 41, 9000 Ghent, Belgium.
Основные термины (генерируются автоматически): нейронная сеть, данные, сеть, аугментация данных, набор данных, деформация, кадр, классификация изображений, научное сообщество, окружающая среда.


Ключевые слова

нейронная сеть, обработка сигналов, свёрточная нейронная сеть, классификация сигналов

Похожие статьи

Проблемы обучения нейронных сетей

В данной статье рассматриваются проблемы, которые могут возникнуть при работе с нейронными сетями, а также способы их устранения.

Классификация заявок пользователей с помощью нейросети

В статье рассмотрен вариант решения классификации задач, поступающих от пользователей системы, на основе текстовой информации. Инструментом классификации выступает нейронная сеть. В статье рассмотрены этапы построения нейросети, а также процесс подго...

Анализ технологии создания систем классификации компьютерного зрения в медицине

В статье рассматриваются стратегии для применения различных инструментов машинного обучения и компьютерного зрения в медицине и ключевые инструменты, необходимые для этого, применительно к анализу данных с медицинскими снимками.

Использование искусственных нейронных сетей для параметрической идентификации объектов

В статье рассматриваются методы и общая математическая модель параметрической идентификации объектов, а также описывается теоретическая возможность использования искусственных нейронных сетей в рамках решения данной задачи.

Актуальность использования нейросетей в образовательных целях

Данная статья рассматривает применение нейросетей в образовательных целях. В статье описываются различные сферы образования, в которых можно использовать нейросети, такие как автоматизированная проверка заданий и тестов, персонализированное обучение,...

Применение нейронных сетей для графологического анализа почерка

В данной статье проводится исследование системы графологического анализа почерка, основанной на применении нейронных сетей.

Формализация требований для средств разработки и обучения нейронных сетей

Статья посвящена описанию требований для разработки программных средств проектирования нейронных сетей, рекомендуемые функциональные и общие системные решения, основанные на опыте использования различных библиотек моделирования для программ машинного...

Угрозы использования систем автоматического распознавания образов

В статье дано краткое описание работы систем распознавания изображений на основе свёрточных нейронных сетей, приведен обзор способов обмана систем распознавания образов с помощью нейронных сетей, а также проблемы, к которым могут привести успешные ат...

Искусственные нейронные сети. Нейросетевые технологии

В данной статье рассматриваются основные концепции и технологии, лежащие в основе искусственных нейронных сетей (ИНС). Исследование фокусируется на архитектуре нейронных сетей, их обучении и применении в различных областях, таких как распознавание об...

Классификация изображений с помощью сверточных нейронных сетей

В статье автор исследует использование сверточных сетей для детектирования изображений.

Похожие статьи

Проблемы обучения нейронных сетей

В данной статье рассматриваются проблемы, которые могут возникнуть при работе с нейронными сетями, а также способы их устранения.

Классификация заявок пользователей с помощью нейросети

В статье рассмотрен вариант решения классификации задач, поступающих от пользователей системы, на основе текстовой информации. Инструментом классификации выступает нейронная сеть. В статье рассмотрены этапы построения нейросети, а также процесс подго...

Анализ технологии создания систем классификации компьютерного зрения в медицине

В статье рассматриваются стратегии для применения различных инструментов машинного обучения и компьютерного зрения в медицине и ключевые инструменты, необходимые для этого, применительно к анализу данных с медицинскими снимками.

Использование искусственных нейронных сетей для параметрической идентификации объектов

В статье рассматриваются методы и общая математическая модель параметрической идентификации объектов, а также описывается теоретическая возможность использования искусственных нейронных сетей в рамках решения данной задачи.

Актуальность использования нейросетей в образовательных целях

Данная статья рассматривает применение нейросетей в образовательных целях. В статье описываются различные сферы образования, в которых можно использовать нейросети, такие как автоматизированная проверка заданий и тестов, персонализированное обучение,...

Применение нейронных сетей для графологического анализа почерка

В данной статье проводится исследование системы графологического анализа почерка, основанной на применении нейронных сетей.

Формализация требований для средств разработки и обучения нейронных сетей

Статья посвящена описанию требований для разработки программных средств проектирования нейронных сетей, рекомендуемые функциональные и общие системные решения, основанные на опыте использования различных библиотек моделирования для программ машинного...

Угрозы использования систем автоматического распознавания образов

В статье дано краткое описание работы систем распознавания изображений на основе свёрточных нейронных сетей, приведен обзор способов обмана систем распознавания образов с помощью нейронных сетей, а также проблемы, к которым могут привести успешные ат...

Искусственные нейронные сети. Нейросетевые технологии

В данной статье рассматриваются основные концепции и технологии, лежащие в основе искусственных нейронных сетей (ИНС). Исследование фокусируется на архитектуре нейронных сетей, их обучении и применении в различных областях, таких как распознавание об...

Классификация изображений с помощью сверточных нейронных сетей

В статье автор исследует использование сверточных сетей для детектирования изображений.

Задать вопрос