Подходы к выделению речи из исходного сигнала для системы обработки речи | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 26 октября, печатный экземпляр отправим 30 октября.

Опубликовать статью в журнале

Авторы: ,

Рубрика: Технические науки

Опубликовано в Молодой учёный №5 (28) май 2011 г.

Статья просмотрена: 2713 раз

Библиографическое описание:

Ле, Нгуен Виен. Подходы к выделению речи из исходного сигнала для системы обработки речи / Нгуен Виен Ле, Д. П. Панченко. — Текст : непосредственный // Молодой ученый. — 2011. — № 5 (28). — Т. 1. — С. 77-79. — URL: https://moluch.ru/archive/28/3172/ (дата обращения: 17.10.2024).

Предварительная обработка речевых сигналов служит различным целям в системах обработки речи. Она включает в себя выделение речи из сигнала, предварительный фильтр сигнала, нарезку сигнала перекрывающимися кадрами, обработку сигнала в окне, спектральное преобразование сигнала и т.д. Из них выделение границы речевого сигнала является важным шагом для таких систем. В работе представлены два метода удаления паузы из речевого сигнала. В первом методе используется уровень кратковременной энергии и число нулей интенсивности сигнала. А второй метод применяется на основе нормального (гауссово) распределения значения отчетов сигнала.

Введение

Выделение речи из исходного сигнала является важным шагом предварительной обработки речевых сигналов. Для вычленения из входного сигнала участков, содержащих только речь, используются следующие характеристики речевого сигнала:

  • кратковременная энергия речевого сигнала;

  • число нулей интенсивности (мгновенная частота);

  • плотность распределения значения отчетов паузы.

Рассмотрим два метода выделения речи на основе этих характеристик.

Кратковременная энергия речевого сигнала и число нулей интенсивности (мгновенная частота)

Кратковременная энергия речевого сигнала и число нулей интенсивности являются основными параметрами речевого сигнала. Параметры речевого сигнала, как правило, быстро меняются с течением времени, поэтому принято снимать их при нарезке речевого сигнала неперекрывающимися кадрами длиной 10–20 мс. Считаем, что сигнал на таком отрезке примерно стационарен (постоянен).

Кратковременная энергия речевого сигнала определяется следующей формулой:

Где N –количество отчетов речевого сигнала,

– значение i-го отсчета.

Число нулей интенсивности (мгновенная частота) речевого сигнала определяется следующей формулой:

Где .

Кратковременная энергия речевого сигнала и число нулей интенсивности одновременно используются для удаления пауз из входного сигнала. При записи звука первые 150–200 мс речевого сигнала являются паузой. Необходимо вычислить пороги кратковременной энергии и числа нулей интенсивности на отрезке с паузой для сравнения с остальными участками сигнала. Пороги кратковременной энергии и числа нулей интенсивности вычисляются по следующим формулам:

Где M – количество первых кадров паузы.

Выполнить вычисление кратковременной энергии и числа нулей интенсивности всех кадров остального участка речевого сигнала. Если эти значения превышают пороги, то кадр соответствует паузе, необходимо удалить его из речевого сигнала. После удаления всех пауз получается результат сигнала без паузы.

Рассмотрим следующий алгоритм.

Шаг 1: Нарезать первые 150 мс речевого сигнала неперекрывающимися кадрами размером 120 (длина кадра 15 мс, количество кадров 10).

Шаг 2: Вычислить кратковременную энергию и число нулей интенсивности всех кадров по формулам.

Шаг 3: Вычислить пороги для кратковременной энергии и числа нулей интенсивности по формулам.

Шаг 4: Накопить следующие отчеты из речевого сигнала в кадр размером 120.

Шаг 5: Вычисление кратковременной энергии и числа нулей интенсивности кадра.

Шаг 6: Если кратковременная энергия больше порога и числа нулей интенсивности меньше порога, то добавить отчеты кадра в результатный сигнал, иначе обновить пороги для кратковременной энергии и числа нулей интенсивности.

Шаг 7: Если конец речевого сигнала, то переход на шаг 8, иначе переход на шаг 4.

Шаг 8: Получить результатный сигнал.

На рис. 1 и 2 показаны исходный и результатный сигнал слова “one” первым методом.

Рис. 1 – Исходный речевой сигнал слова “one”

Рис.2 – Результатный речевой сигналслова “one”первым методом


Нормальное (гауссово) распределение случайной величины

Случайная величина x имеет нормальное распределение, если её плотность распределения определяется зависимостью:

где μ – среднее значение случайной величины,

σ – нормальное распределение случайной величины.

Среднее значение случайной величины определяется следующей формулой:

Где N – количество случайной величины,

- случайная величина.

Нормальное распределение случайной величины определяется следующей формулой:

При записи звука первые 200 мс речевого сигнала являются паузой. Значение отчетов паузы оказывается случайной величиной. Плотность распределения значения отчетов паузы используется для выделения речи из входного сигнала. Рассмотрим алгоритм выделения границы речевого сигнала на основе нормального распределения.

Шаг 1: Вычислить среднее значение и нормальное распределение значения первых 1600 отчетов (первые200 мс речевого сигнала)по соответствующим формулам.

Шаг 2: Накопить следующие отчеты из речевого сигнала в кадр размером 80.

Шаг 3: Создать одновременный массив размером 80.

Шаг 4: Вычислить расстояние Махаланобиса от каждого отчета кадра до среднего значения по следующей формуле.

Шаг 5:Если расстояние больше 3, то добавить единицу в массив (отчет соответствует речи), иначе добавить нуль в массив.

Шаг 6: Вычислить количество нулей и единиц в массиве.

Шаг 6: Если количество единиц больше количества нулей, то добавить единичные отчеты в результатный сигнал, иначе обновить среднее значение и нормальное распределение нулевым отчетом.

Шаг 7: Если конец речевого сигнала, то переход на шаг 8, иначе переход на шаг 2.

Шаг 8: Получить результатный сигнал.

На рис. 3 показан результатный сигнал слова “one” вторым методом.

Рис 3 – Результатный речевой сигнал слова “one” вторым методом

Результаты экспериментальных исследований

В качестве анализируемых использовались речевые сигналы, содержащие числа английского языка. Для оценивания предложен процент правильного выделения речи (ППВ). ППВ вычисляется по следующей формуле:

Где – количество отчетов исходного речевого сигнала,

–количество отчетов результатного речевого сигнала.

Для экспериментальных исследований была надиктована база из 5 слов (числа от “one” до “five”) с произношением диктора.

В таблице 1 показан результат выделения речи двумя методами.

Таблица 1

Результаты экспериментальных исследований


Первый метод

Второй метод

“one”

54,24 %

41,26 %

“two”

57,77 %

32,31 %

“three”

не выделено

40,27 %

“four”

не выделено

54,90 %

“five”

59,55 %

44,42 %

Из таблицы видно, что метод выделения речи на основе нормального распределения обладает более высоким качеством, чем метод, использующий кратковременную энергию речевого сигнала и число нулей интенсивности.

Заключение

Таким образом, предложена реализация двух алгоритмов к задаче выделения речи из исходного сигнала и проведено её экспериментальное исследование. В результате работы был реализован лучший алгоритм выделения речи – алгоритм на основе нормального распределения.


Литература:

  1. Компьютерное распознавание и порождение речи. [Электронный ресурс]. – Режим доступа: http://speech-text.narod.ru/chap3.html

  2. Корицкий, Д.В. Система распознавания речевых команд. [Электронный ресурс]. – Режим доступа: http://www.nsc.ru/ws/show_abstract.dhtml?ru+130+9365

  3. Нормальное распределение [Электронный ресурс]. – Режим доступа: http://ru.wikipedia.org/wiki/Нормальное_распределение

  4. G. Saha, Sandipan Chakroborty, Suman Senapati, A New Silence Removal and Endpoint Detection Algorithm for Speech and Speaker Recognition Applications.

Основные термины (генерируются автоматически): речевой сигнал, кратковременная энергия, число нулей интенсивности, случайная величина, шаг, нормальное распределение, результатный сигнал, выделение речи, кадр размером, мгновенная частота.


Похожие статьи

Предварительная обработка речевых сигналов для системы распознавания речи

Данная работа посвящена исследованию в области речевой технологий. В работе представлено описание программной оболочки для предварительной обработки речевых сигналов с использованием дискретного преобразование Фурье. Данная программная оболочка имеет...

Рассмотрение модели речевой идентификации, основанной на гласных звуках

В данной статье рассмотрена тема об использовании метода распознавания речи как одного их способа идентификации. Речь состоит из двух компонентов — это голосовые и шумовые источники звука. Используя один из компонентов образования речи и была подробн...

Моделирование особенностей бинаурального слуха и исследование спектрального состава звуковых сигналов

В статье проводится исследование трех моделей бинаурального восприятия, характеристик и демаскирующих признаков при бинауральном восприятии речевого сигнала, моделируются особенности бинаурального слуха с помощью применения языка разработки LabVIEW N...

Использование обобщенных параметров группирующихся стираний и ошибок для адаптивного выбора длины блока в системах передачи данных

В статье рассмотрена иерархическая модель источника ошибок и стираний, описываемая моделью Пуртова с Марковской цепью переходов состояний при передаче данных по нестационарным каналам. Установлена зависимость степени группирования, средней кратности ...

Префиксный метод кодирования текстовой информации на основе остатка от приведенной частоты использования символа

Актуальность работы заключается в том, что в настоящее время, с развитием научно-технического прогресса, при многократно возросших объёмах информации возникает проблема сжатия данных. Для сжатия информации применяется кодирование. Так как при кодиров...

Применение вейвлет-анализа для очистки речевого сигнала от шума

В работе предложен метод очистки речевого сигнала от шума при помощи вейвлет-анализа. Приводятся результаты теоретических и экспериментальных исследований, подтверждающих преимущество данного метода над другими.

Адаптивное воспроизведение мультисинусоидального сигнала в системе с запаздыванием по входу

Данная работа посвящена решению задачи синтеза алгоритма адаптивного управления системами с запаздыванием по входу, дается описание существующего неадаптивного решения для таких систем, предлагается адаптивный алгоритм с использованием фильтрации, по...

О непараметрическом восстановлении матрицы наблюдений с пропусками в задаче идентификации с шумами

Исследуется задача восстановления матрицы наблюдений «входных-выходных» переменных в задаче идентификации статических систем с помехами. Часто эта задача сводится к восстановлению регрессионных характеристик. Анализируется случай, когда измерения «вх...

Применение метода графических ассоциаций при запоминании написания новых слов и текстов

Обычно большинство людей думает о памяти как об органе, от которого зависит способность запоминать и забывать. Однако память не является органом, производящим воспоминания. Память невозможно увидеть, подвергнуть рентгеновскому обследованию или переса...

Исследование активности головного мозга методом вызванных потенциалов

В этой статье рассматривается определение вызванных потенциалов (ВП), их роль в нейрофизиологических исследованиях, а также описывается система «Генератор стимулов», которая была разработана для проведения экспериментов по изучению активности головно...

Похожие статьи

Предварительная обработка речевых сигналов для системы распознавания речи

Данная работа посвящена исследованию в области речевой технологий. В работе представлено описание программной оболочки для предварительной обработки речевых сигналов с использованием дискретного преобразование Фурье. Данная программная оболочка имеет...

Рассмотрение модели речевой идентификации, основанной на гласных звуках

В данной статье рассмотрена тема об использовании метода распознавания речи как одного их способа идентификации. Речь состоит из двух компонентов — это голосовые и шумовые источники звука. Используя один из компонентов образования речи и была подробн...

Моделирование особенностей бинаурального слуха и исследование спектрального состава звуковых сигналов

В статье проводится исследование трех моделей бинаурального восприятия, характеристик и демаскирующих признаков при бинауральном восприятии речевого сигнала, моделируются особенности бинаурального слуха с помощью применения языка разработки LabVIEW N...

Использование обобщенных параметров группирующихся стираний и ошибок для адаптивного выбора длины блока в системах передачи данных

В статье рассмотрена иерархическая модель источника ошибок и стираний, описываемая моделью Пуртова с Марковской цепью переходов состояний при передаче данных по нестационарным каналам. Установлена зависимость степени группирования, средней кратности ...

Префиксный метод кодирования текстовой информации на основе остатка от приведенной частоты использования символа

Актуальность работы заключается в том, что в настоящее время, с развитием научно-технического прогресса, при многократно возросших объёмах информации возникает проблема сжатия данных. Для сжатия информации применяется кодирование. Так как при кодиров...

Применение вейвлет-анализа для очистки речевого сигнала от шума

В работе предложен метод очистки речевого сигнала от шума при помощи вейвлет-анализа. Приводятся результаты теоретических и экспериментальных исследований, подтверждающих преимущество данного метода над другими.

Адаптивное воспроизведение мультисинусоидального сигнала в системе с запаздыванием по входу

Данная работа посвящена решению задачи синтеза алгоритма адаптивного управления системами с запаздыванием по входу, дается описание существующего неадаптивного решения для таких систем, предлагается адаптивный алгоритм с использованием фильтрации, по...

О непараметрическом восстановлении матрицы наблюдений с пропусками в задаче идентификации с шумами

Исследуется задача восстановления матрицы наблюдений «входных-выходных» переменных в задаче идентификации статических систем с помехами. Часто эта задача сводится к восстановлению регрессионных характеристик. Анализируется случай, когда измерения «вх...

Применение метода графических ассоциаций при запоминании написания новых слов и текстов

Обычно большинство людей думает о памяти как об органе, от которого зависит способность запоминать и забывать. Однако память не является органом, производящим воспоминания. Память невозможно увидеть, подвергнуть рентгеновскому обследованию или переса...

Исследование активности головного мозга методом вызванных потенциалов

В этой статье рассматривается определение вызванных потенциалов (ВП), их роль в нейрофизиологических исследованиях, а также описывается система «Генератор стимулов», которая была разработана для проведения экспериментов по изучению активности головно...

Задать вопрос