Используя эвристический анализ, получена концептуальная модель процесса сингулярного оценивания мгновенной частоты основного тона речи для дальнейшего построения математической модели.
Ключевые слова: речь, фонема, модель, сингулярный спектральный анализ речи, сингулярное оценивание частоты основного тона.
Цель. Получение концептуальной модели нового класса оценщиков частоты основного тона речи.
Научная новизна.Применение аппарата сингулярного спектрального анализа для обработки речи.
Введение. Современные информационные технологии находят все более широкое применение в вычислительных и телекоммуникационных системах. Актуальной становится задача разработки и внедрения новых методов средств анализа информации для обеспечения потребителя максимальными данными об исследуемых объектах.
Предметом данного моделирования является процесс оценивания одного из основных параметров устной речи — частоты колебаний голосовых связок при произнесении вокализованной речи, называемой основным тоном — F0 (величина обратная периоду T0 = 1/F0).
В настоящее время популярными алгоритмами оценивания частоты основного тона речевого сигнала являются RAPR, YIN и SWIPE’ Популярность перечисленных алгоритмов обусловлена хорошей функциональностью, низким процентом грубых ошибок и наличием свободно распространяемых версий их реализаций [1, с.49].
Большинство современных оценщиков основного тона состоят из трех основных модулей (рис. 1): 1 — модуль предобработки или приведения сигнала к требуемым характеристикам, 2 — генератор кандидатов действительного искомого периода основного тона, 3 — модуль постобработки или выбор наилучшего кандидата с последующим уточнением значения частоты основного тона.
Рис. 1.Схема типового оценщика основного тона
Главным недостатком подобных алгоритмов является зависимость от точности нахождения пиков. Наличие пиков и их амплитуда зависят от длины и вида окна анализа, а также от класса звука, что довольно часто приводит к ошибкам. Более того, точность зависит от значения частоты основного тона и от частоты дискретизации [9, с.16].
Еще одно ограничение обусловлено периодической (стационарной) моделью сигнала, лежащей в их основе, которая подразумевает точное повторение периода основного тона и не допускает его изменения на протяжении анализируемого фрейма. Например, при появлении модуляций – изменений частоты основного тона, точность оценок также существенно снижается.
В процессах исследования речевых сигналов, обычно используется математические аппараты спектрального анализа Фурье или вейвлет-анализ (wavelet-analysis). Однако в настоящей работе применен аппарат сингулярного спектрального анализа (ССА «Гусеница»), разработанного и обоснованного в конце 20 века сотрудниками Санкт-Петербургского государственного университета [7, с.5], [8, с.1]. Также в современной зарубежной литературе описан достаточно широкий класс методов, алгоритмически и идейно близких к методу «Гусеница», в основном метод известен как Singular Spectrum Analysis (SSA).
Метод основан на анализе главных компонент и позволяет исследовать стационарные и не стационарные временные ряды. Связь между классическими методами анализа стационарных временных рядов и методом главных компонент рассматривается в работах Бриллинджера [2, c.1].
Например, в работе Bagshaw [10, с.1] утверждается, что, методы, работающие во временной области, обладают наименьшей по сравнению с другими методами (частотными), ошибкой принятия решения о присутствии голоса в речи (voicing decision error rate) –не более 17 %. Кроме того, в работе [11, с.399] показано, что такие методы являются наиболее робастными в отношении принятия решения о вокализованности или невокализованности сегмента речи в условиях шума (voiced-unvoiced decision), искажений и побочных помех в сигнале.
Задача. Дан временной ряд S длинны N. Выделить периодическую составляющую T0N (base tone track), где fmin ≤F0≤ fmax при условии, что частота обертоновых составляющих речи кратна частоте основного тона. Вычислить среднюю амплитуду T0N.
Технические требования к модели. Исходя из поставленной задачи сформулируем технические требования к модели (рис. 2):
1) Входные данные: SN — фонемный ряд гласных звуков речи длины N отсчетов с выборкой Fd кГц;
2) Выходные данные: F0 — частота основного тона речи, содержащаяся во временном кадре t мс; Amp — средняя амплитуда гармоники, соответствующая частоте основного тона речи; T0N — временной ряд, соответствующий квазигармонической составляющей (субфонеме) с частотой основного тона речи.
Рис. 2. Требования к модели процесса оценивания мгновенной ЧОТ речи
Эвристическое моделирование. Для последующего построения концептуальной модели процесса сингулярного оценивания мгновенной частоты основного тона речи следует сначала понять физический процесс речеобразования и рассмотреть модель речевого сигнала для вокализированного сегмента речи. Однако несмотря на то, что речеобразующий механизм представляет собой относительно труднодоступную систему, даже на современном этапе представляется весьма сложным получить точные данные всех параметров речевого тракта и подробное описание его динамики известно, что человеческая речь по своей структуре состоит из некоторого количества системообразующих факторов, связанных между собой либо структурно, либо по механизму взаимодействия, которые демонстрируются на примере акустических свойств речи. Так как звуки речи генерируются артикуляционным аппаратом человека, то понимание акустики речеобразования позволяет правильно интерпретировать физические данные.
Одним из источников образования звуков является голосовой источник, который возникает при колебании голосовых связок. Он участвует в образовании нескольких групп звуков, и по степени участия голосового источника звуки делятся на гласные и согласные. Для вокализированного сегмента речи экспериментально было установлено, что на «фонетический смысл» гласных звуков существенно влияют амплитуды на частотах основного тона и обертоновых составляющих речевого сигнала.
Рассмотрим модель вокализованного сегмента речевого сигнала применительно к задачам анализа и синтеза речи: Входной сигнал x(t) поступает от голосовых связок (природный квазигармонический генератор — генеративная система), проходит через N-е количество параллельно соединенных резонаторов (характеризующих форму речевого тракта), в следствие чего, на выходе формируется определенный произносимый вокализованный речевой сегмент y(t). Таким образом, математическую модель вокализованного речевого сегмента можно описать в виде суммы некоторого набора амплитудных, фазовых и частотных параметров, формируемых в результате прохождения полигармонического колебания через резонансную систему [9, с.14]:
, (1)
где: n=0, 1, 2… — номер гармоники основного тона;
An — амплитуды гармоник;
w0 — частота основного тона, рад/сек;
jn — начальная фаза гармоник;
S(t) — конечный продукт генеративной и резонансной системы.
Очевидно, что, имея только выходной конечный продукт S(t), появляется необходимость (интерес) решения обратной задачи (1) для выделения генеративной и резонансной составляющей. Научным интересом решения такой задачи может послужить построение импульсных характеристик резонансной системы для распознавания или дальнейшего синтезирования речи диктора и т. д.
Таким образом для определения частоты основного тона речи формулируются две задачи:
1) Разложение исходного речевого сигнала в спектр квазигармонических компонент (задача 1);
2) Выбор квазигармонической составляющей соответствующей частоте основного тона речи (задача 2).
Сформулируем некоторое эвристическое описание модели сингулярного оценивания частоты основного тона:
Пусть SN — одномерный массив данных равностоящих значений (набор из квантов по уровню), полученных в результате дискретизации непрерывного множества S(t), поступает на вход системы осуществляющей расщепление в элементарный спектр временных рядов, генерируемых каждым резонатором речевого тракта. На выходе такой системы соответственно многомерный массив данных равностоящих значений TL,N — временной пучок (субфонемный спектр). Такую задачу разложения формально запишем как функцию сингулярного спектрального анализа [3, с.114], [4, с.69]:
, , . (2)
Проводя аналогию с типовыми, уже ставившими классическими, оценщиками частоты основного тона речи (рис. 1), процесс (2) эквивалентен процессу генерации кандидатов искомого периода основного тона, однако в отличии от кросскорреляционных подходов в данном случае происходит генерация заранее известных функций (генератор сингулярных кандидатов частоты основного тона речи или генератора сингулярного спектра).
Далее субфонемный спектр TL,N совместно с исходным сигналом SNпоступают на вход системы осуществляющей выбор функции соответствующей действительному кандидату частоты основного тона речи. На выходе данной системы набор параметров, описывающих частоту основного тона речи в виде Amp — амплитуды сигнала, F0 — частотной характеристики и T0N– трека (track) самой функции с ЧОТ. Выбор квазигармонической составляющей соответствующей частоте основного тона речи формализуем некоторой функцией выбора:
. (3)
Аналогично процессу протекающего в модуле постобработки типовых оценщиков, в селекторе (3) происходит срабатывание решающего правила выбора наилучшего кандидата с последующим уточнением значения частоты основного тона речи.
Объединяя (2), (3) подходим к некоторому обобщенному концептуальному описанию модели сингулярного оценивания в следующей системе (рис. 3):
(4)
Если в системе (4) решение равенства (2) однозначно определяется решением задачи сингулярного спектрального разложения одномерного временного ряда в многомерный [5, с.81], [6, с.129], то равенство (3) требует некоторого детального рассмотрения.
Рис. 3. Обобщенная схема концептуальной модели SEPT: SN — входной сигнал; TL,N — временной спектр; ГСС — генератор сингулярного спектра; SN — входной сигнал; T0N — трек с ЧОТ; F0 — ЧОТ; Amp — амплитуда.
Проведем следующие эвристические рассуждения, описывающие модель селектора (3): Поступая на вход селектора временной пучок TL,N сохраняется в некотором блоке управления матрицы временного спектра (УМВС).
Из условия первоначальной задачи известно, что частота обертоновых составляющих речи кратна частоте основного тона, а также известны границы ее существования, таким образом ставиться задача уменьшения плотности временного пучка L до величины K, обеспечивая сужение границ поиска f0ϵ [fmin, fmax]. Одним из вариантов решения данной задачи может выступать процесс измерения частотной характеристики элементов временного пучка TL,N с помощью быстрого преобразования Фурье в блоке измерения частоты временного спектра (ИЧВС):
, , , (5)
где fi — частотный ряд.
На выходе блока измерения частоты временного спектра (5) соответственно частотный ряд длины K, который поступает на вход блока выбора частоты основного тона (ВЧОТ). Теперь ставиться задача выбора частоты основного тона речи из полученного спектра. Пусть в качестве критерия выбора ЧОТ взята наименьшая кратная величина частоты
, (6)
тогда ряд T0 может быть вычислен как процедура математической свертки:
, (7)
где: Hk(f0) — динамическая конечно импульсная характеристика фильтра c частотой среза f0 +∆f;
S — исходный временной ряд.
По условию ряд T0N — квазигармоническая функция, соответствующая ЧОТ на заданном промежутке времени (определяется N и частотой дискретизации) с учётом модуляции, тогда можно говорить о вычислении средних величин F0 и Amp:
; (8)
, (9)
где m — число переходов через нуль;
f0m — мгновенная частота тона.
Обобщая (5,7–9) и условие (6) получаем концептуальное описание модели селектора (3) в следующей системе (рис. 4):
(10)
Рис. 4. Схема модуля селектора SEPT: УМВС — блок управления матрицей временного спектра; ИЧВС — блок измерения частоты временного спектра; ВЧОТ — блок выбора ЧОТ; FIR — блок фильтрации; ИЧОТ — блок измерения ЧОТ; ИА — блок измерения амплитуды.
Подставляя (10) в (4) получаем концептуальную модель процесса сингулярного оценивания частоты основного тона речи:
(11)
Вывод. Получена концептуальная модель процесса сингулярного оценивания мгновенной частоты основного тона речи на основе которой можно построить математическую модель. Раскрывая (11) исходная задача сводится к решению известного класса математических задач в численном виде:
- сингулярного спектрального анализа;
- дискретного преобразования Фурье;
- математической свертке.
Подводя итог, можно сказать, что данная модель описывает новый класс оценщиков частоты основного тона речи — сингулярный эстиматор ЧОТ (singular estimator pitch tracking — SEPT).
Литература:
1. Азаров И. С., Вашкевич М. И., Петровский А. А. Алгоритм оценки мгновенной частоты основного тона речевого сигнала / Цифровая обработка сигналов, № 4, 2012. —С.49–57.
2. Бриллинджер Д. Временные ряды. Обработка данных и теория. — М: Мир, 1980. —536 с.
3. Вольф Д. А. Выделение частоты основного тона речи методом сингулярного спектрального анализа / Системы управления и информационные технологии, № 2.1(56), 2014. —С.114–120.
4. Вольф Д. А. Автоматизация детектирования квазигармонических компонент, содержащих частоту основного тона речи в методе сингулярного спектрального анализа SSAPD / Системы управления и информационные технологии, № 3(57), 2014. — С.69–75.
5. Вольф Д. А. Программная реализация подсистемы быстрого сингулярного спектрального анализа речи // Системы управления и информационные технологии, № 4(54), 2013. —С. 81–86.
6. Вольф Д. А. Спектральная теорема для решения частичной проблемы собственных чисел степенным методом в задачах сингулярного спектрального анализа речи / Системы управления и информационные технологии, № 3.1(57), 2014. — С.129–135.
7. Голяндина Н. Э. Метод «Гусеница» — SSA: анализ временных рядов / Учебное пособие / Санкт-Петербург, 2004. — C.5–6.
8. Данилов Д. Л., Жиглявский А. А. Главные компоненты временных рядов: метод «Гусеница» / Под ред. Д. Л. Данилова, А. А. Жиглявского / СПб: Пресском, 1997. —308 с.
9. Конев А. А. Модель и алгоритмы анализа и сегментация речевого сигнала / Диссертация на соискание ученой степени кандидата технических наук по специальности 05.13.18 математическое моделирование, численные методы и комплексы программ / Федеральное агентство по образованию РФ. Томский государственный университет систем управления и радиоэлектроники: Томск, 2007. —128 с.
10. Bagshaw P. C. Automatic prosodic analysis for computer aided pronunciation teaching / Univ. of Edinburgh, Edinburgh. PhDThesis 1994 / — [Электронный ресурс] — Режим доступа. — URL: http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.55.3401 (дата обращения: 30.11.2014).
11. Rabiner L. R., Cheng M. J., Rosenberg A. E. A comparative study of several pitch detection algorithms / IEEE Trans. Acoust. Speech, № 24, 1976. — Р. 399–423.