Сөйлеу сигналдарын өңдеу саласындағы жұмыс өте белсенді. Сөйлеуді тану жүйелерінде қолданылатын қолданыстағы өңдеу әдістеріне аналитикалық шолу және жіктеу ұсынылған. Материалдар мен әдістер. Шолу сөйлеу сигналдарын талдаудың әртүрлі түрлерін қолдана отырып, өңдеу әдістерін аналитикалық зерттеу негізінде жасалады. Нәтижелері. Сүзу, сегменттеу, сөйлеу сигналдарын анықтау және тану есептерінде қолданылатын жиілік, уақыт және жиілік-уақыт салаларында өңдеу әдістерінің жіктелуі ұсынылған. Тұжырымдар. Жүргізілген шолу және ұсынылған жіктеу өңдеудің қолданыстағы әдістерінің мүмкіндіктерін объективті бағалауға; сөйлеуді тану жүйелерінде сөйлеу сигналдарын өңдеу есептерінде Жаңа математикалық аппараттарды қолдану мүмкіндігін алдын ала бағалауға мүмкіндік береді.
Очень активна работа в области обработки речевых сигналов. Представлен аналитический обзор и классификация существующих методов обработки, используемых в системах распознавания речи. Материалы и методы. Обзор составляется на основе аналитического исследования методов обработки с использованием различных видов анализа речевых сигналов. Результаты. Предложена классификация методов обработки в частотной, временной и частотно-временной областях, используемых в задачах фильтрации, сегментации, обнаружения и распознавания речевых сигналов. Выводы. Проведенный обзор и предложенная классификация позволяют объективно оценить возможности существующих методов обработки; предварительно оценить возможность применения нового математического аппарата в задачах обработки речевых сигналов в системах распознавания речи.
Кіріспе. ХХ ғасырдың аяғы мен XXI ғасырдың басы сөйлеу технологиясының даму тарихының басталуымен ерекшеленді, онда сөйлеуді тану жүйелері маңызды рөл алды. Бұл салада ең танымал келесі авторлардың еңбектері: Б. М. Лобанов, т. к. Винцюк, а. в. Фролов, Л. Р. Рабинер, Р. В. Шафер, В. А. Ли, Д. х. Клетт, Xuedong D. Huang, Hsiao-Wuen Hon, Alexa Acero. Бұл кезең сөйлеу сигналдарын өңдеу саласындағы көптеген іргелі және қолданбалы мәселелерді шешу үшін маңызды болды — шетелдік және ресейлік ғалымдардың еңбектерінің толық тізіміне сілтеме жасау жеткілікті. Алайда, бұл қызығушылықтың төмендеуіне себеп болған жоқ және сөйлеу сигналдарын өңдеу саласындағы жұмыс қазіргі уақытта да белсенді жүргізілуде.
Бұл мақала аналитикалық шолуға және сөйлеуді тану жүйелерінде қолданылатын сөйлеу сигналдарын өңдеудің қолданыстағы әдістерін жіктеуге арналған және авторлардың бұрын жарияланған жұмыстарының жалғасы болып табылады.
Сөйлеуді тану жүйелерінде сөйлеу сигналдарын өңдеу. Сөйлеу сигналдарын өңдеу-бұл ақпаратты сүзу, күшейту және алу, кодтау, қысу және қалпына келтіру жүзеге асырылатын ғылым саласы. Сөйлеуді тану жүйелерінде өңдеу келесі тапсырмаларды қамтиды:
— сүзу және шуды басу;
— ақпараттық бөлімдерге сегменттеу;
— ақпараттық параметрлерді анықтау;
— тану.
Сөйлеу сигналдарын өңдеудің әрбір міндеті белгілі бір әдістерді қолдану арқылы ғана жүзеге асырылуы мүмкін. Өңдеу аймағына байланысты әдістерді үш аймаққа бөлу керек: жиілік, уақыт және жиілік-уақыт.
Уақытша аймақтағы өңдеу әдістері сөйлеу сигналының сипаттамалық нүктелерін анықтау, содан кейін оларды талдау үшін пайдалану болып табылады. Техникалық іске асыру тұрғысынан айқын максимумдар (минимумдар) және сигнал функциясы арқылы уақыттың нөлдік осінің қиылысу моменттері тән нүктелер ретінде таңдалуы мүмкін. Уақыт аймағындағы өңдеу әдістерінің басты кемшілігі — Шу мен нөлдік деңгейдің ығысуынан туындаған сипаттамалық нүктелердің бөлінуінің анық еместігі.
Жиілік аймағында өңдеу әдістері сөйлеу сигналында тіркелген барлық деректерді санауды қолданудан тұрады. Көптеген сөйлеу сигналдары белгілі бір жиілік құрамына ие және тән спектрлік аймақтарды алады. Жиілік аймағында әдістерді қолдану сөйлеу сигналдарын өте жоғары дәлдікпен өңдеуге мүмкіндік береді. Жиілік аймағында өңдеудің кемшіліктері сигналдардың жергілікті қасиеттеріне төмен бейімделуді, жеткіліксіз жоғары спектрлік ажыратымдылықты және салыстырмалы түрде үлкен есептеу шығындарын қамтиды.
Жиілік-уақыт аймағында өңдеу әдістері-бұл кемшіліктердің минималды көріністері бар уақыт пен жиілікті талдаудың барлық артықшылықтарын қамтитын әдістер.
Сөйлеу сигналдарын өңдеу әдістері
Сөйлеу сигналдарын өңдеудің белгілі әдістеріне және өз зерттеулеріне жүргізілген шолу өңдеуге байланысты әдістерді әртүрлі талдау түрлерімен жүзеге асырылатын топтарға бөлу керек екенін анықтады:
— Фурье түрлендіруді қолдану (ФТ);
— вейвлет-түрлендіруді (ВТ) пайдалана отырып);
— эмпирикалық режимдерге (ДЭМ) декомпозицияны және Гильберт-Хуангтың (ГХ) қайта құрылуын пайдалану арқылы);
— кепстрды пайдалана отырып (кепстралды талдау);
— сызықтық болжауды (СБ) қолдану);
— корреляциялық функцияны қолдану (корреляциялық талдау-КрА);
— нейрондық желілерді (НЖ) пайдалану);
— жасырын Марков модельдерін қолдану (СММ);
— уақытты динамикалық түрлендіруді (DTV) қолдана отырып.
Талдаудың әртүрлі түрлерімен өңдеу әдістерін толығырақ қарастырайық.
Фурье түрлендіруін қолдана отырып талдау. ФТ ғылымның көптеген салаларында, соның ішінде сөйлеу технологиясында қолданылады. Сөйлеу сигналдарын өңдеу саласында ФТ сигналды уақыт аймағынан жиілік аймағына түрлендіру және оны жиілік компоненттеріне бөлу ретінде қарастырылады:
Мұндағы, S (ώ) — жиілік саласындағы сигнал; s(t) — уақытша аймақтағы сигнал; j-қиялдағы бірлік.
Сандық өңдеу тапсырмаларында Дискретті Фурье түрлендіруі жиі қолданылады, өйткені сөйлеу сигналы көбінесе гармоникалық қосылыстардың қосындысы ретінде дискретті түрде ұсынылады:
Мұндағы , k – гармоника нөмірі; - бірінші гармониканың жиілігі; 0 < n < N – дискретті уақыт есептері; Т - іріктеу жиілігінің кезеңі.
Дискретті Фурье түрлендіруді қолдана отырып спектр құру сөйлеу сигналы туралы ақпаратты ықшам және көрнекі түрде ұсынуға мүмкіндік береді. Алайда, спектрлік түрде қысқа мерзімді жергілікті ерекшеліктерді егжей-тегжейлі талдау мүмкін емес, бұл Дискретті Фурье түрлендіруінің маңызды кемшілігі болып табылады [11].
Толқындық түрлендіруді қолдана отырып талдау. Фурье түрлендіруінің кең практикалық танымалдылығына қарамастан, жақында сөйлеу сигналдарын өңдеу саласындағы көптеген міндеттер толқындық түрлендіруді қолдану арқылы жүзеге асырылды. Толқын (аналық толқын) — бұл уақытша және жиілік аймағында жақсы локализацияланған кейбір функция (яғни, белгілі бір нүктенің кішкентай маңында шоғырланған және ол жойылған кезде нөлге дейін күрт төмендейді). Аналық Толқынға екі операция қолданылады: ығысу (локализация аймағын уақыт бойынша жылжыту) және масштабтау (созылу немесе қысу, яғни оның локализация аймағын жиілік бойынша ауыстыру):
Мұндағы , u , s — ығысу параметрлері.
Толқындық түрлендірудің мәні — сигналды аналық толқынның масштабталған және уақыт осі бойынша жылжытылған нұсқаларына бөлу және бастапқы сигналдың бөлімдері мен толқындық нұсқалардың корреляция коэффициенттерін берілген масштабта есептеу. Нәтиже — белгілі бір уақытта сигналдың әрекеті белгілі бір масштабтағы толқынның мінез-құлқына қаншалықты ұқсас екенін көрсететін коэффициенттер жиынтығы, яғни толқын коэффициенттері сигналдың берілген масштабтағы Толқынға жақындығын көрсетеді. Талданатын сигналдың түрі осы сәттің айналасында толқын түріне неғұрлым жақын болса, соғұрлым тиісті коэффициент абсолютті мәнге ие болады.
Эмпирикалық режимдер мен Гильберт — Хуанг түрлендірулерінің ыдырауын қолдана отырып талдау. Толқындық түрлендіруді қолдана отырып, сөйлеу сигналдарын адаптивті талдау үшін априорлық ақпаратты-аналық толқындық функцияны қолдану қажет екендігі белгілі. Талданған сигналдың сипаттамаларына негізделген толқынның тиісті функциясын таңдау мәселесі әрдайым бірдей бола бермейді. Бейімделу мәселесін шешу үшін Гильберт — Хуангты түрлендіруге негізделген жаңа өңдеу әдісі қолданылады. Бұл әдістің басты артықшылығы — жоғары бейімделу, ол дыбысты шығару кезінде қолданылатын негізгі функциялар тікелей бастапқы сигналдан алынады және тек өзіне тән ерекшеліктерді үйретуге мүмкіндік береді.
Гилберт — Хуангтың түрлендірулеріне екі негізгі кезең кіреді:
1. Сигналдың компоненттерге ыдырауы — эмпирикалық режимдерге ыдырау [12, 13]:
Мұндағы , imfi ( t ) – эмпирикалық мод(ЭМ); rI ( t ) - ыдырау қалдығы; i 1, 2, ..., I – ЭМ нөмері.
2. Гильберт спектрінің алынған эмпирикалық режимдерінің қалыптасуы [14]:
Мұндағы , - әрбір эмпирикалық режимнің сигнал амплитудасының лездік мәні модулі; imf ( t ) – эмпирикалық мод сигналы; сигнал фазасына пропорционалды уақыт ығысуы; ( t ) 2 fj - әр эмпирикалық режимнің циклдік жиілігі; j - қиялдағы бірлік.
a ( t ) және ( t ) мәндері әр эмпирикалық режимнің Zi ( t ) imfi t jIMFi t аналитикалық сигналынан анықталады.
Қорытынды
Аналитикалық шолу негізінде сөйлеуді тану жүйелерінде қолданылатын сөйлеу сигналдарын өңдеудің қолданыстағы әдістерінің жіктелуі келтірілген. Бұл жіктеу сөйлеу сигналдарын өңдеудің қолданыстағы әдістерінің мүмкіндіктерін объективті бағалауға және сөйлеуді тану жүйелерінде сөйлеу сигналдарын өңдеу есептерінде жаңа математикалық құрылғыларды қолдану мүмкіндігін алдын-ала бағалауға мүмкіндік береді.
Әдебиет:
- Алимурадов, А. К. Параметры и классификация систем распознавания речи / А. К. Алимурадов // Модели, системы, сети в экономике, технике, природе и обществе. — 2013. — № 1 (9). — С. 79–84.
- Алимурадов, А. К. Обработка речевых команд в системах голосового управления / А. К. Алимурадов // Измерение. Мониторинг. Управление. Контроль. — 2014. — № 1 (7). — С. 50–57.
- Лобанов, Б. М. Анализ и синтез речи: сб. науч. тр. / Б. М. Лобанов. — Минск: АН БССР, 1991. — 47 с.
- Винцюк, Т. К. Анализ, распознавание и интерпретация речевых сигналов / Т. К. Вин- тюк. — Киев: Наукова думка, 1987. — 264 с.
- Фролов, А. В. Синтез и распознавание речи. Современные решения / Г. В. Фролов. – М.: Связь, 2003. — 216 с.
- Рабинер, Л. Р. Цифровая обработка речевых сигналов: пер. с англ. / Л. Р. Рабинер, Р. В. Шафер. — М.: Радио и связь, 1981. — 496 с.
- Михайлов, В. Г. Измерение параметров речи / В. Г. Михайлов, Л. В. Златоусова; под ред. М. А. Сапожникова. — М.: Радио и связь, 1987. — 168 с.