Российский фонд
фундаментальных
исследований

Физический факультет
МГУ им. М.В.Ломоносова
 

13.05 Речеобразование и восприятие речи

 

Брюхомицкий Ю.А., Федоров В.М. «Метод текстонезависимой идентификации личности по голосу» Известия Южного федерального университета. Технические науки, № 8, с. 173-181 (2018)

Предлагается иммунологический метод решения задачи текстонезависимой идентификации личности по голосу, основанный на принципах представления и обработки речевой информации, принятых в искусственных иммунных системах. Для идентификации личности по голосу используется модель Фанта, в которой, речевой сигнал образуется путем прохождения через фильтр высокого порядка. В качестве векторов признаков используются кепстральные коэффициенты, полученные на основе линейного предсказателя речи. Последующий анализ векторов признаков осуществляется на основе аппарата искусственных иммунных систем с использованием иммунологической модели отрицательного отбора. Модель реализует децентрализованное распознавание последовательно идущих фрагментов речи, путем их сопоставления со специальными, предварительно созданными распознающими элементами – детекторами, имитирующими иммунокомпетентные клетки иммунной системы. Сопоставление осуществляется с использованием меры близости Евклида по принципу негативной селекции. Принятие решения «свой–чужой» при анализе речевого сигнала реализуется на основе статистического подхода по частоте срабатывания детекторов. Метод прошел экспериментальную проверку в среде MATLAB, которая показала его работоспособность и эффективность. Метод предназначен для непрерывного аутентификационного контроля личности говорящего в темпе поступления голосовых данных при воспроизведении текста произвольного объема и содержания, что позволяет своевременно принимать решение о возможной подмене дикторов. Преимуществом метода является его полная защищенность от атак воспроизведения. Эффективная реализация метода, повышение его точности тесно связаны с возможностью организации параллельных вычислений больших объемов данных, обусловленных размерами анализируемых текстов и размерами популяции детекторов. Это обстоятельство обуславливает перспективу применения многопроцессорных вычислительных систем высокой производительности.

Известия Южного федерального университета. Технические науки, № 8, с. 173-181 (2018) | Рубрика: 13.05

 

Сорокин В.Н., Леонов А.С. «Фазовый анализ активности голосового источника» Акустический журнал, 67, № 2, с. 185-202 (2021)

Предложены математические модели, позволяющие связать параметры голосового источника с параметрами фазово-частотных характеристик (ФЧХ) сегментов речевого сигнала. В частности, установлено, что длительность работы источника можно найти по средней длине интервалов между нулями и точками разрыва этих ФЧХ. Для синтетических и реальных речевых сигналов на основе установленных свойств ФЧХ и предложенных эвристических методов их анализа проведена численная оценка периодов основного тона, длительностей работы голосового источника внутри этих периодов, а также моментов начала Top и конца Tcl действия голосового источника. Экспериментально установлено существование верхней границы диапазона частот основного тона F0, внутри которого ошибка оценки F0 не превышает 5%. Средняя ошибка оценки длительности голосового источника по предлагаемой методике для сегментов речи из базы данных Arctic оказалась менее 0.3% для двух дикторов, а для третьего диктора равна 6.2%. Показано, что ошибка определения величин Top и Tcl зависит от свойств голосового источника и значительно возрастает для F0>220 Гц. Наиболее вероятная ошибка оценки величин Top для трех дикторов из базы данных Arctic оценивается как 1.5, 10.2 и 13.5%, а для Tcl она составляет –9.7, –20.2 и –13.9%. DOI: 10.31857/S0320791921020088

Акустический журнал, 67, № 2, с. 185-202 (2021) | Рубрика: 13.05