Российский фонд
фундаментальных
исследований

Физический факультет
МГУ им. М.В.Ломоносова
 

Информационные процессы. 2004. 4, № 2

 

Леонов А.С., Макаров И.С., Сорокин В.Н., Цыплихин А.И. «Артикуляторный ресинтез фрикативных» Информационные процессы, 4, № 2, с. 117-126 (2004)

Решались две обратные задачи восстановления формы речевого тракта для фрикативных согласных звуков английского языка (s, sh, f, θ, ∂, h, z, zh).В одной задаче входными данными служили только акустические параметры речевого сигнала, а в другой – вместе с акустическими параметрами использовались и траектории движений 8 точек на внутренних поверхностях речевого тракта, измеренные на микролучевом рентгеноскопе. В обеих задачах погрешность оценки измеренных координат точек составляла, в среднем, меньше 3%, причем разница между решениями в пространстве артикуляторных параметров была меньше 4%, за одним исключением. Перцептивный контроль качества решения обратной задачи выполнялся путем синтеза слогов "гласный–фрикативный–гласный" артикуляторным синтезатором. Исходными данными для синтеза служили форма речевого тракта и площади его поперечного сечения, вычисленные в результате решения обратной задачи. Звучание синтезированных слогов оказалось весьма близко к оригинальным слогам.

Информационные процессы, 4, № 2, с. 117-126 (2004) | Рубрики: 13.05 13.06

 

Сорокин В.Н., Цыплихин А.И. «Сегментация и распознавание гласных» Информационные процессы, 4, № 2, с. 202-220 (2004)

Для сегментации речевого сигнала на квазистационарные участки использовалась математическая модель восприятия речи. Детектирование гласных звуков выполнялось синхронно с импульсами источника голосового возбуждения. Анализ формантных частот производился на основе механизма латерального торможения в спектрально-временной области. Статистический анализ результатов сегментации выполнялся на базе речевых данных для 47 человек и нескольких типов телефонных трубок и микрофонов с ручной разметкой на 127 типов артикуляторно-акустических сегментов. Границы 85% сегментов были найдены правильно независимо от типа сегмента. Среди них было правильно детектировано около 80% гласных.

Информационные процессы, 4, № 2, с. 202-220 (2004) | Рубрика: 13.05