Российский фонд
фундаментальных
исследований

Физический факультет
МГУ им. М.В.Ломоносова
 

Информационные процессы. 2006. 6, № 3

 

Цыплихин А.И., Сорокин В.Н. «Сегментация речи на кардинальные элементы» Информационные процессы, 6, № 3, с. 177-207 (2006)

Для сегментации речевого сигнала выполнялся поиск границ квазистационарных и переходных процессов, основанный на корреляции между кратковременными спектрами равноотстоящих по времени участков сигнала. Распознавание кардинальных типов сегментов (гласноподобные, назальные, фрикативные глухие и звонкие, смычные глухие и звонкие) выполнялось в пространствах акустических параметров, установленных в результате исследования. Моделирование плотностей вероятности выборок осуществлялось разработанной модификацией EM-алгоритма. Анализ результатов сегментации производился на материале представительной речевой базы для нескольких типов телефонных трубок и микрофонов с ручной разметкой на артикуляторно-акустические сегменты. Средняя погрешность положения границ составила 4,52 мс, среднее число вставок было равно 1,26 на один сегмент разметки, а среднее число пропусков – 0,95%. В 96,3% случаев правильный тип сегмента по вероятности входил в первую двойку, в 85% был на первом месте.

Информационные процессы, 6, № 3, с. 177-207 (2006) | Рубрика: 13.05