Алимурадов А.К., Тычков А.Ю., Симакова О.С., Мамонова А.А., Юлдашев З.М., Темирова Д.А. «Технология сегментации «сигнал/пауза» на основе анализа уровня смешивания фрагментов речевых сигналов» Биомедицинская радиоэлектроника, 28, № 2, с. 38-43 (2025)
Постановка проблемы. Сегментация «сигнал/пауза» представляет собой ключевую задачу в области обработки речевых сигналов, заключающуюся в определении точных границ между речью и паузами. Влияние такого фактора, как фоновый шум, существенно затрудняет данный процесс, поскольку может искажать истинные границы сегментов речи и пауз. Необходимо разработать надежную технологию сегментации, обеспечивающую высокую достоверность определения речевых сегментов в присутствии фонового шума. Цель. Разработать и исследовать технологию сегментации «сигнал/пауза», позволяющую эффективно различать уровни смешивания фрагментов речевого сигнала и достоверно определять границы сегментов речи и пауз. Результаты. Получены данные, демонстрирующие высокий уровень достоверности определения границ речи и пауз. Наилучшие результаты сегментации, с ошибками 1,8% и 0,9%, достигнуты при сравнении с значениями среднего уровня смешивания фрагментов и медианы первых 20 фрагментов, соответствующих начальной паузе с фоновым шумом. Практическая значимость. Предложенная технология сегментации «сигнал/пауза» имеет достаточную практическую ценность, поскольку ее применение позволяет существенно повысить достоверность в режиме реального времени и понизить вычислительную нагрузку. Это особенно важно для речевых приложений, обеспечивающих взаимодействия человека с компьютером посредством голосовых интерфейсов.
Биомедицинская радиоэлектроника, 28, № 2, с. 38-43 (2025) | Рубрика: 13.05

