Российский фонд
фундаментальных
исследований

Физический факультет
МГУ им. М.В.Ломоносова
 

13.05 Речеобразование и восприятие речи

 

Алимурадов А.К., Тычков А.Ю., Чураков П.П., Агейкин А.В., Кулешов А.П., Чернов И.А. «Алгоритм сегментации речь/пауза на основе декомпозиции на эмпирические моды и одномерного расстояния Махаланобиса» Труды Московского физико-технического института (государственного университета) (МФТИ), 13, № 3, с. 4-22 (2021)

Труды Московского физико-технического института (государственного университета) (МФТИ), 13, № 3, с. 4-22 (2021) | Рубрика: 13.05

 

Алимурадов А.К., Чураков П.П. «Помехоустойчивый адаптивный алгоритм сегментации "сигнал/пауза" для систем распознавания речи» Известия высших учебных заведений. Поволжский регион. Технические науки, № 2, с. 82-94 (2015)

Актуальность и цели. Объектом исследования являются этапы обработки речевых сигналов, применяемые в системах распознавания речи. Предметом исследования является задача сегментации «сигнал/пауза», представляющая собой обнаружение границ участков сигнала и пауз в общем потоке речевых сигналов. Цель работы – разработка и исследование помехоустойчивого алгоритма сегментации «сигнал/пауза», адаптивного к агрессивно зашумленной среде Материалы и методы. В разработке алгоритма использовались: метод адаптивной обработки нелинейных и нестационарных сигналов – комплементарная множественная декомпозиция на эмпирические моды; метод обработки статистических данных – независимый компонентный анализ; метод разграничения с использованием понятий нормального распределения и одномерного расстояния Махаланобиса. Результаты. Разработан и исследован помехоустойчивый адаптивный алгоритм сегментации «сигнал/пауза» для систем распознавания речи. Представлена блок-схема алгоритма с подробным математическим описанием. Указаны преимущества по сравнению с известными алгоритмами сегментации «сигнал/пауза», применяемыми в системах распознания речи. Разработанный алгоритм обеспечивает повышение коэффициента действительного обнаружения в среднем на 13%. Выводы. Сопоставление результатов исследований позволяет сделать вывод, что разработанный помехоустойчивый адаптивный алгоритм сегментации «сигнал/пауза» рекомендуется для практического применения в системах распознавания речи, используемых в агрессивно зашумленной среде.

Известия высших учебных заведений. Поволжский регион. Технические науки, № 2, с. 82-94 (2015) | Рубрика: 13.05

 

Алимурадов А.К., Тычков А.Ю., Чураков П.П., Торгашин С.И. «Способ сегментации речевого сигнала для систем оценки психогенных состояний» Известия высших учебных заведений. Поволжский регион. Технические науки, № 3, с. 81-93 (2017)

Актуальность и цели. Низкая точность распознавания речевых сигналов в условиях психических отклонений у человека является одной из главных причин практической реализации систем оценки психогенных состояний. Это связано с использованием неустойчивых к шумам и неадаптивных методов обработки сложных нестационарных сигналов. В статье предложен способ сегментации сигнал/пауза, работающих в условиях зашумленной обстановки. Материалы и методы. В разработке способа сегментации речевого сигнала для систем оценки психического здоровья использовались: комплементарная множественная декомпозиция на эмпирические моды (КМДЭМ) и метод разграничения на основе физиологического аспекта формирования речи и функционала слухового аппарата человека. Результаты. Представлена структурная схема способа. Указаны преимущества разрабатываемого решения в сравнении с известными способами сегментации сигнал/пауза STE+ZCR, IE и MFCC. Выводы. Представленный способ обеспечивает повышение коэффициента действительного обнаружения речевого сигнал до 6%. Сравнение результатов исследований позволяет сделать вывод, что разработанный способ сегментации сигнал/пауза может быть применен для практического применения в системах оценки психогенных состояний. DOI 10.21685/2072-3059-2017-3-7

Известия высших учебных заведений. Поволжский регион. Технические науки, № 3, с. 81-93 (2017) | Рубрика: 13.05

 

Алимурадов А.К., Тычков А.Ю., Чураков П.П., Артамонов Д.В. «Помехоустойчивый алгоритм определения просодических характеристик речевых сигналов для систем оценки психоэмоционального состояния человека» Известия высших учебных заведений. Поволжский регион. Технические науки, № 3, с. 3-16 (2019)

Актуальность и цели. В последнее десятилетие активно развивается направление автоматизированной оценки психоэмоционального состояния человека по речи. В условиях сложной «агрессивной» шумовой обстановки все речевые сигналы в той или иной степени зашумлены. В зависимости от интенсивности и вида шум может значительно исказить результаты оценки психоэмоционального состояния человека. Целью исследования является разработка помехоустойчивого алгоритма определения просодических характеристик речевых сигналов для повышения эффективности оценки психоэмоционального состояния человека. Материалы и методы. В разработке способа использовались: уникальная технология адаптивной декомпозиции нестационарных сигналов – улучшенная полная множественная декомпозиция на эмпирические моды с адаптивным шумом. Программная реализация способа была выполнена в среде математического моделирования © Маtlаb (МаthWоrks). Результаты. Разработан помехоустойчивый алгоритм определения просодических характеристик речи, суть которого заключается в разложении речевого сигнала на информативные шумовые и информативные сигнальные частотные составляющие с помощью улучшенной полной множественной декомпозиции на эмпирические моды с адаптивным шумом; выделении составляющей, содержащей основной тон с последующим определением просодических характеристик. Проведено исследование с использованием верифицированной базы чистых и зашумленных речевых сигналов, зарегистрированной с использованием 220 человек мужского и женского пола в возрасте от 18 до 79 лет с признаками психоэмоциональных расстройств. Выводы. В соответствии с результатами исследований выявлено, что предложенный алгоритм обеспечивает устойчивость к шуму различной интенсивности (отношение сигнал/шум от 0 до 30 дБ) и может тестироваться в реальных условиях «агрессивной» шумовой обстановки в системах оценки психоэмоционального состояния человека.

Известия высших учебных заведений. Поволжский регион. Технические науки, № 3, с. 3-16 (2019) | Рубрика: 13.05

 

Алимурадов А.К., Тычков А.Ю., Чураков П.П., Агейкин А.В., Кузьмин А.В., Митрохин М.А., Чернов И.А. «Способы повышения эффективности сегментации речь/пауза на основе метода декомпозиции на эмпирические моды» Известия высших учебных заведений. Поволжский регион. Технические науки, № 2, с. 24-43 (2021)

Актуальность и цели. Сегментация речь/пауза является одной из важнейших задач обработки в речевых приложениях и представляет собой точное обнаружение границ начала и окончания вокализованной, невокализованной речи и пауз. Особенно это важно при анализе скорости, ускорения и энтропии распределения вокализованных, невокализованных участков речи и пауз, а также при анализе средней продолжительности пауз. Целью работы является повышение эффективности сегментации речь/пауза на основе метода декомпозиции на эмпирические моды. Материалы и методы. В работе использовалась уникальная технология адаптивного разложения нестационарных сигналов – улучшенная полная множественная декомпозиция на эмпирические моды с адаптивным шумом. Программная реализация способа была выполнена в среде математического моделирования © Маtlаb (МаthWоrks). Результаты. Разработан способ, основанный на применении декомпозиции на этапе предварительной обработки исходных речевых сигналов для формирования набора новых исследуемых сигналов, содержащих максимально достоверную информацию о границах начала и окончания участков вокализованной, невокализованной речи и пауз. Проведено исследование, в рамках которого оценивалось влияние метода декомпозиции и длительности исследуемых фрагментов сигналов на эффективность сегментации речь/пауза. Для сегментации использовались способы, основанные на анализе количества пересечения сигнала через нулевую ось, кратковременной энергии, а также на основе анализа одномерного расстояния Махаланобиса. Выводы. В соответствии с результатами исследований выявлено, что предложенный способ обеспечивает повышение эффективности сегментации участков вокализованной и невокализованной речи: для способа на основе анализа количества пересечения сигнала через нулевую ось – на 13,96%; для способа на основе анализа кратковременной энергии – на 8,24%; для способа на основе совместного анализа количества пересечения и кратковременной энергии – на 5,72%; для способа на основе анализа одномерного расстояния Махаланобиса – на 17,85%. DOI 10.21685/2072-3059-2021-2-3

Известия высших учебных заведений. Поволжский регион. Технические науки, № 2, с. 24-43 (2021) | Рубрика: 13.05