Российский фонд
фундаментальных
исследований

Физический факультет
МГУ им. М.В.Ломоносова
 

Научно-технический вестник информационных технологий, механики и оптики. 2016. 16, № 4

 

Карпов А.А., Кайа Х., Салах А.А. «Актуальные задачи и достижения систем паралингвистического анализа речи» Научно-технический вестник информационных технологий, механики и оптики, 16, № 4, с. 581-592 (2016)

Представлен аналитической обзор современных и актуальных задач, стоящих в области компьютерной паралингвистики, а также последних достижений автоматических систем паралингвистического анализа разговорной речи. Паралингвистика изучает невербальные аспекты человеческой коммуникации и речи: естественные эмоции, акценты, психофизиологические состояния, особенности произношения, параметры голоса диктора и т.д. Представлена архитектура базовой компьютерной системы акустического паралингвистического анализа, ее основные компоненты и используемые методы обработки речи. Приведена информация о международных соревнованиях по компьютерной паралингвистике Computational Paralinguistics Challenge (ComParE), которые c 2009 года проходят ежегодно в рамках международной конференции INTERSPEECH, организуемой международной ассоциацией по речевой коммуникации ISCA. Представлены задачи (конкурсы), которые решались в рамках данного соревнования в период с 2009 по 2016 гг., а также компьютерные системы, победившие в каждом из проведенных конкурсов, и полученные результаты. Последние завершенные соревнования ComParE-2015 проходили в сентябре 2015 года в Германии и содержали следующие 3 конкурса: 1) распознавание дикторов, которые говорят на родном для них языке (DN); 2) предсказание наличия болезни Паркинсона по речи (PC); 3) автоматическое определение, ест ли человек (диктор) во время говорения или диалога, и классификация вида пищи (определение одного из 7 типов), которую он принимает в это время. В последнем конкурсе («Eating ConditionSub-Challenge», EC) победу одержала совместная турецко-российская команда авторов данной статьи, которая разработала наиболее эффективную компьютерную систему для определения и классификации соответствующих акустических паралингвистических явлений. В статье представлена архитектура данной системы и основные модели и методы, описаны используемые обучающие и тестовые аудиоданные, а также наилучшие полученные результаты по машинной классификации акустических паралингвистических явлений.

Научно-технический вестник информационных технологий, механики и оптики, 16, № 4, с. 581-592 (2016) | Рубрики: 12.01 13.05