Российский фонд
фундаментальных
исследований

Физический факультет
МГУ им. М.В.Ломоносова
 

Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Акустика речи". М.: Российская Академия наук. 2014

 

Борисенко С.Ю., Воробьев В.И., Давыдов А.Г. «С равнение некоторых способов анализа фазовых соотношений между квазигармоническими составляющими речевых сигналов» Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Акустика речи", с. 2-7 (2014)

В современных речевых технологиях успешно используется гармоническая модель речевых сигналов в виде модулированных колебаний основного тона и обертонов. Для решения многих задач анализа речи актуальными являются исследования фазовых межкомпонентных связей квазигармонических составляющих вокализованных звуков. В докладе приведены результаты сравнительного анализа нескольких ранее разработанных способов, алгоритмов и программ оценки фазовых соотношений между колебаниями основного тона и обертонами речевых сигналов. Предлагаются рекомендации по применению рассмотренных алгоритмов в речевых технологиях.

Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Акустика речи", с. 2-7 (2014) | Рубрика: 13.05

 

Крейчи С.А., Кедрова Г.Е., Байрамова Ф.О., Потёмкин С.Б., Фролова О.Е. «База данных звучащей русской речи как инструмент изучения интерференции артикуляторных моделей различных языков» Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Акустика речи", с. 8-12 (2014)

Интерференция артикуляторных моделей различных языков является существенным препятствием для овладения безакцентным иноязычным произношением. База данных звучащей русской речи, разрабатываемая в Лаборатории фонетики и речевой коммуникации филологического факультета МГУ имени М.В. Ломоносова, включает две однотипно организованные части: орфоэпически правильное произношение и русское произношение с акцентом: образцы, записанные от носителей разных языков мира (чтение изолированных слов и предложений, неподготовленные высказывания). Многообразие позиций органов артикуляции, необходимых для формирования звуков, нормативных для разных языков, можно представить как межъязыковое пространство артикуляторных поз, в котором эти позы могут совпадать или не совпадать при произнесении русских слов, что требует перестройки всей артикуляторной базы родного языка для овладения безакцентным произношением на русском языке.

Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Акустика речи", с. 8-12 (2014) | Рубрика: 13.05

 

Гай В.Е. «Информационная модель слухового восприятия» Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Акустика речи", с. 13-20 (2014)

Описывается предлагаемая модель информационных преобразований, проходящих в слуховой системе. Проводятся аналогии между процессами преобразования информации в слуховой системе и предлагаемой моделью. Указанная модель строится на принципах теории активного восприятия, предложенной для моделирования информационных процессов в системе зрительного восприятия. На основе предложенной модели создано несколько методов обработки звуковых сигналов: метод вычисления частоты основного тона голоса человека, метод выделения полезного сигнала. Проведённые экспериментальные исследования подтвердили эффективность предложенных методов.

Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Акустика речи", с. 13-20 (2014) | Рубрика: 13.06

 

Рахманенко И.А., Мещеряков Р.В., Коцубинский В.П. «Автоматическая идентификация диктора по голосу с использованием гауссовых смесей и метода опорных векторов» Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Акустика речи", с. 21-26 (2014)

Рассматриваются значимость вопроса идентификации диктора, основные методы текстонезависимой, автоматической идентификации диктора по голосу, наиболее широко распространенные на данный момент – с использованием гауссовых смесей (Gaussian Mixture Model – GMM), метода опорных векторов (Support Vector Machine – SVM). Приводятся методика, описание речевого корпуса, содержащего речевые сигналы 50 дикторов, и результаты проведения эксперимента по идентификации дикторов с использованием данных методов.

Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Акустика речи", с. 21-26 (2014) | Рубрика: 13.05

 

Собакин А.Н. «Импульсное преобразование речи» Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Акустика речи", с. 27-31 (2014)

Импульсное преобразование речи позволяет перейти непосредственно от речевого сигнала (от осциллограммы) к импульсной последовательности, синхронной с периодом колебаний голосовых связок для озвученных участков речи. Форма выделенных импульсов полностью определяется колебательными характеристиками голосовых связок в процессе речеобразования. Приведены возможные модификации метода и результаты исследования естественных речевых сигналов.

Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Акустика речи", с. 27-31 (2014) | Рубрика: 13.05

 

Ляксо Е.Е., Фролова О.В., Григорьев А.С. «Методы и подходы к изучению акустики детской речи» Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Акустика речи", с. 32-39 (2014)

Исследование проводится в рамках изучения становления акустического аспекта детской речи и направлено на определение формантной структуры гласноподобных звуков в вокализациях младенцев и гласных речи детей и ее приближения к соответствующим значениям гласных в нормативной речи взрослых. С целью организации речевого материала осуществлена запись и созданы базы данных вокализаций и речи русских детей от рождения до 7-летнего возраста: "INFANT.RU" – содержит записи речи/звуков 187 детей от 3-х месяцев до 7 лет, и "CHILD.RU" – содержит записи речи 150 детей в возрасте от 4 до 7 лет. На основе комплексного подхода, включающего перцептивный, фонетический, спектрографический анализ вокализаций младенцев (n=100) и речевых сигналов детей 2–7-летнего возраста (n=150), описана динамика длительности, значений частоты основного тона (ЧОТ) и формантных частот гласноподобных звуков и гласных из слов детей 2–7-летнего возраста. Выявлена специфика звукогенерации в разных эмоциональных состояниях, прослежены акустические характеристики речи ребенка на разных этапах овладения навыком чтения. Установлено, что состояние дискомфорта характеризуется высокими значениями ЧОТ; отражение комфортного состояния характеризуется значениями ЧОТ ниже, чем в дискомфортных сигналах. При анализе спонтанной речи и читаемых слов у детей 5–7 лет показано, что на начальном этапе формирования навыка чтения, при чтении длительность ударных гласных в словах больше, чем в словах спонтанной речи, площадь формантных треугольников для ударных гласных при чтении больше, чем в спонтанной речи.

Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Акустика речи", с. 32-39 (2014) | Рубрика: 13.05

 

Дмитриева Е.Б., Ляксо Е.Е. «Акустические характеристики комфортных и дискомфортных вокализаций 12 месячных младенцев» Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Акустика речи", с. 40-47 (2014)

Исследование направлено на решение фундаментальной проблемы отражения функционального состояния в характеристиках голоса и речи. Целью исследования явилось определение длительности, значений частоты основного тона и спектральных максимумов в вокализациях младенцев в разных эмоциональных состояниях. Работа состояла из двух этапов: на первом – проведен акустический инструментальный анализ вокализаций, на втором – перцептивный анализ аудиторами вокализаций, отражающих разное состояние ребенка. Акустический спектрографический анализ гласноподобных звуков проводили в звуковом редакторе “Cool Edit Pro 2.0”. Показано, что сигналы, отражающие состояние дискомфорта характеризуются большей длительностью, значениями частоты основного тона и спектральных максимумов, и значимо отличаются от "спокойных" и "комфортных" вокализаций по этим показателям. На втором этапе работы проведен перцептивный эксперимент. Аудиторами в нем явились 10 взрослых, носителей русского языка, в возрасте 22±4 года (4 мужчины, 6 женщин, 6 человек имеют опыт общения с детьми – 2 мужчин и 3 женщин). Перед аудиторами стояла задача определить возможное состояние ребенка по его вокализации (дискомфорт, комфорт, спокойное или нейтральное состояние). Аудиторы чаще относят «комфортные» вокализации детей к правильной категории, если вокализация имеет значения длительности и частоты (либо частоты основного тона, либо какого-либо из спектральных максимумов) значимо отличаются от соответствующих характеристик вокализаций, продуцируемых детьми в других состояниях. Вокализации детей в состоянии дискомфорта аудиторы относят к правильной категории одинаково часто независимо от их частотных характеристик.

Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Акустика речи", с. 40-47 (2014) | Рубрика: 13.05