Российский фонд
фундаментальных
исследований

Физический факультет
МГУ им. М.В.Ломоносова
 

13.05 Речеобразование и восприятие речи

 

Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Акустика речи" (2014)

Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Акустика речи" (2014) | Рубрики: 02 13.05 13.08

 

Кирков А.Ю., Павловский В.Е. «Акустический мультичастотный язык коммуникации роботов» Научно-техническая информация. Серия 2. Информационные процессы и системы, № 2, с. 21-27 (2014)

Рассматривается задача коммуникации роботов на основе языка мультичастотных акустических сигналов. Приведена формальная модель языка, в котором каждому символу языка соответствует последовательность акустических мультичастотных сигналов, рассмотрен алгоритм распознавания таких характерных звуков.

Научно-техническая информация. Серия 2. Информационные процессы и системы, № 2, с. 21-27 (2014) | Рубрики: 12.01 13.05

 

Леонов А.С., Сорокин В.Н. «О точности определения параметров голосового источника» Акустический журнал, 60, № 6, с. 656-662 (2014)

Изучается вопрос о точности приближенного решения обратной задачи определения формы голосового источника по речевому сигналу при известном отношении сигнал/шум (SNR). Показано, что в общем случае при нахождении источника как функции времени с помощью метода регуляризации А.Н. Тихонова точность получаемого приближения будет по порядку хуже, чем точность регистрации речевого сигнала. Напротив, при адекватной параметризации источника, оказывается, можно получить точность приближенного решения, сравнимую с точностью данных задачи. Соответствующий алгоритм предлагается в статье. На основе полученных линейных (по погрешностям данных) оценок точности приближенных параметрических решений можно выбирать лучшие по точности параметрические модели. Такое сравнение проведено для известных моделей голосового источника: модели [17] и LF-модели [18]. Показано преимущество последней. Так, для SNR = 40 дБ относительная точность получаемого с помощью предлагаемого алгоритма приближенного решения составляет около 1% для LF-модели и около 2% для модели [17] по сравнению с 7–8% в методе регуляризации. Обсуждается роль полученных оценок точности в задачах распознавания диктора.

Акустический журнал, 60, № 6, с. 656-662 (2014) | Рубрики: 12.04 13.05

 

Потапова Р.К., Потапов В.В. «Когнитивный механизм смысловой сегментации устной речи (в затрудненных для восприятия условиях шума)» Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Физическая акустика", с. 99-104 (2014)

Суть исследований заключалась в специфике действия процесса маскировки акустического сигнала, которая определяется изменением порога слышимости устной речи по сравнению с ее восприятием в условиях отсутствия шумов, помех и искажений.

Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Физическая акустика", с. 99-104 (2014) | Рубрика: 13.05

 

Борисенко С.Ю., Воробьев В.И., Давыдов А.Г. «С равнение некоторых способов анализа фазовых соотношений между квазигармоническими составляющими речевых сигналов» Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Акустика речи", с. 2-7 (2014)

В современных речевых технологиях успешно используется гармоническая модель речевых сигналов в виде модулированных колебаний основного тона и обертонов. Для решения многих задач анализа речи актуальными являются исследования фазовых межкомпонентных связей квазигармонических составляющих вокализованных звуков. В докладе приведены результаты сравнительного анализа нескольких ранее разработанных способов, алгоритмов и программ оценки фазовых соотношений между колебаниями основного тона и обертонами речевых сигналов. Предлагаются рекомендации по применению рассмотренных алгоритмов в речевых технологиях.

Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Акустика речи", с. 2-7 (2014) | Рубрика: 13.05

 

Крейчи С.А., Кедрова Г.Е., Байрамова Ф.О., Потёмкин С.Б., Фролова О.Е. «База данных звучащей русской речи как инструмент изучения интерференции артикуляторных моделей различных языков» Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Акустика речи", с. 8-12 (2014)

Интерференция артикуляторных моделей различных языков является существенным препятствием для овладения безакцентным иноязычным произношением. База данных звучащей русской речи, разрабатываемая в Лаборатории фонетики и речевой коммуникации филологического факультета МГУ имени М.В. Ломоносова, включает две однотипно организованные части: орфоэпически правильное произношение и русское произношение с акцентом: образцы, записанные от носителей разных языков мира (чтение изолированных слов и предложений, неподготовленные высказывания). Многообразие позиций органов артикуляции, необходимых для формирования звуков, нормативных для разных языков, можно представить как межъязыковое пространство артикуляторных поз, в котором эти позы могут совпадать или не совпадать при произнесении русских слов, что требует перестройки всей артикуляторной базы родного языка для овладения безакцентным произношением на русском языке.

Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Акустика речи", с. 8-12 (2014) | Рубрика: 13.05

 

Рахманенко И.А., Мещеряков Р.В., Коцубинский В.П. «Автоматическая идентификация диктора по голосу с использованием гауссовых смесей и метода опорных векторов» Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Акустика речи", с. 21-26 (2014)

Рассматриваются значимость вопроса идентификации диктора, основные методы текстонезависимой, автоматической идентификации диктора по голосу, наиболее широко распространенные на данный момент – с использованием гауссовых смесей (Gaussian Mixture Model – GMM), метода опорных векторов (Support Vector Machine – SVM). Приводятся методика, описание речевого корпуса, содержащего речевые сигналы 50 дикторов, и результаты проведения эксперимента по идентификации дикторов с использованием данных методов.

Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Акустика речи", с. 21-26 (2014) | Рубрика: 13.05

 

Собакин А.Н. «Импульсное преобразование речи» Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Акустика речи", с. 27-31 (2014)

Импульсное преобразование речи позволяет перейти непосредственно от речевого сигнала (от осциллограммы) к импульсной последовательности, синхронной с периодом колебаний голосовых связок для озвученных участков речи. Форма выделенных импульсов полностью определяется колебательными характеристиками голосовых связок в процессе речеобразования. Приведены возможные модификации метода и результаты исследования естественных речевых сигналов.

Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Акустика речи", с. 27-31 (2014) | Рубрика: 13.05

 

Ляксо Е.Е., Фролова О.В., Григорьев А.С. «Методы и подходы к изучению акустики детской речи» Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Акустика речи", с. 32-39 (2014)

Исследование проводится в рамках изучения становления акустического аспекта детской речи и направлено на определение формантной структуры гласноподобных звуков в вокализациях младенцев и гласных речи детей и ее приближения к соответствующим значениям гласных в нормативной речи взрослых. С целью организации речевого материала осуществлена запись и созданы базы данных вокализаций и речи русских детей от рождения до 7-летнего возраста: "INFANT.RU" – содержит записи речи/звуков 187 детей от 3-х месяцев до 7 лет, и "CHILD.RU" – содержит записи речи 150 детей в возрасте от 4 до 7 лет. На основе комплексного подхода, включающего перцептивный, фонетический, спектрографический анализ вокализаций младенцев (n=100) и речевых сигналов детей 2–7-летнего возраста (n=150), описана динамика длительности, значений частоты основного тона (ЧОТ) и формантных частот гласноподобных звуков и гласных из слов детей 2–7-летнего возраста. Выявлена специфика звукогенерации в разных эмоциональных состояниях, прослежены акустические характеристики речи ребенка на разных этапах овладения навыком чтения. Установлено, что состояние дискомфорта характеризуется высокими значениями ЧОТ; отражение комфортного состояния характеризуется значениями ЧОТ ниже, чем в дискомфортных сигналах. При анализе спонтанной речи и читаемых слов у детей 5–7 лет показано, что на начальном этапе формирования навыка чтения, при чтении длительность ударных гласных в словах больше, чем в словах спонтанной речи, площадь формантных треугольников для ударных гласных при чтении больше, чем в спонтанной речи.

Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Акустика речи", с. 32-39 (2014) | Рубрика: 13.05

 

Дмитриева Е.Б., Ляксо Е.Е. «Акустические характеристики комфортных и дискомфортных вокализаций 12 месячных младенцев» Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Акустика речи", с. 40-47 (2014)

Исследование направлено на решение фундаментальной проблемы отражения функционального состояния в характеристиках голоса и речи. Целью исследования явилось определение длительности, значений частоты основного тона и спектральных максимумов в вокализациях младенцев в разных эмоциональных состояниях. Работа состояла из двух этапов: на первом – проведен акустический инструментальный анализ вокализаций, на втором – перцептивный анализ аудиторами вокализаций, отражающих разное состояние ребенка. Акустический спектрографический анализ гласноподобных звуков проводили в звуковом редакторе “Cool Edit Pro 2.0”. Показано, что сигналы, отражающие состояние дискомфорта характеризуются большей длительностью, значениями частоты основного тона и спектральных максимумов, и значимо отличаются от "спокойных" и "комфортных" вокализаций по этим показателям. На втором этапе работы проведен перцептивный эксперимент. Аудиторами в нем явились 10 взрослых, носителей русского языка, в возрасте 22±4 года (4 мужчины, 6 женщин, 6 человек имеют опыт общения с детьми – 2 мужчин и 3 женщин). Перед аудиторами стояла задача определить возможное состояние ребенка по его вокализации (дискомфорт, комфорт, спокойное или нейтральное состояние). Аудиторы чаще относят «комфортные» вокализации детей к правильной категории, если вокализация имеет значения длительности и частоты (либо частоты основного тона, либо какого-либо из спектральных максимумов) значимо отличаются от соответствующих характеристик вокализаций, продуцируемых детьми в других состояниях. Вокализации детей в состоянии дискомфорта аудиторы относят к правильной категории одинаково часто независимо от их частотных характеристик.

Сборник трудов 1-й Всероссийской Акустической конференции (Москва, РАН, 6–10 октября 2014 г.), секция "Акустика речи", с. 40-47 (2014) | Рубрика: 13.05

 

Хорев А.А. «Контроль защищённости речевой информации от её утечки по техническим каналам» Специальная техника, № 4, http://www.ess.ru/sites/default/files/files/annotations/2014-4.pdf (2014)

Рассмотрены вопросы, связанные с контролем защищенности речевой (акустической) информации от ее утечки по техническим каналам. Проведен анализ средств, используемых при проведении акустических и вибрационных измерении. Приведены методики контроля защищенности речевой информации от ее утечки по прямому акустическому, акустовибрационному и акустооптическому каналам.

Специальная техника, № 4, http://www.ess.ru/sites/default/files/files/annotations/2014-4.pdf (2014) | Рубрика: 13.05

 

Хорев А.А. «Контроль защищённости вспомогательных технических средств и систем от утечки по акустоэлектрическим каналам» Специальная техника, № 6, http://www.ess.ru/sites/default/files/files/annotations/2014-6.pdf (2014)

Рассмотрены вопросы, связанные с контролем защищенности вспомогательных технических средств и систем (ВТСС) от утечки речевой информации по акусто-электрическим каналам. Проведен анализ средств, используемых для контроля подверженности ВТСС акустоэлектрическим преобразованиям. Приведены методики контроля защищенности ВТСС от утечки речевой информации по акустоэлектрическим каналам.

Специальная техника, № 6, http://www.ess.ru/sites/default/files/files/annotations/2014-6.pdf (2014) | Рубрика: 13.05

 

Хорев А.А. «Классификация электронных устройств перехвата информации» Специальная техника и связь, № 1, с. 46-49 (2009)

Систематизированы показатели классификации и классификационные признаки для основных видов закладных устройств. Предложенная классификация позволяет обосновывать требования, предъявляемые к методам и средствам поиска закладных устройств. Приведена классификация электронных устройств перехвата акустической речевой информации (акустических закладок)

Специальная техника и связь, № 1, с. 46-49 (2009) | Рубрика: 13.05

 

Ронжин А.Л., Глазков С.В. «Метод автоматического распознавания голосовых команд и неречевых акустических событий» Информационно-управляющие системы, № 4, с. 74-77 (2012)

Рассматривается метод анализа акустических данных, позволяющий классифицировать по голосовым командам пользователя и неречевым звукам текущую ситуацию в помещении и принять меры в случае возникновения чрезвычайных обстоятельств. Разработанный метод распознавания акустических элементов основан на применении математического аппарата скрытых марковских моделей.

Информационно-управляющие системы, № 4, с. 74-77 (2012) | Рубрика: 13.05

 

Крашенинников В.Р., Ерофеев А.П., Капырин В.К. «Обнаружение речевой активности на фоне помех по изменению квазипериода в двухканальной схеме регистрации звукового сигнала» Известия Самарского научного центра Российской академии наук, 14, № 4-3, с. 820-822 (2012)

Исследуется способ обнаружения речевой активности по разности длин квазипериодов в двух каналах регистрации звукового сигнала. В одном из каналов регистрируется только шум, а в другом возможно наличие речевого сигнала. Анализируется эффективность данного метода при различных алгоритмах оценивания квазипериода.

Известия Самарского научного центра Российской академии наук, 14, № 4-3, с. 820-822 (2012) | Рубрика: 13.05

 

Булгаков О.М., Голубинский А.Н. «К вопросу о выделении модулирующего колебания из огибающей речевого сигнала» Вестник Воронежского института МВД России, 4, № 4, с. 108-116 (2009)

Разработан способ выделения модулирующего колебания из огибающей речевого сигнала при использовании математической модели, построенной на основе теории модуляции. Даны рекомендации по выбору типа, порядка и частоты среза фильтра нижних частот, используемого при выделении модулирующего колебания.

Вестник Воронежского института МВД России, 4, № 4, с. 108-116 (2009) | Рубрика: 13.05

 

Крейчи С.А., Кедрова Г.Е., Байрамова Ф.О., Потёмкин С.Б., Фролова О.Е. «База данных звучащей русской речи как инструмент изучения интерференции артикуляторных моделей различных языков» Ученые записки физического факультета МГУ, № 5, с. 145353 (2014)

Интерференция артикуляторных моделей различных языков является существенным препятствием для овладения безакцентным иноязычным произношением. База данных звучащей русской речи, разрабатываемая в Лаборатории фонетики и речевой коммуникации филологического факультета МГУ имени М.В. Ломоносова, включает две однотипно организованные части: орфоэпически правильное произношение и русское произношение с акцентом: образцы, записанные от носителей разных языков мира (чтение изолированных слов и предложений, неподготовленные высказывания). Многообразие позиций органов артикуляции, необходимых для формирования звуков, нормативных для разных языков, можно представить как межъязыковое пространство артикуляторных поз, в котором эти позы могут совпадать или не совпадать при произнесении русских слов, что требует перестройки всей артикуляторной базы родного языка для овладения безакцентным произношением на русском языке.

Ученые записки физического факультета МГУ, № 5, с. 145353 (2014) | Рубрика: 13.05

 

Митянок В.В. «О физической структуре звуков З, ЗЬ, Ж, ЖЬ» Техническая акустика, 14, № 1, http://www.ejta.org/ru/mitsianok3 (2014)

Метод аппроксимации применяется для разложения звуков З, ЗЬ, Ж, ЖЬ на моды с различными несущими частотами. Показано, что среди мод есть ведущие себя регулярно, есть хаотически вспыхивающие и тут же гаснущие, есть модулированные частотой первой из регулярных мод. Высказано предположение о том, что такое поведение мод приводит к явлению формант. Дано объяснение трудностям методов распознавания речи, основанных на преобразованиях Фурье. Предложено несколько вероятностных критериев, как для различения вышеуказанных звуков, так и для различения людей, произносящих эти звуки.

Техническая акустика, 14, № 1, http://www.ejta.org/ru/mitsianok3 (2014) | Рубрика: 13.05

 

Моченов С.В., Шаронов М.А., Ахметгалеев Р.Р., Бортник Д.В. «Применение быстрого преобразования фурье для выделения языковых объектов речевого сигнала» Вестник Ижевского государственного технического университета (ИжГТУ), № 3, с. 160-163 (2014)

Рассматриваются вопросы разделения речевого участка на отдельные сегменты с целью выделения наиболее информативных частей, связанных с определенным звуком и соответствующей ему фонемой. В процессе дихотомического деления фрагмента речи и выявления на основе спектрального анализа зон стабилизации осуществляется выделение языковых объектов и определение порядка их следования в речевой цепочке.

Вестник Ижевского государственного технического университета (ИжГТУ), № 3, с. 160-163 (2014) | Рубрика: 13.05