Российский фонд
фундаментальных
исследований

Физический факультет
МГУ им. М.В.Ломоносова
 

13.05 Речеобразование и восприятие речи

 

Крюков И.Н., Гомонов А.Н., Герасин Д.В. «Методы отбора максимумов процедуры определения значений периодов цифровых потоков кодированных речевых сообщений» Радиотехника, № 2-4, с. 24-29 (2020)

Постановка проблемы. Разработка алгоритма автоматической идентификации типов вокодеров по структурным признакам цифровых потоков кодированных речевых сообщений возможна при условии реализации алгоритма автоматического определения значений периодов по корреляционным значениям, рассчитанным с использованием адаптированных выражений. Проблемным вопросом в поиске решения указной задачи является выбор способа отбора максимумов и анализа отобранных значений позиций максимумов рассчитанных корреляционных значений. Цель. Теоретически обосновать возможность расчета значений периодов цифровых потоков на основе корреляционных значений, рассчитанных с использованием математических выражений из раздела «Статистика» и отобранных с использованием методов отбора максимумов. Результаты. Проведено исследование корреляционных значений, полученных в результате выполнения анализа цифровых потоков кодированных речевых сообщений с использованием адаптированных выражений расчета корреляционных значений. Для определения значений периодов цифровых потоков на основе анализа корреляционных значений предложены методы отбора максимумов по числу и по относительному пороговому значению. Отбор максимумов по числу заключается в отборе некоторого числа рассчитанных корреляционных значений с наибольшими высотами. В процессе анализа периодических цифровых потоков отмечается строгий порядок расположения корреляционных значений, которые следуют друг за другом, как правило, через равные интервалы, то есть через равное число неквазипериодических корреляционных значений, соответствующие значению периода анализируемого цифрового потока. Отбор максимумов по относительному пороговому значению заключается в отборе рассчитанных корреляционных значений с высотами, превышающими некоторое пороговое значение. При этом пороговое значение необходимо подбирать таким образом, чтобы высоты большинства квазипериодических корреляционных значений превышали выбранное пороговое значение, а высоты большинства неквазипериодических корреляционных значений не превышали выбранное пороговое значение. Интервалы между значениями позиций отобранных корреляционных значений используются для вычисления значения периода цифрового потока. Предложено использование процедуры верификации рассчитанного значения периода, основанной на выполнении процедуры обучения на примерах обучающей выборки цифровых потоков кодированных речевых сообщений. Практическая значимость. Из полученных результатов теоретического исследования следует, что предложенные методы отбора максимумов позволяют выполнять подбор параметров для точного определения значений периодов цифровых потоков кодированных речевых сообщений.

Радиотехника, № 2-4, с. 24-29 (2020) | Рубрики: 12.01 13.05

 

Римская-Корсакова Л.К., Нечаев Д.И. «Основанное на громкости обнаружение тестового импульса, предъявляемого до или после периодической последовательности помеховых импульсов» Ученые записки физического факультета МГУ, № 1, с. 2010202-1_-2010202-5 (2020)

Искали проявления маскировки громкости отдельных импульсов в последовательности с периодом следования Т из диапазона 20–150 мс. Тестовым был первый или последний импульс последовательности из 12 сходных узкополосных импульсов. Варьировали период Т и уровень тестового импульса, чтобы определить порог его обнаружения и тот минимальный период следования Tmin, при котором возможно его обнаружение. При периоде Tmin определяли сдвиг порога dIso, как разность порогов обнаружения замаскированного и одиночного импульсов. Полагали, что показатели Tmin и dIso характеризовали временное разрешение громкости и изменение громкости тестового импульса вследствие маскировки. Показатели сравнивали с показателями суммации последовательностей импульсов у слушателей с нормальным слухом (первая группа) и кохлеарными потерями (вторая группа). Показатели Tmin и dIso слушателей первой группы коррелировали с показателями суммации: чем больше суммация, тем больше были показатели Tmin и dIso. Сдвиг dIso при Tmin достигал 10–20 дБ при разных положениях тестового импульса. У слушателей второй группы, хотя суммация была слабой, периоды Tmin были заметно больше, а сдвиги dIso – меньше, чем у слушателей первой группы. Принимая импульсы за модели фонем согласных, пролагали, что слуховая чувствительность и свойства временной маскировки громкости фонем согласных ответственны за их восприятие, за разборчивость речи. Ключевые слова: маскировка, громкость, фонема, импульс, последовательность

Ученые записки физического факультета МГУ, № 1, с. 2010202-1_-2010202-5 (2020) | Рубрики: 13.03 13.05

 

Потапова Р.К., Потапов В.В. «Акустико-семантический контент речевой коммуникации в робототехнике» Ученые записки физического факультета МГУ, № 1, с. 2010201-1_-2010201-3 (2020)

Представлен подход к исследованию акустико-семантического контента, обеспечивающего эффект речевой коммуникации реципрокного типа, позволяющий реализовать двунаправленный диалог «человек– машина» и «машина - человек», что на данной ступени развития робототехники является одной из приоритетных задач реализации обратной связи в быстродействующем экономном режиме «стимул-реакция»↔«реакция-стимул» применительно к различным видам коммуникации в робототехнике, что нашло отражение в подходах, объединяемых в настоящее время в научно-исследовательскую область «Interactive Collaborative Robotics» (см., например, R. Potapova “Speech Dialogue as a Part of Human-Machine Interactive Systems” in: “Interactive Collaborative Robotics. 1st International Conference – ICR 2016”, LNAI 9812, Springer International Publishing, pp. 208-218). На данном этапе активно разрабатываются различные модели человеко-машинных интерфейсов, входящих в состав интерактивных систем робототехники. Наряду с методами распознавания зрительных образов (мимики, жестов и т.д.) основополагающими остаются направления исследований в области акустико-семантического контента, включающего профильные базы данных, базы знаний, алгоритмы управления коммуникативным актом, а также типом и степенью интерактивности.

Ученые записки физического факультета МГУ, № 1, с. 2010201-1_-2010201-3 (2020) | Рубрика: 13.05

 

Городный В.А., Ляксо Е.Е. «Временные и частотные характеристики речи детей 6–7 лет с синдромом Дауна» Ученые записки физического факультета МГУ, № 1, с. 2010203-1_-2010203-6 (2020)

Синдром Дауна является хромосомным заболеванием, для которого характерны особенности строения речевого тракта и мышечная гипотония, влияющие на акустические параметры речевого сигнала. Цель исследования – сравнительный анализ временных и частотных характеристик речи детей с синдромом Дауна. В исследовании приняли участие 20 детей 6–7 лет: с синдромом Дауна (СД, n=10) и типично развивающиеся (ТР, n=10). Запись и анализ речи детей проведены по методике, разработанной в Группе по изучению детской речи СПбГУ. Спектрографический анализ речи детей осуществлен в звуковом редакторе «Cool Edit Pro 2.0». Для слов и гласных из слов детей определены значения длительности и частоты основного тона (ЧОТ). Определяли значения формант, считали значения площадей формантных треугольников гласных и индексы артикуляции гласных. Показано, что длительности слов, ударных и безударных гласных в словах детей с СД значимо выше, по сравнению с соответствующими характеристиками речи ТР детей. Значения ЧОТ слов, ударных и безударных гласных из слов детей с СД выше, чем у ТР сверстников. Для детей с СД характерны низкие значения индекса артикуляции ударных гласных. Значения площадей формантных треугольников безударных гласных в словах выше у детей с СД. Таким образом, в исследовании получены данные об акустических характеристиках речи детей с синдромом Дауна и определены различия между детьми с СД и типично развивающимися детьми.

Ученые записки физического факультета МГУ, № 1, с. 2010203-1_-2010203-6 (2020) | Рубрика: 13.05

 

Гойхбург М.В., Бахшинян В.В., Важыбок А., Вилигес Б., Юргенс Т., Таварткиладзе Г.А. «Корреляция разборчивости речи и частотной разрешающей способности слуха у пациентов после кохлеарной имплантации» Ученые записки физического факультета МГУ, № 1, с. 2010901-1_-2010901-5 (2020)

Одной из наиболее частых жалоб пациентов с двусторонней сенсоневральной глухотой после кохлеарной имплантации (КИ) является ухудшение разборчивости речи в шумной обстановке. При проведении исследований за рубежом была доказана корреляция между разборчивостью речи и спектральной разрешающей способностью слуха (ЧРС) у нормально слышащих испытуемых. Цель исследования: определить корреляцию разборчивости речи в шуме с ЧРС слуха у пользователей КИ. Материалы и методы исследования: для оценки разборчивости речи в шуме использовался международный Ольденбургский фразовый тест RUMatrix, для определения ЧРС слуха - спектрально-временной модулированный гребенчатый тест SMRT (spectral-temporally modulated ripple test). В контрольную группу включено 15 испытуемых без нарушений слуха, которые были исследованы в оригинальной версии тестов и с использованием вокодера. В исследование включено 22 пациента после КИ, использующих системы производства фирмы «Cochlear», с опытом использования системы КИ более 3 лет. Результаты: проведенное исследование в контрольной группе выявило высокую корреляцию результатов SMRT-теста и RUMatrix. Группа пациентов после КИ состояла из пре- и постлингвально оглохших пациентов. В группе постлинально оглохших пациентов была выявлена корреляция между разборчивостью речи в шуме и ЧРС слуха (R2=0,55), в прелингвальной группе данная корреляция не выявлена (R2=0,03). Выводы: SMRT-тест коррелирует с данными речевой аудиометрии, что позволяет использовать его для оценки результатов реабилитации пациентов вне зависимости от уровня речевого развития.

Ученые записки физического факультета МГУ, № 1, с. 2010901-1_-2010901-5 (2020) | Рубрика: 13.05

 

Гутова С.Ю. «≈700 Гц в русской аутентичной певческой фонации» Ученые записки физического факультета МГУ, № 1, с. 2011101-1_-2011201-5 (2020)

Приведены данные по экспериментальному измерению акустического сигнала вокальной речи русских этнопевцов методом слоговой артикуляции. В исследовании участвовали три группы исполнителей – традиционные певцы из различных регионов России, профессиональные и полупрофессиональные исполнители, работающие в фольклоризированной манере, и ученики автора. Для объективности анализировались 12 образцов фольклорных песен, исполненных аутентичными певцами и «перепетых» фольклоризированными исполнителями. Установлено, что в аутентичном голосе обнаруживается устойчивое присутствие частоты колебания в ≈700 Гц (это 698, 46 Гц – по таблице А. Веркмейстера, 700 Гц или немного выше). Есть основания полагать, что данная частота, являющаяся первой гармоникой к основному тону f в данном случае первой октавы и находящаяся на стыке низкой и средней певческих формант, имеет важное значение для обертоново-резонансного раскрашивания русского традиционного этнозвука. Выявлено, что ≈700 Гц: • проявляются на ноте f независимо от октавного расположения и всегда динамически активнее других гармоник; • присущи рече-певческой позиции, т. е. диалектной вокальной речи; • влияют на эстетические качества певческого звука. На ≈700 Гц: • выстраиваются обертоны натурального звукоряда, а также образуются специфические обертоны, которые проявляются при особых акустических условиях на длинных звуках-интонемах; • усиливается резонансное свойство звука; • межформантные области более плотные и насыщены гармониками. В фольклоризированном голосе эта частота присутствует только в 40% случаев, а в аутентичном – 90%. Эксперимент с усилением частоты ≈700 Гц на учащихся показал возможность обучения по методике гармонического усиления для улучшения вокального звука. Исходя из данных эксперимента и трудов других исследователей следует, что ≈700 Гц связаны с биофизическими свойствами рече-дыхательной системы, а значит, данная частота является природным акустическим механизмом.

Ученые записки физического факультета МГУ, № 1, с. 2011101-1_-2011201-5 (2020) | Рубрика: 13.05