Российский фонд
фундаментальных
исследований

Физический факультет
МГУ им. М.В.Ломоносова
 

13.05 Речеобразование и восприятие речи

 

Макаров И.С. «Преобразование "цепочка фонем"–"речь" в динамических моделях: обзор» Вопросы языкознания, № 1, с. 128-155 (2024)

Обзор посвящен динамическим моделям преобразования дискретной цепочки фонем в непрерывный речевой поток. Обсуждаются ключевые для современных динамических моделей понятия: артикуляционная модель, управляющие параметры, целевые артикуляции, артикуляционные жесты, принцип экономии произносительных усилий и проч. Излагаются результаты исследований специалистов Хаскинских лабораторий (артикуляционная фонология, task-dynamic-модель), а также японских исследователей (преимущественно Waseda University). Обзор иллюстрируется как модельными примерами, так и реальными артикуляционными измерениями на базе микролучевой рентгеноскопической установки. DOI: 10.31857/0373-658X.2024.1.128-155

Вопросы языкознания, № 1, с. 128-155 (2024) | Рубрика: 13.05

 

Петров А.М., Киселёва Н.А., Кузнецов А.В., Воронцова Е.Г., Логинов С.В., Кузнецов В.П. «Применение акустического расчёта при определении параметров речевого оповещателя СОУЭ в тоннелях» Известия Тульского государственного университета. Технические науки, № 7, с. 186-188 (2024)

Рассмотрены основные особенности систем оповещения и управления эвакуацией для сооружений тоннельного типа. Приведён порядок определения величин параметров речевых оповещателей для таких систем в рамках акустического расчёта.

Известия Тульского государственного университета. Технические науки, № 7, с. 186-188 (2024) | Рубрики: 13.05 14.02

 

Рудакова П.А., Семенов Т.А. «Распознавание эмоций в звуках толпы посредством анализа спектрограмм сверточными нейронными сетями» Известия Тульского государственного университета. Технические науки, № 10, с. 313-316 (2024)

Предлагается метод распознавания эмоций в звуках толпы с использованием сверточных нейронных сетей (CNN) и трансферного обучения. Аудиозаписи толпы преобразуются в мелспектрограммы, которые затем подаются на предварительно обученную сеть AlexNet, модифицированную для классификации эмоциональных состояний толпы (одобрение, неодобрение, нейтральность). Проведенные эксперименты на наборе данных Emotional Crowd Sound показали высокую точность распознавания эмоций – 92,54%. Результаты подтверждают эффективность предложенного подхода и указывают на возможность его применения для анализа массовых аудиопотоков в реальных условиях. В заключении обсуждаются перспективы использования различных спектральных шкал и расширения метода на другие наборы данных.

Известия Тульского государственного университета. Технические науки, № 10, с. 313-316 (2024) | Рубрика: 13.05

 

Симонова Т.В. «Towards a typology of echo questions» Вестник Российской академии наук (РАН), 95, № 3, с. 7-29 (2025)

За последние полвека важную роль в развитии синтаксической теории сыграли работы, посвященные анализу вопросов, однако исследованию эхо-вопросов уделялось довольно мало внимания. В данной статье я проанализировалa материал 32 языков из пяти макроареалов и описала стратегии, которые могут использоваться в этих языках для образования эхо-вопросов разных типов. Данные были взяты из серии описательных грамматик, в основе которых лежит анкета для описательных лингвистических исследований, разработанная Б. Комри и Н. Смитом (1977). Я рассматриваю эхо-вопрос как конструкцию передачи чужой речи, но с вопросительной иллокутивной силой и считаю стратегией образования эхо-вопроса набор свойств, которые отличают его от предложения-стимула. Каждая из стратегий представляет собой комбинацию трех параметров: 1) способ маркирования той части предложения, которая вводит цитату (М-часть); 2) способ маркирования вопросительной составляющей эхо-вопроса; 3) наличие или отсутствие мены дейктических местоимений. М-часть может быть отдельной клаузой, при этом цитата (R-часть) может оформляться формально зависимой или не зависимой от М-части клаузой. М-часть также может выражаться аффиксом, клитикой, частицей или оставаться невыраженной. Вопросительная часть эхо-вопроса маркируется с помощью интонации или вопросительного элемента (аффикса, клитики или вопросительного слова). Среди языков моей выборки наиболее частотны те стратегии, в которых М-часть остается невыраженной. DOI: 10.31857/0373-658X.2025.3.7-29

Вестник Российской академии наук (РАН), 95, № 3, с. 7-29 (2025) | Рубрика: 13.05

 

Мельников Н.С., Маляр Л.В., Костевич И.В., Козлов А.Г. «Разработка алгоритма для проведения тестирования слухового импланта во время операции кохлеарной имплантации» Биомедицинская радиоэлектроника, 28, № 1, с. 53-63 (2025)

Постановка проблемы. Автоматизированные машинные алгоритмы производителей систем кохлеарной имплантации, разработанные для определения электрически вызванного потенциала действия слухового нерва, в том числе интраоперационно, могут не во всех случаях его определить ввиду ограниченности параметров стимуляции и регистрации слухового импланта, что может поставить под сомнение корректность установки импланта во время операции. Цель. Разработка алгоритма, позволяющего автоматизировать процесс тестирования слухового импланта модели CI 612 производителя Cochlear®, с учетом всех его особенностей во время операции кохлеарной имплантации: вычисление импедансов электродов пучка, введенного в улитку внутреннего уха, для оценки короткого замыкания или разомкнутой цепи (первый этап), регистрация электрически вызванного потенциала действия слухового нерва с помощью машинного алгоритма AutoNRT (второй этап), в случае неуспешности второго этапа проведение регистрации по созданному шаблону в режиме Advanced NRT (третий этап), формирование 2D графика в цветовой кодировке, включающего значения трансимпедансов внутриулитковых электродов для качественной оценки перегиба и загиба кончика пучка электродов (четвертый этап). Результаты. У каждого из 20 пациентов протестированы 5 электродов, выбранных с почти равным шагом между собой вдоль электродного пучка. На 99 электродах определен потенциал действия с помощью AutoNRT; на 100 электродах с помощью шаблона. Анализ числовых характеристик временых зависимостей потенциалов показал однородность результатов и их слабую степень разнообразия. Анализ 2D графиков показал отсутствие перегиба и загиба кончика пучка. Обработка результатов измерений проведена в MS Excel. Практическая значимость. Разработанный алгоритм внедрен в клиническую практику центра для повышения качества операций. Использование 2D графика в цветовой кодировке позволит также исключить проведение КТ, рентгенографического снимка во время операции при необходимости, что существенно сократит время тестирования и нахождение пациента под общей анестезией, исключит дополнительные финансовые расходы.

Биомедицинская радиоэлектроника, 28, № 1, с. 53-63 (2025) | Рубрика: 13.05

 

Алимурадов А.К., Тычков А.Ю., Симакова О.С., Мамонова А.А., Юлдашев З.М., Темирова Д.А. «Технология сегментации «сигнал/пауза» на основе анализа уровня смешивания фрагментов речевых сигналов» Биомедицинская радиоэлектроника, 28, № 2, с. 38-43 (2025)

Постановка проблемы. Сегментация «сигнал/пауза» представляет собой ключевую задачу в области обработки речевых сигналов, заключающуюся в определении точных границ между речью и паузами. Влияние такого фактора, как фоновый шум, существенно затрудняет данный процесс, поскольку может искажать истинные границы сегментов речи и пауз. Необходимо разработать надежную технологию сегментации, обеспечивающую высокую достоверность определения речевых сегментов в присутствии фонового шума. Цель. Разработать и исследовать технологию сегментации «сигнал/пауза», позволяющую эффективно различать уровни смешивания фрагментов речевого сигнала и достоверно определять границы сегментов речи и пауз. Результаты. Получены данные, демонстрирующие высокий уровень достоверности определения границ речи и пауз. Наилучшие результаты сегментации, с ошибками 1,8% и 0,9%, достигнуты при сравнении с значениями среднего уровня смешивания фрагментов и медианы первых 20 фрагментов, соответствующих начальной паузе с фоновым шумом. Практическая значимость. Предложенная технология сегментации «сигнал/пауза» имеет достаточную практическую ценность, поскольку ее применение позволяет существенно повысить достоверность в режиме реального времени и понизить вычислительную нагрузку. Это особенно важно для речевых приложений, обеспечивающих взаимодействия человека с компьютером посредством голосовых интерфейсов.

Биомедицинская радиоэлектроника, 28, № 2, с. 38-43 (2025) | Рубрика: 13.05

 

Власов Р.С., Козлов И.А., Афанасьев А.А., Питолин А.В. «Идентификация речевых пауз в условиях сложной акустической помеховой обстановки» Вестник Воронежского государственного технического университета, 18, № 3, с. 106-112 (2022)

Изложены материалы по исследованию возможностей определения пауз в речевом сигнале при условии акустического зашумления на входе микрофона. Необходимость в таких исследованиях обусловлена некорректной работой детектора голосовой активности при кодировании речи по алгоритму G.729. Данное обстоятельство не позволяет эффективно использовать избыточность РС, связанную с наличием пауз, в задачах повышения качественных показателей систем передачи речи. Причинами некорректной работы существующих детекторов голосовой активности является принятие паузы в речевом сигнале как стационарного случайного процесса. При отсутствии интенсивных помех распределение отсчетов неактивных участков речевого сигнала действительно носит квазистационарный характер. Однако в условиях интенсивных акустических шумов временные интервалы, на которых вероятностные характеристики не претерпевают значительных изменений, существенно меньше, чем средняя протяженность речевых пауз. Это не позволяет считать такие участки речевого сигнала квазистационарными. Тем не менее вероятностные распределения отсчетов, составляющих паузы в условиях ИАВ, и активных участков РС отличаются. Предлагается использовать данные отличия при идентификации пауз в условиях акустических шумов

Вестник Воронежского государственного технического университета, 18, № 3, с. 106-112 (2022) | Рубрика: 13.05

 

Власов Р.С., Сиренький Е.И., Афанасьев А.А., Питолин А.В. «Алгоритм выделения пауз в речевом сигнале при интенсивных акустических воздействиях» Вестник Воронежского государственного технического университета, 19, № 1, с. 94-104 (2023)

Представлены материалы по исследованию возможностей использования методов последовательной статистики для определения пауз в зашумленном речевом сигнале (РС). Рассмотрены варианты оценок вероятностных характеристик РС, необходимых при использовании критерия Вальда. С целью минимизации ошибок, связанных с неточностью вида вероятностного распределения речевого сигнала, предложен непараметрический способ оценки параметров РС. Охарактеризованы два основных подхода, используемых для непараметрических оценок параметров распределений. Раскрыты особенности распределения отсчетов речевого сигнала, которые являются определяющими в выборе математического аппарата, используемого для оценки вероятностных параметров РС. Представлен алгоритм идентификации пауз РС в условиях интенсивных акустических воздействий. В качестве объектов последовательного статистического анализа были использованы значения отсчетов РС, коэффициенты линейного предсказания (КЛП) и линейные спектральные частоты (ЛСЧ). Приведены результаты работы программы, разработанной на основе представленного алгоритма. Приведенные результаты учитывают различные варианты входных параметров, среди которых значения ограничительных констант критерия Вальда, значения отношения сигнал/шум (ОСШ) исследуемого РС, виды объектов последовательного статистического анализа. В заключении отмечены негативные явления, оказывающие влияние на эффективность подхода, предложены перспективные направления дальнейших исследований

Вестник Воронежского государственного технического университета, 19, № 1, с. 94-104 (2023) | Рубрика: 13.05