Зверев В.А., Малеханов А.И. «К вопросу о звучании речи и фортепиано» Акустический журнал, 70, № 2, с. 283-288 (2024)
Рассмотрен вопрос слухового восприятия звуков речи и фортепиано, имеющих относительно слабый уровень основного тона на фоне высоких гармоник (формант голосовых связок и обертонов струны, соответственно). Показано, что слышимый спектр этих звуков является спектром огибающей интерференции колебаний соответствующих гармоник. Этот спектр содержит основной тон как доминирующий звук, который хорошо слышен в речи и в музыке, в то время как форманты и обертоны, изначально доминирующие в спектре звука речи и музыки, влияют преимущественно на тембр основного тона. На уровне гипотезы указано, что огибающая интерференции колебаний выделяется (детектируется) при этом в результате распространения звуковых волн в нелинейной среде жидкости улитки внутреннего уха.
Акустический журнал, 70, № 2, с. 283-288 (2024) | Рубрики: 11.08 13.05
Karamyan D.S. «Adaptive noise cancellation for robust speech recognition in noisy environments» Ученые записки Ереванского государственного университета, физико-математических наук, 58, № 1, с. 22-29 (2024)
Рассматриваются проблемы, которые появляются при объединении моделей шумоподавления и автоматического распознавания речи (АРР). Когда эти модели объединяются напрямую, производительность распознавания слов часто страдает из-за изменения распределения входных данных. Чтобы преодолеть это ограничение, в данной статье рассматривается новый метод объединения этих моделей, который повышает способность модели АРР хорошо работать в шумной среде. Ключевой особенностью предлагаемого метода является введение механизма управления агрессивностью шумоподавления. Этот механизм позволяет настроить процесс снижения шума в соответствии с конкретными требованиями модели АРР без необходимости какого-либо переобучения. Это преимущество делает данный метод применимым к любой модели АРР, облегчая его реализацию в практических сценариях.
Ученые записки Ереванского государственного университета, физико-математических наук, 58, № 1, с. 22-29 (2024) | Рубрика: 13.05
Пономарёв К.Г., Верещагина Е.А. «Математический аппарат и технологическая инфраструктура системы прогнозирования голосовых дипфейков» Инженерный вестник Дона, № 6, http://www.ivdon.ru/uploads/article/pdf/IVD_24N6y24_Ponomarev_Vereshagina.pdf_305bc85b2d.pdf (2024)
Рассмотрены математические модели по сбору и обработке голосового контента, на основании которых разработана принципиально-логическая схема системы прогнозирования синтетических голосовых дипфейков. Проведены эксперименты выбранных математических формул и наборов библиотек языка программирования «Python», позволяющих проводить в режиме реального времени анализ звукового контента в организации. Рассмотрены программные возможности нейронных сетей по выявлению голосовых дипфейков и сгенерированной синтетической (искусственной) речи и определены основные критерии исследования голосовых сообщений. По результатам проведенных экспериментов сформирован математический аппарат, необходимый для положительных решений задач по выявлению голосовых дипфейков. Сформирован перечень технических стандартов, рекомендованных для сбора голосовой информации и повышению качества информационной безопасности в организации.
Инженерный вестник Дона, № 6, http://www.ivdon.ru/uploads/article/pdf/IVD_24N6y24_Ponomarev_Vereshagina.pdf_305bc85b2d.pdf (2024) | Рубрика: 13.05
Петряшин И.Е., Юдин Д.А. «Нейросетевая детекция голосовой активности для распознавания речи в реальном времени (» Труды Московского физико-технического института (государственного университета) (МФТИ), 15, № 4(60), с. 49-57 (2023)
Исследуется задача распознавания речи в зашумленной среде в реальном времени. Предлагается оригинальный подход адаптации современных нейросетевых алгоритмов детекции голосовой активности RealVADR для решения задачи распознавания речи в реальном времени с использованием обработки интервалов звука. Рассматривается влияние параметров данного алгоритма на качество распознавания речи, а также методы оптимизации его параметров. Проведены эксперименты как на существующем открытом наборе данных CommonVoice, так и на нескольких собственных наборах данных, собранных в шумной робототехнической среде. Они показали, что применение предложенного подхода позволяет получить в реальном времени качество распознавания, сравнимое с офлайн-распознаванием.
Труды Московского физико-технического института (государственного университета) (МФТИ), 15, № 4(60), с. 49-57 (2023) | Рубрика: 13.05
Куражова А.В. «Речь взрослых в разных эмоциональных состояниях: временные и спектральные характеристики» Акустический журнал, 70, № 1, с. 104-112 (2024)
Работа направлена на определение индивидуальных особенностей речи взрослых в разных эмоциональных состояниях. Изучены акустические характеристики речи 12 взрослых носителей русского языка. Проведена аудиозапись речи информантов при произнесении текста-бессмыслицы в эмоциональных состояниях: радость, гнев, печаль, страх, нейтральное. Временные и спектральные характеристики речи анализировали в звуковом редакторе Cool Edit Pro. В речи мужчин максимальный диапазон частоты основного тона выявлен в высказываниях, произнесенных в нейтральном состоянии и состоянии радости, минимальный – в состоянии печали. Для женской речи – максимальный диапазон частоты основного тона в состоянии радости и в состоянии гнева, наименьший – в состоянии печали и в нейтральном состоянии. Диапазон частоты основного тона в женской речи больше, по сравнению с мужской. Для 7 информантов показано, что длительность высказываний в состоянии печали была больше по сравнению с другими состояниями, а в состоянии радости – минимальна. Как мужские, так и женские высказывания в состоянии радости характеризовались максимальными значениями диапазона частоты основного тона, в состоянии печали, наоборот минимальными, паузы между словами в высказываниях в состоянии печали выявлены как у мужчин, так и у женщин. Таким образом, выявлены различия во временных и спектральных характеристиках высказываний в разных эмоциональных состояниях. Определены индивидуальные особенности проявления эмоционального состояния в речи взрослых.
Акустический журнал, 70, № 1, с. 104-112 (2024) | Рубрики: 13.05 13.06
Макаров И.С., Осипов Д.С. «Распознавание личности по голосу на базе параметров спектральной модели голосового источника» Акустический журнал, 70, № 1, с. 113-119 (2024)
Исследована информативность параметров спектральной модели голосового источника в задаче автоматического распознавания личности по голосу. Для голосовых параметров ошибка распознавания личности составила 20.8%; совместное использование этих параметров с периодом основного тона понизило ошибку до 13.8%. Наконец, совместное использование параметров спектральной модели с периодом основного тона и мелчастотными кепстральными коэффициентами обеспечило наивысшую точность (ошибка распознавания составила 1.2%).
Акустический журнал, 70, № 1, с. 113-119 (2024) | Рубрики: 13.05 13.06