Российский фонд
фундаментальных
исследований

Физический факультет
МГУ им. М.В.Ломоносова
 

13.05 Речеобразование и восприятие речи

 

Томозова М.С., Супин А.Я., Нечаев Д.И., Милехина О.Н. «Анализ механизмов обработки сложных звуковых гармонических сигналов в слуховой системе человека» Сборник трудов XXXV сессии Российского акустического общества. Москва, 13–17 февраля 2023 г., с. 744-747 (2023)

Звуковые сигналы с гребенчатым спектром нашли широкое применение в психоакустике. Однако, до этого использовались простые гребенчатые сигналы со спектром, описываемым одной гармонической функцией. В данном исследовании была применена сумма двух гармонических функций для формирования спектра сигнала. Было проведено сравнение двух экспериментальных парадигм. Первая это различение между референтными сигналами с плоским спектром и тестовым сигналом с гребенчатым спектром, вторая это различение между гребенчатыми референтными и тестовыми сигналами. Дополнительный гармонический сигнал имел ту же длину, ширину полосы и уровень, что и основной сигнал. Плотность основного сигнала варьировалась до достижения порога распознавания различия между стимулами, при этом плотность дополнительного сигнала оставалась постоянной. Был использован увеличивающийся ряд плотностей дополнительного сигнала как отдельных экспериментальных точек, а контролем служил стимул, который не содержал дополнительный сигнал. Для плоских референтных сигналов результаты можно было объяснить временным механизмом, когда спектральная картина стимула была неразрешимой. Для гребенчатых референтных сигналов данные можно объяснить схожими паттернами возбуждения улитки.

Сборник трудов XXXV сессии Российского акустического общества. Москва, 13–17 февраля 2023 г., с. 744-747 (2023) | Рубрики: 13.01 13.05 13.06

 

Бибиков Н.Г. «Новые подходы к изучению работы сенсорных систем» Сборник трудов XXXV сессии Российского акустического общества. Москва, 13–17 февраля 2023 г., с. 764-769 (2023)

В последние годы происходит существенная перестройка взглядов многих исследователей на функционирование сенсорных систем человека и животных. В наибольшей степени процесс затрагивает понимание принципов работы слуховой системы в целом, и прежде всего слуховых зон коры головного мозга млекопитающих. Такая ситуация обусловлена двумя основными причинами: 1. внедрением новых методик исследования работы нейронных ансамблей и 2. реальными успехами систем распознавания слитной речи, построенных на основе так называемых глубоких или многоуровневых нейронных сетей. Данные нейросети используют сравнительно простые обучающие алгоритмы, но при этом состоят из громадного числа взаимно связанных друг с другом пороговых элементов. При этом реальный интерес представляют только выходные элементы (или ансамбли связанных между собой элементов), специфически реагирующие на сигнал, использованный при обучении. При этом реакция каждого отдельного элемента искусственной нейросети может быть трудно интерпретируемой. Постулируется аналогия таких глубоких искусственных нейросетей и биологических нейросетей, расположенных, прежде всего, в коре головного мозга млекопитающих. В данной работе некоторые из указанных соображений иллюстрируются на примере активности нейрональных ансамблей слуховой коры кошки, не подвергавшейся никаким фармакологическим процедурам и находившейся в состоянии спокойного бодрствования, дремоты или естественного сна.

Сборник трудов XXXV сессии Российского акустического общества. Москва, 13–17 февраля 2023 г., с. 764-769 (2023) | Рубрики: 13.01 13.05 13.08

 

Кедрова Г.Е., Анисимов Н.В. «Роль дыхательных пауз при чтении поэтического текста (по данным онлайновой МРТ лёгких)» Сборник трудов XXXV сессии Российского акустического общества. Москва, 13–17 февраля 2023 г., с. 100-105 (2023)

Представлены результаты изучения дыхательных стратегий русскоговорящих дикторов при чтении поэтического текста. Исследование распределения дыхательных пауз проводилось с использованием оригинальных протоколов, оптимизированных для МРТ-визуализации работы лёгких в режиме онлайн при речепроизводстве. Анализ полученных МРТ-изображений обнаруживает достаточно высокую степень постоянства дыхательных операций, выполняемых говорящим в процессе чтения поэтического текста. Показано, что: 1) в процессе производства речи объём воздуха в лёгких поддерживается говорящим на протяжении всех фонационных периодов в большем объеме, чем при свободном дыхании в покое; 2) дыхательные паузы регулярно используются говорящим как восстановления исходного объёма лёгких; 3) для увеличения объёма лёгких в процессе фонации говорящий может использовать разные операционные стратегии; 4) при коротких паузах реализуется модель незначительного расширения лёгких для оперативной «подкачки» воздуха.

Сборник трудов XXXV сессии Российского акустического общества. Москва, 13–17 февраля 2023 г., с. 100-105 (2023) | Рубрика: 13.05

 

Потапова Р.К., Потапов В.В., Курьянова И.В. «Акустико-аудитивный анализ голоса и речи в криминалистических целях» Сборник трудов XXXV сессии Российского акустического общества. Москва, 13–17 февраля 2023 г., с. 106-111 (2023)

Решение основополагающих задач современной криминалистики (идентификация и верификация человека по голосу и речи, а также составление речевого портрета говорящего) базируется на всестороннем исследовании фонограмм акустическими и перцептивно-слуховыми методами в рамках фоноскопической экспертизы. В ходе проведения фоноскопической экспертизы могут возникнуть различные вопросы, основным из которых является идентификация личности по устной речи и атрибуция речевых высказываний конкретному говорящему. В настоящее время сфера применения судебной фонетики и акустики речи становится все более востребованной, при этом еще остается круг проблем, который требует от специалистов дополнительных глубоких исследований. Актуальной и крайне сложной для современной криминалистики в течение длительного времени является проблема исследования иноязычной речи на незнакомом эксперту языке (в частности, таджикском, цыганском, узбекском и азербайджанском). При этом наибольшую сложность при решении поставленной задачи представляет необходимость привлечения высококвалифицированного лингвиста, владеющего всеми тонкостями криминалистической идентификации человека по голосу и речи (акустическими и лингвистическими методами анализа фонограмм) и исследуемым национальным языком. Особенно эта задача усложняется при исследовании мало изученных с учетом лингвистической специфики анализируемых языков, в частности, цыганского. В связи с этим наиболее перспективными являются предлагаемые в настоящей работе комплексные языконезависимые автоматические и автоматизированные методы, позволяющие исследовать сегментные и супрасегментные параметры речевого сигнала экспертом, не владеющим языком, на котором говорит подозреваемый.

Сборник трудов XXXV сессии Российского акустического общества. Москва, 13–17 февраля 2023 г., с. 106-111 (2023) | Рубрика: 13.05

 

Панченко А.А., Кравчук Д.А. «Диагностика психофизиологического состояния человека на основе речевого сигнала» Сборник трудов XXXV сессии Российского акустического общества. Москва, 13–17 февраля 2023 г., с. 112-117 (2023)

В настоящее время все большую популярность получает методика автоматического контроля психофизиологического состояния человека по речевому сигналу. Использование для контроля именно речевого сигнала не нарушает и не изменяет деятельности человека, позволяя осуществлять непрерывную и дистанционную проверку. Свойства речи человека изменяются вместе с состоянием человека при психических и когнитивных нарушениях. Именно поэтому задача автоматического контроля психоэмоционального состояния так актуальна, особенно для представителей тех профессией, чья деятельность непосредственно связана с другими людьми (водители, машинисты, контролеры и т.д.). Исследование голосового сигнала возможно не только в режиме реального времени, но и по записи сигнала. По данным множества исследований, было выявлено, что понижение вероятности распознавания эмоций при инверсии записи речи составляет не больше 15%. Можно сделать вывод о том, что особенности психоэмоционального состояния кодируются в речевом сигнале независимо от его семантического элемента. И если речевой сигнал несет в себе нужную информацию для определения состояния человека специалистом, то очень вероятно, что нахождение характеристик этого сигнала для диагностики будет возможным.

Сборник трудов XXXV сессии Российского акустического общества. Москва, 13–17 февраля 2023 г., с. 112-117 (2023) | Рубрика: 13.05

 

Клешнев Е.А., Ляксо Е.Е. «Отражение эмоционального состояния детей 7–8 лет в характеристиках голоса» Сборник трудов XXXV сессии Российского акустического общества. Москва, 13–17 февраля 2023 г., с. 118-123 (2023)

Данное исследование сосредоточено на изучении отражения эмоциональных состояний в речи детей. Целью исследования стало определение акустических характеристик эмоциональной речи русских детей 7–8 лет и выявление связи между акустическими характеристиками речи и распознаванием аудиторами эмоциональных состояний детей. В исследовании приняли участие 10 детей (5 – мальчиков, 5 – девочек) и 40 аудиторов. Проводили запись речи в модельных ситуациях – диалог с экспериментатором и «актерская» речь – произнесение слов, фраз, текстов бессмыслиц в эмоциональных состояниях «радость–нейтральное (спокойное) состояние–печаль–гнев–страх». Составлены три тестовые последовательности для распознавания аудиторами эмоционального состояния детей. Осуществлен спектрографический анализ речи детей в программе «Cool Edit Pro». Проанализированы значения частоты основного тона, минимальные и максимальные значения частоты основного тона, определены значения интенсивности, значения формант ударных гласных в ударных словах, посчитан индекс артикуляции ударных гласных для каждого эмоционального состояния. Показаны различия в акустических характеристиках речевого материала, характеризующего разные эмоциональные состояния детей.

Сборник трудов XXXV сессии Российского акустического общества. Москва, 13–17 февраля 2023 г., с. 118-123 (2023) | Рубрика: 13.05

 

Ляксо Е.Е., Фролова О.В., Матвеев А.Ю., Матвеев Ю.Н. «Отражение эмоционального состояния в характеристиках речи и мимике детей с расстройствами аутистического спектра» Сборник трудов XXXV сессии Российского акустического общества. Москва, 13–17 февраля 2023 г., с. 124-129 (2023)

С целью изучения особенностей эмоциональной сферы детей с расстройствами аутистического спектра (РАС) проведена серия экспериментов по определению эмоционального состояния детей по речевым сигналам и мимической экспрессии (перцептивный эксперимент и автоматическое распознавание), проанализированы акустические характеристики эмоциональной речи. Запись поведения, мимики и речи проведена при тестировании детей c РАС по методике Оценки Эмоционального Развития Детей (CEDM). В исследовании приняли участие 45 детей в возрасте 5-16 лет и 180 взрослых, участвующих в перцептивном эксперименте. Инструментальный анализ речи проведен в программе “Cool Edit Pro”, автоматический анализ мимической экспрессии в программе FaceReader, речи – с использованием акустических признаков, извлекаемых из набора GeMAPS и eGeMAPS. Показано, что при прослушивании речи детей состояние дискомфорта взрослые лучше определяют (78% правильных ответов), чем состояние комфорта (67%). Средняя точность автоматического распознавания эмоциональных состояний по речи детей: набор GeMAPSv01b accuracy – 0,687; набор eGeMAPSv01b accuracy – 0,671. Определено, что речевые сигналы, отражающие разные эмоциональные состояния, различаются по значениям частоты основного тона, ее вариативности и длительности. Автоматически и по видео тестам взрослыми лучше распознается нейтральное (спокойное) состояние детей по сравнению с другими состояниями. Обсуждается необходимость использования мультимодальных данных для более точного определения эмоциональных состояний детей с РАС.

Сборник трудов XXXV сессии Российского акустического общества. Москва, 13–17 февраля 2023 г., с. 124-129 (2023) | Рубрика: 13.05

 

Николаев А.С. «Распознавание психоневрологического состояния детей с расстройствами аутистического спектра по характеристикам речи» Сборник трудов XXXV сессии Российского акустического общества. Москва, 13–17 февраля 2023 г., с. 130-135 (2023)

Цель исследования – изучение распознавания взрослыми психоневрологического состояния детей с расстройствами аутистического спектра (РАС), n=35, и типично развивающихся (ТР) детей, n=47, в возрасте 5-14 лет. Проведён перцептивный анализ, в котором приняли участие взрослые носители русского языка (аудиторы), n=206. Для перцептивного анализа созданы тестовые последовательности (аудиотесты), содержащие фразы детей с РАС и ТР детей, отобранные из записей спонтанной речи. Перед аудиторами стояла задача на основе слухового восприятия определить психоневрологическое состояние ребёнка: типичное – атипичное развитие. Проведён спектрографический анализ фраз детей с РАС и ТР детей. Фразы детей с РАС характеризуются более низкой по сравнению с фразами ТР детей скоростью речи, меньшим количеством слов, большей длительностью ударных и безударных гласных, более высокими значениями частоты основного тона (ЧОТ) по фразе, слову, ударному и безударному гласному.

Сборник трудов XXXV сессии Российского акустического общества. Москва, 13–17 февраля 2023 г., с. 130-135 (2023) | Рубрика: 13.05

 

Фролова О.В. «Отражение эмоционального состояния в речи детей с умственной отсталостью» Сборник трудов XXXV сессии Российского акустического общества. Москва, 13–17 февраля 2023 г., с. 136-141 (2023)

Исследование проведено в рамках разработки подхода к диагностике эмоциональной сферы у детей с атипичным развитием и нарушениями развития. Цель исследования – выявить особенности отражения эмоционального состояния в речи детей с умственной отсталостью (УО), воспитывающихся в условиях детского дома. Произведена аудио и видео запись речи и поведения 20 детей 5–11 лет с умственной отсталостью при взаимодействии с экспериментатором и сверстниками. Осуществлен акустический анализ эмоциональной речи детей с использованием программы «Cool Edit Pro» и проведены перцептивные эксперименты, направленные на оценку возможности распознавания группами взрослых (аудиторов) эмоционального состояния детей при прослушивании их речи. Дополнительно выполнена оценка мимической экспрессии детей в программе «FaceReader» и их поведения. Анализ мимической экспрессии показал, что большую часть времени дети с УО находятся в нейтральном эмоциональном состоянии, реже – в состоянии радости. По речи детей аудиторы распознают состояния комфорта и дискомфорта лучше, чем нейтральное состояние. Определены акустические характеристики эмоциональных высказываний детей. Речь детей с УО в ситуации взаимодействия со сверстниками более эмоциональна, чем при общении с экспериментатором. Полученные данные могут быть использованы в дальнейшем при создании систем автоматического распознавания эмоционального состояния детей с УО по речи и для разработки стандартизированной методики оценки сформированности эмоциональной сферы ребенка.

Сборник трудов XXXV сессии Российского акустического общества. Москва, 13–17 февраля 2023 г., с. 136-141 (2023) | Рубрика: 13.05

 

Павликова М.И. «Интонационные характеристики речи детей младшего школьного возраста в норме и с умственной отсталостью» Сборник трудов XXXV сессии Российского акустического общества. Москва, 13–17 февраля 2023 г., с. 142-147 (2023)

Целью работы было сравнить интонационные характеристики речи типично развивающихся (ТР) детей и детей с легкой формой умственной отсталости (УО) в периоды дошкольного и младшего школьного возраста. В работе использовали перцептивный и инструментальный анализ речи 30 детей, записанной в ходе диалога со взрослым. Перцептивный анализ позволил установить, что дети с ТР отвечают, главным образом, повествовательными предложениями, тогда как дети с УО достоверно чаще употребляют восклицательные предложения. Дети с УО часто произносили фразы, смысл которых был не понятен. Точность определения интонационно выделенных слов у детей с УО меньше, чем у детей с ТР. В обеих группах детей к более старшему возрасту в 100% случаев сформировалось словесное ударение за счет повышенной длительности ударных гласных. Скачки тона на ударных гласных у ТР детей снижаются с возрастом. У детей с УО выражены более значительные колебания тона, связанные с ударением. Также речь детей с УО характеризуется повышенными параметрами ЧОТ. В целом, в младшем школьном возрасте у детей с УО по интонационным характеристикам наблюдается отставание на 2–3 года от детей с ТР. Полученные данные могут быть использованы в компьютерных программах для коррекции речи детей.

Сборник трудов XXXV сессии Российского акустического общества. Москва, 13–17 февраля 2023 г., с. 142-147 (2023) | Рубрика: 13.05

 

Куражова А.В. «Акустические характеристики речи взрослых в разных эмоциональных состояниях» Сборник трудов XXXV сессии Российского акустического общества. Москва, 13–17 февраля 2023 г., с. 148-153 (2023)

Цель работы – определить временные и спектральные характеристики высказывания, которые позволяют распознать эмоциональное состояние человека по речи. В исследовании принимали участие 12 взрослых носителей русского языка. Проводилась аудиозапись актерской речи информантов при произнесении текста – бессмыслицы в разных эмоциональных состояниях: радость, гнев, печаль, страх, нейтральное. Анализ временных и спектральных характеристик речи проводили в звуковом редакторе Cool Edit Pro. Максимальный диапазон ЧОТ (частоты основного тона) в мужской речи выявлен в высказываниях, произнесенных в нейтральном состоянии и состоянии радости, минимальный – в состоянии печали. Для женской речи – максимальный диапазон ЧОТ в состоянии радости и в состоянии гнева, наименьший – в состоянии печали и в нейтральном состоянии. Диапазон ЧОТ в женской речи больше, по сравнению с мужской. Для нескольких информантов показано, что длительность высказываний в состоянии печали была больше по сравнению с другими состояниями, а в состоянии радости наоборот минимальна. Таким образом, выявлены различия во временных и спектральных характеристиках высказываний в разных эмоциональных состояниях. Как мужские, так и женские высказывания в состоянии радости характеризовались максимальными значениями диапазона ЧОТ, в состоянии печали, наоборот минимальными, паузы между словами в высказываниях в состоянии печали выявлены как у мужчин, так и у женщин.

Сборник трудов XXXV сессии Российского акустического общества. Москва, 13–17 февраля 2023 г., с. 148-153 (2023) | Рубрика: 13.05

 

Потапова Р.К., Потапов В.В., Померанцев Н.Д. «Фоносемантика и возможности ее современной интерпретации» Сборник трудов XXXV сессии Российского акустического общества. Москва, 13–17 февраля 2023 г., с. 153 (2023)

Сборник трудов XXXV сессии Российского акустического общества. Москва, 13–17 февраля 2023 г., с. 153 (2023) | Рубрика: 13.05

 

Махныткина О.В., Волошина Т.А. «Методы распознавания эмоций человека на основе анализа речи и текстов» Сборник трудов XXXV сессии Российского акустического общества. Москва, 13–17 февраля 2023 г., с. 154-159 (2023)

Рассматриваются основные подходы к автоматическому распознаванию эмоций и анализу настроений человека на основе анализа текста и речи с применением методов машинного обучения. Анализ настроений направлен на выявление позитивных, негативных и нейтральных состояний, в то время как распознавание эмоций нацелено на выявление гнева, отвращения, радости, страха, удивления, грусти и проч. Представлен обзор наборов данных эмоциональной речи, содержащих аннотирование данных на основе дискретных и непрерывных моделей эмоций. Особое внимание уделено анализу методов предварительной обработки и методов извлечений признаков из текстов и речи. Кратко описаны методы машинного обучения и глубокие нейронные сети для создания моделей распознавания эмоций и приведен сравнительный анализ производительности для различных подходов для наборов данных IEMOCAP, MOSI, MOSEI, MELD.

Сборник трудов XXXV сессии Российского акустического общества. Москва, 13–17 февраля 2023 г., с. 154-159 (2023) | Рубрика: 13.05

 

Григорьев А.С. «Использование метода электроглоттографии для оценки эмоционального состояния говорящего» Сборник трудов XXXV сессии Российского акустического общества. Москва, 13–17 февраля 2023 г., с. 160-164 (2023)

Целью работы явилось определение формы ЭГГ волны, значений CQ и значений частоты основного тона (ЧОТ) речевого материала, произнесенного в эмоциональных состояниях радости, печали, страха, гнева и в нейтральном состоянии. Предметом исследования явились электроглоттограммы 12 здоровых испытуемых (6 мужчин и 6 женщин, возраст 25.3±4.5 и 24.5±4.8 лет соответственно). Регистрацию ЭГГ осуществляли с использованием электроглоттографа Model 7050A (VoceVista, Netherlands). В ходе исследования испытуемых просили изображать эмоции при произнесении: слов, фраз, и текстов-бессмыслиц в эмоциональных состояниях радости, печали, страха, гнева и в нейтральном состоянии. Все испытуемые не были профессиональными актерами и не имели актерского образования. Установлено, что значения коэффициента CQ у мужчин максимальны в нейтральном состоянии – 0.98; у женщин – в состоянии грусти – 0.97. Минимальные значения коэффициента CQ у мужчин показаны для состояния страха – 0.81, у женщин – для состояния радости – 0.69. У мужчин состояния гнева и радости характеризуются значимо более высокими значениями ЧОТ, чем нейтральное состояние; у женщин значения ЧОТ значимо выше в состояниях страха, гнева и радости, чем в состояниях грусти и нейтральном состоянии. Значимых различий по значениям ЧОТ между состояниями страха, гнева, радости; нейтральным состоянием и состоянием грусти не выявлено. Описаны преобладающие формы электроглоттографической волны для различных эмоциональных состояний.

Сборник трудов XXXV сессии Российского акустического общества. Москва, 13–17 февраля 2023 г., с. 160-164 (2023) | Рубрика: 13.05

 

Столярова Э.И., Солнушкин С.Д., Чихман В.Н. «Использование аппаратно-программного комплекса «Speech-Assistant» в режиме офлайн и онлайн обучения школьников с нарушениями слуха и речи» Сборник трудов XXXV сессии Российского акустического общества. Москва, 13–17 февраля 2023 г., с. 165-170 (2023)

Приводится описание модифицированного варианта аппаратно- программного комплекса «Speech-Assistant», предназначенного для коррекционно- образовательных занятий и тестирования детей с нарушениями слухоречевой функции, вызывающими трудности овладения навыками чтения и письма. Побудительным стимулом для этой разработки явились карантинные ограничения в связи с ковидом, препятствующие очным учебным занятиям. При этом принимался во внимание положительный опыт использования комплекса при очном обучении школьников 5–9 классов специализированной школы; способность школьников самостоятельно работать с программами комплекса при выполнении учебных заданий; современные возможности доступа к сети Интернет в домашних условиях; опыт дистанционного обучения. В доработанный вариант основной программы комплекса «Aud-Sp-Dis» были включены дополнительные опции: «импорт–экспорт» для интерактивного обучения и обмена учебными материалами между пользователями, а также опция «презентации». Представлены материалы, иллюстрирующие работу базовых и дополнительных опций программы.

Сборник трудов XXXV сессии Российского акустического общества. Москва, 13–17 февраля 2023 г., с. 165-170 (2023) | Рубрика: 13.05

 

Губарева О.Ю., Дашков М.В., Картак В.М., Макаров И.С., Гуреев В.О., Евтушенко А.С. «Потенциальные возможности распознавания голосовых образов по фрагменту речи, зарегистрированному распределенным волоконно-оптическим сенсором» XXV Международная научно-техническая конференция «проблемы техники и технологий телекоммуникаций» ПТиТТ-2023. Том 1. Казань, 22–24 ноября 2023 г., с. 12-13 (2023)

Рассмотрена возможность использовать имеющиеся на контролируемом объекте волоконно-оптические линии связи с установленными на них системами вибро-акустического мониторинга для решения задачи идентификации личности пользователя по акустическим сигналам. Исследованы несколько методик снижения влияния акустических шумов: использование полосового фильтра Баттерворта, метод нормализации энергии по каналам и метод спектрального стробирования. Для идентификации по голосу рассмотрен метод кепстрального анализа. Приведены результаты экспериментальных исследований, на основании которых сделано заключение о том, что метод на основе анализа мел-кепстральных характеристик позволяет идентифицировать пользователя с вероятностью 87%.

XXV Международная научно-техническая конференция «проблемы техники и технологий телекоммуникаций» ПТиТТ-2023. Том 1. Казань, 22–24 ноября 2023 г., с. 12-13 (2023) | Рубрика: 13.05

 

Караулова О.А., Шакурский М.В. «Применение стеганографии для скрытой передачи информации в звуковых потоках в реальном времени» XXV Международная научно-техническая конференция «проблемы техники и технологий телекоммуникаций» ПТиТТ-2023. Том 1. Казань, 22–24 ноября 2023 г., с. 106-107 (2023)

Современный мир сталкивается с различными угрозами информационной безопасности, которые ставят под угрозу конфиденциальность и целостность данных. В этой связи, защита информации является одной из наиболее важных задач в различных областях деятельности. Существует множество методов для защиты информации, но одним из самых эффективных является стеганография – наука о скрытой передаче информации. Она используется для передачи данных, которые должны оставаться незамеченными для посторонних глаз с использованием стеганографических методов. Звук встречается в повседневной жизни, начиная с разговоров по телефону и заканчивая музыкой и видеороликами, в результате чего в последние годы появился большой интерес к изучению аудиофайлов и разработке алгоритмов встраивания и извлечения информации в звуковые потоки в режиме реального времени. Передача информации в режиме реального времени ограничена применением известных алгоритмов. Метод встраивания, используемый в мультимедийных контейнерах (метод меньших битов), может быть применен к контейнерам этого формата, но для лучшей последующей маскировки предлагается использовать двухкомпонентную стеганографическую систему. При исследовании аудиосигналов необходимо учитывать его формат (без сжатия, с сжатием без потерь и с потерями).

XXV Международная научно-техническая конференция «проблемы техники и технологий телекоммуникаций» ПТиТТ-2023. Том 1. Казань, 22–24 ноября 2023 г., с. 106-107 (2023) | Рубрика: 13.05

 

Осипова А.А., Захарова О.И. «Технологии распознавания речи на основе искусственного интеллекта как инструмент для развития навыков коммуникации и ораторского искусства» XXV Международная научно-техническая конференция «проблемы техники и технологий телекоммуникаций» ПТиТТ-2023. Том 1. Казань, 22–24 ноября 2023 г., с. 245-246 (2023)

Технологии распознавания речи на основе искусственного интеллекта (ИИ) могут улучшать навыки коммуникации и ораторского искусства. Уже сейчас такие технологии используются для тренировки речевых навыков, а также анализа, оценки и улучшения ораторских выступлений с обратной связью в режиме реального времени. Так, технологии могут помочь снизить тревожность при публичных выступлениях и повысить у спикера уверенность в себе. Кроме того, технологии распознавания речи помогают преодолевать языковые барьеры, способствуя глобализации коммуникации: позволяют практиковать как произношение, так и грамматику при изучении иностранных языков. Благодаря возможности субтитрования и транскрипции, эти технологии являются доступными для людей с нарушениями слуха. Искусственный интеллект же позволяет персонализировать обучение, что делает его более комфортным, а прогресс изучения быстрым. Несмотря на все преимущества, технологии распознавания речи имеют и свои ограничения. При использовании систем ИИ для восприятия речи необходимо учитывать разнообразие вариантов произношения и озвучивания, а также культурные особенности, которые могут влиять на это. Также необходимо учитывать проблемы конфиденциальности данных, поскольку использование данных человеческой речи в ИИ-системах может вызывать определенные этические вопросы.

XXV Международная научно-техническая конференция «проблемы техники и технологий телекоммуникаций» ПТиТТ-2023. Том 1. Казань, 22–24 ноября 2023 г., с. 245-246 (2023) | Рубрика: 13.05

 

Kurazhova V. «Adult Speech in Different Emotional States: Temporal and Spectral Features» Acoustical Physics, 70, № 1, с. 175-181 (2024)

The aim of the study is to determine individual features of adult speech in different emotional states. The acoustic speech characteristics of 12 adult native Russian speakers were studied. The speech of informants uttering meaningless phrase in different emotional states was audio recorded: joy, anger, sadness, fear, and neutral. The temporal and spectral characteristics of speech were analyzed in the Cool Edit Pro sound editor. The maximum pitch range in male speech is revealed in phrases uttered in a neutral state and a state of joy; the minimum, in a state of sadness. For female speech, the maximum pitch range is in a state of joy and in a state of anger; the minimum, in a state of sadness and in a neutral state. The pitch range in female speech is larger than that in male speech. For seven informants, it was shown that the duration of utterances in a state of sadness was longer compared to other states, and in a state of joy, on the contrary, it was minimal. Both male and female utterances in a state of joy were characterized by maximum pitch range values; conversely, in a state of sadness, by minmum values. Pauses between words in utterances in a state of sadness were detected in both men and women. Thus, differences in the temporal and spectral characteristics of utterances in different emotional states are revealed. The individual features of the manifestation of the emotional state in the speech of adults are determined.

Acoustical Physics, 70, № 1, с. 175-181 (2024) | Рубрики: 13.05 13.06

 

Makarov S., Osipov D.S. «Voice Identity Recognition Based on the Parameters of the Spectral Voice Source Model» Acoustical Physics, 70, № 1, с. 182-188 (2024)

The information content of the parameters of a spectral voice source model in an automatic voice identity recognition problem is studied. For the voice parameters, the identity recognition error was 20.8%; using these parameters together with the pitch period reduced the error to 13.8%. Lastly, the combined use of the spectral model parameters with the pitch period and mel-frequency cepstral coefficients provided the highest accuracy (the recognition error was 1.2%).

Acoustical Physics, 70, № 1, с. 182-188 (2024) | Рубрики: 13.05 13.06

 

Трифонов И.Н., Копылов А.В. «Автоматическая транскрипция мелодики речи с использованием музыкальной нотации на основе модели восприятия человеком высоты звука» Известия Тульского государственного университета. Технические науки, № 11, с. 267-271 (2023)

В музыкальной практике существует задача представления речи в музыкальной нотации. В статье предложен алгоритм получения просодической транскрипции в музыкальной нотации. Предложенный нами алгоритм отличается от существующих тем, что в нём учитываются особенности восприятия звука человеком. Полученные результаты могут использоваться при написании музыки, для изучения взаимосвязи речи и музыки, а также для исследования речи.

Известия Тульского государственного университета. Технические науки, № 11, с. 267-271 (2023) | Рубрика: 13.05