Российский фонд
фундаментальных
исследований

Физический факультет
МГУ им. М.В.Ломоносова
 

13.05 Речеобразование и восприятие речи

 

Алимурадов А.К., Тычков А.Ю., Чураков П.П., Зарецкий А.П., Прохоров И.Б., Митягин К.С. «Повышение эффективности выявления пограничных психических расстройств на основе адаптивной декомпозиции и кепстрального анализа речевых сигналов» Журнал радиоэлектроники, № 6, с. 9 (2019)

The detection accuracy of borderline mental disorders depends on correct processing of speech signals. The main reason of low accuracy and large errors in measurements is associated with the use of inefficient and non-adaptive methods for processing of non-stationary speech signals. In this paper, the authors propose a method for increasing the detection efficiency of borderline mental disorders based on adaptive decomposition technology for non-stationary signals, namely, improved complete ensemble empirical mode decomposition with adaptive noise and mel-frequency cepstral analysis. A block diagram for the method and a brief mathematical description are presented. The research results are presented, on the basis of which it was concluded that the method proposed by the authors can successfully be tested in remote monitoring systems of psychogenic disorders to accelerate the treatment process.

Журнал радиоэлектроники, № 6, с. 9 (2019) | Рубрика: 13.05

 

Савченко В.В., Савченко Л.В. «Метод измерений показателя разборчивости речевого сигнала в информационной метрике Кульбака–Лейблера» Измерительная техника, № 9, с. 59-64 (2019)

Рассмотрена задача определения разборчивости речи диктора по конечному фрагменту речевого сигнала. Показано, что при решении этой задачи наиболее острой является проблема малых выборок наблюдений. Для преодоления проблемы малых выборок предложен новый, высокоскоростной метод измерений разборчивости речевого сигнала на звуковом уровне его восприятия. В основу данного метода положен информационный показатель разборчивости речи в метрике Кульбака–Лейблера. Рассмотрен пример практической реализации нового метода, основанного на использовании авторегрессионной модели минимальных звуковых единиц из речевого потока диктора. Исследованы характеристики эффективности нового метода. Установлено, что при определенных условиях посредством информационного показателя реализуется общесистемный принцип гарантированного результата. С применением авторского программного обеспечения поставлен и проведен натурный эксперимент, получены количественные оценки быстродействия нового метода. Показано, что при его применении достаточно точная и надежная оценка информационного показателя формируется по короткому (две-три минуты) отрезку речевого сигнала. Полученные результаты и сделанные по ним выводы предназначены для использования при разработке новых и модернизации существующих систем автоматической обработки и распознавания речи, рассчитанных на работу в режиме реального времени.

Измерительная техника, № 9, с. 59-64 (2019) | Рубрики: 13.05 14.02

 

Савченко В.В., Савченко А.В. «Метод измерений показателя акустического качества аудиозаписей, подготовленных для регистрации и обработки в единой биометрической системе» Измерительная техника, № 12, с. 40-46 (2019)

Рассмотрена задача автоматизированного контроля качества аудиозаписей, содержащих голосовые образцы физических лиц. Показано, что при решении данной задачи наиболее острой является проблема малых выборок наблюдений. Для преодоления проблемы предложен новый, быстродействующий метод акустических измерений, основанный на принципе относительной стабильности частоты основного тона речевого сигнала в пределах голосового образца небольшой длительности. Рассмотрен пример практической реализации разработанного метода по схеме с межпериодным накоплением сигнала. С использованием авторского программного обеспечения проведен натурный эксперимент, в котором получены статистические оценки эффективности метода в условиях шума. Показано, что при применении предложенного метода аудиозапись с вероятностью 0,95 и более отбраковывается как непригодная для биометрической идентификации личности, если отношение сигнал-шум при этом ниже 15 дБ. Полученные результаты предназначены для использования при разработке новых и модернизации существующих систем и технологий сбора и автоматизированного контроля качества биометрических персональных данных. Статья рассчитана на широкий круг специалистов в области акустических измерений и цифровой обработки речевых сигналов, а также на специалистов-практиков, организующих работу уполномоченных организаций по подготовке к регистрации в ЕБС образцов биометрических персональных данных.

Измерительная техника, № 12, с. 40-46 (2019) | Рубрика: 13.05

 

Алексеев И.В., Митрохин М.А. «Современные методы распознавания речи для построения голосового интерфейса управления системами специального назначения» Известия высших учебных заведений. Поволжский регион. Технические науки, № 2, с. 3-10 (2019)

Актуальность и цели. Объектом исследования являются современные технологии распознавания речи. Предмет исследования – методы построения и обучения систем распознавания речи. Целью работы является анализ современных технологий распознавания речи на примере некоторых систем для определения возможности их применения в голосовом интерфейсе управления системами специального назначения. Материалы и методы. Исследования выполнены с использованием методов теории вероятностей и методов распознавания образов. Результаты. Проведен анализ требований и ограничений функционирования интерфейсов управления системами специального назначения. Рассмотрены основные аспекты реализации систем распознавания речи и некоторые особенности различных технологий определения структурных единиц речи. Выводы. Рассмотренные технологии распознавания речи потенциально применимы в интерфейсах управления специальных систем, но требуются дополнительные исследования по оценке их эффективности.

Известия высших учебных заведений. Поволжский регион. Технические науки, № 2, с. 3-10 (2019) | Рубрика: 13.05

 

Кириллов С.Н., Мамушев Д.Ю. «Дистанционное диагностирование заболеваний верхних дыхательных путей на основе анализа параметров речевого сигнала» Биомедицинская радиоэлектроника, 23, № 3, с. 68-74 (2020)

Постановка проблемы. Необходимость быстрого удаленного принятия предварительного решения о заболевании обследуемого лица без присутствия в медицинском учреждении требует оценки возможности диагностики заболеваний верхних дыхательных путей (ВДП) на основе анализа параметров речевого сигнала (РС) при прохождении через каналы передачи речевой информации (КПИ). Был предложен метод дистанционного принятия диагностических решений при заболеваниях горла и носа верхних дыхательных путей на основе анализа параметров речевого сигнала на выходе каналов передачи речевой информации. Цель работы - исследование влияния КПИ на результаты диагностики заболеваний ВДП по параметрам РС, а также уточнение модели метода группового учета аргументов (МГУА) для диагностики соответствующих заболеваний и алгоритма классификации этих заболеваний на основе МГУА. Результаты. Исследования диагностической эффективности полученных моделей МГУА проводились на основе оценки вероятностей ошибок пропуска правильного диагноза пациента (ошибок первого рода) и ошибок ложного диагностирования (ошибок второго рода) в соответствии с методикой, описанной в работе, без использования КПИ и при прохождении РС через КПИ. Из анализа полученных в ходе исследования данных следует, что использование удаленной диагностики по телефонным каналам сотовой связи позволяет решить задачу определения предварительного диагноза пациента с лор-заболеванием. Но при этом, соответственно, ухудшаются вероятностные характеристики получаемого решения. Проведена оценка возможности дистанционной диагностики таких заболеваний верхних дыхательных путей (ВДП), как искривление носовой перегородки, полипозный синусит, ринит, тонзиллит на основе анализа параметров речевого сигнала (РС) на выходе каналов передачи речевой информации (КПИ). Исследовано влияние кодеков речи AMR-NB, AMR-WB (G.722.2), CELP (G.728), G.723.1, ADPCM (G.726), широко используемых в каналах передачи речевой информации основных операторов сотовой связи, таких как МТС, Билайн, Мегафон, Теле2 и др. Установлено, что при прохождении РС через КПИ, для сетей стандарта 2G, вероятности правильного диагностирования уменьшаются на 7–12 %, а в случае стандартов 3G, 4G на – 4–8%. При этом вероятности ложного диагностирования возрастают для сетей стандарта 2G на 5–12%, а в случае стандартов 3G, 4G на – 0,5–2%. Показана возможность удаленной диагностики по телефонным каналам сотовой связи пациентов с лор-заболеваниями. Практическая значимость. Полученные результаты подтверждают эффективность использования на практике предлагаемого метода принятия предварительного диагностического решения о заболевании пациента.

Биомедицинская радиоэлектроника, 23, № 3, с. 68-74 (2020) | Рубрика: 13.05

 

Корсун О.Н., Михайлов Е.И. «Идентификация летчика в составе экипажа на основе речевой передаточной функции» Вестник Московского государственного технического университета имени Н.Э. Баумана (МГТУ). Серия: Приборостроение, № 5, с. 35-48 (2019)

Рассмотрена проблема идентификации летчика в составе экипажа по голосу, что является одним из направлений совершенствования интерфейса кабины пилота современного самолета. Предложена методика идентификации личности говорящего, основанная на применении речевой передаточной функции диктора по частоте и алгоритма классификации данных k ближайших соседей. В силу особенностей задачи идентификация проведена для небольших групп операторов численностью до четырех человек. Приведены основные результаты апробации предложенной методики на экспериментальных речевых данных. Показана возможность идентификации оператора по небольшому числу кодовых слов с точностью около 97–99% при использовании речевой передаточной функции диктора по частоте. Представлено сравнение результатов применения методики для летчиков вертолетной авиации с диагностированными заболеваниями органов слуха и для группы операторов без заболеваний органов слуха.

Вестник Московского государственного технического университета имени Н.Э. Баумана (МГТУ). Серия: Приборостроение, № 5, с. 35-48 (2019) | Рубрика: 13.05

 

Савченко В.В. «Критерий минимума информационного расхождения сигналов с настройкой на голос диктора в задаче автоматического распознавания речи» Известия высших учебных заведений. Радиоэлектроника, 63, № 1, с. 55-68 (2020)

Рассмотрена задача автоматического распознавания речи на базовом, фонетическом уровне обработки речевого сигнала. Исследована проблема повышения помехоустойчивости. Для ее решения предложен критерий минимума информационного расхождения сигналов с настройкой на голос диктора и с автоматическим масштабированием речевых эталонов под тонкую структуру наблюдаемого (текущего) речевого фрейма. Рассмотрен пример его практической реализации, исследованы характеристики эффективности. С использованием авторского программного обеспечения поставлен и проведен эксперимент, получены количественные оценки выигрыша в пороговых сигналах. Показано, что при определенных условиях он может достигать 10 дБ и более. Полученные результаты и сделанные по ним выводы предназначены для использования при разработке новых и модернизации существующих систем и технологий автоматической обработки и распознавания речи, рассчитанных на работу в условиях действия интенсивных внешних помех.

Известия высших учебных заведений. Радиоэлектроника, 63, № 1, с. 55-68 (2020) | Рубрика: 13.05