Российский фонд
фундаментальных
исследований

Физический факультет
МГУ им. М.В.Ломоносова
 

13.05 Речеобразование и восприятие речи

 

Кипяткова И.С., Марковников Н.М. «Исследование методов улучшения интегральных систем распознавания речи при недостатке обучающих данных» Труды Всероссийской акустической конференции. Санкт-Петербург. 21–25 сентября 2020 г., с. 361-367 (2020)

Интегральные (end-to-end) системы распознавания речи позволяют повысить скорость декодирования речевого сигнала по сравнению со стандартными системами, однако требуют больше речевых данных для обучения. В статье исследуются два способа улучшения интегральных моделей распознавания речи при недостатке обучающих данных. Первый способ – применение методов аугментации речевых данных, таких как изменение темпа речи, высоты голоса, наложения белого шума и синтез речи. Вторым способом является предобучение моделей с использованием метода переноса знаний, который подразумевает обучение модели на нецелевых данных, а затем перенос обученных параметров в целевую модель. Данные методы были применены для обучения интегральной модели распознавания русской речи, созданной путем объединения кодер-декодер модели с механизмом внимания и модели на основе коннекционной временной классификации. Разработанные модели были внедрены в систему распознавания слитной русской речи и показали большую точность распознавания по сравнению с базовой интегральной моделью. В ходе экспериментов по распознаванию слитной русской речи наилучший результат составил 12.2% по показателю неправильно распознанных символов и 37.8% по показателю неправильно распознанных слов в речи, который был достигнут при применении модели, обученной с помощью метода переноса знаний.

Труды Всероссийской акустической конференции. Санкт-Петербург. 21–25 сентября 2020 г., с. 361-367 (2020) | Рубрики: 12.01 13.05

 

Шалаева М.Б. «Развитие алгоритмов сжатия речи» Научно-технический вестник информационных технологий, механики и оптики, 5, № 3, с. 140-145 (2005)

Этапы исследования: сравнение современных алгоритмов кодирования речи по различным показателям, выявление тенденций развития и определения наиболее перспективных методов, выбор общих для большинства алгоритмов функциональных блоков с целью их последующей модернизации.

Научно-технический вестник информационных технологий, механики и оптики, 5, № 3, с. 140-145 (2005) | Рубрики: 12.01 13.05

 

Будько М.Б., Жигулин Г.П. «Повышение эффективности передачи речевых сигналов» Научно-технический вестник информационных технологий, механики и оптики, 6, № 2, с. 89-94 (2006)

Цель исследования заключается в выявлении современных подходов к передаче потокового аудио, оптимизации перспективных механизмов и реализации собственной системы передачи акустических сигналов, обладающей способностью динамической настройки в зависимости от состояния сети. В статье рассматривается механизм прерывистой передачи и описываются методы, положенные в основу разработанного алгоритма определения речевой активности.

Научно-технический вестник информационных технологий, механики и оптики, 6, № 2, с. 89-94 (2006) | Рубрики: 12.01 13.05

 

Будько М.Б. «Алгоритм определения речевой активности и генератор комфортного шума высокого быстродействия» Научно-технический вестник информационных технологий, механики и оптики, 6, № 9, с. 37-43 (2006)

Целью исследования является разработка адаптивной системы кодирования и передачи аудиосигналов в режиме реального времени для пакетных сетей с негарантированным качеством обслуживания. Рассматривается механизм прерывистой передачи речи, описываются разработанные базовые алгоритмы указанного механизма, обладающие низкой вычислительной сложностью.

Научно-технический вестник информационных технологий, механики и оптики, 6, № 9, с. 37-43 (2006) | Рубрики: 12.01 13.05

 

Титов Ю.Н. «Математическая модель органа слуха для автоматического распознавания речи» Научно-технический вестник информационных технологий, механики и оптики, 7, № 3, с. 307-310 (2007)

Дано описание модели и результаты по моделированию органа слуха при автоматическом распознавании изолированных слов русского языка. Изложен алгоритм последовательной обработки сигнала через банк фильтров с учетом психоакустической природы слуха (Mel-Scale Transform) и результаты классификации полученных векторов-признаков с помощью аппарата искусственных нейронных сетей.

Научно-технический вестник информационных технологий, механики и оптики, 7, № 3, с. 307-310 (2007) | Рубрики: 12.01 13.05

 

Носова А.В. «Математическое моделирование динамических процессов в человеческом органе слуха» Научно-технический вестник информационных технологий, механики и оптики, 7, № 3, с. 311-317 (2007)

Рассматривается человеческий орган слуха. Создается модель (в пакете MatLab) наружнего уха человека. Приводится структурная схема восприятие звука человеком.

Научно-технический вестник информационных технологий, механики и оптики, 7, № 3, с. 311-317 (2007) | Рубрики: 12.01 13.05

 

Родинков С.А. «Проблемы передачи и приема акустических сигналов» Научно-технический вестник информационных технологий, механики и оптики, 7, № 3, с. 322-327 (2007)

Рассмотрены проблемы приема и передачи акустических сигналов. Рассмотрено устройство уха как простейшего акустического волновода. Приведены понятия о звуке и об ультразвуке, рассмотрены специфические особенности ультразвука, его основные характеристики.

Научно-технический вестник информационных технологий, механики и оптики, 7, № 3, с. 322-327 (2007) | Рубрики: 12.01 13.05

 

Балакшин П.В. «Повышение точности алгоритмов распознавания речи на основе скрытых марковских моделей» Научно-технический вестник информационных технологий, механики и оптики, 8, № 1, с. 232-237 (2008)

Представлен краткий обзор существующих алгоритмов распознавания речи. Дано сравнение алгоритмов на основе скрытых марковских моделей. Показана схема работы алгоритма Витерби. Предложена модификация данного алгоритма за счет введения дополнительной информации о длительности состояний.

Научно-технический вестник информационных технологий, механики и оптики, 8, № 1, с. 232-237 (2008) | Рубрики: 12.01 13.05

 

Чураев С.О., Адамова А.Д., Палташев Т.Т. «Реализация алгоритма шумоподавления в речевом тракте систем мобильной связи на базе СБИС» Научно-технический вестник информационных технологий, механики и оптики, 11, № 1, с. 72-76 (2011)

Приведен анализ вопросов аппаратной реализации комплексных алгоритмов цифровой фильтрации для речевого канала систем сотовой связи и последующей их коммерциализации на основе полузаказных СБИС и ПЛИС. Использован алгоритм адаптивного шумоподавления с применением прямого/обратного преобразования Фурье и фильтрации речевого сигнала по методу Винера.

Научно-технический вестник информационных технологий, механики и оптики, 11, № 1, с. 72-76 (2011) | Рубрики: 12.01 13.05

 

Балакшин П.В., Петров Г.Ю. «Некоторые аспекты исследования систем распознавания речи в телефонных службах поддержки» Научно-технический вестник информационных технологий, механики и оптики, 12, № 1, с. 73-78 (2012)

Представлены проблемы телефонных служб поддержки клиентов (call-центров) крупных компаний. Определены преимущества и недостатки применения систем распознавания речи в работе таких центров. Показана важность метрики FCR (First Call Resolution) и особенности ее вычисления в системах автоматического распознавания речи. Ключевые слова: распознавание речи, телефонная служба поддержки, call-центр, FCR.

Научно-технический вестник информационных технологий, механики и оптики, 12, № 1, с. 73-78 (2012) | Рубрики: 12.01 13.05

 

Алейник С.В., Матвеев Ю.Н., Раев А.Н. «Метод оценки уровня клиппирования речевого сигнала» Научно-технический вестник информационных технологий, механики и оптики, 12, № 3, с. 79-83 (2012)

Клиппирование – один из видов искажения формы сигнала, которое происходит при перегрузке усилителя и при превышении выходным напряжением усилителя его динамического диапазона. На осциллограмме клиппирование обычно выглядит как обрезание сигнала по амплитуде. Рассмотрены различные способы оценки уровня клиппирования речевого сигнала. Предлагается и исследуется новый способ оценки уровня клиппирования, обладающий лучшими характеристиками по сравнению с известными. Ключевые слова: клиппирование, речевой сигнал.

Научно-технический вестник информационных технологий, механики и оптики, 12, № 3, с. 79-83 (2012) | Рубрики: 12.01 13.05

 

Шолохов А.В. «Выбор признаков в задаче распознавания эмоций диктора» Научно-технический вестник информационных технологий, механики и оптики, 12, № 3, с. 150 (2012)

Исследуется подход к выбору наиболее информативных признаков в задаче автоматического определения эмоционального состояния человека по записям устной речи. Для получения оптимального подмножества признаков по заданному критерию качества распознавания использовался генетический алгоритм. Ключевые слова: распознавание эмоций, речевые признаки, генетические алгоритмы.

Научно-технический вестник информационных технологий, механики и оптики, 12, № 3, с. 150 (2012) | Рубрики: 12.01 13.05

 

Чистиков П.Г. «Технология синтеза русской речи на основе скрытых марковских моделей» Научно-технический вестник информационных технологий, механики и оптики, 12, № 3, с. 151 (2012)

Представлен подход к построению системы синтеза речи на основе скрытых марковских моделей применительно к русскому языку. Для повышения ее гибкости применяется алгоритм кластеризации состояний. Представлен подход моделирования сигнала возбуждения. Ключевые слова: синтез речи, скрытые марковские модели, параметризация речи, кластеризация данных

Научно-технический вестник информационных технологий, механики и оптики, 12, № 3, с. 151 (2012) | Рубрики: 12.01 13.05

 

Сидоров К.В., Филатова Н.Н. «Применение методов нелинейной динамики для распознавания эмоции радости в речи» Научно-технический вестник информационных технологий, механики и оптики, 12, № 5, с. 110-114 (2012)

Рассмотрена задача распознавания образцов речи, зарегистрированных в момент проявления испытуемыми эмоции радости, от образцов речи этих же дикторов в нейтральном состоянии. Для решения задачи использованы методы нелинейной динамики. Исследования проведены на записях, взятых из базы Emo-DB (Берлин), и фрагментах русскоязычной базы (Тверь). Сформирован модельный корпус эмоциональной речи, состоящий из базы данных двух уровней (фраз и фонем), послуживший основанием для оценки работоспособности разрабатываемых алгоритмов. Выделены устойчивые признаки нелинейной динамики – реконструкция аттрактора и рекуррентный график. Предложены новые количественные признаки для классификации образцов речи человека, испытывающего эмоцию радости, основанные на оценках максимальных векторов реконструкции аттрактора для четырех квадрантов. Ключевые слова: эмоция, эмоциональное состояние, речь, речевой сигнал, нелинейная динамика, реконструкция аттрактора, рекуррентный график.

Научно-технический вестник информационных технологий, механики и оптики, 12, № 5, с. 110-114 (2012) | Рубрики: 12.01 13.05

 

Столбов М.Б. «Алгоритм оценки отношения сигнал/шум речевых сигналов» Научно-технический вестник информационных технологий, механики и оптики, 12, № 6, с. 67-72 (2012)

Предложен алгоритм оценки интегрального значения отношения сигнал/шум и его значений в частотных полосах для определения качества фонограмм в системе верификации дикторов. Особенность разработанного алгоритма состоит в робастности по отношению к большой вариативности условий записи и качества фонограмм, а также возможности выполнения оценки в режиме реального времени, т.е. в темпе поступления речевого сигнала. В основу алгоритма положены новые способы оценки спектра шума и детектирования речи. Эксперименты показали достаточную для практических применений достоверность оценок отношения сигнал/шум в диапазоне от 6 до 26 дБ на записях длительностью от 10 с и более.

Научно-технический вестник информационных технологий, механики и оптики, 12, № 6, с. 67-72 (2012) | Рубрики: 12.01 13.05

 

Матвеев Ю.Н., Шулипа А.К. «Гистограммная нормализация речевых признаков в задаче верификации дикторов» Научно-технический вестник информационных технологий, механики и оптики, 12, № 6, с. 85-88 (2012)

Содержится краткое описание алгоритма гистограммной нормализации речевых признаков применительно к задаче верификации дикторов. Приведены результаты верификационных тестов при различных параметрах и режимах нормализации. На основании полученных данных сделаны выводы об эффективности использования нормализации речевых признаков для улучшения качества верификации дикторов и найдены оптимальные условия использования алгоритма нормализации. Ключевые слова: верификация дикторов, речевые признаки, гистограммная нормализация.

Научно-технический вестник информационных технологий, механики и оптики, 12, № 6, с. 85-88 (2012) | Рубрики: 12.01 13.05

 

Симончик К.К. «Система идентификации возрастной группы говорящего по записям спонтанной речи» Научно-технический вестник информационных технологий, механики и оптики, 12, № 6, с. 89-93 (2012)

Предлагается использовать популярный в текстонезависимой идентификации диктора метод выделения i-векторов для решения задачи идентификации возрастной группы говорящего. Исследуется две реализации системы идентификации возрастной группы говорящего: предложен подход на базе машины опорных векторов, а также подход на основе линейной регрессионной модели. В обоих случаях была достигнута хорошая надежность детектирования возрастной группы диктора по записям фонограмм устной речи. Средний процент правильной идентификации возрастной группы диктора составил 61% и 65% соответственно на речевой базе NIST SRE 2008.

Научно-технический вестник информационных технологий, механики и оптики, 12, № 6, с. 89-93 (2012) | Рубрики: 12.01 13.05

 

Кудашев О.Ю. «Агломеративная кластеризация речевых сегментов фонограммы на основе байесовского информационного критерия» Научно-технический вестник информационных технологий, механики и оптики, 13, № 1, с. 90-93 (2013)

Дано описание реализации системы агломеративной кластеризации речевых сегментов фонограммы на основе байесовского информационного критерия. Приведены результаты численных экспериментов с применением различных акустических признаков, а также с использованием полной и диагональной матриц ковариации. Для аудиозаписей радио «Свобода» на разработанной системе был достигнут уровень ошибки DER 6,4%. Ключевые слова: кластеризация речевых сегментов, вариационный байесовский анализ, речевые технологии.

Научно-технический вестник информационных технологий, механики и оптики, 13, № 1, с. 90-93 (2013) | Рубрики: 12.01 13.05

 

Тампель И.Б., Краснова Е.В., Панова Е.А., Левин К.Е., Петрова О.С. «Использование информационно-коммуникационных технологий в электронном обучении иностранным языкам» Научно-технический вестник информационных технологий, механики и оптики, 13, № 2, с. 154-160 (2013)

Рассматриваются способы применения в системе электронного обучения иностранным языкам технологий автоматического распознавания и синтеза речи для задач отработки произношения на сегментном и супрасегментном уровнях, тренировки коммуникативных навыков, поверки словарного запаса обучаемого, тренировки навыка понимания на слух, а также для создания системы голосовой навигации. Несмотря на некоторые ограничения, такое применение данных технологий эффективно как для упрощения задач реализации процесса обучения, так и для повышения удобства использования системы. Ключевые слова: электронное обучение, иностранные языки, ИКТ, речевые технологии, распознавание речи, синтез речи.

Научно-технический вестник информационных технологий, механики и оптики, 13, № 2, с. 154-160 (2013) | Рубрики: 12.01 13.05

 

Чистиков П.Г., Таланов А.О., Захаров Д.С., Соломенник А.И. «Технология синтеза естественной речи с использованием базы данных небольшого объема» Научно-технический вестник информационных технологий, механики и оптики, 14, № 2, с. 83-90 (2014)

Представлен подход к созданию голоса для системы синтеза естественной речи в условиях малого объема исходного речевого материала. Эффективное решение данной проблемы необходимо для задачи восстановления голоса (синтез потерянных фрагментов записи на основе доступного материала известного диктора, например актера). Представленная система синтеза речи является гибридной, так как комбинирует достоинства систем, основанных на скрытых марковских моделях и методе Unit Selection. Подход, описанный в работе, использует статистические модели интонационных параметров, что позволяет сохранять в синтезированной речи особенности произношения диктора. Описан процесс подготовки базы данных для синтеза, в том числе и решение проблемы нехватки исходного речевого материала для обучения модели. Специальные алгоритмы конкатенации и модификации звуковых элементов помогают корректировать их параметры в соответствии с требованиями, обеспечивают общую тональную гладкость и уменьшают искажения в спектральной области на границах объединяемых фрагментов. Аудитивные тесты показали эффективность предложенных решений и доказали, что синтез естественной речи возможен даже в условиях малой речевой базы (вплоть до одного часа речи).

Научно-технический вестник информационных технологий, механики и оптики, 14, № 2, с. 83-90 (2014) | Рубрики: 12.01 13.05

 

Файзулаева О.Н., Невлюдов И.Ш. «Пути улучшения качества речевого сигнала пользователя систем голосовой аутентификации» Научно-технический вестник информационных технологий, механики и оптики, 14, № 2, с. 118-123 (2014)

Обоснована целесообразность использования речевого сигнала пользователя компьютерных систем в процессе его аутентификации. Рассматривается научная задача повышения отношения сигнал/шум речевого сигнала пользователя системы аутентификации. Объект исследования – процесс ввода и выделения речевого сигнала пользователя системы аутентификации в компьютерных системах и сетях. Исследуются методы и средства ввода и выделения речевого сигнала на фоне внешних помеховых сигналов. Предложены пути повышения качества речевого сигнала пользователя в системах голосовой аутентификации. Поскольку современные компьютерные средства, в том числе и мобильные, оснащены двухканальной звуковой картой, предложено при вводе речевого сигнала системы аутентификации использовать два микрофона. При этом решена задача формирования одного лепестка диаграммы направленности микрофонной решетки в требуемой области регистрации речевого сигнала (от 100 Гц до 8 кГц). Использование направленных свойств предложенной микрофонной решетки позволяет в 2–3 раза ослабить воздействие внешних помеховых сигналов в диапазоне частот от 4 до 8 кГц. Исследованы возможности применения пространственновременной обработки регистрируемых сигналов при использовании постоянных и адаптивных весовых коэффициентов. Представлены результаты имитационного моделирования предложенной системы ввода и выделения сигналов в процессе цифровой обработки узкополосных сигналов. Предложенные решения позволяют повысить значение отношения сигнал/шум регистрируемых полезных сигналов до 10–20 дБ при воздействии внешних помеховых сигналов в диапазоне частот от 4 до 8 кГц. Полученные результаты могут быть полезны специалистам, выполняющим исследования в области распознавания речи, а также различения дикторов.

Научно-технический вестник информационных технологий, механики и оптики, 14, № 2, с. 118-123 (2014) | Рубрики: 12.01 13.05

 

Карпов А.А., Железны М. «Двуязычная многомодальная система для аудиовизуального синтеза речи и жестового языка по тексту» Научно-технический вестник информационных технологий, механики и оптики, 14, № 5, с. 92-98 (2014)

Представлена концептуальная модель, архитектура и программная реализация многомодальной системы аудиовизуального синтеза речи и жестового языка по входному тексту. Основными компонентами разработанной многомодальной системы синтеза (жестовый аватар) являются: текстовый процессор анализа входного текста; имитационная трехмерная модель головы человека; компьютерный синтезатор звучащей речи; система синтеза аудиовизуальной речи; имитационная модель верхней части тела и рук человека; многомодальный пользовательский интерфейс, интегрирующий компоненты генерации звучащей, визуальной и жестовой речи по тексту. Предложенная система выполняет автоматическое преобразование входной текстовой информации в речевую (аудиоинформацию) и жестовую (видеоинформацию), объединение и вывод ее в виде мультимедийной информации. На вход системы подается произвольный грамматически корректный текст на русском или чешском языке, который анализируется текстовым процессором для выделения предложений, слов и букв. Далее полученная текстовая информация преобразуется в символы жестовой нотации (используется международная «Гамбургская система нотации» – HamNoSys, которая описывает основные дифференциальные признаки каждого жеста рук: форму кисти, ориентацию руки, место и характер движения), на основе которых трехмерный жестовый аватар воспроизводит элементы жестового языка. Виртуальная трехмерная модель головы и верхней части тела человека реализована на языке моделирования виртуальной реальности VRML и управляется программно средствами графической библиотеки OpenGL. Предложенная многомодальная система синтеза является универсальной, она предназначена как для обычных пользователей, так и для людей с ограниченными возможностями здоровья (в частности, глухих и незрячих людей) и служит для целей мультимедийного аудиовизуального вывода вводимой текстовой информации.

Научно-технический вестник информационных технологий, механики и оптики, 14, № 5, с. 92-98 (2014) | Рубрики: 12.01 13.05

 

Анагностопулос Т., Хоружников С.Э., Грудинин В.А., Скоурлас К. «Распознавание и прогнозирование длительных эмоций в речи» Научно-технический вестник информационных технологий, механики и оптики, 14, № 6, с. 137-145 (2014)

Люди действуют рационально, и это их фундаментальное отличие от других видов жизни. Кроме того, в современной психологии подчеркивается, что люди как разумные создания отличаются чувствами и эмоциями. Существует пятнадцать видов универсальных длительных эмоций, плюс нейтральное эмоциональное состояние, такие как гнев, злость, паника, страх, тревога, отчаяние, грусть, восторг, радость, интерес, скука, стыд, гордость, отвращение, презрение и нейтральное отношение. В данном исследовании рассматривается понимание эмоционального состояния человека по анализу речи в процессе общения. Доказано, что на основе достаточного объема акустических данных эмоциональное состояние человека может быть классифицировано набором мажоритарных классификаторов. Предложенный набор классификаторов построен на основе трех базовых классификаторов: kNN, C4.5 и SVMRBFKernel. Этот набор обеспечивает лучшую обработку классификаций эмоций, чем каждый из базовых классификаторов в отдельности. Он сравнивается с двумя другими наборами классификаторов: один-против-всех (OAA) мультиклассовый SVM с гибридными ядрами и с набором классификаторов, состоящим из двух базовых классификаторов С5.0, и нейронная сеть (NeuralNetwork). Предложенный вариант достигает лучшего результата, чем два других набора классификаторов. В настоящей статье осуществляется классификация эмоций набором мажоритарных классификаторов, который состоит из трех определённых базовых классификаторов, имеющих низкую вычислительную сложность. Базовые классификаторы базируются на различных теоретических данных с целью избегания отклонений и избыточности, что дает предложенному набору классификаторов возможность обобщиться в пространство определений эмоций.

Научно-технический вестник информационных технологий, механики и оптики, 14, № 6, с. 137-145 (2014) | Рубрики: 12.01 13.05

 

Булгакова Е.В., Шолохов А.В., Томашенко Н.А. «Метод идентификации дикторов на основе сравнения cтатистик длительностей фонем» Научно-технический вестник информационных технологий, механики и оптики, 15, № 1, с. 70-77 (2015)

Предмет исследования. Представлен полуавтоматический метод идентификации диктора по речи на основе сравнения просодических признаков – статистик длительностей звуков. В последнее время благодаря развитию речевых технологий наблюдается значительный интерес к поиску экспертных методов идентификации диктора по голосу, дополняющих с целью повышения надежности идентификации известные методы, а также обладающих низкой трудоемкостью. Эффективное решение данной проблемы необходимо для принятия надежного решения о тождестве либо различии голосов дикторов, представленных на фонограммах. Описание метода. Впервые представлен алгоритм расчета оценки различия голосов дикторов на основе сравнения статистик длительностей фонем и аллофонов. Характерной особенностью предложенного метода является возможность его применения в комплексе с другими полуавтоматическими методами (акустическими, аудитивно-лингвистическими) в связи с отсутствием ярко выраженной корреляции между анализируемыми признаками. Преимуществом метода является возможность проведения экспресс-исследования фонограмм большой длительности за счет автоматизации процесса подготовки данных для анализа. Описываются принципы работы автоматического сегментатора речи, используемого для расчета статистик длительностей звуков по акустико-фонетической разметке. Программное обеспечение разработано в качестве инструмента подготовки данных для экспертного анализа. Апробация метода. Метод апробирован на базе 130 речевых записей, включающей русскую речь дикторов-мужчин и дикторов-женщин, и показал надежность 71,7% на базе, содержащей записи женской речи, и 78,4% на базе, содержащей записи мужской речи. Также было экспериментально установлено, что из всех используемых признаков наиболее информативными являются статистики длительностей фонем гласных и сонорных согласных.

Научно-технический вестник информационных технологий, механики и оптики, 15, № 1, с. 70-77 (2015) | Рубрики: 12.01 13.05

 

Столбов М.Б. «Применение микрофонных решеток для дистанционного сбора речевой информации» Научно-технический вестник информационных технологий, механики и оптики, 15, № 4, с. 661-675 (2015)

Применение микрофонных решеток для сбора речевой информации имеет значительные преимущества по сравнению с системами, использующими один микрофон. Обзор посвящен системам, использующим микрофонные решетки для дистанционного сбора речевой информации. Материал статьи основан на анализе публикаций по применению микрофонных решеток для задач сбора речевой информации, а также опыте разработки и практического применения планарных микрофонных решеток. Рассмотрены основные этапы развития систем дистанционного сбора аудиоинформации. Перечислены основные области применения микрофонных решеток. Рассмотрены базовые типы микрофонных решеток и их особенности. Основной материал обзора посвящен работе с планарными микрофонными решетками. Проанализированы особенности работы микрофонных решеток в различной акустической обстановке. Рассмотрены основные соотношения для расчета базовых параметров эквидистантных планарных решеток. Перечислены некоторые методы (приведен список литературы) проектирования неэквидистанных решеток. Дан перечень основных алгоритмов цифровой обработки сигналов планарных микрофонных решеток. Приведен список литературы по алгоритмам обработки в частотной области. Приведен перечень зарубежных компаний, предлагающих системы на основе микрофонных решеток для решения широкого круга задач, связанных с обработкой речевых и аудиосигналов. Описаны некоторые современные системы сбора речевой информации на основе микрофонных решеток. В заключении перечислены перспективные направления развития систем сбора речевой информации с использованием микрофонных решеток. Материалы обзора могут быть использованы при проектировании микрофонных решеток для конкретных практических применений.

Научно-технический вестник информационных технологий, механики и оптики, 15, № 4, с. 661-675 (2015) | Рубрики: 12.01 13.05 14.02

 

Олейник А.Л. «Применение метода частичных наименьших квадратов для обработки и моделирования аудиовизуальной речи» Научно-технический вестник информационных технологий, механики и оптики, 15, № 5, с. 886-892 (2015)

Предмет исследования. Рассмотрена задача реконструкции изображения области рта по речевому сигналу с помо- щью метода частичных наименьших квадратов. Потребность в решении подобных задач возникает при создании методов обработки аудиовизуальной речи, которая содержит в себе звуковую и визуальную составляющие, называемые модальностями. Конкретные задачи, решаемые с помощью таких методов, включают в себя совместное модели- рование голоса и динамики движений губ, синхронизацию аудио- и видеопотоков, распознавание эмоций, обнаружение живости (liveness detection). Метод. Для решения поставленной задачи применен метод частичных наименьших квадратов. Метод позволяет выделить из исходных данных компоненты, между которыми существует ковариационная связь, и построить на их основе модель регрессии. Преимуществом такого подхода является возможность решения двух базовых задач: выявления скрытых связей между исходными данными (речевым сигналом и изображением области рта) и аппроксимации одних исходных данных по другим. Основные результаты. Экспериментальные исследования по реконструкции изображения области рта по речевому сигналу выполнены на аудиовизу альной речевой базе VidTIMIT. Полученные результаты позволяют сделать вывод о возможности применения метода частичных наименьших квадратов для решения задачи реконструкции.

Научно-технический вестник информационных технологий, механики и оптики, 15, № 5, с. 886-892 (2015) | Рубрики: 12.01 13.05

 

Тампель И.Б. «Автоматическое распознавание речи – основные этапы за 50 лет» Научно-технический вестник информационных технологий, механики и оптики, 15, № 6, с. 957-968 (2015)

Рассматриваются основные этапы развития систем автоматического распознавания речи за период около 50 лет. Сделана попытка оценить методы решения задачи с точки зрения приближения к функционированию биологических систем. За начало отсчета взято внедрение метода, основанного на алгоритме динамического программирования, в 1968 г. Рассмотрены недостатки метода, позволяющие использовать его только для распознавания команд. Далее рассмотрен метод, основанный на формализме марковских цепей. На основании представления о коартикуляции показана необходимость перехода от моделирования фонем как цельных контекстно независимых объектов к моделированию контекстно зависимых трифонов и бифонов. Разъяснены проблемы обучения трифонов, объясняющиеся недостаточностью речевых баз данных, которые привели к методу связывания состояний. Показана роль методов адаптации моделей и нормализации признаков, обеспечивающих лучшую инвариантность к индивидуальным особенностям диктора, каналам связи, аддитивным шумам. В качестве самого современного метода автоматического распознавания речи рассматриваются глубокие нейронные сети и рекуррентные нейронные сети. Отмечено сходство глубоких (многослойных) нейронных сетей с биологическими системами. В заключении описаны проблемы и недостатки современных систем распознавания речи и дан прогноз их развития.

Научно-технический вестник информационных технологий, механики и оптики, 15, № 6, с. 957-968 (2015) | Рубрики: 12.01 13.05 14.02

 

Меденников И.П. «Дикторо-зависимые признаки для распознавания спонтанной речи» Научно-технический вестник информационных технологий, механики и оптики, 16, № 1, с. 195-197 (2016)

Приведены результаты исследования по повышению устойчивости системы распознавания спонтанной речи к акустической вариативности речевого сигнала. Предложен метод построения высокоуровневых признаков при помощи глубокой нейронной сети с узким горлом, адаптированной к диктору и акустической обстановке при помощи i-векторов. Предложенный метод обеспечил относительное уменьшение на 11,9% словной ошибки в задаче распознавания русской спонтанной речи в телефонном канале.

Научно-технический вестник информационных технологий, механики и оптики, 16, № 1, с. 195-197 (2016) | Рубрики: 12.01 13.05

 

Булгакова Е.В., Шолохов А.В. «Полуавтоматическая система верификации дикторов» Научно-технический вестник информационных технологий, механики и оптики, 16, № 2, с. 284-289 (2016)

Предмет исследования. Представлена полуавтоматическая система верификации диктора по речи на основе сравнения значений формант, статистик длительностей звуков, а также мелодических характеристик. В последнее время благодаря развитию речевых технологий наблюдается значительный интерес к поиску экспертных систем верификации дикторов по голосу, обладающих высокой надежностью, а также низкой трудоемкостью за счет автоматизации процессов обработки данных для экспертного анализа. Описание системы. Впервые представлено описание системы, позволяющей анализировать сходство либо различие голосов дикторов на основе сравнения статистик длительностей фонем, формантных признаков и мелодических характеристик. Характерной особенностью предложенной системы, в основе которой лежит принцип фузирования (объединения) методов, является слабая корреляция между анализируемыми признаками, что приводит к общему снижению ошибки распознавания диктора. Преимуществом системы является возможность проведения экспресс-исследования фонограмм благодаря автоматизации процессов подготовки данных и принятия решения. Описываются принципы работы методов и способ их фузирования. Основные результаты. Проведена апробация системы на базе 1190 пар записей «свой–свой» и 10450 пар записей вида «свой–чужой». Записи включают русскую речь дикторов-мужчин и дикторов-женщин. Точность распознавания составила 98,59% для записей мужской речи и 96,17% для записей женской речи. Также было экспериментально установлено, что из всех используемых методов наиболее надежным является формантный метод. Практическая значимость. Результаты эксперимента показали применимость предложенной системы для решения задачи распознавания диктора по голосу и речи в рамках проведения фоноскопической экспертизы.

Научно-технический вестник информационных технологий, механики и оптики, 16, № 2, с. 284-289 (2016) | Рубрики: 12.01 13.05

 

Иванько Д.В., Кипяткова И.С., Ронжин А.Л., Карпов А.А. «Анализ методов многомодального объединения информации для аудиовизуального распознавания речи» Научно-технический вестник информационных технологий, механики и оптики, 16, № 3, с. 387-401 (2016)

Представлен аналитической обзор, охватывающий последние результаты, достигнутые в области аудиовизуального объединения (интеграции) многомодальной информации. Рассматриваются основные проблемы и обсуждаются методы их решения. Одной из важнейших задач аудиовизуальной интеграции является понимание того, как именно модальности взаимодействуют и влияют друг на друга. В работе этот вопрос рассматривается в контексте аудиовизуальной обработки речи, в особенности распознавания речи. В первой части обзора изложены базовые принципы аудиовизуального распознавания речи, приводится классификация типов аудио- и визуальных признаков речи. Отдельное внимание уделяется систематизации существующих способов и методов объединения аудиовизуальной информации. Во второй части, на основе проведенного анализа области исследований, приводится сводный список задач и приложений, использующих аудиовизуальное объединение с указанием методов, способов объединения информации и используемых аудио- и видеопризнаков. Предлагается структуризация методов аудиовизуальной интеграции по типам решаемых задач, а также обсуждаются преимущества и недостатки различных подходов. Приведены выводы, предложена оценка будущего развития области. В ходе дальнейших исследований планируется реализация системы аудиовизуального распознавания слитной русской речи с применением современных методов объединения многомодальной информации.

Научно-технический вестник информационных технологий, механики и оптики, 16, № 3, с. 387-401 (2016) | Рубрики: 12.01 13.05

 

Карпов А.А., Кайа Х., Салах А.А. «Актуальные задачи и достижения систем паралингвистического анализа речи» Научно-технический вестник информационных технологий, механики и оптики, 16, № 4, с. 581-592 (2016)

Представлен аналитической обзор современных и актуальных задач, стоящих в области компьютерной паралингвистики, а также последних достижений автоматических систем паралингвистического анализа разговорной речи. Паралингвистика изучает невербальные аспекты человеческой коммуникации и речи: естественные эмоции, акценты, психофизиологические состояния, особенности произношения, параметры голоса диктора и т.д. Представлена архитектура базовой компьютерной системы акустического паралингвистического анализа, ее основные компоненты и используемые методы обработки речи. Приведена информация о международных соревнованиях по компьютерной паралингвистике Computational Paralinguistics Challenge (ComParE), которые c 2009 года проходят ежегодно в рамках международной конференции INTERSPEECH, организуемой международной ассоциацией по речевой коммуникации ISCA. Представлены задачи (конкурсы), которые решались в рамках данного соревнования в период с 2009 по 2016 гг., а также компьютерные системы, победившие в каждом из проведенных конкурсов, и полученные результаты. Последние завершенные соревнования ComParE-2015 проходили в сентябре 2015 года в Германии и содержали следующие 3 конкурса: 1) распознавание дикторов, которые говорят на родном для них языке (DN); 2) предсказание наличия болезни Паркинсона по речи (PC); 3) автоматическое определение, ест ли человек (диктор) во время говорения или диалога, и классификация вида пищи (определение одного из 7 типов), которую он принимает в это время. В последнем конкурсе («Eating ConditionSub-Challenge», EC) победу одержала совместная турецко-российская команда авторов данной статьи, которая разработала наиболее эффективную компьютерную систему для определения и классификации соответствующих акустических паралингвистических явлений. В статье представлена архитектура данной системы и основные модели и методы, описаны используемые обучающие и тестовые аудиоданные, а также наилучшие полученные результаты по машинной классификации акустических паралингвистических явлений.

Научно-технический вестник информационных технологий, механики и оптики, 16, № 4, с. 581-592 (2016) | Рубрики: 12.01 13.05

 

Столбов М.Б., Тхе Куан Чонг «Прием речевых сигналов в шумовой обстановке с использованием двухэлементных микрофонных решеток» Научно-технический вестник информационных технологий, механики и оптики, 18, № 5, с. 850-857 (2018)

Предмет исследования. Рассмотрены практические вопросы дистанционного приема речевых сигналов в сложной шумовой обстановке с использованием двухэлементных микрофонных решеток (МР2). К настоящему времени теория МР2 хорошо разработана, однако применение МР2 в конкретных условиях требует специального рассмотрения. Методы. Выполнен сравнительный анализ алгоритма суммирования и дифференциального алгоритма обработки сигналов МР2 в частотной области. Основные свойства МР2 с алгоритмом суммирования и дифференциальными алгоритмами исследованы на основе использования аналитических моделей. Проведены экспериментальные исследования алгоритмов на записях, сделанных в безэховой камере и в натурных условиях. Рассмотрены сценарии точечного когерентного источника и распределенного источников шума. Основные результаты. Результаты экспериментальных исследований показали существенное преимущество дифференциальных алгоритмов обработки сигналов по сравнению с алгоритмом суммирования. Для различных вариантов дифференциальных алгоритмов достигнуто подавление уличного шума 10–12 дБ. Дополнительным преимуществом дифференциальных алгоритмов является возможность формирования нуля в направлении точечного источника помехи.

Научно-технический вестник информационных технологий, механики и оптики, 18, № 5, с. 850-857 (2018) | Рубрики: 12.01 13.05

 

Столбов М.Б., Чонг Тхе Куан «Исследование двухканального алгоритма MVDR для выделения речи из когерентного шума» Научно-технический вестник информационных технологий, механики и оптики, 19, № 1, с. 180-183 (2019)

Предмет исследования. Рассмотрены особенности реализации двухканального алгоритма минимума дисперсии шума (MVDR) для выделения речи из когерентного шума с использованием двухэлементных микрофонных решеток. Методы. Исследование выполнено с использованием аналитических моделей и записей, сделанных в безэховой камере. Основные результаты. Алгоритм MVDR может быть представлен как комбинация дифференциального алгоритма с адаптивной настройкой нуля в направлении источника когерентной помехи и эквалайзера, выравнивающего пространственно-частотный отклик в направлении целевого источника. Практическая значимость. Полученные результаты могут быть применены при проектировании систем с большим числом микрофонов.

Научно-технический вестник информационных технологий, механики и оптики, 19, № 1, с. 180-183 (2019) | Рубрики: 12.01 13.05

 

Шматков В.Н., Бонковски П., Медведев Д.С., Корзухин С.В., Голендухин Д.В., Спыну С.Ф., Муромцев Д.И. «Взаимодействие с устройствами интернета вещей с использованием голосового интерфейса» Научно-технический вестник информационных технологий, механики и оптики, 19, № 4, с. 714-721 (2019)

Предмет исследования. Рассмотрены современные наиболее популярные голосовые ассистенты для управления устройствами интернета вещей, представленные на рынке, такие как Google Cloud Speech-to-Text, Amazon Transcribe, IBM Speech to Text, Yandex SpeechKit. Выявлены их достоинства и недостатки. Для работы голосовых ассистентов необходимо подключение к сети Интернет с целью обработки получаемых данных в «облаке», а также для синхронизации и управления устройствами пользователя. Большой практический интерес могут представлять голосовые ассистенты, которым не требуется наличие подключения к сети Интернет. Метод. Предложена модель организации локального (без использования сети Интернет) распознавания речи с использованием мобильных устройств. В качестве системы распознавания спонтанной речи используется программное обеспечение CMU Sphinx, осуществляющее распознавание речи с одновременным применением акустической и языковой моделей, а также трансляцию распознанной речи в команды, понятные системе, построенной на базе открытой платформы управления устройствами «OpenHab». Предложен подход к описанию грамматик и формированию словаря для распознавания речи. Приведен пример словаря и описания грамматики для речевой системы управления подключенными устройствами. Для тестирования описываемого в статье подхода создан демонстрационный стенд, основой которого является одноплатный персональный компьютер Raspberry Pi с установленным программным обеспечением openHab, и построены устройства интернета вещей на базе микроконтроллеров ESP8266. Основные результаты. Реализовано голосовое управление устройствами интернета вещей, которое осуществляется с применением протокола MQTT. Реализовано взаимодействие с сервером по протоколу HTTP. Проведено тестирование распознавания голосовых команд. Показана возможность практического применения предложенного в статье подхода к распознаванию спонтанной речи.

Научно-технический вестник информационных технологий, механики и оптики, 19, № 4, с. 714-721 (2019) | Рубрики: 12.01 13.05

 

Калиев А.К., Рыбин С.В. «Акустическое моделирование для синтеза казахской речи» Научно-технический вестник информационных технологий, механики и оптики, 19, № 5, с. 951-954 (2019)

Представлена новая конструкция генеративно-состязательной сети для обучения акустической модели синтеза речи. Предлагаемая конструкция состоит из генератора и двух дискриминаторов, где генератор предсказывает акустические параметры из лингвистического представления. Обучение и тестирование производились на корпусе казахского языка, который состоял из 5,6 ч записи речи. По результатам экспериментов была получена 3,46 средняя экспертная оценка, что говорит о достаточно приемлемом качестве синтезе речи. Данный подход может быть применим при создании технологий синтеза речи для других языков.

Научно-технический вестник информационных технологий, механики и оптики, 19, № 5, с. 951-954 (2019) | Рубрики: 12.01 13.05

 

Астапов С.С., Лаврентьев А.В., Кабаров В.И. «Применение полигармонических моделей для определения пространственных признаков речи» Труды Всероссийской акустической конференции. Санкт-Петербург. 21–25 сентября 2020 г., с. 350-355 (2020)

Идентификация диктора на дальнем микрофоне затрудняется искажениями признаков речи при неопределенном расположении диктора в пространстве относительно микрофона. Применение микрофонных решеток для записи речи позволяет определять направление к источникам речи, а также производить полную локализацию диктора. Пространственная информация дополняет речевые признаки, что способствует повышению качества идентификации. Акустическая локализация, однако, затрудняется при наличии в помещении шумов и посторонних источников звука. Данная работа рассматривает возможность применения полигармонических моделей для адаптивного определения частотного паттерна речи и проведения акустической локализации дикторов по выделенным частотным полосам. Результаты исследования показывают, что применение полигармонических моделей повышает качество локализации дикторов на фоне посторонних шумов по сравнению с широкополосной локализацией, что в свою очередь повышает точность пространственных признаков речи.

Труды Всероссийской акустической конференции. Санкт-Петербург. 21–25 сентября 2020 г., с. 350-355 (2020) | Рубрика: 13.05

 

Гутова С.Ю. «Певческая основа русской диалектной речи» Труды Всероссийской акустической конференции. Санкт-Петербург. 21–25 сентября 2020 г., с. 356-360 (2020)

Работа посвящена исследованию речевой зоны аутентичных тембров в момент пения, говорения и «голошения». Выявлено, что бытовой говор русских этнофоров имеет схожие амплитудно-частотные характеристики с вокальной речью традиционного аутентичного пения. С акустической точки зрения это родство характеризуется завышенной областью средней певческой форманты, активного спектра 4500–5000 Гц, преобладанием частоты ≈700Гц. Таким образом, процессы говорения и пения для деревенских носителей языка тождественны. Исключительным качеством фольклорного темброинтонирования является наличие рече-певческой позиции (РПП) как неотъемлемой черты аутентичной фонации, обладающей определенными акустическими особенностями.

Труды Всероссийской акустической конференции. Санкт-Петербург. 21–25 сентября 2020 г., с. 356-360 (2020) | Рубрика: 13.05

 

Крейчи С.А., Кедрова Г.Е. «Акустика речи. Особенности консонантизма русскоговорящих иностранцев» Труды Всероссийской акустической конференции. Санкт-Петербург. 21–25 сентября 2020 г., с. 368-373 (2020)

При изучении иностранного языка фонетическая система родного языка часто интерферирует с фонетической системой изучаемого языка. Это может приводить к остаточным иноязычным явлениям в речи на изучаемом языке. В работе исследовались особенности консонантизма в речи иностранцев, изучающих русский язык на филологическом факультете МГУ им. М.В. Ломоносова. Материалом служила русская речь носителей 14 иностранных языков, содержащаяся в базе данных звучащей речи, разработанной в лаборатории фонетики и речевой коммуникации. Изучался характер отклонений от русской произносительной нормы в сочетаниях согласных, различающихся по месту образования, активному органу и внутриклассовым признакам (глухость/звонкость, твердость/мягкость). Для сравнительного анализа использовался аналогичный звуковой материал, начитанный носителями русского языка с нормативным литературным произношением. У носителей различных иностранный языков выявлен характер нарушений законов нормативного произношения согласных звуков русской речи, таких как оглушение звонких на конце слова перед паузой, ассимиляция по глухости в сочетаниях звонкий – глухой и ассимиляция по звонкости в сочетаниях глухой–звонкий. Полученные результаты демонстрируют критическую роль различий в артикуляторной базе родного и изучаемого языка (русский язык) для проявления иноязычного акцента.

Труды Всероссийской акустической конференции. Санкт-Петербург. 21–25 сентября 2020 г., с. 368-373 (2020) | Рубрика: 13.05

 

Маркитантов М.В., Карпов А.А. «Автоматическое распознавание пола и возраста человека с помощью нейронных сетей с временной задержкой на основе акустических признаков» Труды Всероссийской акустической конференции. Санкт-Петербург. 21–25 сентября 2020 г., с. 374-380 (2020)

Распознавание пола и возраста человека по голосу является важной задачей в области компьютерной паралингвистики, а также идентификации и верификации дикторов. Существующие системы пока не позволяют достичь высокой точности распознавания голосовых характеристик диктора. При этом с ростом объема обучающих речевых данных и их разнообразием целесообразно применять глубокие нейронные сети. В данной работе мы исследуем различные нейросетевые модели, в частности, сверточные нейронные сети и нейронные сети с временными задержками сигнала. Мы применяем недавно предложенную архитектуру нейронной сети, которая позволяет извлечь x-векторы, в задаче распознавания пола и возраста диктора. Эта архитектура отображает высказывание переменной длины в вектор фиксированного размера, который сохраняет всю информацию о последовательности. Это достигается с помощью статистической подвыборки. Кроме того, мы исследуем такие акустические признаки, как MFCC и спектрограммы. Обучение и экспериментальные исследования предложенных алгоритмов производилось на представительном корпусе немецкой речи aGender. Мы также проводим сравнение результатов представленной системы с лучшими системами по распознаванию пола и возраста диктора, известными из современной литературы. Предложенные нейросетевые подходы позволили достичь наилучшего результата в задаче автоматического распознавания пола и возраста диктора в сравнении с существующими классическими подходами.

Труды Всероссийской акустической конференции. Санкт-Петербург. 21–25 сентября 2020 г., с. 374-380 (2020) | Рубрика: 13.05

 

Огородникова Е.А., Пак С.П., Столярова Э.И., Лабутина О.В. «Особенности восприятия конкурирующих речевых сигналов в норме и при нарушениях слухоречевой функции» Труды Всероссийской акустической конференции. Санкт-Петербург. 21–25 сентября 2020 г., с. 381-384 (2020)

Работа направлена на изучение особенностей слухового анализа речевых сигналов при их перцептивной конкуренции и неблагоприятном воздействии окружающей среды. В первой части процессы выделения и распознавания целевых речевых сигналов исследовали в условиях голосовой конкуренции (одновременное произнесение слов дикторами мужского и женского пола) у школьников и взрослых аудиторов с нормой слуха и с нарушениями слухоречевой функции (нарушения речи, тугоухость, кохлеарная имплантация). Выявлены различия между группами сравнения, а также потенциал направленного слухового тренинга. Во второй части исследования дополнительная группа взрослых испытуемых с нормой слуха проходила дихотическое тестирование (межполушарная конкуренция речевых сигналов) в условиях гипоксической пробы. Под воздействием гипоксии зафиксированы изменения латеральных характеристик восприятия речи с превалированием правостороннего выбора (правое ухо) и ухудшение показателей слухоречевой памяти. Результаты работы могут быть использованы при решении задач медицинской реабилитации и специального образования.

Труды Всероссийской акустической конференции. Санкт-Петербург. 21–25 сентября 2020 г., с. 381-384 (2020) | Рубрика: 13.05

 

Григорьев А.С., Городный В.А. «Влияние психофизиологических показателей испытуемых на успешность распознавания речевого материала в перцептивном эксперименте» Труды Всероссийской акустической конференции. Санкт-Петербург. 21–25 сентября 2020 г., с. 385-389 (2020)

Изучалась связь между психофизиологическими характеристиками аудиторов и успешностью выполнения заданий перцептивного эксперимента. Метод перцептивного эксперимента широко применяется в исследовании различных аспектов речи детей с типичным и атипичным развитием. На основании статистического анализа выявлены связи между психофизиологическими характеристиками аудиторов – носителей русского языка: профилем функциональной латеральной асимметрии, показателями сформированности фонематического слуха, коэффициентом латерального предпочтения по речи и др. и успешностью распознавания пола и возраста детей, психоневрологического состояния детей (типичное развитие–нарушения развития), степенью выраженности нарушений у детей с атипичным развитием.

Труды Всероссийской акустической конференции. Санкт-Петербург. 21–25 сентября 2020 г., с. 385-389 (2020) | Рубрика: 13.05

 

Ляксо Е.Е., Григорьев А.С., Фролова О.В., Николаев А.С. «Использование спектрографического и электроглоттографического методов для определения значений частоты основного тона» Труды Всероссийской акустической конференции. Санкт-Петербург. 21–25 сентября 2020 г., с. 390-394 (2020)

В рамках исследования по выявлению акустических признаков речевого сообщения, которые могли бы быть использованы в качестве биологических маркеров заболевания, проведен спектрографический анализ речи и электро-глотто-графическое исследование взрослых информантов и типично развивающихся детей разного возраста. Представлены данные пилотного исследования. Определены связи между значениями частоты основного тона и показателем работы голосовых складок информантов (коэффициентом, отражающим процент колебательных циклов, в которых голосовая щель полностью смыкается) при произнесении разного речевого материала. Прослежена возрастная динамика и гендерная специфичность анализируемых показателей.

Труды Всероссийской акустической конференции. Санкт-Петербург. 21–25 сентября 2020 г., с. 390-394 (2020) | Рубрика: 13.05

 

Фролова О.В., Городный В.А., Ляксо Е.Е. «Распознавание эмоционального состояния детей по характеристикам речи» Труды Всероссийской акустической конференции. Санкт-Петербург. 21–25 сентября 2020 г., с. 395-399 (2020)

С целью изучения отражения эмоционального состояния в речи проведена разработка методики по вызову различных эмоциональных состояний у детей 8–10 лет. Произведена видеозапись поведения и аудиозапись речи детей в модельных ситуациях, речевой материал аннотирован на эмоциональные состояния – печаль, радость, гнев и нейтральное (спокойное) состояние. Проведен перцептивный анализ, в котором приняли участие аудиторы – носители русского языка и других языков, спектрографический анализ речи детей в четырёх указанных эмоциональных состояниях. В работе обсуждается связь между акустическими характеристиками речи ребенка и возможностью правильного распознавания эмоционального состояния разными группами аудиторов.

Труды Всероссийской акустической конференции. Санкт-Петербург. 21–25 сентября 2020 г., с. 395-399 (2020) | Рубрика: 13.05

 

Перелыгин С.В., Кривошейкин А.В. «Влияние неидентичности микрофонов на характеристики микрофонных решеток» Научно-технический вестник информационных технологий, механики и оптики, 16, № 1, с. 133-138 (2016)

Предмет исследования. Рассмотрены способы обеспечения идентичности каналов микрофонов, используемых в микрофонных решетках. Разработана методика расчета разницы чувствительностей микрофонов, влияющей на степень подавления мешающего сигнала, применительно к задаче пространственного разделения широкополосных речевых сигналов. Методы. Теоретические и экспериментальные исследования базируются на использовании аппарата дискретного преобразования Фурье, методов вычислительной математики, математического моделирования. Основные результаты. Представлены аналитические выражения в замкнутой форме, получены теоретические зависимости, связывающие степень подавления мешающего сигнала с разницей в чувствительностях микрофонов. Моделирование, выполненное в среде MATLAB (версия 7), подтвердило справедливость полученных теоретических результатов. В ходе моделирования получена экспериментальная зависимость степени подавления мешающего сигнала от разницы в чувствительностях микрофонов. Эта зависимость позволяет определить допуск на отличие амплитудно-частотных характеристик микрофонов, при котором будет гарантировано требуемое подавление мешающего сигнала при выделении полезного сигнала. Практическая значимость. Результаты работы могут найти применение при проектировании устройства выделения речи целевого диктора из шумов из смеси голосов.

Научно-технический вестник информационных технологий, механики и оптики, 16, № 1, с. 133-138 (2016) | Рубрики: 13.05 14.02 14.08

 

Соколова А.Н. «Кавказские дореволюционные звукозаписи как объект научного исследования» Вестник Адыгейского государственного университета. Серия 4: Естественно-математические и технические науки, № 4, с. 173-180 (2019)

Представлена часть материалов, полученных в результате многолетней собирательской работы в архивах России и Великобритании: списки осетинского музыкального фольклора, запечатленного на виниловых дореволюционных дисках. Цель декларировать необходимость научного исследования дореволюционных звукозаписей, позволяющих реконструировать музыкальную ауру столетней давности, иметь стартовые источники для наблюдения и понимания эволюционных процессов в развитии традиционной культуры, в том числе в развитии музыкальных и вербальных текстов. Изучение старинных пластинок важно также с точки зрения региональной истории, краеведения, культурной антропологии, социологии культуры, фольклористики и этномузыкознания. Обнародованные архивные источники откроют науке новые имена исполнителей, забытые музыкальные жанры, интересные темы и сюжеты.

Вестник Адыгейского государственного университета. Серия 4: Естественно-математические и технические науки, № 4, с. 173-180 (2019) | Рубрики: 13.05 14.01

 

Савченко В.В. «Акустическая вариативность речевого сигнала как фактор информационной безопасности систем автоматического распознавания речи с настройкой на голос пользователя» Известия высших учебных заведений. Радиоэлектроника, 63, № 10, с. 620-631 (2020)

Рассмотрен феномен акустической вариативности речевого сигнала в системах автоматического распознавания речи. Исследованы две ее разновидности: внутри- и междикторская вариативность речи. Для их математического описания и сопоставления по величине применена вероятностная кластерная модель минимальных речевых единиц в информационной метрике Кульбака–Лейблера. На ее основе получены теоретические оценки акустической вариативности речевого сигнала для каждой ее разновидности в отдельности, описан и количественно охарактеризован эффект защиты информации в системах с настройкой на голос санкционированного пользователя. Показано, что внутридикторская вариативность пренебрежимо мала по своей величине по сравнению с междикторской вариативностью речи, и поэтому не оказывает заметного вредного влияния на эффективность автоматического распознавания речи. Для подтверждения и развития результатов теоретического исследования поставлен вычислительный эксперимент, в рамках которого рассмотрены два речевых потока от двух разных дикторов. При его проведении использовано авторское программное обеспечение. По результатам эксперимента установлено, что уровень междикторской вариативности речи в ряде случаев выходит за рамки межфонемных различий в пределах однородного речевого потока. Поэтому в системах с настройкой на голос диктора, эффект от акустической вариативности речевого сигнала не только однозначно в целом положителен, а именно: это защита информации от несанкционированного доступа, но и значителен в теоретико-вероятностном отношении. Полученные результаты предназначены для использования при разработке новых и модернизации существующих систем автоматического распознавания речи, рассчитанных на работу в автономном режиме. DOI: https://doi.org/10.20535/S0021347020100039

Известия высших учебных заведений. Радиоэлектроника, 63, № 10, с. 620-631 (2020) | Рубрика: 13.05