Российский фонд
фундаментальных
исследований

Физический факультет
МГУ им. М.В.Ломоносова
 

12.01 Компьютерная обработка результатов эксперимента

 

Кипяткова И.С., Марковников Н.М. «Исследование методов улучшения интегральных систем распознавания речи при недостатке обучающих данных» Труды Всероссийской акустической конференции. Санкт-Петербург. 21–25 сентября 2020 г., с. 361-367 (2020)

Интегральные (end-to-end) системы распознавания речи позволяют повысить скорость декодирования речевого сигнала по сравнению со стандартными системами, однако требуют больше речевых данных для обучения. В статье исследуются два способа улучшения интегральных моделей распознавания речи при недостатке обучающих данных. Первый способ – применение методов аугментации речевых данных, таких как изменение темпа речи, высоты голоса, наложения белого шума и синтез речи. Вторым способом является предобучение моделей с использованием метода переноса знаний, который подразумевает обучение модели на нецелевых данных, а затем перенос обученных параметров в целевую модель. Данные методы были применены для обучения интегральной модели распознавания русской речи, созданной путем объединения кодер-декодер модели с механизмом внимания и модели на основе коннекционной временной классификации. Разработанные модели были внедрены в систему распознавания слитной русской речи и показали большую точность распознавания по сравнению с базовой интегральной моделью. В ходе экспериментов по распознаванию слитной русской речи наилучший результат составил 12.2% по показателю неправильно распознанных символов и 37.8% по показателю неправильно распознанных слов в речи, который был достигнут при применении модели, обученной с помощью метода переноса знаний.

Труды Всероссийской акустической конференции. Санкт-Петербург. 21–25 сентября 2020 г., с. 361-367 (2020) | Рубрики: 12.01 13.05

 

Шалаева М.Б. «Развитие алгоритмов сжатия речи» Научно-технический вестник информационных технологий, механики и оптики, 5, № 3, с. 140-145 (2005)

Этапы исследования: сравнение современных алгоритмов кодирования речи по различным показателям, выявление тенденций развития и определения наиболее перспективных методов, выбор общих для большинства алгоритмов функциональных блоков с целью их последующей модернизации.

Научно-технический вестник информационных технологий, механики и оптики, 5, № 3, с. 140-145 (2005) | Рубрики: 12.01 13.05

 

Будько М.Б., Жигулин Г.П. «Повышение эффективности передачи речевых сигналов» Научно-технический вестник информационных технологий, механики и оптики, 6, № 2, с. 89-94 (2006)

Цель исследования заключается в выявлении современных подходов к передаче потокового аудио, оптимизации перспективных механизмов и реализации собственной системы передачи акустических сигналов, обладающей способностью динамической настройки в зависимости от состояния сети. В статье рассматривается механизм прерывистой передачи и описываются методы, положенные в основу разработанного алгоритма определения речевой активности.

Научно-технический вестник информационных технологий, механики и оптики, 6, № 2, с. 89-94 (2006) | Рубрики: 12.01 13.05

 

Будько М.Б. «Алгоритм определения речевой активности и генератор комфортного шума высокого быстродействия» Научно-технический вестник информационных технологий, механики и оптики, 6, № 9, с. 37-43 (2006)

Целью исследования является разработка адаптивной системы кодирования и передачи аудиосигналов в режиме реального времени для пакетных сетей с негарантированным качеством обслуживания. Рассматривается механизм прерывистой передачи речи, описываются разработанные базовые алгоритмы указанного механизма, обладающие низкой вычислительной сложностью.

Научно-технический вестник информационных технологий, механики и оптики, 6, № 9, с. 37-43 (2006) | Рубрики: 12.01 13.05

 

Титов Ю.Н. «Математическая модель органа слуха для автоматического распознавания речи» Научно-технический вестник информационных технологий, механики и оптики, 7, № 3, с. 307-310 (2007)

Дано описание модели и результаты по моделированию органа слуха при автоматическом распознавании изолированных слов русского языка. Изложен алгоритм последовательной обработки сигнала через банк фильтров с учетом психоакустической природы слуха (Mel-Scale Transform) и результаты классификации полученных векторов-признаков с помощью аппарата искусственных нейронных сетей.

Научно-технический вестник информационных технологий, механики и оптики, 7, № 3, с. 307-310 (2007) | Рубрики: 12.01 13.05

 

Носова А.В. «Математическое моделирование динамических процессов в человеческом органе слуха» Научно-технический вестник информационных технологий, механики и оптики, 7, № 3, с. 311-317 (2007)

Рассматривается человеческий орган слуха. Создается модель (в пакете MatLab) наружнего уха человека. Приводится структурная схема восприятие звука человеком.

Научно-технический вестник информационных технологий, механики и оптики, 7, № 3, с. 311-317 (2007) | Рубрики: 12.01 13.05

 

Родинков С.А. «Проблемы передачи и приема акустических сигналов» Научно-технический вестник информационных технологий, механики и оптики, 7, № 3, с. 322-327 (2007)

Рассмотрены проблемы приема и передачи акустических сигналов. Рассмотрено устройство уха как простейшего акустического волновода. Приведены понятия о звуке и об ультразвуке, рассмотрены специфические особенности ультразвука, его основные характеристики.

Научно-технический вестник информационных технологий, механики и оптики, 7, № 3, с. 322-327 (2007) | Рубрики: 12.01 13.05

 

Балакшин П.В. «Повышение точности алгоритмов распознавания речи на основе скрытых марковских моделей» Научно-технический вестник информационных технологий, механики и оптики, 8, № 1, с. 232-237 (2008)

Представлен краткий обзор существующих алгоритмов распознавания речи. Дано сравнение алгоритмов на основе скрытых марковских моделей. Показана схема работы алгоритма Витерби. Предложена модификация данного алгоритма за счет введения дополнительной информации о длительности состояний.

Научно-технический вестник информационных технологий, механики и оптики, 8, № 1, с. 232-237 (2008) | Рубрики: 12.01 13.05

 

Пиуновский Е.В., Тропченко А.А. «Современные технологии сжатия аудиосигналов» Научно-технический вестник информационных технологий, механики и оптики, 10, № 1, с. 46-52 (2010)

Рассмотрены возможности и преимущества сжатия аудиоданных с применением вейвлет-преобразований. Выявлены проблемы существующих методов компрессии звука, проанализированы способы внедрения вейвлетов (wavelets) в алгоритмы сжатия, предложена схема сжатия аудиоданных на основе адаптивных ортогональных преобразований.

Научно-технический вестник информационных технологий, механики и оптики, 10, № 1, с. 46-52 (2010) | Рубрика: 12.01

 

Чураев С.О., Адамова А.Д., Палташев Т.Т. «Реализация алгоритма шумоподавления в речевом тракте систем мобильной связи на базе СБИС» Научно-технический вестник информационных технологий, механики и оптики, 11, № 1, с. 72-76 (2011)

Приведен анализ вопросов аппаратной реализации комплексных алгоритмов цифровой фильтрации для речевого канала систем сотовой связи и последующей их коммерциализации на основе полузаказных СБИС и ПЛИС. Использован алгоритм адаптивного шумоподавления с применением прямого/обратного преобразования Фурье и фильтрации речевого сигнала по методу Винера.

Научно-технический вестник информационных технологий, механики и оптики, 11, № 1, с. 72-76 (2011) | Рубрики: 12.01 13.05

 

Пиуновский Е.В. «Исследование вариантов реализации этапа предсказания лифтинговой схемы при решении задачи сжатия звука» Научно-технический вестник информационных технологий, механики и оптики, 11, № 3, с. 92-96 (2011)

Проведено сравнение различных реализаций этапа предсказания лифтинговой схемы вейвлет-преобразования на основе трех различных функций: Хаара, линейной и полиномиальной. В качестве анализируемых данных выбраны аудиосигнал и финансовый временной ряд. Представлены лифтинговая схема и краткое описание ее основных этапов. Выполнен анализ результатов различных вариантов предсказания и приведена их количественная оценка. Сделаны выводы о влиянии сложности функции на результат предсказания различных типов сигналов

Научно-технический вестник информационных технологий, механики и оптики, 11, № 3, с. 92-96 (2011) | Рубрика: 12.01

 

Балакшин П.В., Петров Г.Ю. «Некоторые аспекты исследования систем распознавания речи в телефонных службах поддержки» Научно-технический вестник информационных технологий, механики и оптики, 12, № 1, с. 73-78 (2012)

Представлены проблемы телефонных служб поддержки клиентов (call-центров) крупных компаний. Определены преимущества и недостатки применения систем распознавания речи в работе таких центров. Показана важность метрики FCR (First Call Resolution) и особенности ее вычисления в системах автоматического распознавания речи. Ключевые слова: распознавание речи, телефонная служба поддержки, call-центр, FCR.

Научно-технический вестник информационных технологий, механики и оптики, 12, № 1, с. 73-78 (2012) | Рубрики: 12.01 13.05

 

Алейник С.В., Матвеев Ю.Н., Раев А.Н. «Метод оценки уровня клиппирования речевого сигнала» Научно-технический вестник информационных технологий, механики и оптики, 12, № 3, с. 79-83 (2012)

Клиппирование – один из видов искажения формы сигнала, которое происходит при перегрузке усилителя и при превышении выходным напряжением усилителя его динамического диапазона. На осциллограмме клиппирование обычно выглядит как обрезание сигнала по амплитуде. Рассмотрены различные способы оценки уровня клиппирования речевого сигнала. Предлагается и исследуется новый способ оценки уровня клиппирования, обладающий лучшими характеристиками по сравнению с известными. Ключевые слова: клиппирование, речевой сигнал.

Научно-технический вестник информационных технологий, механики и оптики, 12, № 3, с. 79-83 (2012) | Рубрики: 12.01 13.05

 

Шолохов А.В. «Выбор признаков в задаче распознавания эмоций диктора» Научно-технический вестник информационных технологий, механики и оптики, 12, № 3, с. 150 (2012)

Исследуется подход к выбору наиболее информативных признаков в задаче автоматического определения эмоционального состояния человека по записям устной речи. Для получения оптимального подмножества признаков по заданному критерию качества распознавания использовался генетический алгоритм. Ключевые слова: распознавание эмоций, речевые признаки, генетические алгоритмы.

Научно-технический вестник информационных технологий, механики и оптики, 12, № 3, с. 150 (2012) | Рубрики: 12.01 13.05

 

Чистиков П.Г. «Технология синтеза русской речи на основе скрытых марковских моделей» Научно-технический вестник информационных технологий, механики и оптики, 12, № 3, с. 151 (2012)

Представлен подход к построению системы синтеза речи на основе скрытых марковских моделей применительно к русскому языку. Для повышения ее гибкости применяется алгоритм кластеризации состояний. Представлен подход моделирования сигнала возбуждения. Ключевые слова: синтез речи, скрытые марковские модели, параметризация речи, кластеризация данных

Научно-технический вестник информационных технологий, механики и оптики, 12, № 3, с. 151 (2012) | Рубрики: 12.01 13.05

 

Сидоров К.В., Филатова Н.Н. «Применение методов нелинейной динамики для распознавания эмоции радости в речи» Научно-технический вестник информационных технологий, механики и оптики, 12, № 5, с. 110-114 (2012)

Рассмотрена задача распознавания образцов речи, зарегистрированных в момент проявления испытуемыми эмоции радости, от образцов речи этих же дикторов в нейтральном состоянии. Для решения задачи использованы методы нелинейной динамики. Исследования проведены на записях, взятых из базы Emo-DB (Берлин), и фрагментах русскоязычной базы (Тверь). Сформирован модельный корпус эмоциональной речи, состоящий из базы данных двух уровней (фраз и фонем), послуживший основанием для оценки работоспособности разрабатываемых алгоритмов. Выделены устойчивые признаки нелинейной динамики – реконструкция аттрактора и рекуррентный график. Предложены новые количественные признаки для классификации образцов речи человека, испытывающего эмоцию радости, основанные на оценках максимальных векторов реконструкции аттрактора для четырех квадрантов. Ключевые слова: эмоция, эмоциональное состояние, речь, речевой сигнал, нелинейная динамика, реконструкция аттрактора, рекуррентный график.

Научно-технический вестник информационных технологий, механики и оптики, 12, № 5, с. 110-114 (2012) | Рубрики: 12.01 13.05

 

Столбов М.Б. «Алгоритм оценки отношения сигнал/шум речевых сигналов» Научно-технический вестник информационных технологий, механики и оптики, 12, № 6, с. 67-72 (2012)

Предложен алгоритм оценки интегрального значения отношения сигнал/шум и его значений в частотных полосах для определения качества фонограмм в системе верификации дикторов. Особенность разработанного алгоритма состоит в робастности по отношению к большой вариативности условий записи и качества фонограмм, а также возможности выполнения оценки в режиме реального времени, т.е. в темпе поступления речевого сигнала. В основу алгоритма положены новые способы оценки спектра шума и детектирования речи. Эксперименты показали достаточную для практических применений достоверность оценок отношения сигнал/шум в диапазоне от 6 до 26 дБ на записях длительностью от 10 с и более.

Научно-технический вестник информационных технологий, механики и оптики, 12, № 6, с. 67-72 (2012) | Рубрики: 12.01 13.05

 

Матвеев Ю.Н., Шулипа А.К. «Гистограммная нормализация речевых признаков в задаче верификации дикторов» Научно-технический вестник информационных технологий, механики и оптики, 12, № 6, с. 85-88 (2012)

Содержится краткое описание алгоритма гистограммной нормализации речевых признаков применительно к задаче верификации дикторов. Приведены результаты верификационных тестов при различных параметрах и режимах нормализации. На основании полученных данных сделаны выводы об эффективности использования нормализации речевых признаков для улучшения качества верификации дикторов и найдены оптимальные условия использования алгоритма нормализации. Ключевые слова: верификация дикторов, речевые признаки, гистограммная нормализация.

Научно-технический вестник информационных технологий, механики и оптики, 12, № 6, с. 85-88 (2012) | Рубрики: 12.01 13.05

 

Симончик К.К. «Система идентификации возрастной группы говорящего по записям спонтанной речи» Научно-технический вестник информационных технологий, механики и оптики, 12, № 6, с. 89-93 (2012)

Предлагается использовать популярный в текстонезависимой идентификации диктора метод выделения i-векторов для решения задачи идентификации возрастной группы говорящего. Исследуется две реализации системы идентификации возрастной группы говорящего: предложен подход на базе машины опорных векторов, а также подход на основе линейной регрессионной модели. В обоих случаях была достигнута хорошая надежность детектирования возрастной группы диктора по записям фонограмм устной речи. Средний процент правильной идентификации возрастной группы диктора составил 61% и 65% соответственно на речевой базе NIST SRE 2008.

Научно-технический вестник информационных технологий, механики и оптики, 12, № 6, с. 89-93 (2012) | Рубрики: 12.01 13.05

 

Кудашев О.Ю. «Агломеративная кластеризация речевых сегментов фонограммы на основе байесовского информационного критерия» Научно-технический вестник информационных технологий, механики и оптики, 13, № 1, с. 90-93 (2013)

Дано описание реализации системы агломеративной кластеризации речевых сегментов фонограммы на основе байесовского информационного критерия. Приведены результаты численных экспериментов с применением различных акустических признаков, а также с использованием полной и диагональной матриц ковариации. Для аудиозаписей радио «Свобода» на разработанной системе был достигнут уровень ошибки DER 6,4%. Ключевые слова: кластеризация речевых сегментов, вариационный байесовский анализ, речевые технологии.

Научно-технический вестник информационных технологий, механики и оптики, 13, № 1, с. 90-93 (2013) | Рубрики: 12.01 13.05

 

Тампель И.Б., Краснова Е.В., Панова Е.А., Левин К.Е., Петрова О.С. «Использование информационно-коммуникационных технологий в электронном обучении иностранным языкам» Научно-технический вестник информационных технологий, механики и оптики, 13, № 2, с. 154-160 (2013)

Рассматриваются способы применения в системе электронного обучения иностранным языкам технологий автоматического распознавания и синтеза речи для задач отработки произношения на сегментном и супрасегментном уровнях, тренировки коммуникативных навыков, поверки словарного запаса обучаемого, тренировки навыка понимания на слух, а также для создания системы голосовой навигации. Несмотря на некоторые ограничения, такое применение данных технологий эффективно как для упрощения задач реализации процесса обучения, так и для повышения удобства использования системы. Ключевые слова: электронное обучение, иностранные языки, ИКТ, речевые технологии, распознавание речи, синтез речи.

Научно-технический вестник информационных технологий, механики и оптики, 13, № 2, с. 154-160 (2013) | Рубрики: 12.01 13.05

 

Попова С.В., Данилова В.В. «Представление документов в задаче кластеризации аннотаций научных текстов» Научно-технический вестник информационных технологий, механики и оптики, 14, № 1, с. 99-107 (2014)

Рассматривается проблема кластеризации узкотематических текстов короткой длины, таких как аннотации к научным публикациям. Цель решения данной задачи – группировка результатов запросов в поисковых системах по научным публикациям. Использованы наблюдения, полученные при решении задачи извлечения ключевых фраз из документов. Был применен расширенный список стоп-слов, построенный автоматически для решения задачи извлечения ключевых фраз и позволивший значительно улучшить качество информации, получаемой из научных публикаций. Приводится описание процедуры построения данного списка стоп-слов. Основной задачей является исследование возможности повысить качество и (или) скорость кластеризации аннотаций с помощью вышеупомянутого списка стоп-слов, а также информации о частях речи лексем. В последнем случае для представления документов применяется словарь, содержащий не все слова коллекции, а только существительные и прилагательные, или словарь, состоящий из последовательностей существительных и прилагательных. Использованы два базовых алгоритма кластеризации: k-means и иерархическая кластеризация (метод межгруппового среднего). Показано, что использование расширенного списка стоп-слов и представление документов на основе существительных и прилагательных из словаря коллекции позволяют улучшить качество и скорость работы алгоритма k-means. Для метода межгруппового среднего в аналогичном случае может наблюдаться ухудшение качества кластеризации. Показано, что использование для представления документов последовательностей из существительных и прилагательных снижает качество кластеризации для обоих алгоритмов и оправдано только в тех случаях, когда требуется значительное снижение размерности пространства признаков. Ключевые слова: кластеризация документов; представление документов; использование ключевых фраз, существительных и прилагательных; построение расширенного списка стоп-слов, представления результатов поиска.

Научно-технический вестник информационных технологий, механики и оптики, 14, № 1, с. 99-107 (2014) | Рубрика: 12.01

 

Чистиков П.Г., Таланов А.О., Захаров Д.С., Соломенник А.И. «Технология синтеза естественной речи с использованием базы данных небольшого объема» Научно-технический вестник информационных технологий, механики и оптики, 14, № 2, с. 83-90 (2014)

Представлен подход к созданию голоса для системы синтеза естественной речи в условиях малого объема исходного речевого материала. Эффективное решение данной проблемы необходимо для задачи восстановления голоса (синтез потерянных фрагментов записи на основе доступного материала известного диктора, например актера). Представленная система синтеза речи является гибридной, так как комбинирует достоинства систем, основанных на скрытых марковских моделях и методе Unit Selection. Подход, описанный в работе, использует статистические модели интонационных параметров, что позволяет сохранять в синтезированной речи особенности произношения диктора. Описан процесс подготовки базы данных для синтеза, в том числе и решение проблемы нехватки исходного речевого материала для обучения модели. Специальные алгоритмы конкатенации и модификации звуковых элементов помогают корректировать их параметры в соответствии с требованиями, обеспечивают общую тональную гладкость и уменьшают искажения в спектральной области на границах объединяемых фрагментов. Аудитивные тесты показали эффективность предложенных решений и доказали, что синтез естественной речи возможен даже в условиях малой речевой базы (вплоть до одного часа речи).

Научно-технический вестник информационных технологий, механики и оптики, 14, № 2, с. 83-90 (2014) | Рубрики: 12.01 13.05

 

Файзулаева О.Н., Невлюдов И.Ш. «Пути улучшения качества речевого сигнала пользователя систем голосовой аутентификации» Научно-технический вестник информационных технологий, механики и оптики, 14, № 2, с. 118-123 (2014)

Обоснована целесообразность использования речевого сигнала пользователя компьютерных систем в процессе его аутентификации. Рассматривается научная задача повышения отношения сигнал/шум речевого сигнала пользователя системы аутентификации. Объект исследования – процесс ввода и выделения речевого сигнала пользователя системы аутентификации в компьютерных системах и сетях. Исследуются методы и средства ввода и выделения речевого сигнала на фоне внешних помеховых сигналов. Предложены пути повышения качества речевого сигнала пользователя в системах голосовой аутентификации. Поскольку современные компьютерные средства, в том числе и мобильные, оснащены двухканальной звуковой картой, предложено при вводе речевого сигнала системы аутентификации использовать два микрофона. При этом решена задача формирования одного лепестка диаграммы направленности микрофонной решетки в требуемой области регистрации речевого сигнала (от 100 Гц до 8 кГц). Использование направленных свойств предложенной микрофонной решетки позволяет в 2–3 раза ослабить воздействие внешних помеховых сигналов в диапазоне частот от 4 до 8 кГц. Исследованы возможности применения пространственновременной обработки регистрируемых сигналов при использовании постоянных и адаптивных весовых коэффициентов. Представлены результаты имитационного моделирования предложенной системы ввода и выделения сигналов в процессе цифровой обработки узкополосных сигналов. Предложенные решения позволяют повысить значение отношения сигнал/шум регистрируемых полезных сигналов до 10–20 дБ при воздействии внешних помеховых сигналов в диапазоне частот от 4 до 8 кГц. Полученные результаты могут быть полезны специалистам, выполняющим исследования в области распознавания речи, а также различения дикторов.

Научно-технический вестник информационных технологий, механики и оптики, 14, № 2, с. 118-123 (2014) | Рубрики: 12.01 13.05

 

Алейник С.В., Матвеев Ю.Н., Шолохов А.В. «Определение клиппированных фрагментов в акустических сигналах» Научно-технический вестник информационных технологий, механики и оптики, 14, № 4, с. 91-97 (2014)

Исследован способ определения клиппированных участков в акустических сигналах, обладающий лучшими характеристиками по сравнению с другими известными способами. Данный способ основан на построении гистограммы амплитуд анализируемого сигнала и вычислении расстояний между локальными максимумами гистограммы на ее хвостах и в центральной части. Отличие гистограмм неклиппированного и клиппированного сигналов заключается в том, что гистограмма неклиппированного сигнала имеет плавно спадающие хвосты, в то время как гистограмма клиппированного сигнала имеет на хвостах заметные и легко обнаруживаемые всплески. Величина данных всплесков и качество детектирования клиппированных фрагментов соответственно зависят от параметров исследуемого способа. Основной целью работы является нахождение оптимальных параметров исследуемого способа. Путем математического моделирования детально исследованы характеристики способа: построены плотности распределения целевой величины для различных длин анализируемого кадра сигнала, количества отсчетов в гистограмме и уровней клиппирования акустических сигналов. Показано, что при длине кадра в 6000–8000 отсчетов и количестве отсчетов в гистограмме, равном 200–300, достигается хорошее различение клиппированных и неклиппированных участков акустического сигнала. При этом порог разделения может варьироваться в пределах 0,45–0,55. Приведены примеры работы детектора клиппирования, основанного на исследованном способе, на реальных акустических сигналах при различных уровнях клиппирования. Ключевые слова: акустический сигнал, клиппирование, коэффициент клиппирования

Научно-технический вестник информационных технологий, механики и оптики, 14, № 4, с. 91-97 (2014) | Рубрика: 12.01

 

Карпов А.А., Железны М. «Двуязычная многомодальная система для аудиовизуального синтеза речи и жестового языка по тексту» Научно-технический вестник информационных технологий, механики и оптики, 14, № 5, с. 92-98 (2014)

Представлена концептуальная модель, архитектура и программная реализация многомодальной системы аудиовизуального синтеза речи и жестового языка по входному тексту. Основными компонентами разработанной многомодальной системы синтеза (жестовый аватар) являются: текстовый процессор анализа входного текста; имитационная трехмерная модель головы человека; компьютерный синтезатор звучащей речи; система синтеза аудиовизуальной речи; имитационная модель верхней части тела и рук человека; многомодальный пользовательский интерфейс, интегрирующий компоненты генерации звучащей, визуальной и жестовой речи по тексту. Предложенная система выполняет автоматическое преобразование входной текстовой информации в речевую (аудиоинформацию) и жестовую (видеоинформацию), объединение и вывод ее в виде мультимедийной информации. На вход системы подается произвольный грамматически корректный текст на русском или чешском языке, который анализируется текстовым процессором для выделения предложений, слов и букв. Далее полученная текстовая информация преобразуется в символы жестовой нотации (используется международная «Гамбургская система нотации» – HamNoSys, которая описывает основные дифференциальные признаки каждого жеста рук: форму кисти, ориентацию руки, место и характер движения), на основе которых трехмерный жестовый аватар воспроизводит элементы жестового языка. Виртуальная трехмерная модель головы и верхней части тела человека реализована на языке моделирования виртуальной реальности VRML и управляется программно средствами графической библиотеки OpenGL. Предложенная многомодальная система синтеза является универсальной, она предназначена как для обычных пользователей, так и для людей с ограниченными возможностями здоровья (в частности, глухих и незрячих людей) и служит для целей мультимедийного аудиовизуального вывода вводимой текстовой информации.

Научно-технический вестник информационных технологий, механики и оптики, 14, № 5, с. 92-98 (2014) | Рубрики: 12.01 13.05

 

Анагностопулос Т., Хоружников С.Э., Грудинин В.А., Скоурлас К. «Распознавание и прогнозирование длительных эмоций в речи» Научно-технический вестник информационных технологий, механики и оптики, 14, № 6, с. 137-145 (2014)

Люди действуют рационально, и это их фундаментальное отличие от других видов жизни. Кроме того, в современной психологии подчеркивается, что люди как разумные создания отличаются чувствами и эмоциями. Существует пятнадцать видов универсальных длительных эмоций, плюс нейтральное эмоциональное состояние, такие как гнев, злость, паника, страх, тревога, отчаяние, грусть, восторг, радость, интерес, скука, стыд, гордость, отвращение, презрение и нейтральное отношение. В данном исследовании рассматривается понимание эмоционального состояния человека по анализу речи в процессе общения. Доказано, что на основе достаточного объема акустических данных эмоциональное состояние человека может быть классифицировано набором мажоритарных классификаторов. Предложенный набор классификаторов построен на основе трех базовых классификаторов: kNN, C4.5 и SVMRBFKernel. Этот набор обеспечивает лучшую обработку классификаций эмоций, чем каждый из базовых классификаторов в отдельности. Он сравнивается с двумя другими наборами классификаторов: один-против-всех (OAA) мультиклассовый SVM с гибридными ядрами и с набором классификаторов, состоящим из двух базовых классификаторов С5.0, и нейронная сеть (NeuralNetwork). Предложенный вариант достигает лучшего результата, чем два других набора классификаторов. В настоящей статье осуществляется классификация эмоций набором мажоритарных классификаторов, который состоит из трех определённых базовых классификаторов, имеющих низкую вычислительную сложность. Базовые классификаторы базируются на различных теоретических данных с целью избегания отклонений и избыточности, что дает предложенному набору классификаторов возможность обобщиться в пространство определений эмоций.

Научно-технический вестник информационных технологий, механики и оптики, 14, № 6, с. 137-145 (2014) | Рубрики: 12.01 13.05

 

Булгакова Е.В., Шолохов А.В., Томашенко Н.А. «Метод идентификации дикторов на основе сравнения cтатистик длительностей фонем» Научно-технический вестник информационных технологий, механики и оптики, 15, № 1, с. 70-77 (2015)

Предмет исследования. Представлен полуавтоматический метод идентификации диктора по речи на основе сравнения просодических признаков – статистик длительностей звуков. В последнее время благодаря развитию речевых технологий наблюдается значительный интерес к поиску экспертных методов идентификации диктора по голосу, дополняющих с целью повышения надежности идентификации известные методы, а также обладающих низкой трудоемкостью. Эффективное решение данной проблемы необходимо для принятия надежного решения о тождестве либо различии голосов дикторов, представленных на фонограммах. Описание метода. Впервые представлен алгоритм расчета оценки различия голосов дикторов на основе сравнения статистик длительностей фонем и аллофонов. Характерной особенностью предложенного метода является возможность его применения в комплексе с другими полуавтоматическими методами (акустическими, аудитивно-лингвистическими) в связи с отсутствием ярко выраженной корреляции между анализируемыми признаками. Преимуществом метода является возможность проведения экспресс-исследования фонограмм большой длительности за счет автоматизации процесса подготовки данных для анализа. Описываются принципы работы автоматического сегментатора речи, используемого для расчета статистик длительностей звуков по акустико-фонетической разметке. Программное обеспечение разработано в качестве инструмента подготовки данных для экспертного анализа. Апробация метода. Метод апробирован на базе 130 речевых записей, включающей русскую речь дикторов-мужчин и дикторов-женщин, и показал надежность 71,7% на базе, содержащей записи женской речи, и 78,4% на базе, содержащей записи мужской речи. Также было экспериментально установлено, что из всех используемых признаков наиболее информативными являются статистики длительностей фонем гласных и сонорных согласных.

Научно-технический вестник информационных технологий, механики и оптики, 15, № 1, с. 70-77 (2015) | Рубрики: 12.01 13.05

 

Столбов М.Б. «Применение микрофонных решеток для дистанционного сбора речевой информации» Научно-технический вестник информационных технологий, механики и оптики, 15, № 4, с. 661-675 (2015)

Применение микрофонных решеток для сбора речевой информации имеет значительные преимущества по сравнению с системами, использующими один микрофон. Обзор посвящен системам, использующим микрофонные решетки для дистанционного сбора речевой информации. Материал статьи основан на анализе публикаций по применению микрофонных решеток для задач сбора речевой информации, а также опыте разработки и практического применения планарных микрофонных решеток. Рассмотрены основные этапы развития систем дистанционного сбора аудиоинформации. Перечислены основные области применения микрофонных решеток. Рассмотрены базовые типы микрофонных решеток и их особенности. Основной материал обзора посвящен работе с планарными микрофонными решетками. Проанализированы особенности работы микрофонных решеток в различной акустической обстановке. Рассмотрены основные соотношения для расчета базовых параметров эквидистантных планарных решеток. Перечислены некоторые методы (приведен список литературы) проектирования неэквидистанных решеток. Дан перечень основных алгоритмов цифровой обработки сигналов планарных микрофонных решеток. Приведен список литературы по алгоритмам обработки в частотной области. Приведен перечень зарубежных компаний, предлагающих системы на основе микрофонных решеток для решения широкого круга задач, связанных с обработкой речевых и аудиосигналов. Описаны некоторые современные системы сбора речевой информации на основе микрофонных решеток. В заключении перечислены перспективные направления развития систем сбора речевой информации с использованием микрофонных решеток. Материалы обзора могут быть использованы при проектировании микрофонных решеток для конкретных практических применений.

Научно-технический вестник информационных технологий, механики и оптики, 15, № 4, с. 661-675 (2015) | Рубрики: 12.01 13.05 14.02

 

Олейник А.Л. «Применение метода частичных наименьших квадратов для обработки и моделирования аудиовизуальной речи» Научно-технический вестник информационных технологий, механики и оптики, 15, № 5, с. 886-892 (2015)

Предмет исследования. Рассмотрена задача реконструкции изображения области рта по речевому сигналу с помо- щью метода частичных наименьших квадратов. Потребность в решении подобных задач возникает при создании методов обработки аудиовизуальной речи, которая содержит в себе звуковую и визуальную составляющие, называемые модальностями. Конкретные задачи, решаемые с помощью таких методов, включают в себя совместное модели- рование голоса и динамики движений губ, синхронизацию аудио- и видеопотоков, распознавание эмоций, обнаружение живости (liveness detection). Метод. Для решения поставленной задачи применен метод частичных наименьших квадратов. Метод позволяет выделить из исходных данных компоненты, между которыми существует ковариационная связь, и построить на их основе модель регрессии. Преимуществом такого подхода является возможность решения двух базовых задач: выявления скрытых связей между исходными данными (речевым сигналом и изображением области рта) и аппроксимации одних исходных данных по другим. Основные результаты. Экспериментальные исследования по реконструкции изображения области рта по речевому сигналу выполнены на аудиовизу альной речевой базе VidTIMIT. Полученные результаты позволяют сделать вывод о возможности применения метода частичных наименьших квадратов для решения задачи реконструкции.

Научно-технический вестник информационных технологий, механики и оптики, 15, № 5, с. 886-892 (2015) | Рубрики: 12.01 13.05

 

Тампель И.Б. «Автоматическое распознавание речи – основные этапы за 50 лет» Научно-технический вестник информационных технологий, механики и оптики, 15, № 6, с. 957-968 (2015)

Рассматриваются основные этапы развития систем автоматического распознавания речи за период около 50 лет. Сделана попытка оценить методы решения задачи с точки зрения приближения к функционированию биологических систем. За начало отсчета взято внедрение метода, основанного на алгоритме динамического программирования, в 1968 г. Рассмотрены недостатки метода, позволяющие использовать его только для распознавания команд. Далее рассмотрен метод, основанный на формализме марковских цепей. На основании представления о коартикуляции показана необходимость перехода от моделирования фонем как цельных контекстно независимых объектов к моделированию контекстно зависимых трифонов и бифонов. Разъяснены проблемы обучения трифонов, объясняющиеся недостаточностью речевых баз данных, которые привели к методу связывания состояний. Показана роль методов адаптации моделей и нормализации признаков, обеспечивающих лучшую инвариантность к индивидуальным особенностям диктора, каналам связи, аддитивным шумам. В качестве самого современного метода автоматического распознавания речи рассматриваются глубокие нейронные сети и рекуррентные нейронные сети. Отмечено сходство глубоких (многослойных) нейронных сетей с биологическими системами. В заключении описаны проблемы и недостатки современных систем распознавания речи и дан прогноз их развития.

Научно-технический вестник информационных технологий, механики и оптики, 15, № 6, с. 957-968 (2015) | Рубрики: 12.01 13.05 14.02

 

Меденников И.П. «Дикторо-зависимые признаки для распознавания спонтанной речи» Научно-технический вестник информационных технологий, механики и оптики, 16, № 1, с. 195-197 (2016)

Приведены результаты исследования по повышению устойчивости системы распознавания спонтанной речи к акустической вариативности речевого сигнала. Предложен метод построения высокоуровневых признаков при помощи глубокой нейронной сети с узким горлом, адаптированной к диктору и акустической обстановке при помощи i-векторов. Предложенный метод обеспечил относительное уменьшение на 11,9% словной ошибки в задаче распознавания русской спонтанной речи в телефонном канале.

Научно-технический вестник информационных технологий, механики и оптики, 16, № 1, с. 195-197 (2016) | Рубрики: 12.01 13.05

 

Булгакова Е.В., Шолохов А.В. «Полуавтоматическая система верификации дикторов» Научно-технический вестник информационных технологий, механики и оптики, 16, № 2, с. 284-289 (2016)

Предмет исследования. Представлена полуавтоматическая система верификации диктора по речи на основе сравнения значений формант, статистик длительностей звуков, а также мелодических характеристик. В последнее время благодаря развитию речевых технологий наблюдается значительный интерес к поиску экспертных систем верификации дикторов по голосу, обладающих высокой надежностью, а также низкой трудоемкостью за счет автоматизации процессов обработки данных для экспертного анализа. Описание системы. Впервые представлено описание системы, позволяющей анализировать сходство либо различие голосов дикторов на основе сравнения статистик длительностей фонем, формантных признаков и мелодических характеристик. Характерной особенностью предложенной системы, в основе которой лежит принцип фузирования (объединения) методов, является слабая корреляция между анализируемыми признаками, что приводит к общему снижению ошибки распознавания диктора. Преимуществом системы является возможность проведения экспресс-исследования фонограмм благодаря автоматизации процессов подготовки данных и принятия решения. Описываются принципы работы методов и способ их фузирования. Основные результаты. Проведена апробация системы на базе 1190 пар записей «свой–свой» и 10450 пар записей вида «свой–чужой». Записи включают русскую речь дикторов-мужчин и дикторов-женщин. Точность распознавания составила 98,59% для записей мужской речи и 96,17% для записей женской речи. Также было экспериментально установлено, что из всех используемых методов наиболее надежным является формантный метод. Практическая значимость. Результаты эксперимента показали применимость предложенной системы для решения задачи распознавания диктора по голосу и речи в рамках проведения фоноскопической экспертизы.

Научно-технический вестник информационных технологий, механики и оптики, 16, № 2, с. 284-289 (2016) | Рубрики: 12.01 13.05

 

Меденников И.П. «Двухэтапный алгоритм инициализации обучения акустических моделей на основе глубоких нейронных сетей» Научно-технический вестник информационных технологий, механики и оптики, 16, № 2, с. 379-381 (2016)

Предложен двухэтапный алгоритм инициализации обучения акустических моделей на основе глубоких нейронных сетей. Алгоритм предназначен для уменьшения влияния сегментов, не содержащих речь, на обучение акустической модели. Идея предлагаемого подхода заключается в уменьшении доли неречевых примеров в обучающей выборке. Оценка эффективности алгоритма выполнена на задаче распознавания английской спонтанной речи в телефонном канале (Switchboard). Применение предложенного алгоритма позволило добиться 3% относительного уменьшения пословной ошибки распознавания по сравнению с инициализацией обучения при помощи ограниченных машин Больцмана. Результаты работы могут найти применение при разработке систем автоматического распознавания речи.

Научно-технический вестник информационных технологий, механики и оптики, 16, № 2, с. 379-381 (2016) | Рубрика: 12.01

 

Иванько Д.В., Кипяткова И.С., Ронжин А.Л., Карпов А.А. «Анализ методов многомодального объединения информации для аудиовизуального распознавания речи» Научно-технический вестник информационных технологий, механики и оптики, 16, № 3, с. 387-401 (2016)

Представлен аналитической обзор, охватывающий последние результаты, достигнутые в области аудиовизуального объединения (интеграции) многомодальной информации. Рассматриваются основные проблемы и обсуждаются методы их решения. Одной из важнейших задач аудиовизуальной интеграции является понимание того, как именно модальности взаимодействуют и влияют друг на друга. В работе этот вопрос рассматривается в контексте аудиовизуальной обработки речи, в особенности распознавания речи. В первой части обзора изложены базовые принципы аудиовизуального распознавания речи, приводится классификация типов аудио- и визуальных признаков речи. Отдельное внимание уделяется систематизации существующих способов и методов объединения аудиовизуальной информации. Во второй части, на основе проведенного анализа области исследований, приводится сводный список задач и приложений, использующих аудиовизуальное объединение с указанием методов, способов объединения информации и используемых аудио- и видеопризнаков. Предлагается структуризация методов аудиовизуальной интеграции по типам решаемых задач, а также обсуждаются преимущества и недостатки различных подходов. Приведены выводы, предложена оценка будущего развития области. В ходе дальнейших исследований планируется реализация системы аудиовизуального распознавания слитной русской речи с применением современных методов объединения многомодальной информации.

Научно-технический вестник информационных технологий, механики и оптики, 16, № 3, с. 387-401 (2016) | Рубрики: 12.01 13.05

 

Карпов А.А., Кайа Х., Салах А.А. «Актуальные задачи и достижения систем паралингвистического анализа речи» Научно-технический вестник информационных технологий, механики и оптики, 16, № 4, с. 581-592 (2016)

Представлен аналитической обзор современных и актуальных задач, стоящих в области компьютерной паралингвистики, а также последних достижений автоматических систем паралингвистического анализа разговорной речи. Паралингвистика изучает невербальные аспекты человеческой коммуникации и речи: естественные эмоции, акценты, психофизиологические состояния, особенности произношения, параметры голоса диктора и т.д. Представлена архитектура базовой компьютерной системы акустического паралингвистического анализа, ее основные компоненты и используемые методы обработки речи. Приведена информация о международных соревнованиях по компьютерной паралингвистике Computational Paralinguistics Challenge (ComParE), которые c 2009 года проходят ежегодно в рамках международной конференции INTERSPEECH, организуемой международной ассоциацией по речевой коммуникации ISCA. Представлены задачи (конкурсы), которые решались в рамках данного соревнования в период с 2009 по 2016 гг., а также компьютерные системы, победившие в каждом из проведенных конкурсов, и полученные результаты. Последние завершенные соревнования ComParE-2015 проходили в сентябре 2015 года в Германии и содержали следующие 3 конкурса: 1) распознавание дикторов, которые говорят на родном для них языке (DN); 2) предсказание наличия болезни Паркинсона по речи (PC); 3) автоматическое определение, ест ли человек (диктор) во время говорения или диалога, и классификация вида пищи (определение одного из 7 типов), которую он принимает в это время. В последнем конкурсе («Eating ConditionSub-Challenge», EC) победу одержала совместная турецко-российская команда авторов данной статьи, которая разработала наиболее эффективную компьютерную систему для определения и классификации соответствующих акустических паралингвистических явлений. В статье представлена архитектура данной системы и основные модели и методы, описаны используемые обучающие и тестовые аудиоданные, а также наилучшие полученные результаты по машинной классификации акустических паралингвистических явлений.

Научно-технический вестник информационных технологий, механики и оптики, 16, № 4, с. 581-592 (2016) | Рубрики: 12.01 13.05

 

Мархотин А.А., Кривошейкин А.В., Рогозинский Г.Г., Уолш Р. «Нечеткое отображение в системе сонификации данных беспроводной сенсорной сети» Научно-технический вестник информационных технологий, механики и оптики, 16, № 6, с. 1073-1077 (2016)

Постановка проблемы. Приведена модель системы сонификации с учетом возможных типов данных беспроводной сенсорной сети. Для отображения данных в звук использован математический аппарат нечеткой логики. Методы. Разработанная система сонификации включает в себя модель входных данных и ядро синтеза звука. Система реализована в среде PureData. Для нечеткого вывода данных в процессе отображения использован FuzzyLogicToolboxMATLAB. Модель системы имеет возможность отправки данных по протоколу UDPдля осуществления сонификации в стороннем приложении. Результаты. Предложен метод организации звукового пространства выходных сигналов системы сонификации при помощи введения нечетких тембральных классов и последующего вывода управляющих характеристик ядра синтеза звука в зависимости от типа входных данных.

Научно-технический вестник информационных технологий, механики и оптики, 16, № 6, с. 1073-1077 (2016) | Рубрика: 12.01

 

Столбов М.Б., Тхе Куан Чонг «Прием речевых сигналов в шумовой обстановке с использованием двухэлементных микрофонных решеток» Научно-технический вестник информационных технологий, механики и оптики, 18, № 5, с. 850-857 (2018)

Предмет исследования. Рассмотрены практические вопросы дистанционного приема речевых сигналов в сложной шумовой обстановке с использованием двухэлементных микрофонных решеток (МР2). К настоящему времени теория МР2 хорошо разработана, однако применение МР2 в конкретных условиях требует специального рассмотрения. Методы. Выполнен сравнительный анализ алгоритма суммирования и дифференциального алгоритма обработки сигналов МР2 в частотной области. Основные свойства МР2 с алгоритмом суммирования и дифференциальными алгоритмами исследованы на основе использования аналитических моделей. Проведены экспериментальные исследования алгоритмов на записях, сделанных в безэховой камере и в натурных условиях. Рассмотрены сценарии точечного когерентного источника и распределенного источников шума. Основные результаты. Результаты экспериментальных исследований показали существенное преимущество дифференциальных алгоритмов обработки сигналов по сравнению с алгоритмом суммирования. Для различных вариантов дифференциальных алгоритмов достигнуто подавление уличного шума 10–12 дБ. Дополнительным преимуществом дифференциальных алгоритмов является возможность формирования нуля в направлении точечного источника помехи.

Научно-технический вестник информационных технологий, механики и оптики, 18, № 5, с. 850-857 (2018) | Рубрики: 12.01 13.05

 

Столбов М.Б., Чонг Тхе Куан «Исследование двухканального алгоритма MVDR для выделения речи из когерентного шума» Научно-технический вестник информационных технологий, механики и оптики, 19, № 1, с. 180-183 (2019)

Предмет исследования. Рассмотрены особенности реализации двухканального алгоритма минимума дисперсии шума (MVDR) для выделения речи из когерентного шума с использованием двухэлементных микрофонных решеток. Методы. Исследование выполнено с использованием аналитических моделей и записей, сделанных в безэховой камере. Основные результаты. Алгоритм MVDR может быть представлен как комбинация дифференциального алгоритма с адаптивной настройкой нуля в направлении источника когерентной помехи и эквалайзера, выравнивающего пространственно-частотный отклик в направлении целевого источника. Практическая значимость. Полученные результаты могут быть применены при проектировании систем с большим числом микрофонов.

Научно-технический вестник информационных технологий, механики и оптики, 19, № 1, с. 180-183 (2019) | Рубрики: 12.01 13.05

 

Шматков В.Н., Бонковски П., Медведев Д.С., Корзухин С.В., Голендухин Д.В., Спыну С.Ф., Муромцев Д.И. «Взаимодействие с устройствами интернета вещей с использованием голосового интерфейса» Научно-технический вестник информационных технологий, механики и оптики, 19, № 4, с. 714-721 (2019)

Предмет исследования. Рассмотрены современные наиболее популярные голосовые ассистенты для управления устройствами интернета вещей, представленные на рынке, такие как Google Cloud Speech-to-Text, Amazon Transcribe, IBM Speech to Text, Yandex SpeechKit. Выявлены их достоинства и недостатки. Для работы голосовых ассистентов необходимо подключение к сети Интернет с целью обработки получаемых данных в «облаке», а также для синхронизации и управления устройствами пользователя. Большой практический интерес могут представлять голосовые ассистенты, которым не требуется наличие подключения к сети Интернет. Метод. Предложена модель организации локального (без использования сети Интернет) распознавания речи с использованием мобильных устройств. В качестве системы распознавания спонтанной речи используется программное обеспечение CMU Sphinx, осуществляющее распознавание речи с одновременным применением акустической и языковой моделей, а также трансляцию распознанной речи в команды, понятные системе, построенной на базе открытой платформы управления устройствами «OpenHab». Предложен подход к описанию грамматик и формированию словаря для распознавания речи. Приведен пример словаря и описания грамматики для речевой системы управления подключенными устройствами. Для тестирования описываемого в статье подхода создан демонстрационный стенд, основой которого является одноплатный персональный компьютер Raspberry Pi с установленным программным обеспечением openHab, и построены устройства интернета вещей на базе микроконтроллеров ESP8266. Основные результаты. Реализовано голосовое управление устройствами интернета вещей, которое осуществляется с применением протокола MQTT. Реализовано взаимодействие с сервером по протоколу HTTP. Проведено тестирование распознавания голосовых команд. Показана возможность практического применения предложенного в статье подхода к распознаванию спонтанной речи.

Научно-технический вестник информационных технологий, механики и оптики, 19, № 4, с. 714-721 (2019) | Рубрики: 12.01 13.05

 

Калиев А.К., Рыбин С.В. «Акустическое моделирование для синтеза казахской речи» Научно-технический вестник информационных технологий, механики и оптики, 19, № 5, с. 951-954 (2019)

Представлена новая конструкция генеративно-состязательной сети для обучения акустической модели синтеза речи. Предлагаемая конструкция состоит из генератора и двух дискриминаторов, где генератор предсказывает акустические параметры из лингвистического представления. Обучение и тестирование производились на корпусе казахского языка, который состоял из 5,6 ч записи речи. По результатам экспериментов была получена 3,46 средняя экспертная оценка, что говорит о достаточно приемлемом качестве синтезе речи. Данный подход может быть применим при создании технологий синтеза речи для других языков.

Научно-технический вестник информационных технологий, механики и оптики, 19, № 5, с. 951-954 (2019) | Рубрики: 12.01 13.05