Российский фонд
фундаментальных
исследований

Физический факультет
МГУ им. М.В.Ломоносова
 

13.05 Речеобразование и восприятие речи

 

Бакгауз Г. «Устанавливающиеся процессы в акустике» Успехи физических наук, № 2, с. 240-277 (1938)

I. Введение. II. Теория нестационарных процессов: Системы с одной степенью свободы, Системы со многими степенями свободы, Символические методы, Приближенные вычисления устанавливающихся процессов. III. Слуховое восприятие нестационарных звуковых процессов. Модель уха и устанавливающиеся процессы, Восприятие высоты тона, Слуховое восприятие устанавливающихся процессов, Модулированные тона. Ergebnlsse d. Exakt. Naturwiss. 16, 237, 1937. Перевод Б. Г. Шпаковского.

Успехи физических наук, № 2, с. 240-277 (1938) | Рубрики: 06.06 13.05 13.06

 

Джоган В.К., Авсентьев А.О. «Способ представления математических моделей для оценки характеристик противодействия перехвату речевой информации» Вестник Воронежского института МВД России, № 2, с. 248-252 (2013)

В качестве средства первичной формализации противоправных действий по перехвату речевой информации рассматривается способ представления функциональной модели такого рода действий в рамках символьного моделирования, позволяющий существенно упростить в дальнейшем переход от функционального к математическому их представлению. Рассмотрены варианты продукций последовательной и параллельной очередности реализации частных функций декомпозиции целевой предметной функции противоправных действий по перехвату речевой информации.

Вестник Воронежского института МВД России, № 2, с. 248-252 (2013) | Рубрики: 10.08 13.05

 

Щербаков А.В., Пономаренко С.А. «Оптимизация процедур комплексного технического контроля защищенности речевой информации от утечки по техническим каналам в деятельности объектов промышленно-деловой среды» Вестник Воронежского института МВД России, № 1, с. 116-121 (2015)

Формулируются предпосылки решения задачи оптимизации процедур комплексного технического контроля защищенности речевой информации от утечки по техническим каналам в коммерческой деятельности предприятий. Приводятся математические зависимости для определения характеристик процессов контроля в условиях традиционного способа его проведения и в условиях оптимизации. Обосновывается необходимый математический аппарат для решения рассматриваемой задачи.

Вестник Воронежского института МВД России, № 1, с. 116-121 (2015) | Рубрики: 10.08 13.05

 

Григорьев И.А., Тупота В.И. «Разработка модели оптико-электронного канала утечки акустической речевой информации» Вестник Воронежского государственного технического университета, 6, № 2, с. 85-87 (2010)

Приводится разработка модели оптико-электронного канала утечки акустической речевой информации с учетом всех преобразований исходного информативного акустического сигнала, шумовых составляющих и отношений сигнал/шум в точках съема информации аппаратурой дистанционного прослушивания речи.

Вестник Воронежского государственного технического университета, 6, № 2, с. 85-87 (2010) | Рубрики: 10.08 13.05

 

Продеус А.Н., Овсяник В.П. «Оценивание спектра поздней реверберации: оптимизация параметров» Известия высших учебных заведений. Радиоэлектроника, 58, № 7, с. 40-47 (2015)

Коррекция речевых сигналов, искаженных реверберацией, актуальна при построении систем связи, систем автоматического распознавания речи, слуховых аппаратов. При подавлении поздней реверберации методом спектрального вычитания или методом частотной коррекции необходимо оценивать спектр поздней реверберации. Несмотря на то, что процедура такого оценивания в основном разработана, существует ряд неясных моментов, связанных с ее оптимизацией. В данной работе, с использованием методов компьютерного моделирования выработаны рекомендации, позволяющие оптимизировать оценивание спектра поздней реверберации по таким критериям как качество речевого сигнала и точность автоматического распознавания речи.

Известия высших учебных заведений. Радиоэлектроника, 58, № 7, с. 40-47 (2015) | Рубрики: 11.06 11.07 13.05

 

Рабинович А.В. «Физические характеристики певческого голоса» Успехи физических наук, 15, № 7, с. 924-930 (1935)

Содержание: Общие замечания. Мощность голоса. Вибрации. Тембр. Заключение

Успехи физических наук, 15, № 7, с. 924-930 (1935) | Рубрики: 11.08 13.05 13.06

 

Розенберг Л.Д. «Диапазон частот, необходимый для хорошей передачи речи и музыки» Успехи физических наук, 38, № 5, с. 120-123 (1949)

В результате работ ряда авторов давно было известно, что для высококачественной, так называемой «натуральной» передачи речи и музыки необходима передача частот в диапазоне от 30 до 15 тысяч герц. Однако в 1945 г. была опубликована довольно тщательно выполненная работа Чинна и Айзенберга, из которой следует, что в случае одноканального (моноаурального) воспроизведения звука большинство слушателей предпочитает «укороченный» диапазон, ограниченный сверху частотой 5000 гц. Для объяснения этОго результата можно высказать три предположения.

Успехи физических наук, 38, № 5, с. 120-123 (1949) | Рубрики: 11.08 13.05

 

Романенко В.О. «Эмоциональные характеристики речи и их связь с акустическими параметрами» Общество. Среда. Развитие, № 4, с. 119-123 (2010)

Проблемы невербальной коммуникации и, в частности, передача эмоционального содержания речи с помощью кодирования ее акустических параметров, чрезвычайно актуальны. Результаты по установлению этих взаимосвязей лежат в основе программ автоматического распознавания, кодирования и синтеза эмоций, моделирования эмоционально-окрашенной речи и др. Представлен обзор исследований этой проблемы, проводимых в течение более полутора веков. Описаны взаимосвязи эмоций с изменениями таких параметров, как частота основного тона, долговременный статистический спектр, темпо-ритмические характеристики и др.

Общество. Среда. Развитие, № 4, с. 119-123 (2010) | Рубрика: 13.05

 

Романенко В.О. «Эмоциональные характеристики вокальной речи и их связь с акустическими параметрами» Общество. Среда. Развитие, № 3, с. 124-127 (2011)

Вокальная речь (пение) предназначена, прежде всего, для передачи эмоционально-эстетической информации. Проблема взаимосвязи эмоций с акустическими параметрами вокальной речи лежит в основе методик обучения пению, моделирования пения, развития электронных искусств, работы звукорежиссера с вокальной речью. В статье представлен обзор исследований этой проблемы, проводимых в течение длительного времени. Описаны взаимосвязи эмоций с изменениями таких параметров, как частота основного тона, высокая певческая форманта, вибрато и тремоло, темпо-ритмические характеристики и др.

Общество. Среда. Развитие, № 3, с. 124-127 (2011) | Рубрика: 13.05

 

Романенко В.О. «Экспериментальный анализ эмоций в вокальной речи и применение его результатов в искусстве звукорежиссуры» Общество. Среда. Развитие, № 4, с. 147-150 (2013)

Представлено экспериментальное исследование эмоциональной выразительности пения разных исполнителей. Описаны взаимосвязи базовых эмоций с изменениями акустических параметров, представлены результаты произведенного синтеза эмоциональных характеристик на основе неэмоциональной звукозаписи, обозначены сферы применения экспериментальных данных по исследованию эмоций в вокальной речи в искусстве звукорежиссуры.

Общество. Среда. Развитие, № 4, с. 147-150 (2013) | Рубрика: 13.05

 

Майорова Л.А., Мартынова О.В., Балабан П.М., Иваницкий А.М., Шкловский В.М. «Негативность рассогласования и ее гемодинамический эквивалент (по данным фМРТ) в исследованиях восприятия речи в норме и при речевых расстройствах» Успехи физиологических наук, 45, № 1, с. 27-43 (2014)

Обзор посвящен применению электрофизиологического индекса слухового различения, известного под названием "негативность рассогласования" (НР), и его гемодинамического эквивалента, полученного методом функциональной магнитно-резонансной томографии (фМРТ), для исследований восприятия речи в норме и при патологии. Наибольшее внимание уделяется исследованиям, посвященным использованию НР как нейрофизиологического показателя степени нарушения первичного этапа восприятия речи, а именно фонематического слуха, у пациентов с сенсорной афазией. Обосновывается также, что данный показатель может быть использован для изучения степени компенсации речевых нарушений, и рассматриваются перспективы одновременной регистрации ЭЭГ и фМРТ в изучении речевой патологии.

Успехи физиологических наук, 45, № 1, с. 27-43 (2014) | Рубрика: 13.05

 

Лебедева Н.Н., Каримова Е.Д. «Акустические характеристики речевого сигнала как показатель функционального состояния человека» Успехи физиологических наук, 45, № 1, с. 57-95 (2014)

Обзор посвящен анализу возможностей и эффективности использования экстралингвистических (т.е. несемантических) характеристик речевого сигнала для оценки функционального состояния человека – при выполнении операторской деятельности, эмоциональном напряжении, при моделировании (актерском и неактерском) различных эмоциональных состояний, при депрессии.

Успехи физиологических наук, 45, № 1, с. 57-95 (2014) | Рубрика: 13.05

 

Сорокин В.Н., Цыплихин А.И. «Верификация диктора по спектрально-временным параметрам речевого сигнала» Информационные процессы, 10, № 2, с. 87-104 (2010)

Верификация диктора выполняется на основе измерения формантных частот на стационарных участках и переходных процессах гласных звуков, спектральных признаков фрикативных звуков, а также длительности речевых сегментов. Для каждого слова из фиксированного словаря русских числительных от 0 до 9 были отобраны наилучшие признаки. Парольная фраза генерируется системой в случайном порядке при каждом новом акте верификации. Компенсация динамических помех и противодействие вторжению с помощью воспроизведения подслушанных и записанных слов диктора осуществляется с помощью требования повторного произнесения некоторых слов. В результате более чем 30 миллионов тестов на базе данных для 429 дикторов для максимальной длины парольной фразы в 10 слов получены суммарные вероятности ошибки 0.006% для мужских голосов и 0.025% – для женских, причем вероятности пропуска самозванца и ложного отказа в этом случае примерно равны.

Информационные процессы, 10, № 2, с. 87-104 (2010) | Рубрика: 13.05

 

Сорокин В.Н., Вьюгин В.В., Тананыкин А.А. «Распознавание личности по голосу: аналитический обзор» Информационные процессы, 12, № 1, с. 1-30 (2012)

Задача распознавания диктора по его голосу была поставлена более 40 лет тому назад, и исследования в этой области все еще продолжаются. Решение этой задачи может найти применение в криминалистике, радиоразведке, контрразведке, антитерростическом мониторинге, обеспечение безопасности доступа к физическим объектам, информационным и финансовым ресурсам. В зависимости от конкретной задачи различают верификацию и идентификацию диктора. В первом случае пользователь указывает свой идентификатор, и требуется либо подтвердить его или отказать в подтверждении. Во втором случае необходимо идентифицировать диктора среди множества других дикторов. В большинстве работ для распознавания диктора используются параметры в виде коэффициентов кепстра, который вычисляется по огибающей спектра, полученного через преобразование Фурье, с помощью гребенки фильтров, либо по передаточной функции речевого тракта, найденной методом линейного предсказания. В дополнение к коэффициентам кепстра используются также их первые и вторые разности по времени. Преимущество такого подхода заключается в вычислительной простоте, а также в том, что в кепстре отражаются индивидуальные характеристики голосового источника и анатомия речевого тракта. Вместе с тем, различительная способность такого описания ограничена, и поэтому значительные усилия сконцентрированы на разработке решающих правил. Наиболее популярны методы гауссовых смесей (GMM) и опорных векторов (SVM). Используются также искусственные нейронные сети и скрытые Марковские модели (HMM). С целью сравнения различных методов распознавания диктора введен показатель равной ошибки (EER), определяющий ошибку распознавания при условии равенства вероятности пропуска самозванца и отказа законному пользователю. По результатам тестирования на одной и той же базе данных, регулярно проводимого в Национальном институте стандартов и технологий США (NIST), эта ошибка находится в диапазоне 3–5%, так что суммарная ошибка равна удвоенной величине, т.е. 6–10%.

Информационные процессы, 12, № 1, с. 1-30 (2012) | Рубрика: 13.05

 

Сорокин В.Н., Гераськин И.В. «Оценка длины речевого тракта» Информационные процессы, 13, № 2, с. 35-47 (2013)

Исследовались два способа оценки длины речевого тракта, эквивалентной длине однородной акустической трубы. Один способ был основан на вычислении длины тракта по разности частот ближайших локальных максимумов спектра, находящихся выше 4 кГц. В другом способе длина тракта вычислялась по средней частоте второй форманты, определенной по частотам первых трех формант. Также рассматривались варианты анализа независимо от контекста и в зависимости от известных гласных звуков. Вероятность правильного распознавания пола диктора обоими способами составила около 13%, и практически не зависит от знания контекста. Вероятность правильного распознавания мужских голосов по разности высших формант независимо от контекста составила около 31%, а женских голосов – около 25.5%, а в зависимости от контекста – 37% и 31%, соответственно. При контекстно-независимом распознавании по средней частоте второй форманты вероятность правильного распознавания мужских голосов близка к 27%, а женских – к 21.5%, тогда как при контекстно-зависимом распознавании с известным типом гласного вероятность правильного распознавания мужских голосов повышается до 43%, а женских – до 35.5%.

Информационные процессы, 13, № 2, с. 35-47 (2013) | Рубрики: 13.05 13.06

 

Ермилов А.В., Гостев И.М. «Об обучении системы верификации диктора на неразмеченных данных» Математическое моделирование, 27, № 7, с. 51-57 (2015)

Исследуются способы получения автоматической разметки речевых данных по дикторам с помощью алгоритмов кластеризации с последующим получением смеси моделей, используемых для распознавания диктора. Такая задача возникает, например, в случае необходимости использования данных из новых каналов, например, данных, полученных с мобильных устройств. Для таких каналов, как правило, отсутствует большая размеченная база по дикторам, которая в дальнейшем может быть использована для построения системы верификации диктора. Кроме того, рассматривается задача верификации диктора и способы её решения на основе моделей GMM-UBM, приведен обзор методов нормализации влияния канала, используемых для увеличения точности распознавания. Изложен обзор современных методов верификации диктора, таких как супервекторы и PLDA. Также в статье исследуется качество разметки, полученной методом иерархической кластеризации с различными метриками, и приводятся результаты численных экспериментов по верификации диктора на базе i-векторов из NIST i-vector Machine Learning Challenge 2014 с помощью модели, обученной на полученной разметке.

Математическое моделирование, 27, № 7, с. 51-57 (2015) | Рубрика: 13.05

 

Голубинский А.Н., Гущина А.А. «Математическая модель импульсного источника речевого сигнала, основанная на полигауссовской модели» Вестник Воронежского института МВД России, № 4, с. 175-181 (2013)

Разработана математическая модель импульсного источника речевого сигнала, основанная на полигауссовской модели. Полученная модель адекватно описывает процесс речеобразования взрывных сегментов речи в виде суммы гауссовских функций, зависящих от времени.

Вестник Воронежского института МВД России, № 4, с. 175-181 (2013) | Рубрика: 13.05

 

Голубинский А.Н. «Об оценке времени корреляции речевых сегментов» Вестник Воронежского института МВД России, № 4, с. 128-133 (2014)

Получены выражения для оценки времени корреляции речевых сигналов на основе стохастической математической модели, описывающей вокализованные и невокализованные сегменты речи. Приведены расчётные формулы для частных случаев, соответствующих различным параметрам голосового источника.

Вестник Воронежского института МВД России, № 4, с. 128-133 (2014) | Рубрика: 13.05

 

Дровникова И.Г., Беляев И.А. «Обмен речевой информацией в сфере критических приложений как объект математического моделирования» Вестник Воронежского института МВД России, № 2, с. 157-163 (2015)

Анализируются особенности оценки показателей качества речевой информации. Предлагается математическая модель обмена речевой информацией в системах критических приложений, учитывающая характеристики полноты реализации информационной деятельности и своевременности обмена речевой информацией.

Вестник Воронежского института МВД России, № 2, с. 157-163 (2015) | Рубрика: 13.05

 

Лебедева Н.Н., Каримова Е.Д., Казимирова Е.А. «Анализ речевого сигнала в исследованиях функционального состояния человека» Биомедицинская радиоэлектроника, № 2, с. 3-12 (2015)

Представлен обзор методик оценки функционального состояния человека с помощью анализа речевого сигнала. В качестве анализируемых параметров предложено использовать спектральные, темпоральные и нелинейные показатели речи.

Биомедицинская радиоэлектроника, № 2, с. 3-12 (2015) | Рубрика: 13.05

 

Абрамов Г.В., Коробова Л.А., Ивашин А.Л., Матыцина И.А. «Анализ и использование математических методов для распознавания звуковых сигналов» Вестник Воронежского государственного университета инженерных технологий, № 2, с. 61-65 (2015)

Распознавание голоса – широко изучаемая и изученная в науке тема, а распознавание звуковых сигналов, в том числе кашлей пациентов в длительной звуковой записи – практически не изученная. Для распознавания звуковых сигналов и их подсчета были проанализированы и использованы математические методы, такие как корреляционный анализ, быстрое преобразование Фурье, нечеткая логика. Рассматривая каждый метод по очереди, подбирались параметры дающие наилучшие результаты распознавания при использовании того или иного метода. Корреляционный анализ позволяет сделать выводы о количестве кашлевых моментов для выбранного эталона. Быстрое преобразование Фурье позволило выделить такие частотные диапазоны, в которые попадают только кашли и не попадают шумы, экспериментальным путем было выявлено 6 таких диапазонов. Использование нечеткой логики улучшило анализ звуковой записи и позволило производить выбор кашлевых моментов с большей степенью уверенности, но однозначности результатов выбора достичь так и не удалось. Использовалась нечеткая логика, позволяющая расширить границы распознавания, позволяя градировать результат на кашель, возможно кашель и шум. При анализе полученных данных по каждому математическому методу пришли к выводу, что по отдельности их использование невозможно. Для достижения поставленной цели необходимо составить комплекс математических правил вывода, которые позволят распознавать звуковые сигналы с более высокой точностью. Рассмотрев спектрограмму звукового фрагмента, выделить зоны, в которых необходимо производить анализ для выявления похожести звуковых записей. Выделенные зоны кашля имеют четкие значения по каждой из координат спектрограммы. Это позволило в дальнейшем при синтезировании правил вывода использовать точные значения для границ параметров этих правил. Под полученный комплекс правил модифицировали разработанный программный продукт. Протестировали запись и получили результаты.

Вестник Воронежского государственного университета инженерных технологий, № 2, с. 61-65 (2015) | Рубрика: 13.05

 

Митянок В.В. «К проблеме идентификации и верификации личности по фазовым характеристикам звуков речи» Техническая акустика, 15, № 1, http://www.ejta.org/ru/mitsianok4 (2015)

Метод аппроксимации использован для изучения гласных звуков речи человека. Показано, что в спектре гласных звуков присутствуют полуцелые (от базовой) несущие частоты. Обнаружены новые фазовые критерии различения людей по звукам речи. Показано, что опубликованные ранее фазовые критерии являются следствием новых, причем дисперсии новых критериев – систематически меньше, чем дисперсии прежних. Приводятся таблицы и графики, иллюстрирующие полученные результаты.

Техническая акустика, 15, № 1, http://www.ejta.org/ru/mitsianok4 (2015) | Рубрика: 13.05

 

Малов Н. «Новый электрический прибор для воспроизведения гласных» Успехи физических наук, № 4, с. 529-533 (1937)

В докладе, прочитанном Прусской Академии наук, известный немецкий электрик К. В. Вагнер сообщил о результатах большой работы по анализу и синтезу гласных, выполненной в его лаборатории. Вагнер указывает, что работы ряда исследователей, экспериментировавших в последние годы с весьма совершенной аппаратурой, подтвердили основные идеи теории Гельмгольца. Wagner, Abhandl. d. Preu sischen. Akad. d. Wissenschaften, Phys. mathem. Klasse, 1936 (Sonderabdruck).

Успехи физических наук, № 4, с. 529-533 (1937) | Рубрики: 13.05 13.06

 

Митянок В.В. «Определение числовых характеристик высокочастотных звуков речи на основе аппроксимации гармоническими функциями» Известия Национальной академии наук Беларуси. Серия физико-математических наук (Весцi НАН Беларусi. Сер. фiз.-мат. навук), № 2, с. 111-118 (2009)

Известия Национальной академии наук Беларуси. Серия физико-математических наук (Весцi НАН Беларусi. Сер. фiз.-мат. навук), № 2, с. 111-118 (2009) | Рубрика: 13.05

 

Бакгауз Г. «Устанавливающиеся процессы в акустике» Успехи физических наук, № 3, с. 353-379 (1938)

IV. Некоторые вопросы электроакустики. Методы исследования нестационарных акустических процессов. Устанавливающиеся процессы в электроакустических аппаратах. V. Устанавливающиеся процессы в звуках речи. Органы речи. Нестационарные процессы. Согласные. VI. Нестационарные процессы в музыкальных инструментах: Общий обзор. Смычковые инструменты. Духовые инструменты. Орган. Фортепиано. Ударные инструменты. Электромузыкальные инструменты. См. Успехи физич. наук, 19, 236, 1938.

Успехи физических наук, № 3, с. 353-379 (1938) | Рубрики: 04.11 06.06 13.05 13.06