13.05 Речеобразование и восприятие речи

Леонов А.С., Макаров И.С., Сорокин В.Н., Цыплихин А.И. «Кодовая книга для речевых обратных задач» Информационные процессы, 5, № 2, с. 101-119 (2005)

Обратная задача нахождения формы речевого тракта (или артикуляторных параметров) по акустическим данным сводится к поиску условного минимума некоторой целевой функции. В силу неоднозначности отображения пространства акустических параметров в пространство артикуляторных параметров такая задача минимизации является многоэкстремальной. Отбор наилучшего решения осуществляется в результате многократного запуска процесса оптимизации с начальными приближениями, выбранными специальным образом. Эти начальные приближения составляют кодовую книгу. Формирование кодовой книги само по себе требует решения некоторой обратной задачи. Ее решение, однако, облегчается возможностью использования траекторий некоторых точек внутри речевого тракта, измеренных с помощью микролучевого рентгеноскопа или электромагнитного артикулографа синхронно с записью речевого сигнала. Входные акустические параметры и структура кодовой книги зависят от типа речевого сегмента – гласного, назального, фрикативного или смычки. Квазистационарные сегменты описываются значениями артикуляторных параметров, содержащихся в каждой ячейке квантованных акустических параметров. Переходные процессы, характерные для взрывных согласных, описываются последовательностью акустических и артикуляторных параметров на некотором интервале времени.

Информационные процессы, 5, № 2, с. 101-119 (2005) | Рубрики: 12.04 13.05

Сорокин В.Н. «Моторная теория восприятия речи и теория внутренней модели» Информационные процессы, 7, № 1, с. 1-12 (2007)

Теория внутренней модели объединяет процессы речеобразования и восприятия речи. Внутренняя модель является элементом системы управления артикуляцией, обеспечивая текущий контроль и коррекцию артикуляции при различных нарушениях путем решения обратных задач "проприоцепция–управления" и "акустика–управления". Для успешной деятельности внутренняя модель должна располагать сведениями о механике, аэродинамике и акустике речеобразования, а также о фонетике языка. Основной механизм действия внутренней модели – поиск экстремума некоторого сложного критерия оптимальности. Способность внутренней модели к решению обратной задачи "от акустики к управлениям" может использоваться и при распознавании речи других людей, дополняя пространство акустических признаков пространством артикуляторных параметров.

Информационные процессы, 7, № 1, с. 1-12 (2007) | Рубрики: 13.03 13.05

Леонов А.С., Макаров И.С., Сорокин В.Н., Цыплихин А.И. «Артикуляторный ресинтез гласных» Информационные процессы, 3, № 2, с. 73-82 (2003)

Решалась обратная задача нахождения формы речевого тракта и профиля площадей его поперечного сечения по акустическим и геометрическим данным. Данными служили: первые три резонансные частоты, измеренные в речевом сигнале; соответствующие траектории движений 8 точек на внутренних поверхностях речевого тракта, измеренные на микролучевом рентгеноскопе. Найденное динамическое решение обратной задачи использовалось артикулярным синтезатором для генерации речевого сигнала. Звучание синтезированных речевых сигналов и их сонограммы оказались весьма близки к оригинальным звукам – 13 гласным и 6 дифтонгам английского языка одного диктора.

Информационные процессы, 3, № 2, с. 73-82 (2003) | Рубрика: 13.05

Леонов А.С., Макаров И.С., Сорокин В.Н., Цыплихин А.И. «Артикуляторный ресинтез фрикативных» Информационные процессы, 4, № 2, с. 117-126 (2004)

Решались две обратные задачи восстановления формы речевого тракта для фрикативных согласных звуков английского языка (s, sh, f, θ, ∂, h, z, zh).В одной задаче входными данными служили только акустические параметры речевого сигнала, а в другой – вместе с акустическими параметрами использовались и траектории движений 8 точек на внутренних поверхностях речевого тракта, измеренные на микролучевом рентгеноскопе. В обеих задачах погрешность оценки измеренных координат точек составляла, в среднем, меньше 3%, причем разница между решениями в пространстве артикуляторных параметров была меньше 4%, за одним исключением. Перцептивный контроль качества решения обратной задачи выполнялся путем синтеза слогов "гласный–фрикативный–гласный" артикуляторным синтезатором. Исходными данными для синтеза служили форма речевого тракта и площади его поперечного сечения, вычисленные в результате решения обратной задачи. Звучание синтезированных слогов оказалось весьма близко к оригинальным слогам.

Информационные процессы, 4, № 2, с. 117-126 (2004) | Рубрики: 13.05 13.06

Сорокин В.Н., Цыплихин А.И. «Сегментация и распознавание гласных» Информационные процессы, 4, № 2, с. 202-220 (2004)

Для сегментации речевого сигнала на квазистационарные участки использовалась математическая модель восприятия речи. Детектирование гласных звуков выполнялось синхронно с импульсами источника голосового возбуждения. Анализ формантных частот производился на основе механизма латерального торможения в спектрально-временной области. Статистический анализ результатов сегментации выполнялся на базе речевых данных для 47 человек и нескольких типов телефонных трубок и микрофонов с ручной разметкой на 127 типов артикуляторно-акустических сегментов. Границы 85% сегментов были найдены правильно независимо от типа сегмента. Среди них было правильно детектировано около 80% гласных.

Информационные процессы, 4, № 2, с. 202-220 (2004) | Рубрика: 13.05

Цыплихин А.И., Сорокин В.Н. «Сегментация речи на кардинальные элементы» Информационные процессы, 6, № 3, с. 177-207 (2006)

Для сегментации речевого сигнала выполнялся поиск границ квазистационарных и переходных процессов, основанный на корреляции между кратковременными спектрами равноотстоящих по времени участков сигнала. Распознавание кардинальных типов сегментов (гласноподобные, назальные, фрикативные глухие и звонкие, смычные глухие и звонкие) выполнялось в пространствах акустических параметров, установленных в результате исследования. Моделирование плотностей вероятности выборок осуществлялось разработанной модификацией EM-алгоритма. Анализ результатов сегментации производился на материале представительной речевой базы для нескольких типов телефонных трубок и микрофонов с ручной разметкой на артикуляторно-акустические сегменты. Средняя погрешность положения границ составила 4,52 мс, среднее число вставок было равно 1,26 на один сегмент разметки, а среднее число пропусков – 0,95%. В 96,3% случаев правильный тип сегмента по вероятности входил в первую двойку, в 85% был на первом месте.

Информационные процессы, 6, № 3, с. 177-207 (2006) | Рубрика: 13.05

Сорокин В.Н., Макаров И.С. «Обратная задача для голосового источника» Информационные процессы, 6, № 4, с. 375-395 (2006)

Исследовалась обратная задача относительно формы голосового источника. Входными параметрами для этой задачи служили либо сигнал-остаток, получаемый после обратной фильтрации речевого сигнала, либо текущий интеграл от этого остатка. Сам сигнал-остаток интерпретируется как производная от объемной скорости воздушного потока через голосовую щель, а его интеграл – как объемная скорость потока. Рассматривалось несколько способов решения обратной задачи. В одном из них обратная задача решалась вариационным методом с регуляризацией по Тихонову. В этом методе параметры модели колебаний голосовых складок варьировались с целью минимизации целевого функционала, включающего в себя невязку между вычисленной по модели производной от объемной скорости и сигналом, полученным после обратной фильтрации. В другом методе сначала выполнялась оценка объемной скорости по сигналу обратной фильтрации, а затем эта объемная скорость использовалась для решения инвертированного уравнения динамики потока в голосовом источнике. Полученная оценка изменения площади голосовой щели на каждом периоде голосового источника аппроксимировалась по методу среднеквадратического минимума функцией, порождаемой моделью голосового источника. Этот метод оказался наиболее точным и устойчивым. Ошибки аппроксимации известной площади голосовой щели в этом методе находились в пределах до 0.1% (синтетические гласные), 10–12% (натуральные гласные с измеренной площадью голосовой щели). Установлено, что правдоподобные оценки площади голосовой щели достигаются на близко расположенных микрофонах.

Информационные процессы, 6, № 4, с. 375-395 (2006) | Рубрика: 13.05

Леонов А.С., Сорокин В.Н. «К анализу резонансных частот речевого тракта» Информационные процессы, 7, № 4, с. 386-400 (2007)

Предложен метод мгновенной оценки резонансных частот речевого тракта на каждом периоде основного тона. Метод основан на нахождении интервалов времени между моментами обращения в нуль первой производной сигнала, который подвергнут фильтрации в некоторой частотной полосе, где ожидается присутствие колебаний только одного резонанса тракта. Проведены численные эксперименты, показывающие, что получаемые по этому методу оценки частот достаточно близки к истинным резонансным частотам тракта. Применение метода к речевым сигналам для мужского голоса при многократном произнесении как изолированных гласных с различной частотой основного тона, так и гласных в симметричных слогах ГСГ с согласными (Б, Г), показало существование частотных модуляций, доходящих до ±18%, причем фаза этих модуляций относительно момента возбуждения акустических колебаний голосовым источником изменяется в значительных пределах.

Информационные процессы, 7, № 4, с. 386-400 (2007) | Рубрики: 13.05 13.06

Сорокин В.Н. «Избыточность управления процессами речеобразования» Информационные процессы, 9, № 2, с. 51-67 (2009)

Система управления артикуляцией характеризуется избыточностью, что позволяет достичь одних и тех же или близких значений параметров на каждом уровне за счет различных параметров на нижележащих уровнях. Сокращение различных двигательных единиц создает одно и то же мышечное сокращение, активность разных мышц приводит к одному и тому же смещению артикулятора или форме языка, одно и то же расстояние между подвижными и неподвижными частями речевого тракта в чувствительных местах обеспечивается смещением разных артикуляторов, а один и тот же вектор резонансных частот тракта соответствует бесконечному множеству функций площади поперечного сечения тракта. Избыточность наблюдается также и на уровне критериев оптимальности в системе управления артикуляцией. Конкретные примеры использования этой избыточности исследуются путем анализа патологии речеобразования и в специальных экспериментах по возмущению артикуляции и восприятия речи.

Информационные процессы, 9, № 2, с. 51-67 (2009) | Рубрика: 13.05

Горбунов К.С., Макаров И.С. «Модель акустического взаимодействия речевого тракта, подсвязочной области и голосового источника» Информационные процессы, 9, № 2, с. 68-82 (2009)

Статья посвящена построению математической модели акустического взаимодействия объемной скорости, протекающей через голосовую щель, речевого тракта и подсвязочной области (трахея, бронхи, легкие). Модель основана на аппроксимации акустических импедансов авторегрессионными моделями с подвижным средним. Результаты экспериментов хорошо согласуются с данными других работ по изучению взаимодействия голосового источника и тракта.

Информационные процессы, 9, № 2, с. 68-82 (2009) | Рубрики: 13.05 13.06

Кузенков Н.П., Логинов В.М., Никольская О.Н., Прокопенко С.В. «Алгоритм классификации речевых патологий при органических поражениях головного мозга» Информационные процессы, 9, № 3, с. 121-137 (2009)

Формализация параметров речи и ее объективное описание имеют большое значение для задач классификации и диагностики речевых патологий, которые могут возникать, например, при различных органических поражениях головного мозга. В работе предлагается оригинальный подход к задаче диагностики и классификации таких речевых нарушений, как моторные и нейродинамические афазии и дизартрии. С этой целью речь исследуется с помощью двух методик: темпоритмового анализа и моделирования динамики множества точек на фазовой плоскости специального вида, к которому можно свести анализируемый звуковой сигнал. На основании результатов анализа построена диагностическая модель, позволяющая классифицировать топологию органических поражений головного мозга по характеристикам речи испытуемых.

Информационные процессы, 9, № 3, с. 121-137 (2009) | Рубрики: 13.05 15.01

Сандовал-Ибарра Ю., Диаз-Рамирез В., Кобер В.И., Карнаухов В.Н. «Улучшение качества речи с использованием адаптивных спектральных оценок» Информационные процессы, 15, № 3, с. 314-323 (2015)

Известные методы статистического оценивания речевых сигналов основаны на некоторых предположениях о статистических свойствах речевых и шумовых процессов. В реальных приложениях эти предположения не всегда верны из-за нестационарной природы реальной окружающей среды. В работе предлагается синтезировать новые робастные функции спектральных оценок речевых сигналов с использованием порядковых статистик. Предлагаемые оценки хорошо адаптируются к нестационарным характеристикам речевых сигналов и фонового шума в реальных условиях. С помощью компьютерного моделирования мы показываем, что предлагаемые методы улучшения речи превосходят традиционные методы с точки зрения объективных критериев качества.

Информационные процессы, 15, № 3, с. 314-323 (2015) | Рубрика: 13.05

Гущина А.А., Голубинский А.Н., Зарубин В.С. «Метод сепарации речевых сигналов на вокализованные и шумовые сегменты на основе времени корреляции» Вестник Воронежского института МВД России, № 4, с. 141-146 (2015)

Предложен способ сепарации речевого сигнала на вокализованные и шумовые сегменты на основе оценки времени корреляции речевых сигналов конечной длительности. Рассчитаны численные значения относительного времени корреляции.

Вестник Воронежского института МВД России, № 4, с. 141-146 (2015) | Рубрика: 13.05

Герасимов А.В., Морозов О.А., Солдатов Е.А., Фидельман В.Р. «Применение метода модифицированного линейного предсказания для устойчивого акустического кодирования речи» Известия высших учебных заведений. Радиофизика, 49, № 7, с. 593-598 (2006)

Одной из важных задач в распознавании речевых сигналов является обеспечение приемлемого акустического кодирования сигнала в условиях шумовых помех. Результат вычисления акустических признаков существующими алгоритмами сильно зависит от соотношения сигнал/шум. Для решения проблемы, связанной с обеспечением устойчивости акустического кодирования, в работе предлагается алгоритм получения кепстральных коэффициентов на основе метода модифицированного линейного предсказания. Алгоритм ориентирован на специфику вокализованных речевых сигналов с выраженной формантной структурой, в том числе и при наличии широкополосных аддитивных помех. В работе экспериментально исследуется устойчивость работы алгоритма в зависимости от уровня шумов. Отмечено улучшение результата по сравнению с известными подходами.

Известия высших учебных заведений. Радиофизика, 49, № 7, с. 593-598 (2006) | Рубрика: 13.05

Шарафетдинова З.Г. «Звукоподражательные слова родного языка как важный компонент речевого развития детей» В мире научных открытий, № 11, с. 321-325 (2015)

Рассмотрена роль звукоподражательных слов в речевом развитии детей дошкольного возраста, представлены игры и упражнения для работы с детьми на разных этапах дошкольного возраста.

В мире научных открытий, № 11, с. 321-325 (2015) | Рубрика: 13.05

Алюшин А.М., Дворянкин Н.С. «Технология защитного аудиомаркирования документированной информации с использованием мобильных устройств» Современные наукоемкие технологии, № 11, с. 26-31 (2010)

Разработаны алгоритмы распознавания, обработки и озвучивания изображений динамических спектрограмм – аудиомаркеров или речевой подписи (РП). Создано программное обеспечение для мобильных телефонов, способное распознать такие аудиомаркеры на документах и изделиях, применяемых в целях их защиты от изменений и подмены. Даны рекомендации по выбору оптимальных типов границ аудиомаркеров и характеристик мобильных устройств.

Современные наукоемкие технологии, № 11, с. 26-31 (2010) | Рубрики: 13.05 14.01

Акустика

сигнальная информация

№2, 2016 год

13.05 Речеобразование и восприятие речи