Российский фонд
фундаментальных
исследований

Физический факультет
МГУ им. М.В.Ломоносова
 

13.05 Речеобразование и восприятие речи

 

Кропотов Ю.А. «Моделирование адаптивной линейной фильтрации повышения отношения сигнал/внешний акустический шум в системе обмена речевой информацией» Известия вузов. Физика, 55, № 8-2, с. 35-37 (2012)

Рассматриваются характеристики акустических речевых сигналов и акустических шумов, рассматривается их влияние на отношение сигнал/шум в системах громкоговорящей связи, исследуются спектральные функции речевых сигналов и акустических помех, сформулированы рекомендации создания алгоритмов подавления акустических помех методами линейной фильтрации.

Известия вузов. Физика, 55, № 8-2, с. 35-37 (2012) | Рубрика: 13.05

 

Смирнов В.А., Гусев М.Н., Фархадов М.П. «Функция лингвистического процессора в системе автоматического анализа неструктурированной речевой информации» Автоматизация и современные технологии, № 8, http://www.mashin.ru/eshop/journals/avtomatizaciya_i_sovremennye_tehnologii/2013/2 (2013)

Поясняется назначение системы автоматического анализа неструктурированной речевой информации и описывается функция лингвистического процессора и его место в общей схеме автоматического анализа неструктурированной речевой информации. Раскрывается компонентный состав лингвистического процессора и даётся подробное описание работы каждого компонента. Приводится практический пример этапов работы лингвистического процессора

Автоматизация и современные технологии, № 8, http://www.mashin.ru/eshop/journals/avtomatizaciya_i_sovremennye_tehnologii/2013/2 (2013) | Рубрика: 13.05

 

Герасимов A.В., Морозов О.А., Фидельман В.Р. «Применение метода модифицированного линейного предсказания к задачам выделения акустических признаков речевых сигналов» Радиотехника и электроника, 50, № 10, с. 1287-1291 (2005)

Предложен алгоритм определения порядка линейной авторегрессионной модели, основанный на анализе подобия спектральных оценок, полученных методом модифицированного линейного предсказания. Экспериментально исследована устойчивость работы алгоритма в зависимости от уровня шумов. Отмечено улучшение результата по сравнению с известными подходами.

Радиотехника и электроника, 50, № 10, с. 1287-1291 (2005) | Рубрика: 13.05

 

Горшков Ю.Г. «Исследовательский комплекс частотно-временного анализа речевого сигнала с использованием вейвлет-технологии» Вестник Московского государственного технического университета имени Н.Э. Баумана (МГТУ). Серия: Приборостроение, № 3, с. 78-87 (2011)

Рассмотрены недостатки распространенных аппаратно-программных средств анализа речи, используемых при экспертизе фонограмм. Представлена структура исследовательского комплекса частотно-временного анализа речевого сигнала, обеспечивающего повышенную точность обработки речевой информации с использованием вейвлет-технологии. Приведены экспериментальные данные построения вейвлет-сонограмм гласных и согласных звуков.

Вестник Московского государственного технического университета имени Н.Э. Баумана (МГТУ). Серия: Приборостроение, № 3, с. 78-87 (2011) | Рубрика: 13.05

 

Чистиков П.Г., Хомицевич О.Г. «Автоматическое определение границ предложений в потоковом режиме в системе распознавания русской речи» Вестник Московского государственного технического университета имени Н.Э. Баумана (МГТУ). Серия: Приборостроение, № S, с. 115-123 (2011)

Описан подход к решению задачи деления речевого сигнала на предложения, который является необходимым шагом для автоматического распознавания слитной речи. Представлена модель, которая предсказывает вероятности границ предложений, основываясь только на просодической информации – частоте основного тона, энергии и длине пауз. Алгоритм работает в потоковом режиме и определяет вероятность границы предложения для каждого разрыва основного тона. Далее эти данные используются как дополнительная информация для языковых моделей, применяемых в системе распознавания.

Вестник Московского государственного технического университета имени Н.Э. Баумана (МГТУ). Серия: Приборостроение, № S, с. 115-123 (2011) | Рубрика: 13.05

 

Кореневский М.Л., Пономарева И.А., Левин К.Е. «Потоковая классификация звукозаписей новостных сообщений русскоязычных средств массовой информации» Вестник Московского государственного технического университета имени Н.Э. Баумана (МГТУ). Серия: Приборостроение, № S, с. 124-132 (2011)

Описана методика тематической классификации потока речевых данных с использованием предварительной разметки слитной речи на предложения. Показано, что использование информации о границах предложений повышает надежность тематической классификации потока речи в среднем на 25–30%. Максимальная надежность классификации достигается при совместном использовании порогового значения для числа распознанных слов и информации о границах предложений. Однако, и в случае применения только информации о границах предложений (без учета числа распознанных слов) полученные результаты демонстрирую высокую степень надежности.

Вестник Московского государственного технического университета имени Н.Э. Баумана (МГТУ). Серия: Приборостроение, № S, с. 124-132 (2011) | Рубрика: 13.05

 

Горшков Ю.Г., Кузин А.Ю., Цирлов В.Л. «Засекречивание речевой информации на основе вейвлетов» Вестник Московского государственного технического университета имени Н.Э. Баумана (МГТУ). Серия: Приборостроение, № SPEC, с. 138-145 (2011)

Рассмотрены недостатки существующих методов засекречивания речи с использованием алгоритмов преобразования Фурье. Представлены результаты исследований в области создания технологии высокоточной обработки речевого сигнала на вейвлетах, обеспечивающей высокую стойкость засекреченной информации к "взлому" при сохранении высокого качества восстановленного сигнала. Приведены экспериментальные данные тестирования тракта многоуровневого вейвлет-преобразования речи и сонограммы открытого и засекреченного сеансов связи.

Вестник Московского государственного технического университета имени Н.Э. Баумана (МГТУ). Серия: Приборостроение, № SPEC, с. 138-145 (2011) | Рубрика: 13.05

 

Горшков Ю.Г., Каиндин А.М. «Инструментальные средства фоноскопической экспертизы аудиозаписей» Вестник Московского государственного технического университета имени Н.Э. Баумана (МГТУ). Серия: Приборостроение, № 2, с. 37-47 (2012)

Рассмотрен новый подход к построению инструментальных средств криминалистического исследования фонограмм. Выполнен краткий сравнительный анализ известных решений. Проведено тестирование распространенного аппаратно-программного комплекса фоноскопической экспертизы аудиозаписей ИКАР Лаб в составе средств ввода/вывода речевых сигналов, программного обеспечения спектрального анализа сигналов фонограмм. С учетом полученных данных рассмотрены недостатки применяемых методов спектрального анализа речевых сигналов, реализованных на основе преобразования Фурье. Предложены технические решения, обеспечивающие более высокую точность как на этапе ввода аудиозаписей в ПК, так и непосредственно при вычислении параметров речевого сигнала. Приведены примеры адаптивной многоуровневой вейвлет-обработки фонограмм, обеспечивающей получение частотно-временной структуры гласных звуков с повышенным разрешением.

Вестник Московского государственного технического университета имени Н.Э. Баумана (МГТУ). Серия: Приборостроение, № 2, с. 37-47 (2012) | Рубрика: 13.05

 

Соловьев А.Н., Шестакова А.Н., Ляксо Е.Е. «Восприятие фонем с высокой и низкой частотой основного тона» Сенсорные системы, 24, № 3, с. 255-262 (2010)

Проведены магнитоэнцефалографическое и психоакустическое исследования восприятия русских гласных [и] и [а] с разными значениями частоты основного тона (ЧОТ) русскоязычными испытуемыми. В магнитоэнцефалографическом исследовании при пассивном бинауральном прослушивании гласных с высокими и низкими значениями ЧОТ регистрировался возбуждаемый магнитным полем компонент М100. Было обнаружено, что амплитуды ответов М100 компоненты гласных [и] и [а] независимо от их ЧОТ больше в правом полушарии, чем в левом. Также установлено, что латентность и амплитуды М100 ответов фонем различны в правом и левом полушарии. Левослышащие и правослышащие испытуемые с ведущей правой рукой (определенные по тесту Эдинбурга) имеют разную MCE амплитуду потенциалов при восприятии обеих групп фонем. Так, у левослышащих испытуемых усредненный максимум амплитуды больше в правом полушарии, чем в левом; у правослышащих – инверсная картина. Латентность М100 компоненты правослышащих испытуемых меньше в правом полушарии, чем в левом для обеих групп фонем. В психоакустическом эксперименте обнаружено, что гласные фонемы категории [a] с высокими значениями ЧОТ распознаются всеми испытуемыми с меньшим количеством ошибок, чем гласные фонемы [и].

Сенсорные системы, 24, № 3, с. 255-262 (2010) | Рубрика: 13.05

 

Бердникова И.П., Мальцева Н.В. «Помехоустойчивость слуховой системы при сенсоневральной тугоухости» Сенсорные системы, 24, № 4, с. 299-304 (2010)

Исследована разборчивость речи в условиях разнообразных помех у больных с сенсоневральной тугоухостью и у лиц с нормальным слухом при монауральном и бинауральном предъявлении сигнала. Проведена оценка помехи с позиции ее влияния на разборчивость речи c использованием экспресс-метода речевой аудиометрии. Наибольшим маскирующим эффектом при монауральном предъявлении речевого сигнала обладает речевой шум, снижая даже у лиц с нормальным слухом разборчивость речи на 40–60% в зависимости от соотношения сигнал/помеха. Бинауральное предъявление речевого сигнала значительно увеличивает помехоустойчивость слуховой системы, но только нормально слышащих. У больных с сенсоневральной тугоухостью наблюдается значительное снижение разборчивости речи относительно нормы при использовании всех исследуемых помех. Бинауральное слухопротезирование улучшает помехоустойчивость слуховой системы этих больных, но незначительно. Меньший прирост разборчивости у этих больных при бинауральном предъявлении речевого сигнала можно объяснить нарушением межполушарных взаимодействий в результате длительной депривации одного из ушей вследствие монаурального использования слухового аппарата.

Сенсорные системы, 24, № 4, с. 299-304 (2010) | Рубрика: 13.05

 

Бобошко М.Ю., Калмыкова И.В., Гарбарук Е.С., Кибалова Ю.С., Савенко И.В. «Современные аспекты детской речевой аудиометрии» Сенсорные системы, 24, № 4, с. 305-313 (2010)

Речевая аудиометрия, в частности, ее усложненные варианты (низко избыточное монауральное и бинауральное тестирование) может использоваться как при подборе слухового аппарата и оценке эффективности слухопротезирования, так и для диагностики уровня поражения слуховой системы, в том числе выявления центральных слуховых расстройств. Цель исследования – разработка комплекса детских речевых тестов по оценке слуховой функции, способности к бинауральной интеграции, разделению и бинауральному взаимодействию. Обследовано 25 нормально слышащих детей в возрасте от 5 до 10 лет. Установлена возможность и эффективность применения низкоизбыточных и дихотических тестов в данной возрастной группе. Получена возрастная зависимость результатов тестирования при дихотической стимуляции, в отличие от монаурального предъявления, что говорит о незрелости центрального звена слухового анализатора у детей 5–8 лет. Результаты речевого тестирования ребенка со слуховой нейропатией показали целесообразность использования данных тестов у детей с патологией слуховой системы.

Сенсорные системы, 24, № 4, с. 305-313 (2010) | Рубрика: 13.05

 

Столярова Э.И., Калмыкова И.В., Охарева Н.Г. «Оценка слухоречевого развития детей 5–6 лет с диагнозом слуховая нейропатия» Сенсорные системы, 24, № 4, с. 322-331 (2010)

Приведены результаты обследования слухоречевого развития детей с нарушениями слуха по типу слуховая нейропатия в возрасте 5–6 лет. Для этой группы детей отмечается большой разброс индивидуальных данных, как по уровню сформированности слуховых навыков, так и в освоении речи. У всех обследуемых детей наблюдаются трудности при восприятии речи, не соответствующие степени их слуховых потерь, нарушается способность распознавания речевых сигналов при усложнении стимулов и условий их предъявления. Для этой группы детей характерно также выраженное возрастное отставание в освоении экспрессивной речи. Сравнение индивидуальных показателей выявило значимость проведения ранних реабилитационных занятий с детьми, что свидетельствует о необходимости ранней диагностики данного типа нарушений слуха.

Сенсорные системы, 24, № 4, с. 322-331 (2010) | Рубрики: 13.05 13.06

 

Уплисова К.О., Соколова Т.С. «Акустические характеристики гласных звуков с негармонической структурой» Сенсорные системы, 27, № 1, с. 47-54 (2013)

Сравниваются акустические характеристики гласных звуков русского языка с негармонической структурой: произносимых шепотом и имитируемых попугаем. Были проанализированы спектры гласных звуков шепотной речи категорий “а”, “о”, “и”, “у”, “э” в диапазоне частот 100–5500 Гц. Факторный анализ показал различия в спектрах звуков при попарном сравнении. Для оценки распределения максимумов спектра шепотных гласных были построены распределения зависимости мощности спектральных компонентов от их частоты в частотных диапазонах, соответствующих критическим полосам слуха человека. Выявлено, что для гласных звуков, произносимых шепотом, характерно наличие максимумов в частотных полосах: 630–770 Гц для “у”, 770–915 Гц для “о”, 915–1260 Гц для “а”, 770–915 Гц и 199–3125 Гц для “э”, 3125–3675 Гц для “и”. В спектрах гласных, имитируемых серым попугаем, максимально выраженные спектральные составляющие находятся в областях: 510–630 Гц для “у”, 915–1080 Гц для “о”, 1260–1480 Гц для “а”, 770–915 Гц и 1480–1720 Гц для “э”, 2310–2690 Гц для “и”. Таким образом, направление изменения частоты наиболее выраженных спектральных компонентов в ряду гласных у-о-а-э-и, произносимых шепотом и имитируемых птицей, совпадает.

Сенсорные системы, 27, № 1, с. 47-54 (2013) | Рубрика: 13.05

 

Пилипенко К.П., Продеус А.Н. «Оценка влияния помех на точность определения пола диктора методом кумулянтных коэффициентов» Техническая акустика, 13, № 1, http://www.ejta.org/ru/pylypenko1 (2013)

Произведена оценка влияния аддитивного шума и погрешности измерений классификационных признаков на точность классификации пола диктора по классификационным признакам в виде кумулянтных коэффициентов выборок анализируемого речевого сигнала. Показана целесообразность построения адаптивной системы классификации, функционирующей с учетом влияния помех. Сравнение предложенного метода классификации пола дикторов с конкурентными методами свидетельствует, что предложенный метод обеспечивает более высокую точность классификации, устойчив к влиянию шумовых помех и намного проще при технической реализации.

Техническая акустика, 13, № 1, http://www.ejta.org/ru/pylypenko1 (2013) | Рубрика: 13.05

 

Римская-Корсакова Л.К. «Временная суммация при маскировке и разборчивость речи» Физиология человека, 39, № 4, с. 23-32 (2013)

Оценивали временную суммацию при маскировке путем измерения порогов обнаружения импульсов с длительностями 1–50 мс в присутствии шумовых маскеров. Цель работы состояла в обнаружении влияния спектральных профилей и уровней шумовых маскеров на временную суммацию (1), в поиске проявлений в слуховых реакциях периферических преобразований импульсов с разной частотно-временной структурой (2), в определении возможности использования временной суммации для оценки разборчивости речи (3). Центральные частоты импульсов и маскеров были одинаковыми. Маскеры имели гребенчатую структуру амплитудных спектров двух видов. У одних маскеров центральные частоты совпадали с горбом спектра (on-маскер), а у других – с провалом (off-маскер). Если слуховая система разрешала гребни маскеров, то разность порогов обнаружения импульсов, предъявляемых с каждым из двух видов маскеров, не равна нулю. Поэтому оценивая временную суммацию и разность порогов обнаружения импульсов при действии on- и off-маскеров, судили о слуховой чувствительности и разрешении спектральной структуры маскеров (или частотной избирательности) в присутствии импульсов разных длительностей в локальных частотных областях. Варьируя уровень маскеров, оценивали влияние динамических свойств слуха на чувствительность и частотную избирательность. Временная суммация при действии on- и off-маскеров разных уровней была измерена в двух частотных областях (2 и 4 кГц) у 4 испытуемых с нормальным слухом и у 1 испытуемого с возрастными нарушениями слуха, который жаловался на ухудшение разборчивости речи в шуме. Короткие импульсы с длительностью менее 10 мс были приняты за упрощенные модели согласных звуков речи, а тональные импульсы с длительностью более 10 мс – за упрощенные модели гласных. У испытуемых с нормальным слухом в области средних уровней маскеров было выявлено усиление временной суммации в присутствии коротких импульсов (согласных), а также улучшение разрешения изрезанной структуры спектров маскеров в присутствии коротких и тональных импульсов (гласных и согласных). Предполагалось, что усиление суммации связано с проявлениями рефрактерных свойств волокон слухового нерва. В области 4 кГц испытуемый с возрастными изменениями слуха не распознавал гребенчатую структуру маскеров в присутствии коротких импульсов или согласных. Предполагается, что такие нарушения могли быть следствием нарушений синхронизации вызванных импульсами реакций волокон слухового нерва и могли приводить к ухудшению разборчивости речи.

Физиология человека, 39, № 4, с. 23-32 (2013) | Рубрика: 13.05

 

Савченко В.В. «Информационная теория обучения речи» Известия высших учебных заведений. Радиоэлектроника, № 3, с. 3-11 (2009)

Излагаются базовые элементы информационной теории обучения речи. Вводится понятие информационного эталона произношения как "центра массы" множества однотипных речевых единиц в информационной метрике Кульбака-Лейблера. Определяется "область допустимых решений" как множество гипотетических образцов речевой единицы с ограниченной (сверху) величиной информационного рассогласования относительно эталона. При этом порог допустимого рассогласования определяется в зависимости от средней величины информационного рассогласования эталона на множестве выборочных образцов речевой единицы конечного объема.

Известия высших учебных заведений. Радиоэлектроника, № 3, с. 3-11 (2009) | Рубрика: 13.05

 

Савченко В.В. «Метод фонетического декодирования слов в задаче автоматического распознавания речи на основе принципа минимума информационного рассогласования» Известия высших учебных заведений. Радиоэлектроника, № 5, с. 41-49 (2009)

Поставлена и решена задача автоматического распознавания речи на основе принципа минимума информационного рассогласования. Предложен новый метод фонетического декодирования слов как альтернатива большинству известных методов, базирующихся на скрытых марковских моделях речевых сигналов. Метод основан на редукции данных при отображении отдельных слов последовательностью элементарных речевых единиц типа фонем. При этом отпадает необходимость в многозатратной вычислительной процедуре динамического выравнивания слов по темпу речи. Достигнутый эффект состоит в многократном (на порядок и более) сокращении объема вычислений в задачах автоматического распознавания речи и пропорциональном увеличении скорости обработки речевого сигнала. Выводы подтверждены результатами экспериментальных исследований.

Известия высших учебных заведений. Радиоэлектроника, № 5, с. 41-49 (2009) | Рубрика: 13.05

 

Савченко В.В. «Информационная теория качества речи» Известия высших учебных заведений. Радиоэлектроника, № 1, с. 17-27 (2011)

На основе теоретико-информационного подхода предложена новая, теоретико-вероятностная, модель речеобразования со случайным выбором речевого сигнала в пределах множества допустимых реализаций речевого образа. Понятие "образ" при этом определяется в терминах информационной теории восприятия речи через множество подобных (однотипных) речевых единиц, объединенных в соответствующий кластер по критерию минимума информационного рассогласования. Введено понятие информационного эталона речевого образа в метрике Кульбака-Лейблера, а на его основе – речевой базы данных. Отталкиваясь от этого понятия и следуя математической теории связи К. Шеннона, предложен новый критерий качества устной речи: максимум скорости создания информации на выходе голосового тракта диктора. Рассмотрен пример применения этого критерия в задаче фонетического анализа речи.

Известия высших учебных заведений. Радиоэлектроника, № 1, с. 17-27 (2011) | Рубрика: 13.05

 

Савченко В.В. «Автоматическое распознавание речи на основе кластерной модели минимальных речевых единиц в информационной метрике Кульбака–Лейблера» Известия высших учебных заведений. Радиоэлектроника, № 3, с. 9-19 (2011)

В терминах общей формулировки задачи распознавания образов и кластерной модели минимальных речевых единиц поставлена и решена задача автоматического распознавания речи на основе фонетического кодирования-декодирования слов. Предложен новый алгоритм с высокими динамическими свойствами как альтернатива большинству известных методов, объединенных общей идеей скрытых марковских моделей речевых сигналов. Даны оценки его выигрыша по вычислительной сложности, а также рекомендации по практическому применению.

Известия высших учебных заведений. Радиоэлектроника, № 3, с. 9-19 (2011) | Рубрика: 13.05