Российский фонд
фундаментальных
исследований

Физический факультет
МГУ им. М.В.Ломоносова
 

13.05 Речеобразование и восприятие речи

 

Рихтер С.Г. Кодирование и передача речи в цифровых системах подвижной радиосвязи. Учебное пособие для вузов (2009)

Систематизированы сведения в области преобразования и обработки информации в системах связи с подвижными объектами, причем основное внимание сосредоточено на речевых сигналах. Изучаются процедуры преобразования и обработки информации, осуществляемые в основном в абонентском терминале – ключевом элементе любой системы связи с подвижными объектами. Последовательно рассматриваются вопросы формирования и преобразования речевого сигнала на пути от микрофона на передающей стороне до телефона (громкоговорителя) – на приемной, особое внимание уделено вопросам кодирования речи.

Кодирование и передача речи в цифровых системах подвижной радиосвязи. Учебное пособие для вузов (2009) | Рубрики: 02 13.05 13.08

 

Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации. Сборник трудов Научной конференции "Сессия Научного совета РАН по акустике и XXIV сессия Российского акустического общества". Т. III (2011)

Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации. Сборник трудов Научной конференции "Сессия Научного совета РАН по акустике и XXIV сессия Российского акустического общества". Т. III (2011) | Рубрики: 02 10.01 10.02 10.03 11.06 11.07 13.05 13.06

 

Митянок В.В., Коновалова Н.В. «Применение фазового анализа звуков речи для распознавания человека по его голосу» Техническая акустика, 13, № 1, http://www.ejta.org/ru/mitsianok2 (2013)

Метод аппроксимации используется для разложения различных звуков речи человека на составляющие их моды. Представлены данные о 5 конкретных звуках, полученных от 11 респондентов. Определена динамика амплитуд и фаз различных мод. Обнаружено, что фазы различных мод не являются независимыми случайными величинами, наоборот, между ними имеются зависимости, причем уникальные для каждого из респондентов. Это указывает на перспективу разработки компьютерной программы автоматической идентификации человека по его голосу на уровне, имеющем доказательную юридическую силу.

Техническая акустика, 13, № 1, http://www.ejta.org/ru/mitsianok2 (2013) | Рубрики: 12.01 13.05

 

Иваненков А.С., Родионов А.А. «Разделение широкополосных сигналов, создаваемых набором пространственно распределённых источников, с помощью решёток микрофонов» Физическая акустика. Нелинейная акустика. Распространение и дифракция волн. Акустоэлектроника. Геоакустика. Сборник трудов Научной конференции "Сессия Научного совета РАН по акустике и XXV сессия Российского акустического общества". Т.1, с. 254-258 (2012)

Рассмотрена задача выделения речевого сигнала отдельного источника при приеме сигналов от совокупности пространственно разделенных источников с помощью микрофонных решёток. При этом считается, что источник выделяемого сигнала находится в заранее известной ограниченной области пространства. Такая задача имеет практическое значение, например, при прослушивании речи в местах большого скопления людей. Для её решения независимо для каждой узкой полосы принимаемого сигнала применяется адаптивный алгоритм пространственной обработки. Показано, что в случае использования для адаптации выборочной корреляционной матрицы пространственная функция неопределенности имеет слишком узкий глобальный максимум, что вызывает сложности при использовании алгоритма в режиме реального времени. Кроме того, в условиях неточного задания вектора направлений может наблюдаться известный эффект обеления полезного сигнала. Для борьбы с этими эффектами в работе предлагается использовать известный метод регуляризации, являющийся оптимальным при наличии ошибок в задании вектора направлений. С помощью численного моделирования показано, что выбранный метод позволяет эффективно выделять источники звука, обеспечивая приемлемое время обработки сигналов в достаточно широкой полосе частот.

Физическая акустика. Нелинейная акустика. Распространение и дифракция волн. Акустоэлектроника. Геоакустика. Сборник трудов Научной конференции "Сессия Научного совета РАН по акустике и XXV сессия Российского акустического общества". Т.1, с. 254-258 (2012) | Рубрика: 13.05

 

Андреева Н.Г., Иванова В.Ю., Смирнова Т.А., Куликов Г.А. «Зависимость амплитудных отношений спектральных компонентов гласных от частоты основного тона» Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации. Аэроакустика. Сборник трудов Научной конференции "Сессия Научного совета РАН по акустике и XXV сессия Российского акустического общества". Т. 3, с. 5-8 (2012)

Проведен анализ спектральных характеристик естественных гласных, произнесенных детьми (3–5-летнего возраста) и взрослыми – при разных частотах основного тона (F0). Выявлено, что по показателям относительной амплитуды спектральных компонентов звуки [а], [о], [у] различаются, занимая в соответствующем пространстве координат раздельные области. Определены граничные значения относительной амплитуды спектральных составляющих звуков, характерные для естественной речи. Для каждой из фонетических категорий гласных выявлена зависимость относительной амплитуды от частоты основного тона и показано ее сходство для звуков речи детей и взрослых. Исходя из полученных результатов, осуществлен синтез модельных стимулов с относительной амплитудой гармонических составляющих, соответствующей медианным значениям естественных гласных [а], [о], [у] в конкретном диапазоне частот. В пилотной серии экспериментов исследовали возможность формирования негативности рассогласования (НР) у испытуемых при прослушивании синтезированных гласных с частотой основного тона 382 Гц, отличающихся по относительной амплитуде двух первых гармоник. Полученные результаты свидетельствуют о специфичности отражения различий использованных гласных звуков в правом и левом полушарии.

Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации. Аэроакустика. Сборник трудов Научной конференции "Сессия Научного совета РАН по акустике и XXV сессия Российского акустического общества". Т. 3, с. 5-8 (2012) | Рубрика: 13.05

 

Балацкая Л.Н., Мещеряков Р.В., Нигматуллин Р.Ф. «Зависимость модели речеобразования от заболевания органов артикуляции» Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации. Аэроакустика. Сборник трудов Научной конференции "Сессия Научного совета РАН по акустике и XXV сессия Российского акустического общества". Т. 3, с. 8-10 (2012)

Речеобразующий аппарат человека можно представить в виде генератора звуковых колебаний с системой резонаторов и множеством фильтров, которые реализуются артикуляционным аппаратом. При болевых ощущениях звукообразующих органов появляется, дополнительная обратная связь (болевая), которая срабатывает по достижению определенного уровня болевого порога, и не дает полностью использовать функциональные возможности больного органа. В результате действия этой отрицательной обратной связи изменяется полоса пропускания частот, реализуемого этим органом, фильтра и/или интенсивность усиления определенных частот, реализуемого этим органом резонатора.

Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации. Аэроакустика. Сборник трудов Научной конференции "Сессия Научного совета РАН по акустике и XXV сессия Российского акустического общества". Т. 3, с. 8-10 (2012) | Рубрика: 13.05

 

Воробьев В.И., Давыдов А.Г. «Исследование связи между квазигармоническими составляющими речевых сигналов на китайском языке» Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации. Аэроакустика. Сборник трудов Научной конференции "Сессия Научного совета РАН по акустике и XXV сессия Российского акустического общества". Т. 3, с. 11-14 (2012)

При обработке речевых сигналов широко применяется их гармоническая модель в виде совокупности колебания на частоте основного тона и обертонов. Особенностью вокализованных звуков китайского языка является лексически нагруженное изменение основного тона. Характер изменения частоты основного тона при произнесении слогов с одинаковыми гласными звуками является отличительным семантическим признаком, который используется при их распознавании. Применительно к таким звукам приведены результаты анализа фазовых соотношений между колебаниями основного тона и обертонов. Проведенные исследования свидетельствуют, что такой анализ может быть использован для повышения надежности сегментации вокализованных участков речи и детектирования малых изменений положения артикуляторов. Приведены данные компьютерной обработки фонограмм речевых сигналов носителей китайского языка.

Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации. Аэроакустика. Сборник трудов Научной конференции "Сессия Научного совета РАН по акустике и XXV сессия Российского акустического общества". Т. 3, с. 11-14 (2012) | Рубрика: 13.05

 

Уплисова К.О. «Особенности спектра шепотных гласных русского языка» Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации. Аэроакустика. Сборник трудов Научной конференции "Сессия Научного совета РАН по акустике и XXV сессия Российского акустического общества". Т. 3, с. 15-18 (2012)

С целью выявления ключевых характеристик спектра гласных звуков, обуславливающих идентификацию фонетической категории независимо от условий генерации была проведена модификация пяти категорий шепотных гласных русского языка. Предшествующий анализ мощности спектральных компонентов звуков категорий «у», «о», «а» выявил наличие выраженных спектральных компонентов в полосе 600–800 Гц для звуков «у», 800–1100 Гц для звуков «о», 1100–1500 Гц для звуков «а». Звуки категории «и» и «э» имели две, выраженные по мощности области спектра, в диапазоне 100–500 и 3100–5200 Гц для «и» и 800–1100 Гц и 2000–3000 Гц для «э». В связи с этим у звуков категории «у» уменьшалась амплитуда спектральных компонентов а) с частотой ниже 400 Гц и б) выше 400 Гц. У звуков «о» понижалась амплитуда спектральных максимумов а) с частотой ниже 800 Гц, б) с частотой выше 800 Гц. У звуков «а» понижалась амплитуда спектральных максимумов а) с частотой ниже 1100 Гц, б) с частотой выше 1100 Гц. У звуков «э» понижалась амплитуда спектральных максимумов а) в диапазоне 500–1000 Гц, б) в диапазоне 1700–2500 Гц, в) с частотой выше 2500 Гц. У звуков «и» понижалась амплитуда спектральных максимумов а) с частотой ниже 800 Гц, б) с частотой выше 2500 Гц. Наибольший эффект оказало подавление спектральных компонентов в диапазоне: 500–1000 Гц для категории «э» и выше 2500 Гц для категории «и». Определенный эффект также оказало подавление спектральных максимумов ниже 400 Гц для «у», выше 800 Гц для «о» и выше 1100 Гц для «а».

Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации. Аэроакустика. Сборник трудов Научной конференции "Сессия Научного совета РАН по акустике и XXV сессия Российского акустического общества". Т. 3, с. 15-18 (2012) | Рубрика: 13.05

 

Зулкарнеев М.Ю., Сальман С.Х., Шамраев Н.Г. «Статистический метод построения фонетических транскрипций слов, использующий конечные автоматы с весами» Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации. Аэроакустика. Сборник трудов Научной конференции "Сессия Научного совета РАН по акустике и XXV сессия Российского акустического общества". Т. 3, с. 19-21 (2012)

При решении задачи распознавания речи часто возникает задача генерации фонетической транскрипции слов по их графемному представлению. Для этого обычно используются правила чтения для данного языка. Однако создание полного набора правил чтения является весьма трудоемкой задачей. Предлагается метод построения транскрипции, использующий статистический подход к построению фонетических транскрипций слов. В нем для моделирования статистических закономерностей произношения используется n-граммная модель. Она используется для моделирования последовательностей пар "графема–фонема", и фонетической транскрипцией слова считается наиболее вероятная последовательность фонем для данной последовательности графем. Для работы с n-граммной моделью языка используется подход, основанный на конечных автоматах с весами. Эксперименты, проведенные для английского и арабского языка показывают состоятельность предлагаемого метода для генерации фонетических транскрипций слов на основе их графемного представления.

Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации. Аэроакустика. Сборник трудов Научной конференции "Сессия Научного совета РАН по акустике и XXV сессия Российского акустического общества". Т. 3, с. 19-21 (2012) | Рубрика: 13.05

 

Зулкарнеев М.Ю., Шамраев Н.Г. «Методы построения правил для вероятностной контекстно свободной грамматики Хомского в задаче распознавания речи» Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации. Аэроакустика. Сборник трудов Научной конференции "Сессия Научного совета РАН по акустике и XXV сессия Российского акустического общества". Т. 3, с. 21-23 (2012)

В распознавании речи при декодировании широко используются n-граммные языковые модели. Одним из наиболее перспективных методов улучшения их работы является использование результатов синтаксического анализа предложения. Важнейшим вопросом при проведении синтаксического анализа с помощью контекстно-свободных грамматик является построение правил такой грамматики. Рассматриваются методы генерации правил синтаксической языковой модели для контекстно-свободной грамматики русского языка. Первый метод создания правил основан на статистической обработке множества подготовленных и синтаксически разобранных предложений. Второй метод позволяет поэтапно вводить отдельные синтаксические группы, используя теорию синтаксических структур естественного языка. Проводится сравнение обоих методов, а также обсуждаются другие аспекты, связанные с построением синтаксических правил для русского языка.

Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации. Аэроакустика. Сборник трудов Научной конференции "Сессия Научного совета РАН по акустике и XXV сессия Российского акустического общества". Т. 3, с. 21-23 (2012) | Рубрика: 13.05

 

Кипяткова И.С., Верходанова В.О., Ронжин А.Л. «Анализ паралингвистических фонационных явлений в аудиозаписях научных докладов» Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации. Аэроакустика. Сборник трудов Научной конференции "Сессия Научного совета РАН по акустике и XXV сессия Российского акустического общества". Т. 3, с. 24-28 (2012)

Представлены результаты анализа паралингвистических фонационных явлений, которые были выявлены в ходе сегментации корпуса русской речи, содержащего выступления шести докладчиков (трех мужчин и трех женщин) на небольшом научном семинаре. Общий объем корпуса составляет 70 минут. Сегментация артефактов и заполненных пауз позволила оценить частоту появления и длительность этих элементов в речи докладчиков, а также среднюю частоту основного тона для каждого типа внеязыкового элемента. Для внеязыковых элементов, которые встретились в корпусе более двух раз, были созданы акустические модели. В результате были построены модели для трех типов артефактов (вдох, прочищение горла/кашель и причмокивание) и восьми типов заполненных пауз. Были проведены эксперименты по распознаванию выявленных внеязыковых элементов. Точность распознавания внеязыковых элементов в собранном корпусе составила в среднем 87%.

Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации. Аэроакустика. Сборник трудов Научной конференции "Сессия Научного совета РАН по акустике и XXV сессия Российского акустического общества". Т. 3, с. 24-28 (2012) | Рубрика: 13.05

 

Кириченко И.И. «Моделирование тестовых сигналов тональной и речевой аудиометрии» Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации. Аэроакустика. Сборник трудов Научной конференции "Сессия Научного совета РАН по акустике и XXV сессия Российского акустического общества". Т. 3, с. 28-31 (2012)

Рассмотрены вопросы моделирования тестовых сигналов для тональной аудиометрии и анализа речевых сигналов на основе вейвлет-преобразования. Показана возможность применения разработанных тестовых сигналов для исследования методами тональной и речевой аудиометрии. Представлены результаты моделирования и формирования тональных тестовых сигналов и анализа речевых сигналов с использованием вейвлет-преобразования.

Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации. Аэроакустика. Сборник трудов Научной конференции "Сессия Научного совета РАН по акустике и XXV сессия Российского акустического общества". Т. 3, с. 28-31 (2012) | Рубрика: 13.05

 

Ляксо Е.Е., Григорьев А.С., Куражова А.В., Гайкова Ю.С., Бедная Е.Д., Чеклярова Я.В. «Акустика детской речи: динамика спектральных характеристик гласных» Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации. Аэроакустика. Сборник трудов Научной конференции "Сессия Научного совета РАН по акустике и XXV сессия Российского акустического общества". Т. 3, с. 32-35 (2012)

Проанализированы акустические характеристики гласноподобных в вокализациях и гласных в слоговых конструкциях и в словах 100 детей в возрасте от 3 месяцев до 7 лет. Анализируемый материал составил 85000 гласноподобных и гласных. Выявлены изменения в значениях и вариабельности длительности, частоты основного тона и формантных частот гласных в зависимости от возраста детей. Полученные на материале русского языка данные подтверждают имеющиеся сведения на разных языках, о том, что уменьшение длительности стационарных участков и частотных характеристик гласных с возрастом является одной из основных тенденций развития акустической стороны речи у нормально развивающихся детей.

Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации. Аэроакустика. Сборник трудов Научной конференции "Сессия Научного совета РАН по акустике и XXV сессия Российского акустического общества". Т. 3, с. 32-35 (2012) | Рубрика: 13.05

 

Тиунов С.Д., Мещеряков Р.В. «Классификация звуков речи для задачи обучения иностранному языку» Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации. Аэроакустика. Сборник трудов Научной конференции "Сессия Научного совета РАН по акустике и XXV сессия Российского акустического общества". Т. 3, с. 36-39 (2012)

Предлагается подход к классификации звуков речи, основанный на математическом моделировании, который позволяет получать оценки близости двух аллофонов (произнесенного и эталонного) по различным информативным признакам. При данном подходе общая модель классификации конкретизируется путем задания некоторых признаков аллофонов, а также некоторой классификационной шкалы. Для оценки информативности признаков и применимости конкретизированной модели предлагается использовать статистический эксперимент. Приводится пример конкретной модели, а также планирования и результатов статистического эксперимента, выводы о возможности ее использования.

Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации. Аэроакустика. Сборник трудов Научной конференции "Сессия Научного совета РАН по акустике и XXV сессия Российского акустического общества". Т. 3, с. 36-39 (2012) | Рубрика: 13.05

 

Понизов А.Г., Мещеряков Р.В. «Устройство управления процессом исследования слуха» Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации. Аэроакустика. Сборник трудов Научной конференции "Сессия Научного совета РАН по акустике и XXV сессия Российского акустического общества". Т. 3, с. 40-43 (2012)

Исследование слуха представляют особый интерес в связи с важностью оценки состояния здоровья человека. Предлагается устройство портативный аудиометр с расширенным функционалом. Важной составляющей исследования является оценка точно воспроизведения тестовых акустических сигналов. Приводятся экспериментальные исследования.

Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации. Аэроакустика. Сборник трудов Научной конференции "Сессия Научного совета РАН по акустике и XXV сессия Российского акустического общества". Т. 3, с. 40-43 (2012) | Рубрики: 13.05 14.02 14.03

 

Ондар М.А., Сарыглар А.С. «О синхронизации колебаний в звуках горлового пения» Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации. Аэроакустика. Сборник трудов Научной конференции "Сессия Научного совета РАН по акустике и XXV сессия Российского акустического общества". Т. 3, с. 44-46 (2012)

Наблюдение за динамикой формирования звука в голосовом аппарате методами прямого наблюдения, т.е., рентгеном или методом назофарингологической эндоскопии, обусловили нас использовать в исследованиях комбинированный корреляционно-спектральный метод. Он основан на знании исследователем соответствий между интонациями в произношении звуков и артикуляционными конфигурациями речевых органов. Такой подход полагает владение исследователем методами изучения речи, особенно, горловым пением. При исследовании горлового пения этим методом удалось установить, что вестибулярные складки активно участвуют в формировании звуков всех стилей. По кратности частот гармоник спектров всех стилей установлено, что колебания двух источников звука: голосового аппарата и вестибулярных складок, синхронизированы. Это обстоятельство определяет спектральный состав опорного звука в сольном двухголосии, из которого формируются мелодии данного стиля. А сами мелодии стилей, как и речь, формируются в голосовом тракте в соответствии с артикуляционной конфигурацией речевых органов.

Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации. Аэроакустика. Сборник трудов Научной конференции "Сессия Научного совета РАН по акустике и XXV сессия Российского акустического общества". Т. 3, с. 44-46 (2012) | Рубрика: 13.05

 

Туп Дэвид Искусство звука, или навязчивая погода (2011)

Возможно ли растить электронные звуки как растения в саду? Можно ли играть на резонансе в пустой комнате как на музыкальном инструменте? Может ли компьютер заменить такие привычные музыкальные инструменты, как пианино и электрогитара? Как может импровизация проявляться в компьютерной программе? Почему звуки окружающей среды так важны для звуковых художников, а атмосфера так критична в музыке? В "Навязчивой погоде" Дэвид Туп задаёт эти вопросы и измеряет воздействие новых технологий на современную музыку.

Искусство звука, или навязчивая погода (2011) | Рубрики: 02 13.01 13.05