Российский фонд
фундаментальных
исследований

Физический факультет
МГУ им. М.В.Ломоносова
 

13.05 Речеобразование и восприятие речи

 

Агеев Сергей «Принцип линейного массива» Install-Pro, № 4-5, с. 52-54 (2000)

Наиболее частой проблемой при создании систем звукоусиления, особенно в больших помещениях, является обеспечение хорошей разборчивости речи и (или) музыки. Источник этих проблем хорошо известен – это реверберация. Сущность реверберации состоит в том, что энергия звуковых волн накапливается в помещении, при этом создается фон из звуков, перемешанных во времени и пространстве. При большом времени реверберации уровень этого фона может намного превосходить уровень полезного сигнала. Как следствие, резко падает разборчивость речи и музыки. Увеличение мощности звукоусилительной системы в таком случае бесполезно, гораздо больше пользы приносит снижение времени реверберации и обеспечение такой направленности излучения звука, чтобы большая часть звуковой энергии от громкоговорителей попадала непосредственно на слушателей. Цель этих мер – увеличить отношение мощности прямого звука к реверберационному фону (гулу). Еще один метод, применяемый для улучшения разборчивости речи, заключается в “срезании” низкочастотной части спектра (обычно ниже 400 Гц –1 кГц). При этом используется тот фактор, что выше 1 кГц время реверберации обычно уменьшается, а направленность громкоговорителей возрастает. Несмотря на то что эффективность всех этих методов повышения разборчивости проверена временем, им присущ ряд принципиальных проблем. Во-первых, снижение времени реверберации и подавление наиболее мешающих отражений в уже имеющихся помещениях неизбежно требует перепланировки или установки звукопоглощающих элементов. А это далеко не всегда возможно. Например, в историческом здании изменение интерьера зачастую недопустимо в принципе. Во-вторых, традиционные направленные громкоговорители на основе рупоров обладают удовлетворительными характеристиками, но весьма громоздки – для эффективной работы поперечник и длина рупора должны быть сравнимы с длиной волны, а длина звуковой волны на частоте 100 Гц составляет 3,35 м. Подобные габариты в помещениях, тем более исторических, обычно неприемлемы. И, в-третьих, “срезание” низкочастотной части спектра резко искажает тембр звучания, что недопустимо в случае художественной речи. Сейчас подобные проблемы можно решить путем использования акустических систем с иным способом формирования направленности – не при помощи рупоров, а при помощи массива излучателей.

Install-Pro, № 4-5, с. 52-54 (2000) | Рубрики: 11.06 11.07 13.05

 

Жукова В.О., Канев Н.Г. «Громкость речи – параметр для оценки акустики учебных аудиторий» II Всероссийская акустическая конференция, совмещенная с XXX сессией Российского акустического общества. Нижний Новгород, 6–9 июня 2017 г. Программа и аннотации докладов, с. 109 (2017)

Представлены результаты измерения акустических параметров учебных аудиторий МГТУ им. Баумана средней вместимости, предназначенных для проведения лекций и семинаров. Для характеристики акустики аудиторий выбраны следующие параметры: время реверберации, индекс передачи речи STI, а также уровень звука речи лектора, называемый в настоящей работе громкостью речи. Предложен параметр для характеристики пространственного распределения громкости речи. Параметр является нелокальным, поэтому в больших аудиториях оценка акустического качества по этому параметру оказывается дифференцированной. Предлагается простой метод измерения в натурных условиях громкости речи с удалением от источника. Проанализирована связь данного параметра с другими акустическими параметрами аудиторий, а также с размерами и внутренней отделкой аудиторий.

II Всероссийская акустическая конференция, совмещенная с XXX сессией Российского акустического общества. Нижний Новгород, 6–9 июня 2017 г. Программа и аннотации докладов, с. 109 (2017) | Рубрики: 13.05 13.06

 

Крейчи С.А., Кедрова Г.Е., Байрамова Ф.О., Потёмкин С.Б., Фролова О.Е. «Межъязыковая интерференция на уровне просодии» II Всероссийская акустическая конференция, совмещенная с XXX сессией Российского акустического общества. Нижний Новгород, 6–9 июня 2017 г. Программа и аннотации докладов, с. 113 (2017)

База данных звучащей русской речи, разработанная в лаборатории фонетики и речевой коммуникации филологического факультета МГУ им. М.В. Ломоносова, позволяет изучать межъязыковые интерференционные явления на всех уровнях фонетической организации высказывания. База данных звучащей русской речи позволяет изучать межъязыковую интерференцию на просодическом уровне при чтении и спонтанной речи, записанной иностранными студентами филологического факультета МГУ им. М.В. Ломоносова, изучающими русский язык и являющимися носителями четырнадцати языков разного строя: американского английского, немецкого, французского, итальянского, испанского, голландского, польского, чешского, финского, шведского, турецкого, китайского, корейского и японского языков. Интонографический анализ показал, что ИК-2, характерный для русского вопросительного высказывания, начинающегося с вопросительного слова повторен в общих чертах только носителями японского языка, вероятно, по причине большой разницы в вербальной реализации эквивалентного смысла, и невозможностью повлиять на русское произношение, а также, возможно, хорошей способностью усваивать материал, даваемый преподавателем. У носителей других языков часто встречается ИК-3, где кривая частоты основного тона (ЧОТ) к концу высказывания направлена вверх, что может коррелировать с эквивалентными высказываниями на родном языке.

II Всероссийская акустическая конференция, совмещенная с XXX сессией Российского акустического общества. Нижний Новгород, 6–9 июня 2017 г. Программа и аннотации докладов, с. 113 (2017) | Рубрики: 13.05 13.06

 

Потапова Р.К., Санников В.Г., Потапов В.В. «Системы речевого взаимодействия «человек–машина» и разработка алгоритмов преобразования «текст–речь»» II Всероссийская акустическая конференция, совмещенная с XXX сессией Российского акустического общества. Нижний Новгород, 6–9 июня 2017 г. Программа и аннотации докладов, с. 113-114 (2017)

Естественноязыковые интерфейсы систем искусственного интеллекта, как правило, проектируются с ориентацией на обмен текстовыми (письменными, символьными) сообщениями. Однако такое взаимодействие между человеком и машиной зачастую оказывается неудобным и неэффективным. Речевой канал коммуникации предоставляет оптимальные возможности как по скорости, так и по комфортности взаимодействия, что имеет большое значение для эргономичности труда операторов автоматизированных систем.

II Всероссийская акустическая конференция, совмещенная с XXX сессией Российского акустического общества. Нижний Новгород, 6–9 июня 2017 г. Программа и аннотации докладов, с. 113-114 (2017) | Рубрика: 13.05

 

Ляксо Е.Е., Фролова О.В., Григорьев А.С., Николаев А.С., Бедалова Ш.Г., Городный В.А., Михалева К.А., Гречаный С.В. «Оценка состояния детей по характеристикам их голоса и речи: синдром Дауна, расстройства аутистического спектра, умственная отсталость» II Всероссийская акустическая конференция, совмещенная с XXX сессией Российского акустического общества. Нижний Новгород, 6–9 июня 2017 г. Программа и аннотации докладов, с. 114-115 (2017)

Целью настоящего исследования является выявление специфических особенностей голоса и речи детей с расстройствами аутистического спектра (РАС), синдромом Дауна (СД), умственной отсталостью разной степени выраженности (УО) по сравнению с типично развивающимися детьми (ТР). Созданы модельные ситуации взаимодействия ребенка с экспериментатором и осуществлена аудиозапись вокализаций и речи детей с параллельной регистрацией их поведения. Анализ речи детей включал перцептивный эксперимент, направленный на выявление взрослыми значения сказанного ребенком и спектрографический анализ временных и частотных характеристик вокализаций и слов детей. Определяли длительность высказываний, слов, ударных и безударных гласных и их стационарных участков; значения частоты основного тона (ЧОТ) и диапазона ЧОТ высказываний и гласных, значения ЧОТ, формантных частот и их интенсивности на стационарных участках гласных. Выявлены особенности речи, вокализаций и характеристик голоса детей с синдромом Дауна, РАС, УО по сравнению с ТР детьми.

II Всероссийская акустическая конференция, совмещенная с XXX сессией Российского акустического общества. Нижний Новгород, 6–9 июня 2017 г. Программа и аннотации докладов, с. 114-115 (2017) | Рубрики: 13.05 15.01

 

Собакин А.Н. «Исследование голосового источника по речевому сигналу» II Всероссийская акустическая конференция, совмещенная с XXX сессией Российского акустического общества. Нижний Новгород, 6–9 июня 2017 г. Программа и аннотации докладов, с. 115 (2017)

Рассмотрен метод преобразования речевых колебаний, образованных с участием голосовых связок, в импульсную последовательность синхронную с основным тоном. Метод позволяет выявлять индивидуальные характеристики голосового источника разных дикторов.

II Всероссийская акустическая конференция, совмещенная с XXX сессией Российского акустического общества. Нижний Новгород, 6–9 июня 2017 г. Программа и аннотации докладов, с. 115 (2017) | Рубрика: 13.05

 

Борисенко С.Ю., Воробьев В.И., Давыдов А.Г «Анализ фазовых соотношений между квазигармоническими составляющими речевых сигналов с использованием оценок фазового инварианта, фазового квазиинварианта и бифазы» II Всероссийская акустическая конференция, совмещенная с XXX сессией Российского акустического общества. Нижний Новгород, 6–9 июня 2017 г. Программа и аннотации докладов, с. 115 (2017)

При решении некоторых задач анализа речи оказывается целесообразной оценка фазовых межкомпонентных связей между квазигармоническими составляющими вокализованных звуков. В докладе приведены результаты сравнения способов оценки фазового инварианта, фазового квазиинварианта и бифазы. Рассмотрены алгоритмы оценки фазовых соотношений между колебаниями основного тона и обертонами речевых сигналов. Предлагаются рекомендации по применению этих алгоритмов в речевых технологиях.

II Всероссийская акустическая конференция, совмещенная с XXX сессией Российского акустического общества. Нижний Новгород, 6–9 июня 2017 г. Программа и аннотации докладов, с. 115 (2017) | Рубрика: 13.05

 

Бобров Н.В. «Возможности использования лингвистической информации при разработке перспективных технологий сжатия речевого сигнала» II Всероссийская акустическая конференция, совмещенная с XXX сессией Российского акустического общества. Нижний Новгород, 6–9 июня 2017 г. Программа и аннотации докладов, с. 115-116 (2017)

Оцифрованный речевой сигнал обладает относительно малой сжимаемостью. Компрессия речевого сигнала без потерь методами энтропийного сжатия даёт уменьшение объёма результирующего сообщения по отношению к исходному приблизительно в полтора раза. Применение дельта-компрессии (и близких к ней по сути методов, основанные на идеях А. Хаара и И. Добеши) позволяет улучшить этот показатель ещё в полтора раза. Методы сжатия речевого сигнала с потерями, дающие коэффициенты сжатия, лучшие на порядок, используют психоакустические закономерности: из сигнала удаляются компоненты, оказывающие наименьшее влияние на слуховое восприятие сигнала, например участки спектра, находящиеся «в тени» больших пиков. Необходимо заметить, что все перечисленные идеи основаны на существовании некоторых априорных знаний о речевом сигнале как источнике данных (например, о том, что ординаты соседних точек осциллограммы часто различаются на небольшую величину, или о том, что мгновенный спектр речевого сигнала, как правило, содержит небольшое число доминирующих пиков, определяющих воспринимаемое качество звука). Следуя этой же логике, можно предположить, что использование априорных знаний о том, что речевой сигнал является контейнером, заключающим в себе лингвистическую информацию, также может дать существенный выигрыш в степени его сжатия как с потерями, так и без потерь информации за счёт включения в модель источника данных сведений о закономерностях, описывающих его лингвистическую составляющую. Сообщается, к каким результатам может привести проверка данного предположения.

II Всероссийская акустическая конференция, совмещенная с XXX сессией Российского акустического общества. Нижний Новгород, 6–9 июня 2017 г. Программа и аннотации докладов, с. 115-116 (2017) | Рубрика: 13.05

 

Григорьев А.С., Ляксо Е.Е. «Акустические характеристики гласных из слов детей 14–16 лет» II Всероссийская акустическая конференция, совмещенная с XXX сессией Российского акустического общества. Нижний Новгород, 6–9 июня 2017 г. Программа и аннотации докладов, с. 116 (2017)

На материале русского языка описаны акустические (спектральные и временные) характеристики ударных гласных из слов, вырезанных из спонтанной речи детей в возрасте 14–16 лет, распознанных аудиторами с разной вероятностью. Проведен перцептивный анализ речи детей, направленный на распознавание значения слов взрослыми. Для слов, распознанных с разной вероятностью (0,75–1,0 и 0–0,25) описаны значения длительности ударных гласных, длительности их стационарных участков, величины частоты основного тона (F0), определены значения формантных частот (F1, F2). Построены формантные треугольники кардинальных гласных для русского языка (а, у, и) и определены их площади.

II Всероссийская акустическая конференция, совмещенная с XXX сессией Российского акустического общества. Нижний Новгород, 6–9 июня 2017 г. Программа и аннотации докладов, с. 116 (2017) | Рубрики: 13.05 13.06

 

Николаев А.С., Ляксо Е.Е. «Восприятие взрослыми речи детей с расстройствами аутистического спектра» II Всероссийская акустическая конференция, совмещенная с XXX сессией Российского акустического общества. Нижний Новгород, 6–9 июня 2017 г. Программа и аннотации докладов, с. 116-117 (2017)

В зависимости от тяжести расстройства аутистического спектра (РАС) нарушения речи могут проявляться на разных уровнях её организации (артикуляционном, грамматическом, прагматическом). Артикуляционный уровень организации речи является базовым, так как он определяет степень разборчивости речи. Для пациентов с РАС характерна эхолалия, специфическая просодика и наличие собственного «языка». Цель работы: изучение способности распознавания на основе слухового восприятия взрослыми фраз и отдельных слов детей с РАС. Объект исследования – 10 детей в возрасте 5–10 лет с РАС разной степени тяжести, посещающих специализированный детский сад. Дети различались по уровню речевого развития. Осуществлена запись речи детей. Использованы методы перцептивного эксперимента и акустического спектрографического анализа речи детей. Для перцептивного эксперимента для каждого из детей создана тестовая последовательность, содержащая по 30 слов, взятых из записей речи. В перцептивном эксперименте приняли участие 54 взрослых носителя русского языка (аудиторов) перед которыми стояла задача определить значение каждого слова, пол, возраст, состояние (комфортное, дискомфортное, нейтральное) ребенка и эмоциональность его речи. Определены слова с высокой (0,75–1,0) и низкой (0,25–0) вероятностью распознавания, типы ошибок, допущенных аудиторами при распознавании. Проанализирована вероятность распознавания слов детей в зависимости от пола аудитора и его опыта общения с детьми. Значимых различий в распознавании слов детей между мужчинами и женщинами обнаружено не было, поэтому данные представлены вместе. Акустический спектрографический анализ заключался в определении длительности гласных и слов, частоты основного тона (ЧОТ) гласных и слов, распознанных с высокой и низкой вероятностью; определении НОТ, частоты и интенсивности первых трёх формант (Р1, Р2, РЗ) ударных и безударных гласных каждого слова. Обсуждается связь между вероятностью распознавания и акустическими характеристиками слов и степенью тяжести РАС ребенка.

II Всероссийская акустическая конференция, совмещенная с XXX сессией Российского акустического общества. Нижний Новгород, 6–9 июня 2017 г. Программа и аннотации докладов, с. 116-117 (2017) | Рубрика: 13.05

 

Столярова Э.И., Охарева Н.Г. «Вокализации детей с синдромом Дауна в довербальный период» II Всероссийская акустическая конференция, совмещенная с XXX сессией Российского акустического общества. Нижний Новгород, 6–9 июня 2017 г. Программа и аннотации докладов, с. 117 (2017)

Приводятся результаты наблюдения за вокально-речевым развитием детей с синдромом Дауна, посещающих развивающие занятия в специализированном реабилитационном центре. В состав группы входило 18 детей в возрасте от 5.5 мес. до 3 лет. Среди детей отмечалось наличие различного рода соматических и психомоторных патологий, специфические особенности строения артикуляционных органов, мышечная гипотония. Систематическая оценка уровня развития детей по шкалам KID-R и RCDI2000 свидетельствовала об отставании уровня их развития от биологического возраста. В процессе выполнения работы проводились видеозаписи групповых и индивидуальных занятий с последующим выделением детских вокализаций. В результате анализа определены индивидуальные особенности звукового поведения детей и характерные типы вокализаций в различных коммуникативных ситуациях (игра, диалог, имитация речи взрослого и т.д.). Полученные данные способствуют расширению представлений о развитии когнитивных и вокальных способностей детей с синдромом Дауна и могут быть использованы при разработке стратегии проведения индивидуальных развивающих занятий. Так, при существенном отставании детей в освоении речевых навыков могут быть рекомендованы к использованию средства дополнительной/альтернативной коммуникации (жестовая речь, графические символы).

II Всероссийская акустическая конференция, совмещенная с XXX сессией Российского акустического общества. Нижний Новгород, 6–9 июня 2017 г. Программа и аннотации докладов, с. 117 (2017) | Рубрика: 13.05

 

Огородникова Е.А, Столярова Э.И., Балякова А.А., Галкина Е.В., Пак С.П. «Особенности перцептивного анализа речевых сигналов у детей с нарушениями слухоречевой функции» II Всероссийская акустическая конференция, совмещенная с XXX сессией Российского акустического общества. Нижний Новгород, 6–9 июня 2017 г. Программа и аннотации докладов, с. 117 (2017)

Обсуждаются результаты исследований, отражающих особенности восприятия речевых и неречевых сигналов у детей дошкольного и школьного возраста с нормальным слухом и нарушениями слухоречевой функции (сенсоневральная тугоухость, слуховая нейропатия, речевые расстройства). Сопоставлены показатели слухового анализа звуковых сигналов с разной временной и спектральной структурой (изолированные звуки, слова, ритмические последовательности). Акцент сделан на нарушениях процессов аналитического восприятия, которые наблюдаются во всех группах со слухоречевыми расстройствами, и их проявлениях в образцах устной и письменной речи ряда испытуемых. Обсуждается актуальность раннего выявления данных проблем и целесообразность организации функционального тренинга базовых навыков аналитического слухового восприятия в практике коррекционных и реабилитационных мероприятий.

II Всероссийская акустическая конференция, совмещенная с XXX сессией Российского акустического общества. Нижний Новгород, 6–9 июня 2017 г. Программа и аннотации докладов, с. 117 (2017) | Рубрики: 13.05 13.06

 

Неплохов И. «Звуковые системы оповещения о пожаре» Алгоритм безопасности, № 2, с. 76-80 (2006)

В предыдущем номере журнала были подробно рассмотрены световые системы оповещения. В этой статье приведены основные принципы построения звуковых систем оповещения, анализируется отечественная и зарубежная нормативная база, даны практические рекомендации по выбору типа звукового сигнала, параметров кабеля линии связи, числа оповещателей и т.д. Некоторые положения носят общий характер и будут полезны при проектировании речевых систем оповещения.

Алгоритм безопасности, № 2, с. 76-80 (2006) | Рубрика: 13.05

 

Неплохов И. «Звуковые указатели пожарных выходов» Алгоритм безопасности, № 3, с. 8-10 (2007)

В системах оповещения и управления эвакуацией людей при пожарах в зданиях и сооружениях, по НПБ 104-03, используются звуковые, речевые и световые способы оповещения. Информация о путях эвакуации и о расположении пожарных выходов передается при помощи визуальных средств: световых мигающих указателей, световых оповещателей «Выход», статических и динамических указателей направления. Однако использование визуальной информации при пожаре затруднено даже на стадии относительно небольшого задымления. Многочисленные зарубежные исследования показывают, что один из наиболее характерных типов поведения человека в случае возникновения пожара – это покинуть здание тем же маршрутом, по которому он в него вошел. Но такой способ редко бывает наиболее быстрым и безопасным и часто становится вообще невозможным, например, при отключении лифтов. В таких условиях многие люди не способны быстро найти близлежащий выход и в некоторых случаях проходят мимо хорошо видимых пожарных выходов. Зрение является одним из главных способов восприятия окружающей среды (по некоторым оценкам до 83% того, что мы запоминаем, является визуальной информацией), неудивительно, что практически все эвакуационные знаки пожарной безопасности – аварийное освещение, указатели аварийных выходов и флюоресцирующие статические указатели – предполагают только зрительное восприятие. Насколько эффективны такие указатели, если часть здания полностью или частично заполнена дымом или, если у человека имеются проблемы со зрением.

Алгоритм безопасности, № 3, с. 8-10 (2007) | Рубрика: 13.05

 

Блягоз З.У., Кесебежева Н.И. «Основные методы и приемы обучения русскоязычных учащихся произношению звуков-фонем и сочетаний» Вестник Адыгейского государственного университета: сетевое электронное издание, № 4, http://vestnik.adygnet.ru/?2008 (2008)

Вестник Адыгейского государственного университета: сетевое электронное издание, № 4, http://vestnik.adygnet.ru/?2008 (2008) | Рубрика: 13.05

 

Тихонова А.П. «Звуковые корреляции согласных и гласных в хаттском и абхазо-адыгских языках» Вестник Адыгейского государственного университета: сетевое электронное издание, № 2, http://vestnik.adygnet.ru/?2014 (2014)

Вестник Адыгейского государственного университета: сетевое электронное издание, № 2, http://vestnik.adygnet.ru/?2014 (2014) | Рубрика: 13.05

 

Абрамов В.А., Малов А.В., Попов О.Б., Черников К.В. «Прогнозирование качества передачи сигнала вещания по короткому реальному звуковому сигналу» T-Comm: Телекоммуникации и транспорт, 11, № 2, с. 19-24 (2017)

Целью статьи является изложение нового метода объективной оценки качества передачи вещательных сигналов. Показано, что существующая методика объективной оценки канала звукового вещания по гармоническим тестовым сигналам связана с выводом канала из эксплуатации на 4–6 часов. Предлагается формировать оценку качества передачи по достаточно короткому, около 2 минут, отрезку заранее известного реального вещательного сигнала. Приводится оценка коэффициента передачи канала при использовании в измерениях короткого реального сигнала в виде гимна России. Показано, что заметность искажений (изменений) сигнала наступает примерно при 3% изменении его относительной средней мощности (ОСМ), поэтому в качестве меры такого изменения предложено использовать интегральное отклонение распределений ОСМ на длительности формирования ощущения громкости (около 200 мс). Повысить точность оценки мощности предложено на основе использования аналитической огибающей измеряемого вещательного сигнала. Рассматривается методика синтеза ортогонального сигнала, при использовании которой, ошибка не превышает 10–5, что позволяет с высокой точностью выделять аналитическую огибающую вещательного сигнала. Показано, что оценка ОСМ дискретизированного сигнала на основе использования аналитической огибающей позволяет повысить точность формирования оценки на коротких временных интервалах. Еще больше повысить точность предложено за счет оригинального метода повышения частоты дискретизации. Приводится результаты экспериментального статистического исследования сигнальных ОСМ вещательных сигналов, хорошо коррелирующиеся с результатами субъективно-статистических измерений по критериям "заметности изменений сигнала" или балльной оценки. Определяются величины ОСМ параметров, связанные с тормозящим, возбуждающим или нейтральным воздействием звукового сигнала на слушателей и определяются предпочтительные значения данных параметров. Предлагаемый метод объективной оценки качества передачи вещательных сигналов на коротких временных интервалах позволяет полностью исключить существующую трудоемкую и неточную методику контроля, связанную с длительным выводом вещательного канала из эксплуатации, что имеет практическую ценность. Данный метод позволяет существенно сократить эксплуатационные расходы, повысить качество вещательных сигналов и исключить длительные перерывы в работе каналов передачи информации, что имеет высокую социальную значимость. Оригинальность предлагаемого метода подтверждена патентами и статьями.

T-Comm: Телекоммуникации и транспорт, 11, № 2, с. 19-24 (2017) | Рубрика: 13.05

 

Блягоз З.У., Кесебежева Н.И. «Основные методы и приемы обучения русскоязычных учащихся произношению звуков-фонем и сочетаний» Вестник Адыгейского государственного университета. Серия 4: Естественно-математические и технические науки, № 4, http://vestnik.adygnet.ru/?2008 (2008)

Вестник Адыгейского государственного университета. Серия 4: Естественно-математические и технические науки, № 4, http://vestnik.adygnet.ru/?2008 (2008) | Рубрика: 13.05

 

Тихонова А.П. «Звуковые корреляции согласных и гласных в хаттском и абхазо-адыгских языках» Вестник Адыгейского государственного университета. Серия 4: Естественно-математические и технические науки, № 2, http://vestnik.adygnet.ru/?2014 (2014)

Вестник Адыгейского государственного университета. Серия 4: Естественно-математические и технические науки, № 2, http://vestnik.adygnet.ru/?2014 (2014) | Рубрика: 13.05

 

Бобров Н.В. «Возможности использования лингвистической информации при разработке перспективных технологий сжатия речевого сигнала» Ученые записки физического факультета МГУ, № 5, http://uzmu.phys.msu.ru/toc/2017/5 (2017)

Известно, что оцифрованный речевой сигнал обладает относительно малой сжимаемостью. Компрессия речевого сигнала без потерь методами энтропийного сжатия даёт уменьшение объёма результирующего сообщения по отношению к исходному приблизительно в полтора раза. Применение дельта-компрессии (и близких к ней по сути методов, основанные на идеях А. Хаара и И. Добеши) позволяет улучшить этот показатель ещё в полтора раза. Методы сжатия речевого сигнала с потерями, дающие коэффициенты сжатия, лучшие на порядок, используют психоакустические закономерности: из сигнала удаляются компоненты, оказывающие наименьшее влияние на слуховое восприятие сигнала, например участки спектра, находящиеся «в тени» больших пиков. Необходимо заметить, что все перечисленные идеи основаны на существовании некоторых априорных знаний о речевом сигнале как источнике данных (например, о том, что ординаты соседних точек осциллограммы часто различаются на небольшую величину, или о том, что мгновенный спектр речевого сигнала, как правило, содержит небольшое число доминирующих пиков, определяющих воспринимаемое качество звука). Следуя этой же логике, можно предположить, что использование априорных знаний о том, что речевой сигнал является контейнером, заключающим в себе лингвистическую информацию, также может дать существенный выигрыш в степени его сжатия как с потерями, так и без потерь информации за счёт включения в модель источника данных сведений о закономерностях, описывающих его лингвистическую составляющую. О том, к каким результатам может привести проверка данного предположения, и пойдёт речь в предлагаемом докладе.

Ученые записки физического факультета МГУ, № 5, http://uzmu.phys.msu.ru/toc/2017/5 (2017) | Рубрика: 13.05

 

Григорьев А.С., Ляксо Е.Е. «Акустические характеристики гласных из слов детей 14-16 лет» Ученые записки физического факультета МГУ, № 5, http://uzmu.phys.msu.ru/toc/2017/5 (2017)

На материале русского языка описаны акустические (спектральные и временные) характеристики ударных гласных из слов, вырезанных из спонтанной речи детей в возрасте 14–16 лет, распознанных аудиторами с разной вероятностью. Проведен перцептивный анализ речи детей, направленный на распознавание значения слов взрослыми. Для слов, распознанных с разной вероятностью (0,75–1,0 и 0–0,25) описаны значения длительности ударных гласных, длительности их стационарных участков, величины частоты основного тона (F0), определены значения формантных частот (F1, F2). Построены формантные треугольники кардинальных гласных для русского языка (а, у, и) и определены их площади.

Ученые записки физического факультета МГУ, № 5, http://uzmu.phys.msu.ru/toc/2017/5 (2017) | Рубрика: 13.05

 

Потапова Р.К., Санников В.Г., Потапов В.В. «Системы речевого взаимодействия «человек–машина» и разработка алгоритмов преобразования «текст–речь»» Ученые записки физического факультета МГУ, № 5, http://uzmu.phys.msu.ru/toc/2017/5 (2017)

Естественно языковые интерфейсы систем искусственного интеллекта, как правило, проектируются с ориентацией на обмен текстовыми (письменными, символьными) сообщениями. Однако такое взаимодействие между человеком и машиной зачастую оказывается неудобным и неэффективным. Речевой канал коммуникации предоставляет оптимальные возможности как по скорости, так и по комфортности взаимодействия, что имеет большое значение для эргономичности труда операторов автоматизированных систем.

Ученые записки физического факультета МГУ, № 5, http://uzmu.phys.msu.ru/toc/2017/5 (2017) | Рубрика: 13.05

 

Леонов А.С., Сорокин В.Н. «Верхняя граница ошибок решения обратной задачи определения голосового источника» Акустический журнал, 63, № 5, с. 532-545 (2017)

Рассматривается обратная задача нахождения формы импульса голосового источника по заданному сегменту речевого сигнала в рамках специальной математической модели, связывающей эти величины. Предложен вариационный метод решения поставленной обратной задачи для двух новых параметрических классов источников: кусочно-линейного и А-источника. Рассмотрен вопрос о погрешности получаемых приближенных решений обратной задачи и предложена методика численной оценки этой погрешности, основанная на теории апостериорных оценок точности решения некорректных задач. Проведено компьютерное исследование адекватности предлагаемых моделей источников, а также исследование апостериорных оценок точности решения обратных задач для таких источников по различным видам речевых сигналов. Численные эксперименты для речевых сигналов показали удовлетворительные свойства таких апостериорных оценок, представляющих верхнюю границу возможных ошибок при решении обратной задачи. Оценка наиболее вероятной ошибки определения форм импульсов источника для исследованного речевого материала составляет в среднем около 7%. Отмечено, что апостериорные оценки точности могут использоваться как критерий качества определения формы импульса голосового источника в задаче распознавания дикторов.

Акустический журнал, 63, № 5, с. 532-545 (2017) | Рубрика: 13.05

 

Милехина О.Н., Нечаев Д.И., Супин А.Я. «Компрессивная нелинейность слуха человека при различении спектров звукового сигнала» Доклады академии наук, 474, № 4, с. 517-520 (2017)

В психофизических экспериментах на человеке определяли функцию кохлеарной компрессии путём сравнения изочастотной и низкочастотной маскировок. Сигналом служил "гребенчатый" шум. Различение гребенчатого рисунка измеряли с помощью теста реверсии фазы гребней. Увеличение интенсивности маскера привело к снижению предела различимой плотности гребней спектра. Порог изочастотной маскировки рос пропорционально интенсивности сигнала. Порог низкочастотной маскировки также рос пропорционально интенсивности сигнала до 50 дБ. При интенсивности сигнала от 60 дБ порог маскировки рос в отношении к интенсивности сигнала как 1:5 дБ/дБ, обнаруживая компрессию.

Доклады академии наук, 474, № 4, с. 517-520 (2017) | Рубрика: 13.05

 

Якупова Л.Н. «Актанты информационно-смысловых блоков сферы звука и слухового восприятия в башкирском языке» Вестник Башкирского университета, 13, № 4, с. 979-981 (2008)

Объект звука и слухового восприятия представлен разнообразными лексическими единицами. Качество звука предлагает использование лексемы (высокий или низкий звук, связанный со звучанием голоса или инструмента). Характер звука зависит от материала соприкасаемых изделий и от способов воздействия на предмет (звуки, издаваемые о поверхность другого предмета или при падении и т.д.).

Вестник Башкирского университета, 13, № 4, с. 979-981 (2008) | Рубрика: 13.05