Российский фонд
фундаментальных
исследований

Физический факультет
МГУ им. М.В.Ломоносова
 

13.05 Речеобразование и восприятие речи

 

Иконин С.Ю., Сарана Д.В. «Система автоматического распознавания речи SPIRIT ASR Engine» Цифровая обработка сигналов, № 4, http://www.dspa.ru/abstracts/ab-403.php#an403_1 (2003)

Статья открывает серию публикаций, посвященных технологии распознавания связной речи и речевых команд и различным аспектам ее практического применения на примере системы SPIRIT ASR Engine, разработанной в компании SPIRIT Corp. Особое внимание при разработке было уделено вопросам устойчивой работы системы в «агрессивной» шумовой обстановке. В данной работе рассматриваются основные принципы построения и применения скрытых марковских моделей (CMM) в системах распознавания речи с ограниченным словарем, а также некоторые практические аспекты реализации системы распознавания слитно произнесенных цепочек слов в режиме реального времени.

Цифровая обработка сигналов, № 4, http://www.dspa.ru/abstracts/ab-403.php#an403_1 (2003) | Рубрика: 13.05

 

Павловец А.Н., Петровский А.А. «Квантование огибающей спектра в вокодере, основанном на декомпозиции речевого сигнала на периодическую и апериодическую составляющие» Цифровая обработка сигналов, № 3, с. 13-21 (2005)

Показаны методы квантования параметров речевого сигнала, применяемые в низкоскоростном вокодере, принцип работы которого заключается в раздельном представлении периодической (тональной) и апериодической (шумовой) составляющих речи. Исследования показали, что квантование с расщеплением вектора линейных спектральных пар LSFp является удобным методом для кодирования огибающей спектра тонального компонента. Преимущества данного способа квантования заключаются в наиболее полном использовании корреляционных связей внутри вектора LSFp, уменьшении времени поиска кодового слова в книге, экономии памяти и снижении скорости передачи. Результатом исследований является 23-разрядный квантователь и вокодер со скоростью передачи данных равной 3000 бит/с. Декодированная речь диктора естественна и узнаваема, некоторые присутствующие в ней артефакты лишь незначительно влияют на качество ее восприятия.

Цифровая обработка сигналов, № 3, с. 13-21 (2005) | Рубрика: 13.05

 

Леонович А.А. «Проблемы распознавания слитной речи» Цифровая обработка сигналов, № 4, с. 25-28 (2007)

Описываются характеристики систем распознавания речи и их классификация. Обсуждаются методы сегментации и проблемы распознавания речи. Приводятся сравнительные характеристики методов сегментации.

Цифровая обработка сигналов, № 4, с. 25-28 (2007) | Рубрика: 13.05

 

Сахаров А.В. «Построение статистической модели речевого трафика при монологе» Цифровая обработка сигналов, № 4, с. 21-24 (2007)

Предлагается новый подход к построению статистической модели трафика IP-телефонии при монологе с учетом уровня кодируемого сигнала. Введение данного параметра в модель позволяет получать на выходе трафик с разной битовой скоростью, что наиболее полно отражает реальную ситуацию. Проведено моделирование битовой скорости. Сравнение модельных и опытных данных показало достаточно высокую степень корректности полученной модели.

Цифровая обработка сигналов, № 4, с. 21-24 (2007) | Рубрика: 13.05

 

Соловьева Е.Б., Жеребцов А.П. «Синтез полиномиальных фильтров импульсных помех, поражающих речевые сигналы» Цифровая обработка сигналов, № 4, с. 8-14 (2007)

Рассмотрены методы синтеза нелинейных нерекурсивных цифровых фильтров импульсных помех на основе теории расщепления сигналов во временной и частотной областях. Исследовано применение таких фильтров для обработки речевых сигналов, пораженных импульсными помехами. Выполнено сравнение результатов обработки сигналов предложенными фильтрами, медианными фильтрами и фильтром Вольтерры.

Цифровая обработка сигналов, № 4, с. 8-14 (2007) | Рубрика: 13.05

 

Новоселов С.А., Топников А.И., Савватин А.И., Приоров А.Л. «Подавление шума в речевых сигналах на основе метода нелокального усреднения» Цифровая обработка сигналов, № 4, http://www.dspa.ru/abstracts/ab-411.php (2011)

Описывается метод нелокального усреднения, анализируется возможность его применения в задаче подавления шума в речевых сигналах. Для демонстрации эффективности подхода представлены результаты моделирования, полученные с использованием алгоритма, основанного на нелокальном усреднении. Проведено сравнение полученных результатов с результатами, полученными для алгоритма, реализующего метод спектрального вычитания.

Цифровая обработка сигналов, № 4, http://www.dspa.ru/abstracts/ab-411.php (2011) | Рубрика: 13.05

 

Азаров И.С., Петровский А.А. «Система конверсии голоса в реальном масштабе времени с текстонезависимым обучением на основе гибридного параметрического описания речевых сигналов» Цифровая обработка сигналов, № 2, с. 15-23 (2012)

Предлагается способ конверсии голоса на основе гибридной модели параметрического описания речевого сигнала. Поиск функции конверсии выполняется с использованием образцов речи исходного и целевого дикторов с произвольным текстовым содержанием. Эффективность предложенного способа оценивается путем экспериментальной реализации системы конверсии.

Цифровая обработка сигналов, № 2, с. 15-23 (2012) | Рубрика: 13.05

 

Азаров И.С., Вашкевич М.И., Петровский А.А. «Алгоритм оценки мгновенной частоты основного тона речевого сигнала» Цифровая обработка сигналов, № 4, с. 49-57 (2012)

Предлагается способ оценки мгновенной частоты основного тона на основе устойчивого к ошибкам алгоритма слежения за основным тоном RAPT (robust algorithm for pitch tracking). В отличие от RAPT, который выполняет оценку частоты, относящуюся к фрейму анализа, предлагаемый метод выполняет оценку, относящуюся к заданному моменту времени. Другая особенность метода – низкая чувствительность точности оценки к модуляциям частоты основного тона. Перечисленные свойства достигаются за счет использования специальной функции оценки периодичности, которая аналогична нормированной кросс-корреляционной функции, используемой в RAPT, однако вычисляется на основе мгновенных гармонических параметров синусоидальной модели сигнала. Предложенный алгоритм сравнивается с другими современными алгоритмами при помощи искусственных и натуральных речевых сигналов. В случае значительных частотных модуляций основного тона предложенный метод обеспечивает ошибку оценки в несколько раз меньшую по сравнению с ближайшим конкурентом, о чем свидетельствуют результаты анализа синтетических сигналов с известными значениями мгновенной частоты основного тона.

Цифровая обработка сигналов, № 4, с. 49-57 (2012) | Рубрика: 13.05

 

Волченков В.А., Витязев В.В. «Методы и алгоритмы детектирования активности речи» Цифровая обработка сигналов, № 1, с. 54-60 (2013)

Проводится сравнительный анализ эффективности методов и алгоритмов детектирования участков активности речи и пауз между ними. Приведена общая информация о стандартизированных методах детектирования активности речи и оценка их производительности. Представлен новый способ обнаружения пауз в речи.

Цифровая обработка сигналов, № 1, с. 54-60 (2013) | Рубрика: 13.05

 

Леднов Д.А. «Анализ скрытых траекторных моделей резонаторов речевого тракта для систем распознавания фонем» Цифровая обработка сигналов, № 1, с. 2-8 (2013)

Приводится перевод и анализ оригинальных работ Li Deng и его коллег (компания Microsoft), появившихся в период с 2000 по 2010 год в области фонетического распознавания речи. Основное направление этих публикаций связано с разработкой модели скрытых траекторий параметров резонаторов вокального тракта. В ходе разработки было показано, как функционально зависит динамика коэффициентов линейного предсказания от параметров резонаторов вокального тракта, которые предварительно сглаживаются КИХ-фильтром. Затем, для этой зависимости введена статистическая модель, для которой поставлена и решена оптимизационная задача. Автор настоящей работы дополнил развитую модель уравнением непрерывности, которое позволяет определить характеристики КИХ-фильтров для каждого фонетического состояния и ввел альтернативную оптимизационную схему, позволяющую определять параметры статистической модели.

Цифровая обработка сигналов, № 1, с. 2-8 (2013) | Рубрика: 13.05

 

Азаров И.С., Вашкевич М.И., Лихачев Д.С., Петровский А.А. «Алгоритм очистки речевого сигнала от сложных помех путем фильтрации в модуляционной области» Цифровая обработка сигналов, № 4, с. 25-31 (2013)

Предлагается способ очистки речевого сигнала от шума, основанный на фильтрации в модуляционной области. Способ является универсальным и позволяет подавлять широкий класс акустических помех. Приводятся результаты экспериментов, показывающие, что предлагаемый способ обеспечивает более высокий коэффициент ослабления шума и меньшую степень деградации полезного речевого сигнала в сравнении с известным алгоритмом на основе RASTA (RelAtive SpecTrA).

Цифровая обработка сигналов, № 4, с. 25-31 (2013) | Рубрика: 13.05

 

Гай В.Е. «Метод оценки частоты основного тона в условиях помех» Цифровая обработка сигналов, № 4, с. 65-71 (2013)

Предлагается алгоритм оценки частоты основного тона речевого сигнала в условиях помех. Разработанный алгоритм может использоваться при разработке систем идентификации человека по голосу. Приводятся результаты исследований, подтверждающие эффективность предложенного алгоритма.

Цифровая обработка сигналов, № 4, с. 65-71 (2013) | Рубрика: 13.05

 

Тебенова К.С., Ахметова Н.Ш., Туганбекова К.М., Карнаухова О.М. «Условия обучения звуковой культуре речи детей дошкольного возраста» Фундаментальные исследования, № 8-1, с. 203-206 (2014)

Рассмотрены условия обучения звуковой культуре речи детей дошкольного возраста. Показателями звуковой культуры речи являются непосредственно фонетическая и орфоэпическая правильность речи, четкая дикция и интонационная выразительность. Необходимым составляющим правильно сформированной звуковой стороны речи является речевой слух. Авторы указывают на различные характеристики речевого слуха. Большое место в работе занимает рассмотрение и анализ литературы по исследуемой проблеме. Подробно освещены взгляды ученых, выявлены особенности звуковой культуры речи и доказаны различия в понятиях «фонематический слух», «фонетический слух», «фонематическое восприятие», «звуковой анализ», «фонематические представления». В статье приводится сравнительная характеристика данных понятий. Обоснована необходимость развития фонематической системы речи детей в дошкольном возрасте, до обучения детей грамоте.

Фундаментальные исследования, № 8-1, с. 203-206 (2014) | Рубрика: 13.05

 

Сальникова В.В. «Семантическая классификация звуковой лексики в художественных произведениях о детстве (на материале повестей С.Т. Аксакова «Детские годы Багрова-внука» и А.Н. Толстого «Детство Никиты»)» Фундаментальные исследования, № 9-1, с. 209-213 (2014)

Статья посвящена изучению звуковой лексики в русской художественной литературе о детстве. Материалом для анализа послужили тексты автобиографических повестей С.Т. Аксакова «Детские годы Багрова-внука» и А.Н. Толстого «Детство Никиты». В ней рассматриваются лингвистические и психологические особенности восприятия звуков детьми. При описании языковых единиц используется метод словарных дефиниций, метод контекстуального и сравнительно-сопоставительного анализа. В статье выявляются семантические группы звуковой лексики (это звуки, издаваемые людьми; звуки, производимые неодушевленными предметами; мир звуков, существующих в природе: звучание текущей воды; звуки, издаваемые животными; звуки птичьих голосов; звуки, производимые насекомыми); определяется частеречная принадлежность звуковой лексики. На основе проведенного анализа делается вывод о совпадении ключевых моментов языковой картины мира ребенка, представленной в произведениях разных авторов, о влиянии звуков на формирование языковой личности ребенка, его мировосприятие.

Фундаментальные исследования, № 9-1, с. 209-213 (2014) | Рубрика: 13.05

 

Казарина В.И., Аль-Хаснави А.Р. «Речевая реализация структурной схемы простого предложения "что звучит"» Вестник Нижегородского университета им. Н.И. Лобачевского, № 2-1, с. 382-388 (2014)

Описана специфика речевой реализации структурной схемы простого предложения «что звучит», представленная грамматической и структурно-семантической модификациями. Выявлена способность пропозиции «нечто издает звук» обогащаться дополнительными смыслами, маркирующими сопутствующие ситуации звучания обстоятельства.

Вестник Нижегородского университета им. Н.И. Лобачевского, № 2-1, с. 382-388 (2014) | Рубрика: 13.05

 

Петров С.М. «Громкость и разборчивость речи после полосовой и гребенчатой фильтрации» Сенсорные системы, 20, № 2, с. 126-130 (2006)

Проведено исследование восприятия речи и формирования ощущения громкости у испытуемых с нормальным слухом при различных способах спектральной обработки речевого сигнала. В работе были использованы два способа обработки: гребенчатая фильтрация (ГФ) и полосовая фильтрация (ПФ), причем суммарная ширина пяти полос по 50 Гц, которыми представлен весь речевой спектр после ГФ, была равна ширине одной тестовой полосы при ПФ (400–650 Гц). Обнаружено, что при данных условиях эксперимента при обоих способах фильтрации у испытуемых происходит самообучение восприятию обработанного речевого сигнала, причем навыки восприятия, приобретенные испытуемыми во время эксперимента, закрепляются. Результаты измерений разборчивости и комфортной громкости речи после ГФ достоверно отличаются от результатов, зарегистрированных после ПФ речевого сигнала (t < 0.05). Полученные результаты позволяют обсуждать параллели между восприятием речи пациентами с кохлеарными имплантами и восприятием речи, обработанной гребенчатым фильтром, нормально слышащими.

Сенсорные системы, 20, № 2, с. 126-130 (2006) | Рубрика: 13.05

 

Андреева Н.Г., Куликов Г.А. «Биологические основы развития речи. I. Звукопродукция» Сенсорные системы, 20, № 3, с. 163-174 (2006)

Обзор современных экспериментальных данных и представлений о взаимодействии врожденной предуготовленности и влияния внешней среды в генезе речевой продукции. Рассмотрены стадии формирования звукопродукции в довербальном периоде развития. Особое внимание уделено процессам моторного развития в преобразованиях ранних вокализаций. Представлен сравнительный анализ развития звукопродукции в норме и при нарушениях слуха у детей, воспитывающихся в различных условиях языкового окружения. Освещены сведения о специфической роли критического периода в становлении речевой деятельности. Отмечен креативный характер акустической коммуникации детей до начала формирования нормативной речи. Проанализирована роль материнской речи в освоении ребенком родного языка в разных этнических группах. Обсуждается значимость различных форм обучения в становлении речевых сигналов, специфичных для родного языка.

Сенсорные системы, 20, № 3, с. 163-174 (2006) | Рубрика: 13.05

 

Вартанян И.А., Андреева И.Г., Ланге Н.К. «Соотношение состояния слуха и речи у детей 5–9 лет» Сенсорные системы, 20, № 3, с. 175-179 (2006)

Проведено обследование слухоречевых функций детей в возрасте 5–9 лет посещающих массовые дошкольные и школьные учреждения. Выявлено, что 17% детей имели нарушения слуха, 35% – нарушения речи. Более трети детей с речевыми нарушениями имели потерю тонального слуха на 15–30 дБ. Обсуждаются причины нарушения слухоречевого развития детей и роль минимального снижения слуха в нарушении развития речи ребенка в период старшего дошкольного и младшего школьного возраста.

Сенсорные системы, 20, № 3, с. 175-179 (2006) | Рубрика: 13.05

 

Левыкин Р.С., Ланге Н.К. «Разработка коррекционной компьютерной программы для детей с тугоухостью, направленная на развитие различительной способности при восприятии звуков» Сенсорные системы, 20, № 3, с. 193-194 (2006)

Сенсорные системы, 20, № 3, с. 193-194 (2006) | Рубрика: 13.05

 

Ляксо Е.Е. «Речевая имитация в диадах "мать–ребенок" с детьми, нормально развивающимися и имеющими неврологические нарушения: лонгитюдное исследование» Сенсорные системы, 20, № 3, с. 204-215 (2006)

Цель исследования – изучение речевой имитации в 10 диадах "мать–ребенок" с детьми, нормально развивающимися (n = 5, группа нормы) и с неврологическими нарушениями (п = 5, группа риска), на протяжении второго и третьего годов жизни детей. Показано, что на втором году жизни в процессе имитации дети стремятся повторить "образ" слова или фразы, но соответствие имитационного имитируемому достигается при повторении слов, соответствующих артикуляционным возможностям ребенка. Уровень имитационных способностей двухлетних детей с группы риска соответствует годовалому уровню детей группы нормы. Трехлетние дети группы нормы имитируют слова и фразы и используют их при построении высказываний. У детей группы риска имитация является только копированием в определенных ситуациях произнесенного взрослым и не используется в активном лексиконе. Результаты исследования позволяют заключить, что посредством имитации происходит переход на новый, более сложный уровень речевого развития ребенка. Имитационные последовательности включаются в процессы памяти, а это приводит к расширению коммуникативных взаимоотношений ребенка со взрослыми.

Сенсорные системы, 20, № 3, с. 204-215 (2006) | Рубрика: 13.05

 

Скляров О.П. «Фракталы и крупномасштабная временная структура акустического речевого сигнала и музыки» Техническая акустика, 4, № 1, http://www.ejta.org/ru/skljarov3 (2004)

Рассматриваются Хаусдорфова размерность и Колмогоровская энтропия последовательности длительностей голосовых сегментов в речи (V-ритма). Хаусдорфовы размерности и Колмогоровская энтропия вычисляются из экспериментально определенных V-ритмов образцов как нормальной речи, так и речи при заикании. Эти вычисления оказались возможными благодаря введению в рассмотрение обобщенной размерности Реньи и обобщенной энтропии Реньи. Показано, что V-ритм речи образует фрактальную структуру, причем соответствующая Хаусдорфова размерность больше топологической размерности. В свою очередь, фрактальная размерность нормальной речи больше фрактальной размерности участков речи, состоящих из запинок. Кроме того, обнаружено, что Колмогоровская энтропия ритма нормальной речи положительна и конечна, что является необходимым и достаточным условием существования детерминированного хаоса в структуре ритма. Нижняя граница Колмогоровской энтропии для запинок отрицательна, что говорит в пользу регулярности структуры запинок в речи. На примере пьес Вивальди и Паганини показано, что Хаусдорфова размерности музыки ниже размерности запинок, что позволяет сравнить структуру V-ритма музыки со структурой ритма ранней фонетики у детей.

Техническая акустика, 4, № 1, http://www.ejta.org/ru/skljarov3 (2004) | Рубрика: 13.05

 

Скляров О.П. «V/U-ритм речи при чтении как индикатор состояния функции речевого дыхания у заикающихся» Техническая акустика, 4, № 1, http://www.ejta.org/ru/skljarov2 (2004)

Показано, что чередование длительностей в речевом акустическом сигнале, когда голосовые складки колеблются с частотой основного тона, и длительностей, когда таких колебаний нет, образует Voice/Unvoice-ритм (V/U ритм). Ранее исследованиями автора было обнаружено, что такая структура ритма хорошо описывается экспериментально квадратичным логистическим отображением и соответствующим сценарием Фейгенбаума для перехода системы к хаосу. Начальная часть нижнего крыла сценария отвечает U-сегментам, а начальная часть верхнего крыла соответствует V-сегментам. За критической точкой эти два крыла смешиваются, образуя V/U-ритм нормальной речи. Докритическая область сценария соответствует регулярному чередованию голосовых (V) и неголосовых (U) сегментов, свойственному запинкам типа повторов, причем в этой области выполняются регулярные соотношения между суммарными длительностями голосовых и неголосовых сегментов (отношение их суммарных длительностей примерно равно 3/2). В зоне хаоса эта регулярность утрачивается. Предлагается использовать утрату этой регулярности как способ и индикатор исправления заикания. Манипулируя режимом дыхания, можно добиться, чтобы указанная регулярность утрачивалась. В силу закона функциональной композиции утрата регулярности будет свидетельствовать о том, что система находится в закритической области. В этом случае увеличение возбуждения фонации в системе речеобразования обеспечивает появление речевого V/U-ритма без заикания. В работе приведены статистически достоверные данные, подтверждающие этот тезис.

Техническая акустика, 4, № 1, http://www.ejta.org/ru/skljarov2 (2004) | Рубрика: 13.05

 

Скляров О.П. «Онтогенез речи и сценарий развития ее V-ритмов» Техническая акустика, 4, № 1, http://www.ejta.org/ru/skljarov1 (2004)

Дано определение акустически измеримого ритма речи, как последовательности длительностей сегментов речи с наличием колебаний на частоте основного тона (V-ритм). Теоретически и экспериментально показано, что речи в ее развитии присущ целый набор, или сценарий (сценарий Фейгенбаума), регулярных и иррегулярных V-ритмов, меняющихся в зависимости от управляющего параметра. В работе выдвигается также гипотеза о том, что динамическому аспекту вербальной памяти отвечает конкретный участок сценария V-ритмов, а именно, сценарий Помо–Манневилля.

Техническая акустика, 4, № 1, http://www.ejta.org/ru/skljarov1 (2004) | Рубрика: 13.05

 

Скляров О.П. «Нарушения ритма речи, возникающие в результате синхронизации, индуцированной в связанных осцилляторах (краткое сообщение)» Техническая акустика, 5, № 1, http://www.ejta.org/ru/skljarov5 (2005)

Оказывается, что заикание, как феномен нарушения ритма речи, можно рассматривать с позиций технической акустики. Как известно, акустически голосовые звуки речи формируются голосовыми складками, периферийными резонаторами и артикуляторами речевого тракта (полость рта, носа, губы, язык, зубы и т. д). Источником энергии возникающих акустических колебаний является воздушный поток из легких. Управление речевой периферией осуществляется, в основном, со стороны мозга. Одной из функций такого управления является формирование начала и конца голосового сегмента в речи. Иными словами, управление формирует ритм речи. Основную электрическую ячейку мозга мы будем называть нейроном. Здесь мы воспользовались простейшей моделью, способной описать электрические свойства нейрона c учетом фазы его состояния: конденсатором (или интегратором) с утечкой, испускающим, по достижению некоторого порога, импульс. Это модель Leaked-Integrator-and-Fire (LIF-модель). Как известно, потенциал такого интегратора описывается осцилляциями в виде периодической последовательности импульсов с периодом следования ∼1мс, поэтому LIF-модель называется также моделью осциллирующего интегратора или просто – моделью осциллятора. Электрически функционирование мозга можно представить себе как некоторое нелинейное взаимодействие таких осцилляторов. Взаимодействие осцилляторов характеризуется некоторой константой связи. Если потенциал в интеграторе превышает некоторый порог, при котором происходит испускание импульса, то этот интегратор называется активным. Активный интегратор может взаимодействовать с соседними интеграторами двояким образом. 1) Активный интегратор может возбуждать временную осцилляцию потенциала в соседнем интеграторе, при этом пиковое значение потенциала превышает порог. В этом случае он называется «возбуждающим» интегратором. 2) Активный интегратор может и «затормозить» потенциал в соседнем интеграторе до уровня ниже порога. Тогда он называется «тормозящим» интегратором. Относительное число «возбуждающих» («тормозящих») в единицу времени интеграторов называется «возбуждающей» («тормозящей») активностью мозга. Активности измеряются в герцах. На периферии эти активности приводят (с помощью специальных клеток) к натяжению мышц голосовых складок, а также к натяжению других мышц речевого тракта, приводящих в движение, например, диафрагму легких, голосовых складок, губ и т. д. Таким образом, описанное управление физически реализует сегментацию речевого сигнала. Другими словами, оно формирует ритм речи. Общепринято считать, что заикание есть феномен отклонения ритма речи заикающегося пациента от ритма нормальной речи. В ходе многолетних экспериментальных исследований мы убедились, что отличаются как средние длительности сегментов, так и их коэффициенты вариации. Экспериментально установленный критический переход от ритма речи с запинками к ритму нормальной речи позволил нам принять гипотезу о том, что сегменты ритма подчиняется квадратичному отображению с управляющим параметром. Исследования детской фонетики, а также изучение различных форм заикания убедило нас в том, что управляющий параметр отображения имеет нейрофизиологический смысл «торможения». Это «торможение» существует в соответствующем звене иерархии нейронных структур, ответственном за ритм, который наблюдается в определенном возрасте или при определенной форме заикания. Закон квадратичного отображения имеет геометрическое место точек, соответствующих устойчивым состояниям отображения, другими словами, устойчивым продолжительностям сегментов ритма. Это геометрическое место устойчивых состояний называется сценарием ритмов, потому что переходы между состояниями соответствуют, в частности, регулярным ритмам детской «лепетной» речи и ритмам повторяющихся запинок ранней формы заикания. Под влиянием все возрастающего тормозного влияния коры мозга ритм нормальной речи становится иррегулярным. Однако при дальнейшем росте торможения появляются запинки невротического характера в виде пауз молчания, персевераций и т. д. Такая форма заикания, сопровождающаяся как запинками в виде повторов, так и невротическими запинками, носит название устойчивого, «хронического» заикания. Именно такое заикание является «камнем преткновения» для врачей-клиницистов, так как для редукции запинок-повторов требуется увеличение торможения в речевых нейронных центрах, а для редукции невротических запинок, наоборот, требуется снижение торможения в речевых центрах. Однако это противоречие исчезает при учете линейной зависимости, существующей между «тормозящей» активностью и управляющим параметром в сценарии ритмов речи. С другой стороны, можно показать, что при учете конечного времени распространения взаимодействия между соседними нейронами-осцилляторами только лишь «тормозящая» популяция осцилляторов способна организовывать синхронные кластеры. При этом возможны три режима: осцилляторы функционируют синхронно при средних значениях констант связи между ними; осцилляторы функционируют в противофазе при низких значениях констант связи; при достаточно больших значениях констант связи синхронизация исчезает. Эти факты согласуются с решением широко используемого в гидроакустике уравнения Фоккера–Планка для плотности осцилляторов в случае «тормозящей» активности. Действительно, «тормозящая» активность представляет собой медленно осциллирующую функцию времени, постепенно затухающую к фоновому уровню активности, который соответствует полной десинхронизации «тормозящих» интеграторов в течение 200 мс. Можно предположить, что всплески медленных осцилляций тормозной активности, которые длятся около 40–50 мс и находятся выше фонового уровня «торможения», приводят к появлению характерных для повышенного торможения невротических запинок при «хроническом» заикании. Всплески, находящиеся ниже фонового уровня, приводят к появлению запинок-повторов с судорожной окраской, характерных для пониженного торможения. В пользу такой трактовки служит хорошо известный факт, что частичная блокировка константы связи между интеграторами с помощью ГАМК – медиатора ведет к возникновению тех или иных судорожных проявлений.

Техническая акустика, 5, № 1, http://www.ejta.org/ru/skljarov5 (2005) | Рубрика: 13.05

 

Скляров О.П. «Сценарий акустических ритмов речи как инструмент исследования работы мозга» Техническая акустика, 5, № 1, http://www.ejta.org/ru/skljarov4 (2005)

Показано, что усложнение ритмической структуры речи происходит как под влиянием реципрокных процессов типа «торможение-возбуждение», протекающих на разных уровнях иерархии стволово-корковых структур, так и под влиянием реципрокных процессов, протекающих на одном уровне иерархии. В первом случае усложнение ритмов возрастной фонетики идет по мере созревания соответствующих нейронных образований. Во втором случае это усложнение проявляется либо на уровне подкорковых образований в сфере эмоциональных состояний говорящего, либо на уровне межполушарных взаимодействий при формировании силлабо-тонического ритма, характерного для нормально сформировавшейся речи.

Техническая акустика, 5, № 1, http://www.ejta.org/ru/skljarov4 (2005) | Рубрика: 13.05

 

Куремацу А., Накано-Миятаке М., Перес-Меана Г., Симанкас-Асеведо Э. «Анализ характеристик систем распознавания речи на основе гауссовой модели со сложным ядром» Техническая акустика, 5, № 1, http://www.ejta.org/ru/perez_meana1 (2005)

Представлен анализ влияния особенностей речи диктора на характеристики системы распознавания речи, основанной на гауссовой модели со сложным ядром. С этой целью система распознавания речи анализировалась с использованием особенностей речи полученных: из линейных кепстральных коэффициентов, выделенных из целого фрагмента речи; из линейных кепстральных коэффициентов, полученных из голосовых частей фрагмента речи; из линейных кепстральных коэффициентов, полученных из голосовых сегментов речи вместе с информацией о высоте звука; из линейных кепстральных коэффициентов, полученных из голосовых сегментов, нормированных с использованием кепстральной нормализации среднего. Оценка результатов с использованием фраз фрагментов телефонного разговора на японском языке длиной 2,5–3 с показала, что хорошие характеристики системы распознавания речи, основанные на гауссовой модели, достигаются в большинстве случаев вне зависимости от особенностей голоса диктора как в случае системы, «обученной» конкретным фразам, так и «необученной». При этом вектор, характеризующий особенности речи и обеспечивающий лучшее распознавание, в значительной степени зависит от конкретного диктора.

Техническая акустика, 5, № 1, http://www.ejta.org/ru/perez_meana1 (2005) | Рубрика: 13.05

 

Чандрасекар М., Понавайко М. «Автоматическое распознавание речи на тамильском языке» Техническая акустика, 7, № 1, http://www.ejta.org/ru/chandrasekar1 (2007)

Речь является основным средством общения и одним из наиболее сложных сигналов. Уже более 40 лет разрабатываются системы автоматического распознавания речи, преобразования ее в текст. Исследования были сосредоточены в основном на распознавания речи на английском языке. Индийские языки структурно и синтаксически отличаются от латинских. Например, произнесение слов на тамильском языке состоит в произнесении соединения букв, общее число которых 247. В статье представлен подход к распознаванию речи на тамильском языке, использующий акустические особенности отдельных букв. При этом применяется аппарат нейронных сетей. Представлены примеры, доказывающие эффективность метода.

Техническая акустика, 7, № 1, http://www.ejta.org/ru/chandrasekar1 (2007) | Рубрика: 13.05