13.05 Речеобразование и восприятие речи

Аладинский В.А., Кузьминский С.В., Лебедев В.Д. «Селекция цифровых потоков, содержащих речевые сообщения, на основе линейного предсказания» Успехи современной радиоэлектроники, 73, № 9, с. 15-19 (2019)

Постановка проблемы. Постоянное усложнение задач радиоконтроля (РК) при жестких требованиях к достоверности получаемых результатов определяет необходимость совершенствования средств РК. Одной из первичных технических операций, выполняемых средством РК, является селекция цифровых потоков канального уровня, которые формируются низкоскоростными вокодерами речи. Получаемые результаты селекции могут далее применяться для определения факта смены в радиостанции вида связи, распознавания протоколов низкоскоростного кодирования речи, а также контроля обмена речевыми сообщениями, поэтому необходим алгоритм селекции цифровых потоков, содержащих речевые сообщения. Цель. Провести селекцию цифровых потоков (ЦП), содержащих речевые сообщения, с использованием линейного предсказания. Результаты. Предложен алгоритм селекции ЦП, содержащих речевые сообщения, основанный на вычислении параметров линейного предсказания методом Левинсона–Дарбина. Практическая значимость. Анализ автокорреляционной функции ЦП канального уровня (КУ) на основе линейного предсказания по алгоритму Левинсона–Дарбина обеспечивает вычисление коэффициентов линейного предсказания и их средней квадратичной ошибки (СКО). Экспериментальная проверка методом моделирования на ЭВМ показала, что для ЦП КУ, содержащего речевое сообщение, вектор коэффициентов линейного предсказания имеет глобальный минимум и величина усредненного СКО Eм_ср существенно больше, чем по другим видам сообщений (текст, изображение). На основе алгоритма Левинсона–Дарбина и с учетом результатов эксперимента разработан алгоритм селекции ЦП КУ, содержащего речевое сообщение.

Успехи современной радиоэлектроники, 73, № 9, с. 15-19 (2019) | Рубрика: 13.05

Фархадов М.П., Петухова Н.В., Васьковский С.В., Фархадова М.Э.. «Повышение эффективности речевого интерфейса с применением когнитивных и лингвистических знаний» Управление большими системами: сборник трудов, № 81, с. 90-112 (2019)

В современном информационном обществе ежедневно накапливается огромный объем речевых данных, и автоматизация их обработки может обеспечить принципиально новые возможности для анализа систем автоматизации принятия управленческих решений, поэтому разработка методов и средств автоматизации систем распознавания и анализа речевой информации имеет важное научное и государственное значение. Статья посвящена исследованию проблематики речевых интерфейсов: предложены методы решения возникающих проблем при проектировании человеко-машинного интерфейса с применением речевых технологий, сформулированы правила создания эффективных интерфейсов, основанные на проведенных исследованиях и опыте реализации речевых приложений. Анализируются когнитивные особенности и роль лингвистических знаний в создании речевых диалоговых систем. С точки зрения взаимодействия человека и информационной среды наиболее естественным является речевой интерфейс. Следует отметить, что сегодня при проектировании речевого интерфейса недостаточно применяются результаты как прикладных, так и теоретических исследований в данной области. Подобные исследования являются весьма актуальными, поскольку приложения с речевыми интерфейсами получают все большее прикладное распространение в различных сферах информационных технологий, и разработчики прикладных приложений нуждаются в практических рекомендациях для повышения, эффективности надежности и устойчивости систем с распознаванием речи. DOI: https://doi.org/10.25728/ubs.2019.81.4

Управление большими системами: сборник трудов, № 81, с. 90-112 (2019) | Рубрика: 13.05

Сорокин В.Н. «Детекторы артикуляторных событий» Акустический журнал, 66, № 1, с. 71-85 (2020)

Детекторы артикуляторных событий, т.е. детекторы перехода из одного артикуляторного состояния в другое, формируются на основе анализа спектрально-временных неоднородностей в речевом сигнале. Сегментация и распознавание триады типа /пауза–фрикативный–гласный/ выполняется в пространстве главных компонент спектра отклика детектора переходного процесса от паузы к фрикативному, спектра фрикативного в момент пика его энергии и спектра отклика детектора переходного процесса от фрикативного к гласному в момент пика этого детектора. Среднеквадратическая ошибка относительно ручной разметки для начала фрикативных составляет, в среднем, около 12 мс, а для момента перехода от фрикативного к гласному – около 5 мс. Ошибки распознавания триад с одним и тем же фрикативным и разными последующими гласными, а также ошибки распознавания триад, отличающихся только наличием или отсутствием голосового возбуждения, оказались порядка нескольких процентов.

Акустический журнал, 66, № 1, с. 71-85 (2020) | Рубрика: 13.05

Акустика

сигнальная информация

№1, 2020 год

13.05 Речеобразование и восприятие речи