13.05 Речеобразование и восприятие речи

Петров О.Е. «Архитектура системы полнотекстового поиска по речевым данным на основе глобального индекса» Научно-технический вестник информационных технологий, механики и оптики, 21, № 5, с. 791-794 (2021)

Предложена архитектура системы полнотекстового поиска по речевым данным, основанная на глобальном индексе поиска, который объединяет в себе информацию обо всех фонограммах архива. Архитектура включает в себя два независимых блока: блок индексирования и блок формирования и выполнения поискового запроса. Обработка фонограмм осуществляется с помощью системы автоматического распознавания речи, которая использует лингвистический декодер на основе взвешенных преобразователей конечных состояний (WFST) для создания словных сетей. Последовательное формирование на основе данных блоков сетей спутывания и обратных индексов позволяет учитывать все словные гипотезы, сформированные в процессе декодирования. Предложенное решение расширяет границы применимости систем речевой аналитики на те случаи, когда пословная ошибка распознавания речи является высокой, например, при обработке фонограмм, полученных в сложных акустических условиях или на малоресурсных языках.

Научно-технический вестник информационных технологий, механики и оптики, 21, № 5, с. 791-794 (2021) | Рубрика: 13.05

Акилан Т., Раджа Л., Харихаран У. «Исследование эффективности шумоподавления при кодировании речевого сигнала без потерь» Научно-технический вестник информационных технологий, механики и оптики, 22, № 2, с. 254-261 (2022)

Кодирование речи – один из методов представления цифрового речевого сигнала с использованием малого числа битов, при этом возможно сохранить их качество и точность. В большинстве ситуаций шифрование и качество речи играют решающую роль в различных акустических системах кодирования. Предложен способ уменьшения занимаемой памяти, используемой речевыми данными с применением поддиапазона и алгоритма Хаффмана для речевых сигналов. Выделены значения амплитуды речевого сигнала после предварительной обработки, оконной обработки и применения методов декомпозиции. Полученные данные преобразованы в частотную область с использованием дискретного косинусного преобразования (Discrete Cosine Transform, DCT). Проведено кодирование методами Хаффмана 90 основных коэффициентов, содержащих наибольшее количество информации о речевых сигналах. Для восстановления исходной речи закодированный сигнал повторно преобразован в форму во временной области с применением обратного дискретного косинусного преобразования (Inverse Discrete Cosine Transform, IDCT). Выполнен эксперимент с речевыми данными с 16 битами по выборке на частоте 8 кГц. Величина показателя SNR (отношение сигнал/шум) показывает эффективность предлагаемого метода.

Научно-технический вестник информационных технологий, механики и оптики, 22, № 2, с. 254-261 (2022) | Рубрика: 13.05

Акустика

сигнальная информация

№4, 2022 год

13.05 Речеобразование и восприятие речи