Российский фонд
фундаментальных
исследований

Физический факультет
МГУ им. М.В.Ломоносова

Все выпуски | 2016 №4 | Источники | Известия высших учебных заведений. Поволжский регион. Технические науки. 2016, № 1

Известия высших учебных заведений. Поволжский регион. Технические науки. 2016, № 1

Бойков И.В., Калашников Д.М. «Алгоритм построения звукового фрагментатора речи для распознавания голосовых образов с учетом биометрических особенностей диктора» Известия высших учебных заведений. Поволжский регион. Технические науки, № 1, с. 78-91 (2016)

Актуальность и цели. В последнее время остро стоит вопрос об обеспечении информационной безопасности. Голосовая идентификация личности пока не вошла в обиход из-за ряда нерешенных проблем. Одной из важнейших проблем является достоверность аутентификации. В настоящее время вероятность ошибки распознавания диктора по голосу достаточно высока. Требуются алгоритмы для более четкого выявления биометрических параметров диктора из голосового сигнала. Второй проблемой является нестабильная работа аппаратуры в условиях шума. Третью проблему составляет многообразие проявлений голоса одного человека: голос способен изменяться в зависимости от состояния здоровья, возраста, настроения и т.д. В работе предлагаются методы и алгоритмы, направленные на решение данных проблем. Материалы и методы. В работе использованы численные методы обработки непрерывной и дискретной информации, методы гармонического анализа, спектральные методы, методы математической статистики и временных рядов. В основу построения фрагментатора положена континуально-дискретная модель обработки речи, которая в сочетании с узкополосным фильтром позволяет определять среднюю длину звука. Использована линейная предобработка данных голосового сигнала для уточнения периода основного тона. Результаты. В работе предложен метод идентификации личности диктора по результатам анализа фрагментов речи. Предложен новый метод фрагментации речи в целом и отдельных фраз. Внедрение данного метода кластеризации звуковых файлов в систему голосовой аутентификации личности человека позволило снизить вероятность ошибки второго рода (т.е. опознание постороннего человека как своего) до при парольной фразе, содержащей три слова. Построен автомат по выделению и классификации звуковых фрагментов слитной речи. Выводы. Предложен численный алгоритм идентификации речи отдельного диктора, позволяющий производить синхронизацию участков речи. Использование статистического метода позволило уточнять значение выявленных параметров. Проведенное исследование позволило построить автомат по выделению и классификации звуковых фрагментов на различных участках звукового сигнала. Данная процедура была интегрирована в состав имеющейся системы голосовой аутентификации и значительно улучшила качество работы системы при появлении вероятности ошибки второго рода.

Известия высших учебных заведений. Поволжский регион. Технические науки, № 1, с. 78-91 (2016) | Рубрика: 13.05

Акустика

сигнальная информация

№4, 2016 год

Известия высших учебных заведений. Поволжский регион. Технические науки. 2016, № 1