Информационные процессы. 2012. 12, № 1

Сорокин В.Н., Вьюгин В.В., Тананыкин А.А. «Распознавание личности по голосу: аналитический обзор» Информационные процессы, 12, № 1, с. 1-30 (2012)

Задача распознавания диктора по его голосу была поставлена более 40 лет тому назад, и исследования в этой области все еще продолжаются. Решение этой задачи может найти применение в криминалистике, радиоразведке, контрразведке, антитерростическом мониторинге, обеспечение безопасности доступа к физическим объектам, информационным и финансовым ресурсам. В зависимости от конкретной задачи различают верификацию и идентификацию диктора. В первом случае пользователь указывает свой идентификатор, и требуется либо подтвердить его или отказать в подтверждении. Во втором случае необходимо идентифицировать диктора среди множества других дикторов. В большинстве работ для распознавания диктора используются параметры в виде коэффициентов кепстра, который вычисляется по огибающей спектра, полученного через преобразование Фурье, с помощью гребенки фильтров, либо по передаточной функции речевого тракта, найденной методом линейного предсказания. В дополнение к коэффициентам кепстра используются также их первые и вторые разности по времени. Преимущество такого подхода заключается в вычислительной простоте, а также в том, что в кепстре отражаются индивидуальные характеристики голосового источника и анатомия речевого тракта. Вместе с тем, различительная способность такого описания ограничена, и поэтому значительные усилия сконцентрированы на разработке решающих правил. Наиболее популярны методы гауссовых смесей (GMM) и опорных векторов (SVM). Используются также искусственные нейронные сети и скрытые Марковские модели (HMM). С целью сравнения различных методов распознавания диктора введен показатель равной ошибки (EER), определяющий ошибку распознавания при условии равенства вероятности пропуска самозванца и отказа законному пользователю. По результатам тестирования на одной и той же базе данных, регулярно проводимого в Национальном институте стандартов и технологий США (NIST), эта ошибка находится в диапазоне 3–5%, так что суммарная ошибка равна удвоенной величине, т.е. 6–10%.

Информационные процессы, 12, № 1, с. 1-30 (2012) | Рубрика: 13.05

Акустика

сигнальная информация

№5, 2015 год

Информационные процессы. 2012. 12, № 1