Иванько Д.В., Кипяткова И.С., Ронжин А.Л., Карпов А.А. «Анализ методов многомодального объединения информации для аудиовизуального распознавания речи» Научно-технический вестник информационных технологий, механики и оптики, 16, № 3, с. 387-401 (2016)
Представлен аналитической обзор, охватывающий последние результаты, достигнутые в области аудиовизуального объединения (интеграции) многомодальной информации. Рассматриваются основные проблемы и обсуждаются методы их решения. Одной из важнейших задач аудиовизуальной интеграции является понимание того, как именно модальности взаимодействуют и влияют друг на друга. В работе этот вопрос рассматривается в контексте аудиовизуальной обработки речи, в особенности распознавания речи. В первой части обзора изложены базовые принципы аудиовизуального распознавания речи, приводится классификация типов аудио- и визуальных признаков речи. Отдельное внимание уделяется систематизации существующих способов и методов объединения аудиовизуальной информации. Во второй части, на основе проведенного анализа области исследований, приводится сводный список задач и приложений, использующих аудиовизуальное объединение с указанием методов, способов объединения информации и используемых аудио- и видеопризнаков. Предлагается структуризация методов аудиовизуальной интеграции по типам решаемых задач, а также обсуждаются преимущества и недостатки различных подходов. Приведены выводы, предложена оценка будущего развития области. В ходе дальнейших исследований планируется реализация системы аудиовизуального распознавания слитной русской речи с применением современных методов объединения многомодальной информации.
Научно-технический вестник информационных технологий, механики и оптики, 16, № 3, с. 387-401 (2016) | Рубрики: 12.01 13.05

