Российский фонд
фундаментальных
исследований

Физический факультет
МГУ им. М.В.Ломоносова
 

Ученые записки ЕГУ, физико-математических наук. 2024. 58, № 3

 

Khechoyan Kh.S. «Synthetic document generation for the task of visual document understanding» Ученые записки Ереванского государственного университета, физико-математических наук, 58, № 3, с. 79-87 (2024)

Для решения задачи анализа документов методами машинного обучения необходимо большое количество размеченных данных. Такие данные не всегда доступны, а если и доступны, то охватывают только определенные типы документов. Нами представлен метод создания синтетических данных, позволяющий создавать документы любого типа, предварительно определив компоненты документа. Изменяя расположение компонентов документов, текстовое содержание и визуальные элементы с помощью конфигураций, мы создаем разнообразные и реалистичные наборы данных, имитирующие реальные документы. Этот метод решает проблему нехватки размеченных наборов данных и предлагает гибкое решение для улучшения результатов модели машинного обучения. DOI: https://doi.org/10.46991/PYSUA.2024.58.3.079

Ученые записки Ереванского государственного университета, физико-математических наук, 58, № 3, с. 79-87 (2024) | Рубрика: 17