Next-ViT: Трансформер машинного зрения следующего поколения для эффективного развертывания в реалистичных промышленных сценариях
Основная цель разработки модели Next-ViT - это создание такой модели на основе Трансформера, которая бы превосходила модели CNN. Известно, что сложный дизайна сложный механизм внимания моделей на базе Трансформеров приводит к тому, что в реальном развертывании модели на этапе промышленного внедрения с использованием TensorRT и CoreML трансформеры проигрывают по скорости моделям CNN. Авторы статьи предлагают Vision Transformer следующего поколения для эффективного развертывания в реалистичных промышленных сценариях. На следующих графиках видно, что модель на движках TensorRT также быстра, как и ResNet, но обеспечивает лучшее качество:
Структура модели представлена ниже. Левая колонка — это общая иерархическая архитектура Next-ViT. Средний столбец - это следующий блок свертки (NCB) и следующий блок преобразователя (NTB). В правом столбце представлена подробная визуализация сверточного внимания с несколькими головками (MHCA), эффективного самовнимания с несколькими головками (E-MHSA) и оптимизированных модулей MLP.
Next-ViT следует архитектуре иерархической пирамиды, оснащенной слоем встраивания патчей и рядом блоков свертки или преобразователя на каждом этапе. Пространственное разрешение будет постепенно уменьшаться в 32 раза, а размер канала будет увеличиваться на разных этапах.
Также в работе представлено интересное сравнение различных блоков на основе трансформера и свертки: