Keras модели внимания для компьютерного зрения

В репозитории https://github.com/leondgarse/keras_cv_attention_models  представлены модели нейронных сетей на базе внимания (в основном Трансформеры) для задач компьютерного зрения для фреймворка Keras. Репозиторий активно дополняется. На текущий момент список классификационных моделей довольно внушителен:

  • AotNet
  • BEiT
  • BEiTV2
  • BotNet
  • CAFormer
  • CMT
  • CoaT
  • CoAtNet
  • ConvNeXt
  • ConvNeXtV2
  • CoTNet
  • DaViT
  • EdgeNeXt
  • EfficientFormer
  • EfficientFormerV2
  • EfficientNet
  • EfficientNetV2
  • EVA
  • FBNetV3
  • FlexiViT
  • GCViT
  • GhostNet
  • GhostNetV2
  • GMLP
  • GPViT
  • HaloNet
  • HorNet
  • IFormer
  • LCNet
  • LeViT
  • MaxViT
  • MLP mixer
  • MobileNetV3
  • MobileViT
  • MobileViT_V2
  • MogaNet
  • NAT
  • NFNets
  • PVT_V2
  • RegNetY
  • RegNetZ
  • ResMLP
  • ResNeSt
  • ResNetD
  • ResNetQ
  • ResNeXt
  • SwinTransformerV2
  • TinyNet
  • TinyViT
  • UniFormer
  • VOLO
  • WaveMLP

Модели детектирования:

Установка и использование моделей довольно просты. Также представлен порядок действий для тренировки моделей на основе ImageNet.

2023-02-06_16-15-06

В модуле представлены средства визуализации, позволяющие визуализировать convnet фильтры и карты внимания:

148199374-4944800e-a1fb-4df2-b9ba-43ce3dde88f2

В том числе по слоям:

2023-02-06_16-18-18

Есть возможность конвертации для устройств - TFLite. А также использование в качестве бакенда PyTorch.