Keras модели внимания для компьютерного зрения
В репозитории https://github.com/leondgarse/keras_cv_attention_models представлены модели нейронных сетей на базе внимания (в основном Трансформеры) для задач компьютерного зрения для фреймворка Keras. Репозиторий активно дополняется. На текущий момент список классификационных моделей довольно внушителен:
- AotNet
- BEiT
- BEiTV2
- BotNet
- CAFormer
- CMT
- CoaT
- CoAtNet
- ConvNeXt
- ConvNeXtV2
- CoTNet
- DaViT
- EdgeNeXt
- EfficientFormer
- EfficientFormerV2
- EfficientNet
- EfficientNetV2
- EVA
- FBNetV3
- FlexiViT
- GCViT
- GhostNet
- GhostNetV2
- GMLP
- GPViT
- HaloNet
- HorNet
- IFormer
- LCNet
- LeViT
- MaxViT
- MLP mixer
- MobileNetV3
- MobileViT
- MobileViT_V2
- MogaNet
- NAT
- NFNets
- PVT_V2
- RegNetY
- RegNetZ
- ResMLP
- ResNeSt
- ResNetD
- ResNetQ
- ResNeXt
- SwinTransformerV2
- TinyNet
- TinyViT
- UniFormer
- VOLO
- WaveMLP
Модели детектирования:
Установка и использование моделей довольно просты. Также представлен порядок действий для тренировки моделей на основе ImageNet.
В модуле представлены средства визуализации, позволяющие визуализировать convnet фильтры и карты внимания:
В том числе по слоям:
Есть возможность конвертации для устройств - TFLite. А также использование в качестве бакенда PyTorch.