RTMDet — является современной моделью компьютерного зрения, которую можно применять для детектирования объектов (Rect и RotatedRect) и сегментации. Реализация пока Читать далее
Современные технологии компьютерного зрения и генерации изображений позволяют обычному пользователю (немного разбирающемуся как использовать Google colab) заменять части объектов на Читать далее
Классификация видео является важной задачей, конечным итогом которой является понимание того, что происходит на видеоданных. Здесь https://keras.io/examples/vision/video_classification/ описан простой метод Читать далее
Какое-то время назад на Kaggle проходило соревнование по распознаванию языка жестов: https://www.kaggle.com/competitions/asl-signs Собственно были размеченные данные со скелетом человека, лицом и Читать далее
Для сходимости к лучшему результату при обучении одним из ключевых параметров является learning_rate, который говорит оптимизатору на каждом шаге сдвинутся на Читать далее
Слой GeM Pooling и его использование. Материалы: GeM Pooling Explained with PyTorch Implementation and Introduction to Image Retrieval Fine-tuning CNN Читать далее
В репозитории https://github.com/leondgarse/keras_cv_attention_models представлены модели нейронных сетей на базе внимания (в основном Трансформеры) для задач компьютерного зрения для фреймворка Keras. Репозиторий Читать далее
GitHub: https://github.com/bytedance/Next-ViT Статья: https://arxiv.org/pdf/2207.05501.pdf Основная цель разработки модели Next-ViT — это создание такой модели на основе Трансформера, которая бы превосходила модели CNN. Известно, Читать далее
ConvNeXt V2 — это новое семейство моделей, основанное на полностью свёрточном каркасе автокодировщика с масками (FCMAE) и новом уровне глобальной Читать далее
Нарезка — это расширение синтаксиса индексации с использованием квадратных скобок. Она широко используется для доступа к диапазонам (интервалам) элементов. Простой Читать далее