RT-DETR расшифровывается как Real-Time DEtection TRansformer. В свой работе авторы заявляют, что она эффективнее, чем модели YOLO и при этом Читать далее
Сети пространственных преобразований представляют собой обобщение дифференцированного внимания к любому пространственному преобразованию. Сети пространственных преобразований (сокращенно STN) позволяют нейронной сети Читать далее
Что это за модель PicoDet — это модель для слабых вычислительных систем, которая заявляется, как более качественная и быстрая альтернатива Читать далее
Классификация видео является важной задачей, конечным итогом которой является понимание того, что происходит на видеоданных. Здесь https://keras.io/examples/vision/video_classification/ описан простой метод Читать далее
Какое-то время назад на Kaggle проходило соревнование по распознаванию языка жестов: https://www.kaggle.com/competitions/asl-signs Собственно были размеченные данные со скелетом человека, лицом и Читать далее
Слой GeM Pooling и его использование. Материалы: GeM Pooling Explained with PyTorch Implementation and Introduction to Image Retrieval Fine-tuning CNN Читать далее
GitHub: https://github.com/bytedance/Next-ViT Статья: https://arxiv.org/pdf/2207.05501.pdf Основная цель разработки модели Next-ViT — это создание такой модели на основе Трансформера, которая бы превосходила модели CNN. Известно, Читать далее
ConvNeXt V2 — это новое семейство моделей, основанное на полностью свёрточном каркасе автокодировщика с масками (FCMAE) и новом уровне глобальной Читать далее
Введение Yolov5 является одной из самых эффективных решений для детектирования объектов на настоящий момент. Собственно подтверждение этому можно найти на Читать далее
Тут указано, как рассчитывается мера точности IoU. Данная мера точности применяется в задачах детектирования объектов и сегментации. Основным недостатком IoU является Читать далее