Ансамбли в детектировании объектов

Детектирование объектов на изображениях уже стало классической задачей распознавания образов. Метриками качества в подобных задачах являются IoU, map, F1,F2 и другие. Для повышения качества часто используются несколько моделей, объединяя их в так называемые ансамбли. Основной проблемой ансамблей является объединение результатов для детектированного одного объекта:

2021-12-20_17-18-23

Где красным показано истинное расположение объекта, а синим - прогнозы разных моделей. 

Существуют несколько известных методов объединения результатов:

  • NMS (non-maximum suppression) [A Neubeck and L Van Gool. Efficient non-maximum suppression. In Proceedings of the International Conference on Pattern Recognition, volume 3, page 850–855, 2006.]
  • soft-NMS [Navaneeth Bodla, Bharat Singh, Rama Chellappa, and Larry S Davis. Soft-nms–improving object detection with one line of code. In Proceedings of the IEEE international conference on computer vision, pages 5561–5569, 2017.]
  • NMW (non-maximum weighted) [Huajun Zhou, Zechao Li, Chengcheng Ning, and Jinhui Tang. Cad: Scale invariant framework for real-time object detection. In Proceedings of the IEEE International Conference on Computer Vision, pages 760–768, 2017.]
  • WBF (Weighted boxes fusion) https://arxiv.org/pdf/1910.13302.pdf

NMS сортирует все области  по их доверительной вероятности. Затем выбирается область с максимальной оценкой достоверности. В то же время все другие области, которые значительно перекрывают эту область, отфильтровываются. NMS полагается на жестко запрограммированный порог для отбрасывания избыточных прямоугольников. Некоторые недавние работы использовали дифференцируемую модель для изучения NMS и представили soft-NMS  для улучшения производительности фильтрации. 

Методы NMW и WBF работают с IoU более сложным образом, о котором вы можете прочитать в приведенной выше работе. Основным отличием является получение конечного результата:

2021-12-20_17-35-28

Следующая библиотека представляет реализацию всех четырех методов:

https://github.com/ZFTurbo/Weighted-Boxes-Fusion

Там же можно увидеть сравнение методов для ансамбля из 5 моделей:

2021-12-20_17-38-23