目标检测的指标mean average precision(mAP)和多分类的mAP非常相似,本篇博客从多分类的指标计算开始说起,介绍多分类与目标检测mAP计算的异同,通过一些小例子并结合VOC2007和VOC2012的mAP指标计算让读者更容易了解该指标的具体计算过程。
最近由于项目上做到与文本检测相关的应用,因此研究了几篇最新的文本检测文章,本文(TextSnake)是旷视在ECCV2018上的文章,主要提出了一种能够灵活表示任意弯曲形状文字的数据结构——TextSnake,主要思想是使用多个不同大小,带有方向的圆盘(disk)对标注文字进行覆盖,并使用FCN来预测圆盘的中心坐标,大小和方向进而预测出场景中的文字,本文的主要贡献有以下几点:
本篇博客介绍了EAST,一个单阶段场景文本检测模型,其优点有:结构简单,运行速度快,端到端等,是一篇可操作性很强的文章。
最近开始看一些有关视频检测方向的文章,其中比较重要的一篇文章就是Temporal Action Detection with Structured Segment Networks,在这里做一些记录。
论文连接:
之前用了一篇博客详细说明了NMS的原理,Cython版加速实现和CUDA加速版实现,然而NMS还是存在一些问题,本篇博客介绍两种NMS的改进——Soft-NMS和Softer-NMS,提高NMS的性能。
最近在使用Pytorch的时候,在backward函数中报backwrd两次的错误:
RuntimeError: Trying to backward through the graph a second time, but the buffers have already been freed. Specify retain_graph=True when calling backward the first time.
但实际上我只使用了一次backward,在经过一些debug以后总结一下错误导致的原因。