腾讯优图斩获ICCV2021 LVIS Challenge Workshop冠军及最佳创新奖

科技爱云资讯 2021-10-24 13:06

近日，在ICCV2021举办的LVIS Challenge Workshop比赛中，腾讯优图实验室荣获冠军，同时被授予该项目的最佳创新奖。LVIS Challenge 2021 是大规模长尾数据的实例分割任务，是本届ICCV的重磅比赛之一，吸引了众多国内外知名企业和高校参加。此次竞赛的核心技术方案也将应用于工业AI质检的场景中，进一步地提高缺陷检测与分割的精准度，用最核心的技术支持产业落地。

LVIS是包含1k+类别的大规模长尾分布数据集，相较于常见的实例分割数据集，LVIS具有更精细的标注和更多的类别，从而其分布更加接近自然场景。据统计，尾部类别的实例数量仅仅占比总实例数量的约0.41%，这对现有的实例分割算法提出了极大的挑战。另外，不同于以往的比赛，本次LVIS比赛采用了Boundary AP替代Mask AP作为评价指标，对分割精度提出了更高的要求。

针对上述挑战，腾讯优图团队提出了平衡分布，优化边缘的实例分割方法，在测试集上取得了48.1%AP的结果。值得一提的是，在本次Workshop会议中，RossGirshick指出优图此次方法的APr与APf的结果非常相近！

具体技术细节如下：

腾讯优图团队将Hybrid Task Cascade（HTC）实例分割算法作为baseline, 采用了表征能力更强的Swin-Transformer作为基础骨干网络，同时，基于CBNetV2，复合链接两个相同的Swin-Transformer网络，作为最终的骨干网络来加强性能。

针对长尾问题，腾讯优图提出了分布平衡模块，包括数据平衡和损失平衡处理，从而提升网络训练过程中对尾部稀有类别实例的关注。其中，数据平衡方法包括RFS, Balanced Copy-Paste和Balanced Mosaic，增加尾部类别数据出现的概率，兼顾了image-level和instance-level的数据平衡性。同时，优图采用了Seesaw Loss，在训练中动态地抑制尾部类别上过量的负样本梯度，并补充对误分类样本的惩罚。

为了更好的优化分割效果，腾讯优图提出了精细分割模块，包含Mask Scoring和RefineMask方法。基于Mask Scoring方法，解耦了分类置信度与实例分割得分，用新的网络分枝学习实例预测的质量，从而避免了分类置信度与分割质量不匹配的问题。针对边缘分割精度优化，腾讯优图采用了RefineMask方法，融合多阶段的细粒度的上采样语义特征，从而产生高质量分割结果。考虑时间和精度的平衡，优图实验室仅将pipeline中最后一个Mask head替换为Refinemask head。由此可见，腾讯优图的方法仍然具有提升的空间。

除此之外，基于腾讯优图对训练过程的观察，创新性地采用了头尾部性能平衡的训练策略，不仅提升了整体的AP结果，更加极大地拉进了尾部与头部类别性能的差距。最终，优图团队以48.1%AP排名第一。

作为腾讯旗下顶尖的人工智能实验室，优图实验室聚焦计算机视觉，专注人脸识别、图像识别、OCR等领域开展技术研发和行业落地，在推动产业数字化升级过程中，始终坚持基础研究、产业落地两条腿走路的发展战略，与腾讯云与智慧产业深度融合，挖掘客户痛点，切实为行业降本增效。未来，腾讯优图实验室也将继续深耕CV技术，并将持续探索更多的应用场景和应用空间，让更多的用户享受到科技带来的红利。