近日,在ICCV2021举办的LVIS Challenge Workshop比赛中,腾讯优图实验室荣获冠军,同时被授予该项目的最佳创新奖。LVIS Challenge 2021 是大规模长尾数据的实例分割任务,是本届ICCV的重磅比赛之一,吸引了众多国内外知名企业和高校参加。此次竞赛的核心技术方案也将应用于工业AI质检的场景中,进一步地提高缺陷检测与分割的精准度,用最核心的技术支持产业落地。
LVIS是包含1k+类别的大规模长尾分布数据集,相较于常见的实例分割数据集,LVIS具有更精细的标注和更多的类别,从而其分布更加接近自然场景。据统计,尾部类别的实例数量仅仅占比总实例数量的约0.41%,这对现有的实例分割算法提出了极大的挑战。另外,不同于以往的比赛,本次LVIS比赛采用了Boundary AP替代Mask AP作为评价指标,对分割精度提出了更高的要求。
针对上述挑战,腾讯优图团队提出了平衡分布,优化边缘的实例分割方法,在测试集上取得了48.1%AP的结果。值得一提的是,在本次Workshop会议中,RossGirshick指出优图此次方法的APr与APf的结果非常相近!
具体技术细节如下:
腾讯优图团队将Hybrid Task Cascade(HTC)实例分割算法作为baseline, 采用了表征能力更强的Swin-Transformer作为基础骨干网络,同时,基于CBNetV2,复合链接两个相同的Swin-Transformer网络,作为最终的骨干网络来加强性能。
针对长尾问题,腾讯优图提出了分布平衡模块,包括数据平衡和损失平衡处理,从而提升网络训练过程中对尾部稀有类别实例的关注。其中,数据平衡方法包括RFS, Balanced Copy-Paste和Balanced Mosaic,增加尾部类别数据出现的概率,兼顾了image-level和instance-level的数据平衡性。同时,优图采用了Seesaw Loss,在训练中动态地抑制尾部类别上过量的负样本梯度,并补充对误分类样本的惩罚。
为了更好的优化分割效果,腾讯优图提出了精细分割模块,包含Mask Scoring和RefineMask方法。基于Mask Scoring方法,解耦了分类置信度与实例分割得分,用新的网络分枝学习实例预测的质量,从而避免了分类置信度与分割质量不匹配的问题。针对边缘分割精度优化,腾讯优图采用了RefineMask方法,融合多阶段的细粒度的上采样语义特征,从而产生高质量分割结果。考虑时间和精度的平衡,优图实验室仅将pipeline中最后一个Mask head替换为Refinemask head。由此可见,腾讯优图的方法仍然具有提升的空间。
除此之外,基于腾讯优图对训练过程的观察,创新性地采用了头尾部性能平衡的训练策略,不仅提升了整体的AP结果,更加极大地拉进了尾部与头部类别性能的差距。最终,优图团队以48.1%AP排名第一。
作为腾讯旗下顶尖的人工智能实验室,优图实验室聚焦计算机视觉,专注人脸识别、图像识别、OCR等领域开展技术研发和行业落地,在推动产业数字化升级过程中,始终坚持基础研究、产业落地两条腿走路的发展战略,与腾讯云与智慧产业深度融合,挖掘客户痛点,切实为行业降本增效。未来,腾讯优图实验室也将继续深耕CV技术,并将持续探索更多的应用场景和应用空间,让更多的用户享受到科技带来的红利。