微软方面宣布，开源视觉基础模型Florence-2

科技三易生活网 2024-06-26 09:07

继此前在2023年11月发布视觉基础模型Florence-2后，日前微软方面宣布正式对该模型进行开源。目前该模型的所有权重代码已经公布在开源平台Hugging Face上，并在MIT许可下开放使用，这意味着开发者可自由地分发、修改和使用该模型，无论用于商业、还是私人用途。

据了解，Florence-2支持各种视觉分析应用，能够根据提示，完成字幕、对象检测、分割等各种计算机视觉和语言的任务。Figure首席执行官将其称之为，“计算机视觉领域的重大突破”。

具体而言，Florence-2采用了序列到序列架构，并集成图像编码器和多模态编码器。这种设计使得其适用于各种视觉任务，无需对特定任务的架构进行修改，符合NLP界以一致的底层结构进行多功能模型开发的理念。

同时为了训练Florence-2，微软方面还创建了全新的多任务图像数据集FLD-5B。据了解，这一数据集中包含了1.26亿张图像、5亿个文本标注、13亿个文本-图像区域标注，以及36亿个文本短语-图像区域标注，跨横跨了不同的任务。FLD-5B中的每一张图像都由Florence数据引擎标注了文本、图像区域-文本对以及文本短语-图像区域三元组，涵盖了多个空间层次、从概括到详细的渐进粒度，以及多语义，让模型从不同角度实现了更全面的视觉理解能力。

性能表现方面，在零样本多任务评估中，对于图像级任务，Florence-2-L在COCO字幕基准测试中获得了135.6 CIDEr分数，而且参数量仅为Flamingo模型（800亿参数）的1%左右。对于区域级的groundng和指代表达理解任务，Florence-2-L则刷新了SOTA的成绩。在Flickr30k Recall@1上，它比16亿参数的Kosmos-2模型提高了5.7，在Refcoco、Refcoco+和Refcocog上分别比其提高了约4%、8%和8%的绝对值。

【以上内容转自“三易生活网”，不代表本网站观点。如需转载请取得三易生活网许可，如有侵权请联系删除。】