首页 > 科技 > 正文
Qzone
微博
微信

微软方面宣布,开源视觉基础模型Florence-2

科技 三易生活网 2024-06-26 09:07

继此前在2023年11月发布视觉基础模型Florence-2后,日前微软方面宣布正式对该模型进行开源。目前该模型的所有权重代码已经公布在开源平台Hugging Face上,并在MIT许可下开放使用,这意味着开发者可自由地分发、修改和使用该模型,无论用于商业、还是私人用途。

据了解,Florence-2支持各种视觉分析应用,能够根据提示,完成字幕、对象检测、分割等各种计算机视觉和语言的任务。Figure首席执行官将其称之为,“计算机视觉领域的重大突破”。

具体而言,Florence-2采用了序列到序列架构,并集成图像编码器和多模态编码器。这种设计使得其适用于各种视觉任务,无需对特定任务的架构进行修改,符合NLP界以一致的底层结构进行多功能模型开发的理念。

同时为了训练Florence-2,微软方面还创建了全新的多任务图像数据集FLD-5B。据了解,这一数据集中包含了1.26亿张图像、5亿个文本标注、13亿个文本-图像区域标注,以及36亿个文本短语-图像区域标注,跨横跨了不同的任务。FLD-5B中的每一张图像都由Florence数据引擎标注了文本、图像区域-文本对以及文本短语-图像区域三元组,涵盖了多个空间层次、从概括到详细的渐进粒度,以及多语义,让模型从不同角度实现了更全面的视觉理解能力。

性能表现方面,在零样本多任务评估中,对于图像级任务,Florence-2-L在COCO字幕基准测试中获得了135.6 CIDEr分数,而且参数量仅为Flamingo模型(800亿参数)的1%左右。对于区域级的groundng和指代表达理解任务,Florence-2-L则刷新了SOTA的成绩。在Flickr30k Recall@1上,它比16亿参数的Kosmos-2模型提高了5.7,在Refcoco、Refcoco+和Refcocog上分别比其提高了约4%、8%和8%的绝对值。

【以上内容转自“三易生活网”,不代表本网站观点。如需转载请取得三易生活网许可,如有侵权请联系删除。】

 

延伸阅读:

 

责任编辑: cxr4186

责任编辑: cxr4186
人家也是有底线的啦~
广告
Copyright © 2018 TOM.COM Corporation, All Rights Reserved 雷霆万钧版权声明
违法信息/未成年人举报:010-85181169     举报邮箱/未成年人举报:jubao@tomonline-inc.com