首页 > 科技 > 正文
Qzone
微博
微信

商汤日日新大模型或迎来升级,支持超长文本处理

科技 三易生活网 2024-06-02 10:00

日前有消息源透露,商汤日日新大模型近期将迎来重大升级。据悉此次升级将提升该模型的长文本处理能力,届时其有望支持超过100万字的超长文本处理,并能够一次性解析多达50个文件的问题。

但截至目前,商汤方面尚未对此进行回应。

据了解,自今年以来长文本处理能力已成为大模型的重点升级方向,此前月之暗面、阿里巴巴、百度、腾讯、360等相关企业均已升级了旗下大模型的长文本处理能力。其中月之暗面就已宣布,得益于其在大模型长上下文窗口技术上取得新的突破,目前旗下智能助手产品Kimi已支持200万字无损上下文输入。

公开资料显示,自2022年4月首度发布至今,商汤日日新大模型体系已完成五次重要迭代。并且就在日前,商汤方面正式发布了日日新大模型5.0粤语版,定价为30港元1M tokens(输入和输出同价)。

据悉,商汤日日新5.0基于超过10TB tokens的庞大训练数据和大量合成数据,采用混合专家架构,使得其推理时上下文窗口可达约200K,进一步拓宽了模型的理解和处理边界。据国内权威大模型测评机构SuperCLUE于5月21日正式发布的商汤日日新5.0中文基准测评结果显示,该模型以总分80.03分的优异成绩刷新国内最好成绩,并且在中文综合成绩上超越GPT-4-Turbo-0125。据悉,这也是国内大模型首次在SuperCLUE中文基准测试中超越GPT-4 Turbo,并实现登顶。

对此商汤科技董事长兼首席执行官徐立曾表示,在AI发展的最基本法则尺度定律(Scaling Law)的准则下,商汤将持续探索大模型能力的KRE三层架构(知识-推理-执行),不断突破大模型能力边界,为行业伙伴提供大模型训练、微调、部署和各类生成式AI的能力及服务。

目前,商汤方面已发布行业首个“云、端、边”全栈大模型产品矩阵,包括应用于终端设备的“商汤端侧大模型”,以及面向金融、代码、医疗、政务等多个领域的边缘产品“商汤企业级大模型一体机”等,以满足不同规模场景的应用需求。其中以商汤端侧大模型为例,其可满足各类终端用户对大模型技术的应用需求,推理速度在中端平台可实现18.3字/s的平均生成速度,在旗舰平台则可达78.3字/s。

【以上内容转自“三易生活网”,不代表本网站观点。如需转载请取得三易生活网许可,如有侵权请联系删除。】

 

延伸阅读:

 

责任编辑: 吉熟

责任编辑: 吉熟
人家也是有底线的啦~
广告
Copyright © 2018 TOM.COM Corporation, All Rights Reserved 雷霆万钧版权声明
违法信息/未成年人举报:010-85181169     举报邮箱/未成年人举报:jubao@tomonline-inc.com