首页 > 科技 > 正文
Qzone
微博
微信

从AI Infra到Agentic Infra!华为云极致重构AI算力底座

科技 TOM    2026-06-07 15:47

6月5日,2026华为云INSPIRE创想者大会Agentic Infra云基础设施技术论坛在上海圆满落幕。此次论坛以“进化,从AI Infra到Agentic Infra”为主题,汇聚顶尖技术专家、行业精英与生态伙伴,共同探讨Agentic时代AI基础设施的架构设计、技术创新与演进方向。

会上,华为云重磅解读“Agentic Infra”技术新范式——“Agentic计算机”,以四大突破极致重构AI算力底座,为中国企业Agent创新发展持续注入强劲动能!

 

云计算跨入Token工业时代,基础设施面临范式跃迁

从AI Infra到Agentic Infra!华为云极致重构AI算力底座

华为云基础设施云服务产品线总裁 鲍亮

“Agentic AI时代正在引发计算范式的一系列根本性跃迁。”华为云基础设施云服务产品线总裁鲍亮在致辞中表示,云计算已跨入Token工业时代。

因此,华为云提出Agentic Infra新范式,核心是构建“高效Token工厂+通智一体化调度+持续学习+安全自治”四大能力,具体通过灵衢智算集群AICS打造极致效能Token工厂、以存代算提供PB级记忆空间打破Agent记忆瓶颈、AgentSphere提供高性能安全部署运行时、以及Volcano实现通智一体化调度,通过持续做强根技术,与AI智能化的技术深度融合,为千行百业提供最优的Agentic基础设施底座!

 

软硬芯深度协同,华为云重磅解读“Agentic计算机”

从AI Infra到Agentic Infra!华为云极致重构AI算力底座

华为公司Fellow、云系统首席专家 余洲

“在Agent时代,云基础设施就是‘Agentic计算机’”华为公司Fellow、云系统首席专家余洲指出,“Agentic计算机”与传统云基础设施相比,其核心变化在于服务对象从人转向AI、面向每天万亿级Token的处理进行整体优化等方面。

为此,华为云基于软硬芯协同,以“Agentic计算机”为核心概念,构建了高效的AgenticInfra,并实现四大突破。

一是灵衢网络实现多资源一体化,把分散在数百个机柜中的CPU、NPU、SSD和内存互联起来,使它们能够像同一台计算机里的设备一样协同工作;

二是超节点规模和带宽持续演进。基于昇腾950,华为云发布1024卡的灵衢智能计算集群(AICS),让算力提升2.6倍;基于灵衢总线和弹性统一内存池,突破了大模型推理的内存墙瓶颈,更灵活地支持万亿参数模型训推;

三是推出记忆存储解决方案AMS。依托NPU直通CMS硬件(上下文记忆存储),为Agent提供PB级超大记忆空间,支持KV Cache分层池化,将缓存命中率提升至95%,成本节省高达63%。

最后是提供高性能极简网络,实现算力资源和网络IO资源的灵活配比,以及多网合一。

基于以上四大核心突破,Agentic计算机能够充分满足更高的推理效率、更长的序列和更快的推理速度的需求。

从AI Infra到Agentic Infra!华为云极致重构AI算力底座

华为公司Fellow、华为云服务首席架构师顾炯炯

华为公司Fellow、华为云服务首席架构师顾炯炯指出,Agentic AI云基础设施面临小模型单卡吃不满、大模型推理PD分离资源偏科、潮汐效应等因素导致的算力资源利用率低、万卡训练集群故障爆炸半径大等核心困境,传统软硬耦合架构已无法应对。

华为云为此推出FlexNPU柔性液态算力创新架构,在业界主流训练和推理框架与昇腾NPU硬件算力层之间引入一层“软件定义调度与虚拟化”软件,实现了多模型及PD推理共卡的算子级的细粒度时空复用,硬件故障隔离以及基于透明快照的极速Serverless弹性,FlexNPU由此带来三重突破:更高效,更敏捷,零宕机,能够大幅降低大模型推理单位Token小模型算力性价比,同时将节点级弹性及硬件故障恢复时间从分钟级降至秒级,从而让用户的每一分算力投入物尽其用,让每一笔Token的支出,不再为空闲算力买单。

 

面向Agent时代 通智融合增强智能基础设施

从AI Infra到Agentic Infra!华为云极致重构AI算力底座

云原生计算基金会(CNCF)中国区总监 陈泽辉

云原生计算基金会(CNCF)中国区总监陈泽辉现场分享了一个趋势:CNCF技术栈从云原生平台底座,到今天作为Agentic时代的引擎发展迅速。Kubernetes已经成为标准的AI操作系统,82%的受访企业在生产环境中使用K8s。目前企业优先部署Agentic AI的比例高达74%。从云原生到AI Native,再到现在的Agentic Infra,以Volcano为代表的调度编排成为决胜关键——Agentic不再是工具,而是真正的资源概念。

从AI Infra到Agentic Infra!华为云极致重构AI算力底座

CNCF TOC副主席、华为云云原生开源负责人 王泽锋

CNCF TOC副主席、华为云云原生开源负责人王泽锋表示,Volcano从设计之初就针对训练和推理的工作负载做深层次优化,现在演进到全新的多调度器免锁并行架构:面向Agentic工作负载,采用极简的沙箱调度策略,调度耗时相比原来下降99%;而传统训推工作负载保持采用批量调度策略,在与Agentic调度一致无冲突情况下,仍可获得最优调度结果。

在运行时层面,AgentCube+ Kuasar的组合实现了端到端冷启动控制在50毫秒以内的突破。此外,Kthena引入更多智能化算法做路由感知,相关能力将在630版本发布,并在Kthena1.0版本达到正式可商用级别。

 

产学研用深度融合 共筑国产Agent基础设施护城河

先进架构还需在真实业务场景千锤百炼。论坛现场,行业领军代表分享了与华为云合作的实战成果。

从AI Infra到Agentic Infra!华为云极致重构AI算力底座

香港科技大学助理教授、AReaL开源社区负责人 袁彬航

香港科技大学助理教授、AReaL开源社区负责人袁彬航分享了基于AReaL构建asearcher,训练能够自动使用搜索引擎、通过多轮迭代回答问题的智能体。

AReaL不仅在华为云上完成适配,华为云还帮助其在NPU上适配算子和参数传输模块,并完善两个在云原生场景、真实多任务RL训练中非常重要的功能——On-policy蒸馏进最终交付版本以及LoRA适配。未来AReaL2.0将面向智能体开发,提供自适应的演化基座,实现智能体轨迹数据协议、数据代理和动态进化RL模块的完整支持。

从AI Infra到Agentic Infra!华为云极致重构AI算力底座

小红书大模型基建部RL引擎负责人 杨睿

在互联网应用侧,小红书大模型基建部RL引擎负责人杨睿介绍了小红书内部的全异步框架Relax。

这是基于全模态统一、生产级框架等三大支柱设计,并通过华为云完成昇腾生态的适配;通过Transfer Queue实现训推解耦,分布式Checkpoint服务保证权重同步耗时占比在5%以内,同时针对多模态训练优化了图片计算复用与混合并行策略。目前,Relax在多模态、全异步实践、Hybrid 混合部署以及Agentic RL上已经深度沉淀,未来还将支持潮汐资源下的弹性扩缩。

从AI Infra到Agentic Infra!华为云极致重构AI算力底座

面壁智能端侧智能业务总经理周树峰

针对端侧部署的需求,面壁智能端侧智能业务总经理周树峰表示,面壁智能从两年前转向端侧和边缘侧,探索在相对小的参数量级上实现对标大尺寸模型的能力,核心是提升智能密度、降低训练与推理开销。

2024年9月,面壁智能4B模型已达到3.5水平,随后发布的1.3B超小尺寸模型更是越级挑战。今年,面壁智能将三值量化技术搬到华为昇腾卡上完成训练和推理验证,使模型在保持精度的同时大幅提升速度,已应用于手机、汽车等行业。

从AI Infra到Agentic Infra!华为云极致重构AI算力底座

芒果AIGC创新制作中心主任 李俊俊

在行业应用领域,芒果TV AI产业化中心和智能研究中心副总经理 李俊俊介绍,AI在内容制作上经历了三个阶段:从辅助决策到与创作者实时共创,再到AI成为基础设施。目前,芒果TV推出芒果灵创AIGC创作平台,聚合全域模型,主打可控生成,其中视频模型在进行昇腾适配,它不是抽卡式的生成,而是从内容土壤里长出来的、支持团队协作与成本可控的开放生态,让AI从功能变成了伙伴。

面对Agentic时代万亿Token级的复杂任务,传统“堆卡”模式已成过去,取而代之的是一台以Token为粒度、以AI操作为对象、通智融合的“超级计算机”。

未来,华为云将致力于把“AgenticInfra”打造为中国AI产业的自主引擎,让智能体真正跑在坚实、高效的国产底座之上,共同开启智能时代的无限可能。

 

责任编辑: WY-BD

责任编辑: WY-BD
人家也是有底线的啦~
广告
Copyright © 2018 TOM.COM Corporation, All Rights Reserved 新飞网版权所有