开云kaiyun体育UB 八成:高效齐全细粒度并行政策-反波胆足球平台app

(原标题:华为CloudMatrix384超节点:官方撰文深度解读)开云kaiyun体育
公众号铭刻加星标??,第一时分看推送不会错过。
在本年四月举办的的华为云生态大会2025上,华为晓示推出CloudMatrix 384超节点。据华为先容,面向AI时期的海量算力需求,华为云基于“一切可池化、一切齐平等、一切可组合”的新式高速互联总线推出CloudMatrix 384超节点,齐全从做事器级到矩阵级的资源供给方法曲折。
CloudMatrix 384具备“高密”“高速”“高效”的特质,通过全面的架构更动,在算力、互联带宽、内存带宽等方面齐全全面率先。
近日,华为团队和硅基流动合著了一篇题为《Serving Large Language Models on Huawei CloudMatrix384》的著述。先容了华为 CloudMatrix。(原文贯串:https://arxiv.org/pdf/2506.12708)
按照他们在著述中所说,这是新一代 AI 数据中心架构,体现了华为重塑 AI 基础设施基础架构的愿景。华为 CloudMatrix384 代表了这一愿景的首个坐褥级齐全。它将 384 个昇腾 910C NPU、192 个鲲鹏 CPU 以过火他硬件组件集成到一个和洽的超等节点中,并通过超高带宽、低延长的和洽总线 (UB) 网罗互连。
与传统的分层设计不同,该架构通过 UB 齐全了成功的全节点通讯,从而允许筹画、内存和网罗资源动态池化、和洽拜谒和闲散推广。这些架构脾气尤其有意于通讯密集型操作,举例大范畴 MoE 众人并行和漫步式键值 (KV) 缓存拜谒,从而使 CloudMatrix384 成为下一代 LLM 做事的可推广高性能基础。
底下,咱们节选著述的要道内容翻译,以供大家参考。
华为CloudMatrix先容
为了搪塞 AI 责任负载中这些新兴挑战,华为提倡了 CloudMatrix,这是新一代 AI 数据中心架构,旨在重塑 AI 基础设施的基础。该架构愿景的中枢在于构建一个和洽、紧耦合的筹画结构,以高效接济当代 AI 应用的范畴化、异构性和通讯需求。CloudMatrix384 代表了该愿景的首个坐褥级齐全,提供了一个专为大范畴 AI 责任负载优化的专用平台。
CloudMatrix的愿景
为搪塞当代大范畴AI责任负载日益增长的需求,华为推出了CloudMatrix——一种首创性的下一代AI数据中心架构。该架构尽心设计,经受十足点对点高带宽互联和细粒度资源判辨的原则。如图1所示,CloudMatrix碎裂了传统的以CPU为中心的层级设计,接济整个异构系统组件(包括NPU、CPU、DRAM、SSD、NIC和特定领域加快器)之间的成功高性能通讯,尤其无需CPU中介。
该架构的中枢是超高带宽、低延长的和洽总线 (UB) 网罗,它促进了高效的全系统数据传输和协作。基于此基础,CloudMatrix提供了四项基础功能,共同界说了AI原生基础设施的新范式:
(1) 面向TP/EP的可推广通讯。 UB 互连接济跨 NPU 的成功高微辞量点对点通讯,使 TP 和 EP 组八成超越单个节点的范畴进行推广。这摈斥了节点间的瓶颈,并允许大型模子在超等节点之间高效漫步。
(2) 纯真实异构责任负载资源组合。CloudMatrix 将 CPU、NPU 和内存判辨为闲散的池化资源,从而齐全细粒度的、责任负载驱动的资源组合。这种纯真性允许凭证责任负载需求(举例,内存丰富的缓存节点、CPU 密集型的预处理节点)进行细粒度的资源分拨,从而将部署从固定节点配置或基于 PCIe 的主机建造耦合中自在出来。
(3) 和洽的交融责任负载基础架构。高带宽 UB 网罗在单一可推广的基础架构中同期接济 AI 和数据密集型应用。这使得LLM推理、检会、仿真和分析责任负载的交融实行成为可能,而这恰是混杂AI活水线日益开阔的需求。
(4) 通过判辨式内存池齐全内存级存储。CloudMatrix将集群中勾通到CPU的DRAM团员到一个可通过UB拜谒的分享高性能内存池中。该底层接济弹性内存做事 (EMS) 等做事,该做事通过摈斥传统的I/O瓶颈,加快了诸如键值缓存重用、参数加载和模子查验点等延长要道型操作。
CloudMatrix384 笼统:十足点对点硬件架构
CloudMatrix384 被设计为一个 AI 超等节点,集成了 384 个昇腾 910C 神经网罗处理单位 (NPU) 和 192 个鲲鹏中央处理器 (CPU),如图 2 所示。CloudMatrix384 的一个显赫特质是其点对点、十足互联的超高带宽网罗,该网罗通过 UB 条约勾通整个 NPU 和 CPU。CloudMatrix384 的 UB 设计是UB-Mesh 的递归。384 个 NPU 和 192 个 CPU 均通过 UB 交换机勾通,使节点间通讯性能接近节点内通讯性能。如表 1 所示,节点间带宽衰减低于 3%,节点间延长增多低于 1 μs。鉴于当代 AI 责任负载主要依赖带宽而非延长,这种边缘延长支出对 AI 任务的端到端性能的影响聊胜于无。总体而言,这种设计使 CloudMatrix384 八成充任一个细密耦合的大范畴逻辑节点,领有全局可寻址的筹画和内存智商,从而促进和洽的资源池化和高效的责任负载编排。
为了接济千般化的流量方法并保合手与传统数据中心网罗的兼容性,CloudMatrix384 集成了三个稀少但互补的网罗平面:
(1)UB 平面:UB 平面组成超等节点内主要的超高带宽纵向推广架构。它以无窒碍的全对全拓扑结组成功勾通整个 384 个 NPU 和 192 个 CPU。每台 Ascend 910C 提供超越 392GB/s 的单向带宽。UB 八成:
高效齐全细粒度并行政策,举例 TP 和 EP,不受节点范畴的限度;
快速点对点拜谒池化内存(越过 CPU 和 NPU 内存),这关于高效缓存模子权重和键值缓存至关遑急。
(2)RDMA 平面:RDMA 平面接济跨 CloudMatrix384 个超等节点和外部 RDMA 兼容系统的横向推广通讯。它当今经受交融以太网 RDMA (RoCE) 技能,以确保与圭臬 RDMA 堆栈兼容。每个 NPU 孝顺高达 400Gbps 的单向 RDMA 带宽。NPU 是该平面的唯独参与者,将 RDMA 流量与贬抑和存储操作阻难。要道功能包括:
在推理过程中,预填充妥协码 NPU 之间高速传输活动键值缓存数据;
接济使用合适 RDMA 圭臬的框架进行漫步式检会和推理;
在多集群部署中齐全跨超等节点的低延长互连
(3)VPC 平面:捏造稀少云 (VPC:virtual private cloud) 平面通过高速网卡(华为擎天卡)将 CloudMatrix384 超等节点勾通到更粗造的数据中心网罗,每个节点可提供高达 400Gbps 的单向带宽。它基于圭臬以太网和 IP 条约运行,并可选配 UB-over-Ethernet (UBoE) 条约。VPC 平面线路处理:
经管和贬抑平面操作,举例部署、监控和调遣;
拜谒合手久化存储,包括对象存储做事 (OBS)、弹性卷做事 (EVS) 和可推广文献系统做事 (SFS);
来自 CPU 驻留责任负载(举例数据库和用户界面)的外部做事通讯。
尽管 CloudMatrix 的持久愿景是将 RDMA 和 VPC 平面交融为一个和洽的平面(如图 1 所示),但现时的 CloudMatrix384 将它们分开,以确保与传统数据中心基础设施的向后兼容性。
硬件组件
一、Ascend 910C 芯片
CloudMatrix 384 的中枢是海念念 Ascend 910C NPU,这是华为面2024 年推出的旗舰 AI 加快器,它将接替原版 Ascend 910B。910C 经受双芯片封装:两个同样的筹画芯片共封装,分享八个封装内存储器堆栈,并通过高带宽跨芯片结构勾通,如图 3 所示。
筹画:每个芯片可守护约 376 TFLOPS 的密集 BF16/FP16 微辞量,每个封装总微辞量可达 752 TFLOPS。每个芯片包含 24 个针对矩阵和卷积责任负载优化的 AI 立方体 (AIC:AI cube) 中枢,以及 48 个用于元素级运算的 AI 矢量 (AIV:AI vector) 中枢。整个筹画引擎均接济 FP16/BF16 和 INT8 数据类型。 8 位量化不错以 INT8 精度齐全,从而齐全与原生 FP8 硬件绝顶的筹画效果,而无需专用 FP8 接济。两个芯片通过封装内互连进行通讯,总带宽高达 540 GB/s,单向带宽 270 GB/s。
内存:Ascend 910C 封装集成了八个内存堆栈(每个 16 GB),共提供 128GB 封装内内存(每个芯片 64GB)。该封装可提供高达 3.2 TB/s 的总内存带宽,每个芯片可用带宽为 1.6 TB/s。
网罗接口:每个 Ascend 910C 芯片与两个不同的网罗平面接口。
UB 平面:该芯片集成七个高速收发器,每个收发器的责任速度为 224Gbps,为横向推广的 UB 平面提供共计 196GB/s 单向(或 392GB/s 双向)带宽。
RDMA 平面:每个芯片都包含一个专用接口,为横向推广的 RDMA 平面提供高达 200Gbps 的单向带宽。
二、Ascend 910C 节点
CloudMatrix384 中的每个筹画节点都集成了 8 个 Ascend 910C NPU、4 个鲲鹏 CPU 和 7 个板载 UB 交换芯片,如图 4 所示。12 个处理器(8 个 NPU 和 4 个 CPU)通过 UB 链路勾通到这些板载交换机,在节点内创建单层 UB 平面。每个 NPU 都配置了高达 392GB/s 的单向 UB 带宽,而每个鲲鹏 CPU 插槽则赢得约 160GB/s 的单向 UB 带宽。单个板载 UB 交换芯片为超等节点结构中的下一层交换层提供 448GB/s 的上行链路容量。
只好 NPU 参与辅助 RDMA 平面。每个 NPU 建造额外孝顺一条 400Gbps 单向链路,用于横向推广 RDMA 流量,使每个节点的 RDMA 带宽共计达到 3.2 Tbps。
在 CPU 集群内,四个鲲鹏 CPU 插槽通过全网状 NUMA 拓扑互连,从而齐全整个勾通 CPU 的 DRAM 的和洽内存拜谒。其中一个 CPU 承载着节点的擎天卡,这是一个专用的数据处理单位 (DPU),不仅集成了高速网罗接口,还实行遑急的节点级资源经管功能。该擎天卡看成节点的主要南北向出口点,与第三个不同的网罗平面(数据中心的 VPC 平面)勾通。
三、UB 交换机系统
CloudMatrix384 超等节点横跨 16 个机架:12 个筹画机架,共承载 48 个 Ascend 910C 节点(共 384 个 NPU),以及 4 个通讯机架。这些通讯机架容纳第二层 (L2) UB 交换机,用于勾通超等节点内的整个节点。
图 5 展示了板载第一层 (L1) UB 交换机(位于每个 Ascend 910C 节点里面)和机架级 L2 UB 交换机之间的拓扑结构。该网罗设计为无窒碍,这意味着 L2 交换层不存在带宽逾额认购。L2 交换机被分辨为 7 个闲散的子平面。每个子平面包含 16 个 L2 UB 交换芯片,每个 L2 交换芯片提供 48 个 28 GB/s 端口。
在每个节点里面,7 个板载 L1 UB 交换芯片与这 7 个 L2 子平面逐一双应。每个 L1 交换芯片扇出 16 条链路(每个链路与其对应子平面中的每个 L2 交换芯片继续)。此配置可确保节点到 L2 交换矩阵的团员上行链路带宽与其里面 UB 容量精准匹配,从而在整个这个词超等节点中保合手无窒碍脾气。
软件栈
一、用于昇腾NPU的CANN
华为为昇腾NPU开辟了全面的软件生态系统,称为神经网罗筹画架构(CANN:compute architecture for neural networks)。CANN充任中间软件层,齐全高档AI框架(如PyTorch 和TensorFlow )与昇腾NPU的初级硬件接口之间的高效集成。通过将这些框架生成的抽象筹绘图转变为优化的硬件可实行教导,CANN简化了开辟东说念主员与昇腾硬件的交互,促进了软硬件协同设计,并旨在最大规矩地提高昇腾架构上应用法子的性能。
CANN架构。CANN软件堆栈(图6)由三个主要层组成:驱动法子、运行时和库,其架构访佛于NVIDIA的CUDA生态系统。
(1)驱动层:Ascend NPU 驱动法子位于底层,由内核模块和固件组成,充任操作系统与 Ascend NPU 之间的初级接口。它经管必要的硬件交互,包括建造启动化、资源分拨(内存、数据流)、呐喊调遣以及 NPU 间通讯成就。
(2)运行时层:CANN Runtime 是 Ascend NPU 上应用法子的中枢实行引擎。它线路监督应用法子的人命周期,协作模子筹画,并为模子和算子提供全面的建造贬抑、内存经管和实行经管。这些功能主要通过 Ascend 筹画说话 (ACL) API 拜谒。
(3)库层:该层提供一套高度优化的软件组件,用于加快千般 AI 责任负载。要道要素包括领域特定加快库 (AOL)、用于漫步式任务的华为集体通讯库 (HCCL)、包含预优化内核的推广算子包 (OPP),以及用于神经网罗加快 (NNAE) 和离线推理 (NNRT) 的引擎。接济自界说算子开辟(举例通过 Ascend C 说话开辟)以及与第三方库集成,以进一步增强其功能。
除了中枢层以外,图引擎 (GE) 还能编译和优化来自 PyTorch、TensorFlow 和 MindSpore 28 等框架的筹绘图。它通过应用算子交融、内存权术、动态时局处理和调遣等全图优化,勾通高档模子和初级实行。这些优化镌汰了支出,并提高了 Ascend NPU 的实行效果。
框架集成:CANN 粗造接济主流 AI 框架,显赫镌汰了现存和新 AI 名堂经受昇腾 NPU 的门槛:
PyTorch:通过 PyTorch 昇腾 NPU 适配器 (torch_npu) ,开辟者不错在现存的 PyTorch 责任经由中无缝讹诈昇腾 NPU 加快。华为提供预构建的 Python Wheel 包,装配通俗,API 兼容性和最好现实详细文档,以及简化的 CUDA 代码挪动到 CANN 的器用或指南。
TensorFlow:CANN 的 TF_Adapter将昇腾 NPU 加快功能成功集成到 TensorFlow 框架中,使基于 TensorFlow 的 AI 名堂八成以少量的代码修改即可赢得高性能和方便的部署。
ONNX:华为为 ONNX 运行时提供专用的 CANN 实行提供法子。这使得以洞开神经网罗交换 (ONNX) 面孔 42 导出的模子八成高效实行,从而促进粗造的模子兼容性,并简化了在包含昇腾 NPU 的异构硬件环境中的部署。
MindSpore:MindSpore 由华为里面开辟,提供与昇腾硬件的原生且高度优化的集成。该框架旨在在华为的 AI 生态系统中提供潜在的不凡性能和易用性,提供细密耦合的软硬件治理决策。
一言以蔽之,CANN 提供了一个垂直集成的软件堆栈,包括驱动法子、运行时和库,可与 NVIDIA 的 CUDA 相忘形,同期针对昇腾 NPU 进行了定制。其 GE 将全图暗示编译为高度优化的实行缠绵,丰富的框架适配器使现存责任负载的移植实在无阻力。这些组件共同使开辟东说念主员八成以最少的代码蜕变讹诈昇腾硬件,同期在粗造的 AI 应用中齐全接近峰值的建造性能。
二、云部署基础设施软件
为了接济 CloudMatrix384 在云环境中的部署,华为云提供了一套完善的基础设施软件,包括 MatrixResource、MatrixLink、MatrixCompute 和 MatrixContainer,旨在抽象硬件复杂性,并通过圭臬云 API 齐全无缝的资源编排,如图 7 所示。
MatrixResource 经管超等节点内的物理资源配置,包括基于拓扑感知调遣的筹画实例分拨。实例配置任务由 CloudMatrix384 每个筹画节点的擎天卡上运行的 MatrixResource 代理实行。
MatrixLink 为 UB 和 RDMA 网罗提供面向做事的网罗,接济 QoS 保证和动态路由。它经管链路级配置,并接济网罗感知的责任负载分拨,以齐全最好通讯效果。这些任务也由每个筹画节点的擎天卡上的 MatrixLink 代理实行。
MatrixCompute 协作 CloudMatrix 实例的人命周期,从裸机配置到自动扩缩容和故障复原。它协作跨多个物理节点的资源组合,以创建细密耦合的逻辑超等节点实例。
MatrixContainer 提供基于 Kubernetes 的容器做事,并通过拓扑感知调遣进行增强,以充分讹诈 CloudMatrix 的高性能互连。它使用户八成使用熟谙的容器化责任流部署漫步式 AI 责任负载。
ModelArts 位于基础设施堆栈的顶层,提供端到端 AI 平台做事。它包含:ModelArts Lite,可通过裸机和容器化环境成功拜谒 Ascend 硬件;ModelArts Standard,接济齐备的 AI 开辟和 MLOps 活水线;
ModelArts Studio,提供模子即做事 (MaaS) 功能,可快速部署和定制 LLM 过火他模子。
这些组件共同接济用户在 CloudMatrix 384 上高效构建和部署大范畴 AI 应用法子,在保合手性能的同期抽象底层复杂性
改日标的筹商
东说念主工智能模子的快速演进过火粗造应用合手续对东说念主工智能基础设施提倡日益严格的要求。尽管 CloudMatrix384 代表了紧耦合东说念主工智能筹画推广领域的一个遑急架构里程碑,但为了倨傲新兴责任负载的需求,仍需进一步发展。在本节中,咱们将筹商 CloudMatrix 架构过火构建的 LLM 做事系统的潜在改日发展标的,旨在进一步提高可推广性、纯真性、效果和性能。
CloudMatrix 的改日演进
CloudMatrix384 所体现的超等节点见识不错沿多个维度进行推广,以恰当改日的 AI 责任负载。
一、和洽 VPC 和 RDMA 平面
如前文所述,CloudMatrix384 当今经受单独的网罗平面来处理横向推广 (RDMA) 和 VPC 流量。然则,CloudMatrix 不错将横向推广通讯集成到 VPC 网罗中。在典型的 AI 检会和推理责任负载中,诸如张量、众人和序列并行 (TP/EP/SP) 等带宽密集型通讯阶段主要辘集在超等节点内。比较之下,跨超等节点通讯(主要源于数据和活水线并行 (DP/PP))每每对带宽的需求要低得多。借助分层 DP 通讯和通讯荫藏技能,VPC 网罗不错充分倨傲大多数 AI 责任负载的超等节点间通讯需求。
基于此,基于 VPC 平面的和洽网罗架构不错构建可用区 (AZ) 范畴的大范畴 AI 集群。它八成兼容异构多代AI硬件,以超节点为基本单位齐全纯真、模块化的推广,并通过数据中心网罗(DCN)技能接济跨地域的无缝互联。
二、更大范畴的超等节点
尽管 CloudMatrix384 领有 384 个 NPU,范畴可不雅,但下一代 AI 模子和应用场景接洽将需要更大范畴的超等节点。以下几个要道成分鞭策了这一范畴增长轨迹:
(1)推广以恰当模子演进:跟着 LLM 在参数范畴和架构复杂度方面的约束推广,为其提供做事所需的基础设施也必须随之发展。
改日的模子接洽将具有显赫更大的参数数目、更长的输入序列以及越来越多的寥落激活众人(sparsely activated experts),尤其是在 MoE 设计中。这些趋势对每个推招待话中的筹画、内存和互连带宽提倡了越来越高的要求。
此外,新兴的架构方法,举例用于特地推理的模块化子网罗、检索增强生成或混杂密集/寥落筹画,要求模子组件之间更细密的耦合,从而增多模子里面的通讯和同步。高效接济这些责任负载需要将筹画和内存共置在一个细密集成的超等节点内,以最大规矩地减少通讯延长并保合手高微辞量。
因此,推广超等节点容量至关遑急,这不仅是为了倨傲原始资源需求,亦然为了守护下一代LLM所需的细粒度局部性和性能脾气。
(2)提高资源分拨效果:推广超等节点范畴还不错提高内容异构责任负载要求下系统范围的资源讹诈率。基于内容坐褥追踪,咱们将每个AI任务建模为一组细密耦合的块,模拟改日的NPU肯求方法。每个块都是一组连气儿的NPU,必须在单个超等节点内进行配置,以倨傲功课里面的带宽和延长限度。如图24所示,更大的超等节点在千般平均块大小范围内遥远八成齐全更高的NPU分拨率。举例,当平均块大小为 10.08 时,384 个 NPU 超等节点的分拨率超越 94%,而 224 个 NPU 超等节点的分拨率则降至 91% 以下。这一改造源于碎屑化的减少和更好的统计复用——更大的资源池不错为非均匀大小的功课提供更大的部署纯真性。
相背,关于固定的超等节点大小,增多块大小会导致分拨效果镌汰,因为打包(Packing)难度较大。当平均块大小达到 11.28 时,224 个 NPU 超等节点的分拨率降至 85% 以下。这些终局标明,在内容责任负载漫步下,推广超等节点范畴可显赫提高系统微辞量和效果。
(3)实在恒定的摊销网罗资本:扩大超等节点范畴并不会势必导致每个 NPU 的网罗资本增多。假定网罗架构同样,举例双层 Clos 类交换拓扑,只消配置齐全了交换机端口的充分讹诈,每个 NPU 的网罗基础设施摊销资本在不同范畴的超等节点之间实在保合手不变。
如表 11 所示,192、288 或 384 个 NPU 的配置均可齐全 100% 的交换顽皮骗率,且每个 NPU 的摊销交换机资本同样。中等配置(举例 256 或 352 个 NPU)的交换顽皮骗率较低,会稍稍增多每个节点的资本。这些终局标明,将超等节点范畴推广到给定交换层的上限不会带来额外的资本支出,因此从网罗角度来看,这是一种经济高效的政策。
(4)恰当日益增长的资源异构性:改日的东说念主工智能责任负载将需要在归拢实行环境中赢得日益千般化的硬件接济。除了 NPU 和 CPU 以外,下一代超等节点还可能集成专用加快器,用于实行物理模拟、及时视频处理、无损数据压缩和加密筹画等任务。这些单位正在成为端到端东说念主工智能活水线的遑急组成部分,尤其适用于多模态或特定领域的应用。
为了高效讹诈这些异构资源,它们必须分享同样的高带宽、低延长互辘集构,并八成看成超等节点内的一流筹画平等体进行拜谒。要大范畴地接济这千般种性,需要推广超等节点的范畴和更纯真实互连架构,这进一步强化了向更大、更异构的筹画域发展的趋势,这些筹画域不错处理细密耦合、跨功能的东说念主工智能责任负载。
三、CPU 的物理判辨和池化
诚然现时的 CloudMatrix384 超等节点依然通过从其筹画节点(每个节点集成 4 个鲲鹏 CPU 和 8 个昇腾 NPU)池化 CPU 和 NPU 齐全了一定进程的资源纯真性,但 CloudMatrix 架构改日的一个要道标的是更根底的 CPU 和 NPU 资源的物理判辨,如图 1 所示。这设计了一个由不同的专用节点类型组成的超等节点:以 NPU 为中心的节点,密集部署 AI 加快器;以及以 CPU 为中心的节点,提供高大的通用筹画、内存容量和 I/O 功能。这些异构节点类型将通过高带宽、低延长的 UB 网罗平面互连,从而在超等节点级别齐全细粒度、纯真且可推广的资源池化。
物理判辨的动机源于固定节点配置中传统 CPU-NPU 配对的僵化性,其中静态的 NPU 与 CPU 比率限度了系统匹配责任负载需求的智商。举例,某些推理责任负载需要密集的 CPU 预处理/后处理或无数内存接济的缓存,导致即使 NPU 赋闲,也会出现 CPU 瓶颈。相背,检会责任负载可能会使 NPU 满盈,而 CPU 资源却未得到充分讹诈。在这种情况下,细密耦合的 CPU-NPU 配置会导致硬件讹诈率不睬想,况兼推广不纯真。
尽管 CloudMatrix384 的点对点 UB 拓扑依然将逻辑资源与分拨解耦,从而齐全了跨超等节点的纯真 CPU-NPU 匹配,但将 CPU 和 NPU 资源物理地分离到专用资源池中不错开释更多上风:
(1)闲散且优化的推广:不错开辟物理上闲散的以 NPU 为中心的节点(举例,使用最小的腹地 CPU 进行基本经管,但最大化 NPU 密度)和以 CPU 为中心的节点(举例,领有多个 CPU 中枢、大容量 DRAM 和丰富的 I/O 选项,看成超等节点的主要 CPU 和内存资源池)。这使得 NPU 筹画智商和超等节点的通用 CPU/内存容量八成闲散且更经济地推广。数据中心运营商不错构建具有高度可变的 NPU、CPU 和内存比例的超等节点,并凭证主要责任负载进行精详情制(举例,NPU 密集型用于检会,CPU/内存密集型用于数据密集型预处理或大范畴 EMS 缓存)
(2)增强的资源讹诈率和专科化:专科化的节点设计允许针对主要资源类型进行硬件优化。 NPU 节点不错专注于加快器的供电和冷却,而 CPU/内存节点不错针对内存密度、I/O 带宽或特定的 CPU 教导集进行优化。这不错提高合座效果。
改日做事系统增强
跟着底层超等节点架构的约束发展,LLM 做事系统必须协同演进,智力充分讹诈这些功能。一个要道标的是超越粗粒度判辨(举例预填充-解码分离),转向更细粒度的组件级判辨和智能自恰当部署政策。这些纪律旨在提高资源讹诈率、提高微辞量,并接济日益异构的责任负载和硬件配置。
一、组件级判辨
CloudMatrix384 经受的预填充-解码-缓存判辨的点对点做事架构已被解说八成灵验地分离 LLM 推理的主要阶段。然则,通过将模子实行判辨为更细粒度的组件,不错齐全进一步的改造,这些组件不错闲散经管、部署和推广。咱们要点先容两个新兴标的:
(1)解码-耀观点机制判辨与卸载:诚然预填充实例受筹画限度,而解码实例每每受内存限度,但 Adrenaline 系统 标明,通过将内存密集型耀观点筹画从解码旅途等判辨出来并将其卸载到未充分讹诈的预填充实例,不错齐全额外的性能提高。这种纪律提高了合座内存带宽讹诈率,并接济更大的解码实例批处理大小,从而提高了筹画效果。它依赖于低延长同步、用快慰排的卸载任务共置以及做事等第目的 (SLO) 感知的卸载政策。其终局是在不影响延长的情况下提高了微辞量,这体现了耀观点判辨如何开释现存做事部署中的潜在容量。
(2)耀观点机制和 MoE 判辨:大范畴 MoE 模子由于寥落的众人激活和极点的内存需求,濒临着稀少的挑战。MegaScale-Infer 建议将耀观点机制和众人组件判辨为闲散的实行做事,从而接济不同的并行政策和硬件映射。处理每个 token 的耀观点层使用数据并行部署在内存优化的节点上,而众人 FFN 则通过众人并行漫步在专用资源池中。这种判辨实行减少了争用,提高了微辞量,并允许耀观点机制和众人资源的闲散推广,这关于高效地做事于万亿参数的 MoE 模子至关遑急。
一言以蔽之,这些判辨技能代表着一种曲折,行将 LLM 视为松耦合微做事的围聚,每个微做事都有不同的性能配置文献。这种粒度不错更好地映射到异构硬件,并提直快等节点的负载平衡和可推广性。
二、混杂自恰当部署
一朝将LLM推理判辨为可视为细粒度微做事的组件,举例耀观点实行、FFN筹画、KV缓存经管或MoE众人门控,做事系统将赢得显赫的纯真性,从而经受更复杂的部署政策。这些混杂自恰当部署模子使系统八成凭证每个组件稀少的筹画和内存需求定制资源分拨,从而提高合座讹诈率和可推广性。
1) 硬件感知的微做事布局:每个微做事都不错凭证其性能气象映射到最合适的硬件类型。举例,每每受内存带延期度的耀观点层应优先在具有高内存微辞量的NPU上运行;筹画密集型的FFN模块则受益于在具有高大筹画智商的NPU上分拨;而轻量级或延长容忍操作(举例KV缓存索引)不错卸载到池化CPU或低资本的通用加快器上。这种细粒度的匹配八成更高效地讹诈异构硬件,并在不影响性能的情况下镌汰资本。
2) 混杂微做事共置:判辨后的微做事也不错动态地共置,以提高整个这个词超等节点的资源讹诈率。举例,不错将解码阶段中受内存限度的耀观点操作卸载到内存讹诈率较低的预填充实例。
这种混杂共置政策有助于缓解资源瓶颈,提高跨阶段的讹诈率,并增多灵验的系统微辞量,尤其是在多变或突发性责任负载下。
3) 微做事的自恰当和闲散推广:微做事判辨的一个要道上风是八成凭证据时责任负载脾气独马上推广每个组件。举例,在处理长高下文输入期间,耀观点微做事可能会承受更高的负载,并相应地进行推广,而无需额外的 FFN 或众人资源。这种粒度可介意系统过度配置,并允许系统弹性地恰当责任负载的动态变化。
为了充分讹诈这些功能,做事基础设施必须包含一个复杂的编排层,该层八成合手续分析系统负载、预测性能瓶颈,并作念出及时的、基于做事等第目的 (SLO) 的调遣和推广决策。该编排器充任混杂部署模子的贬抑平面,确保即使责任负载和资源可用性发生波动,也能倨傲性能保证。
一言以蔽之,由组件级判辨接济的混杂和自恰当部署政策代表了 LLM 做事系统设计中一个充满但愿的前沿领域。它们八成齐全更精准的资源讹诈、跨异构硬件的无缝负载平衡,并八成倨傲日益复杂和千般化的模子架构所带来的改日需求。
论断
本文先容了华为 CloudMatrix,这是新一代 AI 数据中心架构,体现了华为对先进 AI 基础设施的愿景。咱们极端保举华为 CloudMatrix384,它是这一更动架构理念的首个量产级齐全。
CloudMatrix384 是一个 AI 超等节点,旨在高效接济大范畴 AI 责任负载,经受十足平等互联的硬件设计。它集成了 384 个昇腾 910C NPU 和 192 个鲲鹏 CPU,并通过超高带宽、低延长的和洽总线 (UB) 网罗互连。这种稀少的架构接济动态资源池化、简化的内存经管和不凡的节点间通讯,灵验治理了传统数据中心架构中常见的可推广性和效果挑战。
讹诈 CloudMatrix384,咱们提倡了 CloudMatrix-Infer,这是一个全面的做事治理决策,它经受点对点做事架构,将推理责任流判辨为不同的预填充、解码和煦存子系统。该架构通过在整个 NPU 之间齐全对分享的判辨式内存池的和洽拜谒,显赫简化了调遣,增强了负载平衡,并优化了资源讹诈率。咱们进一步设计并齐全了先进的硬件感知技能,包括大范畴众人并行 (LEP)、优化的通讯和 MLA 算子、基于微批的活水线和 INT8 量化。这些技能共同提高了 MoE 和 MLA 的筹画微辞量,提高了缓存效果,并显赫提高了合座推感性能。
咱们对 DeepSeek-R1 模子进行了粗造的评估,终局标明 CloudMatrix-Infer 齐全了不凡的微辞量,在预填充阶段每个 NPU 每秒处理 6,688 个tokens,在解码阶段每个 NPU 每秒处理 1,943 个tokens,同期遥远保合手每个输出tokens低于 50 毫秒的低延长。这些终局对应的筹画效果为预填充阶段 4.45 个tokens/秒/TFLOPS,解码阶段 1.29 个tokens/秒/TFLOPS,均超越了 NVIDIA H100 上的 SGLang 和 H800 上的 DeepSeek 等率先框架的已公布效果。
此外,CloudMatrix Infer 灵验地平衡了微辞量和延长,即使在更严格的 15 毫秒以下 TPOT 限度下也能保合手 538 个tokens/秒的微辞量。INT8 量化政策在千般基准测试中进一步保合手了与 DeepSeek 官方 API 绝顶的准确率。
预测改日,CloudMatrix384 的进一步增强呈现出几个令东说念主激越的标的。改日的责任包括集成和和洽 VPC 和 RDMA 网罗平面,以齐全更精简的互联互通,推广到更大的超等节点配置,以及追求更深档次的 CPU 资源判辨和池化。此外,更细粒度的组件级判辨和自恰当部署政策,为在 AI 数据中心基础设施中齐全更高的纯真性、效果和可推广性提供了有但愿的蹊径。
一言以蔽之,咱们的研究终局标明,华为 CloudMatrix 是一个高效、可推广且性能优化的平台,可用于部署大范畴 AI 责任负载,为改日 AI 数据中心基础设施成就了标杆。
*免责声明:本文由作家原创。著述内容系作家个东说念主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或接济,若是有任何异议,迎接议论半导体行业不雅察。
今天是《半导体行业不雅察》为您分享的第4068期内容,迎接温文。
加星标??第一时分看推送,小号防走丢
求保举
