2025年华为昇腾服务器DeepSeek V3R1推理部署最佳实践技术报告-华为_Decode_性能

一、部署方案与性能表现

本报告聚焦华为昇腾服务器上DeepSeek V3/R1推理部署的两种核心方案，以适配不同场景需求。

（一）CloudMatrix 384超节点大规模EP部署

该方案充分发挥CloudMatrix 384超节点高通信带宽优势，采用Prefill 16卡、Decode 144卡的配置。其中，Decode部分通过128卡大规模EP部署路由专家，16卡DP部署共享专家，MLA模块则采用DP并行。在50ms时延约束下，实现单卡Decode吞吐达1920 Tokens/s，适用于对高并发和低时延要求严格的大规模场景。

（二）Atlas 800I A2服务器小规模EP部署

此方案选用2节点16卡作为Prefill实例，4节点32卡作为Decode实例，采用较小规模EP并行策略，每张卡部署8（Decode）/16（Prefill）个路由专家和1个共享专家。在100ms时延约束下，单卡Decode吞吐可达723-808 Tokens/s，兼顾吞吐与部署灵活性，适合中小规模场景。

二、关键优化技术

（一）框架层优化

以vLLM为基础框架，进行多项适配与优化。通过API Server水平扩容及组网方案优化，提升高并发处理能力，降低单点瓶颈风险；采用请求长度感知与KVCache亲和调度策略，实现负载均衡；运用灵衢互联与分层传输技术，降低KVCache传输时延，同时通过全并行、全异步前后处理，减少NPU闲置。针对MoE模型“冷热专家”问题，提出动态负载均衡、热专家冗余部署等策略，提升推理性能。

（二）模型层优化

量化与部署策略：采用A8W8动态量化策略，结合PD分离部署，解耦Prefill与Decode阶段的性能瓶颈，优化内存占用与计算逻辑。

通信与并发技术：在MoE层采用AllGather/ReduceScatter通信方案，降低数据量与负载不均影响；提出FlashComm和层内并行转换技术，减少通信时延。利用昇腾硬件多流并发能力，实现通信-计算、通信-通信及通信-权重预取并发，提升整体效率。引入推理投机框架FusionSpec，优化MTP层性能，框架耗时降至1ms左右。

（三）算子层优化

MLA算子：提出AMLA算法，通过存内计算和缓存优化，减少中间变量搬运，提升Attention算子性能近1倍，算力利用率达55%-60%。针对Prefill和Decode阶段分别优化前序算子，提升30%以上性能。

MoE通信算子：设计通算融合算子，实现计算与通信流水并行；采用SMTurbo-CPP技术，提升小数据量通信效率；利用细粒度分级流水算法，掩盖节点间通信耗时，提升集合通信效率。

三、性能分析与未来方向

（一）性能数据

Atlas 800I A2：Decode阶段，2K输入+2K输出、70% MTP接受率时，单卡吞吐723 Tokens/s；Prefill阶段，8×2K序列长度下单卡吞吐1622 Tokens/s。

CloudMatrix 384：实际部署中，在50ms时延约束下，单卡Decode吞吐突破1920 Tokens/s，接近理论分析的高吞吐潜力。

（二）后续优化方向

未来将针对低时延场景进行极致优化，探索Micro-batch技术在Atlas 800I A2上的应用；研究低比特量化方案（如MoE层INT4量化），进一步降低内存占用与访存带宽需求；优化MLA层算子量化支持，适配长序列KVCache量化；扩大Atlas 800I A2的EP部署规模，提升MoE算力利用率；解决序列负载不均问题，通过优先级划分与负载均衡调度，减少等待时间。

四、总结

本报告提供的两套部署方案及多维度优化技术，充分发挥了昇腾服务器的硬件优势，为DeepSeek V3/R1在不同场景下的高效推理提供了实践指导。后续优化将进一步提升性能与场景适应性，推动大语言模型在昇腾平台的广泛应用。