解密DeepSeek-V3推理網(wǎng)絡(luò):MoE架構(gòu)如何重構(gòu)低時(shí)延、高吞吐需求?
DeepSeek-V3發(fā)布推動(dòng)分布式推理網(wǎng)絡(luò)架構(gòu)升級(jí),MoE模型引入大規(guī)模專家并行通信,推理流量特征顯著變化,Decode階段對(duì)網(wǎng)絡(luò)時(shí)度敏感。網(wǎng)絡(luò)需保障低時(shí)延與高吞吐,通過(guò)端網(wǎng)協(xié)同負(fù)載均衡與擁塞控制技術(shù)優(yōu)化性能。高效運(yùn)維實(shí)現(xiàn)故障快速定位與業(yè)務(wù)高可用,單軌雙平面與Shuffle多平面組網(wǎng)方案在低成本下滿足高性能推理需求,為大規(guī)模MoE模型部署提供核心網(wǎng)絡(luò)支撐。
一、推理場(chǎng)景和MoE模型引入網(wǎng)絡(luò)新訴求
2025年初,DeepSeek-V3發(fā)布,迅速引發(fā)國(guó)內(nèi)外的廣泛關(guān)注和部署熱潮。作為核心基礎(chǔ)設(shè)施之一,分布式推理網(wǎng)面臨全新的需求。整體來(lái)看,推理與訓(xùn)練的流量差異、MoE模型架構(gòu)的引入以及DeepSeek開(kāi)源技術(shù)方案等多重因素,影響了網(wǎng)絡(luò)建設(shè)的方向和要求。
傳統(tǒng)稠密模型的訓(xùn)練與推理流量中,95%以上為Tensor Parallel(TP)通信,主要在機(jī)內(nèi)高帶寬域通過(guò)all-reduce完成,機(jī)外低帶寬域僅在同號(hào)卡間執(zhí)行低流量的數(shù)據(jù)并行(DP)和流水線并行(PP)通信。而DeepSeek采用的MoE(Mixture of Experts)模型架構(gòu)顯著改變了流量特征。訓(xùn)練和推理階段均不采用TP通信,取而代之的是大規(guī)模專家并行(EP)通信,訓(xùn)練階段EP流量占比超過(guò)95%,推理階段則達(dá)到100%。EP通信跨越多個(gè)高低帶寬域,且采用all-to-all通信模式,通信結(jié)構(gòu)復(fù)雜且流量巨大,對(duì)網(wǎng)絡(luò)性能提出了更高、更差異化的要求。
DeepSeek模型參數(shù)規(guī)模達(dá)到6710億,在推理部署中引入了PD分離和大規(guī)模EP并行,推動(dòng)滿血版高性能推理走向分布式。相比傳統(tǒng)單機(jī)推理,分布式推理帶來(lái)了顯著差異,使得推理流量模式與分布式訓(xùn)練更為接近,但兩者在流量特征上依然存在明顯區(qū)別。
通信流量可由以下公式估算:(minibatch大小 × 上下文長(zhǎng)度 × 隱藏層維度)× 節(jié)點(diǎn)數(shù) × (dispatch_alltoall通信次數(shù) × FP8字節(jié)數(shù) + combine_alltoall通信次數(shù) × BF16字節(jié)數(shù))× GPU負(fù)責(zé)的層數(shù)。下表統(tǒng)計(jì)主要EP流量作為參考。
| 總通信量 | 單次通信量 | |
| 訓(xùn)練 | 315GB |
dispatch:112MB combine:224MB |
| 推理Prefill | 57.09GB |
dispatch:168MB combine:336MB |
| 推理Decode | 1218MB |
dispatch:3.5MB combine:7MB |
訓(xùn)練場(chǎng)景流量模式固定且明確,單次迭代總流量高達(dá)315GB,單次EP通信流量約112MB。
推理場(chǎng)景流量受用戶輸入影響,波動(dòng)較大。Prefill階段以4K上下文、batch size為4計(jì)算流量大小,單次迭代總流量約57.09GB,單次通信流量與訓(xùn)練相近;Decode階段以128并發(fā)計(jì)算,單次迭代流量顯著降低至約1.2GB,單次通信流量?jī)H為幾MB,Prefill與Decode階段流量差異明顯。
基于以上全新且復(fù)雜的網(wǎng)絡(luò)需求,深入識(shí)別和分析DeepSeek推理網(wǎng)絡(luò)的關(guān)鍵技術(shù),是保障推理高性能、低成本與高可靠性的關(guān)鍵。下文我們將從低網(wǎng)絡(luò)時(shí)延、高效網(wǎng)絡(luò)運(yùn)維和低成本組網(wǎng)角度,展開(kāi)介紹DeepSeek推理網(wǎng)絡(luò)關(guān)鍵技術(shù)。
二、低時(shí)延網(wǎng)絡(luò)助力推理高吞吐
根據(jù)上述流量分析,Decode階段的單次通信流量?jī)H為3.5MB/7MB。結(jié)合DeepSeek官方開(kāi)源通信庫(kù)DeepEP的性能,當(dāng)前場(chǎng)景下Decode階段的dispatch通信時(shí)長(zhǎng)在100us內(nèi),combine通信時(shí)長(zhǎng)在200us內(nèi)。Decode階段的SLO通常要求低于50ms,但EP通信次數(shù)高達(dá)116次,每次通信都會(huì)導(dǎo)致時(shí)延疊加,因此對(duì)網(wǎng)絡(luò)時(shí)延提出了很高的要求。綜上,在Decode階段,很少的單次通信流量、很短的通信時(shí)長(zhǎng)、很高的SLO要求都對(duì)網(wǎng)絡(luò)提出了較低的時(shí)延需求。

H800網(wǎng)絡(luò)時(shí)延對(duì)Decode吞吐的影響

H20網(wǎng)絡(luò)時(shí)延對(duì)Decode吞吐的影響
上圖是對(duì)4K/1K上下文,1K輸出的Decode場(chǎng)景,在H800/H20設(shè)備下,以128 batch作為場(chǎng)景,進(jìn)行的網(wǎng)絡(luò)時(shí)延對(duì)Decode吞吐影響仿真。如圖所示,當(dāng)網(wǎng)絡(luò)側(cè)產(chǎn)生1ms的時(shí)延增加時(shí),無(wú)論是H800還是H20,在不同的上下文場(chǎng)景下,吞吐都會(huì)產(chǎn)生巨大影響,吞吐下降幅度高達(dá)80%左右,幾乎已經(jīng)直接導(dǎo)致當(dāng)前Decode節(jié)點(diǎn)不可用。當(dāng)網(wǎng)絡(luò)上產(chǎn)生100us的時(shí)延時(shí),4K上下文場(chǎng)景下,吞吐下降可能達(dá)到20%+。由此可見(jiàn),Decode節(jié)點(diǎn)對(duì)網(wǎng)絡(luò)時(shí)延的敏感度很高。在DeepSeek大規(guī)模EP并行all-to-all通信模式下,網(wǎng)絡(luò)時(shí)延的主要影響因素是負(fù)載均衡和擁塞控制:

如上圖所示,在大規(guī)模EP的DeepSeek推理場(chǎng)景,EP域的通信可能橫跨多個(gè)Leaf,流量走向Spine,容易產(chǎn)生典型的ECMP哈希不均問(wèn)題,導(dǎo)致較高動(dòng)態(tài)時(shí)延。且DeepSeek的MoE模型推理易產(chǎn)生實(shí)例間負(fù)載不一致和實(shí)例內(nèi)專家負(fù)載不一致問(wèn)題,在網(wǎng)絡(luò)上表現(xiàn)為流量中大小流混合。該現(xiàn)象更容易加劇ECMP不均導(dǎo)致的動(dòng)態(tài)時(shí)延問(wèn)題,不佳的負(fù)載均衡策略,在網(wǎng)絡(luò)上容易引入100us+甚至更高的動(dòng)態(tài)時(shí)延。如上文分析,這樣的動(dòng)態(tài)時(shí)延水平對(duì)吞吐的影響可能達(dá)到20%+。在DeepSeek官方場(chǎng)景中,采用IB交換機(jī)和CX網(wǎng)卡的Adaptive Routing(AR)技術(shù),有效緩解了ECMP負(fù)載不均問(wèn)題。在RoCE環(huán)境下,端網(wǎng)協(xié)同的負(fù)載均衡方案在如此苛刻的低時(shí)延要求下,是至關(guān)重要的。

此外,MoE模型的大規(guī)模專家并行通信本質(zhì)上是一種all-to-all模式,網(wǎng)絡(luò)中天然存在incast流量。合理的擁塞控制策略能夠避免因流量降速或PFC(Priority Flow Control)觸發(fā)而帶來(lái)的高動(dòng)態(tài)時(shí)延,保障網(wǎng)絡(luò)時(shí)延的穩(wěn)定性和推理性能。
三、高效端網(wǎng)運(yùn)維保障高可用推理業(yè)務(wù)

慢故障、hang異常

鏈路故障
隨著DeepSeek推理引入大規(guī)模專家并行(EP),分布式推理集群面臨與訓(xùn)練集群類似的故障挑戰(zhàn)。根據(jù)Meta公開(kāi)的研究數(shù)據(jù),以1024卡集群為例,平均每7.9小時(shí)會(huì)發(fā)生一次故障。結(jié)合故障對(duì)推理的影響,可將故障類型歸納為三類:
慢節(jié)點(diǎn)異常:故障發(fā)生后推理任務(wù)不中斷,但部分節(jié)點(diǎn)或階段性能下降,導(dǎo)致整體推理被拖慢,表現(xiàn)為慢節(jié)點(diǎn)效應(yīng)。
Hang異常:故障導(dǎo)致推理長(zhǎng)時(shí)間卡頓于某一階段,任務(wù)無(wú)法繼續(xù)推進(jìn),但整體推理仍未中斷。
鏈路故障:鏈路中斷直接導(dǎo)致整個(gè)推理實(shí)例退出。
在慢節(jié)點(diǎn)異常和短時(shí)間Hang異常場(chǎng)景下,雖然推理任務(wù)仍在運(yùn)行,但推理性能顯著受損,TTFT(Time To First Token)和TPOT(Time Per Output Token)指標(biāo)明顯惡化,吞吐量可能下降50%以上。因此,針對(duì)慢故障和Hang異常的實(shí)時(shí)監(jiān)控、快速定位與排查,對(duì)于保障推理性能具有重要價(jià)值。
而在長(zhǎng)時(shí)間Hang異常或鏈路故障導(dǎo)致推理實(shí)例直接退出的情況下,業(yè)務(wù)影響更為嚴(yán)重。對(duì)于大規(guī)模實(shí)例部署環(huán)境,可通過(guò)請(qǐng)求快速切換至其他健康實(shí)例,雖可能犧牲部分用戶體驗(yàn),但能保障業(yè)務(wù)連續(xù)性。相較之下,少量實(shí)例部署(如單個(gè)Decode實(shí)例)發(fā)生故障時(shí),往往直接導(dǎo)致業(yè)務(wù)中斷,嚴(yán)重影響穩(wěn)定性和用戶體驗(yàn)。因此小規(guī)模場(chǎng)景下,故障的定位、逃生和規(guī)避,是保障業(yè)務(wù)可用性的關(guān)鍵手段。
四、高性價(jià)比推理組網(wǎng)壓榨百萬(wàn)token成本
1.雙口網(wǎng)卡雙平面組網(wǎng):

單軌雙平面組網(wǎng)
基于上述對(duì)網(wǎng)絡(luò)低時(shí)延和高可靠性的需求,采用如圖所示的單軌雙平面組網(wǎng)方案,能夠最大程度保障性能與可靠性。相比傳統(tǒng)CLOS架構(gòu),該方案在性價(jià)比方面更具優(yōu)勢(shì)。具體特點(diǎn)如下:
優(yōu)勢(shì):
網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)潔:流量集中于Leaf交換機(jī),降低跨交換機(jī)通信復(fù)雜度,顯著減少時(shí)延。
成本效益高:支持銅纜互聯(lián),減少交換機(jī)數(shù)量,整體網(wǎng)絡(luò)投入更低。
時(shí)延低:數(shù)據(jù)面鏈路最長(zhǎng)僅為2跳,最大跳數(shù)為1跳,確保低時(shí)延傳輸。
流控需求低:無(wú)負(fù)載均衡問(wèn)題,流量走單一路徑,簡(jiǎn)化流控設(shè)計(jì)。
易于擴(kuò)展:新增節(jié)點(diǎn)無(wú)需增加二層網(wǎng)絡(luò),支持集群橫向擴(kuò)展。
Bond適配性強(qiáng):采用bond雙平面組網(wǎng)提升網(wǎng)絡(luò)可靠性,且由于無(wú)二層組網(wǎng),bond方案不會(huì)帶來(lái)額外交換機(jī)成本。
劣勢(shì):
靈活性受限:Prefill或Decode實(shí)例不可跨Leaf部署,單實(shí)例最大規(guī)模受限于256卡。
兼容性不足:組網(wǎng)針對(duì)推理流量特性優(yōu)化,難以兼容訓(xùn)練與推理一體化場(chǎng)景。
KV Cache傳輸依賴存儲(chǔ)網(wǎng):在采用PD分離部署時(shí),如果存在跨Leaf的PD實(shí)例,則必須配備存儲(chǔ)網(wǎng)絡(luò)以支持KV Cache傳輸。
2.Shuffle多平面組網(wǎng):

基于雙網(wǎng)口網(wǎng)卡的雙平面組網(wǎng)方案,單Pod最大規(guī)模受限于256卡,導(dǎo)致靈活性不足。為突破這一瓶頸,在Server與交換機(jī)之間引入Shuffle(光交叉盒),實(shí)現(xiàn)物理層面的分光。依托400Gbps網(wǎng)卡和TH5芯片交換機(jī),組網(wǎng)方案升級(jí)為四平面,單Pod最大規(guī)模擴(kuò)展至512卡,滿足絕大多數(shù)推理部署需求。此方案支持更大規(guī)模的EP并行和PD實(shí)例數(shù)量增加,且PD實(shí)例無(wú)需跨Pod調(diào)度,大幅提升Pod內(nèi)組網(wǎng)靈活性,顯著降低對(duì)KV Cache存儲(chǔ)網(wǎng)絡(luò)的依賴。
未來(lái),隨著800Gbps網(wǎng)卡和TH6芯片交換機(jī)的應(yīng)用,Shuffle多軌方案可拓展至8軌。在保證單GPU享有800Gbps帶寬的前提下,單Pod最大規(guī)模可擴(kuò)展至1024卡,滿足超大規(guī)模推理服務(wù)需求。該方案在無(wú)二層組網(wǎng)架構(gòu)下,依然提供很高的PD分離部署靈活性,PD實(shí)例無(wú)需跨Pod調(diào)度,也無(wú)需KV Cache傳輸專用網(wǎng)絡(luò),實(shí)現(xiàn)了卓越的性價(jià)比與性能。
總結(jié)
DeepSeek MoE模型的分布式推理部署帶來(lái)了推理網(wǎng)絡(luò)架構(gòu)和性能保障的全新挑戰(zhàn)。推理階段的通信模式和流量特征與傳統(tǒng)訓(xùn)練存在顯著差異,尤其是Decode階段對(duì)網(wǎng)絡(luò)時(shí)延敏感,要求網(wǎng)絡(luò)具備低時(shí)延和高吞吐能力。端網(wǎng)協(xié)同的負(fù)載均衡算法和擁塞控制技術(shù)是保障網(wǎng)絡(luò)性能的關(guān)鍵。與此同時(shí),推理業(yè)務(wù)高可用性要求完善的故障監(jiān)控、快速定位和故障逃生策略。針對(duì)這些需求,設(shè)計(jì)簡(jiǎn)潔高效且具備高可靠性的單軌雙平面組網(wǎng)方案,能夠在保證性能的同時(shí)降低成本。未來(lái),隨著DeepSeek及類似大規(guī)模MoE模型的廣泛部署,推理網(wǎng)絡(luò)的優(yōu)化和創(chuàng)新將成為核心競(jìng)爭(zhēng)力。
相關(guān)標(biāo)簽:
點(diǎn)贊
客戶評(píng)論
我要評(píng)論
您的姓名
您的手機(jī)號(hào)*
您的郵箱
公司名稱
更多技術(shù)博文
-
高密場(chǎng)景無(wú)線網(wǎng)絡(luò)新解法:銳捷Wi-Fi 7 AP 與 龍伯透鏡天線正式成團(tuán)銳捷網(wǎng)絡(luò)在中國(guó)國(guó)際大學(xué)生創(chuàng)新大賽(2025)總決賽推出旗艦Wi-Fi 7無(wú)線AP RG-AP9520-RDX及龍伯透鏡天線組合,針對(duì)高密場(chǎng)景實(shí)現(xiàn)零卡頓、低時(shí)延和高并發(fā)網(wǎng)絡(luò)體驗(yàn)。該方案通過(guò)多檔賦形天線和智能無(wú)線技術(shù),有效解決干擾與覆蓋問(wèn)題,適用于場(chǎng)館、辦公等高密度環(huán)境,提供穩(wěn)定可靠的無(wú)線網(wǎng)絡(luò)解決方案。
-
#無(wú)線網(wǎng)
-
#Wi-Fi 7
-
#無(wú)線
-
#放裝式AP
-
-
打造“一云多用”的算力服務(wù)平臺(tái):銳捷高職教一朵云2.0解決方案發(fā)布銳捷高職教一朵云2.0解決方案幫助學(xué)校構(gòu)建統(tǒng)一云桌面算力平臺(tái),支持教學(xué)、實(shí)訓(xùn)、科研和AI等全場(chǎng)景應(yīng)用,實(shí)現(xiàn)一云多用。通過(guò)資源池化和智能調(diào)度,提升資源利用效率,降低運(yùn)維成本,覆蓋公共機(jī)房、專業(yè)實(shí)訓(xùn)、教師辦公及AI教學(xué)等多場(chǎng)景需求,助力教育信息化從分散走向融合,推動(dòng)規(guī)模化與個(gè)性化培養(yǎng)結(jié)合。
-
#云桌面
-
#高職教
-
-
醫(yī)院無(wú)線升級(jí)必看:“全院零漫游”六大謎題全解析銳捷網(wǎng)絡(luò)的全院零漫游方案是新一代醫(yī)療無(wú)線解決方案,專為智慧醫(yī)院設(shè)計(jì),通過(guò)零漫游主機(jī)和天線入室技術(shù)實(shí)現(xiàn)全院覆蓋和移動(dòng)零漫游體驗(yàn)。方案支持業(yè)務(wù)擴(kuò)展全適配,優(yōu)化運(yùn)維管理,確保內(nèi)外網(wǎng)物理隔離安全,并便捷部署物聯(lián)網(wǎng)應(yīng)用,幫助醫(yī)院提升網(wǎng)絡(luò)性能,支持舊設(shè)備利舊升級(jí),降低成本。
-
#醫(yī)療
-
#醫(yī)院網(wǎng)絡(luò)
-
#無(wú)線
-
-
精準(zhǔn)出擊!銳捷極簡(jiǎn)以太彩光網(wǎng)絡(luò)4.0再添新翼,“超融合”方案創(chuàng)新而來(lái)銳捷網(wǎng)絡(luò)發(fā)布極簡(jiǎn)以太彩光4.0超融合方案,專為宿舍等高密接入場(chǎng)景設(shè)計(jì)。該方案采用統(tǒng)一以太網(wǎng)二層架構(gòu),弱電間無(wú)源部署,支持單核心接入超萬(wàn)間房間。創(chuàng)新推出有線無(wú)線一體化Wi-Fi 7面板型光無(wú)線接入點(diǎn),實(shí)現(xiàn)靈活部署與統(tǒng)一運(yùn)維,同時(shí)支持超聚合與超融合模式靈活適配,為高校及行業(yè)園區(qū)提供極簡(jiǎn)智能的全光網(wǎng)絡(luò)解決方案。
-
#交換機(jī)
-
#全光網(wǎng)
-