隨著人工智能等技術的快速發(fā)展,在政策和市場的驅動下,國內智算資源池建設呈爆發(fā)式增長,尤其運營商在全國各地布局多級算力資源池體系,需要結合網絡優(yōu)勢充分發(fā)揮智算資源效益,“網效”與“算效”需要提升互促。傳統(tǒng)的廣域網技術與架構在承載智算業(yè)務流量時效率較低,微量丟包就將導致網絡智算流量吞吐能力顯著下降,造成算卡資源閑置浪費。智能IP廣域網以高算效、差異化保障、云邊協(xié)同、智能運維、綠色低碳和內生安全,成為IP廣域網新的發(fā)展方向。
中國信通院作為國內權威的第三方檢測機構,在智算技術研究與標準制定方面擁有深厚的積淀,基于企業(yè)用算的三大場景,組織制定了國內首個智能IP廣域網關鍵技術及設備系統(tǒng)評估體系。測試評估項目重點面向企業(yè)海量數(shù)據(jù)入算、樣本數(shù)據(jù)拉遠訓練、云邊協(xié)同分布式推理三大用算場景,開展相應的行業(yè)評測,構建智能IP廣域網的技術標準體系,推動IP網絡快速向智能、高效、安全的智能IP廣域網演進。
智能IP廣域網關鍵技術及設備系統(tǒng)測試評估主要涵蓋如下場景:
海量樣本入算
本場景驗證設備和網絡的“大象流”識別和動態(tài)負載分擔能力,對不同用戶RDMA業(yè)務流精準流控、流級反壓及多用戶隔離能力進行測試,驗證智算組網專線帶寬可動態(tài)調整能力,及RDMA承載網絡的有效吞吐率。
存算拉遠訓練
本場景驗證設備和網絡在不同模型和拉遠距離下算效損失率,存算拉遠訓練期間用戶訓練數(shù)據(jù)不落盤,隔離用戶間互不影響。
云邊協(xié)同推理
本場場景驗證云邊協(xié)同拉遠推理,在不同收斂比情況下評估算效劣化率,驗證企業(yè)推理請求及響應原始內容在廣域網及智算中心內不可獲取,保障企業(yè)數(shù)據(jù)安全。
目前,華為基于新一代AI路由器的智能IP廣域網關鍵設備及系統(tǒng)首家通過評估測試。測試報告顯示,基于稠密模型LLAMA2-13B、多模態(tài)模型Qwen2.5vl-32B、CV類模型RESNET、MoE類模型DeepSeek大模型,完成了三大場景測試:
海量樣本入算場景,具備“大象流”精準識別能力,可實現(xiàn)RDMA動態(tài)負載分擔,避免擁塞,可靈活配置1G~100G任意專線帶寬,開啟樣本入算高算效功能后,網絡有效吞吐不低于90%。
存算拉遠訓練場景,支持租戶級精準流控,實現(xiàn)網絡擁塞“0”丟包,實測拉遠400KM可以做到算效損失低于1%。存算拉遠訓練測試時將用戶樣本數(shù)據(jù)駐留本地存儲池,通過廣域RDMA拉遠至遠端智算中心內存訓練,數(shù)據(jù)不在智算中心磁盤存儲,并且多用戶隔離互不影響。
云邊協(xié)同推理場景,支持關鍵幀識別和加速技術,實測拉遠200KM、收斂比160:1情況下,算效劣化小于3.2%。在云邊協(xié)同過程中,本地訓推一體機部署模型首尾層,遠端智算中心部署模型中間層,Prompt由本地輸入,Token在本地生成,通過智能IP廣域網傳輸模型的中間層矢量化計算數(shù)據(jù),實現(xiàn)了數(shù)據(jù)不出域,模型不上云,分布式訓推全程安全,能夠滿足企業(yè)用算安全訴求。
此次信通院對智能IP廣域網關鍵設備和系統(tǒng)的評估,目的是為了驗證基于智算關鍵技術和設備搭建的實際網絡算效吞吐等性能指標,為運營商和業(yè)界廠商提供重要的指標參考依據(jù)。從而滿足政企用戶對網絡提供高吞吐、高效率、廣域無損傳輸?shù)乃憔W一體化服務的迫切要求。加速推動以算力和數(shù)據(jù)為核心的新質生產力發(fā)展,賦能千行百業(yè)的數(shù)字化轉型升級。