近日,中國電信云網融合工作取得新突破。中國電信集團公司統(tǒng)一組織中國電信北京公司、中國電信研究院,在現(xiàn)網完成業(yè)內首例智算長距無損互聯(lián)技術驗證,分布式訓練性能達到集中式單智算中心訓練性能的90%以上,證實了分布式無損智算網技術方向的可行性,充分發(fā)揮出中國電信云網融合的優(yōu)勢。
大模型的參數規(guī)模每18個月提升10倍,驅動智算中心建設規(guī)模從萬卡,邁入十萬乃至百萬卡,單體數據中心的算力、空間、供電等資源難以滿足需求。中國電信一直走在智算基礎設施建設的前列,集團云網發(fā)展部在業(yè)界率先提出通過長距無損智算網構建分布式智算集群的創(chuàng)新方向,并將其納入到科創(chuàng)重點攻關課題。而當前業(yè)內大模型訓練網絡最遠無損傳輸距離不超過2公里,長距離無損傳輸一直是困擾業(yè)界的難題。
中國電信成立聯(lián)合項目攻關組,聚焦研究長距無損智算網絡技術。經過近一年的攻關,成功解決了超百公里無損智算網難題,智算DCN網絡由DC內走向廣域網,將物理上分散的智算資源整合成一個智算集群。聯(lián)合項目組嚴謹論證,扎實推進,于2023年8月份完成分布式無損智算網方案設計,同年10月份開始基于云網融合大科創(chuàng)裝置持續(xù)開展長距無損交換機技術驗證,2024年2月份在北京電信現(xiàn)網完成800G超高速波分技術驗證。通過不斷完善和優(yōu)化,近日在實驗室完成萬億/十萬億級參數大模型分布式訓練仿真驗證,并在北京電信武清、永豐、瀛海三地IDC機房完成數百億參數經典大模型的分布式訓練任務,這將為京津冀等算力協(xié)同調度奠定基礎,促進數字經濟與實體經濟的深入融合。
未來,中國電信將繼續(xù)面向更大規(guī)模、更長距離的分布式智算網發(fā)起攻關,走出一條具備中國電信特色的新型智算基礎設施發(fā)展道路,賦能千行百業(yè)智能化升級。