ITCOW牛新网 7月2日消息,腾讯公司昨日宣布推出其自研星脉网络的2.0版本,这一升级版网络在多个关键性能指标上实现了显著提升。新版本星脉网络支持单集群10万卡组网,网络通信效率比上一代提高了60%,而大模型训练效率也提升了20%。故障定位能力更是从天级缩短至分钟级。
腾讯自研的交换机和硅光模块都经历了重要的技术升级。交换机的容量从25.6T提升到了51.2T,实现了容量翻倍;硅光模块的速率也从200G升级到了400G,同样实现了翻倍。此外,新版本还搭载了自研算力网卡,整机通信带宽达到了3.2T,为业界最高水平。
在软件层面,腾讯全新通信协议TiTa2.0的部署位置从交换机转移到了网卡上,拥塞算法也从被动升级为主动控制,进一步提升了星脉网络的通信效率30%,同时使大模型训练效率提升了10%。
腾讯还推出了全新的高性能集合通信库TCCL2.0,该通信库采用NVLINK+NET异构并行通信技术,实现了数据的高效并行传输。Auto-Tune Network Expert自适应算法能够根据机型、网络规模、模型算法等因素的不同,自动调整数据包分割大小和匹配算法等参数,进一步提升了星脉网络的通信性能30%,使大模型训练效率再次提升10%。
据ITCOW牛新网了解,TiTa与TCCL的升级效果叠加,使得星脉网络的通信效率总共提升了60%,大模型训练效率总共提升了20%。