ITCOW牛新网 3月24日消息,据证券时报报道,蚂蚁集团Ling团队近日在预印版Arxiv平台发表技术成果论文《每一个FLOP都至关重要:无需高级GPU即可扩展3000亿参数混合专家LING大模型》,宣布推出两款不同规模的混合专家(MoE)大语言模型——百灵轻量版(Ling-Lite)与百灵增强版(Ling-Plus)。通过一系列创新方法,蚂蚁集团成功在低性能硬件上高效训练大模型,显著降低了成本。

百灵轻量版参数规模为168亿(激活参数27.5亿),增强版基座模型参数规模高达2900亿(激活参数288亿),性能均达到行业领先水平。实验表明,其3000亿参数的MoE大模型可在使用国产GPU的低性能设备上完成高效训练,性能与完全使用英伟达芯片、同规模的稠密模型及MoE模型相当。
当前,MoE模型训练通常依赖英伟达H100/H800等高性能GPU,成本高昂且芯片短缺,限制了其在资源受限环境中的应用。蚂蚁集团Ling团队提出“不使用高级GPU”扩展模型的目标,通过以下创新策略突破资源与预算限制:
- 架构与训练策略革新:采用动态参数分配与混合精度调度技术,优化计算资源利用率。
- 升级训练异常处理机制:引入自适应容错恢复系统,缩短中断响应时间,提高训练稳定性。
- 优化模型评估流程:通过自动化评测框架,压缩验证周期超50%,提升效率。
- 突破工具调用能力:基于知识图谱的指令微调,提升复杂任务执行精度。
在五种不同硬件配置下,Ling团队对9万亿个token进行Ling-Plus预训练。结果显示,使用高性能硬件配置训练1万亿token的预训练成本约为635万元人民币,而采用蚂蚁优化方法后,低规格硬件训练成本降至508万元左右,节省近20%。此外,Ling-Plus的性能与阿里通义Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat相当,展现了其技术成果的实用性。
此前,DeepSeek通过算法创新及工程优化,使用英伟达H800训练出性能顶尖的V3与R1模型,为降低成本、提高效率开辟了新道路。蚂蚁集团的技术成果若得到验证推广,将助力国产大模型寻找成本更低、效率更高的国产芯片或其他替代方案,进一步降低对英伟达芯片的依赖。
蚂蚁集团Ling团队通过创新训练策略,成功在低性能硬件上高效训练3000亿参数的MoE大模型,显著降低了成本,同时保持了行业领先的性能。这一技术成果不仅为国产大模型的发展提供了新思路,也为全球人工智能领域的技术创新树立了典范。未来,随着技术的进一步推广和应用,蚂蚁集团有望在降低大模型训练成本、提升效率方面发挥更大的作用。