ITCOW牛新网 3月25日消息,昨晚,DeepSeek 在其官方交流群中宣布,DeepSeek-V3 模型已完成小版本升级,并已上架开源网站。尽管此次更新并非用户期待已久的 R2 或 V4 版本,但其在编程能力、对话交互和开源生态上的显著突破,仍引发了广泛关注。


升级亮点:
编程能力媲美 Claude 3.7 Sonnet
- 根据社区测试和国外开源评测平台 kcores-llm-arena 的数据,DeepSeek V3-0324 的代码能力得分为 328.3 分,超过了普通版 Claude 3.7 Sonnet 的 322.3 分,接近思维链版本的 334.8 分。这意味着,新版 V3 已成为目前编程能力最强的开源模型之一。

技术架构创新
- 专家混合模型(MoE):V3-0324 采用了 6710 亿参数 的 MoE 架构,激活参数为 370 亿。
- 偏差项机制:为解决传统 MoE 模型中的负载不均衡问题,DeepSeek 团队引入了创新性的“偏差项”机制,有效平衡专家负载,提升模型性能。
- 节点受限路由机制:减少跨节点通信开销,提高训练效率,支持大规模分布式训练。
推理速度显著提升
- 通过技术创新,V3 在推理速度上实现了显著提升,能够在保持高效计算的同时,扩展到更多节点和专家。
开源许可更新
- DeepSeek 将 V3-0324 的开源许可更新为 MIT 开源许可,与 R1 版本一致。这一变更使得新版 V3 的开源使用条件更加宽松,进一步推动了开源生态的发展。

用户可通过 DeepSeek 官方网页、App 和小程序体验新版 V3(需关闭深度思考功能)。API 接口和使用方式保持不变,方便开发者无缝接入。
此次升级虽然是小版本更新,但其在编程能力和技术架构上的突破,展现了 DeepSeek 在 AI 模型领域的持续创新能力。新版 V3 的开源许可更新,也为开发者提供了更灵活的使用条件,有望进一步推动开源 AI 生态的繁荣。
DeepSeek-V3 的小版本升级,不仅在编程能力上达到了与 Claude 3.7 Sonnet 相当的水平,还通过技术架构创新和开源许可更新,为用户和开发者带来了更多可能性。随着 DeepSeek 在 AI 领域的持续深耕,未来更多突破性版本值得期待。