ITCOW牛新网 3月6日消息,“零一万物”今日通过其官方公众号宣布将开源 Yi-9B 模型。这款被团队昵称为“理科状元”的模型,在代码和数学方面展示了强大的能力,实际参数达到8.8B,并拥有默认上下文长度4K tokens的出色表现。
Yi-9B是基于Yi-6B模型的进一步演进。据悉,Yi-6B在先前已使用了高达3.1T tokens的数据进行训练;而此次发布的Yi-9B,则在Yi-6B的基础上额外利用0.8T tokens进行持续训练,数据集的时间线截至2023年6月。
在模型性能的综合评测中,Yi-9B表现卓越,尤其在尺寸相近的开源模型中更是脱颖而出。具体而言,在综合能力方面(Mean-All),Yi-9B成功超越了DeepSeek-Coder、DeepSeek-Math、Mistral-7B、SOLAR-10.7B以及Gemma-7B,展现了全面的领先优势。
在代码能力(Mean-Code)上,Yi-9B的表现紧随DeepSeek-Coder-7B之后,并成功超越了Yi-34B、SOLAR-10.7B、Mistral-7B和Gemma-7B。而在数学能力(Mean-Math)的测试中,Yi-9B再次仅次于DeepSeek-Math-7B,同时超越了SOLAR-10.7B、Mistral-7B和Gemma-7B,验证了其强大的数学处理能力。此外,在常识和推理能力(Mean-Text)的测试中,Yi-9B与Mistral-7B、SOLAR-10.7B和Gemma-7B等模型不相上下,展示了其全面的性能实力。
值得注意的是,Yi-9B模型在实用性上也取得了显著突破。据官方介绍,Yi-9B(BF 16)及其量化版本Yi-9B(Int8)均能够轻松部署在消费级显卡上,这不仅降低了使用成本,也为广大开发者提供了更为便捷友好的开发环境。
据了解,由李开复创新工场董事长兼CEO领军的“零一万物”一直致力于推动AI领域的研究与应用。此前,该公司已成功推出Yi-34B和Yi-6B两个开源大模型,并宣称对学术研究完全开放,同时还提供免费的商用申请机会。