ITCOW牛新网 12月16日消息,国内AI研发公司“月之暗面”今日发布全新视觉思考模型 K1。该模型原生支持端到端图像理解和思维链(CoT)技术,能够通过拍照或上传图片解决数理化等基础科学领域的题目,并完整展示解题的思考过程。这一功能已上线最新版「Kimi 智能助手」的手机App和网页版。

月之暗面推出视觉思考模型 K1:支持拍照答题

K1 的核心功能与特点

  1. 拍照解题 + 思维链展示
    用户可通过「Kimi 视觉思考版」拍摄或上传试题图片,模型会给出详细的解题过程,不仅展示答案,还完整呈现推理与计算的每一步。
  2. 覆盖更多基础科学领域
    除数学外,K1 模型的能力已扩展至物理、化学等领域,在基准测试中表现优异,超过了 OpenAI 的 o1、GPT-4o 和 Claude 3.5 Sonnet 等知名模型。
  3. 增强的字符与图像理解
    在 OCR(光学字符识别)方面,K1 的基础模型在 OCRBench 测试中取得 903 分的业界领先成绩,并在 MathVista-testmini、MMMU-val 和 DocVQA 数据集上分别达到 69.1、66.7 和 96.9 的高分。
  4. 创新测试集:Science Vista
    为克服当前行业缺乏标准化图形测试集的瓶颈,Kimi 团队自建了 Science Vista 测试集。该测试集涵盖不同难度的数理化题目,贴合实际用户需求,并已宣布向全行业开放申请使用。
月之暗面推出视觉思考模型 K1:支持拍照答题

K1 的训练分为预训练和强化学习两个阶段:

  • 预训练:优化字符与图像识别能力,构建扎实的基础模型。
  • 强化学习:聚焦数据质量与学习效率,通过大规模强化学习优化提升模型表现。

在强化学习的规模化方面,K1 取得了显著突破,为复杂问题求解提供了更强的支持。

月之暗面推出视觉思考模型 K1:支持拍照答题

尽管 K1 在基准测试中表现出色,但月之暗面在内部测试中发现了一些模型的局限性:

  • 分布外泛化能力:对未见过的题型或场景表现仍需提升。
  • 复杂问题处理:在高难度问题上的成功率仍有优化空间。
  • 噪声处理与多轮问答:在图像噪声场景及多轮复杂交互中表现尚需改进。

K1 的发布不仅为用户提供了高效的学习工具,还推动了AI在基础科学教育中的应用。其思维链功能让用户直观了解解题逻辑,有助于知识理解与学习能力的提升。同时,Science Vista 测试集的开放也为行业建立了一个重要的评测标准,填补了基础科学图形数据集的空白。

未来,K1 的进一步优化有望在更多学科领域和应用场景中展现潜力,为AI教育工具的发展注入新的动力。