月之暗面发布 Kimi 多模态图片理解模型 Vision，强化图像识别与文字解析能力

ITCOW牛新网 1月15日消息，月之暗面团队今日发布了全新多模态图片理解模型 moonshot-v1-vision-preview（以下简称“Vision 模型”），进一步完善其 moonshot-v1 模型系列的多模态能力。Vision 模型支持图像识别、文字解析以及多种复杂应用场景。

1. 图像识别能力
Vision 模型以高精度著称，能够处理图像中复杂的细节与细微差别。官方在演示中展示了模型对一组视觉迷惑图的识别能力：

蓝莓松饼与吉娃娃识别
在下图示例中，官方通过拼接了16张看似相似的蓝莓松饼与吉娃娃图像，让模型进行逐一识别。Vision 模型成功准确地区分了两者，无论是食物还是动物，都能通过细节差异完成分类。这种能力在食品加工、宠物管理及其他高精度场景中具有广泛应用潜力。

2. 文字识别与理解
Vision 模型还在 OCR 文字识别方面表现出色，不仅可以处理常规打印文字，还能识别手写体内容。例如：

收据与手写文本识别
官方展示了模型解析一张手写收据的能力，能够准确提取包括日期、金额、交易单位等关键信息。此外，针对柱状图的分析，Vision 模型不仅能精准读取科目名称及对应的成绩数据，还可以对柱状图的美学风格进行分析，如配色与排版结构。这为文档自动化处理、财务审计和教育评估提供了更强大的支持。

Vision 模型 API 采用 按量计费 模式，根据 token 使用量计算，价格如下：

用户可根据具体场景选择适配的模型版本，同时支持 多轮对话、流式输出、工具调用等高级功能，但目前不支持联网搜索或直接通过 URL 加载图片。