ITCOW牛新网 3月28日消息,阿里巴巴通义千问团队于今日凌晨推出新一代多模态视觉推理模型QVQ-Max。该模型突破传统计算机视觉的感知局限,实现了从”看到”到”想到”的认知跃迁,具备图像/视频解析、逻辑推理、内容创作三大核心能力,目前已集成至Qwen Chat平台开放体验。

通义千问发布QVQ-Max视觉推理大模型

技术突破:构建视觉认知闭环

原子级视觉解析

  • 可精准识别复杂图表中的数据趋势、日常照片中的隐藏细节(如模糊文字、背景元素),支持对医学影像、工程图纸等专业内容的跨领域解析。

因果推理引擎

  • 在数学几何题测试中,能根据图形特征自动推导证明步骤;
  • 视频理解方面,可分析画面时序关系预测剧情发展(如通过演员微表情推断冲突爆发节点)。

生成式创作

  • 输入服装设计草图可输出4K渲染效果图;
  • 根据家庭照片生成带有角色设定的互动剧本,支持第一人称/上帝视角切换。

场景化应用矩阵

领域典型功能案例技术支撑
教育物理受力分析图自动解题+三维动画演示符号逻辑+空间建模
职场会议白板拍照转结构化会议纪要OCR+语义归纳
创作分镜草图→分镜头脚本→短视频成片建议跨模态序列生成
生活冰箱食材拍照→推荐菜谱+营养搭配报告多对象关系推理

实测表现

在内部测试中,QVQ-Max展现出以下颠覆性体验:

  • 法律文件分析:对200页扫描案卷的争议点提取准确率达92%,远超传统NLP模型;
  • 工业质检:发现电路板图像中0.1mm级虚焊缺陷,较传统CV方案误检率降低67%;
  • 影视创作:根据3张剧照生成5种合理剧情分支,获专业编剧团队认可。

用户现可通过Qwen Chat上传图片/视频,点击”Thinking”按钮触发智能推理。阿里透露,正在开发API接口供企业调用,医疗诊断、自动驾驶等垂直领域专用版本将于Q3发布。