ITCOW牛新网 3月28日消息,阿里巴巴通义千问团队于今日凌晨推出新一代多模态视觉推理模型QVQ-Max。该模型突破传统计算机视觉的感知局限,实现了从”看到”到”想到”的认知跃迁,具备图像/视频解析、逻辑推理、内容创作三大核心能力,目前已集成至Qwen Chat平台开放体验。

技术突破:构建视觉认知闭环
原子级视觉解析
- 可精准识别复杂图表中的数据趋势、日常照片中的隐藏细节(如模糊文字、背景元素),支持对医学影像、工程图纸等专业内容的跨领域解析。
因果推理引擎
- 在数学几何题测试中,能根据图形特征自动推导证明步骤;
- 视频理解方面,可分析画面时序关系预测剧情发展(如通过演员微表情推断冲突爆发节点)。
生成式创作
- 输入服装设计草图可输出4K渲染效果图;
- 根据家庭照片生成带有角色设定的互动剧本,支持第一人称/上帝视角切换。
场景化应用矩阵
领域 | 典型功能案例 | 技术支撑 |
---|---|---|
教育 | 物理受力分析图自动解题+三维动画演示 | 符号逻辑+空间建模 |
职场 | 会议白板拍照转结构化会议纪要 | OCR+语义归纳 |
创作 | 分镜草图→分镜头脚本→短视频成片建议 | 跨模态序列生成 |
生活 | 冰箱食材拍照→推荐菜谱+营养搭配报告 | 多对象关系推理 |
实测表现
在内部测试中,QVQ-Max展现出以下颠覆性体验:
- 法律文件分析:对200页扫描案卷的争议点提取准确率达92%,远超传统NLP模型;
- 工业质检:发现电路板图像中0.1mm级虚焊缺陷,较传统CV方案误检率降低67%;
- 影视创作:根据3张剧照生成5种合理剧情分支,获专业编剧团队认可。
用户现可通过Qwen Chat上传图片/视频,点击”Thinking”按钮触发智能推理。阿里透露,正在开发API接口供企业调用,医疗诊断、自动驾驶等垂直领域专用版本将于Q3发布。