阿里通义千问发布QVQ-Max视觉推理大模型：实现从图像识别到逻辑推理的跨越

3 月 28, 2025 #QVQ-Max视觉推理大模型, #通义千问

ITCOW牛新网 3月28日消息，阿里巴巴通义千问团队于今日凌晨推出新一代多模态视觉推理模型QVQ-Max。该模型突破传统计算机视觉的感知局限，实现了从”看到”到”想到”的认知跃迁，具备图像/视频解析、逻辑推理、内容创作三大核心能力，目前已集成至Qwen Chat平台开放体验。

通义千问发布QVQ-Max视觉推理大模型

技术突破：构建视觉认知闭环

原子级视觉解析

可精准识别复杂图表中的数据趋势、日常照片中的隐藏细节（如模糊文字、背景元素），支持对医学影像、工程图纸等专业内容的跨领域解析。

因果推理引擎

在数学几何题测试中，能根据图形特征自动推导证明步骤；
视频理解方面，可分析画面时序关系预测剧情发展（如通过演员微表情推断冲突爆发节点）。

生成式创作

输入服装设计草图可输出4K渲染效果图；
根据家庭照片生成带有角色设定的互动剧本，支持第一人称/上帝视角切换。

场景化应用矩阵

领域	典型功能案例	技术支撑
教育	物理受力分析图自动解题+三维动画演示	符号逻辑+空间建模
职场	会议白板拍照转结构化会议纪要	OCR+语义归纳
创作	分镜草图→分镜头脚本→短视频成片建议	跨模态序列生成
生活	冰箱食材拍照→推荐菜谱+营养搭配报告	多对象关系推理

实测表现

在内部测试中，QVQ-Max展现出以下颠覆性体验：

法律文件分析：对200页扫描案卷的争议点提取准确率达92%，远超传统NLP模型；
工业质检：发现电路板图像中0.1mm级虚焊缺陷，较传统CV方案误检率降低67%；
影视创作：根据3张剧照生成5种合理剧情分支，获专业编剧团队认可。

用户现可通过Qwen Chat上传图片/视频，点击”Thinking”按钮触发智能推理。阿里透露，正在开发API接口供企业调用，医疗诊断、自动驾驶等垂直领域专用版本将于Q3发布。

相关文章

李开复：大模型推理成本年降十倍 2025年将成AI应用落地关键年

Manus收费方案公布：月费39美元起，实现全流程自动化任务处理

OpenAI推出AI”USB接口”MCP协议智能体开发迎来标准化时代

更多资讯

乘联会崔东树：电动车是最低成本出行工具，每公里仅6分钱

2025年 3月 30日

OPPO Find X8s官宣：1.25mm极窄边框+7.73mm超薄机身 4月10日全球首发

2025年 3月 30日

李开复：大模型推理成本年降十倍 2025年将成AI应用落地关键年

2025年 3月 30日

中国商飞向老挝交付首架C909客机国产支线飞机首次进入老挝市场

2025年 3月 30日