ITCOW牛新网 12 月 21 日消息,OpenAI 在其年度“12 Days of OpenAI”活动的最后一天重磅发布了 o3 系列大模型,该系列模型的性能在部分场景下被认为接近通用人工智能(AGI),标志着 OpenAI 在 AI 发展道路上的又一次重要突破。
OpenAI 首席执行官山姆・阿尔特曼(Sam Altman)在今日的直播活动中解释,o3 之所以跳过“o2”命名,是为了避免与英国电信运营商 O2 的商标冲突。这也使得 o3 成为其 o1 推理模型的直接继任者。
o3 系列包含两个版本:完整版和精简版(o3-mini)。其中,o3-mini 是针对特定任务优化的版本,便于满足轻量级计算场景需求。
目前,OpenAI 尚未完全开放 o3 系列模型,仅邀请安全研究人员注册测试 o3-mini 的预览版(申请链接:OpenAI 注册页面)。o3-mini 将在 2025 年 1 月底推出,完整版 o3 则会在稍后发布。
据 ITCOW牛新网了解,o3 系列的主要特性集中于推理能力和事实核查能力的增强,同时通过“私人思想链”(private chain of thought)优化推理逻辑,使模型能够暂停响应、考虑提示并解释过程,以提供更精确的答案。不过,这一改进引入了响应延迟,视任务复杂性可能需要数秒到数分钟。
o3 系列模型在多个基准测试中展现出色表现:
- 事实核查功能:o3 能展开事实核查,显著减少常见错误,但这一过程可能引起延迟。用户可根据需求调整推理时间,选择低、中、高三种计算级别。计算级别越高,模型的任务执行性能越强,但资源消耗也越大。
- ARC-AGI 基准测试:在高计算设置下,o3 获得了 87.5% 的分数,在低计算设置下得分 75.7%,性能是 o1 的三倍。这一成绩被视为 OpenAI 向 AGI 目标迈进的重要里程碑。
- 其他基准测试:
- SWE-Bench Verified 编程任务:o3 比 o1 高出 22.8 个百分点;
- Codeforces 编程技能测试:o3 获得了 2727 分;
- 2024 年美国数学邀请赛:得分 96.7%;
- GPQA Diamond 科学考试:在生物、物理和化学科目中得分 87.7%;
- EpochAI 的 Frontier Math 测试:o3 解决了 25.2% 的问题,相较其他模型大幅领先。
这些结果虽然来自 OpenAI 的内部评估,但仍需外部机构的进一步验证以确认其可靠性。
AGI(通用人工智能)是 OpenAI 长期追求的核心目标,其定义为“在经济价值最高的工作中超越人类的高度自治系统”。值得注意的是,根据 OpenAI 与微软的合作协议,一旦实现 AGI,OpenAI 将不再向微软提供符合 AGI 定义的最新技术。这也使得 o3 的发布在技术和商业领域均具有重要意义。
总的来说,o3 系列大模型的发布表明 OpenAI 正在进一步巩固其在人工智能领域的领先地位,同时推动通用人工智能的实现。据悉,后续的 o3 版本开放计划将根据测试结果逐步推进,感兴趣的用户可持续关注 OpenAI 官方动态。