ITCOW牛新网 12 月 21 日消息,OpenAI 在其年度“12 Days of OpenAI”活动的最后一天重磅发布了 o3 系列大模型,该系列模型的性能在部分场景下被认为接近通用人工智能(AGI),标志着 OpenAI 在 AI 发展道路上的又一次重要突破。

OpenAI 推出全新 o3 系列大模型

OpenAI 首席执行官山姆・阿尔特曼(Sam Altman)在今日的直播活动中解释,o3 之所以跳过“o2”命名,是为了避免与英国电信运营商 O2 的商标冲突。这也使得 o3 成为其 o1 推理模型的直接继任者。

o3 系列包含两个版本:完整版和精简版(o3-mini)。其中,o3-mini 是针对特定任务优化的版本,便于满足轻量级计算场景需求。

目前,OpenAI 尚未完全开放 o3 系列模型,仅邀请安全研究人员注册测试 o3-mini 的预览版(申请链接:OpenAI 注册页面)。o3-mini 将在 2025 年 1 月底推出,完整版 o3 则会在稍后发布。

OpenAI 推出全新 o3 系列大模型

据 ITCOW牛新网了解,o3 系列的主要特性集中于推理能力和事实核查能力的增强,同时通过“私人思想链”(private chain of thought)优化推理逻辑,使模型能够暂停响应、考虑提示并解释过程,以提供更精确的答案。不过,这一改进引入了响应延迟,视任务复杂性可能需要数秒到数分钟。

o3 系列模型在多个基准测试中展现出色表现:

  • 事实核查功能:o3 能展开事实核查,显著减少常见错误,但这一过程可能引起延迟。用户可根据需求调整推理时间,选择低、中、高三种计算级别。计算级别越高,模型的任务执行性能越强,但资源消耗也越大。
  • ARC-AGI 基准测试:在高计算设置下,o3 获得了 87.5% 的分数,在低计算设置下得分 75.7%,性能是 o1 的三倍。这一成绩被视为 OpenAI 向 AGI 目标迈进的重要里程碑。
  • 其他基准测试
    • SWE-Bench Verified 编程任务:o3 比 o1 高出 22.8 个百分点;
    • Codeforces 编程技能测试:o3 获得了 2727 分;
    • 2024 年美国数学邀请赛:得分 96.7%;
    • GPQA Diamond 科学考试:在生物、物理和化学科目中得分 87.7%;
    • EpochAI 的 Frontier Math 测试:o3 解决了 25.2% 的问题,相较其他模型大幅领先。
OpenAI 推出全新 o3 系列大模型
OpenAI 推出全新 o3 系列大模型
OpenAI 推出全新 o3 系列大模型
OpenAI 推出全新 o3 系列大模型

这些结果虽然来自 OpenAI 的内部评估,但仍需外部机构的进一步验证以确认其可靠性。

AGI(通用人工智能)是 OpenAI 长期追求的核心目标,其定义为“在经济价值最高的工作中超越人类的高度自治系统”。值得注意的是,根据 OpenAI 与微软的合作协议,一旦实现 AGI,OpenAI 将不再向微软提供符合 AGI 定义的最新技术。这也使得 o3 的发布在技术和商业领域均具有重要意义。

总的来说,o3 系列大模型的发布表明 OpenAI 正在进一步巩固其在人工智能领域的领先地位,同时推动通用人工智能的实现。据悉,后续的 o3 版本开放计划将根据测试结果逐步推进,感兴趣的用户可持续关注 OpenAI 官方动态。