ITCOW牛新网 9月13日消息,人工智能企业OpenAI今日宣布,其最新研发的AI模型“o1”正式亮相。这一模型,之前代号为“草莓”,是OpenAI在推理能力上的一次重大突破,代表了AI技术在模拟人类思维和问题解决方面的最新进展。

OpenAI o1模型

o1模型的推出,是OpenAI在AI推理领域的一次大胆尝试。该模型通过特殊的训练方法,能够在处理复杂问题时展现出超越人类的速度和效率。与o1模型一同发布的还有其简化版o1-mini,这一版本在保持核心功能的同时,降低了成本,使得更多用户能够体验到AI推理的魅力。

OpenAI o1模型
o1 性能随着训练时间和测试时间计算平稳提升

OpenAI表示,从9月13日起,ChatGPT Plus和Team用户将能够率先体验到o1-preview和o1-mini的强大功能,而Enterprise和Edu用户也将在下周初获得相应的访问权限。o1-preview 和 o1-mini 都可以在模型选择器中手动选择,目前,每周发送消息次数限制为 o1-preview 30 条消息和 o1-mini 50 条消息。OpenAI正在努力提高这些发送次数,并使 ChatGPT 能够根据给定的提示自动选择正确的模型。

OpenAI o1模型

符合API 使用等级 5 的开发人员现在可以开始使用 API 中的两种o1模型进行原型设计,速率限制为 20 RPM。需要注意的是,o1模型的 API 目前不包括函数调用、流式传输、对系统消息的支持和其他功能。

OpenAI o1模型
o1 在推理基准上大大优于 GPT-4o
OpenAI o1模型
o1在 57 个 MMLU 子类别中的 54 个子类别基准测试中胜过 GPT-4o
OpenAI o1模型
OpenAI对o1模型和GPT-4o模型进行了人类偏好评估,在涉及数据分析、编程和数学等需要较强推理能力的领域,o1-Preview 模型其受欢迎程度远超 GPT-4o。然而,o1-Preview 在处理某些自然语言任务时的表现并不尽如人意,因此它可能并不适合所有类型的应用场景。
OpenAI o1模型
OpenAI在附录中给出了o1模型与GPT-4o模型对比的数据集

据ITCOW牛新网了解,o1模型的训练采用了全新的优化算法和定制化的数据集,这使得模型在处理编程和数学问题时更加得心应手。在国际数学奥林匹克竞赛的资格考试中,o1模型展现出了解决83%问题的能力,这一成绩在AI领域中堪称卓越。OpenAI表示:

在许多推理能力较强的基准测试中,o1 可与人类专家的表现相媲美。最近的前沿模型在 MATH 和 GSM8K上表现出色,以至于这些基准测试不再能够有效区分模型。我们评估了 AIME 的数学表现,AIME 是一项旨在挑战美国最聪明的高中数学学生的考试。在 2024 年的 AIME 考试中,GPT-4o 平均仅解决了 12% (1.8/15) 的问题。o1 在每个问题单个样本中平均为 74% (11.1/15),在 64 个样本中达成共识为 83% (12.5/15),在使用学习到的评分函数对 1000 个样本重新排名时为 93% (13.9/15)。13.9 的分数使其跻身全国前 500 名学生之列,并超过了美国数学奥林匹克的分数线。

我们还在 GPQA 钻石上对 o1 进行了评估,这是一个很难的智能基准,测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较,我们招募了具有博士学位的专家来回答 GPQA 钻石问题。我们发现 o1 的表现超过了那些人类专家,成为第一个在这个基准上做到这一点的模型。这些结果并不意味着 o1 在各方面都比博士更有能力——只是意味着该模型在解决一些博士需要解决的问题方面更熟练。在其他几个 ML 基准测试中,o1 的表现都超过了最先进的水平。在启用视觉感知功能后,o1 在 MMMU 上的得分为 78.2%,成为第一个与人类专家相媲美的模型。它还在 57 个 MMLU 子类别中的 54 个子类别中胜过 GPT-4o。

OpenAI也给出了o1模型的适用对象:

如果您正在解决科学、编码、数学和类似领域的复杂问题,这些增强的推理能力可能特别有用。例如,医疗研究人员可以使用 o1 来注释细胞测序数据,物理学家可以使用 o1 来生成量子光学所需的复杂数学公式,各领域的开发人员可以使用 o1 来构建和执行多步骤工作流程。

OpenAI官方在最后结论中指出,“o1 显著提升了 AI 推理的最新水平。我们计划在不断迭代的过程中发布此模型的改进版本。我们期望这些新的推理能力将提高我们将模型与人类价值观和原则相结合的能力。我们相信 o1 及其后续产品将在科学、编码、数学和相关领域为 AI 解锁许多新用例”。而OpenAI将o1模型的命名寓意为“将计数器重置回1”,也象征着该公司在AI领域的新起点和对未来技术的无限憧憬。