ITCOW牛新网 9月20日消息,据科技媒体The Decoder报道,OpenAI的最新人工智能模型o1-preview和o1-mini在聊天机器人竞技场Chatbot Arena上取得了优异成绩,登顶榜首。
聊天机器人竞技场是一个评估和比较不同人工智能模型性能的平台,它通过社区评分来衡量模型的表现。在这次评估中,o1-preview和o1-mini在数学任务、复杂提示和编程方面展现出色的能力,得分超过1360分,远超其他模型。
这些模型的目标是为AI推理设定新的标准,它们在回答问题前会进行更长时间的“思考”,以提供更准确的答案。然而,o1模型在某些任务上并不总是优于GPT-4o,尤其是那些不需要复杂逻辑推理的任务,GPT-4o的反应速度可能更快。
需要注意的是,尽管o1-preview和o1-mini在Chatbot Arena上的表现令人印象深刻,但它们的票数远低于GPT-4o或Anthropic的Claude 3.5等成熟模型。每个模型的评论数量不到3000条,这样的样本量可能无法完全准确地代表所有用户的实际体验,因此这些结果的意义可能受到一定限制。