ITCOW牛新网 9月25日消息,亚利桑那州立大学的科研团队近日使用PlanBench基准对OpenAI的o1模型进行了规划能力的测试。结果显示,o1模型在规划任务上取得了97.8%的准确率,相较于之前的最佳语言模型LLaMA 3.1 405B的62.6%准确率有了显著提升。
PlanBench基准开发于2022年,旨在评估AI系统的规划能力,包含600个来自Blocksworld领域的任务。这些任务要求积木按照特定顺序堆叠。在更具挑战性的“Mystery Blocksworld”版本中,o1模型的准确率也达到了52.8%,远超其他传统模型。
然而,研究同时发现,随着规划步骤的增加,o1模型的性能显著下降。在需要20至40个规划步骤的问题上,其准确率从97.8%骤降至23.63%。此外,o1在识别无法解决的任务方面也存在困难,正确识别率仅为27%,在54%的情况下会错误地生成完整但无法实现的计划。
尽管o1模型在基准测试中实现了“量子改进”,但研究指出,它并不能保证解决方案的正确性。与快速向下算法等经典规划算法相比,o1模型需要更长的计算时间才能达到完美准确性。
据ITCOW牛新网了解,运行这些测试的成本也相当高,近1900美元,而相比之下,传统算法在标准计算机上运行几乎不需要任何成本。研究人员强调,在对AI系统进行公平比较时,必须同时考虑准确性、效率、成本和可靠性。