ITCOW牛新网 10月31日消息,OpenAI昨日发布了一项名为SimpleQA的开源基准,旨在通过精准的短事实查询测试,衡量大语言模型的准确性,以应对AI模型常见的“幻觉”问题,即模型生成虚假或未经证实的答案。OpenAI表示,SimpleQA的推出将为训练和评估更可靠的语言模型提供支持,有助于推动AI的事实性表现,适用于更广泛的应用场景。

OpenAI开源SimpleQA基准

SimpleQA数据集拥有四大特性,以保证测试的可靠性和多样性。首先,数据集中的问题参考答案由两位AI训练师独立验证,以确保高正确性。其次,SimpleQA覆盖范围广泛,涉及科技、娱乐等多个领域,适合多样化测试。此外,SimpleQA挑战性较高,尤其针对GPT-4o等前沿模型更具评测价值;相比之下,早期的TriviaQA和NQ等基准数据集在面对新一代模型时则显得局限,GPT-4o的测试分数甚至未能达到40%。最后,SimpleQA在设计上注重用户体验,其简短的问答形式便于快速、高效地评估,适合通过OpenAI API等接口进行自动评分。

SimpleQA虽然提供了高精度的事实性测量,但其评测范围仍局限于短、单一事实查询的问题。OpenAI指出,目前尚不清楚语言模型在短回答中的表现与其在长篇、多信息内容上的表现是否具有一致性。这一悬而未决的问题或将成为未来AI研究的方向之一。通过开源SimpleQA,OpenAI希望引导模型研究向更高的事实性和可靠性发展,使AI模型在实际应用中更具信赖性。