OpenAI 推出名为 SimpleQA 的新开源基准,旨在衡量语言模型在回答事实寻求问题时的准确性。该基准通过确保问题答案的正确性和多样性,以及挑战性,旨在解决现有语言模型生成错误或未经证实答案的问题。SimpleQA 具有简洁的问题和答案格式,便于评估,并且经实验证明对前沿模型如 GPT-4o 具有挑战性。然而,SimpleQA 的准确性仅限于短查询的事实导向问题。OpenAI 希望通过开源 SimpleQA 促进 AI 研究,进一步提升模型的可信度和可靠性,并已提供开源链接和论文供研究参考。