OpenAI 宣布开源 SimpleQA 新基准,专治大模型 「胡言乱语」
2024 年 10 月 31 日

OpenAI 推出名为 SimpleQA 的新开源基准,旨在衡量语言模型在回答事实寻求问题时的准确性。该基准通过确保问题答案的正确性和多样性,以及挑战性,旨在解决现有语言模型生成错误或未经证实答案的问题。SimpleQA 具有简洁的问题和答案格式,便于评估,并且经实验证明对前沿模型如 GPT-4o 具有挑战性。然而,SimpleQA 的准确性仅限于短查询的事实导向问题。OpenAI 希望通过开源 SimpleQA 促进 AI 研究,进一步提升模型的可信度和可靠性,并已提供开源链接和论文供研究参考。

专业版功能专业版功能
登录
体验专业版特色功能,拓展更丰富、更全面的相关内容。

行业标签

logo
科技新闻,每天 3 分钟
icon
icon
icon
icon