OpenAI 推出代码生成评估基准
2024 年 8 月 14 日
OpenAI 推出了一个用于评估 AI 模型解决现实世界软件问题的基准 ——SWE-bench Verified,这是对原有 SWE-bench 的改进版本。这个基准旨在更可靠地评估 AI 模型解决真实软件问题的能力,随着 AI 系统越来越接近通用人工智能(AGI),对于评估它们的能力的要求也越来越高。
2026-05-12
OpenAI 推出 Daybreak 项目:重塑软件安全开发流程2026-03-25
OpenAI 完成新款 AI 模型的初步开发2026-03-04
OpenAI 据悉正在开发 GitHub 的替代产品,或与微软展开正面竞争2026-01-21
OpenAI 与思科携手,Codex 助力企业软件缺陷修复效率暴增 15 倍2026-01-20
OpenAI 与 ServiceNow 达成协议,将 AI 模型集成进业务软件2026-01-04
OpenAI 加速音频模型升级,为首款硬件设备铺路2026-01-01
OpenAI 加码音频人工智能研发,备战首款硬件设备2025-12-11
OpenAI:新 AI 模型或构成高级别网络安全风险2025-11-24
OpenAI 加强应对 Google AI 竞争2025-11-24
OpenAI 宣布将停止 GPT-4o 模型 API 访问查看更多
体验专业版特色功能,拓展更丰富、更全面的相关内容。