AI 大模型公司 MiniMax 开源编程智能体指令遵循基准 OctoCodingBench,用于评估代码仓库场景下脚手架感知指令遵循能力。现有基准测试多关注任务完成度,忽略智能体完成任务时是否遵循规则,而在真实编程场景中,智能体需遵守系统级行为约束、项目编码规范等。OctoCodingBench 测试智能体对 7 种异构指令来源的遵循程度,具有区分任务完成与规则遵循、多源异构约束等核心特性。本次发布包含 72 个精选实例,涵盖任务规范、系统提示等内容,所有任务环境打包为公开的 Docker 镜像,可直接拉取查看。详情查看:https://huggingface.co/datasets/MiniMaxAI/OctoCodingBench 。