微软携手清华、北大推出奖励推理模型：根据 AI 任务复杂性动态分配计算资源

2025 年 5 月 27 日

微软研究院联合清华大学、北京大学推出奖励推理模型（RRMs），通过显式推理过程动态分配计算资源，提升复杂任务评估效果。RRMs 基于 Qwen2 模型，采用 Transformer-decoder 架构，将奖励建模转化为文本补全任务，在 RewardBench 和 PandaLM Test 基准测试中表现突出，尤其在复杂查询中有效利用测试时计算资源，显著超越基线模型。研究显示，模型规模扩大和更长推理时间可进一步提升准确性。

IT 之家

微软清华北大联手，推出 RRMs 模型，让 AI 推理更智能高效

ITBear 科技资讯

微软携手清华、北大推出奖励推理模型：根据 AI 任务复杂性动态分配计算资源

凤凰科技

专业版功能

体验专业版特色功能，拓展更丰富、更全面的相关内容。