前阿里千问技术负责人林俊旸离职后发文指出,AI 大模型发展路线正从「推理型思考」转向「智能体思考」,第一波推理模型浪潮标志行业步入扩大强化学习后训练规模新阶段,数学与代码等领域是优化模型正确性的核心。他剖析了「融合思考与指令模式」的落地困境,千问团队曾尝试融合但遇冲突,后续推出分离变体,而 Anthropic 和 DeepSeek 等继续探索混合架构。他断言,单纯延长模型内部推理轨迹时代将过去,未来主导是智能体思考,智能体强化学习改变技术栈要求,防范奖励作弊是挑战,行业护城河将转向系统工程能力。