DeepSeek 与北大、清华在 ArXiv 发布论文,提出全新针对智能体的推理框架 DualPath。其核心是解决 Agent 长文本推理 I/O 瓶颈,通过引入「存储至解码」路径,改变传统单路径加载模式,实现集群存储带宽全局池化与动态负载均衡。在 660B 规模模型实测中,离线推理吞吐量提高 1.87 倍,在线服务吞吐量平均提升 1.96 倍,优化首字延迟且不影响 Token 间生成速度。DualPath 构建双路径模型,由推理引擎、流量管理器和中央调度器组成,还给出以计算网卡为中心的流量管理和自适应请求调度器两套优化方案。实验显示其能有效突破大模型推理 I/O 墙,提升智能体 LLM 推理系统效率。此外,论文第一作者是北大博士生吴永彤,他聚焦系统软件与大模型基础设施研究。