Moonshot AI 携手清华大学发布 PrfaaS 架构，破解大模型算力瓶颈

4 月 20 日

大语言模型（LLM）推理性能瓶颈正被新技术打破，Moonshot AI 与清华大学研究团队联合提出「预填充即服务（PrfaaS）」新型架构。该架构将预填充与解码「手术刀式」分离，实现跨地域高效协同，把高计算密集的预填充任务卸载到专门高计算集群，生成的 KVCache 远程传输至本地解码集群，并引入双时间尺度调度机制确保传输高效。实测中，该架构使服务吞吐量提升 54%，降低响应延迟，实现资源利用率最大化。此次合作提供了新工程思路，为跨地域算力网络构建奠定基础，「预填充即服务」模式或成大模型迈向工业化应用的重要分水岭。