SGLang 原生支持昇腾，新模型一键拉起无需改代码

2025 年 12 月 22 日

12 月 20 日在杭州收官的 SGLang AI 金融 π 对聚焦大模型推理效率，探讨推理系统在真实负载中的工程问题。活动由 SGLang 与 AtomGit 社区联合发起，众多一线工程团队参与。针对 Agent 在应用中对推理系统提出的更高要求，SGLang 给出工程实践解法，如引入 HiCache 体系降低显存占用、Mooncake 压缩权重加载和模型启动时间等，且这些能力已能在昇腾平台运行。活动展示了 SGLang 在昇腾平台的进展，包括模型优化、系统特性、量化能力等方面，还对 DeepSeek、Qwen 等模型进行优化。昇腾 7 月启动与 SGLang 的适配工作，目标是全面拥抱开源、加速生态建设，已完成对 DeepSeek V3.2 的灰度测试。未来，昇腾将围绕推理系统进行系统性工程投入，以支持高并发、低时延的真实业务负载。