SGLang 原生支持昇腾,新模型一键拉起无需改代码
2025 年 12 月 22 日

12 月 20 日在杭州收官的 SGLang AI 金融 π 对聚焦大模型推理效率,探讨推理系统在真实负载中的工程问题。活动由 SGLang 与 AtomGit 社区联合发起,众多一线工程团队参与。针对 Agent 在应用中对推理系统提出的更高要求,SGLang 给出工程实践解法,如引入 HiCache 体系降低显存占用、Mooncake 压缩权重加载和模型启动时间等,且这些能力已能在昇腾平台运行。活动展示了 SGLang 在昇腾平台的进展,包括模型优化、系统特性、量化能力等方面,还对 DeepSeekQwen 等模型进行优化。昇腾 7 月启动与 SGLang 的适配工作,目标是全面拥抱开源、加速生态建设,已完成对 DeepSeek V3.2 的灰度测试。未来,昇腾将围绕推理系统进行系统性工程投入,以支持高并发、低时延的真实业务负载。

专业版功能专业版功能
登录
体验专业版特色功能,拓展更丰富、更全面的相关内容。

行业标签

二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验

科技新闻,每天 3 分钟