DeepSeek 与北大联合开源 DSpark：高并发推理速度提升 60% 至 85%

16 小时前

DeepSeek 联合北京大学发布 DSpark 推理加速框架，旨在解决大语言模型高并发生产环境中的推理效率瓶颈，已部署于 DeepSeek-V4-Flash 与 DeepSeek-V4-Pro 预览版服务引擎。相比单 token 推测解码基线 MTP-1，同等吞吐量下单用户生成速度提升 60% 至 85%，相关论文、训练代码等已在 GitHub 开源。该框架针对推测解码候选生成质量与验证阶段计算资源占用的瓶颈，提出半自回归架构与置信度调度验证机制。半自回归架构通过并行主干网络一次性产出候选位置隐藏状态和基础 logits，结合轻量级顺序模块注入前缀依赖信息，提升参数效率。置信度调度验证机制基于候选位置置信度分数，通过硬件感知前缀调度器动态决定验证长度，优化计算资源分配。离线基准测试显示，在数学推理、代码生成和日常对话任务上，DSpark 平均每轮接受长度优于自回归草稿模型 Eagle3 与并行草稿模型 DFlash。生产部署中，DSpark 草稿模型采用特定架构，训练阶段实现系统优化以降低通信复杂度和计算内存开销，实际系统集成中通过异步调度和物理执行与逻辑序列跟踪解耦应对工程约束。在线实测中，DSpark 在不同引擎及 SLA 下显著提升吞吐量，且调度器具备负载自适应的验证预算分配能力。其局限在于复杂查询时完整初始候选块的草稿计算开销无法回收。