DeepSeek 与北大联合开源 DSpark:高并发推理速度提升 60% 至 85%
16 小时前
DeepSeek 联合北京大学发布 DSpark 推理加速框架,旨在解决大语言模型高并发生产环境中的推理效率瓶颈,已部署于 DeepSeek-V4-Flash 与 DeepSeek-V4-Pro 预览版服务引擎。相比单 token 推测解码基线 MTP-1,同等吞吐量下单用户生成速度提升 60% 至 85%,相关论文、训练代码等已在 GitHub 开源。该框架针对推测解码候选生成质量与验证阶段计算资源占用的瓶颈,提出半自回归架构与置信度调度验证机制。半自回归架构通过并行主干网络一次性产出候选位置隐藏状态和基础 logits,结合轻量级顺序模块注入前缀依赖信息,提升参数效率。置信度调度验证机制基于候选位置置信度分数,通过硬件感知前缀调度器动态决定验证长度,优化计算资源分配。离线基准测试显示,在数学推理、代码生成和日常对话任务上,DSpark 平均每轮接受长度优于自回归草稿模型 Eagle3 与并行草稿模型 DFlash。生产部署中,DSpark 草稿模型采用特定架构,训练阶段实现系统优化以降低通信复杂度和计算内存开销,实际系统集成中通过异步调度和物理执行与逻辑序列跟踪解耦应对工程约束。在线实测中,DSpark 在不同引擎及 SLA 下显著提升吞吐量,且调度器具备负载自适应的验证预算分配能力。其局限在于复杂查询时完整初始候选块的草稿计算开销无法回收。
2026-04-24
DeepSeek-V4 预览版本正式发布并开源2026-04-20
Moonshot AI 携手清华大学发布 PrfaaS 架构,破解大模型算力瓶颈2026-04-04
DeepSeek V4 优先支持国产 AI 芯片:巨头已开始提前抢货2026-01-27
DeepSeek 发布 DeepSeek-OCR 2 模型2026-01-21
DeepSeek 新模型曝光:MODEL1 代码预示新架构,最快有望 2 月发布2026-01-12
DeepSeek 将于春节前后发布新一代大模型 V4,主打代码生成能力2025-12-01
DeepSeek V3.2 正式版发布:强化 Agent 能力,融入思考推理2025-10-20
DeepSeek 团队发布最新开源模型 DeepSeek-OCR2025-09-30
DeepSeek 新模型上线,昇腾、寒武纪、海光等宣布适配查看更多
体验专业版特色功能,拓展更丰富、更全面的相关内容。