分享好友 资讯首页 频道列表

DeepSeek联合北大发布DSpark:大模型推理加速新突破,让AI输出更流畅

2026-06-28 21:3922270

在人工智能领域持续深耕的DeepSeek,近日联合北京大学团队发布了一项重要研究成果——大模型推理加速框架DSpark,并同步公开了相关论文《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》。这一创新成果已成功应用于DeepSeek-V4-Flash preview和DeepSeek-V4-Pro preview的生产服务系统,替代了原有的MTP-1方案。

在真实线上用户流量测试中,DSpark展现出显著的性能提升。在系统总吞吐水平保持不变的情况下,DeepSeek-V4-Flash的单用户生成速度提高了60%至85%,DeepSeek-V4-Pro的单用户生成速度也提升了57%至78%。这一突破性进展为大模型推理加速领域带来了新的解决方案。

当前主流语言模型在生成文本时普遍采用自回归方式,即每生成一个新token都需要进行一次前向计算。这种方式在输出较长文本时会导致解码步骤增多,延迟累积,特别是在实时聊天、多轮智能体工作流和代码助手等高交互场景中,生成速度直接影响用户体验和GPU利用率。为解决这一问题,推测解码技术应运而生。

推测解码的工作原理类似于"小模型打草稿,大模型审稿"的协作模式。系统先使用轻量级草稿模型生成候选token序列,再由目标模型一次性验证这些候选token。通过验证的token被接受,被拒绝位置的后续候选token全部作废,由目标模型生成修正token。由于验证阶段可以并行处理,这种技术能够在不改变目标模型输出分布的前提下提高生成速度。

尽管推测解码已成为大模型推理加速的重要方向,但现有方案仍存在明显局限。自回归草稿模型虽然生成的候选内容前后关系自然、质量较高,但生成过程需要逐步进行,候选token越多,草稿阶段耗时越长。并行草稿模型虽然能够一次性生成多个候选token,速度快且适合生成长候选块,但候选块内部token缺乏足够依赖关系,容易出现前后不一致的组合,导致后缀衰减现象。

DSpark框架通过创新设计同时解决了这两个问题。在生成侧,DSpark采用半自回归架构,在保留并行草稿模型主干实现大部分计算一次完成的同时,在输出端加入轻量级顺序模块,使后续token能够参考前面已采样的token。这种设计既保持了并行草稿模型的速度优势,又补充了部分自回归草稿模型的前后连贯性。

在验证侧,DSpark引入了基于置信度调度的验证机制。系统为每个候选位置预测置信度分数,表示在当前位置前面token都被目标模型接受的情况下,该位置继续被接受的概率。硬件感知前缀调度器会根据系统负载、候选位置置信度和引擎在不同批大小下的吞吐曲线,动态决定每个请求应验证的token数量。

离线实验结果显示,在Qwen3-4B、Qwen3-8B、Qwen3-14B和Gemma4-12B四个目标模型上,DSpark相比自回归草稿模型Eagle3的宏平均接受长度分别提升了30.9%、26.7%和30.0%,相比并行草稿模型DFlash分别提升了16.3%、18.4%和18.3%。在Gemma4-12B模型上,DSpark同样保持领先优势。

实验还发现,不同任务类型对候选token的接受率存在显著差异。以Qwen3-4B模型为例,数学任务的平均接受长度为5.57,代码任务为5.12,而聊天任务仅为3.49。这表明数学和代码等结构化任务的续写路径更稳定,而聊天等开放式任务的合理回答方式更多,相同长度的候选token在不同任务中的价值存在差异。

在线上部署测试中,DSpark展现了更强的适应性。面对中等并发请求时,DSpark会将验证预算从MTP-1的静态2个token扩展到4至6个token,使每次前向计算产生更多有效输出。当并发量升高导致目标模型接近饱和时,DSpark会自动缩短低置信度请求的验证长度,减少对批处理容量的占用。

具体测试数据显示,在DeepSeek-V4-Flash的生产引擎中,当服务目标为80 token/s/user时,DSpark相比MTP-1使系统总吞吐提升了51%;在更严格的120 token/s/user目标下,MTP-1已接近承载极限,而DSpark的名义吞吐优势达到661%。DeepSeek-V4-Pro的测试结果呈现类似趋势,在35 token/s/user目标下总吞吐提升52%,在50 token/s/user严格目标下名义吞吐优势达406%,使单用户生成速度提升了57%至78%。

DeepSeek不仅开放了DSpark的模型权重,包括DeepSeek-V4-Flash preview和DeepSeek-V4-Pro preview对应的模型检查点,还开源了面向推测解码训练的代码库DeepSpec,其中包含Eagle3、DFlash和DSpark等实现。这一举措为大模型推理加速领域的发展提供了重要支持,推动了行业技术进步。

反对 0
举报 0
收藏 0
打赏 0
评论 0
英加两校联手打造AI“算盘”:让机器数数像人类一样精准可靠
英加两校联手打造AI“算盘”:让机器数数像人类一样精准可靠

0评论2026-07-011391

从用户真实体验中“长”出的榜单:大众点评必吃榜重塑餐饮推荐信任逻辑
从用户真实体验中“长”出的榜单:大众点评必吃榜重塑餐饮推荐信任逻辑

0评论2026-07-012054

优必选周剑:机器人将替代手机,成为AI最核心交互终端
优必选周剑:机器人将替代手机,成为AI最核心交互终端

0评论2026-07-012270

DeepSeek 7月中旬推峰谷定价 高峰时段价格翻倍 开发者看法不一
DeepSeek 7月中旬推峰谷定价 高峰时段价格翻倍 开发者看法不一

0评论2026-07-01983

吉利科技新布局:四川新公司成立,李书福掌舵,低空经济等业务蓄势待发
吉利科技新布局:四川新公司成立,李书福掌舵,低空经济等业务蓄势待发

0评论2026-07-011698

英伟达Jetson边缘AI平台助力月球探测 开启太空数据处理实时分析新篇章
英伟达Jetson边缘AI平台助力月球探测 开启太空数据处理实时分析新篇章

0评论2026-07-011071

世界上最大粒子对撞机关闭,四年升级后或解锁暗物质等宇宙奥秘
世界上最大粒子对撞机关闭,四年升级后或解锁暗物质等宇宙奥秘

0评论2026-07-011100

数字市政加速推进:工业物联网赋能智慧水务精细化智能化升级
数字市政加速推进:工业物联网赋能智慧水务精细化智能化升级

0评论2026-07-011450

OpenAI推理成本减半:抢占市场先机,严守技术机密护航IPO与融资
OpenAI推理成本减半:抢占市场先机,严守技术机密护航IPO与融资

0评论2026-07-01665