热闻岛
返回全网热点

算力提速关键突破:北大与 DeepSeek 联合开源大模型推理框架 DSpark

3小时前3 阅读
算力提速关键突破:北大与 DeepSeek 联合开源大模型推理框架 DSpark配图
人工智能推理效率的瓶颈,正在迎来新的技术突破。6月28日,北京大学与深度求索(DeepSeek)正式宣布联合推出并开源大模型推理加速框架——DSpark,旨在解决大语言模型在高并发推理场景下,因频繁执行前向计算而导致的响应延迟与算力浪费难题。 在大语言模型的标准自回归生成流程中,系统每输出一个词元都需要消耗完整的算力资源,这直接限制了对话的实时响应速度。虽然

人工智能推理效率的瓶颈,正在迎来新的技术突破。6月28日,北京大学与深度求索(DeepSeek)正式宣布联合推出并开源大模型推理加速框架——DSpark,旨在解决大语言模型在高并发推理场景下,因频繁执行前向计算而导致的响应延迟与算力浪费难题。

在大语言模型的标准自回归生成流程中,系统每输出一个词元都需要消耗完整的算力资源,这直接限制了对话的实时响应速度。虽然推测解码是目前行业的主流提速手段,但传统方案存在明显短板:简单模型串行生成耗时较长,而并行模型在处理长序列文本时,往往会出现候选接受率下降的问题,导致大量算力被无效消耗。

算力提速关键突破:北大与 DeepSeek 联合开源大模型推理框架 DSpark配图

针对这些痛点,DSpark 创新性地引入了双重优化机制。在候选生成阶段,它采用半自回归架构,通过并行主干网络一次性输出高质量的基础特征,并辅以轻量化模块优化文本逻辑,仅需两层 Transformer 结构即可达到优于五层并行模型的表现,在速度与质量之间取得了巧妙平衡。在验证调度层面,框架引入了置信度调度验证机制,由硬件感知前缀调度器实时判断算力负载,优先处理可靠性高的文本片段,从而 最大 程度减少无效计算。

经通义千问3、Gemma4等主流模型在代码编写、数学推理及日常对话等多场景下的严格测试,DSpark 的表现十分亮眼。相较于 Eagle3和 DFlash 两类行业主流基线模型,其单轮有效生成长度具备明显优势,尤其在长序列生成任务中,有效缓解了候选有效率衰减的难题。

工程化落地层面,研发团队进行了深度系统级优化,包括采用序列打包降低内存消耗、设计异步调度模式消除 GPU 流水线卡顿,并确保了对主流 CUDA 硬件生态的兼容。目前,DSpark 已率先落地于 DeepSeek-V4-Flash 与 DeepSeek-V4-Pro 预览版服务引擎。实测数据显示,无论在何种响应速度标准下,系统整体吞吐量均实现了跨越式增长。

据悉,深度求索已在 GitHub DeepSpec 项目中开源了 DSpark、DFlash 及 Eagle3的全套训练代码、模型权重及评估工具。这一举措将大幅降低行业高性能推理服务的部署成本,为大模型的低成本普及提供了一套切实可行的技术范式。

要点速读

人工智能推理效率的瓶颈,正在迎来新的技术突破。6月28日,北京大学与深度求索(DeepSeek)正式宣布联合推出并开源大

  • 人工智能推理效率的瓶颈,正在迎来新的技术突破
  • 6月28日,北京大学与深度求索(DeepSeek)正式宣布联合推出并开源大
  • 更多细节仍在持续更新中