Bunn (@BunnHack)突破 Blackwell 算力瓶颈:Cursor 推出Warp Decode 将 MoE 推论吞吐量提升 1.84 倍 中发帖

混合专家模型(MoE) 已成为提升模型容量的标配。然而,随着 NVIDIA Blackwell 架构的到来,传统的“以专家为中心”的推论路径正逐渐暴露出它的局限性。 
近日,通过彻底翻转并行化逻辑,一种名为 Warp Decode 的全新技术方案脱颖而出。它不仅在 Blackwell GPU 上实现了 1.84 倍 的吞吐量提升,更在提升速度的同时增强了计算精度。 
大多数传统的 MoE 推论系统是围绕“专家(Expert)”来组织 Token 的生成路径的。简单来说,就是把一堆 Token 收集起来,分发给对应的专家处理,最后再拼凑回来。这在大规模批处理(Prefill 阶段)时表现优异,但在**小批次解码(Decode 阶段)**时,整理数据带来的额外开销(Overhead)远超计算本身。 
Warp Decode 彻底改变了这一点。 开发团队不再将 Warp(GPU 执行指令的最小 ...
 
 
Back to Top