Bunn (@BunnHack) 在突破 Blackwell 算力瓶颈：Cursor 推出Warp Decode 将 MoE 推论吞吐量提升 1.84 倍中发帖混合专家模型（MoE）已成为提升模型容量的标配

Bunn (@BunnHack) 在突破 Blackwell 算力瓶颈：Cursor 推出Warp Decode 将 MoE 推论吞吐量提升 1.84 倍中发帖

混合专家模型（MoE） 已成为提升模型容量的标配。然而，随着 NVIDIA Blackwell 架构的到来，传统的“以专家为中心”的推论路径正逐渐暴露出它的局限性。 
近日，通过彻底翻转并行化逻辑，一种名为 Warp Decode 的全新技术方案脱颖而出。它不仅在 Blackwell GPU 上实现了 1.84 倍 的吞吐量提升，更在提升速度的同时增强了计算精度。 
大多数传统的 MoE 推论系统是围绕“专家（Expert）”来组织 Token 的生成路径的。简单来说，就是把一堆 Token 收集起来，分发给对应的专家处理，最后再拼凑回来。这在大规模批处理（Prefill 阶段）时表现优异，但在**小批次解码（Decode 阶段）**时，整理数据带来的额外开销（Overhead）远超计算本身。 
Warp Decode 彻底改变了这一点。 开发团队不再将 Warp（GPU 执行指令的最小 ...