布洛妮娅总裁 (@Bronya)MTP 太强了!为什么 Gemma4 不支持 MTP... 中发帖

最近在尝试本地部署 Qwen3.6-27B 和 Gemma4-31B,发现因为是 Dense 模型,两者的生成速度都挺慢(相比 200多 B 的 MoE 模型而言,速率还低了一半,只有约 25-30 token/s)。但是我发现 Qwen3.6 支持 Multi-Token Prediction (MTP) 功能,在 vllm 上尝试了一下,发现 TPS 直接提高到了 50-55,我的天 :tieba_030:! 
但是我看 Gemma4 官方模型不支持 MTP,如果 Gemma4 能达到这个速率的话我感觉还是 Gemma4 更好了 :tieba_030:。如果要提高 TPS 的话还有什么办法呢 🧐
 
 
Back to Top