布洛妮娅总裁 (@Bronya) 在 MTP 太强了！为什么 Gemma4 不支持 MTP... 中发帖最近在尝试本地部署 Qwen3.6-27B 和 Gemma4-31B，发现因为是 Dense 模型，两者的生成速度都挺慢（相比 200多 B 的 MoE 模型而言，速率还低了一半，只有约 25-30 token/s）

布洛妮娅总裁 (@Bronya) 在 MTP 太强了！为什么 Gemma4 不支持 MTP... 中发帖

最近在尝试本地部署 Qwen3.6-27B 和 Gemma4-31B，发现因为是 Dense 模型，两者的生成速度都挺慢（相比 200多 B 的 MoE 模型而言，速率还低了一半，只有约 25-30 token/s）。但是我发现 Qwen3.6 支持 Multi-Token Prediction (MTP) 功能，在 vllm 上尝试了一下，发现 TPS 直接提高到了 50-55，我的天 :tieba_030:！ 
但是我看 Gemma4 官方模型不支持 MTP，如果 Gemma4 能达到这个速率的话我感觉还是 Gemma4 更好了 :tieba_030:。如果要提高 TPS 的话还有什么办法呢 🧐