Jeff Dean (@Xsc15926) 在 Google AI Edge Gallery 已支持 MTP 中发帖需要更新到 v1.0.13 ，下载新的模型文件，并打开这个开关启用

Jeff Dean (@Xsc15926) 在 Google AI Edge Gallery 已支持 MTP 中发帖

需要更新到 v1.0.13 ，下载新的模型文件，并打开这个开关启用 
 [IMG_20260510_132231.jpg] 



我们现正为 Gemma 4 系列发布“多词元预测”（Multi-Token Prediction，简称 MTP）草稿模型。通过采用一种专门的推测解码架构，这些草稿模型可在不降低输出质量或推理逻辑准确性的前提下，实现高达 3 倍的推理速度提升。 
为何选用推测解码？
从技术现实来看，标准的 LLM（大型语言模型）推理过程往往受限于内存带宽，从而产生了严重的延迟瓶颈。处理器将绝大部分时间都耗费在将数十亿个模型参数从显存（VRAM）传输至计算单元上，而这一切仅仅是为了生成一个词元。这种低效的资源利用导致了计算单元的闲置以及高昂的推理延迟，尤其是在消费级硬件平台上。 
推测解码技术将词元的“生成”过程与“验证”过程解耦开来。通过将一个计算开销较大的“目标模型”（例...