Jeff Dean (@Xsc15926)Google AI Edge Gallery 已支持 MTP 中发帖

需要更新到 v1.0.13 ,下载新的模型文件,并打开这个开关启用 
 [IMG_20260510_132231.jpg] 



我们现正为 Gemma 4 系列发布“多词元预测”(Multi-Token Prediction,简称 MTP)草稿模型。通过采用一种专门的推测解码架构,这些草稿模型可在不降低输出质量或推理逻辑准确性的前提下,实现高达 3 倍的推理速度提升。 
为何选用推测解码?
从技术现实来看,标准的 LLM(大型语言模型)推理过程往往受限于内存带宽,从而产生了严重的延迟瓶颈。处理器将绝大部分时间都耗费在将数十亿个模型参数从显存(VRAM)传输至计算单元上,而这一切仅仅是为了生成一个词元。这种低效的资源利用导致了计算单元的闲置以及高昂的推理延迟,尤其是在消费级硬件平台上。 
推测解码技术将词元的“生成”过程与“验证”过程解耦开来。通过将一个计算开销较大的“目标模型”(例...
 
 
Back to Top