ArkaneFansDeepSeek发布疑似针对gemma4和qwen3的草稿模型 中发帖

看了眼deepseek的抱抱脸仓库,发现最近上传了一些神秘模型,惯例没有模型卡 
 [image] 
乍一看还以为是什么新的蒸馏模型呢,研究了下好像是采用eagle3和DFlash这两者推测解码算法的草稿模型,联想到之前deepseek的论文,应该是做实验用的。 
如果能加速推理效果好还是很不错的,就是不知道为啥还要搞个qwen3的草稿模型 🧐
 
 
Back to Top