@CimixIntel Arc Alchemist架构(A770 / A750)运行Qwen 3.5并支持多模态之二 中发帖

继续上周的开源推广项目的记录,本篇不涉及推广内容,基本算是技术路线描述、性能统计和一点碎碎念,因此需要获取原项目的直接移步下面帖子里的Github链接即可 
项目起始: 
https://linux.do/t/topic/1829505 
开源地址 


周末主要做的工作就是写基于Pytorch 的 XPU 自定义算子。 
只支持 XPU,限定了 query/key/value/z 同 dtype,支持 float16、bfloat16、float32。但内部把 beta、g、norm_weight 和递推状态统一提升到 float32 来算,状态张量 working_state 也统一 float32,这是为了数值稳定做出的妥协,降级的话总是遇到乱码问题。 
对每个 head 的输出做 RMSNorm,再乘 norm_weight,最后乘 silu(z) 门控。 
Qwen3GatedD...
 
 
Back to Top