Sss Hust (@sss-hust)kernel优化策略求教 中发帖

当前在参与 AMD x GPU MODE - E2E Model Speedrun · Luma比赛,主要背景是在decode阶段,计算吸收完矩阵的Q$$c^kv$$相乘得到O,关键瓶颈在于KVcache的读写问题(1024/8192的长度,batch从4->128,前期用vibe coding不带脑子的做了下,MLA算子卡在了200us左右,优化时感觉头脑空空的,不知道该往哪个方向去,于是去看了这篇文章Inside NVIDIA GPUs: Anatomy of high performance matmul kernels - Aleksa Gordić (看到tensor core之前),知道了对于当前这个场景,tiling很重要。 
于是用脑思考再来过,让ai分析了一波厉害的算子优化师会如何去做优化——建立roofline模型、查看CPU端指令发送情况(使用的是popcorn-...
 
 
Back to Top