LINUX DO Channel

Sss Hust (@sss-hust) 在 kernel优化策略求教中发帖
当前在参与 AMD x GPU MODE - E2E Model Speedrun · Luma比赛，主要背景是在decode阶段，计算吸收完矩阵的Q与$$c^kv$$相乘得到O，关键瓶颈在于KVcache的读写问题（1024/8192的长度，batch从4->128）,前期用vibe coding不带脑子的做了下，MLA算子卡在了200us左右，优化时感觉头脑空空的，不知道该往哪个方向去，于是去看了这篇文章Inside NVIDIA GPUs: Anatomy of high performance matmul kernels - Aleksa Gordić （看到tensor core之前），知道了对于当前这个场景，tiling很重要。 
于是用脑思考再来过，让ai分析了一波厉害的算子优化师会如何去做优化——建立roofline模型、查看CPU端指令发送情况（使用的是popcorn-...