s1c (@sun1chao) 在 2080ti 11g本地部署qwen 3.6 35b a3b，128k 上下文，67tps 中发帖我是windows上llama.cpp部署的，先看效果图

s1c (@sun1chao) 在 2080ti 11g本地部署qwen 3.6 35b a3b，128k 上下文，67tps 中发帖

我是windows上llama.cpp部署的，先看效果图。 
 [image] 
这里面，我用的模型是 unsloth 量化的 Qwen3.6-35B-A3B-UD-IQ1_M 模型。 
得益于其超强的量化，整个模型可以完美装在 2080ti 11g 显存里面，用 q4 量化上下文可以跑到128k 的上下文。 
单并发 67 tps 的速度，如果2-4并发最多可以翻倍tps。 

模型性能
跑在 pi-coding-agent 里面绰绰有余， 
我让他复现了一个自动证明系统，要求如下 
 [image] 
最后也是保质保量完成了，而且自己跑通了测试流程。 
为什么不用qwen 3.6 27B
我下载了qwen 3.6 27B 比较小的量化版本，可以全部跑在显存里面，但是上下文只有32k而且tps只有22左右，而且我接入 pi-coding-agent 里面还发生了死循环，感觉不太可用，虽然...