害你的猪 (@zhousp666)TeslaT4显卡跑模型真的不中用吗,主要用来沉浸式翻译 中发帖

我现在8卡的T4显卡,单卡16G,跑Qwen3.5-9B-Q4_K_M.gguf 
cli下测试的结果如下,速度都还行 
8卡结果:[ Prompt: 71.2 t/s | Generation: 23.7 t/s ]
单卡结果:[ Prompt: 78.2 t/s | Generation: 29.8 t/s ]
双卡结果:[ Prompt: 222.0 t/s | Generation: 37.9 t/s ]
双卡结果:[ Prompt: 86.2 t/s | Generation: 38.0 t/s ]
4卡结果:[ Prompt: 76.1 t/s | Generation: 23.8 t/s ]

选择了双卡来跑,也就是跑了4个,接入到了Metapi,再设置请求负载权重 
自己一个人使用,只是用来做网页沉浸式翻译 
首字节用时时长都好慢,翻译网页都要等个几秒,如何继续提升速度? 
...
 
 
Back to Top