@bzwf佬们,求指导如何使用华为 910B 显卡部署千问小模型 中发帖

佬们,为啥我用 8 卡的 910b 服务器部署千问 32 模型,api回复的特别慢,大概每秒两三个字左右。 
我是通过docker 部署的vl lm 加载的模型参数,使用命令查看八张卡的显存占用率都在 90% 以上,是vllm 的启动参数哪里设置的不对吗?
 
 
Back to Top