@bzwf 在佬们，求指导如何使用华为 910B 显卡部署千问小模型中发帖佬们，为啥我用 8 卡的 910b 服务器部署千问 32 模型，api回复的特别慢，大概每秒两三个字左右

@bzwf 在佬们，求指导如何使用华为 910B 显卡部署千问小模型中发帖

佬们，为啥我用 8 卡的 910b 服务器部署千问 32 模型，api回复的特别慢，大概每秒两三个字左右。 
我是通过docker 部署的vl lm 加载的模型参数，使用命令查看八张卡的显存占用率都在 90% 以上，是vllm 的启动参数哪里设置的不对吗？