North_warm 在 新人刚进,给大家分享最近部署的一点点经验,关于qwen3.5 122b部署在昇腾910B4服务器上,刚好对未来比较迷茫,想问问大家 中发帖
内网ARM服务器部署Qwen3.5 122B模型实录
设备:8张昇腾910B4卡,NPU驱动25.2.3,ARM架构,内网离线环境
目标:跑通Qwen3.5-122B-A10B
一、环境确认,前置条件
架构:uname -m → 必须输出 aarch64,否则后面所有镜像都得重新选。
NPU状态:npu-smi info → 确认8张卡都在,健康状态OK,驱动版本记下来。
Docker:docker version → 最好20.10以上。
二、镜像选择
quay.io/ascend/vllm-ascend-v0.17.0rc1,适配Qwen3.5、miniMax 2.5 awq
这是华为官方适配昇腾NPU的vLLM镜像,内置了CANN、torch_npu、vllm-ascend插件,不需要下载任何环境。
下载到内网(外网有Windows电脑的情况):
bash
# 在外...