beginor 在 本地部署 GLM-5.2 的门槛太高了,根本玩不起! 中发帖
智谱最近发布的 GLM-5.2 口碑很好,于是想在算力服务器上试一下,结果发现,门槛太高了,根本玩不起!
前后尝试了两个版本,分别是:
unsloth 的UD-Q4_K_XL 量化版本 https://huggingface.co/unsloth/GLM-5.2-GGUF/tree/main/UD-Q4_K_XL
智谱官方的FP8 量化版本 https://huggingface.co/zai-org/GLM-5.2-FP8
先说一下 UD-Q4_K_XL 量化版本,下载下来的 gguf 文件共 436G ,4 张 H20 (共 560G 显存),编译最新的 llama.cpp 来运行,结果发现只有 20 ~ 30tokens/秒,更别说并发访问了,基本没法用;
然后是 FP8 量化版本,权重文件共 704G ,8 张 H20 (共 1.1T 显存),下载最新的 vllm 来运行...