beginor 在本地部署 GLM-5.2 的门槛太高了，根本玩不起！中发帖智谱最近发布的 GLM-5.2 口碑很好，于是想在算力服务器上试一下，结果发现，门槛太高了，根本玩不起！

beginor 在本地部署 GLM-5.2 的门槛太高了，根本玩不起！中发帖

智谱最近发布的 GLM-5.2 口碑很好，于是想在算力服务器上试一下，结果发现，门槛太高了，根本玩不起！ 
前后尝试了两个版本，分别是： 

unsloth 的UD-Q4_K_XL 量化版本 https://huggingface.co/unsloth/GLM-5.2-GGUF/tree/main/UD-Q4_K_XL
智谱官方的FP8 量化版本 https://huggingface.co/zai-org/GLM-5.2-FP8

先说一下 UD-Q4_K_XL 量化版本，下载下来的 gguf 文件共 436G ，4 张 H20 （共 560G 显存），编译最新的 llama.cpp 来运行，结果发现只有 20 ～ 30tokens/秒，更别说并发访问了，基本没法用； 
然后是 FP8 量化版本，权重文件共 704G ，8 张 H20 （共 1.1T 显存），下载最新的 vllm 来运行...