max (@Maxing)刚在本地搭建好了DeepSeek V4 Flash模型,分享下技术路径 中发帖

无任何违规内容,纯技术分享,求过审,给需要的佬们自己动手试试。 




手上有一台8卡A100,单卡40G显存的版本,NVLink形式,由于ollama还没有提供本地部署的版本,尝试了几种方法,在github上找到了一个可行的方式,另外还看到了MacBook Pro上的版本,这个我没试过。 
先说我的技术路线:使用nisparks大神调试的Llama.cpp版本加载“DeepSeek-V4-Flash-FP4-FP8-GGUF”即可稳定运行。 
显存占用如下: 
[image] 
运行界面如下: 
[e23c21511f23bd84a0d7d6974202195b] 
实现参考链接: 
1.在Llama.cpp的github问题中作者提到自己的解决方案: 

2.nisparks大神适配DeepSeek-V4-Flash的github链接: 

3.需要下载大神自己转换的GGUF...
 
 
Back to Top