max (@Maxing) 在刚在本地搭建好了DeepSeek V4 Flash模型，分享下技术路径中发帖无任何违规内容，纯技术分享，求过审，给需要的佬们自己动手试试

max (@Maxing) 在刚在本地搭建好了DeepSeek V4 Flash模型，分享下技术路径中发帖

无任何违规内容，纯技术分享，求过审，给需要的佬们自己动手试试。 




手上有一台8卡A100,单卡40G显存的版本，NVLink形式，由于ollama还没有提供本地部署的版本，尝试了几种方法，在github上找到了一个可行的方式，另外还看到了MacBook Pro上的版本，这个我没试过。 
先说我的技术路线：使用nisparks大神调试的Llama.cpp版本加载“DeepSeek-V4-Flash-FP4-FP8-GGUF”即可稳定运行。 
显存占用如下： 
[image] 
运行界面如下： 
[e23c21511f23bd84a0d7d6974202195b] 
实现参考链接： 
1.在Llama.cpp的github问题中作者提到自己的解决方案： 

2.nisparks大神适配DeepSeek-V4-Flash的github链接： 

3.需要下载大神自己转换的GGUF...