max (@Maxing) 在 刚在本地搭建好了DeepSeek V4 Flash模型,分享下技术路径 中发帖
无任何违规内容,纯技术分享,求过审,给需要的佬们自己动手试试。
手上有一台8卡A100,单卡40G显存的版本,NVLink形式,由于ollama还没有提供本地部署的版本,尝试了几种方法,在github上找到了一个可行的方式,另外还看到了MacBook Pro上的版本,这个我没试过。
先说我的技术路线:使用nisparks大神调试的Llama.cpp版本加载“DeepSeek-V4-Flash-FP4-FP8-GGUF”即可稳定运行。
显存占用如下:
[image]
运行界面如下:
[e23c21511f23bd84a0d7d6974202195b]
实现参考链接:
1.在Llama.cpp的github问题中作者提到自己的解决方案:
2.nisparks大神适配DeepSeek-V4-Flash的github链接:
3.需要下载大神自己转换的GGUF...