son0ma 在实测: 接上次opus4.6蒸馏qwen3.5 27B本地部署优化方案中发帖上次发帖实测用m5max本地部署opus4.6蒸馏qwen3.5 模型,最后碰到了缓存时效和系统提示词重复读取的问题,这两天抽空倒腾了一下,分享一下优化方案~

son0ma 在实测: 接上次opus4.6蒸馏qwen3.5 27B本地部署优化方案中发帖

上次发帖实测用m5max本地部署opus4.6蒸馏qwen3.5 模型,最后碰到了缓存时效和系统提示词重复读取的问题,这两天抽空倒腾了一下,分享一下优化方案~ 
1. 放弃LM Studio,改用OMLX
OMLX专为mac优化,底层原生 mlx,可以让模型运行是最大程度优化和节省内存 
下载安装地址: https://omlx.ai/ 
2. 模型选择,mac用户 切记必须要选择 mlx类模型
mlx是mac 26年最新的优化方案,大幅度提升了 首字时间,不再罚站!!! 
所以模型必须选择 MLX-Qwopus3.5-27B-v3-8bit 
v3版本蒸馏了opus4.6的工具调用逻辑 
3. 参数微调
Temperature先选择0.3 因为用途是做开发,所以还是严谨一点好 
必开TurboQuant KV Cache 这是M5的最大优势!!! KV可以缓存至SSD 
 [imag...