爱长草的云 (@easywangzhe) 在请教下各位佬友关于本地部署的问题中发帖最近手上有台m4max 32g的macstudio，如是想在本地部署模型使用，体验体验效果

爱长草的云 (@easywangzhe) 在请教下各位佬友关于本地部署的问题中发帖

最近手上有台m4max 32g的macstudio，如是想在本地部署模型使用，体验体验效果。 
用过ollmam，lmstudio以及oMLX这三个推理工具，因为就本地个人使用，也不怎么考虑并发的问题，体验过后觉得oMLX对于mac系统的优化相对其它两个更合适，而且它的本地硬盘缓存确实体验起来速度也相对更快 
使用过程中还是遇到了一些体验上的问题，这里做一个记录，如果有遇到过相同问题的佬友有解决办法希望不吝赐教。 
我本地部署了两个模型分别是 
Qwen3.5-27B-Claude-4.6-Opus-Distiled-MLX-4bit 
gemma-4-26b-a4b-it-4bit 
都是mlx格式，上下文窗口，maxtoken等参数设置基本一致，通过本地端口分别接入了cc和cherrystudio中。 
用cs分别跟两个模型聊天，反应速度都很快。但使用cc就完全不一样了，首先不管是ge...