@Yek_yek 在 各位佬友,ccr怎么控制glm的thinking模式 中发帖
我使用sglang部署了glm4.6,在glm的github上是这么描述的:
使用vLLM和SGLang时,发送请求时默认启用思考模式。如果要禁用思考开关,需要添加 extra_body={"chat_template_kwargs": {"enable_thinking": False}}参数。
现在接入到ccr中倒是可以用了,但是由于claudecode中不显示思考过程,我也不清楚到底是使用的思考模式还是非思考模式。
有没有什么办法能够通过在ccr中配置参数来控制思考模式和非思考模式,这样我就能把两个模式分别作为思考模型和非思考模型接入到claudecode中了。
我没看明白ccr的自定义transformer怎么写,不知道能否实现这个功能?