@brilliantrough 在 对于 gpt 模型和 claude code 上缓存的思考 / auto prefix cache vs. cache control 中发帖
关于之前的帖子,我有过关于 claude code 缓存的疑问,我后面更新了一下,决定再开一篇帖子,转述一遍,从评论区转述我自己哈哈
目前已确认,是 claude code 本身的问题,只能命中少数缓存是因为 claude code 的缓存是 anthropic 他们自定义的一套,他们采用了分段分块缓存的策略,就是 cache control 这种断点。
因为 claude code 的设计模式里面,并不是保证已经存在的文本成为历史消息后不再变动,他们会在一些文本节点处注入一些动态的信息,每次请求都不一样,比如时间戳之类的。
而正是因为 anthropic 他们后端推理引擎实现的这套缓存策略,可以完美和自家的这个契合,基本都能缓存上。至于具体原理我不懂。但是因为他们是自己实现了一套缓存的策略和 openai 这边的 prefix cache 不一致,导致 gpt 模型,转成 anthr...