🐟 (@stevessr) 在自适应并行推理：高效推理扩展的下一个范例中发帖[image]

🐟 (@stevessr) 在自适应并行推理：高效推理扩展的下一个范例中发帖

[image] 

[!quote]+ 自适应并行推理系统 
推理时，我们实际上是要求模型执行映射-还原操作： 


将问题分叉为子任务/线程，并发处理它们 


将它们合并为最终答案 


 [图 5：叉连接推理设计] 
具体来说，模型会遇到一个子任务列表。然后，它将预填充每个子任务，并将其作为独立请求发送给推理引擎处理。然后，这些线程会同时进行解码，直到遇到结束标记或超过最大长度。这一过程会阻塞，直到所有线程完成解码，然后汇总结果。这在各种自适应并行推理方法中都很常见。但是，在聚合过程中会出现一个问题：分支中生成的内容无法在 KV 缓存级别上轻松聚合。这是因为独立线程中的标记从相同的位置 ID 开始，导致编码重叠，并在将 KV 缓存合并时产生非标准行为。同样，由于独立线程之间互不关注，因此它们合并后的 KV 缓存会产生非因果关注模式，而基础模型在训练过程中并没有看到这种模式。 
为...