🐟 (@stevessr)自适应并行推理:高效推理扩展的下一个范例 中发帖

[image] 

[!quote]+ 自适应并行推理系统 
推理时,我们实际上是要求模型执行映射-还原操作: 


将问题分叉为子任务/线程,并发处理它们 


将它们合并为最终答案 


 [5:叉连接推理设计] 
具体来说,模型会遇到一个子任务列表。然后,它将预填充每个子任务,并将其作为独立请求发送给推理引擎处理。然后,这些线程会同时进行解码,直到遇到结束标记或超过最大长度。这一过程会阻塞,直到所有线程完成解码,然后汇总结果。这在各种自适应并行推理方法中都很常见。但是,在聚合过程中会出现一个问题:分支中生成的内容无法在 KV 缓存级别上轻松聚合。这是因为独立线程中的标记从相同的位置 ID 开始,导致编码重叠,并在将 KV 缓存合并时产生非标准行为。同样,由于独立线程之间互不关注,因此它们合并后的 KV 缓存会产生非因果关注模式,而基础模型在训练过程中并没有看到这种模式。 
为...
 
 
Back to Top