elpicio (@gwwgwd) 在关于千问模型cot over thinking的问题中发帖最近在测试千问系思考模型的表现，意外发现从QWQ开始到Qwen 3.6的一系列模型都存在reasoning loop的问题

elpicio (@gwwgwd) 在关于千问模型cot over thinking的问题中发帖

最近在测试千问系思考模型的表现，意外发现从QWQ开始到Qwen 3.6的一系列模型都存在reasoning loop的问题。具体而言就是模型在cot里不断重复类似的内容或者不断进行检查，导致达到max_token从而不输出content。不知道佬友们有没有遇到过类似的情况 🫠 
▶ 
以下是一个例子：
我使用QWQ-32b,Qwen-3.6-35BA3B,Qwen-3.6-27B在trivial QA，GSM8K,HotpotQA，CoQA上进行测试,具体结果如下： 
▶ 
使用参数为：

  数量结果
  
    
      
        模型 / 运行
        数据集
        样本数
        尝试数
        成功
        失败
        成功率
        失败类型
        失败样本数
        reasoning 长度中...