elpicio (@gwwgwd) 在 关于千问模型cot over thinking的问题 中发帖
最近在测试千问系思考模型的表现,意外发现从QWQ开始到Qwen 3.6的一系列模型都存在reasoning loop的问题。具体而言就是模型在cot里不断重复类似的内容或者不断进行检查,导致达到max_token从而不输出content。不知道佬友们有没有遇到过类似的情况 🫠
▶
以下是一个例子:
我使用QWQ-32b,Qwen-3.6-35BA3B,Qwen-3.6-27B在trivial QA,GSM8K,HotpotQA,CoQA上进行测试,具体结果如下:
▶
使用参数为:
数量结果
模型 / 运行
数据集
样本数
尝试数
成功
失败
成功率
失败类型
失败样本数
reasoning 长度中...