LINUX DO Channel

豹豹 (@pup) 在为啥模型越来越智能, 也越来越"难用"? 聊聊厂商心里的小九九中发帖

背景: 我：实现出来 * 3；codex：如果你愿意，我下一步 * 3； - #12，来自 p369029292 

大家应该都有感觉. 自GPT-5 debut之后, 不少模型开始更会来事了. 
动不动先停一下 夹个嗓子说"需要我帮你运行这个脚本吗"“如果你愿意, 我可以xxx”. 
开始一两次还好, 用久了特别磨人, 几句话能说完的事, 非要拆成一堆小标题 无序列表, 最后再补一句"一句话总结"或者"如果你想, 我可以继续" 婆婆妈妈跟话痨一样. 
短任务还好, 一旦任务变复杂 比如写代码 改项目 做多步分析, 这种停顿和兜圈子的现象就会非常明显. 

为啥模型会变成这样? 不是训练范式没迭代(当然DPO process reward这些技术一直在更新), 而是现在模型开始学油了! 学会给一个更容易让人类评估者满意的回答, 更符合评估模型打分思路的回答. 
说的严谨一点, 在现在的训练...