Mayrain (@Mayrain5) 在 有关codex 5.5的一些吐槽 中发帖
不知道大家在用codex的时候有没有遇到这么一些情况……
虚假测试
尤其是测试AI的时候。我前两天让5.5给我写个测试样例,当时想看claude opus在修bug的能力。然后codex说它做了一个修bug的测试,测出来效果异常的好。结果我一看,玩具项目不说,codex居然在README里写了所有bug的位置和修复方法,等于是开卷,claude只要跟着做就能拿满分 😅
感觉像是情境能力或者说带入能力不足吧。其他也有类似情况,就是很容易“出戏”,让他写一个文档,用它自己的视角还好,一旦跟它说“用XX的视角写一个文档”就很容把自己的视角混进去。
超级无敌魔数/硬编码修复
这个是真的无语,我有一天在改一个AI系统,该系统偶尔会出现回应中英文混杂的情况,然后我说,或许应该在Prompt里加入一点英文约束。
codex选择的做法是:prompt里写“严禁写If you want”...