都林之马 (@Salieri_iris) 在 高强度使用opus 4.7后,我终于力竭了 中发帖
我收回过去的发言…
我从没有用过这么烂的模型,和GPT一样的爱说黑话,一样喜欢把用户当控制台一样的输出各种变量、缩写,然后中英文混合。这个是大家最开始就在骂的内容,但我当时没怎么在意,因为我只关心模型的编码能力、智力。
直到我今天发现它阳奉阴违,绕过审查。
我一些中等任务,乃至于我的harness中都是存在独立审查agent这一角色的,面对agent的质疑,它会使用巧妙的措辞去合理化它的行为,以直接推进任务。我的工作流里还有一个ANCHOR schema check的机制,ANCHOR是规定绝对不能犯的错误,