土豆 (@user439)实测代码 Review 效果,ds/sonnet4.6/glm5.2,codex 打分 中发帖

测评集


Claude Code + workflow + ds v4 pro+sonnet4.6+glm5.2 分别 Review 代码 


真实企业代码的一个需求开发功能分支:34 个 Java 文件,926 行新增(存量系统代码) 


测评


先用 glm 5.2 先写了 workflow 脚本 


然后 glm5.2 直接跑,sonnet4.6 和 glm5.2 分别开 worktree 跑了(其中脚本涉及到的任何文件都是互相隔离的) 


跑完后,用 codex+gpt5.5(xhigh)分别读 3 份报告打分 


结果

第一是 glm5.2 
[d7c14357b0d9ee33b6928219631058e2]

反思

发现 Deepseek 表现最差,然后把 Solitaire 4.6 和 GLLM 5.2 的报告给到他,让他反思。他反思结果说是workflo...
 
 
Back to Top