土豆 (@user439) 在实测代码 Review 效果，ds/sonnet4.6/glm5.2，codex 打分中发帖测评集

土豆 (@user439) 在实测代码 Review 效果，ds/sonnet4.6/glm5.2，codex 打分中发帖

测评集


Claude Code + workflow + ds v4 pro+sonnet4.6+glm5.2 分别 Review 代码 


真实企业代码的一个需求开发功能分支：34 个 Java 文件，926 行新增（存量系统代码） 


测评


先用 glm 5.2 先写了 workflow 脚本 


然后 glm5.2 直接跑，sonnet4.6 和 glm5.2 分别开 worktree 跑了（其中脚本涉及到的任何文件都是互相隔离的） 


跑完后，用 codex+gpt5.5(xhigh)分别读 3 份报告打分 


结果

第一是 glm5.2 
[d7c14357b0d9ee33b6928219631058e2]

反思

发现 Deepseek 表现最差，然后把 Solitaire 4.6 和 GLLM 5.2 的报告给到他，让他反思。他反思结果说是workflo...