土豆 (@user439) 在 实测代码 Review 效果,ds/sonnet4.6/glm5.2,codex 打分 中发帖
测评集
Claude Code + workflow + ds v4 pro+sonnet4.6+glm5.2 分别 Review 代码
真实企业代码的一个需求开发功能分支:34 个 Java 文件,926 行新增(存量系统代码)
测评
先用 glm 5.2 先写了 workflow 脚本
然后 glm5.2 直接跑,sonnet4.6 和 glm5.2 分别开 worktree 跑了(其中脚本涉及到的任何文件都是互相隔离的)
跑完后,用 codex+gpt5.5(xhigh)分别读 3 份报告打分
结果
第一是 glm5.2
[d7c14357b0d9ee33b6928219631058e2]
反思
发现 Deepseek 表现最差,然后把 Solitaire 4.6 和 GLLM 5.2 的报告给到他,让他反思。他反思结果说是workflo...