Loveyless【模型大横评2.0】composer2.5胜者为王|GLM5.2| Kimi2.7 |DSv4|GPT5.5|Gemini3.5F 中发帖

测试仓库
依旧使用本人的一个闭源的项目,以下是具体架构。 
 [image] 
评测流程
开 work tree 跑两个测试题目,1 题和 2 题之间不会新开上下文窗口。 
 [image] 
测试题目
上次我让 codex 出了一个比较具体的题,虽然没有那么细,但还是给得比较细。这次只给大体意图,让 AI 自己去做。 
 [image] 
[image] 
打分流程
单分支评测 = 每个模型自己打分,不排名 
归一化复核 = 把多个单分支报告放到同一把尺子下重新校准 
横评 = 基于归一化结果给排名、同档判断、推荐结论 
 [image] 
参赛选手 测试速度
Kimi2.6 + Claude Code(35分钟左右) 
GLM5.2 + zcode(40分钟左右) 
GPT5.5 + codex(40分钟左右) 
Gemini3.5flash + Antigravity CLI(10...
 
 
Back to Top