LINUX DO Channel

Loveyless 在【模型大横评2.0】composer2.5胜者为王｜GLM5.2｜ Kimi2.7 ｜DSv4｜GPT5.5｜Gemini3.5F 中发帖

测试仓库
依旧使用本人的一个闭源的项目，以下是具体架构。 
 [image] 
评测流程
开 work tree 跑两个测试题目，1 题和 2 题之间不会新开上下文窗口。 
 [image] 
测试题目
上次我让 codex 出了一个比较具体的题，虽然没有那么细，但还是给得比较细。这次只给大体意图，让 AI 自己去做。 
 [image] 
[image] 
打分流程
单分支评测 = 每个模型自己打分，不排名 
归一化复核 = 把多个单分支报告放到同一把尺子下重新校准 
横评 = 基于归一化结果给排名、同档判断、推荐结论 
 [image] 
参赛选手 测试速度
Kimi2.6 + Claude Code（35分钟左右） 
GLM5.2 + zcode（40分钟左右） 
GPT5.5 + codex（40分钟左右） 
Gemini3.5flash + Antigravity CLI（10分...