@fengchris新基准测试 DeepSWE 出炉 长时coding任务表现 gpt-5.5 登顶 中发帖

推源:https://x.com/serenaa_ge/status/2059308218564890875 
官方博客:DeepSWE 
 [image] 
目前测试的模型排行榜: 
 [image] 
 [image] 
[image] 
 [image] 
gemini-3.5-flash得分不如gpt 但是贵
 
 
Back to Top