@fengchris 在新基准测试 DeepSWE 出炉长时coding任务表现 gpt-5.5 登顶中发帖推源：

@fengchris 在新基准测试 DeepSWE 出炉长时coding任务表现 gpt-5.5 登顶中发帖

推源：https://x.com/serenaa_ge/status/2059308218564890875 
官方博客：DeepSWE 
 [image] 
目前测试的模型排行榜： 
 [image] 
 [image] 
[image] 
 [image] 
gemini-3.5-flash得分不如gpt 但是贵