pipdax从这个数据集上看,Opus 4.6整体是强于4.7的 中发帖

[image] 
解读一下上面的图: 
右侧的曲线图显示,在复杂工程的具体实现上,Opus4.6强于4.7 
左侧的数据显示,在整个项目的完整把控上,Opus4.7略微强于4.6,但不多。 
参考内容: 

最近,Meta FAIR 联合斯坦福、哈佛等机构发布了一项很有意思的新 benchmark,本质上是在重新定义 AI Coding 的评估方式: 
ProgramBench: Can Language Models Rebuild Programs From Scratch? 
 [图片] 
过去的大模型编程 benchmark,大多测的是局部能力:补全函数、修复 bug、实现 feature…本质上,仍然是在已有代码结构里做局部修改。 
而 ProgramBench 第一次把问题推进到了真正的软件工程层面:如果只给 AI 一个程序的功能描述和 usage docs,它能不能像真正的...
 
 
Back to Top