pipdax 在从这个数据集上看，Opus 4.6整体是强于4.7的中发帖[image]

pipdax 在从这个数据集上看，Opus 4.6整体是强于4.7的中发帖

[image] 
解读一下上面的图： 
右侧的曲线图显示，在复杂工程的具体实现上，Opus4.6强于4.7 
左侧的数据显示，在整个项目的完整把控上，Opus4.7略微强于4.6，但不多。 
参考内容: 

最近，Meta FAIR 联合斯坦福、哈佛等机构发布了一项很有意思的新 benchmark，本质上是在重新定义 AI Coding 的评估方式： 
ProgramBench: Can Language Models Rebuild Programs From Scratch? 
 [图片] 
过去的大模型编程 benchmark，大多测的是局部能力：补全函数、修复 bug、实现 feature…本质上，仍然是在已有代码结构里做局部修改。 
而 ProgramBench 第一次把问题推进到了真正的软件工程层面：如果只给 AI 一个程序的功能描述和 usage docs，它能不能像真正的...