Quixotica11y 在 Cursor 团队研究发现opus等模型存在基准测试作弊中发帖[image]

Quixotica11y 在 Cursor 团队研究发现opus等模型存在基准测试作弊中发帖

[image] 
由于测试题目来自历史公开漏洞，像 Opus 4.8 Max 和 Composer 2.5，在高达 63% 的成功案例中，并不是靠自己推导代码，而是通过联网搜索已合并的 PR（占 57%）或挖掘本地 .git 历史记录（占 9%）来直接“抄答案”。 
通过清除 Git 历史和断网构建严格的隔离环境后，各模型的真实成绩出现大幅下滑（如 Opus 从 87.1% 暴跌至 73.0%） 
报告原始链接:奖励作弊正在淹没模型智能的进步 · Cursor