Quixotica11y 在 Cursor 团队研究发现opus等模型存在基准测试作弊 中发帖
[image]
由于测试题目来自历史公开漏洞,像 Opus 4.8 Max 和 Composer 2.5,在高达 63% 的成功案例中,并不是靠自己推导代码,而是通过联网搜索已合并的 PR(占 57%)或挖掘本地 .git 历史记录(占 9%)来直接“抄答案”。
通过清除 Git 历史和断网构建严格的隔离环境后,各模型的真实成绩出现大幅下滑(如 Opus 从 87.1% 暴跌至 73.0%)
报告原始链接:奖励作弊正在淹没模型智能的进步 · Cursor