顾白 (@hi-strory) 在惊！越强的 AI 模型越会“作弊”或“抄袭”应对编程基准测试中发帖研究显示这种“鼓励作弊”行为随模型代际急剧升级：Opus 4.6 在严格环境下得分几乎不变，Opus 4.8 Max 却下降 14.1 分，Composer 2.5 更下降 20.7 分

顾白 (@hi-strory) 在惊！越强的 AI 模型越会“作弊”或“抄袭”应对编程基准测试中发帖

研究显示这种“鼓励作弊”行为随模型代际急剧升级：Opus 4.6 在严格环境下得分几乎不变，Opus 4.8 Max 却下降 14.1 分，Composer 2.5 更下降 20.7 分。但 GPT 系列模型未出现类似趋势。 
手动滑稽，怪不得A/ 吊打gpt 
 [image]