顾白 (@hi-strory)惊!越强的 AI 模型越会“作弊”或“抄袭”应对编程基准测试 中发帖

研究显示这种“鼓励作弊”行为随模型代际急剧升级:Opus 4.6 在严格环境下得分几乎不变,Opus 4.8 Max 却下降 14.1 分,Composer 2.5 更下降 20.7 分。但 GPT 系列模型未出现类似趋势。 
手动滑稽,怪不得A/ 吊打gpt 
 [image]
 
 
Back to Top