HOX2333论文分享:阿里巴巴花了100亿token证明目前AI编程无法承担长期任务 中发帖

[2603.03823] SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration 
整篇文章可以笼统概括:SWE-CI 戳穿了 vibe coding 足以支撑裁员 的神话 
这项由中山大学和阿里巴巴集团联合开展的研究发表于202634日,已提交至顶级会议评审中,研究论文编号为arXiv:2603.03823v1。有兴趣深入了解的佬友可以直接去看。 
我这边简单综述一下 🥴 
文章作者认为,现有评测,无论是各大模型厂商追逐的 HumanEval、MBPP、LiveCodeBench,还是被誉为最高评判的 SWE-bench 大多都还是遵循“快照式”的范式: 

给模型一个当前问题,要求一次性给出答案。这样的评测能看出模型会不会“写出能过测试的代码”,却很难看出它写...
 
 
Back to Top