HOX2333 在 论文分享:阿里巴巴花了100亿token证明目前AI编程无法承担长期任务 中发帖
[2603.03823] SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration
整篇文章可以笼统概括:SWE-CI 戳穿了 vibe coding 足以支撑裁员 的神话
这项由中山大学和阿里巴巴集团联合开展的研究发表于2026年3月4日,已提交至顶级会议评审中,研究论文编号为arXiv:2603.03823v1。有兴趣深入了解的佬友可以直接去看。
我这边简单综述一下 🥴
文章作者认为,现有评测,无论是各大模型厂商追逐的 HumanEval、MBPP、LiveCodeBench,还是被誉为最高评判的 SWE-bench 大多都还是遵循“快照式”的范式:
给模型一个当前问题,要求一次性给出答案。这样的评测能看出模型会不会“写出能过测试的代码”,却很难看出它写...