HOX2333 在论文分享：阿里巴巴花了100亿token证明目前AI编程无法承担长期任务中发帖[2603.03823] SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

HOX2333 在论文分享：阿里巴巴花了100亿token证明目前AI编程无法承担长期任务中发帖

[2603.03823] SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration 
整篇文章可以笼统概括：SWE-CI 戳穿了 vibe coding 足以支撑裁员 的神话 
这项由中山大学和阿里巴巴集团联合开展的研究发表于2026年3月4日，已提交至顶级会议评审中，研究论文编号为arXiv:2603.03823v1。有兴趣深入了解的佬友可以直接去看。 
我这边简单综述一下 🥴 
文章作者认为，现有评测，无论是各大模型厂商追逐的 HumanEval、MBPP、LiveCodeBench，还是被誉为最高评判的 SWE-bench 大多都还是遵循“快照式”的范式： 

给模型一个当前问题，要求一次性给出答案。这样的评测能看出模型会不会“写出能过测试的代码”，却很难看出它写...