Eeevan 在 Nao佬模型编程能力榜Opus 4.8分数出炉中发帖省流版：

Eeevan 在 Nao佬模型编程能力榜Opus 4.8分数出炉中发帖

省流版： 
 [image] 
关于评分与实际体验
模型的扣分不完全体现实际编程体验，因此榜单按实际交互体验对模型进行分档： 




档位
定义




A
几乎不犯错，仅出现微小的 UI/交互类问题


B
大概率会错，但描述错误后可在 ≤2 轮内修复


C
大概率会错，需更多轮交互，但模型能自主推进修复，无需人工辅助


D
必须由人工提供大量 log、视觉描述、协助操作等才能修复


F
知识或方法论不足，即便有人帮助也无法完成任务




同档位中，若仅少数轮次出现问题、大部分情况表现良好，升半档，以 B+、C+ 表示。 

通关机制：A 评级视作该模型在对应题目上通关，新版本默认跳过已通关题目。例如Opus 4.8 跳过了 C 和 D 题。 

 [image] 
完整榜单： LLM Benchmark Dashboard 
完整评测内容： 大语言模型-逻辑能力横评 26-0...