Wy (@Wy1) 在 个人觉得国产大模型代码能力和跑分能力严重不符 中发帖
无论是之前对标opus的智谱还是大家翘首以盼的deepseek,代码能力(不是跑什么天气卡片这种模板代码、而是真的在项目中给它一个屎山让它实现需求)使用上和御三家还是有区别的。之前看到一个帖子,说在某个内部榜单中deepseekv4pro约等于gpt5,我感觉这个比较合理,感觉国产大模型都是对跑分进行特调了,大家觉得呢。或者有什么比较不容易被厂家特调的跑分榜单推荐吗?