Wy (@Wy1) 在个人觉得国产大模型代码能力和跑分能力严重不符中发帖无论是之前对标opus的智谱还是大家翘首以盼的deepseek，代码能力(不是跑什么天气卡片这种模板代码、而是真的在项目中给它一个屎山让它实现需求)使用上和御三家还是有区别的

Wy (@Wy1) 在个人觉得国产大模型代码能力和跑分能力严重不符中发帖

无论是之前对标opus的智谱还是大家翘首以盼的deepseek，代码能力(不是跑什么天气卡片这种模板代码、而是真的在项目中给它一个屎山让它实现需求)使用上和御三家还是有区别的。之前看到一个帖子，说在某个内部榜单中deepseekv4pro约等于gpt5，我感觉这个比较合理，感觉国产大模型都是对跑分进行特调了，大家觉得呢。或者有什么比较不容易被厂家特调的跑分榜单推荐吗？