且拭羽 (@QieShiYu)豆包2.0好像真有说法? 中发帖

刚开始我不以为意,但看知乎某答主测了逻辑能力结果出人意外的好 
先说一下,这位答主经常测评大模型,用的是私有非公开题库,所以不存在被污染的可能,他测评的其他模型排名都挺符合我认知的,所以我觉得测试成绩是有代表性的 
但无奈其他benchmark,比如livebench和Analysis都没有豆包2.0的测评成绩,所以缺乏对照,特意请教下佬友们意见 
LLM Benchmark Dashboard 
 [image] 
当然,这里说的是Doubao-Seed-2.0-Pro的逻辑推理能力,不是Doubao-Code,也不是编码能力,编程方面最强排名应该是挺难被撼动的
 
 
Back to Top