zhongruichen豆包新模型测试效果sota 中发帖

豆包新模型几天前开始在火山方舟codingplan进行灰度,glm-5.2,kimi-k2.7-code,minimax-m3等第三方模型会概率路由到一个神秘模型,应该是就是arena这个新的豆包新模型,1m上下文窗口,max_tokens最大为131072,思考是思维摘要,tps在一百左右,我测的极限在163tps,至于其他的不说这么多了,我先直接放个压缩包,里面是我测的一些文件,可能有奇奇怪怪的乱命名,特别说明一下(标注m3的文件不是m3生成的,是通过m3路由的,标注m3的是思考版本,同理标注k2.7的是通过k2.7路由的,是无思考版本): 
测试文件.zip (1.4 MB) 
这个新模型的svg质量很强,我认为可以排进svg前3,跟gpt-5.6检查点和fable5接近 
同提示词,这个是豆包新模型: 
[IMG_0229] 
这个是在Design arena的fable5(不清楚...
 
 
Back to Top