坐忘 (@sit_forget)一些新模型的测试结果(包含Kimi K2.7 Code) 中发帖

先说感受吧: 

kimi-k2.7-code 75分:原地踏步,不过速度快了不少,以前的版本是真慢。
grok build 0.1 25分:被寄予厚望一统天下,却表现拉跨。好在版本号起的好,0.1,仍然是御三家的最大挑战者。
composer 2.5 55分:虽然在kimi k2.5的基础上额外训练和强化学习,但还是没超过k2.6。
MAI-Code-1-Flash 5分:和minimax 2.7老师坐一桌,前期太依赖OpenAI,起步晚了。

以下是祖传bug新增测试结果: 

kimi-k2.7-code: 同 claude 4.6 opus(发现并解决表面问题。发现深层问题,没有自动修改,能提示用户需要手动修改。)
grok build 0.1: 未发现问题。提示后,只解决了表面问题。(不如kimi k2.5)
composer 2.5: 同claude 4.6 Sonnet(发现...
 
 
Back to Top