坐忘 (@sit_forget) 在 用祖传BUG测试火山GLM-5.2 中发帖
先说结论,测了2次:
第一次
能力相当于图中排名10的位置
起手就英文思考,我一看就知道完了。全部思考是英文的,回答中文。
耗时:12分54秒,中间超时了一次,发了重试。
第二次
能力等于GPT-5.5
中文思考。这次本地代码规避了引用库的bug,和GPT-5.5表现一致,比上线当天表现好。
耗时:11分30秒,一口气干完,比上线当天的17分钟快不少。
这是为何呢?
[企业微信截图_1781436663167]
模型测评:GLM-5.2 大战 Claude Opus 4.8