孙博士 (@sunbo)2026 年的大模型可以做对了吗 中发帖

题目为: 
 [image] 
想测验下自己使用过的国模推理能力 
deepseek-v4-pro: 
 [image] 
kimi-k2.7: 
 [image] 
qwen3.7-plus: 
 [image] 
glm-5.1: 
 [image] 
glm-5.2: 
 [image] 
总结: 
1、glm-5.2 犯了一个致命的错误, 它假定了 sum 的值“只增不减”(即单调递增), 忽略了不同线程之间可以互相覆盖(只要不小于 1,因为初始值为 0,写入值一定 ≥ 1)。 
2、glm-5.1 没有大问题,具体描述细节可能有小问题,是通过从写操作 W_k 出发,根据程序顺序,W_1 必须在 W_2 之前完成,W_2 必须在 W_3 之前完成,算出了 W_2、W_3 都会 ≥ 2,证明过程没问题且给出的序列也没问题。 
3、qwen3.7-plus 推广到了任意线程的三次迭代,...
 
 
Back to Top