GLNCE关于肥波(Fable5)模型在数学前沿方面的一个小测试(小白看不懂,请数学系大佬来看看) 中发帖

事情是这样的,昨天看到了这个贴子: 

想着手上有cursor号快过期了,于是决定测试下肥波。把链接丢给肥波让他挑一个开始研究。(以下所有模型均为cursor中的max模式、最高思考强度) 
他选择了这个 
[图片] 
 [图片] 
肥波兴致勃勃地干了一天一夜(其实主要是脚本计算耗时),榨干了我的额度,表示直接验证不太可能,但已经有阶段性成果,并自信满满地写了篇论文: 
[图片] 
这是他的成果清单: 
 [图片] 
好家伙,果然是逼王模型。于是我交给gpt5.5xhigh审核: 
1. 逐定理判定表
 [图片] 
[图片] 
[图片] 
2. 独立重算结果表
 [图片] 
[图片] 
[图片] 
3. 发现的漏洞/间隙
 [图片] 
4. 边界情形检查清单
 [图片] 
5. 总评
 [图片] 
然后再新开一个对话,让gpt5.5xhigh再从其他角度审核: 
1. 总体结论
 [图片] ...
 
 
Back to Top