finelly发现个测试模型推理能力以及gpt-5.5是否降智的题 中发帖

佬们可以试试这个测试题,正确答案21个,国模我测试是全军覆没,测试只有不降智的gpt-5.5和网页版gemini-3.1pro high能稳定答对,反重力的gemini没试过,一问就retry,claude非官方的也稳定答29个,官方claude没试过,降智5.5会答29个,比如any站高峰期时的5.5,此时测juice一般会低于128: 
直接回答问题,不允许使用联网搜索、调用命令、代码文件:在一个黑色的袋子里放有三种口味的糖果,每种糖果有两种不同的形状(圆形和五角星形,不同的形状靠手感可以分辨)。现已知不同口味的糖和不同形状的数量统计如下表。参赛者需要在活动前决定摸出的糖果数目,那么,最少取出多少个糖果才能保证手中同时拥有不同形状的苹果味和桃子味的糖?(同时手中有圆形苹果味匹配五角星桃子味糖果,或者有圆形桃子味匹配五角星苹果味糖果都满足要求)苹果味 桃子味 西瓜味圆形798五角星形76...
 
 
Back to Top