youthX 在 关于codex 降智 中发帖
最近看到大家都在吐槽 codex降智了,今天刚好在github 上看到有个项目批量测试一道糖果数学题,并统计 reasoning tokens 与正确率。贴一下我的结果,我的测出来是没有降智,也不知靠谱不,有懂的佬不
[image]