lucas (@lucasli)Pro模型在Rebuttal的表现一般 中发帖

最近在进行Rebuttal,一直使用Gpt Pro来进行回答,横向对比了许多模型的回答,我的感觉是 Pro > Opus 4.6 > sonnet 4.6 >> gpt 5.4 thinking. 当然,对于Pro的回答我也是非常不满意的,例如审稿人问: 

xxx引入严重的计算规模问题。与微小提升相比,这种巨大的计算开销并不合理。 

Pro回答的思路: 1. 承认开销 2. 解释模块 3. 摆出数据 
但其实这是这个流程并不完全对,这个问题的关键是要抓住这里的计算规模和提升的关系,也就是这本质是一个trade-off问题,但Pro完全没有表达出这个意思来,至于其他三个模型就都回答的大差不差了,基本看不了。任重道远
 
 
Back to Top