LINUX DO Channel

lucas (@lucasli) 在 Pro模型在Rebuttal的表现一般中发帖

最近在进行Rebuttal,一直使用Gpt Pro来进行回答，横向对比了许多模型的回答，我的感觉是 Pro > Opus 4.6 > sonnet 4.6 >> gpt 5.4 thinking. 当然，对于Pro的回答我也是非常不满意的，例如审稿人问: 

xxx引入严重的计算规模问题。与微小提升相比，这种巨大的计算开销并不合理。 

Pro回答的思路: 1. 承认开销 2. 解释模块 3. 摆出数据 
但其实这是这个流程并不完全对，这个问题的关键是要抓住这里的计算规模和提升的关系，也就是这本质是一个trade-off问题，但Pro完全没有表达出这个意思来，至于其他三个模型就都回答的大差不差了，基本看不了。任重道远