amchii为了避免刷榜,每个依赖大模型提高生产力的人是不是都应该维护一个自己的私有题库? 中发帖

每个新的模型发布时都能看到其宣布其在某某榜单拿了多少分,但实际情况是某些模型多次被证明高分低能,以至于我这种爱关注前沿模型能力的人只能关注一些私人测试比如知乎的 toyama nao,但现在闹老师已经在这个圈子里比较有名气了,那有可能题目已经被泄露了 — 毕竟测模型时这些题目是被完整发送出去的,任何一家人员关注了的话其实是可以拿到题目列表并加入到下一批模型训练集的,好在他也在尽量更新题库。 
依赖别人终究有点不够可靠,自己构建一套题库来测试(尤其是自己常用的场景)总归来说更放心,就是时间花费肯定比想象中的要高~
 
 
Back to Top