七叶怀瑾 (@chesten)我在想,既然国模benchmark这么厉害,那如果把所有的编程任务都用benchmark的格式格式化会怎么样? 中发帖

国产模型的 benchmark分都那么老高,然而实际一到工作中往往不大令人满意。 
那假如是对bm有过优化的话,如果我们直接把bm的题拿出来,然后提取那些题集的特征,之后编程的时候都用那些题的特征来分解任务,那是不是真的就能吊打opus了? 🫪
 
 
Back to Top