七叶怀瑾 (@chesten) 在我在想，既然国模benchmark这么厉害，那如果把所有的编程任务都用benchmark的格式格式化会怎么样？中发帖国产模型的 benchmark分都那么老高，然而实际一到工作中往往不大令人满意

七叶怀瑾 (@chesten) 在我在想，既然国模benchmark这么厉害，那如果把所有的编程任务都用benchmark的格式格式化会怎么样？中发帖

国产模型的 benchmark分都那么老高，然而实际一到工作中往往不大令人满意。 
那假如是对bm有过优化的话，如果我们直接把bm的题拿出来，然后提取那些题集的特征，之后编程的时候都用那些题的特征来分解任务，那是不是真的就能吊打opus了？ 🫪