henry (@Henry_Gorden)新人报道,对大模型的评测佬友们有何见解 中发帖

最近在折腾大模型评测,发现同一模型在不同 benchmark 上表现差异还挺明显的,尤其是长链推理和幻觉控制这块。 
用 OpenCompass 跑效果、LLMPerf 看性能时,抽样策略和参数设置(比如 temperature)对结果影响也不小,多轮测试下来波动还是挺真实的。 
大家在做评测的时候,一般怎么平衡数据规模和测试稳定性?有没有比较推荐的做法?
 
 
Back to Top