henry (@Henry_Gorden) 在新人报道，对大模型的评测佬友们有何见解中发帖最近在折腾大模型评测，发现同一模型在不同 benchmark 上表现差异还挺明显的，尤其是长链推理和幻觉控制这块

henry (@Henry_Gorden) 在新人报道，对大模型的评测佬友们有何见解中发帖

最近在折腾大模型评测，发现同一模型在不同 benchmark 上表现差异还挺明显的，尤其是长链推理和幻觉控制这块。 
用 OpenCompass 跑效果、LLMPerf 看性能时，抽样策略和参数设置（比如 temperature）对结果影响也不小，多轮测试下来波动还是挺真实的。 
大家在做评测的时候，一般怎么平衡数据规模和测试稳定性？有没有比较推荐的做法？