佬友们,之前一直用Prompt测试,但现在模型越来越智能,光扔个问题过去,它们在网页端的表现跟真人似的,根本看不出区别。所以现在特别想知道,你们都是怎么设计那种“高压测试”的?除了跑跑常规测试集,有没有更狠、更贴近真实的测试方法?