烟汀 (@yanting) 在新模型的测试中发帖佬友们，之前一直用Prompt测试，但现在模型越来越智能，光扔个问题过去，它们在网页端的表现跟真人似的，根本看不出区别

烟汀 (@yanting) 在新模型的测试中发帖

佬友们，之前一直用Prompt测试，但现在模型越来越智能，光扔个问题过去，它们在网页端的表现跟真人似的，根本看不出区别。所以现在特别想知道，你们都是怎么设计那种“高压测试”的？除了跑跑常规测试集，有没有更狠、更贴近真实的测试方法？