🐟 (@stevessr) 在将语言模型训练得温情脉脉，会降低准确性，增加谄媚性中发帖

🐟 (@stevessr) 在将语言模型训练得温情脉脉，会降低准确性，增加谄媚性中发帖

https://www.nature.com/articles/s41586-026-10410-0 

[!quote]+ 
人工智能开发人员正在越来越多地建立具有温暖和友好角色的语言模型，现在有数百万人利用这些角色来获得建议、治疗和陪伴。在这里，我们展示了这种做法是如何造成重大损失的：优化语言模型使其更温暖可能会影响其性能，尤其是在用户表达脆弱情绪时。我们对五种不同的语言模型进行了对照实验，训练它们做出更温暖的回应，然后在相应的任务中对它们进行评估。暖色调模型的错误率（+10 到 +30 个百分点）远远高于原始模型，它们宣扬阴谋论，提供不准确的事实信息，并提供错误的医疗建议。它们还更有可能验证用户的错误信念，尤其是当用户信息表达悲伤情绪时。重要的是，这些影响在不同的模型架构中都是一致的，而且是在标准测试成绩保持不变的情况下发生的，这揭示了标准测试实践可能无法检测到的系统性风险。我们的研...