𝓵𝓮𝔃𝓲𝓼𝓱𝓮𝓷 (@lezishen) 在大语言模型蒸馏时学生模型仍可能继承教师模型的偏好中发帖[image]

𝓵𝓮𝔃𝓲𝓼𝓱𝓮𝓷 (@lezishen) 在大语言模型蒸馏时学生模型仍可能继承教师模型的偏好中发帖

[image] 
[image] 
https://www.nature.com/articles/s41586-026-10319-8