𝓵𝓮𝔃𝓲𝓼𝓱𝓮𝓷 (@lezishen) 在 大语言模型蒸馏时 学生模型仍可能继承教师模型的偏好 中发帖
[image]
[image]
https://www.nature.com/articles/s41586-026-10319-8[image]
[image]
https://www.nature.com/articles/s41586-026-10319-8