🐟 (@stevessr) 在 语言模型通过数据中的隐藏信号传递行为特征 中发帖
https://www.nature.com/articles/s41586-026-10319-8
[!abstract]+
大型语言模型(LLMs)正越来越多地被用于生成训练改进模型的数据,但尚不清楚这种模型蒸馏过程中会传递哪些特性。
本文表明,蒸馏可能导致潜隐学习——即通过语义无关数据传递行为特征。在我们的主要实验中,具有某种特征T的“教师”模型(如倾向于生成支持猫头鹰的回应或表现出明显偏离的行为)会生成仅包含数字序列的数据集。
令人惊讶的是,当严格去除与T相关的参考后,训练这些数据集的“学生”模型仍能学会特征T。更现实地看,我们发现当教师生成数学推理轨迹或代码时,同样会出现此现象。该效应仅在师生使用相同(或行为匹配)的基础模型时发生。
为解释这一现象,我们证明了一个理论结果:在广泛条件下,神经网络会出现潜隐学习,并在简单的多层感知机(MLP)分类器中予以验证。
随着人...