🐟 (@stevessr) 在语言模型通过数据中的隐藏信号传递行为特征中发帖

🐟 (@stevessr) 在语言模型通过数据中的隐藏信号传递行为特征中发帖

https://www.nature.com/articles/s41586-026-10319-8 

[!abstract]+ 
大型语言模型（LLMs）正越来越多地被用于生成训练改进模型的数据，但尚不清楚这种模型蒸馏过程中会传递哪些特性。 
本文表明，蒸馏可能导致潜隐学习——即通过语义无关数据传递行为特征。在我们的主要实验中，具有某种特征T的“教师”模型（如倾向于生成支持猫头鹰的回应或表现出明显偏离的行为）会生成仅包含数字序列的数据集。 
令人惊讶的是，当严格去除与T相关的参考后，训练这些数据集的“学生”模型仍能学会特征T。更现实地看，我们发现当教师生成数学推理轨迹或代码时，同样会出现此现象。该效应仅在师生使用相同（或行为匹配）的基础模型时发生。 
为解释这一现象，我们证明了一个理论结果：在广泛条件下，神经网络会出现潜隐学习，并在简单的多层感知机（MLP）分类器中予以验证。 
随着人...