无敌战神 (@tzf1003) 在 讨论一下国产模型蒸馏问题 中发帖
最近我因为说了一句国产模型蒸馏问题,就被举报删帖。在某音平台评论一句国产模型蒸馏,被追着骂,仿佛这种话题就是谈都不能谈的滑梯,但是我还是想在此聊一下关于模型蒸馏的问题,
比如
国产模型是否蒸馏了
模型蒸馏比例
经典洗白文案等
首先,我们要明确一些事实
1、蒸馏是中性词
2、国产模型大都为开源模型
3、闭源模型大都禁止其他人或组织蒸馏数据
4、人工大量采集模型的数据集十分困难,需要巨大的人力成本和资金成本
ok,我们从以上事实进行推导
1、数据处理成本
首先,当年OPENAI雇了一大批人去做了数据处理和标注。
如:https://time.com/6247678/openai-chatgpt-kenya-workers/
OpenAI 这类公司不是只靠自家员工标注,而是会用外包/供应商。早期 ChatGPT 安全数据就被报道使用 Sama 的肯尼亚工人做有害内容...