无敌战神 (@tzf1003) 在讨论一下国产模型蒸馏问题中发帖最近我因为说了一句国产模型蒸馏问题，就被举报删帖

无敌战神 (@tzf1003) 在讨论一下国产模型蒸馏问题中发帖

最近我因为说了一句国产模型蒸馏问题，就被举报删帖。在某音平台评论一句国产模型蒸馏，被追着骂，仿佛这种话题就是谈都不能谈的滑梯，但是我还是想在此聊一下关于模型蒸馏的问题， 
比如 
国产模型是否蒸馏了 
模型蒸馏比例 
经典洗白文案等 
首先，我们要明确一些事实 
1、蒸馏是中性词 
2、国产模型大都为开源模型 
3、闭源模型大都禁止其他人或组织蒸馏数据 
4、人工大量采集模型的数据集十分困难，需要巨大的人力成本和资金成本 
ok，我们从以上事实进行推导 
1、数据处理成本 
首先，当年OPENAI雇了一大批人去做了数据处理和标注。 
如：https://time.com/6247678/openai-chatgpt-kenya-workers/ 

OpenAI 这类公司不是只靠自家员工标注，而是会用外包/供应商。早期 ChatGPT 安全数据就被报道使用 Sama 的肯尼亚工人做有害内容...