🐟 (@stevessr) 在 openai/privacy-filter 来自 OpenAI 的 1.5B 开源权重隐私过滤器小模型 中发帖
[!quote]+
OpenAI隐私过滤器是一种双向令牌分类模型,用于文本中的个人身份信息(PII)检测和掩蔽。它面向高吞吐量的数据净化工作流程,团队需要一个能够在本地运行、快速、上下文感知且可调的模型。
OpenAI隐私过滤器通过预训练自回归,能够到达一个结构类似于GPT-OSS但体积更小的检查点。然后我们将该检查点转换为基于隐私标签分类法的双向令牌分类器,并用监督式分类丢失进行后期训练。(有关 gpt-oss 的架构细节,请参见 gpt-oss 模型卡。)该模型不逐个生成文本符号,而是在一次前向传递中标记输入序列,然后通过约束维特比程序解码相干张成。对于每个输入词,模型预测标签分类法上的概率分布,该分类法包含8个输出类别,如下所述。
宽松的Apache 2.0许可:非常适合实验、定制和商业部署。
小尺寸:可在网页浏览器或笔记本电脑上运行------总参数为1.5亿...