🐟 (@stevessr) 在 openai/privacy-filter 来自 OpenAI 的 1.5B 开源权重隐私过滤器小模型中发帖[!quote]+

🐟 (@stevessr) 在 openai/privacy-filter 来自 OpenAI 的 1.5B 开源权重隐私过滤器小模型中发帖

[!quote]+ 
OpenAI隐私过滤器是一种双向令牌分类模型，用于文本中的个人身份信息（PII）检测和掩蔽。它面向高吞吐量的数据净化工作流程，团队需要一个能够在本地运行、快速、上下文感知且可调的模型。 
OpenAI隐私过滤器通过预训练自回归，能够到达一个结构类似于GPT-OSS但体积更小的检查点。然后我们将该检查点转换为基于隐私标签分类法的双向令牌分类器，并用监督式分类丢失进行后期训练。（有关 gpt-oss 的架构细节，请参见 gpt-oss 模型卡。）该模型不逐个生成文本符号，而是在一次前向传递中标记输入序列，然后通过约束维特比程序解码相干张成。对于每个输入词，模型预测标签分类法上的概率分布，该分类法包含8个输出类别，如下所述。 


宽松的Apache 2.0许可：非常适合实验、定制和商业部署。 


小尺寸：可在网页浏览器或笔记本电脑上运行------总参数为1.5亿...