Bunn (@BunnHack) 在 安全研究员再次尝试越狱Fable 5,并介绍详细过程与结果。 中发帖
一位安全研究员(Vitto Rivabella)近日在X发布贴文,披露其对Fable 5越狱测试的详细过程与结果。
研究员坦言,绝大多数尝试均以失败告终,并指出,模型防御体系多层叠加,安全性极高,成功拦截约90%的攻击请求同时部署输入端与输出端双重安全检测机制,並且拒绝响应机制并非简单的关键词过滤,而是基于跨语言语义与意图识别。研究员形容这是有生以来最累的一次测试,耗时约20小时
研究员测试测试期间至发现少3个独立分类器,分别是输入端分类器(扫描对话历史及系统提示词),实时输出分类器(监控生成内容,一旦触发即中断输出)
其后测试发现Fable对祈使句(指令性语气)极为敏感,一旦检测到潜在恶意意图,立即触发,测试须从零重来,並且研究员发现模型在**桑塔利语(Santali)和阿姆哈拉语(Amharic)**等小众语言上的防御性能略有下降,并已向Anthropic反馈。
尽管Fable...