Bunn (@BunnHack) 在安全研究员再次尝试越狱Fable 5，并介绍详细过程与结果

Bunn (@BunnHack) 在安全研究员再次尝试越狱Fable 5，并介绍详细过程与结果。中发帖

一位安全研究员(Vitto Rivabella)近日在X发布贴文，披露其对Fable 5越狱测试的详细过程与结果。 
研究员坦言，绝大多数尝试均以失败告终，并指出,模型防御体系多层叠加，安全性极高，成功拦截约90%的攻击请求同时部署输入端与输出端双重安全检测机制，並且拒绝响应机制并非简单的关键词过滤，而是基于跨语言语义与意图识别。研究员形容这是有生以来最累的一次测试，耗时约20小时 
研究员测试测试期间至发现少3个独立分类器，分别是输入端分类器(扫描对话历史及系统提示词)，实时输出分类器(监控生成内容，一旦触发即中断输出) 
其后测试发现Fable对祈使句（指令性语气）极为敏感，一旦检测到潜在恶意意图，立即触发，测试须从零重来,並且研究员发现模型在**桑塔利语（Santali）和阿姆哈拉语（Amharic）**等小众语言上的防御性能略有下降，并已向Anthropic反馈。 
尽管Fable...