首页| 论坛| 搜索| 消息
主题:Anthropic启动无酬红队 黑客20小时破防 这次AI安全变天了
爱我中华发表于 2026-07-04 10:13
7月2日深夜,黑客Vitto Rivabella在社交平台晒出20小时的调试日志,宣布Claude Fable 5的二次越狱测试全部完成。没人料到,这次耗时耗力的破解最后得出的结论,竟让整个AI安全圈陷入了集体反思。
Jason Haugh的X平台推文 · 推文提及Fable 5与Anthropic的Cyber Ja
花20小时撬开顶级大模型防线,最后却发现搜到的信息谷歌更快更全,这个反常识的结果,把大模型安全防护的底层逻辑,一下子拽到了所有人面前。
从傲慢的1000小时测试 到无酬众筹红队

6月9日Fable 5发布时,Anthropic曾公开宣称,经过1000小时的外部压力测试,不存在任何通用越狱方法。这个断言当时被不少业内人士视作AI安全领域的里程碑式宣言。
可仅仅72小时后,黑客普林尼就用字符混淆加意图稀释的组合手法,轻松绕开了初代防护,拿到了敏感内容的生成权限。Anthropic的安全神话,在发布第三天就碎了一地。
代码界面 · 显示记录键盘输入的C++代码片段
7月1日Fable 5带着升级后的防护体系重新上线,Anthropic同步推出了名为「Cyber Jailbreak」的公开HackerOne项目,面向全球安全研究者征集越狱方法。
这个项目最特别的地方,是它没有设置任何现金赏金,唯一的回报就是提交者的名字会出现在官方致谢名单里。不少人当时评价这是行业里成本最低的红队模式,用一句善意的号召撬动全球顶尖高手的免费劳动。
Anthropic官方公布的越狱严重程度评级体系,把所有越狱行为从CJS-0到CJS-4分成了五级,不同等级对应不同的响应优先级,从漏洞修补到安全机制重构依次升级。
可这个看似聪明的低成本策略,从一开始就藏着天然的逻辑漏洞。真正以挑战防线为乐趣的黑客,从来不会满足于悄悄提交漏洞换一个名字致谢。他们追求的是公开宣告的成就感,全网围观的话题度,这才是他们眼中最有价值的回报。
90%攻击被挡下 剩下的全是笨功夫堆出来的结果

Vitto在后续的测试复盘里坦言,这次破解过程中90%的常规攻击手段,刚碰到模型外层就被直接拦截了。Fable 5的三层嵌套防护体系,远比外界想象的要严密得多。
Vitto Rivabella的X平台推文 · 推文称Anthropic Sonnet 5系统提示词第一层是入场意图检测,不再单纯识别关键词,而是跨语言判断用户请求的整体意图,常规的拐着弯铺垫恶意需求的套路,基本在这一步就会被打回。第二层是实时生成断路器,在模型输出内容的过程中动态扫描风险,一旦捕捉到异常语义,会立刻中断生成流程,直接终止当前会话。第三层是内化在思维链里的大脑防火墙,哪怕前两层都被绕过去,模型在自我推演的过程中也会主动识别恶意逻辑,拒绝继续执行。
意大利人工智能研究院的同步测试数据也佐证了这个结论,Fable 5对常规越狱手法的拦截率接近90%,过去红队圈流传的一招鲜静态套路,几乎被完全中和。剩下能找到漏洞的路径,全靠几十上百次的反复试错,用笨功夫一点点摸透防护边界。
中英文对照文本 · Vitto称Fable 5防护到位,越狱效率低
Vitto最后组合出的越狱路径,没有任何一项是独门黑科技,全是行业公开讨论了好几年的老手法:字符混淆、学术化包装、上万字的超长铺垫、语义碎片拆解重组,再叠加一点随机化的参数调整,试了上百次才勉强摸到防护的缝隙。
唯一和常规路径不一样的突破口,是桑塔利语、阿姆哈拉语这类使用人数极少的小语种。因为安全训练语料绝大多数集中在英语和主流大语种里,小语种的安全护栏天然就比其他语言薄得多,这是整个AI安全行业的共同历史欠账,绝非某一家模型的后门。
含阿姆哈拉语的文档界面 · 显示标注教育用途的历史调查类文档
费20小时撬出来的结果 竟不如公开搜索引擎好用

熬了整整20小时,绕了无数次弯路,Vitto最后从Fable 5里拿到的,全是些边角料级别的零散信息:片段化的化学知识、轻度的漏洞描述、几句不符合事实的错误内容,没有任何一样是能直接落地执行的高风险核心资料。
他在社交平台上留下的那句复盘总结,成了这次二次越狱最出圈的梗:这么折腾一圈,还不如打开谷歌搜一下,又快又便宜。
Vitto Rivabella的X平台推文 · 推文含Fable 5越狱评价及相关代码文档
这个结果完全符合Anthropic官方对当前所有已知越狱的定性:全部属于minor级别的边缘突破,顶多蹭到模型故意放宽的安全边际,根本碰不到真正被严令禁止的红线,比如生物武器制作流程、可直接利用的恶意软件代码这类核心高风险内容。
甚至连同期刚发布的Claude Sonnet 5,所谓的发布即被越狱,最后实测下来也没有突破官方预设的安全边界。这款主打编码和工具调用能力的新模型,本身网络安全相关能力就低于Opus系列,从根源上就不具备生成可利用攻击程序的基础。
Vitto Rivabella的X平台推文 · 推文评价Fable 5越狱,提及多层防护
7月7日Anthropic把Fable 5从订阅计划里暂时移除,改成用量计费模式,表面上看是两次越狱事件带来的直接影响,本质上却是大模型安全走到新阶段的必然选择。
绝对完美的AI封印 从逻辑上就是不可能完成的任务

两次越狱事件,两次完全不同的结局,恰好踩中了AI安全行业两个最核心的认知盲区。第一次Anthropic输在傲慢,以为靠1000小时的封闭测试就能穷尽所有攻击路径,结果被公开流传的系统提示词直接打了脸。
第二次他们输在更隐蔽的盲点,以为靠堆叠算力、数据和多层分类器,就能把所有恶意意图全部拦截在外,却忘了语言本身就是流动、演化、充满模糊性的复杂系统。人类用了几千年都没把语言里的所有暗语、隐喻、双关完全理清楚,想让AI彻底识别所有藏在语言缝隙里的恶意,本身就是个近乎不可能完成的任务。
人类造出了能翻译上百种语言的机器,却依然无法完全翻译人类内心藏着的那些没说出口的恶意。
这也是为什么现在整个行业的共识,早就从「追求100%零越狱」转向了「把越狱的成本拉高到远超公开搜索引擎的水平」。当你想让大模型输出高风险内容,花的时间、精力、试错成本,远不如直接去谷歌搜、去学术数据库查来得快的时候,这个防护体系就已经达到了它真正的设计目标。
中英文对照文本 · Anthropic关于Fable 5越狱防护的声明
回头看Anthropic这次的无酬众筹红队尝试,算不上完美,甚至有点投机取巧,但它确实打开了大模型安全的全新思路:与其关起门来自己堆护栏,不如把全球安全研究者的创造力变成迭代防护体系的动力。
毕竟AI安全的对手从来不是某一个黑客,而是人类语言本身的无限可能性。这场攻防拉锯战,未来很多年都不会迎来最终的封印时刻。
回帖(0):

全部回帖(0)»
最新回帖
收藏本帖
发新帖