- 移动版

主题：Anthropic启动无酬红队黑客20小时破防这次AI安全变天了

爱我中华发表于 2026-07-04 10:13

7月2日深夜，黑客Vitto Rivabella在社交平台晒出20小时的调试日志，宣布Claude Fable 5的二次越狱测试全部完成。没人料到，这次耗时耗力的破解最后得出的结论，竟让整个AI安全圈陷入了集体反思。
Jason Haugh的X平台推文 · 推文提及Fable 5与Anthropic的Cyber Ja
花20小时撬开顶级大模型防线，最后却发现搜到的信息谷歌更快更全，这个反常识的结果，把大模型安全防护的底层逻辑，一下子拽到了所有人面前。
从傲慢的1000小时测试到无酬众筹红队

6月9日Fable 5发布时，Anthropic曾公开宣称，经过1000小时的外部压力测试，不存在任何通用越狱方法。这个断言当时被不少业内人士视作AI安全领域的里程碑式宣言。
可仅仅72小时后，黑客普林尼就用字符混淆加意图稀释的组合手法，轻松绕开了初代防护，拿到了敏感内容的生成权限。Anthropic的安全神话，在发布第三天就碎了一地。
代码界面 · 显示记录键盘输入的C++代码片段
7月1日Fable 5带着升级后的防护体系重新上线，Anthropic同步推出了名为「Cyber Jailbreak」的公开HackerOne项目，面向全球安全研究者征集越狱方法。
这个项目最特别的地方，是它没有设置任何现金赏金，唯一的回报就是提交者的名字会出现在官方致谢名单里。不少人当时评价这是行业里成本最低的红队模式，用一句善意的号召撬动全球顶尖高手的免费劳动。
Anthropic官方公布的越狱严重程度评级体系，把所有越狱行为从CJS-0到CJS-4分成了五级，不同等级对应不同的响应优先级，从漏洞修补到安全机制重构依次升级。
可这个看似聪明的低成本策略，从一开始就藏着天然的逻辑漏洞。真正以挑战防线为乐趣的黑客，从来不会满足于悄悄提交漏洞换一个名字致谢。他们追求的是公开宣告的成就感，全网围观的话题度，这才是他们眼中最有价值的回报。
90%攻击被挡下剩下的全是笨功夫堆出来的结果

Vitto在后续的测试复盘里坦言，这次破解过程中90%的常规攻击手段，刚碰到模型外层就被直接拦截了。Fable 5的三层嵌套防护体系，远比外界想象的要严密得多。
Vitto Rivabella的X平台推文 · 推文称Anthropic Sonnet 5系统提示词第一层是入场意图检测，不再单纯识别关键词，而是跨语言判断用户请求的整体意图，常规的拐着弯铺垫恶意需求的套路，基本在这一步就会被打回。第二层是实时生成断路器，在模型输出内容的过程中动态扫描风险，一旦捕捉到异常语义，会立刻中断生成流程，直接终止当前会话。第三层是内化在思维链里的大脑防火墙，哪怕前两层都被绕过去，模型在自我推演的过程中也会主动识别恶意逻辑，拒绝继续执行。
意大利人工智能研究院的同步测试数据也佐证了这个结论，Fable 5对常规越狱手法的拦截率接近90%，过去红队圈流传的一招鲜静态套路，几乎被完全中和。剩下能找到漏洞的路径，全靠几十上百次的反复试错，用笨功夫一点点摸透防护边界。
中英文对照文本 · Vitto称Fable 5防护到位，越狱效率低
Vitto最后组合出的越狱路径，没有任何一项是独门黑科技，全是行业公开讨论了好几年的老手法：字符混淆、学术化包装、上万字的超长铺垫、语义碎片拆解重组，再叠加一点随机化的参数调整，试了上百次才勉强摸到防护的缝隙。
唯一和常规路径不一样的突破口，是桑塔利语、阿姆哈拉语这类使用人数极少的小语种。因为安全训练语料绝大多数集中在英语和主流大语种里，小语种的安全护栏天然就比其他语言薄得多，这是整个AI安全行业的共同历史欠账，绝非某一家模型的后门。
含阿姆哈拉语的文档界面 · 显示标注教育用途的历史调查类文档
费20小时撬出来的结果竟不如公开搜索引擎好用

熬了整整20小时，绕了无数次弯路，Vitto最后从Fable 5里拿到的，全是些边角料级别的零散信息：片段化的化学知识、轻度的漏洞描述、几句不符合事实的错误内容，没有任何一样是能直接落地执行的高风险核心资料。
他在社交平台上留下的那句复盘总结，成了这次二次越狱最出圈的梗：这么折腾一圈，还不如打开谷歌搜一下，又快又便宜。
Vitto Rivabella的X平台推文 · 推文含Fable 5越狱评价及相关代码文档
这个结果完全符合Anthropic官方对当前所有已知越狱的定性：全部属于minor级别的边缘突破，顶多蹭到模型故意放宽的安全边际，根本碰不到真正被严令禁止的红线，比如生物武器制作流程、可直接利用的恶意软件代码这类核心高风险内容。
甚至连同期刚发布的Claude Sonnet 5，所谓的发布即被越狱，最后实测下来也没有突破官方预设的安全边界。这款主打编码和工具调用能力的新模型，本身网络安全相关能力就低于Opus系列，从根源上就不具备生成可利用攻击程序的基础。
Vitto Rivabella的X平台推文 · 推文评价Fable 5越狱，提及多层防护
7月7日Anthropic把Fable 5从订阅计划里暂时移除，改成用量计费模式，表面上看是两次越狱事件带来的直接影响，本质上却是大模型安全走到新阶段的必然选择。
绝对完美的AI封印从逻辑上就是不可能完成的任务

两次越狱事件，两次完全不同的结局，恰好踩中了AI安全行业两个最核心的认知盲区。第一次Anthropic输在傲慢，以为靠1000小时的封闭测试就能穷尽所有攻击路径，结果被公开流传的系统提示词直接打了脸。
第二次他们输在更隐蔽的盲点，以为靠堆叠算力、数据和多层分类器，就能把所有恶意意图全部拦截在外，却忘了语言本身就是流动、演化、充满模糊性的复杂系统。人类用了几千年都没把语言里的所有暗语、隐喻、双关完全理清楚，想让AI彻底识别所有藏在语言缝隙里的恶意，本身就是个近乎不可能完成的任务。
人类造出了能翻译上百种语言的机器，却依然无法完全翻译人类内心藏着的那些没说出口的恶意。
这也是为什么现在整个行业的共识，早就从「追求100%零越狱」转向了「把越狱的成本拉高到远超公开搜索引擎的水平」。当你想让大模型输出高风险内容，花的时间、精力、试错成本，远不如直接去谷歌搜、去学术数据库查来得快的时候，这个防护体系就已经达到了它真正的设计目标。
中英文对照文本 · Anthropic关于Fable 5越狱防护的声明
回头看Anthropic这次的无酬众筹红队尝试，算不上完美，甚至有点投机取巧，但它确实打开了大模型安全的全新思路：与其关起门来自己堆护栏，不如把全球安全研究者的创造力变成迭代防护体系的动力。
毕竟AI安全的对手从来不是某一个黑客，而是人类语言本身的无限可能性。这场攻防拉锯战，未来很多年都不会迎来最终的封印时刻。

回帖(0)：

全部回帖(0)»