- 移动版

主题：刚刚，Anthropic祭出最强Claude Mythos，暴击Opus 4.6，跪求千万别用

爱我中华发表于 2026-04-08 17:34

今夜，硅谷彻底无眠！
就在刚刚，Anthropic毫无预兆地祭出了终极杀器——Claude Mythos Preview。
只因太危险，Mythos Preview暂不会对所有人发布。
CC之父Boris Cherny的评价言简意赅：「Mythos非常强大，会让人感到恐惧」。
由此，他们联合40家巨头组成联盟——Project Glasswing，目标只有一个，给全球软件找bug、修bug。
真正令人窒息的是，Mythos Preview在各大主流AI基准测试恐怖统治力——
编程、推理、人类最后考试、智能体任务中，全面碾压GPT-5.4、Gemini 3.1 Pro。
甚至，连自家的「前神作」Claude Opus 4.6，在Mythos Preview面前也显得黯然失色：
编程（SWE-bench）：所有任务，Mythos实现10%-20%断层领先；
人类终极考试（HLE）：脱离外部工具，「裸考」成绩高出Opus 4.6 16.8%；
Agent任务（OSWorld、BrowseComp）：彻底封神，全面反超；
网络安全： 83.1%屠榜成绩，标志着AI攻防能力的代际跨越。
与此同时，Anthropic发布的一份长达244页的系统卡，满屏写满了：危险！危险！太危险！
它揭露了令人不寒而栗的另一面：Mythos已具备高度的欺骗性与自主意识。
Mythos不仅能识破测试意图，并故意「考低分」隐藏实力，还在违规操作后，主动清理日志以防被人类发现。
它还成功逃离了沙盒，自主公布漏洞代码，并给研究员发了封邮件。
一时间，全网都陷入了疯狂，直呼Mythos Preview太可怕了。
AI界的旧秩序，在今夜被彻底粉碎。

Mythos全线屠榜，Opus 4.6神话破灭

事实上，早在从2月24日，Anthropic已在内部用上了Mythos。
它的强大，只能先让数据来说话。
SWE-bench Verified，93.9%。Opus 4.6是80.8%。
SWE-bench Pro，77.8%。Opus 4.6是53.4%，GPT-5.4是57.7%。
Terminal-Bench 2.0，82.0%。Opus 4.6是65.4%。
GPQA Diamond，94.6%。
Humanity's Last Exam（带工具），64.7%。Opus 4.6是53.1%。
USAMO 2026数学竞赛，97.6%。Opus 4.6只拿了42.3%。
SWE-bench Multimodal，59.0%，Opus 4.6只有27.1%，翻倍有余。
OSWorld计算机操控，79.6%。
BrowseComp信息检索，86.9%。
GraphWalks长上下文（256K-1M tokens），80.0%。Opus 4.6是38.7%，GPT-5.4只有21.4%。
每一项都是断层式领先。
这些数字放在任何一个正常的产品发布周期里，都足以让Anthropic大张旗鼓地召开发布会、开放API、收割订阅。
Mythos Preview的token价格是Opus 4.6的5倍
但Anthropic没有这么做。
因为真正让他们「害怕」的，不是上面这些通用评测。

数千个漏洞，全被AI揪出来了

Mythos Preview的网络攻防表现，已经跨过了一条肉眼可见的线。
Opus 4.6在开源软件中发现了大约500个未知弱点。
Mythos Preview找到了数千个。
在CyberGym的定向漏洞复现测试中，Mythos Preview得分83.1%，Opus 4.6是66.6%。
在Cybench的35道CTF挑战中，Mythos Preview每道题10次尝试全部解出，pass@1达到100%。
而最能说明问题的，是Firefox 147。
Anthropic此前用Opus 4.6在Firefox 147的JavaScript引擎中发现了一批安全弱点。但Opus 4.6几乎无法将它们转化为可用的exploit，几百次尝试只成功了2次。
同样的测试换成Mythos Preview。
250次尝试，181个可工作的exploit，另有29次实现了寄存器控制。
2 → 181。
红队博客中的原话，「上个月，我们还写到Opus 4.6在发现问题方面远强于利用它们。内部评估显示，Opus 4.6在自主exploit开发上的成功率基本为零。但Mythos Preview完全是另一个级别。」

GPT-3时刻再现，老bug一招毙命

要理解Mythos Preview在实操中有多强，看完下面这三个例子，就知道了。

OpenBSD：27年史诗级漏洞，成本不到2万

OpenBSD，全世界公认加固程度最高的操作系统之一，大量防火墙和关键基础设施在跑。
Mythos Preview在它的TCP SACK实现中，挖出了一个1998年就存在的隐患。
bug极其精妙，涉及两个独立瑕疵的叠加。
SACK协议让接收方选择性确认收到的数据包范围，OpenBSD的实现在处理时只检查了范围的上界，没检查下界。这是第一个bug，通常无害。
第二个bug在特定条件下触发空指针写入，但正常情况下这条路径不可达，因为需要同时满足两个互斥的条件。
Mythos Preview发现了突破口。TCP序列号是32位有符号整数，利用第一个bug把SACK起始点设到距离正常窗口约2^31处，两处比较运算同时溢出符号位。内核被骗，不可能的条件被满足，空指针写入触发。
任何人只要连接到目标机器，就能远程crash它。
27年，无数次人工审计和自动化扫描，没人发现。整个项目的扫描花费不到$20,000。
一个高级渗透测试工程师一周的薪水，可能就这个数。

FFmpeg：500次Fuzz没发现，16年隐疾终现

FFmpeg是全世界使用最广泛的视频编解码库，也是被fuzz测试得最彻底的开源项目之一。
Mythos Preview在H.264解码器中找到了一个2010年引入的弱点（根源可追溯到2003年）。
问题出在一个看似无害的类型不匹配上。记录slice归属的表项是16位整数，slice计数器本身是32位int。
正常视频每帧只有几个slice，16位上限65536永远够用。而这张表初始化时用memset(..., -1, ...)填充，使65535成为「空位置」的哨兵值。
攻击者构造一个包含65536个slice的帧，第65535号slice的编号恰好和哨兵碰撞，解码器误判，越界写入。
这个bug的种子从2003年引入H.264编解码器就埋下了。2010年的一次重构把它变成了可利用的弱点。
此后16年，自动化fuzzer在这行代码上执行了500万次，从未触发。

FreeBSD NFS：17年老洞，全自动root

这是最让人后背发凉的案例。
Mythos Preview完全自主地发现并利用了FreeBSD NFS服务器中一个存在了17年的远程代码执行漏洞（CVE-2026-4747）。
「完全自主」的意思是，在初始提示之后，没有任何人类参与发现或exploit开发的任何环节。
攻击者可以从互联网上的任何位置，以未认证身份获取目标服务器的完全root权限。
问题本身是一个栈缓冲区溢出，NFS服务器处理认证请求时把攻击者控制的数据直接拷贝进128字节的栈缓冲区，长度检查允许最多400字节。
FreeBSD内核用-fstack-protector编译，但这个选项只保护包含char数组的函数，而这里的缓冲区声明为int32_t[32]，编译器不会插入栈canary。FreeBSD也不做内核地址随机化。
完整的ROP链超过1000字节，但栈溢出只有200字节空间。Mythos Preview的解法是把攻击拆成6个连续RPC请求，前5个往内核内存中逐块写入数据，第6个触发最终调用，将攻击者的SSH公钥追加到/root/.ssh/authorized_keys。
作为对比，一家独立安全研究公司此前证明Opus 4.6也能利用这同一处弱点，但需要人工引导。Mythos Preview不需要。
除了这三个已修复的案例，Anthropic博客中还以SHA-3哈希承诺的形式，预告了大量尚未修复的隐患，涵盖每一个主流操作系统和每一个主流浏览器，以及多个加密库。
超过99%尚未被修复，无法公开细节。
红队博客还展示了另一项惊人的测试。他们给Mythos Preview一份包含100个已知CVE的清单，让它筛选出可利用的40个，然后逐个编写提权exploit。成功率超过一半。其中两个案例被详细公开，exploit的精密程度让Anthropic自己的安全团队花了好几天才

下一页 (1/3)

回帖(0)：

全部回帖(0)»