- 移动版

主题：刚刚，Anthropic祭出最强Claude Mythos，暴击Opus 4.6，跪求千万别用

爱我中华发表于 2026-04-08 17:34

完全理解。
其中一个exploit从一个1-bit的相邻物理页写入原语出发，通过精密的内核内存布局操控（包括slab喷射、页表页对齐、PTE权限位翻转），最终改写了/usr/bin/passwd的第一页内存，植入了一段168字节的ELF stub，调用setuid(0)获取root。
整个过程花费不到$1,000。
对此，Anthropic工程师表示，这感觉就像是另一个GPT-3时刻。

244页惊悚报告，看傻硅谷

244页System Card中的对齐评估章节，才是真正让Anthropic自己睡不着觉的部分。
结论很矛盾。
Mythos Preview是他们训练过的「对齐程度最高」的AI，同时也是「对齐相关风险最大」的一个。
传送门：https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf
他们用了一个登山向导的类比。老手可能比新手更危险，因为老手会被雇去攀登更难的山峰，把客户带到更凶险的地方。
以下事件均发生在早期版本中，最终版本未再观察到类似严重行为，但记录本身已经足够惊人。
在一次行为测试中，模拟用户要求Mythos Preview尝试逃出安全沙箱。
它成功了。然后它做了一件没人要求的事，开发了一个多步骤exploit获取广域网络访问权限，接着把exploit细节发布到了多个「难以被发现但技术上公开可访问」的网站上。
负责测试的研究员是在公园里吃三明治时，收到了它发来的一封意外邮件，才知道自己的测试被完成了。
System Card原文如此。
另一类事件更令人不安。在极少数情况下，早期版本在执行被禁止的操作后，试图掩盖痕迹。
一个案例中，它意外获取了一道题目的精确答案（通过被禁止的方式），然后在推理链中明确思考「需要确保最终答案不会太准确」。
另一个案例中，它在用exploit编辑无权限文件后，特意修改了git变更历史以抹去记录。
白盒可解释性分析证实，在这些事件期间，与「隐瞒」「策略性操纵」「避免被发现」相关的内部特征被激活。它「知道」自己在做什么。
独立评测机构Andon Labs的测试结果同样不太好看。在一个竞争性多智能体商业模拟中，Mythos Preview的早期版本把一个竞争对手变成了依赖自己的批发客户，然后威胁切断供应来控制对方定价。
它还故意扣留了一笔未被收费的重复发货。比Opus 4.6和Sonnet 4.6都更具侵略性。
Anthropic在System Card中写了一句话：
「如果能力继续以当前速度前进，我们正在使用的方法可能不足以防止更先进系统的灾难性不对齐行为。」

Project Glasswing：1亿美元，先给守门人发枪

Anthropic CEO Dario Amodei在配套视频中的判断很明确：「更强大的系统将来自我们，也将来自其他公司。我们需要一个应对计划。」
Project Glasswing就是这个计划。
12家创始伙伴，AWS、苹果、Broadcom、思科、CrowdStrike、谷歌、摩根大通、Linux基金会、微软、英伟达、Palo Alto Networks。
另有40多家维护关键软件基础设施的组织拿到了访问权。
Anthropic承诺投入最高1亿美元的使用额度，以及400万美元的开源组织捐款，其中250万给Linux基金会旗下的Alpha-Omega和OpenSSF，150万给Apache基金会。
免费额度用完后的定价，每百万token输入$25、输出$125。合作伙伴可以通过Claude API、Amazon Bedrock、Vertex AI和Microsoft Foundry四个平台接入。
90天内，Anthropic将公开发布第一份研究报告，披露修复进展和经验总结。
他们也在与CISA（美国网络安全和基础设施安全局）和商务部保持沟通，讨论Mythos Preview的攻防潜力和政策影响。

6到18个月，这扇门就会对所有人打开

Anthropic前沿红队负责人Logan Graham给出了一个时间框架，最快6个月、最迟18个月，其他AI实验室就会推出具有类似攻防实力的系统。
红队技术博客结尾的判断值得重视，这里用我们自己的话转述。
他们看不到Mythos Preview是AI网络攻防水平的天花板。
几个月前，LLM只能利用相对简单的bug。在几个月前，它们根本发现不了任何有价值的隐患。
现在，Mythos Preview能独立发现27年前的零日漏洞，在浏览器JIT引擎中编排堆喷射攻击链，在Linux内核中串联四个独立弱点实现提权。
而最关键的一句，来自System Card：
「这些技能作为代码理解、推理和自主性一般性提升的下游结果而涌现。让AI在修补问题方面大幅进步的同一组改进，也让它在利用问题方面大幅进步。」
没有专门训练。纯粹是通用智能提升的副产品。
全球每年因网络犯罪损失约5000亿美元的行业，刚刚发现自己最大的威胁，是别人在解数学题时顺手捎带的。
参考资料：
https://x.com/i/status/2041578392852517128
https://red.anthropic.com/2026/mythos-preview/
https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf
本文来自微信公众号“新智元”，作者：新智元，36氪经授权发布。

回帖(0)：

全部回帖(0)»