每个人工智能公司都说他们的代理是安全的。现在你可以验证这一点。

人工智能代理正在开始管理资金、执行代码、访问敏感数据,并代表您做出决策。整个行业正迅速朝着给予这些系统对真实事物的真正自主权的方向发展。您交给代理的控制越多,您就越是在信任背后开发该代理的开发者实际构建了他们所声称的安全措施。
这种信任 在现在是无法完全验证 的。
用户今天无法验证单个安全限制声明
当您与人工智能代理互动时,您在信任开发者实际实施了他们所声称的安全措施。内容审查、幻觉检测、对危险行为的限制。所有这些都在开发者的服务器上运行,闭门造车。
这意味着安全限制可能配置错误。它们可能在生产中被关闭以节省成本。它们可能宣传却从未真正部署。您永远不会知道。
这不是假设。当人工智能代理变得更加自主,并开始处理具有真实后果的真实决策时,“只需信任我们”不再是一个可接受的答案。
人工智能的安全需要证明,而不是承诺。
现在您可以验证它。
安全限制证明:加密验证安全检查是否实际运行
我们在 Sahara AI 的研究团队与南加州大学 (USC)合作,刚刚发布了
核心概念:一个系统,让人工智能代理开发者生成加密证明,证明在生成响应之前,特定的安全限制实际上运行了。不是一份声明。不是合规表上的复选框。一个可验证的、防篡改的认证,用户可以独立检查。
其工作原理概述如下:
安全限制代码在受信执行环境 (TEE) 内运行,这是一个硬件安全的保护区,隔离计算。
当安全限制执行时,TEE 会生成一份签名的认证,精确捕捉运行的代码以及输入和输出。
用户可以根据已知的开源安全限制代码验证该认证,而无需查看开发者的专有代理。
开发者的知识产权保持私密。用户获得证明。双方皆大欢喜。
每次模拟攻击都被捕获,延迟成本极小
我们在 OpenClaw 代理上实施了安全限制证明并将其部署在 AWS Nitro Enclaves 上。我们测试了内容安全限制(使用 Llama Guard 3)和事实性限制(使用 Loki,这是一个开源事实验证工具)。
结果:
篡改检测在各方面都有效。修改的安全限制代码、改变的认证字节、变更的响应。每次攻击在验证过程中都被捕获。
延迟开销平均约为 34%。对于聊天机器人式的互动,这对可验证安全来说是一个可管理的权衡。认证生成本身大约需要 100 毫秒。
我们还部署了一个 OpenClaw 代理在 Telegram 上运行的实时演示,用户可以通过聊天实时请求安全限制证明。
证明安全限制运行与证明输出安全并不是一回事
这里有一点非常重要,那就是安全限制证明并不是安全的证明。它证明了安全限制运行了。但不能保证安全限制完美运行。安全限制仍然可能会发生分类错误。它们可能被越狱,尤其是因为该系统要求安全限制为开源(这意味着对手开发者可以研究它们的弱点)。
一个金融新闻代理可以提供有效的安全限制证明,但如果开发者找到了绕过安全限制的方法,仍然可以提供误导性建议。
我们在论文中明确指出这一点,因为这个区别很重要。将“安全限制运行了”与“输出是安全的”混为一谈,会产生这种研究试图防止的错误信心。
那么安全限制证明实际上关闭了什么?
没有这个系统,开发者可以完全跳过安全限制,用更弱的版本替换,或者声称存在的安全措施实际上并不存在。这些是安全在生产中崩溃的最简单和最常见的方式,并且今天完全无法检测到。安全限制证明消除了所有这些。
剩下的是一个更狭窄的问题:实际运行的安全限制的对抗性越狱。这更难以实现,关键是,这是研究社区可以积极基准测试、红队和修补的那种问题。开源的安全限制意味着公开审查,这意味着更快地迭代防御。
“安全限制运行”和“输出是安全的”之间的差距不会在一夜之间消失。但前进的道路是明确的。我们需要更强的安全限制,更好的基准,以及以社区为驱动的标准,以确定什么算作最佳实践。安全限制证明通过使安全限制执行成为可验证的事实,而不是一种声明,为该生态系统提供了建设基础。
验证是大规模自主代理的基础
安全限制证明是更大转变的一部分。随着代理变得更加自主,堆栈的每一层都需要加密问责。可验证的推理。可审计的决策。真正执行的安全措施的证明,而不仅仅是开发者所说的。这个基础设施不能是事后想起的。它必须从一开始就内置。
这就是我们在 Sahara AI 正在努力实现的目标。
阅读完整论文:



