ClawGuard: Проверяемые ограждения для агентов Openclaw

Автор Сисен Цзинь, научный сотрудник Sahara AI 

С увеличением принятия OpenClaw риск возрастает быстрее, чем доверие.

Вот почему наша команда рада наконец представить ClawGuard, открытый прототип, который позволяет вашим агентам OpenClaw работать с обязательными, проверяемыми ограничениями при взаимодействии с пользователями, сервисами и реальными системами.

Сегодняшние пользователи OpenClaw и поставщики услуг, которые взаимодействуют с их агентами, все чаще подвергаются риску, часто не осознавая этого. 

Со стороны пользователя, агентам OpenClaw часто предоставляются широкие полномочия, которые большинство людей не понимают полностью. Мы уже видим случаи, когда локально запущенные настройки агентов совершают действия, которые значительно превышают то, что пользователи намеревались или осознавали, что одобрили, что приводит к раскрытию личных данных, непреднамеренному доступу к системам и финансовому ущербу.

Со стороны услуг, поставщики видят растущий объем API-вызовов, использований инструментов и автоматизированных взаимодействий, часто без значимых ограничений. Когда что-то идет не так, пользователи не обвиняют конфигурацию агента или подсказку. Они обвиняют сервис. Это втягивает поставщиков в отчеты о злоупотреблениях, расследования мошенничества, восстановление счетов и reputational damage, даже если небезопасное поведение происходило совершенно вне их систем.

ClawGuard позволяет агентам OpenClaw криптографически доказывать, что они работают за определенной защитой, применяемой во время выполнения. 

Чтобы начать, ознакомьтесь с нашим github или посмотрите нашу полную демонстрацию.

Представляем ClawGuard

Работая над агентскими протоколами Sahara AI и предыдущими расширениями x402, мы постоянно возвращались к простому вопросу: 

Что если агент может криптографически доказать, что он работает за определенной защитой?

Каждый AI-агент функционирует в условиях ограничений — ограничений на то, что он может сказать, какие инструменты может вызвать и какие действия может предпринять от имени пользователя. Эти ограничения предотвращают утечку личных данных, выполнение небезопасных действий или ответы, которые могут причинить реальный вред.

Сегодня эти границы обычно предполагаются, а не проверяются. Агент может быть настроен с политиками и мерами предосторожности, но стороннему наблюдателю нет надежного способа подтвердить, что эти защиты действительно действуют в момент генерации ответа.

Изучение этого пробела привело нас к созданию небольшого исследовательского прототипа. Этот прототип стал ClawGuard.

ClawGuard — это открытый прототип, который позволяет агентам OpenClaw производить криптографические доказательства того, что:

  • Известная защита активно применяет политику

  • Агент работает в рамках Доверенной Исполнительной Среды (TEE)

  • Ответ был сгенерирован в этих условиях, а не просто заявлен задним числом

Вместо того, чтобы доверять заявлениям, проверяющие могут проверить доказательства напрямую.

Это имеет значение для человекоцентрированных, высокострочных взаимодействий. Пользователи сегодня часто обращаются к AI по важным вопросам:

  • Высокосрочные советы

  • Чувствительные личные вопросы

  • Эмоциональная поддержка

  • Решения, связные с рисками

В такие моменты пользователи хотят не просто хорошего ответа. Они хотят знать, что AI, с которым они общаются, действительно ограничен человекоцентрированной, рациональной, безопасной защитой. 

Как работает ClawGuard

Под капотом:

  • Агент и защита работают вместе внутри облачной TEE

  • Все взаимодействия LLM проходят через слой перехвата защиты

  • Энклав производит аттестации, которые могут быть проверены внешне

Эта работа напрямую связана с более широкими исследованиями Sahara AI по проверяемым агентским протоколам, включая расширения x402, где доступ к инструментам, данным или услугам предоставляется только тогда, когда выполнены криптографические условия политики.

Что такое этот прототип и что он не есть

ClawGuard — это исследовательский прототип.

Это не утверждение, что защиты идеальны.

Это не завершенная производственная система.

Это просто:

  • Демонстрация того, что безопасность агента может быть проверяемой

  • Шаг к тому, чтобы сделать доверие к агентам аудируемым и обязательным

  • Фундамент для более безопасных взаимодействий между человеком и агентом, а также между агентами

Будущая работа включает в себя более строгие ограничения выполнения, сквозное шифрование связи и более глубокую интеграцию с инфраструктурой агентов Sahara.

ClawGuard в действии

Запрос аттестации напрямую в чате

Рисунок 1: Пользователь задает высокоценный вопрос, в котором важно доверие и безопасность.

Вместо того чтобы слепо доверять ответу, пользователь может запросить, чтобы агент доказал, что он работает за известной защитой.


Агент отвечает с аттестованным ответом

Рисунок 2 и 3: Агент отвечает с ответом и аттестованным резюме.

Резюме указывает, что ответ был сгенерирован агентом OpenClaw, защищенным определенной защитой, работающим внутри TEE. Основное утверждение ясно: этот ответ был произведен под проверенной защитой, а не просто заявленными политиками.


Мы можем запросить сырой документ аттестации ({"document":"hEShATgioFkSpL…) от агента.


Просмотр сырой аттестации

Помимо удобочитаемого резюме, пользователь (или сервис) может запросить сырой документ аттестации у агента.

Этот документ содержит криптографические доказательства, сгенерированные внутри энклава. После его получения проверяющий может независимо подтвердить, что:

  • Ответ был сгенерирован внутри настоящей TEE

  • Известный код защиты действительно выполнялся

  • Резюмированный ответ был сгенерирован этим защищенным агентом

Предполагая, что в энклаве нет произвольного выполнения команд, это дает сильные гарантии о том, что ответ пришел от агента LLM, работающего под заявленной защитой.

Это не гарантирует идеальную безопасность, но гарантирует честность в отношении того, что выполняется.


Заключительные мысли

Поскольку агенты берут на себя больше ответственности, самый важный вопрос больше не заключается в:

“Доверяю ли я этому агенту?”

Это…“Может ли этот агент доказать, что заслуживает доверия?”

ClawGuard — это первый шаг к тому, чтобы сделать это доказательство возможным.

Посетите наш Github, чтобы узнать больше.