Каждая компания разрабатывающая ИИ говорит, что их агенты безопасны. Теперь вы можете это подтвердить.

Агентам ИИ начинают доверять управление деньгами, выполнение кода, доступ к конфиденциальным данным и принятие решений от вашего имени. Индустрия быстро движется к предоставлению этим системам реальной автономии над реальными вещами. И чем больше контроля вы доверяете агенту, тем больше вы доверяете, что разработчик, стоящий за ним, действительно встроил те меры безопасности, о которых он заявляет.

Это доверие полностью недоказуемо прямо сейчас.

Пользователи не могут проверить ни одно требование по охране сегодня

Когда вы взаимодействуете с агентом ИИ, вы доверяете, что разработчик действительно реализовал те меры безопасности, о которых он говорит. Модерация контента, обнаружение галлюцинаций, ограничения на опасные действия. Все это работает на серверах разработчика, за закрытыми дверями.

Это означает, что охрана может быть неправильно настроена. Их могут отключить в производстве, чтобы сэкономить деньги. Их могут рекламировать, но на самом деле никогда не развернуть. И вы никогда не узнаете.

Это не гипотетически. Поскольку агенты ИИ становятся более автономными и начинают принимать реальные решения с реальными последствиями, "просто доверяйте нам" перестает быть приемлемым ответом.

Безопасность ИИ требует доказательства, а не обещаний.

Теперь вы можете это проверить.

Proof-of-Guardrail: криптографическая проверка того, что проверка безопасности действительно прошла

Наша исследовательская группа в Sahara AI, в сотрудничестве с Университетом Южной Калифорнии (USC), только что опубликовала

"Proof-of-Guardrail в агентах ИИ и что (не) стоит им доверять"

Основная концепция: система, которая позволяет разработчикам агентов ИИ создавать криптографическое доказательство того, что конкретная охрана действительно работала до того, как был сгенерирован ответ. Не заявление. Не галочка в форме соблюдения. Проверяемое, защищенное от подделки удостоверение, которое пользователи могут проверить независимо.

Вот как это работает на высоком уровне:

  1. Код охраны выполняется внутри доверенной вычислительной среды (TEE), аппаратно защищенной среды, которая изолирует вычисления.

  2. Когда охрана выполняется, TEE создает подписанное удостоверение, которое точно фиксирует, какой код исполнялся и какие были входные и выходные данные.

  3. Пользователи могут проверить это удостоверение с известным кодом охраны с открытым исходным кодом, не видя при этом проприетарного агента разработчика.

Интеллектуальная собственность разработчика остается конфиденциальной. Пользователь получает доказательство. Оба действия выигрывают.

Каждая см simulated атака была зафиксирована, минимальная задержка

Мы внедрили Proof-of-Guardrail на агентах OpenClaw и развернули его на AWS Nitro Enclaves. Мы тестировали меры безопасности контента (используя Llama Guard 3) и фактические меры (используя Loki, инструмент проверки фактов с открытым исходным кодом).

Результаты:

  • Обнаружение вмешательства работало во всех случаях. Измененный код охраны, измененные байты удостоверения, измененные ответы. Каждая атака была зафиксирована во время проверки.

  • Задержка составила около 34%. Для интерактивного взаимодействия в стиле чат-бота это управляемый компромисс для проверяемой безопасности. Генерация удостоверения занимает примерно 100 мс.

  • Мы также развернули живую демонстрацию агента OpenClaw, работающего в Telegram, где пользователи могли запросить proof-of-guardrail в реальном времени через чат.

Доказательство того, что охрана работала, не то же самое, что доказательство того, что результат безопасен

Очень важно отметить, что proof-of-guardrail не является доказательством безопасности. Оно доказывает, что охрана работала. Это не гарантирует, что охрана работала идеально. Охраны все еще могут допускать ошибки классификации. Их можно взломать, особенно поскольку система требует, чтобы меры охраны были с открытым исходным кодом (что означает, что соперничающие разработчики могут изучать их на предмет уязвимостей).

Финансовый новостной агент может предоставить действительное proof-of-guardrail, пока все еще обеспечивает вводящие в заблуждение рекомендации, если разработчик нашел способ обойти саму охрану.

Мы это явно указали в статье, потому что отличие имеет значение. Смешивать "охрана работала" с "результат безопасен" создало бы именно тот вид ложной уверенности, который это исследование пытается предотвратить.

Так что же реально закрывает Proof-of-Guardrail?

Без этой системы разработчик может полностью пропустить защиту, заменить ее на более слабую версию или утверждать, что меры безопасности существуют, когда их нет. Это самые простые и распространенные способы, как безопасность рушится в производстве, и сегодня их невозможно обнаружить. Proof-of-Guardrail устраняет все эти проблемы.

То, что остается, является гораздо более узкой проблемой: противостояние взлому охраны, которая действительно работает. Это сложнее осуществить и, критически, это тот вид проблемы, который научное сообщество может активно оценивать, тестировать и исправлять. Охраны с открытым исходным кодом означают открытую проверку, что означает более быструю итерацию защит.

Разрыв между "охрана работала" и "результат безопасен" не закроется за ночь. Но путь вперед ясен. Нам нужны более сильные охраны, лучшие ориентиры и стандарты, выработанные сообществом для определения того, что считается наилучшей практикой. Proof-of-Guardrail предоставляет этой экосистеме что-то, на чем можно строить, делая выполнение охраны проверяемым фактом, а не заявлением.

Проверка является основой для автономных агентов в масштабах

Proof-of-Guardrail — это одна часть более широкого сдвига. Поскольку агенты становятся более автономными, каждый уровень стека должен иметь криптографическую ответственность. Проверяемая инференция. Аудируемое принятие решений. Доказательство того, что меры безопасности действительно اجراлись, а не только слово разработчика, что они выполнялись. Эта инфраструктура не может быть второстепенной. Она должна быть встроенной с самого начала.

Вот к чему мы стремимся в Sahara AI.


Читать полную статью:

arxiv.org/html/2603.05786v1