모든 AI 회사는 그들의 에이전트가 안전하다고 말합니다. 이제 당신은 그것을 확인할 수 있습니다.

AI 에이전트가 돈을 관리하고, 코드를 실행하며, 민감한 데이터에 접근하고, 귀하를 대신하여 결정을 내리기 시작하고 있습니다. 이 산업은 이러한 시스템에 실제 사물에 대한 자율성을 부여하는 쪽으로 빠르게 이동하고 있습니다. 에이전트에게 더 많은 제어를 주면 줄수록, 실제로 그 뒤에 있는 개발자가 주장하는 안전 조치를 구축했는지에 대한 신뢰를 더하게 됩니다.

그 신뢰는 현재 전혀 검증할 수 없습니다.

오늘날 사용자는 단일 가드레일 주장을 검증할 수 없습니다

AI 에이전트와 상호작용할 때, 사용자는 개발자가 실제로 주장하는 안전 조치를 구현했으리라고 믿고 있습니다. 콘텐츠 조정, 환각 감지, 위험한 행동에 대한 제한. 모든 것은 개발자의 서버에서, 닫힌 문 뒤에서 실행됩니다.

이 말은 가드레일이 잘못 구성될 수 있음을 의미합니다. 비용을 절감하기 위해 생산 중에 꺼질 수 있습니다. 광고되지만 실제로는 배포되지 않을 수 있습니다. 그리고 사용자는 결코 알 수 없을 것입니다.

이것은 가설이 아닙니다. AI 에이전트가 더 자율적이 되고 실제로 실제 결과에 대해 결정을 내리기 시작하면서, "그냥 믿으세요"라는 답변이 더 이상 허용되지 않습니다.

AI 안전은 증거가 필요하며, 약속이 아닙니다.

이제 당신은 그것을 검증할 수 있습니다.

가드레일의 증명: 안전 점검이 실제로 실행되었음을 암호화하여 검증하는 방식

사하라 AI의 연구 팀은 남부 캘리포니아 대학 (USC)와 협력하여 방금 발표했습니다.

"AI 에이전트에서의 가드레일의 증명과 그것으로부터 믿지 말아야 할 것"

핵심 개념: AI 에이전트 개발자가 특정 가드레일이 실제로 실행되었음을 암호화된 증거로 만들어내는 시스템입니다. 주장이 아닙니다. 규정 준수 양식의 체크박스가 아닙니다. 사용자가 독립적으로 확인할 수 있는 검증 가능한 변조 방지 인증서입니다.

작동 방식은 다음과 같습니다:

  1. 가드레일 코드는 신뢰할 수 있는 실행 환경 (TEE) 내에서 실행되며, 하드웨어 보안 구역이 계산을 격리합니다.

  2. 가드레일이 실행될 때, TEE는 어떤 코드가 실행되었는지 및 입력과 출력이 무엇이었는지를 정확히 캡처하는 서명된 인증서를 생성합니다.

  3. 사용자는 개발자의 독점 에이전트를 한 번도 보지 않고도 알려진 오픈 소스 가드레일 코드를 기준으로 그 인증서를 검증할 수 있습니다.

개발자의 지적 재산권은 비공개로 유지됩니다. 사용자는 증거를 얻습니다. 양측 모두가 이익을 얻습니다.

모든 시뮬레이션 공격이 포착되었으며 최소한의 지연 비용

우리는 OpenClaw 에이전트에서 Proof-of-Guardrail을 구현하고 AWS Nitro Enclaves에 배포했습니다. 우리는 콘텐츠 안전 가드레일(Llama Guard 3 사용)과 사실성 가드레일(Loki라는 오픈 소스 사실 검증 도구 사용)을 테스트했습니다.

결과:

  • 변조 감지가 전반적으로 제대로 작동했습니다. 수정된 가드레일 코드, 변경된 인증서 바이트, 변경된 응답. 모든 공격은 검증 중에 포착되었습니다.

  • 지연 오버헤드는 평균 약 34%였습니다. 챗봇 스타일의 상호작용에는, 검증 가능한 안전을 위한 수용 가능한 대가입니다. 인증서 생성 자체는 대략 100ms가 소요됩니다.

  • 우리는 사용자가 채팅을 통해 실시간으로 가드레일의 증명을 요청할 수 있는 OpenClaw 에이전트의 라이브 데모도 배포했습니다.

가드레일이 실행되었다는 증거는 출력이 안전하다는 것을 증명하는 것이 아닙니다

여기에서 매우 중요한 점은 가드레일의 증명이 안전성의 증명이 아니라는 것입니다. 그것은 가드레일이 실행되었다는 것을 증명합니다. 그러나 가드레일이 완벽하게 작동했음을 보장하지 않습니다. 가드레일은 여전히 분류 오류를 범할 수 있습니다. 그들은 탈옥될 수 있습니다. 특히, 시스템에는 가드레일이 오픈 소스여야 하므로 적대적인 개발자가 이를 약점으로 연구할 수 있습니다.

재무 뉴스 에이전트는 개발자가 실제로 가드레일을 우회하는 방법을 찾았다면 유효한 가드레일의 증명을 제공할 수 있지만 여전히 오해의 소지가 있는 조언을 제공할 수 있습니다.

우리는 이 논문에서 이 점을 명확히 합니다. 왜냐하면 그 구별이 중요하기 때문입니다. "가드레일이 실행되었다"와 "출력이 안전하다"를 혼동하면 이 연구가 방지하려고 하는 바로 그 종류의 잘못된 신뢰가 생성될 것입니다.

Proof-of-Guardrail이 실제로 닫는 것은 무엇입니까?

이 시스템이 없으면 개발자는 가드레일을 완전히 건너뛰거나, 더 약한 버전으로 교체하거나, 안전 조치가 존재한다고 주장할 수 있습니다. 이것들은 생산 중 안전이 깨지는 가장 쉽고 일반적인 방법이며, 오늘날에는 완전히 탐지할 수 없습니다. Proof-of-Guardrail은 이 모든 문제를 제거합니다.

남은 것은 실제로 실행되는 가드레일의 적대적인 탈옥 문제입니다. 그것은 수행하기 더 어려우며, 비판적으로, 연구 커뮤니티가 적극적으로 벤치마킹, 레드팀 및 패치할 수 있는 종류의 문제입니다. 오픈 소스 가드레일은 열린 검증을 의미하며, 이는 방어에 대한 더 빠른 반복을 의미합니다.

"가드레일이 실행되었다"와 "출력이 안전하다"의 간격은 하룻밤 사이에 줄어들지 않습니다. 그러나 앞으로 나아갈 길은 분명합니다. 우리는 더 강력한 가드레일, 더 나은 벤치마크 및 최선의 관행으로 간주되는 것에 대한 커뮤니티 주도 표준이 필요합니다. Proof-of-Guardrail은 가드레일 실행을 주장이 아닌 검증 가능한 사실로 만들어 이 생태계가 기반을 마련할 수 있도록 합니다.

검증은 대규모 자율 에이전트의 기반입니다

Proof-of-Guardrail은 더 넓은 변화의 한 조각입니다. 에이전트가 더 자율적으로 변할수록 스택의 모든 층에는 암호화된 책임이 필요합니다. 검증 가능한 추론. 감사 가능한 의사 결정. 안전 조치가 실제로 실행되었음을 증명해야 하며, 단순히 개발자의 단어만 가지고는 안 됩니다. 이 인프라는 사후 생각이 되어서는 안 됩니다. 처음부터 내장되어야 합니다.

그것이 우리가 Sahara AI에서 지향하는 방향입니다.


전체 논문을 읽어보십시오:

arxiv.org/html/2603.05786v1