AI가 거짓말할 때: AI 환각 이해하기

2025. 9. 22.

Chat GPT, Claude 또는 Gemini를 사용해 보셨다면 아마 이런 일이 발생하는 것을 보셨을 것입니다. AI가 완벽하게 자신감 있게 들리는 말을 하지만 결국 완전히 거짓이라는 것입니다. AI가 존재하지 않는 연구를 인용하거나 인용구를 만들어내거나 기본 사실을 혼동할 수 있습니다.

이를 AI 환각이라고 하며, 이는 오늘날 AI 시스템에서 가장 큰 도전 과제 중 하나입니다. 이러한 도구를 안전하고 효과적으로 사용하기 위해 왜 이러한 일이 발생하는지 이해하는 것이 중요합니다.

AI 환각이란 무엇인가?

AI 환각은 모델이 잘못되거나 비현실적이며 현실과 단절된 정보를 생성하지만 이를 전적으로 자신 있게 제시할 때 발생합니다.

간단한 사실은 이것이 결함이나 거짓말이 아니라는 것입니다. 대형 언어 모델은 진실 엔진이 아니며, 예측 엔진입니다. 이들의 작업은 훈련 중 학습한 패턴을 기반으로 가장 가능성이 높은 다음 단어, 이미지 또는 토큰을 예측하는 것입니다.

따라서 정답이 없을 때, 이들은 설계된 대로 빈칸을 채우기 위해 옳게 들리는 무엇인가로 채웁니다.

AI가 “빈틈을 메우는 이유”

환각은 모델의 유창하게 들리려는 욕구가 사실에 대한 접근력을 초과할 때 발생합니다. 주요 이유는 다음과 같습니다:

정확성보다 예측
언어 모델은 훈련 데이터에 기반하여 가장 가능성이 높은 다음 단어를 예측하기 위해 구축되었습니다. 그 단어가 진실인지 여부를 검증하기 위한 것이 아닙니다. 이들의 목표는 유창함이지 정확성이 아닙니다. 연구자들은 교정된 언어 모델은 환각을 발생시켜야 한다고 지적합니다. 완벽하게 훈련된 모델조차도 불확실성이 예측 작동의 일부이기 때문에 때때로 잘못된 정보를 생성할 것입니다.

Open AI의 최근 연구 언어 모델의 환각 발생 이유는 한 걸음 더 나아갑니다. 이는 언어 모델이 불확실할 때 “추측”한다는 것을 보여줍니다. 현재의 훈련 및 평가 시스템은 신중한 답변보다 자신 있는 답변에 보상을 주기 때문입니다. 즉, AI는 질문을 비워두기보다는 답변을 입력하기 이를 원하고 시험에서는 자신감을 더 높이 평가합니다, 비록 잘못되었더라도요.

훈련 데이터의 격차와 편향
모델이 주제의 충분한 예를 보지 못했거나 데이터가 한쪽 방향으로 크게 기울어져 있으면 제대로 보이는 것으로 빈칸을 채울 수 있습니다. 예를 들어, 대부분의 데이터가 특정 스포츠 팀이 이기는 것을 보여준다면, 모델은 결코 발생하지 않은 다른 승리를 “기억”할 수 있습니다. 이러한 연구 결과들은 환각 원인에 대한 최근 조사를 통해 결여되거나 왜곡된 데이터가 잘못된 출력을 유발하는 가장 큰 요인 중 하나라는 것을 확인합니다.

모호하거나 복잡한 프롬프트
질문이 모호하거나 불확실하면 모델은 이해하려고 합니다 — 비록 그것이 세부 정보를 만들어내는 것을 의미하더라도. 예를 들어, “붉은 사과의 17세기 전쟁”에 대한 질문은 모델이 존재하지 않다고 말하기보다는 전체 사건을 조작하게 할 수 있습니다. 하나의 2024년 분석에 따르면, 모델이 불완전하거나 익숙하지 않은 입력으로부터 의미를 유추해야 할 때 환각이 증가하는 경우가 많습니다.

AI는 자신감을 위해 최적화되었기 때문에 환각은 위험할 수 있습니다. 이는 정확성이 중요한 분야에서는 더욱 그렇습니다.

  • 법적: 사례법 또는 선례를 만들어 내면 심각한 결과를 초래할 수 있습니다.

  • 의료: 약물 상호작용 또는 진단을 조작하면 위험할 수 있습니다.

  • 재무: 주식 데이터 또는 회사 수익을 조작하면 투자자를 오도할 수 있습니다.

AI 환각의 모습

환각의 문제는 그것이 완전히 정상으로 보인다는 것입니다. 언어는 명확하고 자신감 있으며 종종 전문적이어서 믿기 쉽습니다.

환각의 유형

예시

가짜 출처

자신이 찾으려고 할 때 실제로 존재하지 않는 책, 연구 논문 또는 웹사이트를 인용하는 것입니다.

잘못된 사실

잘못된 날짜, 통계 또는 역사적 사건(예: 에펠탑이 1905년에 완공되었다고 말하기)을 생성하는 것입니다.

발명된 세부 사항

완전히 조작된 특정하고 매우 그럴듯한 정보를 추가하는 것입니다(예: 인용구를 발명하고 그것을 유명한 사람에게 귀속시키기).

신뢰감 있는 오류

언어 모델이 "잘 알려져 있다..." 또는 "사실은 명확하게 진술한다..."와 같은 문구를 사용하여 잘못된 진술 전에 사용합니다.

환각을 피하는 방법

환각을 완전히 제거할 수는 없지만, 이를 해결할 수는 있습니다. AI를 최종 권위가 아닌 협력자로 생각하십시오.

항상 검증하십시오
주제가 귀하의 건강, 돈 또는 법적 지위에 영향을 미친다면, 신뢰할 수 있는 외부 출처를 통해 정보를 확인하십시오.

가드레일 추가
비즈니스 또는 생산 환경에서는 AI가 생성한 결과에 대해 행동하기 전에 인간 검토를 보장하십시오.

인용 요청
AI에게 출처를 보여달라고 하십시오. 그런 다음 이를 다시 확인하십시오. 조작된 인용은 환각을 식별하는 가장 쉬운 방법 중 하나입니다.

구체적으로 묻기
모호한 프롬프트는 모호한(그리고 종종 잘못된) 답변을 이끌어냅니다. 예를 들어, “CEO에 대해 말해줘” 대신 “회사 X의 현재 CEO는 누구이며 그들이 임명된 것은 언제인가요?”라고 물어보십시오.

모델에 도전하기
무언가가 이상하게 느껴지면 AI에게 자신의 추론을 설명하거나 답변을 다시 확인해 달라고 요청하십시오. 종종 이 두 번째 검토는 자가 수정하도록 유도할 것입니다.

연구자들이 다음에 시도하고 있는 것들

환각은 완전히 제거할 수는 없지만, 새로운 연구는 이를 줄이거나 적어도 자신이 모르는 것에 대해 모델을 더 정직하게 만드는 방법을 찾고 있습니다.

  • 평가 인센티브 재고
    Open AI의 언어 모델의 환각 발생 이유에 따르면, 환각이 지속되는 주요 이유 중 하나는 현재의 훈련 및 테스트 방법이 정확성보다 자신감을 보상하기 때문입니다. 오늘날의 벤치마크에서는 모델이 답변을 제공함으로써 더 높은 점수를 얻습니다 — 잘못된 것이라 할지라도 — 불확실성을 표현하기보다는요.

    연구자들은 이러한 인센티브 구조를 변화시키는 것이 핵심이라고 주장합니다. 신중함과 적절한 불확실성을 보상하는 벤치마크와 점수 시스템을 설계함으로써 AI 시스템은 추측하기보다는 “모르겠다”고 말하는 법을 배울 수 있습니다.

  • 신뢰감 보정
    다른 팀은 모델이 언제 잘못될 수 있는지를 더 잘 판단하도록 돕는 방법을 탐구하고 있습니다. 다중 보정 및 구두화된 불확실성과 같은 기법은 모델이 실제로 얼마나 불확실한지에 비례하여 의혹을 표현하도록 가르칩니다.

  • 개선된 디코딩 방법
    DoLa (상층 대조에 의한 디코딩)와 같은 방법은 모델이 다음 단어를 선택하는 방식을 조정하여 유창함보다 사실적 정확성을 우선시하고, 자주 환각을 규정짓는 자신감 있지만 잘못된 톤을 줄이는 데 도움을 줍니다.

  • 선택적 자제
    새로운 시스템은 AI 모델이 자신감이 너무 낮을 때 대답하기를 거부하도록 합니다. 근본적 보정과 같은 기술을 사용하여 완전성보다 신뢰성을 우선시합니다.

  • 검색 증강 생성(RAG)
    RAG를 통해 외부 출처에 모델을 연결하면 “사실을 찾아보는”데 도움을 주어 기억만 의존하지 않습니다. RAG는 완벽하지 않지만, 현재 대규모로 사실적 정확성을 개선하기 위한 가장 실용적인 방법 중 하나입니다.


    이러한 접근 방식들은 AI 시스템이 자신이 모르는 것에 대해 더 자각을 가지는 미래를 가리키고 있습니다.

    이와 같은 가이드를 더 원하십니까? 사하라 AI의 다음 깊이 탐구를 놓치지 마십시오. 새로운 AI 설명서 및 가이드를 게시할 때마다 알림을 받을 수 있도록 등록하십시오.