Когда ИИ лжёт: Понимание галлюцинаций ИИ

22 сент. 2025 г.

Если вы когда-либо использовали Chat GPT, Claude или Gemini, вы, вероятно, видели, как это происходит: ИИ говорит что-то, что звучит совершенно уверенно, но оказывается совершенно ложным. Он может сослаться на исследование, которого не существует, придумать цитату или перепутать основную информацию.

Это называется галлюцинацией ИИ, и это одна из самых больших проблем современных ИИ-систем. Понимание причин этого явления является ключевым для безопасного и эффективного использования этих инструментов.

Что такое галлюцинация ИИ?

Галлюцинация ИИ происходит, когда модель генерирует информацию, которая ложная, бессмысленная или не связана с реальностью, но представляет её с полной уверенностью.

Простая истина заключается в том, что это не сбой или ложь. Большие языковые модели не являются машинами истины; они являются машинами предсказаний. Их работа заключается в предсказании наиболее вероятного следующего слова, изображения или токена на основе закономерностей, которые они изучили во время обучения.

Так что, когда у них нет правильного ответа, они делают то, для чего были разработаны: заполняют пробелы чем-то, что звучит правильно.

Почему ИИ «заполняет пробелы»

Галлюцинации происходят, когда стремление модели звучать свободно превышает её доступ к фактам. Вот основные причины:

Предсказание важнее точности
Языковые модели созданы для того, чтобы предсказывать наиболее вероятное следующее слово на основе своих обучающих данных, а не для проверки, является ли это слово истинным. Их цель — беглость, а не точность. Как отмечают исследователи в Калиброванные языковые модели должны галлюцинировать, даже идеально обученные модели иногда могут генерировать ложную информацию, потому что неопределенность является частью работы предсказания.

Недавние исследования от Open AI, Почему языковые модели галлюцинируют, идут дальше. Они показывают, что языковые модели «угадывают», когда не уверены, потому что текущие системы обучения и оценки поощряют уверенные ответы больше, чем осторожные. Иными словами, ИИ ведет себя как студент, который предпочитает заполнить ответ, чем оставить вопрос пустым, потому что тест оценивает его выше за уверенность, даже если при этом он ошибается.

Пробелы и предвзятости в обучающих данных
Если модель не видела достаточного количества примеров по какому-либо вопросу или если её данные сильно наклонены в одном направлении, она может заполнить пробелы тем, что кажется правильным. Например, если большинство её данных показывает, что определенная спортивная команда выигрывает, она может «вспомнить» о другой победе, которая никогда не происходила. Исследования, такие как это недавнее исследование причин галлюцинаций, подтверждают, что отсутствие или искаженные данные остаются одним из самых больших факторов ложных выводов.

Неоднозначные или сложные запросы
Когда вопрос расплывчатый или неясный, модель пытается его понять — даже если это означает изобретение деталей. Например, спрашивая о «войне красного яблока XVII века», вы можете побудить модель выдумать целое событие, а не сказать, что его не существует. Как показывает одно исследование 2024 года, галлюцинации часто увеличиваются, когда модели вынуждены делать выводы на основе неполного или незнакомого ввода.

Поскольку ИИ оптимизирован для уверенности, галлюцинации могут быть рискованными. Это особенно верно в областях, где точность имеет значение.

  • Юридическая: Придумывание прецедентов или судебных решений может привести к серьезным последствиям.

  • Медицинская: Изобретение взаимодействий лекарств или диагнозов может быть опасным.

  • Финансовая: Фабрикация данных о акциях или доходах компании может ввести инвесторов в заблуждение.

Как выглядят галлюцинации ИИ

Проблема с галлюцинациями в том, что они выглядят совершенно нормально. Язык ясен, уверен и часто профессионален, что делает их легко убедительными.

Тип галлюцинации

Пример

Фальшивые источники

Ссылки на книги, исследовательские статьи или веб-сайты, которые на самом деле не существуют, когда вы пытаетесь их найти.

Неверные факты

Генерация неправильных дат, статистики или исторических событий (например, утверждение, что Эйфелева башня была завершена в 1905 году).

Вымышленные детали

Добавление специфической, высокоплаусибельной информации, которая полностью сфабрикована (например, изобретение цитаты и приписывание её известной личности).

Уверенные ошибки

Языковая модель использует фразы, такие как "Об этом широко известно..." или "Факты ясно говорят..." перед ложным утверждением.

Как избежать галлюцинаций

Вы не можете полностью устранить галлюцинации, но вы можете обойти их. Рассматривайте ИИ как своего сотрудника, а не как окончательный авторитет.

Всегда проверяйте
Если тема касается вашего здоровья, денег или юридического статуса, подтвердите информацию через надежные внешние источники.

Добавьте «ограждения»
В бизнесе или производственных условиях обеспечьте человеческий обзор перед тем, как действовать на основе или публиковать результаты, сгенерированные ИИ.

Просите ссылки
Пусть ИИ покажет свои источники, а затем перепроверьте их. Фабрикативные ссылки — это одна из самых простых галлюцинаций, которые можно обнаружить.

Будьте конкретными
Неясные запросы приводят к неясным (и часто ложным) ответам. Например, вместо "Расскажите мне о генеральном директоре" спросите "Кто является текущим генеральным директором компании X и когда он был назначен?"

Ставьте под сомнение модель
Если что-то кажется странным, попросите ИИ объяснить своё рассуждение или перепроверить свой ответ. Часто этот второй подход заставит его исправиться.

Что пытаются сделать исследователи дальше

Хотя галлюцинации невозможно полностью устранить, новые исследования находят способы сократить их количество или хотя бы сделать модели более честными в том, чего они не знают.

  • Переосмысление стимулов для оценки
    Согласно исследованию Open AI Почему языковые модели галлюцинируют, одна из основных причин, почему галлюцинации сохраняются, это то, что текущие методы обучения и тестирования поощряют уверенность больше, чем точность. В сегодняшних критериях модели получают более высокие баллы за то, что дают ответ — даже если он неверный — чем за выражение неопределенности.

    Исследователи утверждают, что изменение этой структуры стимулов является ключевым. Разрабатывая критерии и системы оценки, которые поощряют осторожность и адекватную неопределенность, ИИ-системы могли бы научиться говорить "Я не знаю" вместо того, чтобы гадать.

  • Калибровка уверенности
    Другие группы исследуют способы помочь моделям лучше оценивать, когда они могут быть неправы. Техники, такие как многокалибровка и вербализация неопределенности, учат модели выражать сомнение в пропорции к тому, насколько они действительно не уверены.

  • Улучшенные методы декодирования
    Методы, такие как DoLa (декодирование путем контрастирования слоев), изменяют способ выбора модели следующего слова в пользу фактической точности, уменьшая уверенный, но неверный тон, который часто определяет галлюцинации.

  • Селективный отказ
    Новые системы позволяют моделям ИИ отказываться отвечать, когда уверенность слишком низка, используя такие технологии, как конформальная калибровка. Этот подход приоритизирует надежность над полнотой.

  • Генерация с использованием дополненной информации (RAG)
    Опробование моделей на внешних источниках через RAG помогает им «искать» факты, вместо того чтобы полагаться исключительно на память. Хотя RAG не является безошибочным, это в настоящее время один из самых практичных методов для улучшения фактической точности в масштабе.


    Вместе эти подходы указывают на будущее, где системы ИИ будут более самосознательными о том, чего они не знают.

    Хотите получать больше таких руководств? Не пропустите следующий глубокий анализ Sahara AI. Подпишитесь, чтобы получать уведомления, когда мы публикуем новые объяснения и руководства по ИИ.