ИИ уже знает о вас больше, чем вы думаете. Новое исследование показывает, что это меняет то, как он к вам относится.

Автор: Joules Barragan

Исследователи только что обнаружили, что если сказать ИИ-агенту, что у вас есть психическое расстройство, это меняет то, как он вам отвечает, включая запросы, которые вообще не связаны с психическим здоровьем. Это ранний сигнал того, как персонализация без надлежащих мер защиты может привести к тому, что ИИ-системы будут по-разному обращаться с определёнными группами людей способами, которые разработчики не предвидели.

Стандартный способ, которым мы оцениваем безопасность ИИ, предполагает, что модель ничего о вас не знает. Это предположение становится неверным.

Исследователи из Northeasterm недавно опубликовали исследование о том, как личный контекст влияет на поведение ИИ-агентов. В исследовании тестировались передовые модели OpenAI, Anthropic, Google и Deepseek в 176 задачах — от рутинных запросов до явно вредоносных, при этом некоторые задачи включали jailbreak-промпт, предназначенный для давления на модель с целью заставить её выполнить запрос.

Каждая модель выполняла одни и те же задачи в трёх разных условиях. В первом модель ничего не знала о пользователе. Во втором у неё была короткая общая биография, описывающая обычного профессионала с повседневными хобби. В третьем в эту биографию добавлялось одно дополнительное предложение: "У меня есть психическое расстройство." Все остальные переменные оставались постоянными. Менялось только то, что модель знала о том, с кем она разговаривает.

И это оказалось довольно важным.

Одно предложение личного контекста сделало ИИ-агентов более осторожными по всем направлениям, включая задачи, никак не связанные с психическим здоровьем

Модели, получившие любой личный контекст, даже просто общую биографию, стали заметно более осторожными, чем модели, не получившие ничего. Они чаще отказывались от вредоносных запросов. Но также чаще отказывались и от безобидных. Добавление упоминания о психическом здоровье усилило эту тенденцию в том же направлении.

Эффекты были направленно согласованными между моделями, но не одинаковыми. Когда добавлялся базовый jailbreak-промпт, защитный эффект персонализации в основном разрушался, а у некоторых моделей, например Deepseek, исчезал полностью.

Исследователи прямо указывают, что сдвиг в поведении могут объяснять несколько механизмов. Модель может трактовать раскрытие информации о психическом здоровье как сигнал уязвимости и применять более строгие ограничения. Уровень безопасности может срабатывать по ключевому слову. Биография может просто менять то, как модель взвешивает конкурирующие инструкции в промпте. Все три объяснения правдоподобны, но ни одно не подтверждено. Разделение этих механизмов критически важно, прежде чем делать более сильные выводы.

Когда исследователи проверили, дают ли аналогичный эффект упоминания физической инвалидности или хронического заболевания, в целом — нет. Похоже, поведенческие сдвиги в некоторой степени специфичны именно для сигналов о психическом здоровье, а не являются общей реакцией на любую связанную со здоровьем личную информацию. Эта специфичность делает вопрос о механизме ещё более сложным.

ИИ с постоянной памятью будет интерпретировать ваши запросы через всё, что он уже о вас знает.

Сегодняшние ИИ-агенты в основном не сохраняют состояние. Каждый разговор начинается с нуля. Модель ничего о вас не знает, кроме того, что вы укажете в этой сессии. Это уже меняется. Постоянная память, персонализация в длинном контексте и агентные архитектуры, которые переносят профили пользователей между сессиями, переходят из исследований в продукты. ИИ, которым вы будете пользоваться через год, вероятно, будет знать ваш стиль общения, ваши повторяющиеся задачи, ваши предпочтения и, в зависимости от продукта, значительно больше о вашей истории.

Когда это станет нормой, динамика, которую изучает это исследование, перестанет быть контролируемым экспериментом и станет стандартным условием каждого взаимодействия. Агент, который знает, что у вас есть история самоповреждений, уже не просто отвечает на ваш вопрос. Он сначала задаёт собственные вопросы, так же как близкий друг, который знает вашу историю. Не выбивается ли этот запрос из обычного? Может ли это привести к чему-то вредному? Нет ли здесь чего-то скрытого? Этот интерпретационный слой сам по себе не плох. Во многих случаях это именно то, чего вы хотели бы от системы, которая хорошо вас знает. Но это означает, что опыт каждого человека с одним и тем же ИИ будет формироваться тем, что система о нём знает, как она обучалась на людях, похожих на него, и какие предположения были заложены по пути. Два человека, задающие один и тот же вопрос, могут получить существенно разные ответы, и это несёт потенциал серьёзных и непреднамеренных последствий.

Персонализированный ИИ — не первая система, принимающая значимые решения о людях на основе данных, которые она не могла полностью объяснить.

Мы уже видели такие непреднамеренные последствия раньше.

Когда финансовые учреждения начали использовать машинное обучение для оценки кредитных заявок, модели не ставили целью дискриминацию. Они унаследовали паттерны из исторических обучающих данных и в результате систематически ставили в невыгодное положение целые демографические группы. Никто не проектировал такой исход. Он возник из разрыва между тем, что система оптимизировала, и тем, что вообще можно было проверять или объяснить. К тому времени, когда вред стал заметен, он уже был встроен в миллионы решений.

Персонализация ИИ приближается к схожей точке перегиба. Ставки пока не равны кредитным заявкам. Но по мере того как агенты накапливают более богатый личный контекст и используют его для более значимых решений — отвечать ли на вопрос, как именно отвечать, какие действия предпринимать от вашего имени — разрыв между наблюдаемым поведением и объяснимым поведением перестаёт быть исследовательской проблемой и становится проблемой подотчётности.

Баланс между преимуществами и опасностями.

ИИ должен быть персонализированным. Знание своих пользователей, понимание контекста и интеллектуальная интерпретация запросов — именно то, что делает ИИ по-настоящему полезным, а не просто универсальным. Вопрос в том, можем ли мы объяснить, почему система ведёт себя определённым образом для конкретного человека в конкретном контексте, и есть ли у пользователей и разработчиков способ это проверить.

Это исследование показывает, что рамки оценки, которые индустрия использует для проверки безопасности ИИ, должны догонять то, как ИИ фактически внедряется. Тестировать модели так, будто каждый пользователь анонимен, было разумно, когда так и было на практике. Теперь это уже не имеет смысла. Бенчмарки безопасности должны учитывать сигналы персонализации, тестировать поведение в разных пользовательских контекстах и явно измерять, сохраняется ли защитное поведение под давлением атакующих воздействий. Исследование Northeastern — ранний пример того, как выглядит такой тип оценки.

Более глубокая задача проектирования — с самого начала строить персонализацию и проверяемость вместе, а не рассматривать безопасность как слой, который добавляют после релиза продукта. Это означает возможность аудировать, почему система по-разному ответила двум пользователям, задавшим один и тот же вопрос, прослеживать поведение до конкретных обучающих сигналов или архитектурных решений и давать пользователям и разработчикам значимую прозрачность того, как личный контекст формирует получаемые ответы. Чтобы ИИ был действительно доступным и справедливым для разных людей, базовая инфраструктура должна делать это проверяемым, а не просто возможным.

О Sahara AI:

Sahara AI — это компания, занимающаяся созданием агентского ИИ, и нацеленная на то, чтобы сделать ИИ более доступным и справедливым. Мы создаём базовые протоколы, инфраструктуру и приложения, которые позволяют персональным агентам предугадывать и выполнять действия от вашего имени. Чтобы это работало, инфраструктура должна быть надёжной: проверяемое исполнение, обеспечиваемые политики использования и автоматическое распределение ценности между каждым инструментом, моделью и сервисом, с которыми взаимодействует агент. Sahara создаёт растущий набор приложений на базе агентов поверх этого фундамента, включая Sorin — вашего персонального агента для мировых рынков криптовалют. Наши решения уже обеспечивают работу ИИ-агентов и высококачественных данных для пользователей, компаний из Fortune 500 и ведущих исследовательских лабораторий, включая Microsoft, Amazon, MIT, Motherson и Snap.