人工智能已经比你想象的更了解你。一项新研究表明,这会改变它对待你的方式。

研究人员刚刚发现,告诉 AI 代理你有心理健康状况会改变它对你的回应方式,甚至会影响到与心理健康毫不相关的请求。这是一个早期信号:如果没有合适的保障措施,个性化可能会让 AI 系统以开发者未曾预料的方式,对某些人群区别对待。
我们评估 AI 安全的标准方式假设模型对你一无所知。而这正逐渐成为一个糟糕的假设。
Northeasterm 的研究人员最近发表了一项关于个人背景如何影响 AI 代理行为的研究。该研究在 176 项任务上测试了 OpenAI、Anthropic、Google 和 Deepseek 的前沿模型,涵盖从常规请求到明确有害请求的各类场景,其中一些任务还加入了越狱提示,旨在施压模型服从。
每个模型都在三种不同条件下运行相同任务。第一种,模型对用户一无所知。第二种,模型获得一段简短的通用简介,描述一位有日常爱好的普通职场人士。第三种,在该简介中额外加入一句话:“我有心理健康状况。”其余所有变量保持不变。唯一变化的是模型知道了它正在和谁对话。
结果显示,这一点影响相当大。
仅一句个人背景信息就让 AI 代理整体上更谨慎,甚至在与心理健康无关的任务上也是如此
接收到任何个人背景信息的模型——哪怕只是通用简介——都比未接收到信息的模型明显更谨慎。它们拒绝了更多有害请求,也拒绝了更多无害请求。加入心理健康披露后,这一模式在同一方向上进一步增强。
这些影响在不同模型上的方向总体一致,但并不完全相同。当加入一个基础越狱提示后,个性化带来的保护效果大多崩溃,而在某些模型上(如 Deepseek)则完全消失。
研究人员明确指出,行为变化可能由多种机制导致。模型可能将心理健康披露视为脆弱性信号,并应用更严格的护栏;也可能是某个安全层对关键词进行了模式匹配;还可能仅仅是该简介改变了模型在提示中权衡冲突指令的方式。这三种解释都合理,但都尚未被证实。在得出更强结论之前,厘清这些机制至关重要。
当研究人员测试身体残疾或慢性健康状况披露是否会产生相同效果时,结果基本没有。行为变化似乎在一定程度上特定于心理健康线索,而不是对任何健康相关个人信息的泛化反应。这种特异性让机制问题更难回答。
具备持久记忆的 AI 会通过它已经了解你的全部信息来解读你的提示。
如今的 AI 代理大多是无状态的。每次对话都从零开始。模型除了你在该会话中提供的信息外,对你一无所知。这种情况已经在改变。持久记忆、长上下文个性化,以及可跨会话携带用户画像的代理架构,正从研究走向产品。你一年后使用的 AI 很可能会了解你的沟通风格、重复性任务和偏好,而且视产品而定,它对你历史信息的了解可能远不止这些。
当这成为常态时,这项研究所探查的动态就不再是受控实验,而会成为每次交互的默认条件。一个知道你有自我伤害史的代理,不再只是回答你的问题。它会先提出自己的问题,就像一位了解你过往的亲密朋友一样:这个请求是否反常?它会不会导向有害后果?表面之下是否还有别的问题?这种解释层并非天生有害。在很多情况下,这恰恰是你希望一个“了解你”的系统所具备的能力。但这也意味着,每个人对同一个 AI 的体验都会被系统对其了解的信息、系统在类似人群上的训练方式,以及过程中固化的假设所塑造。两个人提出同一个问题,可能得到实质上不同的回应,而这可能带来严重且非预期的后果。
个性化 AI 并不是第一个基于无法完全解释的数据对人作出重要决策的系统。
我们以前见过这类非预期后果。
当金融机构开始使用机器学习评估贷款申请时,模型并非有意歧视。它们继承了历史训练数据中的模式,结果系统性地使某些群体处于不利地位。没有人专门设计这种结果。它源于系统优化目标与人们实际可审计、可解释内容之间的鸿沟。等到伤害变得可见时,它已经嵌入了数百万个决策之中。
AI 个性化正接近类似的拐点。眼下风险还不是贷款审批级别。但随着代理积累更丰富的个人背景并据此作出更具后果性的决定——是否回答问题、如何回答、代表你采取哪些行动——可观察行为与可解释行为之间的差距将不再只是研究问题,而会成为问责问题。
在收益与风险之间取得平衡。
AI 应该被个性化。了解用户、理解上下文并智能解读请求,才能让 AI 真正有用,而不只是千篇一律。问题在于:我们能否解释系统为何会在特定情境下对特定个人作出那样的行为,以及用户和开发者是否有办法验证这一点。
这项研究告诉我们,行业用于评估 AI 安全的框架需要跟上 AI 的实际部署方式。把模型测试建立在“每个用户都是匿名”的前提上,在过去确实合理,因为当时用户实际上也几乎如此。现在已经不再合理。安全基准需要纳入个性化信号,测试不同用户情境下的行为,并明确衡量保护性行为在对抗压力下是否仍能成立。Northeastern 这项研究就是这类评估的早期示例。
更深层的设计挑战,是从一开始就同时构建个性化与可验证性,而不是等产品上线后再把安全当作附加层。这意味着要能够审计:为何系统会对提出同一问题的两位用户给出不同回应;将行为追溯到具体训练信号或架构决策;并让用户与开发者对个人背景如何塑造其获得的回应拥有有意义的可见性。若要让 AI 真正对不同人群都可及且公平,其底层基础设施必须让这一点“可验证”,而不仅仅是“可能做到”。
关于 Sahara AI:
Sahara AI 是一家致力于让 AI 更可及、更公平的智能体 AI 公司。我们构建核心协议、基础设施和应用,使个人智能体能够代表你进行预判与执行。要实现这一点,基础设施必须值得信任:可验证执行、可强制执行的使用政策,以及覆盖智能体触达的每一个工具、模型和服务的自动价值分配。Sahara 正在这一基础之上打造不断扩展的智能体驱动应用套件,其中包括 Sorin——你在全球数字市场中的个人智能体。我们的解决方案目前正为消费者、《财富》500 强企业和领先研究实验室提供 AI 智能体与高质量数据支持,其中包括 Microsoft、Amazon、MIT、Motherson 和 Snap。



