Sahara AI 如何助力麻省理工学院在训练像人类一样使用计算机的 AI 智能体方面取得突破

当麻省理工学院(MIT)的一支研究团队需要训练能够在真实操作系统中导航的 AI 智能体时,他们遇到了一个无人能解的问题。Sahara AI 交付了有史以来最全面的真实世界人机交互数据集之一,用于智能体训练,并为 OSGym 提供支持;OSGym 如今已成为训练计算机使用智能体的领先开源基础设施。
自主 AI 智能体的前景是真实存在的:能够管理你的日历、处理你的财务、开展你的研究,并代表你执行复杂工作流的智能体。像 Anthropic 的具备计算机使用能力的 Claude、OpenAI 的 Operator,以及 OpenClaw 等开源项目,已经在将这种能力交到用户手中。
但在“令人惊艳的演示”和“可用于生产的自主能力”之间,仍有一道鸿沟,行业中的大多数参与者仍在努力弥合。模型会在多步骤任务上失效、在跨应用场景中丢失上下文,并且在出现意外情况时无法恢复。智能体可以按脚本执行,但它们目前还不能像人类那样可靠地思考真实工作流——例如在应用之间切换、从错误中恢复、导航陌生界面、串联动作且不丢失主线。
这里的限制因素并不是模型智能;而是训练数据。大多数智能体训练仍依赖合成环境或狭窄沙盒,无法反映人们实际工作的混乱与非线性方式。要解决这个问题,需要大规模采集真实人类行为,并进行足够深度的标注,让智能体学到的不只是“做什么”,还有“如何思考”。这正是 Sahara AI 为 MIT 解决的问题。
Sahara AI 多年来一直在全球顶尖企业的真实生产环境中构建并部署 Agentic AI。我们了解智能体如何失效、为何会在真实条件下失败,以及要让其在规模化场景中可靠运行,训练数据究竟应是什么样子。正是这种深厚经验,让 MIT 选择与我们合作。
要真正训练一个像人类一样使用计算机的 AI 智能体,需要什么
在近一年的时间里,Sahara AI 执行了有史以来最具雄心的真实世界多模态数据采集计划之一,专为计算机使用智能体训练而设。如此规模之所以可能,依托的是 Sahara AI 的数据服务平台:一个全球贡献者网络,覆盖 35+ 个国家、200,000+ 经过预审的标注员,囊括了 MIT 智能体需要掌握的操作系统、工作流和人类行为的完整多样性。
我们的专家标注员在计算机使用智能体需要掌握的每个主要环境中采集了高保真交互数据,覆盖 macOS、Windows 和 Ubuntu 工作流。这包括从跨平台的日常网页使用,到编程应用与开发者工具,以及复杂的跨应用任务序列。

最终生成的多模态训练数据包括 UI 截图、操作日志、步骤级交互序列和任务上下文元数据。随后,这些数据通过多层质量保障(QA)框架验证,达到了88%–100% 的批次级准确率。在这一数据类别中,此前并无可比的公开数据集。Sahara AI 从零开始,在压缩时间内以规模化方式构建了一个。
这些数据成为智能体训练的基础,进而支撑了 OSGym——这是 MIT 构建的开源基础设施,用于将计算机使用智能体训练扩展到数千个并行操作系统副本。
第二阶段:教会智能体更好地失败与恢复
采集训练数据只是其中一半。下一步是系统性地教会智能体:它们哪里做错了,以及为什么错。
Sahara AI 设计了结构化纠错计划,覆盖大量真实网站和广泛的日常使用类别。对于每个评估任务,我们团队都会剖析每一个错误,理解问题出在哪里。每次纠错都会记录智能体的推理轨迹、归类错误类型(逻辑、导航、误解、顺序)、评估思维过程,并映射可替代的最优路径。

这些结构化步骤被记录、审查并标注,形成了远超二元通过/失败判断的细粒度监督信号。这正是将一个平庸智能体转变为超越当前最先进水平模型的关键。
将两者结合,打造最优秀的计算机使用模型之一
这两个阶段相互促进。Sahara 采集真实人类数据;MIT 基于这些数据训练智能体。Sahara 评估并纠正智能体;MIT 精炼模型。循环往复。
促成这项成果的关键不只是循环结构,而是其中的专业能力。Sahara AI 提供的每一次纠正,都来自一个在生产环境中构建并部署 Agentic AI 的团队。我们并不是在标注“听说过”的行为,而是在诊断我们亲眼见过的失效模式——发生在真实环境、企业级规模之中。这正是监督信号足够可信、足以真正推动模型进步的原因。
六个月内,结果持续累积:复杂任务错误率下降、推理稳定性提升、意外故障恢复能力增强、对从未遇到过环境的泛化能力更强。在 OSWorld(评估 AI 智能体在真实操作系统中执行真实计算机任务表现的标准基准)上,训练后得分提升了 30%。
最终产物是 OSGym:一个可并行化超过一千个操作系统副本的系统,每分钟生成 1,420 条多轮轨迹,且每个副本每天运行成本仅为 0.20–0.30 美元。它现已完全开源,代码在 GitHub,数据集在 HuggingFace 上。
这就是 Sahara AI 的优势。我们的数据能力之所以存在,是因为我们构建 Agentic AI,而不是反过来。当我们与企业和研究实验室合作时,我们会把多年生产级 AI 经验带到每一个决策中:采集什么、如何标注,以及如何闭环迭代,直到模型表现达标。
正如 MIT 研究团队的一位成员所总结的那样:“我们肯定会再次与 Sahara AI 合作,并向其他研究团队推荐他们。Sahara 在非常短的时间内交付了大量高质量数据,并且在我们的训练过程中至关重要。”
与 Sahara AI 合作,获取企业级数据服务
从支持 MIT 的 OSGym 到 Microsoft Research 的 MATHVISTA,Sahara AI 已构建出业内最先进的数据服务平台之一。
全球覆盖 — 35+ 个国家的 200,000+ 名预审标注员,覆盖 45+ 种语言和方言。
多模态覆盖 — 文本、图像、视频和音频标注。
多元领域专长 — 从数学推理到智能体行为纠错、金融等多个领域。
AI + 人类协同 — 结合以 AI 为中心和人类在环(human-in-the-loop)的标注方式,实现速度与准确性兼得。
这就是为什么当准确性、速度和可靠性不容妥协时,Microsoft、Amazon、Snap 和 MIT 会信任 Sahara AI。
了解更多: https://saharaai.com/data-services-enterprise
关于 Sahara AI:Sahara AI 是一家 Agentic AI 公司,致力于让 AI 更易获取且更加公平。我们构建核心协议、基础设施和应用,使个人智能体能够预判并代表你执行任务。要实现这一点,基础设施必须值得信赖:可验证执行、可强制执行的使用策略,以及在智能体触达的每一个工具、模型和服务之间自动分配价值。基于这一基础,Sahara 正在打造不断扩展的智能体驱动应用套件,其中包括 Sorin——你在全球数字市场中的个人智能体。我们的解决方案目前为消费者、财富 500 强企业和领先研究实验室提供 AI 智能体与高质量数据支持,其中包括 Microsoft、Amazon、MIT、Motherson 和 Snap。


