Sahara AI 如何推动微软在多模态人工智能数学推理方面的突破

2026年3月17日

当微软研究院需要突破人工智能评估的边界时，他们转向了沙哈拉人工智能，结果正在重塑世界如何衡量机器智能。

当微软研究院致力于突破人工智能评估的边界时，他们转向了沙哈拉人工智能。我们共同建立了MATHVISTA的基础——这是一个用于测试领先模型（如GPT-4V、Bard、Claude和Gemini）的最先进基准。MATHVISTA由沙哈拉人工智能提供的超过6000个精确标记的数据点驱动，现在正在重塑世界如何衡量机器智能。

下一代人工智能的胜利不仅仅依靠更大的模型。胜利将属于那些掌控最高质量、最专业数据的人，而这正是沙哈拉人工智能所引领的领域。

传统的标记服务并没有应对这一挑战的能力。这个项目需要以推理为驱动的注释、对标注者的严格测试以及细致的逻辑准确性。因此，微软研究院选择了沙哈拉人工智能，这是高性能人工智能数据服务的优质平台。

提升标准：在他人挣扎的地方，沙哈拉人工智能交付成功

如今的数据标记不再仅仅关乎简单标签或基本分类。随着人工智能模型的不断进步，对复杂、高精度注释的需求持续增长，而大多数标记公司难以跟上。

构建微软的MATHVISTA证明了标准已经提高到何种程度，要求以推理为驱动的注释，而大多数供应商无法提供，鉴于所需的复杂性和精确性：

“这个项目给其他数据标记供应商，特别是众包平台带来了重大挑战，因为它需要对复杂指令有深刻理解，对潜在标注者进行严格测试，以及涉及逻辑推理的仔细标记。”
— 郝程，微软研究院首席研究员

为了完成这些数据任务，我们的标注者不仅仅是“标记”数据；他们在多个领域进行了认知工作，例如：

算术与代数 - 复杂方程求解
几何与统计 - 视觉模式解释
高级STEM逻辑 - 多步推理链
时间数理推理 - 时间序列数学分析
数字常识 - 时间知识

每个任务都要求区分深度数学推理（解方程、解释图表、代数结构）和表面识别（计数、阅读数字、基本模式匹配）。

标注者必须检查的图像类型示例，以决定是否涉及数学推理。

为何微软选择了沙哈拉人工智能

人工智能正进入一个新阶段，仅靠原始模型规模是行不通的。真实的竞争智能依赖于更好的数据：更结构化、更复杂和更定制。

这正是沙哈拉人工智能所提供的：不是众包填充或模糊的近似，而是深度逻辑、高精度、企业级的数据，顶级人工智能实验室真正可以信任。

对于微软而言，沙哈拉人工智能在竞争激烈的试点阶段脱颖而出，展示了：

基于推理能力的专家标注者选择
与微软任务要求对齐的定制培训模块
多阶段质量保证，包括审阅者监督和共识验证
快速周转时间而不牺牲准确性

沙哈拉人工智能标记了超过6000个多模态示例，这些示例被用于微软的开源MATHVISTA——一个设计用于压力测试模型（如GPT-4V、Bard、Claude和Gemini）在基于图像、图表和文本的现实世界数学推理问题中的表现的领先基准。

自发布以来，MATHVISTA已成为全球实验室和研究人员信赖的基准，在学术和行业中用于测试和优化大型多模态模型：

过去一个月内下载超过13K+ MATHVISTA数据集，累计275,864次下载。
在一项对12个基础模型进行评估的同行评审研究中使用。 结果表明，表现最佳的模型（GPT-4V）在多模态数学推理中的总体准确率仅为49.9%——比人类表现低10.4%。

这一成功强调了一个更大的真相：企业级人工智能的未来依赖于接触专业、精确标记的数据，而沙哈拉人工智能是领先机构在质量、速度和信任无法妥协时的选择。

在一个充斥着未经验证的声明的领域，沙哈拉人工智能凭借真实的企业采用和可衡量的影响而脱颖而出。微软研究院、麻省理工学院、亚马逊及其他全球领导者已经依赖我们的数据服务，突显了沙哈拉人工智能在构建AI创新所依赖的持久基础设施中的角色。

“在沙哈拉人工智能，我们相信AI的未来将不再由炒作定义，而是由经过验证的结果和持久的基础设施定义。我们与微软研究院的MATHVISTA合作清楚地表明了专业、高质量数据如何为智能设定新的标准。这只是开始——我们致力于与世界级合作伙伴合作，以构建企业AI真正需要的可信数据和基础设施。”
— Sean Ren，沙哈拉实验室联合创始人兼首席执行官

我们在MATHVISTA上的工作仅仅是我们与微软合作的第一步。微软研究院和沙哈拉人工智能都对未来的合作充满热情，团结一致，致力于塑造AI创新的下一波浪潮，并设定新的可能性标准。

与沙哈拉人工智能合作

从为微软研究院的MATHVISTA提供支持到支持全球领先的人工智能实验室，沙哈拉人工智能构建了同类平台中最先进的数据服务之一。

凭借全球规模、多模态覆盖和混合的AI + 人工环节方法，沙哈拉人工智能提供现代AI开发所需的精确性和可靠性：

全球覆盖：在35个国家中访问超过200,000个预审标记员，涵盖超过45种语言和方言。
多模态覆盖：对文本、图像、视频和音频注释的全面支持。
多元领域专业知识：从复杂数学推理到自然语言理解、金融、技术等。
AI + 人工协同：结合AI和人工标记的方法，以确保速度和准确度。

这就是为什么像微软、亚马逊、Snap和麻省理工学院这样的企业在准确性、速度和可靠性方面不容妥协时信任沙哈拉人工智能的原因。

了解更多关于沙哈拉人工智能如何推动您的下一个AI突破的信息： https://saharaai.com/data-services-enterprise

关于沙哈拉人工智能：沙哈拉人工智能是一家致力于使人工智能更具可及性和公平性的代理AI公司。我们构建了核心协议、基础设施和应用程序，使个人代理能够代表您进行预判和执行。为了使其有效，基础设施必须可靠：可验证的执行、可强制执行的使用政策，以及跨每个工具、模型和服务的自动价值分配。沙哈拉正在这基础之上构建一个不断增长的代理驱动应用套件，包括您的全球数字市场个人代理Sorin。我们的解决方案目前为消费者、财富500强企业和领先的研究实验室（包括微软、亚马逊、麻省理工学院、Motherson和Snap）提供人工智能代理和高质量数据支持。

文章

Sahara AI 最新讯息

2026年7月22日

Russia Just Legalized Crypto. Will the Markets Care?

2026年7月22日

Strategy Is Now Worth Less Than The Bitcoin It Owns... Here's How That's Possible.

2026年7月20日

Institutional-Grade Market Data Is Now Built Into Every Sorin Analysis

2026年7月16日

How Sahara AI Helped Power Snap's Breakthrough in AI Chatbots That Feel Human

文章

Sahara AI 最新讯息

2026年7月22日

Russia Just Legalized Crypto. Will the Markets Care?

2026年7月22日

Strategy Is Now Worth Less Than The Bitcoin It Owns... Here's How That's Possible.

2026年7月20日

Institutional-Grade Market Data Is Now Built Into Every Sorin Analysis

2026年7月16日

How Sahara AI Helped Power Snap's Breakthrough in AI Chatbots That Feel Human

文章

Sahara AI 最新讯息

2026年7月22日

Russia Just Legalized Crypto. Will the Markets Care?

2026年7月22日

Strategy Is Now Worth Less Than The Bitcoin It Owns... Here's How That's Possible.

2026年7月20日

Institutional-Grade Market Data Is Now Built Into Every Sorin Analysis

2026年7月16日