去中心化的数据收集和标注规模

2025年2月14日

朱尔斯·巴拉甘 | Sahara AI

执行摘要

生成AI(GenAI)的爆炸性增长创造了对高质量标记数据的前所未有的需求——这是模型训练、RAG管道、验证和微调的基础。传统的数据标记方法在较小规模上是有效的,但在适应现代AI开发需求时面临挑战。 

这些挑战源于当今AI项目的多样性和专业化,这些项目往往需要同样多样化和专业化的数据集。创建和标记这些数据需要更多的思考、努力和精确度。需求的多样性使得任何单一的标记者或团队都难以有效处理每种类型的任务。

去中心化通过提供更广泛的贡献者池来解决这些问题,使得可以满足多样的标记需求,同时确保视角和专业知识的多样性。然而,去中心化也引入了维护信任、质量和效率的挑战。解决这些问题对于创建一个能够满足现代AI项目多样化和不断增长的需求的去中心化生态系统至关重要。

Sahara AI的数据服务平台推出了一种首创的去中心化替代方案,利用分布式贡献者在规模上执行数据收集和注释。在我们的初步概念验证(第一季)中,超过10,000名全球参与者在一个月内完成了标记任务,实施了去中心化的同行评审、激励机制和质量保证流程,以确保数据的完整性和可靠性。这一初步概念验证的结果表明,去中心化的数据注释不仅是可行的,而且是可扩展的、高效的,并能够提供高准确度:

  • 去中心化的同行评审在内部质量保障中达到了92%的准确度,突显了其在数据收集和标记中的可扩展性和有效性。

  • 只有83%的简单研究任务和67%的更深入的研究任务通过了去中心化的同行评审,展示了同行评审系统过滤低质量提交以维持有意义数据集所需的准确性和可靠性的能力。

  • 尽管技术和劳动密集型任务的接受率仅为10%,但它们仍产生了成千上万的高价值数据点

本报告探讨了数据服务平台第一季的主要结果和洞察,以及去中心化AI数据标记的更广泛影响。

优化去中心化数据收集和标记中的准确性、可扩展性和效率

与传统系统不同,去中心化数据收集系统依赖于来自不同地区和专业水平的贡献者。这带来了几个需要解决的挑战,以使去中心化数据收集成为一种可行的大规模替代方案

  • 确保质量:分布式贡献者可能具有不同的知识和准确率,因此实施有效的质量保证流程至关重要。

  • 可扩展性:在不牺牲质量或速度的情况下管理成千上万的贡献者需要动态任务分配和高效的审查机制。

  • 激励对齐:构建鼓励高质量贡献而不是数量的奖励结构对长期成功至关重要。

  • 欺诈缓解:分布式系统容易受到自动、低努力或恶意提交的影响,这些提交旨在利用奖励系统,因此需要强大的检测机制。

为了解决这些问题,Sahara AI实施了多层次验证系统、同行评审和动态奖励结构,旨在将贡献者的努力与质量结果对齐。我们的提交数据点的验证流程设计如下:

  1. 自动质量筛查:初步质量控制由机器学习模型进行,这些模型旨在标记重复、不完整或不一致的提交。这些自动检查有助于减少人工审查的工作量,并确保只有潜在有效的数据进一步处理。

  2. 去中心化的同行评审:通过去中心化的同行评审机制,经过自动筛查的数据提交由其他贡献者进行审查。多数共识决定提交是接受还是驳回。这个过程确保了可扩展性,同时受益于多样化的视角。

  3. 任务特定机器审查:  对于具有明确定义标准的任务——例如确定监狱越狱尝试是否成功——机器审查可以提供精确且一致的评估。这些任务通常涉及二元结果或客观基准,使其非常适合自动处理。在适用时,机器审查可以作为“黄金标准”,最小化对人类干预的需求,轻松扩展以处理大数据集,并保持高准确性。

  4. 内部人工QA:随机选择的经过接受的同行评审的提交子集由Sahara AI团队进行人工审查,以测量整体准确性并识别任何低质量或欺诈性贡献的模式。这一层作为改进未来验证流程的基准。

鉴于这种方法的去中心化特性,我们预期面临几个主要挑战,特别是参与者提交和批准低质量提交以互利的风险。为此,我们整合了以下保护措施:

  • 任务前资格测验:要求贡献者通过任务特定知识评估,确保只有具备相关专业知识的参与者被允许注释或审核数据。

  • 动态激励结构:奖励机制旨在通过对可靠的注释和审查给予更高的奖励,同时对错误提交如部分或永久禁止访问平台施加惩罚,以优先考虑准确性。

任务根据复杂性被分为不同类别,参与者通过分级奖励系统获得激励: 

  • 初级任务包括简单的基于研究的标记,例如回答与智能合约、dapp开发和着装建议(例如,最佳约会服装)相关的问题。

  • 中级任务要求更深入的研究,例如识别Twitter上的顶级AI影响者或研究加密货币投资策略,并选择理想的初次约会礼物。

  • 高级任务涉及越狱常见的AI模型,如Qwen和LLaMA,或设计AI角色。

  • 专家任务包括更复杂的红队挑战,例如越狱常见AI模型以生成明确或成人内容。

任务越复杂,奖励就越高。这既反映了完成高难度任务所需的额外时间,也奖励具有更多专门知识的贡献者。所有奖励均以Sahara积分的方式发放。只有被接受的数据点才会获得奖励。 

与初级和中级任务不同,高级和专家任务由于其技术复杂性和对精确评估标准的需求,使用机器审查而不是去中心化的同行评审进行评估。

关键发现:

去中心化的同行评审在内部质量保障中达到了92%的准确度,证明了其可扩展性和有效性

对研究和知识基础任务的分析显示,92%的通过去中心化同行评审的接受数据点在内部质量保障(QA)检查中合格。这表明去中心化的同行评审可以作为数据质量的有效第一层过滤,即使在大规模过程中,因为当得到适当激励时,贡献者会被激励提供准确的评估。

这些结果表明,去中心化的同行评审与互补的验证机制的结合创造了一个平衡可扩展性和质量的系统。去中心化的同行评审设计上允许快速处理大量数据,而增加自动检查和人工监督确保低质量提交被最小化。数据服务平台的结构化激励系统进一步使参与者的行为与高质量输出的目标对齐。

这一小规模的初步概念验证的成功突显了去中心化同行评审作为传统集中式数据注释的可扩展和具有成本效益的替代方案的潜力。通过减少对昂贵集中QA团队的依赖,这一模型使AI项目能够通过去中心化框架实现高质量的数据注释,为可扩展、分布式的AI数据收集奠定了基础。

除了可扩展性和成本效率,第一季去中心化同行评审的成功——得到了来自不同背景和地区的10,000名参与者的支持——证明了任何有互联网接入的人都可以切实为AI经济做贡献。这一包容性模型使全球贡献者,无论其地点或专业知识如何,都能够参与数据注释和AI开发。 

83%的简单研究任务和67%的更深入研究任务通过去中心化的同行评审

第一季在基于研究的任务中表现强劲,83%的简单研究任务提交和67%的更深入研究任务提交通过了去中心化的同行评审。这些任务从基本的信息收集到更复杂、研究密集的挑战,展示了同行评审系统的有效性和恰当激励贡献者的重要性。

简单的研究任务(初级任务)涉及基本信息检索和标记,例如回答有关加密货币的常见问题或日常建议(如选择最佳约会服装)。在83%的提交通过同行评审并且内部QA确认94%的准确率的情况下,高接受率可能归因于主题的可访问性,这些主题需要常识或主观回答,容易回答和一致审核。

更深入的研究任务(中级任务)要求贡献者进行更全面的调查和批判性评估。例如,识别Twitter(现为X)上的顶级AI影响者、研究有效的加密货币投资策略和根据不同参数选择理想的初次约会礼物。这些任务要求较高,导致67%的同行评审接受率。然而,内部QA确认通过的提交的准确率为88%,表明同行评审系统有效识别并驳回低质量或不完整的回复。

这些数据突显了当贡献者得到适当激励时,他们始终能提供质量输出,甚至在更具挑战的任务中。简单的研究任务自然产生更高的接受率,因为其可访问性,而更深入的研究任务则需要更严格的评估,但仍产生高质量的贡献。同行评审系统过滤掉低质量提交的能力确保被接受的数据点保持有意义数据集所需的准确性和可靠性。

随着Sahara AI在第二季扩大到100,000名贡献者,我们进一步优化了注释和同行评审过程,以便尽早消除低质量贡献者。

尽管技术和劳动密集型任务的接受率仅为10%,但它们仍产生了成千上万的高价值数据点

第一季的技术和劳动密集型任务要求贡献者执行高度专业化的工作。对于高级任务,这涉及为大型AI模型(如Qwen和LLaMA)创建越狱提示或设计AI角色。而专家任务则涉及高级对抗提示生成,包括为一些最常见的LLM创建明确或边界挑战提示。尽管它们的复杂性和严格的审查标准导致整体接受率仅为10%,这些任务仍有效产生了超过24,000个高价值数据点,这些数据点对测试AI模型的安全性和稳健性至关重要。

高提交量(高级任务的提交数据点为239,126,是所有任务类型中最高的)加上任务的复杂性自然导致整体接受率较低。这些任务由于支付高额Sahara积分而吸引了大量贡献者。尽管访问这些任务需要考试,但第一季允许广泛参与,没有基于领域特定专业知识的限制,这导致了较低的接受率。

高级和专家任务使用机器审查而不是去中心化的同行评审进行审查,原因在于评估标准的技术性和二元性质。任务的目标是确定越狱提示是成功还是失败——一个客观的、基于规则的结果,不需要主观解释或人类共识。机器审查更适合这个目的,因为它确保了大提交量的处理一致、可扩展和高效,同时应用严格、预定义的规则来评估结果。相比之下,同行评审——通常有助于需要多样化人类观点的任务——在这些简单的评估中是没有必要的。

这些任务较低的接受率(10%)反映了策划高质量领域特定数据集的难度,而不是数据质量的问题。许多这些任务要求贡献者生成极端情况的对抗输入,这些输入旨在测试LLM的边界,因此需要严格审查,以过滤噪声并保持高数据完整性。目标不是接受高比例的提交,而是确保接受的数据点相关、准确且有价值。这种方法有助于构建对AI模型进行压力测试至关重要的数据集,从而增强其安全性、稳健性和抗利用能力。经过审查的对抗提示作为关键数据点,对于在极端条件下改善模型行为至关重要。

为提高特殊任务的表现和可扩展性,需要具备领域特定专业知识的专业注释员(例如,音乐、工程、安全等)。只有合格的贡献者才能参与这些复杂任务,以确保所接受数据点的数量和质量不断提高。

接下来是:扩大去中心化数据标记

Sahara AI的数据服务平台的第一阶段证明去中心化数据收集和标记能够在规模上获得高质量的结果。下一步是从第一季的10,000名贡献者扩大到第二季的100,000名贡献者,以进一步优化这些流程,然后开放发布数据服务平台。

第二季现已上线。随着我们扩展到100,000名贡献者,我们已经:

  • 发布了更先进的任务细分,用于专业数据标记。

  • 优化了我们的自动验证模型,以增强质量控制。

  • 发布了多模态注释功能,以支持文本、图像和音频数据集。

为了提高数据质量和平台效率,我们还增强了标记任务的禁止机制。如果标记者的表现使得达到所需准确性阈值在数学上不可能,他们将被提前禁止。例如,如果一个任务要求80%的准确性,用户在前五个数据点中出现两次错误将立即被取消资格。这在两方面的好处:

  • 更快地移除表现不佳的贡献者,确保更高质量的数据集。

  • 为贡献者提供更清晰、即时的任务表现反馈。

通过实施这些改进,我们旨在保持完成任务的最高标准,同时改善所有参与者的整体体验。

AI数据服务的去中心化标志着AI发展的重大进步,证明了去中心化数据标记不仅可行——而且可扩展、具有成本效益且具有包容性。我们期待分享第二季产生的数据。