去中心化的数据收集和标注规模

执行摘要
生成性人工智能 (GenAI) 的爆炸性增长创造了对高质量、有标签数据的前所未有的需求——这是模型训练、检索增强生成 (RAG) 管道、验证和微调的基础。传统的数据标记方法在小规模时有效,但在适应现代人工智能开发的需求时面临挑战。
这些挑战源于当今人工智能项目的多样化和专业化性质,这些项目通常要求同样多样化和专业化的数据集。创建和标记这些数据需要显著更多的思考、努力和精准度。需求的多样性使得任何单一的标注员或团队很难有效地处理每种类型的任务。
去中心化通过提供更广泛的贡献者池来解决这些问题,使得能够满足多样的标记需求,同时确保不同的观点和专业知识的多样性。然而,去中心化也带来了维护信任、质量和效率的挑战。解决这些问题对于创建一个能够满足现代人工智能项目多样化和不断增长需求的去中心化生态系统至关重要。
Sahara AI 的数据服务平台推出了一种首创的去中心化替代方案,利用分布式贡献者大规模执行数据收集和注释。在我们最初的概念验证 (第一季) 中,全球超过 10,000 名参与者在一个月的时间内完成了标记任务,并实施了去中心化同行评审、激励机制和质量保证流程,以确保数据的完整性和可靠性。这个概念验证的结果表明,去中心化的数据注释不仅可行而且具有可扩展性、高效性,且能够提供高精度:
去中心化同行评审在内部质量保证 (QA) 中达到了 92% 的准确率,突显了其在数据收集和标注中的可扩展性和有效性。
只有 83% 的简单研究任务和 67% 的更深入研究任务通过了去中心化同行评审,表明同行评审系统能够筛选出低质量的提交,以维持有意义数据集所需的准确性和可靠性。
虽然技术性和劳动密集型任务的通过率仅为 10%,但仍产生了数万个高价值的数据点。
本报告探讨了数据服务平台第一季的关键结果和见解,以及去中心化人工智能数据标记的更广泛影响。
优化去中心化数据收集和标记中的准确性、可扩展性和效率
与传统系统不同,去中心化数据收集系统依赖于来自不同地区和专业水平的贡献者。这带来了几个需要解决的挑战,以使去中心化数据收集成为一种可行的大规模替代方案:
确保质量:分布式贡献者可能具有不同的知识和准确性水平,因此实施有效的质量保证流程至关重要。
可扩展性:在不牺牲质量或速度的情况下管理数千名贡献者需要动态任务分配和高效的审查机制。
激励对齐:构建奖励机制以鼓励高质量贡献而非数量,对于长期成功至关重要。
防欺诈:分布式系统容易受到自动化、低努力或恶意提交的攻击,这些提交旨在利用奖励系统,因此需要强大的检测机制。
为了解决这些问题,Sahara AI 实施了多层验证系统、同行评审和动态奖励结构,旨在将贡献者的努力与质量成果对齐。我们提交的数据点的验证流程设计如下:
自动质量筛查:初步质量控制由机器学习模型执行,旨在标记重复、不完整或不一致的提交。这些自动检查有助于减少人工审查工作量,并确保仅有潜在有效的数据继续处理。
去中心化同行评审:通过自动筛查的数据提交将由其他贡献者通过去中心化的同行评审机制进行审查。大多数一致决定某个提交是否被接受或拒绝。此过程确保了可扩展性,同时受益于不同的观点。
特定任务机器审查: 对于有明确标准的任务——如确定越狱尝试是否成功——机器审查可以提供精确、一致的评估。这些任务通常涉及二元结果或客观基准,使其成为自动处理的理想选择。在适用情况下,机器审查可以充当“金标准”,最小化人类干预的需要,轻松扩展以处理大规模数据集,并保持高准确性。
内部人工质量保证:随机选择一部分被接受的同行评审提交将由 Sahara AI 团队进行人工审查,以测量整体准确性并识别低质量或欺诈性贡献的模式。这一层作为提高未来验证流程的基准。
鉴于这种方法的去中心化性质,我们预期将面临几个主要挑战,特别是参与者提交和批准低质量提交以互利的风险。为了应对这些风险,我们整合了以下保障措施:
预任务资格测验:要求贡献者通过特定任务的知识评估,以确保只有具备相关专业知识的参与者被允许标注或审查数据。
动态激励结构:奖励机制旨在通过对可靠的注释和审查给予更高的奖励,同时对不正确的提交施加惩罚(例如,对平台的部分或永久禁令),以优先考虑准确性。
任务根据复杂性分为不同类别,参与者通过分级奖励系统激励:
初学者任务包括简单的基于研究的标记,例如回答与智能合约、去中心化应用开发和穿搭建议(例如,最佳约会装扮)相关的问题。
中级任务需要更深入的研究,例如识别 Twitter(现为 X)上的顶级人工智能影响者或研究加密货币投资策略,以及选择理想的第一次约会礼物。
高级任务涉及越狱常见的人工智能模型,例如 Qwen 和 LLaMA 或设计人工智能角色。
专家任务包括更复杂的红队挑战,例如越狱常见的人工智能模型以生成露骨或成人内容。
任务越复杂,奖励越高。这是为了反映完成更高难度任务所需的额外时间,以及奖励具备更多定制知识的贡献者。奖励均以 Sahara 分数发放。只有被接受的数据点才能获得奖励。
与初学者和中级任务不同,高级和专家任务由于其技术复杂性和对精确评估标准的需求而使用机器审查而不是去中心化同行评审进行评估。
关键发现:
去中心化同行评审在内部质量保证 (QA) 中达到了 92% 的准确率,证明了其可扩展性和有效性
对研究和知识基础任务的分析表明,通过去中心化同行评审接受的 92% 的数据点通过了内部质量保证 (QA) 检查。这表明去中心化同行评审可以作为数据质量的有效第一层过滤,即使在规模上,因为当适当激励时,贡献者会被驱动提供准确的评估。

这些结果表明,去中心化同行评审与互补验证机制的结合创建了一个平衡可扩展性和质量的系统。去中心化同行评审在设计上允许快速处理大量数据,而自动检查和人工监督的增加确保了低质量提交的减少。数据服务平台的结构化激励系统进一步将参与者的行为与高质量输出的目标对齐。
这一小规模概念验证的成功凸显了去中心化同行评审作为一种可扩展和成本效益替代传统集中数据注释的潜力。通过减少对昂贵的集中质量保证团队的依赖,这种模型使人工智能项目能够通过去中心化框架实现高质量的数据注释,奠定了可扩展和分布式人工智能数据收集的基础。
除了可扩展性和成本效益外,在第一季中去中心化同行评审的成功——由来自不同背景和地区的 10,000 名参与者支持——证明了任何拥有互联网接入的人都可以有意义地为人工智能经济做出贡献。这种包容性模型使全球贡献者无论地点或专业知识如何都能够参与数据标注和人工智能开发。
83% 的简单研究任务和 67% 的更深入研究任务通过了去中心化同行评审
第一季在基于研究的任务上表现强劲,83% 的简单研究任务提交和 67% 的更深入研究任务提交通过了去中心化同行评审。这些任务从基本的信息收集到更复杂、研究密集型的挑战,展示了同行评审系统的有效性以及适当激励贡献者的重要性。
简单研究任务 (初学者任务) 涉及基本的信息检索和标注,例如回答有关加密货币或日常建议(如选择最佳约会装扮)的常见问题。83% 的提交通过同行评审,而内部 QA 确认了 94% 的准确率,高接受率可能是因为这些主题的普遍性,只需要常识或容易回答和一致审查的主观响应。
更深入的研究任务 (中级任务) 要求贡献者进行更全面的调查和批判性评估。示例包括识别 Twitter(现为 X)上的顶级人工智能影响者、研究有效的加密货币投资策略以及根据不同参数选择理想的第一次约会礼物。这些任务更为严苛,导致 67% 的同行评审接受率。然而,内部 QA 确认了接受提交的 88% 准确率,表明同行评审系统有效地识别和拒绝了低质量或不完整的响应。
这些数据表明,当贡献者获得适当激励时,他们即使在面对更具挑战性的任务时也能够始终交付质量输出。简单研究任务自然产生了更高的接受率,因为它们的可接近性,而更深入的研究任务则需要更严格的评估,但仍然产生了高质量的贡献。同行评审系统的能力过滤出低质量的提交,确保接受的数据点保持了有意义数据集所需的准确性和可靠性。
随着 Sahara AI 将参与规模扩大至 100,000 名贡献者,以便于第二季,我们进一步完善了标注和同行评审流程,以便于早期消除低质量贡献者。
虽然技术和劳动密集型任务的接受率仅为 10%,但仍产生了数万个高价值数据点
第一季的技术性和劳动密集型任务要求贡献者执行高度专业的工作。对于高级任务,这涉及为大型人工智能模型如 Qwen 和 LLaMA 创建越狱提示,或者设计人工智能角色。另一方面,专家任务涉及高级对抗性提示生成,包括为一些最常见的 LLM 创建露骨或挑战边界的提示。尽管其复杂性和严格的审查标准导致整体接受率仅为 10%,这些任务仍成功产生了超过 24,000 个高价值数据点,这些数据点对于测试人工智能模型的安全性和稳健性至关重要。

大量提交(239,126 个数据点用于高级任务,是所有任务类型中最多的)再加上任务的复杂性自然导致整体接受率较低。这些任务吸引了大量贡献者,因为 Sahara 分数的高奖励。虽然必须进行考试才能访问这些任务,但第一季允许广泛参与,而不局限于特定领域的专业知识,导致接受率较低。
高级和专家任务采用 机器审查而不是去中心化同行评审 进行审查,因为评估标准的技术性和二元性。这些任务的目标是确定越狱提示是否成功——一个客观的、规则驱动的结果,不需要主观解释或人类共识。机器审查更适合这个目的,因为它确保了一致的、可扩展的、有效的大量提交处理,并应用严格的预定义规则来评估结果。相反,同行评审——通常对需要不同人类观点的任务很有价值——对于这些简单直接的评估是没有必要的。
这些任务的较低接受率 (10%) 反映了策划高质量领域特定数据集的难度,而不是数据质量存在问题。许多这些任务要求贡献者生成边缘案例对抗性输入,旨在测试 LLM 的边界,因此必须进行严格审查以过滤掉噪声并维持高数据完整性。目标不是接受高比例的提交,而是确保接受的数据点与相关、准确且有价值。这种方法有助于构建对人工智能模型进行压力测试至关重要的数据集,增强其安全性、稳健性和抗利用能力。通过审核的精心策划的对抗性提示作为高影响数据点,对于改善模型在极端条件下的行为至关重要。
为了提高专门任务的表现和可扩展性,需要具备领域特定专业知识(例如音乐、工程、安全等)的专门注释员。只有合格的贡献者才能参与这些复杂任务,以确保接受数据点的数量和质量持续改善。
下一步:扩展去中心化数据标记
Sahara AI 的数据服务平台的第一阶段证明了去中心化数据收集和标注可以在规模上实现高质量结果。下一步是将第一季的 10,000 名贡献者扩大到第二季的 100,000 名贡献者,以进一步完善这些流程,然后公开发布数据服务平台。
第二季现已上线。随着我们扩大到 100,000 名贡献者,我们已:
发布了更高级的任务细分,以便于复杂数据标注。
完善了我们的自动验证模型,以提高质量控制。
推出了多模态注释功能,以支持文本、图像和音频数据集。
为提高数据质量和平台效率,我们还增强了标注任务的禁令机制。如果标签者的表现使其在数学上无法达到所需的准确性阈值,他们将更早被禁令。例如,如果一个任务要求 80% 准确率,用户在前五个数据点中犯双错误将立即被取消资格。这一做法的好处有两个方面:
更快地移除表现不佳的贡献者,确保高质量数据集。
为贡献者提供了更清晰、立即的任务表现反馈。
通过实施这些改进,我们旨在在保持任务完成的最高标准的同时,改善所有参与者的整体体验。
去中心化人工智能数据服务标志着人工智能发展的重要前进,证明了去中心化数据标记不仅是可行的——而且是可扩展的、具有成本效益的和包容的。我们期待分享第二季的数据。



