区块链与人工智能数据标注的未来:构建可扩展、透明和多样化的数据服务
2024年12月2日
生成性AI(GenAI)和大型语言模型(LLM)的快速崛起创造了对高质量标记数据的前所未有的需求。然而,今天的数据标记远比五年前复杂得多。简单的任务,如在图像中标记对象或将数据分类为“狗”或“猫”,已经被更复杂的过程所取代,例如标注情感、意图或上下文、策划小众数据集和验证多模态数据(例如,将文本与图像对齐)。 这些任务需要显著更多的思考、努力和精度来完成。许多任务还要求具有专业知识,以确保准确性,尤其针对技术性或特定领域的数据集。
区块链技术独特地定位于应对AI中数据标记不断变化的需求。通过去中心化数据收集和标记,它能够让全球参与者进行多样化的贡献,从而促进包容性和更好的数据代表性。即时的、可编程的加密支付消除了补偿标记者的传统瓶颈,而区块链不可改变的特性确保了工作流程的透明性——同时保护隐私。
然而,随着我们将数据标记流程转移到链上,质量、验证和可扩展性等方面的挑战必须得到解决。深思熟虑地应对这些障碍对于释放区块链作为支持多样化和可扩展的数据标记生态系统的全部潜力至关重要。
将数据标记与区块链整合
将数据标记流程转移到链上为机会带来了新时代,但也带来了独特的挑战。虽然区块链提供了全球可访问性、透明度和信任,但要充分实现这些优势,需要解决维护数据质量和信任的问题,同时保护隐私。通过应对这些挑战,去中心化可以解锁新的可扩展性水平,并引入多样化的全球标记者池来丰富和支持AI的发展。
确保数据质量
AI模型需要具有极高质量的训练数据集——通常超过90%—以有效运作。链上工作流程必须整合稳健的质量控制措施以达到这一标准。这可能包括:
信誉系统:链上的标记者和审核者的信誉评分确保责任性并鼓励持续的高质量贡献。
多数投票:从多位标记者聚合输入以识别共识并减少错误。区块链智能合约可以自动化此过程,确保透明度和不可更改性。
蜜罐:在标记工作流程中嵌入预先验证的任务,以识别低质量或恶意的标记者。来自这些任务的性能数据可以反馈到链上的信誉系统,奖励高表现者并淘汰不良参与者。
分层审核系统:引入多层次验证流程,让专家验证关键数据集。这些审核可以通过基于绩效的奖励来激励。
满足多样化的标记需求
AI项目往往需要范围从高度专业的注释到特定人口群体的输入的标记任务。这些需求的多样性使得任何单一的标记者或团队难以有效处理每种类型的任务。去中心化提供了更广泛的贡献者池,使得满足这些多样化的需求成为可能。然而,去中心化同时也带来了围绕信任、质量和效率的挑战。 解决这些问题对于创建能够满足现代AI项目多样化和不断增长需求的去中心化生态系统至关重要:
专业知识:许多AI项目需要具备领域特定知识的标记者,例如医疗专业人士负责医疗数据集,或工程师负责技术注释。在去中心化系统中验证贡献者是否具备必要的专业知识可能具有挑战性。信誉系统通过允许领域专家在其专业领域建立信誉提供了解决方案,使识别和分配相关任务变得更容易。这种方法确保了专业知识在不依赖中心化权威的情况下得到验证,同时保持可扩展性和隐私。
人口代表性:某些数据集需要特定人口群体的真实输入,如年轻父母或特定地区的居民。在去中心化系统中,确保标记者真正代表这些人口群体是困难的,因为验证这些属性的直接方法较少。应对这一挑战需要发展信任框架,以平衡代表性和隐私。
即时、跨境支付
传统支付系统缓慢、昂贵,且在某些地区对标记者而言往往不可获取。这些障碍可能会阻碍参与,特别是对于生活在服务不足地区的标记者而言,在这些地区,交易费用、货币转换成本和有限的银行基础设施使得及时获得公平报酬充满挑战。基于区块链的加密支付解决了这些问题并提供了显著优势:
即时、低成本交易:加密支付使标记者能够快速且经济地接收资金,消除了与传统支付系统相关的延迟和高费用。对于许多依赖这些收入维生的标记者而言,及时支付对于管理日常开销和财务义务非常重要。
全球可访问性:与传统支付方式通常排除没有正规银行系统的人群不同,加密支付对任何有互联网连接的人都是普遍可访问的。这为更为多样化的全球劳动力开辟了机会,使各类背景的标记者都能参与AI数据标记项目。
应对黑箱定价
在传统的AI服务中,管理的数据标记平台通常可以为其服务收取100-200%的溢价,从而利用模糊的定价结构限制开发人员对高质量数据集的访问。许多小型或新兴的AI项目难以承担这些服务,从而限制了生态系统中的创新和竞争。而且,这些高溢价往往不会转化为标记者的更好报酬,尽管服务成本高,标记者可能仍面临薪酬不足。
去中心化通过用透明的链上系统取代模糊的中介来解决这些问题,使AI开发者和标记者能够直接互动:
透明定价:区块链使定价可见且可追踪,消除了隐藏成本并确保对标记者的公正补偿。
高效运营:智能合约自动化许多流程,降低了开销并促使提供低成本服务。
公平的收入分配:通过去中心化数据标记,更多的价值可以直接传递给标记者,激励质量并促进长期参与。
革命性地推动AI发展
区块链正在通过民主化参与和促进全球合作来改变数据标记对AI生态系统的支持。当与设计良好的系统结合时,去中心化为重塑数据在AI开发中如何被收集、标记和使用奠定了基础。
在过去两年里,Sahara AI已与微软、亚马逊、Snapchat和Motherson等企业客户合作,优化数据标记工作流程,以满足生成性AI(GenAI)和大型语言模型(LLM)的高要求。利用这些见解,我们获得了一个由300,000名标记者组成的全球网络,遍布35个国家,能使用45种以上的语言和方言。凭借这些专业知识和基础设施,我们现在正将这些能力引入链上,赋予全球贡献者参与数据标记并获得公平奖励的能力。
通过将经过验证的方法应用于去中心化框架,Sahara AI正在弥合AI模型开发者和全球数据贡献者之间的差距。我们的专有自动标记模型在主流任务上表现出与人类相当的表现,加快了标记过程。人类在环的工作流程验证和完善这些结果,确保在自动化无法独立达到的地方实现高准确性。这种迭代反馈循环使模型能够从人类输入中持续学习,随着时间的推移提高标记质量和效率。
凭借Sahara Data Services,AI模型和应用开发者可以:
无缝地策划和完善数据集,提高模型的质量。
将复杂或高流量的收集和标记任务外包给专业团队或社区成员。
通过自动化和人类在环的验证流程监控和管理质量。
通过Sahara Data Services收集和标记的数据还可以在我们的数据市场中列出,让更多开发者获得他们训练、微调和部署前沿AI所需的多样化和丰富的数据。
加入AI数据标记的未来
通过将这些数据能力整合到一个统一的平台中,Sahara AI使开发者能够专注于创新,同时简化数据准备的操作复杂性。与此同时,它为标记者创造了新的机会,提供公平、透明和灵活的工作,他们在去中心化生态系统中因其努力而获得奖励。