案例研究:MyShell 扩展数据收集和标记,以改进与 Sahara AI 的语音模型

挑战:满足多样音频数据的高需求

MyShell Al 是一个去中心化的 AI 平台,连接消费者、创作者和开源研究人员,旨在创建尖端的文本转语音 (TTS) 和语音克隆模型。为此,MyShell 需要快速有效地提供高质量、多语言、口音多样的音频数据。然而,在与 Sahara AI 合作之前,他们遇到了几个主要挑战:

  • 供应商采购:寻找能够大规模交付特定口音音频的数据供应商非常困难。

  • 高成本和低效率:数据标注过程成本高且缓慢,影响了质量。

  • 模型训练的延迟:冗长的反馈循环阻碍了模型的快速适应和改进。

这些障碍限制了 MyShell 实验新模型架构和提升其 AI 原生应用程序的能力。

进入 Sahara AI

“MyShell 对开源模型开发的承诺在 Sahara AI 的精确数据标注服务中找到了强有力的盟友,通过他们的 Sahara Data 平台。他们的贡献是我们实现可访问 AI 愿景的基石。我们共同开辟了一条通往创新与开放合作的道路。”
— MyShell 团队

解决方案:大规模提供高质量数据收集和标注

Sahara AI 的 Sahara Data 平台为 MyShell 提供了三大关键项目的全面解决方案。通过去中心化的 AI 驱动的数据收集和过滤,我们使 MyShell 能够高效且大规模地收集高质量、多样的数据集。

项目 1:音频样本收集 – 短句子

Sahara AI 提供了 11,980 份 各种英语口音的短句音频样本,包括:

  • 带中文口音的英语

  • 带美式口音的英语

  • 带印式口音的英语

  • 带英式口音的英语

这使 MyShell 可以开始用各种全球口音训练他们的语音模型。

项目 2:音频样本收集 – 长文本

为了进一步增强 MyShell 的模型能力,Sahara AI 提供了多种语言和口音的 长文本音频样本,确保语音数据的多样性:

  • 带中文口音的英语:13,000 份样本

  • 带美式口音的英语:18,000 份样本

  • 带印式口音的英语:14,000 份样本

  • 带澳大利亚口音的英语:3,000 份样本

  • 带英式口音的英语:2,000 份样本

  • 带德式口音的英语:13,003 份样本

  • 中文:14,068 份样本

这一广泛的数据范围使 MyShell 能够为更多全球应用训练他们的模型。

项目 3:数据过滤

Sahara AI 的 人机协作 基础设施能够在各种语言中过滤 超过 180,000 份音频样本。通过仔细评估和精炼数据,我们确保仅使用最高质量的样本,包括:

  • 法语:47,678 份样本

  • 西班牙语:50,876 份样本

  • 德语:40,190 份样本

  • 俄语:46,238 份样本

这使 MyShell 能够专注于模型的准确性,而不在数据质量上妥协。

成果:超过 200 万次下载和数千个 GitHub 星标

借助 Sahara Data 的去中心化数据收集和过滤,MyShell 能够显著改善其模型训练过程。主要成果包括:

  • 更快的模型训练:MyShell 能够利用实时数据自适应地训练和改进其 TTS 和语音克隆模型,显著缩短上市时间。

  • 开源成功:此次合作成功开发并开源了 VoiceCloneMeloTTS,这两个项目获得了 数千个 GitHub 星标 和超过 200 万次下载,并在 Hugging Face 上发布。

通过 Sahara Data 转变您的 AI 策略

Sahara Data 旨在满足最具挑战性的训练数据需求。无论是通过去中心化基础设施还是本地部署,Sahara Data 提供 隐私保护、以 AI 为中心、并结合人机协作的方法,确保为 AI 训练提供 高价值数据集

Sahara Data 的数字:

  • 31+ 企业客户

  • 35+ 个国家/地区

  • 45+ 种语言和方言

  • 150+ 个合作提供商

  • 30,000+ 名经过审核的 AI 培训师

为什么选择 Sahara Data?

  • 自动标注:专有 AI 模型处理标注,匹配主流任务中的人类水平表现。

  • 人机协作的精炼:人类专家对标签进行精细化和验证,以确保顶级数据质量。

  • 持续学习:模型从人类输入中学习,随着时间的推移提高标注准确性。

通过这种优化的合作,Sahara AI 帮助 MyShell 收集了精确、高质量的数据集,以实现高效和成本效益的模型训练,这是他们项目成功的关键因素。

如果您准备好扩大您的数据收集并利用 Sahara Data 改进您的 AI 模型,请 立即联系我们,讨论我们的平台如何支持您的 AI 训练需求。