案例研究:MyShell 扩展数据收集和标记,以改进与 Sahara AI 的语音模型

挑战:满足多样音频数据的高需求
MyShell Al 是一个去中心化的 AI 平台,连接消费者、创作者和开源研究人员,旨在创建尖端的文本转语音 (TTS) 和语音克隆模型。为此,MyShell 需要快速有效地提供高质量、多语言、口音多样的音频数据。然而,在与 Sahara AI 合作之前,他们遇到了几个主要挑战:
供应商采购:寻找能够大规模交付特定口音音频的数据供应商非常困难。
高成本和低效率:数据标注过程成本高且缓慢,影响了质量。
模型训练的延迟:冗长的反馈循环阻碍了模型的快速适应和改进。
这些障碍限制了 MyShell 实验新模型架构和提升其 AI 原生应用程序的能力。
进入 Sahara AI。
“MyShell 对开源模型开发的承诺在 Sahara AI 的精确数据标注服务中找到了强有力的盟友,通过他们的 Sahara Data 平台。他们的贡献是我们实现可访问 AI 愿景的基石。我们共同开辟了一条通往创新与开放合作的道路。”
— MyShell 团队
解决方案:大规模提供高质量数据收集和标注
Sahara AI 的 Sahara Data 平台为 MyShell 提供了三大关键项目的全面解决方案。通过去中心化的 AI 驱动的数据收集和过滤,我们使 MyShell 能够高效且大规模地收集高质量、多样的数据集。
项目 1:音频样本收集 – 短句子
Sahara AI 提供了 11,980 份 各种英语口音的短句音频样本,包括:
带中文口音的英语
带美式口音的英语
带印式口音的英语
带英式口音的英语
这使 MyShell 可以开始用各种全球口音训练他们的语音模型。
项目 2:音频样本收集 – 长文本
为了进一步增强 MyShell 的模型能力,Sahara AI 提供了多种语言和口音的 长文本音频样本,确保语音数据的多样性:
带中文口音的英语:13,000 份样本
带美式口音的英语:18,000 份样本
带印式口音的英语:14,000 份样本
带澳大利亚口音的英语:3,000 份样本
带英式口音的英语:2,000 份样本
带德式口音的英语:13,003 份样本
中文:14,068 份样本
这一广泛的数据范围使 MyShell 能够为更多全球应用训练他们的模型。
项目 3:数据过滤
Sahara AI 的 人机协作 基础设施能够在各种语言中过滤 超过 180,000 份音频样本。通过仔细评估和精炼数据,我们确保仅使用最高质量的样本,包括:
法语:47,678 份样本
西班牙语:50,876 份样本
德语:40,190 份样本
俄语:46,238 份样本
这使 MyShell 能够专注于模型的准确性,而不在数据质量上妥协。
成果:超过 200 万次下载和数千个 GitHub 星标
借助 Sahara Data 的去中心化数据收集和过滤,MyShell 能够显著改善其模型训练过程。主要成果包括:
更快的模型训练:MyShell 能够利用实时数据自适应地训练和改进其 TTS 和语音克隆模型,显著缩短上市时间。
开源成功:此次合作成功开发并开源了 VoiceClone 和 MeloTTS,这两个项目获得了 数千个 GitHub 星标 和超过 200 万次下载,并在 Hugging Face 上发布。
通过 Sahara Data 转变您的 AI 策略
Sahara Data 旨在满足最具挑战性的训练数据需求。无论是通过去中心化基础设施还是本地部署,Sahara Data 提供 隐私保护、以 AI 为中心、并结合人机协作的方法,确保为 AI 训练提供 高价值数据集。
Sahara Data 的数字:
31+ 企业客户
35+ 个国家/地区
45+ 种语言和方言
150+ 个合作提供商
30,000+ 名经过审核的 AI 培训师
为什么选择 Sahara Data?
自动标注:专有 AI 模型处理标注,匹配主流任务中的人类水平表现。
人机协作的精炼:人类专家对标签进行精细化和验证,以确保顶级数据质量。
持续学习:模型从人类输入中学习,随着时间的推移提高标注准确性。
通过这种优化的合作,Sahara AI 帮助 MyShell 收集了精确、高质量的数据集,以实现高效和成本效益的模型训练,这是他们项目成功的关键因素。
如果您准备好扩大您的数据收集并利用 Sahara Data 改进您的 AI 模型,请 立即联系我们,讨论我们的平台如何支持您的 AI 训练需求。



