案例研究:MyShell 扩展数据收集和标记,以改进与 Sahara AI 的语音模型
2024年9月26日
挑战:满足多样化音频数据的高需求
MyShell Al是一个去中心化的人工智能平台,连接消费者、创作者和开源研究人员,旨在创建尖端的文本转换语音(TTS)和语音克隆模型。为此,MyShell需要快速高效地提供高质量、多语言、口音多样的音频数据。然而,在与Sahara AI合作之前,他们遇到了几个关键挑战:
供应商采购:寻找能够大规模提供特定口音音频的数据供应商非常困难。
高成本和低效率:数据标签处理过程既昂贵又缓慢,影响了质量。
模型训练中的延迟:冗长的反馈循环阻碍了模型的快速适应和改进。
这些障碍限制了MyShell在新模型架构上进行实验的能力,并提升了他们的AI原生应用。
于是,Sahara AI应运而生。
“MyShell对开源模型开发的承诺在Sahara AI通过他们的Sahara Data平台提供的精准数据标签服务中找到了强有力的盟友。他们的贡献是我们对可及AI愿景的基石。我们共同开辟了一条走向创新和开放协作的道路。”
— MyShell团队
解决方案:大规模提供高质量的数据收集和标记
Sahara AI的Sahara Data平台为MyShell提供了三个关键项目的综合解决方案。通过去中心化的、AI驱动的数据收集和筛选,我们使MyShell能够高效且大规模地收集高质量、多样的数据集。
项目1:音频样本收集 - 短句子
Sahara AI交付了11,980个短句音频样本,包含多种英语口音,具体包括:
带有中文口音的英语
带有美式口音的英语
带有印度口音的英语
带有英式口音的英语
这使得MyShell能够开始用各种全球口音训练他们的语音模型。
项目2:音频样本收集 - 长文本
为了进一步增强MyShell的模型能力,Sahara AI提供了长文本音频样本,涵盖多种语言和口音,确保语音数据的多样性:
带有中文口音的英语:13,000个样本
带有美式口音的英语:18,000个样本
带有印度口音的英语:14,000个样本
带有澳大利亚口音的英语:3,000个样本
带有英式口音的英语:2,000个样本
带有德式口音的英语:13,003个样本
中文:14,068个样本
这一广泛的数据范围使MyShell能够训练他们的模型以应对更全球化的应用。
项目3:数据筛选
Sahara AI的人机协作基础设施使得在多种语言中对超过180,000个音频样本进行了筛选。通过仔细评估和精炼数据,我们确保只使用最高质量的样本,包括:
法语:47,678个样本
西班牙语:50,876个样本
德语:40,190个样本
俄语:46,238个样本
这使得MyShell能够专注于模型的准确性,而不牺牲数据质量。
结果:超过200万次下载和成千上万的Github星
通过Sahara Data的去中心化数据收集和筛选,MyShell能够显著改善他们的模型训练过程。关键结果包括:
更快的模型训练:MyShell利用实时数据自适应训练和改进他们的TTS和语音克隆模型,大幅缩短了上市时间。
开源成功:这一合作促成了VoiceClone和MeloTTS的成功开发和开源,同时获得了成千上万的GitHub星和超过200万次下载,在Hugging Face上。
用Sahara Data改变您的AI战略
Sahara Data旨在满足最具挑战性的训练数据需求。无论是通过去中心化的基础设施还是本地部署,Sahara Data提供了一种保护隐私、以AI为中心和人机协作的方法,确保为AI训练提供高价值的数据集。
Sahara Data的一些数据:
31+家企业客户
35+个服务国家
45+种语言及方言覆盖
150+个合作提供商
30,000+名经过审核的AI训练师
为什么选择Sahara Data?
自动标记:专有AI模型处理标记,匹配主流任务中的人类水平表现。
人机协作的精炼:人类专家精炼并验证标签,以确保顶尖的数据质量。
持续学习:模型从人类输入中学习,随着时间的推移提高标记准确性。
通过这次优化的合作,Sahara AI帮助MyShell收集所需的精确、高质量数据集,以实现高效和成本效益的模型训练,这是他们项目成功的关键因素。
如果您准备扩大数据收集并用Sahara Data改善您的AI模型,请立即联系我们以讨论我们的平台如何支持您的AI训练需求。