Кейс: MyShell масштабирует сбор данных и маркировку для улучшения голосовых моделей с Sahara AI

26 сент. 2024 г.

Задача: Удовлетворение высоких требований к разнообразным аудиоданным

MyShell Al, децентрализованная платформа ИИ, соединяющая потребителей, создателей и исследователей с открытым исходным кодом, поставила перед собой цель создать современные модели синтеза речи (TTS) и клонирования голоса. Для этого MyShell нужны были высококачественные, многоязычные аудиоданные с разными акцентами, доставляемые быстро и эффективно. Однако они столкнулись с несколькими ключевыми вызовами перед тем, как сотрудничать с Sahara AI:

Поиск поставщиков: Найти поставщиков данных, способных предоставить аудио с акцентами в больших объемах, было сложно.
Высокие затраты и неэффективность: Процессы маркировки данных были дорогими и медленными, что влияло на качество.
Задержки в обучении модели: Долгие обратные связи мешали быстрой адаптации и улучшениям модели.

Эти препятствия ограничивали возможность MyShell экспериментировать с новыми архитектурами моделей и поднимать их ИИ-приложения.

Приходит Sahara AI.

"Обязательство MyShell развивать модели с открытым исходным кодом нашло сильного союзника в точных услугах маркировки данных Sahara AI через их платформу Sahara Data. Их вклад является краеугольным камнем нашей концепции доступного ИИ. Вместе мы прокладываем путь к инновациям и открытому сотрудничеству."
— Команда MyShell

Решение: Обеспечение сбора и маркировки качественных данных в больших объемах

Платформа Sahara Data от Sahara AI предоставила MyShell комплексное решение по трем ключевым проектам. Используя децентрализованный, управляемый ИИ сбор и фильтрацию данных, мы позволили MyShell эффективно собирать высококачественные, разнообразные наборы данных в больших объемах.

Проект 1: Сбор аудиопримеров – короткие предложения

Sahara AI предоставил 11,980 аудиопримеров коротких предложений на различных английских акцентах, включая:

Английский с китайским акцентом
Английский с американским акцентом
Английский с индийским акцентом
Английский с британским акцентом

Это позволило MyShell начать обучение своих моделей голоса с широким разнообразием глобальных акцентов.

Проект 2: Сбор аудиопримеров – длинный текст

Для дальнейшего улучшения способностей модели MyShell Sahara AI предоставил аудиопримеры длинного текста на нескольких языках и акцентах, обеспечивая разнообразие в голосовых данных:

Английский с китайским акцентом: 13,000 примеров
Английский с американским акцентом: 18,000 примеров
Английский с индийским акцентом: 14,000 примеров
Английский с австралийским акцентом: 3,000 примеров
Английский с британским акцентом: 2,000 примеров
Английский с немецким акцентом: 13,003 примеров
Китайский: 14,068 примеров

Этот широкий спектр данных позволил MyShell обучить свои модели для более глобальных приложений.

Проект 3: Фильтрация данных

Инфраструктура человека в процессе от Sahara AI позволила фильтровать более 180,000 аудиопримеров на различных языках. Тщательно оценивая и уточняя данные, мы гарантировали использование только высококачественных примеров, включая:

Французский: 47,678 примеров
Испанский: 50,876 примеров
Немецкий: 40,190 примеров
Русский: 46,238 примеров

Это позволило MyShell сосредоточиться на точности модели без ущерба для качества данных.

Результат: Более 2 миллионов загрузок и тысячи звезд на GitHub

С помощью децентрализованного сбора и фильтрации данных Sahara Data, MyShell значительно улучшила процесс обучения своей модели. Ключевые результаты включали:

Быстрое обучение модели: MyShell адаптивно обучала и улучшала свои модели TTS и клонирования голоса, используя данные в реальном времени, что значительно сократило время выхода на рынок.
Успех с открытым исходным кодом: Сотрудничество привело к успешной разработке и открытию VoiceClone и MeloTTS, которые собрали тысячи звезд на GitHub и более 2 миллионов загрузок на Hugging Face.

Трансформируйте свою стратегию ИИ с Sahara Data

Sahara Data предназначена для удовлетворения самых сложных требований к обучающим данным. Независимо от того, осуществляется ли это через децентрализованную инфраструктуру или локальную установку, Sahara Data предоставляет подход, сохраняющий конфиденциальность, сосредоточенный на ИИ и со взаимодействием человека, что обеспечивает высокоценные наборы данных для обучения ИИ.

Sahara Data в цифрах:

31+ клиентов из сферы бизнеса
35+ обслуживаемых стран
45+ охватываемых языков и диалектов
150+ партнеров-поставщиков
30,000+ проверенных тренеров по ИИ

Почему стоит выбрать Sahara Data?

Автоматическая маркировка: Собственные модели ИИ обрабатывают маркировку, достигая уровня производительности, сопоставимого с человеческим, в основных задачах.
Уточнение с человеком в процессе: Человеческие эксперты уточняют и проверяют метки для обеспечения высочайшего качества данных.
Непрерывное обучение: Модели учатся на человеческом вводе, улучшая точность маркировки со временем.

Благодаря этой оптимизированной сотрудничеству Sahara AI помогла MyShell собрать точные, высококачественные наборы данных, необходимые для эффективного и экономичного обучения модели, что стало ключевым фактором успеха их проекта.

Если вы готовы масштабировать сбор данных и улучшить свои модели ИИ с Sahara Data, свяжитесь с нами сегодня, чтобы обсудить, как наша платформа может поддержать ваши потребности в обучении ИИ.

БЛОГИ

Что нового в Sahara AI

22 июл. 2026 г.

Russia Just Legalized Crypto. Will the Markets Care?

22 июл. 2026 г.

Strategy Is Now Worth Less Than The Bitcoin It Owns... Here's How That's Possible.

20 июл. 2026 г.

Institutional-Grade Market Data Is Now Built Into Every Sorin Analysis

16 июл. 2026 г.

How Sahara AI Helped Power Snap's Breakthrough in AI Chatbots That Feel Human

БЛОГИ

Что нового в Sahara AI

22 июл. 2026 г.

Russia Just Legalized Crypto. Will the Markets Care?

22 июл. 2026 г.

Strategy Is Now Worth Less Than The Bitcoin It Owns... Here's How That's Possible.

20 июл. 2026 г.

Institutional-Grade Market Data Is Now Built Into Every Sorin Analysis

16 июл. 2026 г.

How Sahara AI Helped Power Snap's Breakthrough in AI Chatbots That Feel Human

БЛОГИ

Что нового в Sahara AI

22 июл. 2026 г.

Russia Just Legalized Crypto. Will the Markets Care?

22 июл. 2026 г.

Strategy Is Now Worth Less Than The Bitcoin It Owns... Here's How That's Possible.

20 июл. 2026 г.

Institutional-Grade Market Data Is Now Built Into Every Sorin Analysis

16 июл. 2026 г.