Кейс: MyShell масштабирует сбор данных и маркировку для улучшения голосовых моделей с Sahara AI

Задача: Удовлетворение высоких требований к разнообразным аудиоданным
MyShell Al, децентрализованная платформа ИИ, соединяющая потребителей, создателей и исследователей с открытым исходным кодом, поставила перед собой цель создать современные модели синтеза речи (TTS) и клонирования голоса. Для этого MyShell нужны были высококачественные, многоязычные аудиоданные с разными акцентами, доставляемые быстро и эффективно. Однако они столкнулись с несколькими ключевыми вызовами перед тем, как сотрудничать с Sahara AI:
Поиск поставщиков: Найти поставщиков данных, способных предоставить аудио с акцентами в больших объемах, было сложно.
Высокие затраты и неэффективность: Процессы маркировки данных были дорогими и медленными, что влияло на качество.
Задержки в обучении модели: Долгие обратные связи мешали быстрой адаптации и улучшениям модели.
Эти препятствия ограничивали возможность MyShell экспериментировать с новыми архитектурами моделей и поднимать их ИИ-приложения.
Приходит Sahara AI.
"Обязательство MyShell развивать модели с открытым исходным кодом нашло сильного союзника в точных услугах маркировки данных Sahara AI через их платформу Sahara Data. Их вклад является краеугольным камнем нашей концепции доступного ИИ. Вместе мы прокладываем путь к инновациям и открытому сотрудничеству."
— Команда MyShell
Решение: Обеспечение сбора и маркировки качественных данных в больших объемах
Платформа Sahara Data от Sahara AI предоставила MyShell комплексное решение по трем ключевым проектам. Используя децентрализованный, управляемый ИИ сбор и фильтрацию данных, мы позволили MyShell эффективно собирать высококачественные, разнообразные наборы данных в больших объемах.
Проект 1: Сбор аудиопримеров – короткие предложения
Sahara AI предоставил 11,980 аудиопримеров коротких предложений на различных английских акцентах, включая:
Английский с китайским акцентом
Английский с американским акцентом
Английский с индийским акцентом
Английский с британским акцентом
Это позволило MyShell начать обучение своих моделей голоса с широким разнообразием глобальных акцентов.
Проект 2: Сбор аудиопримеров – длинный текст
Для дальнейшего улучшения способностей модели MyShell Sahara AI предоставил аудиопримеры длинного текста на нескольких языках и акцентах, обеспечивая разнообразие в голосовых данных:
Английский с китайским акцентом: 13,000 примеров
Английский с американским акцентом: 18,000 примеров
Английский с индийским акцентом: 14,000 примеров
Английский с австралийским акцентом: 3,000 примеров
Английский с британским акцентом: 2,000 примеров
Английский с немецким акцентом: 13,003 примеров
Китайский: 14,068 примеров
Этот широкий спектр данных позволил MyShell обучить свои модели для более глобальных приложений.
Проект 3: Фильтрация данных
Инфраструктура человека в процессе от Sahara AI позволила фильтровать более 180,000 аудиопримеров на различных языках. Тщательно оценивая и уточняя данные, мы гарантировали использование только высококачественных примеров, включая:
Французский: 47,678 примеров
Испанский: 50,876 примеров
Немецкий: 40,190 примеров
Русский: 46,238 примеров
Это позволило MyShell сосредоточиться на точности модели без ущерба для качества данных.
Результат: Более 2 миллионов загрузок и тысячи звезд на GitHub
С помощью децентрализованного сбора и фильтрации данных Sahara Data, MyShell значительно улучшила процесс обучения своей модели. Ключевые результаты включали:
Быстрое обучение модели: MyShell адаптивно обучала и улучшала свои модели TTS и клонирования голоса, используя данные в реальном времени, что значительно сократило время выхода на рынок.
Успех с открытым исходным кодом: Сотрудничество привело к успешной разработке и открытию VoiceClone и MeloTTS, которые собрали тысячи звезд на GitHub и более 2 миллионов загрузок на Hugging Face.
Трансформируйте свою стратегию ИИ с Sahara Data
Sahara Data предназначена для удовлетворения самых сложных требований к обучающим данным. Независимо от того, осуществляется ли это через децентрализованную инфраструктуру или локальную установку, Sahara Data предоставляет подход, сохраняющий конфиденциальность, сосредоточенный на ИИ и со взаимодействием человека, что обеспечивает высокоценные наборы данных для обучения ИИ.
Sahara Data в цифрах:
31+ клиентов из сферы бизнеса
35+ обслуживаемых стран
45+ охватываемых языков и диалектов
150+ партнеров-поставщиков
30,000+ проверенных тренеров по ИИ
Почему стоит выбрать Sahara Data?
Автоматическая маркировка: Собственные модели ИИ обрабатывают маркировку, достигая уровня производительности, сопоставимого с человеческим, в основных задачах.
Уточнение с человеком в процессе: Человеческие эксперты уточняют и проверяют метки для обеспечения высочайшего качества данных.
Непрерывное обучение: Модели учатся на человеческом вводе, улучшая точность маркировки со временем.
Благодаря этой оптимизированной сотрудничеству Sahara AI помогла MyShell собрать точные, высококачественные наборы данных, необходимые для эффективного и экономичного обучения модели, что стало ключевым фактором успеха их проекта.
Если вы готовы масштабировать сбор данных и улучшить свои модели ИИ с Sahara Data, свяжитесь с нами сегодня, чтобы обсудить, как наша платформа может поддержать ваши потребности в обучении ИИ.



