Децентрализованный сбор и маркировка данных в крупном масштабе
14 февр. 2025 г.
Автор: Жулес Барраган | Sahara AI
Исполнительное резюме
Взрывной рост генеративного ИИ (GenAI) создал беспрецедентную необходимость в высококачественных, размеченных данных — фундаменте для обучения модели, RAG-пайплайнов, валидации и тонкой настройки. Традиционные методы разметки данных, хотя и эффективные на небольших масштабах, сталкиваются с трудностями при адаптации к требованиям современного развития ИИ.
Эти проблемы возникают из-за разнообразного и специализированного характера современных ИИ-проектов, которые часто требуют равноценного разнообразия и специализированных наборов данных. Создание и разметка этих данных требуют значительно больше размышлений, усилий и точности для завершения. Разнообразие этих потребностей затрудняет выполнение каждой задачи любой отдельной разметчиком или командой.
Децентрализация решает эти проблемы, предоставляя доступ к более широкому пулу участников, что позволяет удовлетворять разнообразные требования к разметке, обеспечивая при этом разнообразие точек зрения и опыта. Однако децентрализация также вводит проблемы, связанные с поддержанием доверия, качества и эффективности. Решение этих вопросов является критически важным для создания децентрализованной экосистемы, способной удовлетворить разнообразные и растущие потребности современных ИИ-проектов.
Платформа услуг данных Sahara AI представляет собой уникальную децентрализованную альтернативу, использующую распределённых участников для выполнения сбора и аннотирования данных в больших масштабах. В нашем первоначальном POC (Сезон 1) более 10,000 участников со всего мира выполнили задачи по разметке в течение месяца, с децентрализованным обзором, механизмами поощрения и процессами обеспечения качества, реализованными для гарантии целостности и надежности данных. Результаты этого POC продемонстрировали, что децентрализованная аннотация данных не только жизнеспособна, но и масштабируема, эффективна и способна обеспечить высокую точность:
Децентрализованный взаимный обзор достиг 92% точности в внутреннем QA, подчеркивая его масштабируемость и эффективность в сборе и разметке данных.
Только 83% простых исследовательских задач и 67% более глубоких исследовательских задач прошли децентрализованный взаимный обзор, демонстрируя способность системы взаимного обзора фильтровать плохие заявки для поддержания точности и надежности, необходимых для значимых наборов данных.
Хотя технические и трудоемкие задачи имели уровень принятия всего 10%, они всё же обеспечили десятки тысяч высокоценных точек данных.
Этот отчет исследует ключевые результаты и выводы из Сезона 1 Платформы услуг данных, а также более широкие последствия для децентрализованной разметки данных ИИ.
Оптимизация точности, масштабируемости и эффективности в децентрализованном сборе и разметке данных
В отличие от традиционных систем, децентрализованные системы сбора данных полагаются на участников из различных регионов и уровней опыта. Это создает несколько проблем, которые необходимо решить, чтобы децентрализованный сбор данных стал жизнеспособной альтернативой крупномасштабному сбору:
Обеспечение качества: Распределенные участники могут иметь различный уровень знаний и точности, что делает критически важным внедрение эффективных процессов обеспечения качества.
Масштабируемость: Управление тысячами участников без ущерба для качества или скорости требует динамического распределения задач и эффективных механизмов обзора.
Согласование стимулов: Структурирование вознаграждений, которые поощряют высококачественные вклады, а не количество, имеет важное значение для долгосрочного успеха.
Снижение мошенничества: Распределенные системы уязвимы для автоматизированных, малозатратных или злонамеренных заявок, направленных на эксплуатацию систем вознаграждения, что требует надежных механизмов обнаружения.
Чтобы решить эти проблемы, Sahara AI внедрила многоуровневые системы валидации, взаимные обзоры и динамическую структуру вознаграждений, предназначенные для согласования усилий участников с качественными результатами. Наш процесс валидации для представленных точек данных был спроектирован следующим образом:
Автоматизированная проверка качества: Начальная проверка качества выполняется моделями машинного обучения, предназначенными для обнаружения дубликатов, незавершенных или несогласованных заявок. Эти автоматизированные проверки помогают уменьшить рабочую нагрузку на ручной обзор и обеспечивают дальнейшее продвижение только потенциально действительных данных.
Децентрализованный взаимный обзор: Заявки на данные, которые проходят автоматическую проверку, рассматриваются другими участниками через механизм децентрализованного взаимного обзора. Большинство участников определяет, принимается ли заявка или отклоняется. Этот процесс обеспечивает масштабируемость, извлекая выгоду из разнообразных точек зрения.
Машинный обзор, специфичный для задач: Для задач с четко определенными критериями, такими как определение успешности или неуспешности попытки брутфорса, машинный обзор может предоставить точные и последовательные оценки. Эти задачи часто связаны с бинарными результатами или объективными стандартами, что делает их идеальными для автоматизированной обработки. При применении машинный обзор может действовать как "золотой стандарт", минимизируя необходимость в человеческом вмешательстве, масштабируясь без усилий для обработки больших наборов данных и поддерживая высокую точность.
Внутренний человеческий QA: Случайным образом отобранный подмножество принятых заявок, прошедших взаимный обзор, подлежит ручному обзору командой Sahara AI для измерения общей точности и выявления любых закономерностей низкокачественных или мошеннических вкладов. Этот уровень служит эталоном для улучшения будущих процессов валидации.
Учитывая децентрализованный характер этого подхода, мы ожидали несколько ключевых проблем, особенно риск подачи участниками и утверждения низкокачественных заявок для взаимной выгоды. Чтобы решить эти риски, мы интегрировали следующие защитные меры:
Предварительные тесты на квалификацию по задачам: Участники должны были пройти тесты на знание тем, связанных с задачей, чтобы гарантировать, что только участники с соответствующей экспертизой допускались к аннотированию или обзору данных.
Динамические структуры вознаграждений: Механизмы вознаграждения были разработаны так, чтобы придавать приоритет точности, предоставляя более высокие вознаграждения за надежные аннотации и обзоры, при этом накладывая штрафы за неверные заявки, такие как частичные или постоянные запреты на платформе.
Задачи были разделены на категории в зависимости от сложности, при этом участники поощрялись через ступенчатую систему вознаграждений:
Задачи для начинающих включали простую разметку на основе исследований, такую как ответы на вопросы, связанные со смарт-контрактами, разработкой dapp и рекомендациями по стилю (например, лучшие наряды на свидание).
Промежуточные задачи требовали более углубленных исследований, таких как выявление ведущих ИИ-влиятельных лиц в Twitter или исследование стратегий инвестиции в криптовалюту и выбор идеальных подарков для первого свидания.
Продвинутые задачи включали брутфорс общих моделей ИИ, таких как Qwen и LLaMA, или создание персон ИИ.
Экспертные задачи включали более сложные испытания для красной команды, такие как брутфорс общих моделей ИИ для производства откровенного или взрослого контента.
Чем более сложной была задача, тем выше вознаграждение. Это сделано как для отражения дополнительного времени, необходимого для выполнения задач более высокого уровня сложности, так и для поощрения участников с более специфическими знаниями. Все вознаграждения выдавались в виде очков Sahara. Вознаграждения получали только принятые точки данных.
В отличие от задач для начинающих и промежуточных задач, продвинутые и экспертные задачи оцениваются с использованием машинного обзора, а не децентрализованного взаимного обзора из-за их технической сложности и необходимости в точных критериях оценки.
Ключевые находки:
Децентрализованный взаимный обзор достиг 92% точности в внутреннем QA, подтверждая его масштабируемость и эффективность
Анализ исследовательских и основанных на знаниях задач показал, что 92% точек данных, принятых через децентрализованный взаимный обзор, прошли внутренние проверки качества (QA). Это демонстрирует, что децентрализованный взаимный обзор может служить эффективным первым уровнем фильтра для качества данных, даже в масштабах, поскольку участники мотивированы предоставлять точные оценки при надлежащем поощрении.

Эти результаты указывают на то, что сочетание децентрализованного взаимного обзора с дополнительными механизмами валидации создает систему, которая балансирует масштабируемость и качество. Децентрализованный взаимный обзор, по своей природе, позволяет быстро обрабатывать большие объемы данных, в то время как добавление автоматических проверок и человеческого надзора обеспечивает минимизацию низкокачественных заявок. Структурированная система поощрений Платформы услуг данных дополнительно согласовывает поведение участников с целью достижения высококачественных выходов.
Успех этого маломасштабного POC подчеркивает потенциал децентрализованного взаимного обзора как масштабируемой и экономически эффективной альтернативы традиционной централизованной аннотации данных. Сократив зависимость от дорогостоящих централизованных команд QA, эта модель позволяет ИИ-проектам достигать высококачественной аннотации данных через децентрализованную структуру, закладывая основу для масштабируемого, распределенного сбора данных ИИ.
Помимо масштабируемости и экономической эффективности, успех децентрализованного взаимного обзора в Сезоне 1 — поддерживаемый 10,000 участниками из различных слоев и регионов — доказывает, что каждый, у кого есть доступ в интернет, может значимо внести свой вклад в ИИ-экономику. Эта инклюзивная модель позволила глобальным участникам, независимо от их местоположения или экспертизы, участвовать в аннотации данных и разработке ИИ.
83% простых исследовательских задач и 67% более глубоких исследовательских задач проходят децентрализованный взаимный обзор
Сезон 1 продемонстрировал высокую эффективность в задачах на основе исследований, с 83% приемлемых заявок на простые исследовательские задачи и 67% более глубоких исследовательских задач, прошедших децентрализованный взаимный обзор. Эти задачи, варьирующиеся от базового сбора информации до более сложных, требующих исследования, демонстрируют эффективность системы взаимного обзора и важность правильного поощрения участников.
Простые исследовательские задачи (задачи для начинающих) включали базовый сбор и разметку информации, такие как ответы на общие вопросы о криптовалютах или повседневные советы, такие как выбор лучшего наряда на свидание. С 83% заявок, прошедших взаимный обзор, и внутренним QA, подтверждающим 94% уровень точности, высокий уровень принятия, вероятно, вызван доступным характером тем, которые требовали общеизвестных или субъективных ответов, легко поддающихся оценке и пересмотру.
Более глубокие исследовательские задачи (промежуточные задачи) требовали от участников более тщательных исследований и критических оценок. Примеры включают выявление ведущих ИИ-влиятельных лиц в Twitter (теперь X), исследование эффективных стратегий инвестирования в криптовалюту и выбор идеальных подарков для первого свидания на основе различных параметров. Эти задачи были более требовательными, что привело к уровню принятия 67% взаимного обзора. Однако внутренний QA подтвердил уровень точности 88% для принятых заявок, что указывает на то, что система взаимного обзора эффективно идентифицировала и отклонила низкокачественные или незавершенные ответы.
Эти данные подчеркивают, что когда участники правильно поощряются, они постоянно предоставляют качественные результаты, даже для более сложных задач. Простые исследовательские задачи, естественно, имели более высокие уровни принятия из-за их доступности, в то время как более глубокие исследовательские задачи требовали более строгой оценки, но все же обеспечивали высококачественные вклады. Способность системы взаимного обзора фильтровать плохие заявки гарантирует, что принятые точки данных поддерживают точность и надежность, необходимые для значимых наборов данных.
Когда Sahara AI увеличит участие до 100,000 участников для Сезона 2, мы дополнительно уточнили процесс аннотации и взаимного обзора, чтобы ранее исключать низкокачественных участников.
Хотя технические и трудозатратные задачи имели уровень принятия только 10%, они все же обеспечили десятки тысяч высокоценных точек данных
Технические и трудозатратные задачи в Сезоне 1 требовали от участников выполнения высокоспециализированной работы. Для продвинутых задач это включало создание подсказок для брутфорса для крупных моделей ИИ, таких как Qwen и LLaMA, или проектирование персон ИИ. Экспертные задачи, с другой стороны, включали более сложное генерирование провокационных подсказок, включая создание откровенных или граничащих подсказок для некоторых из самых распространенных LLM. Несмотря на их сложность и строгие критерии проверки, которые привели к уровню принятия всего 10%, эти задачи все же произвели более 24,000 высокоценных точек данных, необходимых для тестирования безопасности и надежности моделей ИИ.

Высокий объем поданных заявок (239,126 точек данных для продвинутых задач, самый высокий среди всех типов задач), вместе с комплексностью задач, естественно, привел к более низким уровням принятия в целом. Эти задачи привлекли большое количество участников из-за высокой выплаты в очках Sahara. Хотя для доступа к этим задачам требовались экзамены, Сезон 1 позволил широкое участие без ограничений по экспертной области, что способствовало более низким уровням принятия.
Продвинутые и экспертные задачи оценивались с использованием машинного обзора вместо децентрализованного взаимного обзора из-за технической и бинарной природы критериев оценки. Целью задач было определить, успешны ли подсказки для брутфорса или нет — объективный, основанный на правилах результат, который не требовал субъективной интерпретации или человеческого консенсуса. Машинный обзор более подходил для этой цели, поскольку обеспечивал последовательную, масштабируемую и эффективную обработку больших объемов поданных заявок, применяя строгие, заранее определенные правила для оценки результатов. В отличие от этого, взаимный обзор — обычно ценный для задач, требующих разнообразных человеческих точек зрения — был ненужным для таких простых оценок.
Низкие уровни принятия для этих задач (10%) отражают сложность создания высококачественных, специфических для области наборов данных, а не проблемы с качеством данных. Многие из этих задач требовали от участников генерирования крайних случаев провокационных ввходов, предназначенных для тестирования границ LLM, что делает строгую проверку необходимой для фильтрации шума и поддержания высокой целостности данных. Цель состояла не в том, чтобы принять высокий процент поданных заявок, а в том, чтобы гарантировать, что принятые точки данных были актуальными, точными и ценными. Этот подход помогает создать наборы данных, критически важные для стресс-тестирования моделей ИИ, повышая их безопасность, надежность и устойчивость к эксплуатации. Отобранные провокационные подсказки, которые прошли проверку, служат высокоэффективными точками данных, необходимыми для улучшения поведения модели в экстремальных условиях.
Для улучшения производительности и масштабируемости для специализированных задач требуются специализированные аннотаторы с экспертизой в конкретных областях (например, музыка, инженерия, безопасность и т.д.) Только квалифицированные участники должны иметь возможность участвовать в этих сложных задачах, гарантируя, что как количество, так и качество принятых точек данных продолжают улучшаться.
Что дальше: Масштабирование децентрализованной разметки данных
Первая фаза Платформы услуг данных Sahara AI доказывает, что децентрализованный сбор и разметка данных могут обеспечить высококачественные результаты в больших масштабах. Следующий шаг — расширить количество участников с 10,000 в Сезоне 1 до 100,000 участников в Сезоне 2 для дальнейшего уточнения этих процессов перед открытым выпуском Платформы услуг данных.
Сезон 2 в настоящее время в действии. По мере расширения до 100,000 участников, мы:
Выпустили более продвинутую сегментацию задач для специализированной разметки данных.
Уточнили наши автоматизированные модели проверки для повышения контроля качества.
Выпустили возможности многомодальной аннотации для поддержки текстовых, изображенческих и аудиоданных.
Чтобы улучшить качество данных и эффективность платформы, мы также улучшили механизм блокировки для задач по разметке. Разметчики теперь блокируются раньше, если их производительность делает математически невозможным достижение требуемого порога точности. Например, если задача требует 80% точности, пользователь, допускающий две ошибки в первых пяти точках данных, будет немедленно дисквалифицирован. Преимущества этого двойны:
Быстреее удаление низкоэффективных участников обеспечивает более качественные наборы данных.
Более четкие, немедленные отзывы для участников по результатам задач.
Внедряя эти уточнения, мы стремимся сохранить самые высокие стандарты выполнения задач, одновременно улучшая общий опыт для всех участников.
Децентрализация услуг данных ИИ знаменует собой значительный шаг вперед в развитии ИИ, доказывая, что децентрализованная разметка данных не только жизнеспособна, но и масштабируема, экономически эффективна и инклюзивна. Мы с нетерпением ждем возможности поделиться данными, которые поступят из Сезона 2.