Децентрализованный сбор и маркировка данных в крупном масштабе

По Жоулсу Баррагану | Sahara AI

Исполнительное резюме

Взрывной рост генеративного ИИ (GenAI) создал беспрецедентную необходимость в высококачественных, помеченных данных — основе для обучения моделей, например, RAG-пайплайнов, валидации и дообучения. Традиционные подходы к разметке данных, хотя и эффективные на меньших масштабах, сталкиваются с трудностями при адаптации к требованиям современного развития ИИ. 

Эти проблемы возникают из-за разнообразной и специализированной природы современных ИИ-проектов, которые часто требуют столь же разнообразных и специализированных наборов данных. Создание и разметка этих данных требует значительно больше усилий, мысли и точности для завершения. Разнообразие этих потребностей делает сложным для любого отдельного размечающего или команды эффективно справляться с каждой задачей.

Децентрализация решает эти проблемы, предоставляя доступ к более широкому пулу участников, что позволяет удовлетворять разнообразные требования к разметке, обеспечивая при этом разнообразие точек зрения и экспертизы. Однако децентрализация также вносит трудности в поддержание доверия, качества и эффективности. Решение этих проблем критически важно для создания децентрализованной экосистемы, способной удовлетворить разнообразные и растущие потребности современных ИИ-проектов.

Платформа данных Sahara AI представляет собой первый в своем роде децентрализованный альтернативный вариант, использующий распределенных участников для выполнения сборки и аннотирования данных в больших масштабах. На нашей начальной POC (Сезон 1) более 10,000 глобальных участников выполнили задачи по разметке в течение месяца, при этом были реализованы децентрализованный обзор, механизмы поощрения и процессы обеспечения качества для гарантии целостности и надежности данных. Результаты этой POC продемонстрировали, что децентрализованная аннотация данных не только жизнеспособна, но и масштабируема, эффективна и способна обеспечить высокую точность:

  • Децентрализованный обзор достиг 92% точности в внутреннем QA, подчеркивая его масштабируемость и эффективность в сборе и размечении данных.

  • Только 83% простых исследовательских задач и 67% более глубоких исследовательских задач прошли децентрализованный обзор, демонстрируя способность системы обзора фильтровать плохие подачи, чтобы поддерживать необходимую точность и надежность для значимых наборов данных.

  • Хотя технические и трудоемкие задачи имели всего 10% уровень акцепта, они все равно принесли десятки тысяч высокоценных данных

Этот отчет исследует ключевые результаты и выводы из Сезона 1 Платформы данных, а также более широкие последствия для децентрализованной разметки данных ИИ.

Оптимизация точности, масштабируемости и эффективности в децентрализованном сборе и разметке данных

В отличие от традиционных систем, децентрализованные системы сбора данных полагаются на участников из разных регионов и уровней экспертизы. Это создает несколько проблем, которые необходимо решить, чтобы децентрализованный сбор данных стал жизнеспособной альтернативой в крупном масштабе:

  • Обеспечение качества: Распределенные участники могут иметь различные уровни знаний и точности, что делает критически важным внедрение эффективных процессов обеспечения качества.

  • Масштабируемость: Управление тысячами участников без потери качества или скорости требует динамического распределения задач и эффективных механизмов обзора.

  • Согласование стимулов: Структурирование вознаграждений, которые поощряют качественные взносы, а не количество, является ключом к долгосрочному успеху.

  • Снижение мошенничества: Распределенные системы уязвимы для автоматизированных, низкоэффективных или злонамеренных подач, которые стремятся использовать вознаграждающие системы, требуя надежных механизмов обнаружения.

Чтобы решить эти проблемы, Sahara AI внедрила многоуровневые системы валидации, обзоры и динамические структуры вознаграждений, предназначенные для согласования усилий участников с качественными результатами. Наш процесс валидации для поданных данных был разработан следующим образом:

  1. Автоматизированный контроль качества: Начальный контроль качества выполняется с помощью моделей машинного обучения, предназначенных для выявления дубликатов, неполных или несоответствующих подач. Эти автоматизированные проверки помогают сократить объем ручных обзоров и гарантируют, что только потенциально действительные данные продвигаются дальше.

  2. Децентрализованный обзор: Данные, которые проходят автоматизированный контроль, рассматриваются другими участниками через механизм децентрализованного обзора. Большинство голосов определяет, принимается ли подача или отклоняется. Этот процесс обеспечивает масштабируемость, используя разнообразные точки зрения.

  3. Машинный обзор по заданиям:  Для задач с четко определенными критериями — например, для определения того, успешна ли попытка выхода из-под контроля, машинный обзор может предоставить точные, последовательные оценки. Эти задачи часто включают бинарные результаты или объективные критерии, что делает их идеальными для автоматизированной обработки. При применимости машинный обзор может действовать как "золотой стандарт", минимизируя необходимость человеческого вмешательства, легко масштабируясь для обработки больших наборов данных и поддерживая высокую точность.

  4. Человеческий QA на месте: Случайно выбранная подсекция принятых обзоров проходит ручной контроль командой Sahara AI для оценки общей точности и выявления любых паттернов низкокачественных или мошеннических взносов. Этот уровень служит в качестве эталона для улучшения будущих процессов валидации.

Учитывая децентрализованный характер этого подхода, мы предвидели несколько ключевых проблем, особенно риск того, что участники будут представлять и одобрять низкокачественные подачи для взаимной выгоды. Чтобы решить эти риски, мы интегрировали следующие меры предосторожности:

  • Квизы на квалификацию перед задачами: От участников требовалось пройти специфические для задач оценки знаний, что гарантировало, что только участники с соответствующей экспертизой имеют возможность аннотировать или просматривать данные.

  • Динамические структуры стимулов: механизмы вознаграждений были спроектированы так, чтобы приоритизировать точность, присуждая более высокие вознаграждения за надежные аннотации и обзоры, и применяя штрафы за некорректные подачи, такие как частичные или постоянные запреты на платформе.

Задачи были разделены на категории в зависимости от сложности, при этом участники поощрялись через многоуровневую систему вознаграждений: 

  • Начальные задачи включали простую исследовательскую разметку, такую как ответы на вопросы, касающиеся смарт-контрактов, разработки dapp и совета по стилю (например, лучшие наряды на свидание).

  • Промежуточные задачи требовали более глубоких исследований, таких как выявление основных ИИ-влиятельных фигур в Twitter или исследование стратегий инвестирования в криптовалюту и выбор идеальных подарков для первого свидания.

  • Продвинутые задачи включали взлом стандартных ИИ моделей, таких как Qwen и LLaMA, или проектирование ИИ-личностей.

  • Задачи для экспертов включали более сложные вызовы, такие как взлом стандартных ИИ моделей для производства откровенного или взрослого контента.

Чем сложнее задача, тем выше вознаграждение. Это как бы отражает время, необходимое для выполнения задач более высокого уровня сложности, так и награждает участников с более специализированными знаниями. Все вознаграждения выдавались в виде очков Sahara. Вознаграждались только принятые данные. 

В отличие от начальных и промежуточных задач, продвинутые и экспертные задачи оценивались с использованием машинных обзоров, а не децентрализованных обзоров, из-за их технической сложности и необходимости наличия точных критериев оценивания.

Ключевые выводы:

Децентрализованный обзор достиг 92% точности в внутреннем QA, доказывая его масштабируемость и эффективность

Анализ исследовательских и основанных на знаниях задач показал, что 92% данных, принятых через децентрализованный обзор, прошли внутренние проверки качества (QA). Это демонстрирует, что децентрализованный обзор может действовать как эффективный первый фильтр для качества данных, даже в большом масштабе, поскольку участники мотивированы предоставлять точные оценки при правильном стимулировании.

Эти результаты указывают на то, что сочетание децентрализованного обзора с дополнительными механизмами валидации создает систему, которая балансирует масштабируемость и качество. Децентрализованный обзор, по своей сути, позволяет быстро обрабатывать большие объемы данных, в то время как добавление автоматизированных проверок и человеческого контроля обеспечивает минимизацию низкокачественных подач. Структурированная система стимулов Платформы данных дополнительно согласовывает поведение участников с целью высококачественных результатов.

Успех этой маломасштабной POC подчеркивает потенциал децентрализованного обзора как масштабируемой и экономически эффективной альтернативы традиционной централизованной аннотации данных. Уменьшая зависимость от дорогих централизованных команд QA, эта модель позволяет проектам ИИ достигать высококачественной аннотации данных через децентрализованную структуру, закладывая основу для масштабируемого, распределенного сбора данных ИИ.

Помимо масштабируемости и экономической эффективности, успех децентрализованного обзора в Сезоне 1 — поддерживаемый 10,000 участниками из разнообразных слоев и регионов — доказывает, что любой, у кого есть доступ в интернет, может существенно внести свой вклад в экономику ИИ. Эта инклюзивная модель позволила глобальным участникам, независимо от местоположения или уровня экспертизы, участвовать в аннотации данных и разработке ИИ. 

83% простых исследовательских задач и 67% более глубоких исследовательских задач проходят децентрализованный обзор

Сезон 1 продемонстрировал сильные результаты в задачах, основанных на исследованиях, с 83% подач простых исследовательских задач и 67% подач более глубоких исследовательских задач, прошедших децентрализованный обзор. Эти задачи, варьирующие от простого сбора информации до более сложных, исследовательски интенсированных вызовов, демонстрируют эффективность системы обзора и важность правильного стимулирования участников.

Простые исследовательские задачи (начальные задачи) включали базовые извлечение информации и разметку, такие как ответы на распространенные вопросы о криптовалюте или повседневные советы, такие как выбор лучшего наряда на свидание. С 83% подач, прошедших обзор, а внутренний QA подтвердил 94% уровень точности, высокий уровень акцепта, вероятно, обусловлен доступной природой тем, которые требовали общего знания или субъективных ответов, которые легко было ответить и оценить последовательно.

Более глубокие исследовательские задачи (промежуточные задачи) требовали от участников более тщательных исследований и критических оценок. Примеры включают в себя выявление ведущих ИИ-влиятельных фигуp в Twitter (теперь X), исследование эффективных стратегий инвестиций в криптовалюту и выбор идеальных подарков для первого свидания на основе различных параметров. Эти задачи были более требовательными, что привело к 67% уровню акцепта в обзоре. Однако внутренний QA подтвердил 88% уровень точности для принятых подач, что указывает на то, что система обзора эффективно выявила и отклонила низкокачественные или неполные ответы.

Эти данные подчеркивают, что когда участники правильно мотивированы, они последовательно предоставляют качественные результаты, даже для более сложных задач. Простые исследовательские задачи, естественно, давали более высокие показатели акцепта из-за их доступности, в то время как более глубокие исследовательские задачи требовали более строгой оценки, но все равно производили качественные взносы. Способность системы обзора фильтровать плохие подачи обеспечивает поддержку точности и надежности принятых данных, необходимых для значимых наборов данных.

Поскольку Sahara AI увеличивает участие до 100,000 участников в Сезоне 2, мы дополнительно уточнили процесс аннотации и обзора, чтобы устранить низкокачественных участников на более раннем этапе.

Хотя технические и трудоемкие задачи имели только 10% уровень акцепта, они все же принесли десятки тысяч высокоценных данных

Технические и трудоемкие задачи в Сезоне 1 требовали от участников выполнения высокоспециализированной работы. Для продвинутых задач это включало создание запросов для взлома крупных моделей ИИ, таких как Qwen и LLaMA, или проектирование ИИ-личностей. Экспертные задачи, в свою очередь, включали продвинутую генерацию противостоящих запросов, включая создание откровенных или смелых запросов для некоторых из самых распространенных LLM. Несмотря на их сложность и строгие критерии оценивания, в результате принятый уровень акцепта составил всего 10%. Эти задачи все же успешно принесли более 24,000 высокоценных данных, необходимых для тестирования безопасности и надежности модели ИИ.

Высокий объем подач (239,126 данных для продвинутых задач, наибольшее среди всех типов задач), в сочетании со сложностью задач, естественно, привел к более низким показателям акцепта в целом. Эти задачи привлекли большое количество участников благодаря высоким вознаграждениям в очках Sahara. Хотя экзамены были необходимы для доступа к этим задачам, Сезон 1 позволил широкое участие без ограничений на основе специализированной экспертизы, что способствовало более низким показателям акцепта.

Продвинутые и экспертные задачи оценивались с использованием машинного обзора вместо децентрализованного, из-за технического и бинарного характера критериев оценивания. Цель этих задач заключалась в том, чтобы определить, успешны ли запросы на взлом — объективный, управляемый правилами результат, не требующий субъективной интерпретации или согласия человека. Машинный обзор был более подходящим для этой цели, поскольку он обеспечивал последовательную, масштабируемую и эффективную обработку больших объемов подач, применяя строгие, заранее определенные правила для оценки результатов. В отличие от этого, обзор со стороны людей — обычно ценная для задач, требующих разнообразных человеческих перспектив — не был необходим для этих простых оценок.

Низкие показатели акцепта для этих задач (10%) отражают трудности в кураторстве высококачественных, специализированных наборов данных, а не проблемы с качеством данных. Многие из этих задач требовали от участников генерировать крайние случаи противостоящих входов, предназначенных для проверки границ LLM, делая строгую оценку необходимой для фильтрации шума и поддержания высокой целостности данных. Цель заключалась не в том, чтобы принять высокий процент подач, а в том, чтобы гарантировать, что принятые данные были актуальными, точными и ценными. Этот подход помогает создать наборы данных, критически важные для стресс-тестирования моделей ИИ, улучшая их безопасность, надежность и устойчивость к эксплуатации. Отобранные противостоящие запросы, прошедшие обзор, служат высокоэффективными данными, необходимыми для улучшения поведения модели в экстремальных условиях.

Для улучшения работы и масштабируемости специализированных задач требуются специализированные аннотаторы с доменной экспертизой (например, музыкальная, инженерная, безопасность и т.д.). Только квалифицированные участники должны иметь возможность участвовать в этих сложных задачах, обеспечивая, чтобы как количество, так и качество принятых данных продолжали улучшаться.

Что дальше: Масштабирование децентрализованной разметки данных

Первая фаза Платформы данных Sahara AI доказывает, что децентрализованный сбор и разметка данных могут добиться высококачественных результатов в масштабах. Следующий шаг — расширить количество участников с 10,000 в Сезоне 1 до 100,000 участников в Сезоне 2, чтобы дополнительно уточнить эти процессы перед открытым запуском Платформы данных.

Сезон 2 теперь активен. По мере расширения до 100,000 участников мы:

  • Выпустили более продвинутую сегментацию задач для специализированной разметки данных.

  • Уточнили наши автоматизированные модели верификации для повышения контроля качества.

  • Выпустили многофункциональные возможности аннотации для поддержки текстовых, изображенческих и аудиоданных.

Чтобы улучшить качество данных и эффективность платформы, мы также усовершенствовали механизм запрета для задач разметки. Размечающие теперь аннулируются раньше, если их производительность делает математически невозможным достижение необходимого порога точности. Например, если задача требует 80% точности, пользователь, допускающий две ошибки в первых пяти данных, будет немедленно дисквалифицирован. Преимущества этого следующие:

  • Быстрое удаление плохо работающих участников обеспечивает более качественные наборы данных.

  • Четкая, немедленная обратная связь для участников по производительности в задаче.

Внедряя эти доработки, мы стремимся поддерживать высочайшие стандарты выполнения задач, одновременно улучшая общее впечатление для всех участников.

Децентрализация услуг данных ИИ является важным шагом вперед в развитии ИИ, доказывая, что децентрализованная разметка данных является не только жизнеспособной — но и масштабируемой, экономически эффективной и инклюзивной. Мы с нетерпением ждем возможности поделиться данными, которые будут получены в Сезоне 2.