탈중앙화된 데이터 수집 및 대규모 라벨링

작성자 Joules Barragan | Sahara AI
전문 요약
Generative AI (GenAI)의 폭발적인 성장으로 인해 모델 훈련, RAG 파이프라인, 검증 및 미세 조정을 위한 기반인 고품질 레이블이 지정된 데이터에 대한 전례 없는 수요가 발생했습니다. 전통적인 데이터 레이블링 접근 방식은 소규모에서는 효과적이지만 현대 AI 개발의 요구에 적응하는 데 어려움이 있습니다.
이러한 도전은 오늘날의 AI 프로젝트가 종종 여러 가지와 전문화된 데이터 세트를 필요로 하기 때문에 발생합니다. 이 데이터를 만들고 레이블을 지정하는 데는 더 많은 생각, 노력 및 정밀도가 필요합니다. 이러한 요구의 다양성 때문에 단일 레이블러나 팀이 모든 유형의 작업을 효과적으로 처리하기가 어렵습니다.
탈중앙화는 이러한 문제를 해결하기 위해 더 넓은 기여자 풀에 접근할 수 있도록 하여 다양한 레이블링 요구를 충족할 수 있도록 하며, 관점과 전문성의 다양성을 보장합니다. 그러나 탈중앙화는 신뢰, 품질 및 효율성을 유지하는 것을 둘러싼 문제를 도입하기도 합니다. 이러한 문제를 해결하는 것은 현대 AI 프로젝트의 다양한 및 성장하는 요구를 충족할 수 있는 탈중앙화 생태계를 만드는 데 중요합니다.
Sahara AI의 데이터 서비스 플랫폼은 분산된 기여자를 활용하여 대규모 데이터 수집 및 주석을 수행하는 독창적인 탈중앙화 대안을 소개합니다. 초기 POC(시즌 1)에서는 전 세계 10,000명이 넘는 참가자가 한 달 동안 레이블링 작업을 수행했으며, 탈중앙화된 동료 검토, 인센티브 메커니즘 및 데이터 무결성 및 신뢰성을 보장하기 위한 품질 보증 프로세스가 구현되었습니다. 이 POC의 결과는 탈중앙화된 데이터 주석이 실행 가능할 뿐만 아니라 확장 가능하고 효율적이며 높은 정확도를 제공할 수 있음을 보여주었습니다:
탈중앙화된 동료 검토는 내부 품질 보증에서 92%의 정확도를 달성하여 데이터 수집 및 레이블링에서의 확장성과 효과성을 강조했습니다.
단순 연구 작업의 83%와 더 심층 연구 작업의 67%만이 탈중앙화된 동료 검토를 통과하여 동료 검토 시스템이 유효한 데이터 세트를 위한 정확도와 신뢰성 유지를 위해 불량 제출물을 필터링할 수 있음을 보여주었습니다.
기술적이고 노동 집약적인 작업의 수용률은 10%에 불과했지만 여전히 수만 개의 고가치 데이터 포인트를 생성했습니다.
이 보고서는 데이터 서비스 플랫폼 시즌 1의 주요 결과와 통찰을 탐구하며, 탈중앙화 AI 데이터 레이블링에 대한 더 넓은 함의를 다룹니다.
탈중앙화된 데이터 수집 및 레이블링에서 정확도, 확장성 및 효율성 최적화
전통적인 시스템과 달리 탈중앙화된 데이터 수집 시스템은 다양한 지역과 전문 수준의 기여자들에 의존합니다. 이는 탈중앙화된 데이터 수집이 대규모 대안이 되기 위해 해결해야 할 여러 가지 과제를 만듭니다:
품질 보장: 분산된 기여자들은 다양한 지식과 정확도 비율을 가질 수 있으므로 효과적인 품질 보증 프로세스를 구현하는 것이 중요합니다.
확장성: 품질이나 속도를 희생하지 않고 수천 명의 기여자를 관리하려면 동적인 작업 할당 및 효율적인 검토 메커니즘이 필요합니다.
인센티브 조정: 양보다 높은 품질 기여를 장려하는 보상 구조가 장기적인 성공에 필수적입니다.
사기 완화: 분산 시스템은 보상 시스템을 악용하려는 자동화된 저비용 또는 악의적인 제출물에 취약하여 강력한 탐지 메커니즘이 필요합니다.
이러한 문제를 해결하기 위해 Sahara AI는 기여자의 노력을 품질 결과와 일치시키는 다층적 검증 시스템, 동료 검토 및 동적 보상 구조를 구현했습니다. 제출된 데이터 포인트를 위한 검증 프로세스는 다음과 같이 설계되었습니다:
자동 품질 스크리닝: 초기 품질 관리는 중복, 불완전 또는 일관되지 않은 제출물을 플래그할 수 있도록 설계된 머신 러닝 모델에 의해 수행됩니다. 이러한 자동화된 검사는 수동 검토 작업량을 줄이고 잠재적으로 유효한 데이터만이 더 진척할 수 있게 합니다.
탈중앙화된 동료 검토: 자동 스크리닝을 통과한 데이터 제출물은 탈중앙화된 동료 검토 메커니즘을 통해 다른 기여자들에 의해 검토됩니다. 다수의 합의가 제출물이 수락되거나 기각될지를 결정합니다. 이 과정은 다양한 관점의 혜택을 보면서 확장성을 보장합니다.
작업 특화 머신 검토: 탈옥 시도가 성공 또는 실패하는지 여부를 결정하는 등의 잘 정의된 기준을 가진 작업에 대해 머신 검토를 통해 정확하고 일관된 평가를 제공합니다. 이러한 작업은 종종 이진 결과나 객관적 기준을 포함하여 자동 처리에 적합합니다. 적용 가능한 경우 머신 검토는 "금준거" 역할을 하여 인력 개입의 필요성을 최소화하고 대규모 데이터 세트를 처리하는 데 쉽게 확장하며 높은 정확도를 유지할 수 있습니다.
사내 인간 QA: 수락된 동료 검토 제출물의 무작위로 선택된 하위 집합은 Sahara AI 팀에 의해 전반적인 정확도를 측정하고 저품질 또는 허위 기여의 패턴을 식별하기 위해 수동 검토를 거칩니다. 이 층은 향후 검증 프로세스를 개선하는 기준으로 작용합니다.
이 접근의 탈중앙화된 특성 때문에 우리는 참가자들이 서로의 이익을 위해 저품질 제출물을 제출하고 승인하는 위험과 같은 여러 가지 주요 도전을 예상했습니다. 이러한 위험을 해결하기 위해 다음과 같은 안전 장치를 통합했습니다:
작업 전 자격 퀴즈: 기여자는 작업 특정 지식 평가를 통과해야 하며, 관련 전문 지식이 있는 참가자만 데이터 주석 또는 검토를 할 수 있도록 보장합니다.
동적 인센티브 구조: 보상 메커니즘은 신뢰할 수 있는 주석 및 검토에 대해 더 높은 보상을 주며, 잘못된 제출에 대해서는 부분적인 또는 영구적인 금지를 적용하여 정확성을 확보하는 데 우선하도록 설계되었습니다.
작업은 복잡성에 따라 카테고리로 나뉘며 기여자는 계층 보상 시스템을 통해 유도됩니다:
초급 작업에는 스마트 계약, dapp 개발 및 스타일 조언(예: 최고의 데이트 복장)에 대한 질문에 답변하는 것과 같은 간단한 연구 기반 레이블링이 포함됩니다.
중급 작업은 Twitter 또는 X에서 주요 AI 인플루언서를 식별하거나 암호화폐 투자 전략을 조사하고 이상적인 첫 데이트 선물을 선택하는 것과 같은 보다 심층적인 연구가 필요합니다.
고급 작업에는 Qwen 및 LLaMA와 같은 일반 AI 모델의 탈옥 또는 AI 페르소나 설계가 포함됩니다.
전문가 작업에는 일반 AI 모델을 탈옥하여 노골적이거나 성인 콘텐츠를 생성하는 것과 같은 좀 더 정교한 레드 팀 챌린지가 포함됩니다.
작업이 더 복잡할수록 보상이 더 높아집니다. 이는 더 높은 난이도의 작업을 완료하는 데 필요한 시간을 반영하고, 더 세부사항 지식을 가진 기여자에게 보상을 제공하기 위한 것입니다. 모든 보상은 Sahara 포인트로 지급되었습니다. 수락된 데이터 포인트만 보상을 받았습니다.
초급 및 중급 작업과 달리 고급 및 전문가 작업은 기술적 복잡성과 정밀한 평가 기준을 요구하기 때문에 탈중앙화된 동료 검토 대신 머신 검토를 통해 평가되었습니다.
주요 발견:
탈중앙화된 동료 검토는 내부 품질 보증에서 92% 정확도를 달성하여 확장성과 효율성을 입증했습니다.
연구 및 지식 기반 작업 분석에서 92%의 데이터 포인트가 탈중앙화된 동료 검토를 통해 수락되어 사내 품질 보증(QA) 검사에서 통과했습니다. 이는 탈중앙화된 동료 검토가 데이터 품질을 위한 효과적인 1차 필터로 작용할 수 있음을 나타내며, 기여자들이 적절한 인센티브를 받을 때 정확한 평가를 제공할 수 있도록 동기가 부여됩니다.

이 결과는 탈중앙화된 동료 검토와 보완적인 검증 메커니즘의 조합이 확장성과 품질을 균형 있게 맞출 수 있는 시스템을 생성한다는 것을 보여줍니다. 설계상 탈중앙화된 동료 검토는 대량의 데이터를 신속하게 처리할 수 있도록 하며, 자동화된 검사와 인간 감독의 추가는 저품질 제출이 최소화되도록 보장합니다. 데이터 서비스 플랫폼의 구조화된 인센티브 시스템은 또한 참가자의 행동을 고품질 결과라는 목표와 일치시킵니다.
이 소규모 POC의 성공은 탈중앙화된 동료 검토가 전통적인 중앙집중식 데이터 주석에 대한 확장 가능하고 비용 효율적인 대안이 될 수 있는 가능성을 강조합니다. 고가의 중앙 집중식 QA 팀에 대한 의존성을 줄임으로써 이 모델은 AI 프로젝트가 탈중앙화된 프레임워크를 통해 고품질 데이터 주석을 달성할 수 있도록 하여 확장 가능하고 분산된 AI 데이터 수집의 기초를 설정합니다.
확장성과 비용 효율성 외에도 시즌 1에서의 탈중앙화된 동료 검토의 성공은 10,000명의 다양한 배경과 지역의 참가자들에 의해 뒷받침되어, 인터넷에 접속할 수 있는 누구나 AI 경제에 의미 있게 기여할 수 있음을 증명합니다. 이 포괄적인 모델은 글로벌 기여자가 위치와 전문 지식에 관계없이 데이터 주석 및 AI 개발에 참여할 수 있도록 했습니다.
단순 연구 작업의 83%와 더 깊은 연구 작업의 67%가 탈중앙화된 동료 검토를 통과했습니다.
시즌 1은 연구 기반 작업에서 좋은 성과를 보여, 단순 연구 작업 제출물의 83%와 더 깊은 연구 작업 제출물의 67%가 탈중앙화된 동료 검토를 통과했습니다. 이 작업은 기본 정보 수집에서 더 복잡한 연구 집약적인 도전까지 다양하며, 동료 검토 시스템의 효과와 기여자를 적절히 유도하는 것의 중요성을 보여줍니다.
단순 연구 작업(초급 작업)은 기본 정보 검색 및 레이블링을 포함하며, 암호화나 일반적인 조언과 같은 질문에 대한 답변을 제공합니다. 제출물 중 83%가 동료 검토를 통과하고 사내 QA가 94%의 정확도를 확인했으므로 높은 수용률은 일반적인 지식이나 주관적인 답변이 더 쉬운 접근 가능한 주제 때문인 것으로 보입니다.
더 심층 연구 작업(중급 작업)은 기여자들이 더 철저한 조사와 비판적인 평가를 수행해야 합니다. 예를 들어, Twitter(현재 X)에서 주요 AI 인플루언서를 식별하거나 효과적인 암호화폐 투자 전략을 조사하거나 여러 매개변수를 기반으로 이상적인 첫 데이트 선물을 선택하는 것입니다. 이러한 작업은 더 많은 요구가 있기 때문에 67%의 동료 검토 수용률을 보였습니다. 그러나 사내 QA는 수락된 제출물에 대해 88%의 정확도를 확인하여 동료 검토 시스템이 저품질 또는 불완전한 응답을 효과적으로 식별하고 거부했음을 나타냅니다.
이 데이터는 기여자들이 적절히 유도될 때 일정한 품질 출력을 지속적으로 제공한다는 것을 강조합니다. 단순 연구 작업은 자연적으로 접근 가능하여 더 높은 수용률을 내는 반면, 더 깊은 연구 작업은 더 엄격한 평가를 요구하지만 여전히 고품질 기여를 생성합니다. 동료 검토 시스템의 저품질 제출 필터링 능력은 수용된 데이터 포인트가 의미 있는 데이터 세트를 위한 정확도와 신뢰성을 유지하도록 보장합니다.
Sahara AI가 시즌 2를 위해 100,000명의 참여자를 확대하면서 우리는 저품질 기여자를 조기에 제거할 수 있도록 주석 및 동료 검토 프로세스를 더욱 다듬었습니다.
기술적이고 노동 집약적인 작업의 수용률은 10%에 불과하지만 여전히 수만 개의 고가치 데이터 포인트를 생성했습니다.
시즌 1의 기술적이고 노동 집약적인 작업은 기여자들에게 매우 전문화된 작업을 요구했습니다. 고급 작업은 Qwen 및 LLaMA와 같은 대형 AI 모델을 위한 탈옥 프롬프트 생성 또는 AI 페르소나 설계를 포함했습니다. 반면에 전문가 작업은 일부 가장 일반적인 LLM을 위한 노골적이거나 경계선을 넘는 프롬프트 생성을 포함한 고급 적대적 프롬프트 생성을 포함했습니다. 이들의 복잡성과 엄격한 검토 기준으로 인해 10%의 전체 수용률에 불과했지만 이러한 작업은 여전히 AI 모델 안전성 및 강건성을 테스트하는 데 필수적인 24,000개 이상의 고가치 데이터 포인트를 성공적으로 생성했습니다.

높은 제출물 양(고급 작업의 경우 239,126 개 데이터 포인트, 모든 작업 유형 중 가장 높은 수치)과 작업의 복잡성으로 인해 전체적으로 낮은 수용률이 자연스럽게 발생했습니다. 이러한 작업은 Sahara 포인트의 높은 보상으로 인해 많은 기여자를 유치했습니다. 이러한 작업에 접근하기 위해서는 시험이 필요했지만 시즌 1은 주제 전문성에 따른 제한 없이 광범위한 참여를 허용하여 낮은 수용률에 기여했습니다.
고급 및 전문가 작업은 기술적이고 이진적인 평가 기준의 특성으로 인해 탈중앙화된 동료 검토 대신 머신 검토를 사용하여 검토되었습니다. 작업의 목표는 탈옥 프롬프트가 성공하거나 실패하는지를 결정하는 것입니다—주관적인 해석 또는 인간의 합의가 필요 없는 객관적이고 규칙 기반의 결과입니다. 머신 검토는 일관성 있고 확장 가능하며 효율적인 대규모 제출물 처리를 보장하기 때문에 이 목적에 더 적합했습니다. 대조적으로, 동료 검토—여러 가지 인간의 관점이 필요한 작업에 일반적으로 유용—는 이러한 간단한 평가에는 불필요했습니다.
이러한 작업에 대한 낮은 수용률(10%)은 고품질의 특정 데이터 세트를 선별하는 어려움의 반영이며, 데이터 품질에 대한 문제가 아닙니다. 많은 이러한 작업은 기여자가 LLM의 경계를 테스트하는 적대적인 입력을 생성해야 하며, 절대적이고 규칙 기반의 검토가 필요했습니다. 목표는 높은 비율의 제출물을 수용하는 것이 아니라, 수용된 데이터 포인트가 관련성 있고 정확하며 가치가 있는지 보장하는 것이었습니다. 이러한 접근 방식은 AI 모델을 stresstest하여 안전성을 강화하고, 강건성을 높이며, 악용에 대한 저항력을 향상시키는 데 필수적인 데이터 세트를 구축하는 데 도움이 됩니다. 검토를 통과한 엄선된 적대적 프롬프트는 극한의 조건에서 모델의 행동을 개선하는 데 필수적인 고충격 데이터를 제공합니다.
전문화된 작업의 성과 및 확장성을 개선하기 위해서는 분야 특정 전문 지식(예: 음악, 공학, 보안 등)을 갖춘 전문 주석자가 필요합니다. 자격을 갖춘 기여자만이 이러한 복잡한 작업에 참여할 수 있도록 하여 수용된 데이터 포인트의 양과 품질이 모두 향상될 수 있도록 해야 합니다.
다음 단계: 탈중앙화된 데이터 레이블링 확장
Sahara AI의 데이터 서비스 플랫폼의 첫 번째 단계는 탈중앙화된 데이터 수집 및 레이블링이 확장 가능한 고품질 결과를 달성할 수 있음을 증명했습니다. 다음 단계는 시즌 1의 10,000명 기여자에서 시즌 2의 100,000명 기여자로 확대하여 데이터 서비스 플랫폼의 공개 릴리스 전에 이 프로세스를 더욱 다듬는 것입니다.
시즌 2는 현재 진행 중입니다. 100,000명의 기여자로 확대함에 따라 우리는:
전문화된 데이터 레이블링을 위한 더 발전된 작업 세분화를 발행했습니다.
품질 관리를 향상시키기 위해 자동화된 검증 모델을 개선했습니다.
텍스트, 이미지 및 오디오 데이터 세트를 지원하는 다중 모달 주석 기능을 출시했습니다.
데이터 품질 및 플랫폼 효율성을 개선하기 위해 우리는 레이블링 작업에 대한 금지 메커니즘도 개선했습니다. 성능이 요구된 정확도 기준을 충족하는 것이 수학적으로 불가능할 경우, 레이블러는 조기에 금지됩니다. 예를 들어, 작업이 80%의 정확도를 요구하는 경우, 처음 다섯 개 데이터 포인트에서 두 개의 오류를 만든 사용자는 즉시 실격 처리됩니다. 이로 인해 다음과 같은 이점이 있습니다:
부실 기여자를 빠르게 제거하여 더 높은 품질의 데이터 세트를 확보합니다.
작업 성과에 대한 기여자에게 명확한 즉각적인 피드백을 제공합니다.
이러한 수정을 통해 우리는 모든 관련자에게 최고의 작업 완료 기준을 유지하고 전반적인 경험을 개선하려고 노력하고 있습니다.
AI 데이터 서비스의 탈중앙화는 AI 개발에서 중요한 진전을 이루며, 탈중앙화된 데이터 레이블링이 실행 가능할 뿐만 아니라 확장 가능하고 비용 효율적이며 포괄적임을 입증합니다. 우리는 시즌 2에서 나온 데이터를 공유하기를 기대합니다.



