탈중앙화된 데이터 수집 및 대규모 라벨링
2025. 2. 14.
작성자 Joules Barragan | Sahara AI
행정 요약
생성 AI(GenAI)의 폭발적인 성장은 모델 훈련, RAG 파이프라인, 검증 및 미세 조정을 위한 기반인 고품질 레이블이 있는 데이터에 대한 전례 없는 수요를 창출했습니다.
이러한 과제는 오늘날 AI 프로젝트의 다양하고 전문화된 특성에서 비롯되며, 이는 종종 각각 다양하고 전문화된 데이터 세트를 요구합니다. 이 데이터를 생성하고 레이블을 지정하려면 완전하게 수행하기 위한 훨씬 더 많은 사고, 노력 및 정밀성이 필요합니다. 이러한 필요의 다양성은 단일 레이블러나 팀이 모든 유형의 작업을 효과적으로 처리하는 것을 어렵게 만듭니다.
탈중앙화는 더 다양한 기여자 풀에 접근함으로써 이러한 문제를 해결하고 다양한 관점과 전문성을 보장하면서 다양한 레이블링 요구를 충족할 수 있도록 합니다. 그러나 탈중앙화는 또한 신뢰, 품질 및 효율성을 유지하는 데 대한 도전을 도입합니다. 이러한 문제를 해결하는 것은 현대 AI 프로젝트의 다양하고 성장하는 요구를 충족할 수 있는 탈중앙화 생태계를 만드는 데 매우 중요합니다.
Sahara AI의 데이터 서비스 플랫폼은 분산된 기여자를 활용하여 대규모 데이터 수집 및 주석 작성을 수행하는 최초의 탈중앙화 대안을 도입합니다. 우리의 초기 POC(시즌 1)에서는 10,000명 이상의 글로벌 참가자가 한 달 동안 레이블링 작업을 수행했으며, 탈중앙화된 동료 검토, 인센티브 메커니즘 및 품질 보증 프로세스가 구현되어 데이터 무결성과 신뢰성을 보장했습니다. 이 POC의 결과는 탈중앙화 데이터 주석이 실행 가능할 뿐만 아니라 확장 가능하고 효율적이며 높은 정확도를 제공할 수 있음을 입증했습니다:
탈중앙화된 동료 검토가 내부 QA에서 92%의 정확도를 달성하여 데이터 수집 및 레이블링에서 그 확장성과 효과성을 강조했습니다.
간단한 연구 작업의 83%와 더 심층적인 연구 작업의 67%만이 탈중앙화된 동료 검토를 통과하여 동료 검토 시스템이 의미 있는 데이터 세트를 위한 정확성과 신뢰성을 유지하기 위해 저품질 제출물을 걸러내는 능력을 보여주었습니다.
기술적이고 노동 집약적인 작업은 수용률이 10%에 불과했지만, 여전히 수만 개의 고가치 데이터 포인트를 생성했습니다.
이 보고서는 데이터 서비스 플랫폼 시즌 1의 주요 결과 및 통찰력과 함께 탈중앙화된 AI 데이터 레이블링에 대한 광범위한 함의를 탐구합니다.
탈중앙화된 데이터 수집 및 레이블링의 정확성, 확장성 및 효율성 최적화
전통적인 시스템과 달리, 탈중앙화된 데이터 수집 시스템은 다양한 지역과 전문성을 가진 기여자에게 의존합니다. 이는 탈중앙화된 데이터 수집이 실행 가능한 대규모 대안으로 발전하기 위해 해결해야 할 몇 가지 문제를 생성합니다:
품질 보장: 분산된 기여자는 지식과 정확도에 차이가 있을 수 있으므로 효과적인 품질 보증 프로세스를 구현하는 것이 중요합니다.
확장성: 품질이나 속도를 희생하지 않고 수천 명의 기여자를 관리하는 것은 동적 작업 할당과 효율적인 검토 메커니즘을 요구합니다.
인센티브 정렬: 양보다 고품질 기여를 유도하는 보상 구조를 만드는 것이 장기적인 성공에 필수적입니다.
사기 방지: 분산된 시스템은 보상 시스템을 악용하려는 자동화된, 낮은 노력 또는 악의적인 제출물에 취약하여 강력한 탐지 메커니즘이 필요합니다.
이러한 문제를 해결하기 위해 Sahara AI는 기여자의 노력과 품질 결과를 정렬하도록 설계된 다층 검증 시스템, 동료 검토 및 동적 보상 구조를 구현했습니다. 제출된 데이터 포인트에 대한 우리의 검증 프로세스는 다음과 같이 설계되었습니다:
자동화된 품질 선별: 중복, 불완전 또는 불일치하는 제출물을 표시하도록 설계된 기계 학습 모델에 의해 초기 품질 관리를 수행합니다. 이러한 자동화된 검사는 수동 검토 작업량을 줄이고 잠재적으로 유효한 데이터만이 더 나아가도록 보장합니다.
탈중앙화된 동료 검토: 자동화된 선별을 통과한 데이터 제출물은 다른 기여자에 의해 탈중앙화된 동료 검토 메커니즘을 통해 검토됩니다. 다수의 합의가 제출물이 수락되거나 거부되는지를 결정합니다. 이 프로세스는 다양한 관점의 혜택을 누리면서 확장 가능성을 보장합니다.
작업별 기계 검토: 기준이 잘 정의된 작업—예를 들어 탈옥 시도가 성공하는지 실패하는지 결정하는 것에는 기계 검토가 정확하고 일관된 평가를 제공할 수 있습니다. 이러한 작업은 종종 이진 결과나 객관적인 기준을 포함하므로 자동화된 처리에 이상적입니다. 적용 가능한 경우, 기계 검토는 인간 개입의 필요성을 최소화하고, 대규모 데이터 세트를 처리할 수 있으며, 높은 정확도를 유지하는 "골드 스탠다드"로 작용할 수 있습니다.
사내 인간 QA: 수락된 동료 검토 제출물의 무작위로 선택된 하위 집합은 Sahara AI 팀에 의해 수동 검토를 거쳐 전체 정확도를 측정하고 저품질 또는 사기성 기여의 패턴을 식별합니다. 이 계층은 향후 검증 프로세스를 개선하기 위한 기준 역할을 합니다.
이 접근 방식의 탈중앙화 특성 때문에, 우리는 참여자가 상호 이익을 위해 저품질 제출물을 제출하고 승인할 위험을 포함하여 여러 주요 문제를 예상했습니다. 이러한 위험을 해결하기 위해 우리는 다음과 같은 안전 장치를 통합했습니다:
사전 작업 자격 퀴즈: 기여자는 작업별 지식 평가를 통과해야 하므로 관련 전문 지식을 보유한 참가자만 데이터 주석이나 검토를 할 수 있습니다.
동적 인센티브 구조: 신뢰할 수 있는 주석과 검토에 대해 더 높은 보상을 부여하고 잘못 제출된 경우 부분적이거나 영구적으로 플랫폼에서 금지하는 등의 벌칙을 적용함으로써 정확성을 우선하는 보상 메커니즘이 설계되었습니다.
작업은 복잡성에 따라 분류되었으며, 참가자는 층화된 보상 시스템을 통해 인센티브를 받았습니다:
초급 작업은 스마트 계약, dapp 개발 및 스타일링 조언(예: 최고의 데이트 복장)과 관련된 질문에 답하는 것과 같은 간단한 연구 기반 레이블링을 포함했습니다.
중급 작업은 Twitter(현재 X)에서 상위 AI 인플루언서를 파악하거나 암호화폐 투자 전략을 연구하고 이상적인 첫 데이트 선물을 선택하는 것과 같이 더 심층적인 연구를 요구했습니다.
고급 작업은 Qwen 및 LLaMA와 같은 기존 AI 모델을 탈옥하거나 AI 페르소나를 디자인하는 것과 관련되었습니다.
전문 작업은 일반 AI 모델을 탈옥하여 노골적이거나 성인 콘텐츠를 생성하는 것과 같은 보다 정교한 적군 팀 도전에 포함되었습니다.
작업의 복잡성이 높을수록 보상이 높아졌습니다. 이는 높은 난이도 작업을 완료하는 데 소요되는 추가 시간을 반영할 뿐만 아니라 보다 전문 지식을 가진 기여자에게 보상을 제공합니다. 보상은 모두 Sahara 포인트로 지급되었습니다. 수락된 데이터 포인트만 보상을 받았습니다.
초급 및 중급 작업과는 달리, 고급 및 전문 작업은 기술적 복잡성과 정확한 평가 기준의 필요성 때문에 탈중앙화된 동료 검토 대신 기계 검토를 사용하여 평가되었습니다.
주요 결과:
탈중앙화된 동료 검토가 내부 QA에서 92%의 정확도를 달성하여 그 확장성과 효과성을 입증했습니다.
연구 및 지식 기반 작업의 분석 결과, 탈중앙화된 동료 검토를 통해 수락된 데이터 포인트의 92%가 사내 품질 보증(QA) 검사를 통과했습니다. 이것은 탈중앙화된 동료 검토가 데이터 품질을 위한 효과적인 1차 필터로 작용할 수 있음을 입증하며, 적절히 인센티브가 주어질 때 기여자들은 정확한 평가를 제공하도록 동기 부여됩니다.

이 결과는 탈중앙화된 동료 검토와 보완적인 검증 메커니즘의 조합이 확장성과 품질의 균형을 이루는 시스템을 생성한다는 것을 나타냅니다. 탈중앙화된 동료 검토는 설계상 대량의 데이터를 신속하게 처리할 수 있도록 하지만, 자동화된 검토 및 인간 감독의 추가는 저품질 제출물이 최소화되도록 보장합니다. 데이터 서비스 플랫폼의 구조화된 인센티브 시스템은 참가자 행동을 고품질 아웃풋의 목표와 더욱 정렬합니다.
이 소규모 POC의 성공은 탈중앙화된 동료 검토가 전통적인 중앙 집중식 데이터 주석의 확장 가능하고 비용 효율적인 대안이 될 수 있는 가능성을 강조합니다. 비싼 중앙 집중식 QA 팀에 대한 의존도를 줄이면서 이 모델은 AI 프로젝트가 탈중앙화된 프레임워크를 통해 고품질 데이터 주석을 달성할 수 있도록 하여 확장 가능하고 분산된 AI 데이터 수집의 기반을 설정합니다.
확장성과 비용 효율성 이상으로, 시즌 1에서 탈중앙화된 동료 검토의 성공—다양한 배경과 지역의 10,000명의 참가자에 의해 지원됨—은 인터넷에 접근할 수 있는 누구나 AI 경제에 의미 있게 기여할 수 있음을 입증합니다. 이 포괄적인 모델은 위치나 전문성에 관계없이 글로벌 기여자가 데이터 주석 및 AI 개발에 참여할 수 있도록 했습니다.
간단한 연구 작업의 83%와 더 심층적인 연구 작업의 67%가 탈중앙화된 동료 검토를 통과했습니다.
시즌 1은 83%의 간단한 연구 작업 제출물과 67%의 더 심층적인 연구 작업 제출물이 탈중앙화된 동료 검토를 통과하며 연구 기반 작업에서 강력한 성과를 보여주었습니다. 이러한 작업은 기본 정보 수집에서 더 복잡한 연구 집약적 도전과제에 이르기까지 다양하며, 동료 검토 시스템의 효과성과 기여자 인센티브에 적절하게 주목받고 있음을 보여줍니다.
간단한 연구 작업(초급 작업)은 기본 정보 검색과 레이블링을 포함하며, 암호화폐에 대한 일반적인 질문에 답하거나 최상의 데이트 복장을 선택하는 일상적인 조언과 같은 일을 포함합니다. 83%의 제출물이 동료 검토를 통과하고, 사내 QA는 94%의 정확도 비율을 확인함에 따라, 높은 수용률은 주제의 접근성이 용이하기 때문일 가능성이 높습니다. 이 접근성은 공통 지식이나 주관적인 응답을 요구하여 쉽게 답하고 검토할 수 있었습니다.
더 심층적인 연구 작업(중급 작업)은 기여자가 더 철저한 조사와 비판적인 평가를 수행해야 했습니다. 예를 들어, Twitter에서 상위 AI 인플루언서를 식별하거나 효과적인 암호화폐 투자 전략을 연구하고 다양한 매개변수에 기반하여 이상적인 첫 데이트 선물을 선택하는 것입니다. 이러한 작업은 더 많은 요구를 포함하여 67%의 동료 검토 수용률로 이어졌습니다. 그러나 사내 QA는 수락된 제출물에 대해 88%의 정확도 비율을 확인하여 동료 검토 시스템이 저품질 또는 불완전한 응답을 효과적으로 식별하고 거부했음을 나타냅니다.
이 데이터는 기여자가 적절하게 인센티브를 받을 때, 그들이 더 어려운 작업을 하더라도 품질 높은 아웃풋을 지속적으로 제공한다는 것을 나타냅니다. 간단한 연구 작업은 자연스럽게 그 접근성으로 인해 높은 수용률을 얻었으며, 더 심층적인 연구 작업은 보다 엄격한 평가를 요구했지만 여전히 고품질 기여를 만들어냈습니다. 동료 검토 시스템이 저품질 제출물을 걸러내는 능력은 수락된 데이터 포인트의 정확도와 신뢰성을 유지하는데 중요합니다.
Sahara AI는 시즌 2를 위해 참여자를 100,000명으로 확장하면서 저품질 기여자를 조기에 배제하도록 주석 및 동료 검토 프로세스를 추가로 개선했습니다.
기술적이며 노동 집약적인 작업이 수용률이 10%에 불과했지만, 여전히 수만 개의 고가치 데이터 포인트를 생성했습니다.
시즌 1의 기술적이며 노동 집약적인 작업은 기여자가 매우 전문화된 작업을 수행해야 했습니다. 고급