AMA | 에피소드 3 - AI 에이전트의 인수: 물리적 AI 및 로봇공학 (구성 지능 특징)
2025. 6. 4.
이번 AMA에서 우리의 마케팅 리드 Joules Barragan은 우리의 공동 창립자이자 CEO인 Sean Ren 및 KAIST의 구성 지능 공동 창립자이자 CEO 및 부교수인 Minjoon Seo와 함께합니다. 그들은 AI 에이전트의 다음 경계를 탐구하며, 이를 물리적 세계로 가져옵니다. 로봇에게 인간의 시연을 보며 배우게 하는 것부터 로봇 공학의 방대한 데이터 병목 현상을 해결하는 것까지, 그들은 개발 비용을 낮추고 데이터 소유권을 재고함으로써 진정한 범용 기계가 도래할 수 있도록 어떻게 가속할 수 있을지를 논의합니다. 양손 로봇 훈련, AI에서 온체인 출처의 역할, 또는 틈새 작업에서 가정용 동반자까지의 경로에 대해 궁금해 하신다면 이 세션은 물리적 AI를 형성하는 혁신, 도전 과제 및 생태계 변화에 대해 깊이 있게 다룹니다.
링크: https://x.com/i/broadcasts/1kvJpyaVrlPxE
전사
Joules: 안녕하세요 여러분. 우리 에이전트 테이크오버 시리즈의 세 번째 AMA에 오신 것을 환영합니다. 저는 Sahara AI의 Joules입니다. 오늘의 호스트가 되겠습니다. 이것은 우리 AI 에이전트 테이크오버 시리즈의 세 번째 에피소드입니다. 오늘은 AI의 두 놀라운 인물을 특징으로 한 흥미로운 AMA가 있습니다. 우리 CEO이자 Sahara의 공동 창립자인 Sean Ren입니다.
Sean: 안녕하세요 여러분, 다시 돌아왔습니다. 새로운 손님들과 이야기할 수 있게 되어 기쁩니다.
Joules: 네, 새로운 손님에 대해 이야기하자면, 우리는 Minjoon Seo가 있습니다. Minjoon은 Config Intelligence의 공동 창립자이자 CEO이며 KAIST의 부교수입니다. 그는 인간 조작 데이터를 활용하여 양손 로봇 모델의 개발 비용과 시간을 급격하게 줄이는 데 힘쓰고 있습니다. 그는 또한 2025년 NAACL에서 최우수 논문상을 수상했으며 2020년 AI2 지속적 영향 논문상을 수상했습니다. 오늘 참석해 주셔서 감사합니다, Minjoon.
Minjoon: 네. 초대해 주셔서 감사합니다.
Joules: 네, 언제든지. 오늘의 AMA는 AI 에이전트의 다음 큰 단계에 관한 것이며, 우리는 물리적 AI의 세계에 대해 이야기하고 로봇이 인간의 행동에서 배우는 방법을 탐구할 것입니다. 당신이 듣고 있다면 AMA 내내 질문이 있다면 댓글로 남겨 주시면 마지막에 답변해 드리겠습니다.
좋습니다, 시작해 보겠습니다. Minjoon, 당신에게서 시작하고 싶습니다. 당신은 몇 년 동안 언어 모델이 어떻게 추론하고 자신을 평가하는지를 연구해 왔습니다. 지금 당신은 사람들이 어떻게 로봇을 만드는 데 도움을 주고 있으며, 로봇이 기본적으로 인간이 움직이는 것을 보고 배우도록 돕고 있습니다. 지금 하고 있는 작업과 두 개의 세계를 결합하게 된 이유에 대해 조금 이야기해 주실 수 있습니까?
Minjoon: 네. 당신이 저와 우리 회사를 소개한 것처럼, 우리는 어떻게 개발 비용을 드라마틱하게 줄일 수 있을까에 대해 연구하고 있습니다. 그게 무슨 뜻인지 생각해 보세요. 요즘에는 많은 자금이 있는 일부 기업만이 모델을 만들거나 작업을 수행할 로봇을 만들 수 있습니다. 그 비용으로 인해 우리는 할 수 있는 일이 매우 제한적이라는 것이 정말 불행합니다. 예를 들어, 햄버거를 만드는 과정을 자동화하고 싶다고 가정해 보십시오. 이를 수행하기가 현재로서는 매우 어렵습니다. 왜냐하면 그렇게 하기 위해 몇 백만 달러 이상을 지출해야 할 수도 있기 때문입니다. 그러나 그러한 시장 규모는 많은 경우 그렇게 크지 않을 수 있습니다. 또한 실제 결과를 보기 전에 그렇게 많은 돈을 지출하고 싶지 않을 수도 있습니다.
그래서 우리는 개발 비용이 로봇 생태계를 만들고 유지하는 데 가장 큰 병목임을 보고 있습니다. 우리는 기본적으로 그것을 줄이려고 노력하고 있습니다. 만약 우리가 그것을 줄일 수 있다면, 우리는 세계가 더 빨리 로봇을 볼 것이라고 믿습니다. 그래서 그것이 우리의 가장 큰 사명입니다. 그렇게 하기 위해서 현재의 가장 큰 병목 현상은 바로 올바른 데이터를 얻는 것입니다. 왜냐하면 데이터를 얻는 것이 AI에서 가장 중요한 것이기 때문입니다. 어떻게 하면 로봇을 위해 데이터를 더 cheaply 얻을 수 있고 더 빨리 얻을 수 있는지, 그것이 지금 로봇 개발에서 가장 중요한 부분이자 현재의 가장 큰 병목입니다. 그래서 우리는 고객이 데이터를 더 cheaply 및 더 빠르게 얻고 여전히 품질을 유지하도록 도와주고 있습니다.
저는 많은 세월 동안 언어 모델에 대해 작업해 왔습니다. 동기적으로, 저는 AI를 단순히 언어에만 국한된 것이 아니라고 생각했습니다. 2009년이나 2010년으로 돌아가면, AI는 물리적 동작을 포함하는 것이었습니다. 즉, 인간이 하는 다양한 일을 수행할 수 있는 능력을 지니게 됩니다. 언어뿐만 아니라, 시각뿐만 아니라 실제 행동에 관한 것입니다. 저는 그렇게 AI를 바라보았습니다. 그래서 저는 사람들과 함께 실제로 일을 할 수 있는 시스템을 만들고 싶었습니다. 처음에는 언어를 먼저 해결해야 한다고 생각했지만, 저는 추론이 언어에서 비롯된다고 느꼈습니다.
하지만 여러분도 아시다시피, 우리는 이제 언어와 시각 모두에서 많은 발전을 보고 있습니다. 언어와 비전, 그리고 음성에서도 많이 발전하고 있습니다. 모든 것이 더 완전한 AI를 만드는 재료가 준비되고 있다고 생각합니다. 그런 AI는 단순히 언어뿐만 아니라 물리적 작업과 모든 것을 수행할 수 있습니다. 그리고 그런 것이 저의 초기 열정과 더 가까워지기를 바랍니다. 그래서 이제 우리는 기술이 있고 때가 무르익었다고 생각합니다. 그래서 최근에 로봇 작업에 매진하고 있는 이유가 그것입니다.
Joules: 네, 정말 멋집니다. Sean, Minjoon은 데이터와 물리적 AI 개발을 뒷받침할 데이터 부족에 대해 정말 좋은 점을 언급했습니다. Sahara AI에서는 데이터에 정말 집중하고 있습니다. 데이터가 AI 개발에 얼마나 중요한지에 대해 의견이 있습니까?
Sean: 네, 데이터 이상의 것을 말하고 싶습니다. 우리는 여기서 로봇에 대해 이야기하고 있습니다. 사람들이 트위터에서 소통하고 팬들과 교류하는 것을 돕기 위해 서로 상호 작용하는 가상 로봇이든, 집에서 모든 종류의 일상적이거나 반복적이거나 창의적인 작업을 수행하는 물리적 로봇이든 상관없이, 기본적인 문제는 로봇, 즉 에이전트가 사용 사례와의 상호 작용방식에 맞게 개인화되어야 한다는 것입니다. 로봇이 당신의 작업의 공동 조종사가 되어 생산성을 높이는 시스템이 되거나, 아니면 당신과 상호 작용하고 당신을 오락해주고 더 만족감을 주는 개인 친구가 되는 것입니다.
어쨌든 이들은 당신이 에이전트에게 전달할 내부 정보를 많이 소화해야 하며, 또는 에이전트는 당신의 생활 환경, 즉 당신이 대화하는 사람, 다른 사람과 어떤 이야기를 나눴는지, 그리고 모든 과거의 맥락에 익숙해져야 합니다. 이 모든 데이터는 매우 개인적이며 종종 매우 기밀입니다. Open AI가 수억 명의 사용자로부터 모든 이러한 데이터에 접근할 수 있다고 상상해보십시오. 그렇다면 프라이버시 문제와 이러한 데이터의 소유권 및 잠재적인 수익화 권리에 대한 큰 문제가 발생합니다. 이 두 가지 문제가 있다면 매우 두려운 상황이 될 것입니다.
Open AI가 실제로 수억 명의 사람들의 개인 대화와 생활 상황을 모두 학습해 보신다면, 다음 세대의 AI는 기본적으로 모두를 이해하고 있을 것입니다. 당신이 본 공상 과학 영화와 같은 것입니다. 그 시점에서 인간은 자신의 개인 데이터에 대한 프라이버시와 저작권 및 제어에 대해 어떻게 느껴야 하는지에 대한 질문을 하고 있습니다. 저는 이것이 데이터 소유자와 모델 또는 에이전트 소유자, 그리고 데이터 소비자와 모델 소비자 및 개발자 간의 관계를 재정립하도록 새로운 패러다임을 요구하는 근본적인 질문이라고 생각합니다.
그래서 이는 Sahara AI가 목표로 삼아야 하는 핵심 문제입니다. AI를 더욱 능력 있고 유능하게 만드는 데 대한 큰 집중과는 무관하게, 이러한 문제도 매우 중요합니다. 그러나 최근에는 많은 사람들이 AI가 훨씬 더 유능하고 능력 있게 되기를 고집하고 있어, 만약 언젠가 이 AI가 당신의 이메일, 대화, 문자 메시지에서 모든 것을 알게 된다면, 그리고 당신이 전혀 알지 못하는 뒤에서 어떤 일을 하는 것이 걱정됩니다. Sahara AI가 추진하고 있는 것은 실제로 진정한 AI 기반 미래를 믿는 것입니다. 우리는 모두 자신의 에이전트를 사용하여 창의적인 아이디어를 실현하고 다른 사람을 더 생산적이고 행복하게 만들 수 있습니다. 그러나 그 과정에서 AI의 보호가 없고 데이터가 다운스트림 프로세스에서 어떻게 사용되었는지에 대한 투명성이 없다면, 그것은 정말 걱정스러운 일입니다.
Joules: 네, 매우 이해됩니다. 투명성, 출처 및 소유권에 대해 이야기하시니, 특히 우리가 이야기하는 이 AI 기반 미래에 대해 이야기할 때 블록체인 공간에서 많은 토론이 있었습니다. 기계 간의 경제가 발전하여 로봇, 심지어 자율주행차가 자체 암호화폐 지갑을 갖게 된다면요. 그들은 수행한 서비스로 수익을 올리고, 서비스에 대해 지불하며, 연료를 주입하거나 차량을 조정하고, 본질적으로 일정 수준의 자율성을 갖고 작동할 수 있습니다. 그것이 현실적인 미래라고 생각하십니까? 그렇다면 우리가 실제로 그곳에 도달하기 위해 무엇이 기술적으로 또는 법적으로 필요합니까?
Minjoon: 네, 사실 정말 흥미로운 질문입니다. Sean이 말했듯이 다양한 종류의 에이전트가 있지만, 결국 모든 것이 연결되기를 원합니다. 로봇을 위한 에이전트의 추상 계층이 작동할 계획과 추론을 할 것으로 생각합니다. 그래서 모두 연결되어 있습니다. 기본적으로 이러한 로봇들이 우리에게 오거나 실제로 우리 주위에 있게 되는 타임라인이 무엇인지 궁금합니다. 현재로서는 Chat GPT나 다른 AI와는 달리 그들을 볼 수 없기 때문입니다. 그리고 여기서의 가장 큰 병목현상은 실제로 로봇을 위한 데이터 생태계가 없다는 것입니다. 이는 언어 모델이나 다른 종류의 AI와는 매우 다릅니다. 그들은 실제로 인터넷 데이터를 기반으로 구축되어 있습니다. 그래서 이러한 데이터는 모든 사용자로부터 찾아온 것입니다, 맞죠? 단일 사용자나 단일 업체가 생성하는 것이 아닙니다. Google은 그 데이터를 소유하지 않습니다. Open AI도 그 데이터를 소유하지 않습니다. 데이터는 사용자로부터 제공됩니다. 그리고 그 사용자는 오랫동안 인터넷에서 자신이 보유한 귀중한 데이터를 기꺼이 공유할 것에 대해 동의했습니다—예를 들어, 코드, 논문—이들은 우리가 이야기하는 가장 높은 품질의 데이터입니다. 혹은 Reddit 게시물도 마찬가지입니다. 그들은 단지 인터넷에서 공유하기로 동의했습니다. 그리고 많은 회사들이 이러한 데이터를 활용하고 모델을 교육하는 데 이를 사용할 수 있었습니다.
그래서 사람들이 "오, 데이터는 무료이고, GPU는 무료가 아니고, 인간도 무료가 아니기 때문에 GPU와 인간에 돈을 써야 한다"고 생각할 수도 있습니다. 하지만 생태계가 없다면 그건 사실이 아닙니다. 로봇이 예를 들어, 그런 생태계가 없었습니다. 그래서 다른 사람들이 생성하거나 공유한 데이터가 없습니다. 단순히 나눠지지 않았기 때문만이 아니라, 실제로 로봇이 만들어야만 하는 데이터가 존재하지도 않기 때문입니다. 그 데이터는 규모에서 존재하지 않으니까요. 그래서 이 생태계가 어떻게 올 것인지 잘 모르겠습니다. 아마 많은 플레이어가 필요할 것 같고, Sahara와 같은 회사도 이 분야에서 적극적으로 활동해야 한다고 생각합니다. 물론 그 과정을 가속화하고 싶습니다.
그러나 사람들과 참여자들이 많이 필요할 것이며 이 생태계를 정말로 창출하기 위해 많은 사용자들이 필요할 것입니다. 그리고 그 생태계는 세계의 인터넷에 축적되는 데이터의 양이 특정 양을 초과해야 합니다. 그래야 Chat GPT처럼 로봇에 대해 훈련할 수 있는 모델이 생겨날 수 있습니다. 그래서 물리적 AI 분야의 많은 다른 회사들이 움직임이 정말 곧 올 것이라고 생각하는 것과는 달리, 저는 생태계 데이터의 부족으로 인해 그게 매우 어렵다고 생각합니다. 그 두 가지는 함께 가야 실제로 도달할 수 있습니다.
더 구체적으로 말해, 정말로 일반 목적의 로봇이 나타나기까지는 적어도 5년에서 10년은 걸릴 것이라고 생각합니다. 하지만 그렇다고 해서 우리 주변에 로봇이 나타나지 않을 것이라는 의미는 아닙니다. 저는 매우 작업 특정 작업으로 появ할 것이라고 생각합니다. Sean의 말을 빌리자면, 개인화될 것입니다. 처음에는 우리에게 더 많은 로봇과 이 생태계의 더 많은 플레이어가 필요합니다. 하지만 그 생태계가 충분히 커지면 인류 전체, 문명 전체가 실제로 진정한 범용 로봇을 만드는 기회를 가질 수 있다고 생각합니다.
Sean: 네, Minjoon의 말을 덧붙인다면, 저는 적어도 두 가지 유형의 에이전트를 미래에 볼 수 있다고 생각합니다. 첫 번째 유형의 에이전트는 개인을 대표하며 가상적 또는 물리적 세계에서 소유자를 위해 24/7 활동을 수행하는 프록시와 같습니다. 그리고 저는 더 목표 지향적인 에이전트의 다른 유형을 봅니다. 예를 들어, 이미 많은 기관들이 다양한 DEX와 거래소에서 수익 기회를 포착하려고 배치한 암호 시장의 기존 에이전트가 있습니다. 저는 미래에 우리가 매우 작업 특정적이고 목표 지향적인 에이전트로 둘러싸일 것이라고 생각합니다.
저는 또한 집에서 가정용으로 작동하는 자율 진공 청소기의 예를 생각해 보았습니다. 그들은 집을 돌아다니며 카메라를 사용하여 집의 모든 사진을 촬영한 후 중앙 서버로 전송합니다. 따라서 그 회사는 아마도 수십만 가구의 모습과 그 안에 있는 반려동물까지 모두 알고 있을 것입니다. 따라서 적절한 준수와 규제가 없다면 이는 무섭습니다. 하지만 이러한 일은 이미 지금 일어나고 있습니다.
제가 가장 우려하는 점은 이러한 에이전트들이 실수할 경우 그 비용에 누가 책임을 지느냐는 것입니다. 자율 주행 차량에 대해서도 생각해볼 수 있습니다. 그들은 도로에서 운행되고 있습니다. 제가 살고 있는 로스앤젤레스에서는 Waymo 차량 수백 대가 도로에서 지금 운행되고 있습니다. 그리고 그들이 매우 잘하고 있다는 것을 알고 있습니다. 제가 알고 있기로는 그 차량 뒤에는 실제 차량을 운영하는 사람들이 있습니다. 그들은 완전히 자율적이지 않습니다. 하지만 언젠가는 그들이 꽤 자율적일 수 있습니다. 그리고 그들이 차량 사고를 일으킨다면 누가 그에 대한 책임을 질까요? 저에게는 그런 낮은 수준의 질문들이지만 아주 높은 위험을 지닌 질문들이 해결되어야만 이러한 에이전트를 작동시키는 것이 정말 어렵습니다. 우리는 Twitter에서 사람들의 기분에 영향을 미치는 게시글을 올라오는 여러 봇을 많이 보죠. 그것들은 사람의 생명에 대한 영향을 주지 않지만, 사실상 기분에는 영향을 줄 수 있습니다. 저는 사람들이 이 질문의 뉘앙스를 이해할 수 있도록 여러 가지 예를 주고 싶었습니다.
Joules: 우리는 데이터에 대해 많은 이야기를 해왔습니다. Minjoon, 당신은 최근에 인간 시연 비디오를 사용하여 로봇을 훈련하는 방법에 대한 연구를 진행했죠? 대규모 비슷한 동영상, 비록 약하게 라벨링 된 인간 시연 비디오에서 학습하는 방법을 제안하신 것 같기도 한데요. 그에 대해 조금 이야기해 주실 수 있나요? 그것을 가능하게 한 가장 큰 돌파구는 무엇이었나요?
Minjoon: 네, 그래서 그것은 사실 우리가 작년 NVIDIA 및 Microsoft와 협력한 작업입니다. 그 작업의 이름은 실제로 잠재적 행동 사전 훈련(Latent Action Pre-training, LAPA)입니다. 그 작업은 우리가 인간 데이터를 활용할 수 있는 방법에 대해 주로 초점을 맞추고 있습니다. 우리는 인간 시연으로부터 로봇을 훈련하고 싶지만, 전통적으로 그것은 매우 어렵습니다. 왜냐하면 인간 시연은 당연히 입력인 비디오가 있지만, 인간 손의 정확한 좌표와 같은 출력을 갖고 있지 않기 때문입니다. 그리고 그럼에도 불구하고 인간 손과 로봇 손은 다릅니다. 따라서 이들은 쉽게 변환할 수 없습니다. 그것이 병목 현상이었습니다.
따라서 이 기술은 로봇을 훈련하기 위해 인간 데이터를 활용할 수 있는 방법에 관한 것이었습니다. 우리는 인간 데이터를 로봇 데이터만큼 효과적일 수 있다는 것을 실제로 보여줄 수 있었습니다. 이는 매우 의미가 있습니다. 왜냐하면 인간 데이터를 얻는 것이 로봇 데이터를 얻는 것보다 훨씬 쉽기 때문입니다. 로봇 데이터를 얻으려면 로봇을 가지고 있어야 하며, 많은 사람들이 로봇을 가지고 있지 않기 때문입니다. 그러나 정말 중요한 것은 물리적 노동의 지식이 알고리즘의 오프라인 자산이라고 우리는 생각했습니다. 당신이 목수라고 가정할 때, 당신이 무언가를 할 때 당신의 작동 시연은 본질적으로 당신의 지식이기도 합니다. 어느 정도는, 비록 그것을 특허할 수는 없지만, 가치 있는 지식입니다. 그리고 기본적으로 우리가 생각했던 것은 인간이 그렇게 할 수 있다는 것입니다. 그러나 그것을 원형 데이터 그대로 활용하는 것은 실제로 매우 어렵습니다.
그래서 우리는 그것을 연결할 수 있을까? 로봇이 인간 데이터를 활용하여 더 쉽게 시연을 활용할 수 있도록 만들 수 있을까? 그렇게 된다면 장기적으로 많은 사람들이 생산하는 데이터를 더욱 많이 활용하여 가치를 창출할 수 있을 것입니다. 우리는 초기 결과에서 인간 데이터가 로봇 데이터만큼 좋다는 것을 보여주었습니다. 지금 우리 회사는 인간 데이터를 보다 쉽게, 보다 정확하게 활용할 수 있는 방법을 확장하고 있습니다. 이는 이 발전을 이루는 데 매우 중요한 부분이라고 생각합니다.
Joules: 좋습니다, Sean. 우리는 또한 개발자들이 필요한 데이터를 더 쉽게 얻을 수 있도록 돕기 위해 여러 가지 방법을 연구하고 있습니다. 특히 Minjoon이 이야기하는 맞춤형 데이터와 관련하여요. 그것에 대해 이야기하고 싶으신가요?
Sean: 네. Minjoon이 방금 설명한 작업을 정말 좋아합니다. 모든 사람들에게 좀 더 맥락을 제공하자면, Sahara AI에는 데이터 서비스 플랫폼이 있습니다. 그것은 사람들이 들어와서, 수요 측 또는 다른 사용자가 어떤 데이터 프로젝트를 찾고 있는지 탐색하도록 돕는 탈중앙화된 플랫폼이며, 다양한 유형의 데이터 수집 작업에 참여하면서 데이터셋의 공동 소유자가 될 수 있도록 합니다. 당신은 결국 데이터셋의 소유권과 함께 데이터셋에 대한 노력에 대해 보상, 인센티브 및 직접적인 지급을 받을 수 있습니다. 이는 Scale AI와 같은 구식 모델에 비해 혁신적인 방법입니다.
그래서 이는 사람들로 하여금 참여하도록 유도하고 데이터를 수집하고 레이블을 달도록 돕는 유기적 연결성이 있습니다. 또한 우리가 그렇게 설명한 Minjoon의 로봇 데이터와 밀접한 연관성이 있습니다. 저는 오늘 제 USC 교수 친구와 점심 회의에서 이와 유사한 문제를 설명하고 있었습니다. Google과 Nvidia와 같은 회사들이 로봇 데이터를 수집하기 위해 많은 노력을 기울이고 있습니다. 그들은 이러한 작은 로봇 수백 대를 구매하며, 이러한 작은 로봇은 진정한 인간이 매우 통제된 실험실 실험에서 수동으로 운영되고 기록하는 방식으로 작동해야 합니다. 이들은 최상의 품질과 사용 가능한 데이터입니다.
그러나 명백히 규모가 문제입니다. 너무 많은 비디오 작업을 하루에 수행할 수 있는 로봇의 수가 제한됩니다. 그래서 우리는 실제로 성과를 거두기 위해 수백만 대의 로봇을 실제로 배치하고 아마추어들이 그들과 함께 작업하도록 내버려두는 것은 비용 비효율적일 수 있습니다. 그래서 저는 Minjoon이 설명한 것처럼 매우 중요한 미래라고 생각합니다. 만약 인간의 자아 중심적 데이터를 수집하여 동등한 품질의 데이터를 얻는 돌파구가 이뤄진다면—당신이 주방에서 요리하고 당신의 손이 나이프와 모든 재료를 어떻게 작동시키며 오믈렛을 만드는지를 보여주고, 이 데이터를 통해 로봇 학습 프로세스를 지원하는 대규모로 인간 운영 데이터를 얻는 것이 가능해진다면—그것은 로봇 학습 커뮤니티 전체에 매우 큰 돌파구가 될 것입니다.
이 기술이 준비되었다면, Sahara의 데이터 서비스 플랫폼이 가져올 수 있는 것은 수천 명의 데이터 서비스 제공자로부터 수집된 인간 자아 중심의 데이터를 연결할 수 있는 것입니다. 이는 모든 사람에게 자신이 하는 일을 촬영할 수 있는, 자신의 코드에 넣을 수 있는 방법을 제공할 수 있습니다. 더 잘하기 위해 말이죠. 예를 들어, 자신의 휴대폰을 특정 장치, 즉 자신의 이마 위에 올려두고, 자신이 무엇이든 하는 비디오 클립을 제공하는 것입니다. 이를테면 반려동물을 기르는 작업 같은 것들 말이죠. 이렇게 하면 우리는 로봇 학습 과정에 수백만 시간의 인간 운영 데이터를 얻을 수 있습니다. 우리는 얼마나 먼 거리에 있는지 잘 모르겠습니다. Minjoon, 당신은 이것이 5~10년이라고 언급했습니다. 저는 더 빨리 오기를 바랍니다. 그러나 현재 우리는 그 기술을 수용하고 다음 세대의 로봇 학습을 가능하게 할 준비가 되어 있다고 느낌니다.
Minjoon: 네, 당신이 말씀하신 것처럼, 만약 생태계가 저보다 빠르게 창출될 수 있다면 그것은 확실히 더 빨리 올 수 있을 것입니다. 실제로 짧아질 것이라고 생각합니다. 만약 생태계가 정말 빠르게 만들어질 수 있다면요.
Joules: 네, 정말 멋진데요. 당신은 물리적 AI의 세상에 항상 있는 것은 아니었죠. 저는 당신의 과거 연구가 지금의 물리적 AI 세계를 어떻게 생각하는 데 어떤 식으로 영향을 미쳤는지 궁금합니다.
Minjoon: 네. 제가 언어 및 비전 분야의 연구자로서 얻은 가장 큰 교훈 중 하나는 AI가 어떻게 훈련되는지는 데이터에 크게 의존해 있다는 것입니다. 물론 모두가 모델이 데이터를 의존한다는 것을 알지만, 그것은 데이터에만 의존하는 것이 아닙니다. 모델의 전체 기능은 데이터에 의해 정의됩니다. 이는 전통적인 머신러닝이나 전통적 AI 철학과는 다즈입니다. 물론 데이터는 중요하지만, 많은 경우에는 모델 아키텍처와 같은 다른 요소들도 중요합니다. 그러나 제 시각에서 보면, 모델의 아키텍처는 오히려 용기일 뿐입니다. 모델의 동작이나 성능을 형성하는 것이 아닙니다. 용기가 충분히 커야 정보가 충분할 수 있지만, 그 자체가 능력이 있는 것은 아닙니다. 데이터가 모델의 동작을 정의합니다.
만약 우리는 100% 데이터 중심 모델을 믿는다면, 그렇다면 언어 모델이든 물리적 AI든 우리가 달성하고자 하는 AI가 무엇이든, 진정으로 중요한 것은 입력과 출력을 어떻게 정의하느냐, 그리고 그들에 대한 수가 얼마나 많은가입니다. 높은 품질의 입력-출력 커플입니다. 여기서 높은 품질은 당신이 가진 데이터가 실제로 공급하기 위한 입력 유형을 모두 포함할 수 있는지를 의미합니다. 또한 출력이 진정으로 원하는 것인지도 고려해야 합니다. 출력이 입력과 잘 맞는지 여부죠.
사실 그것은 품질에 관한 것이고, 우리가 이에 동의한다면 물리적 AI 문제에 접근하는 데 모두가 단순히 언어 모델과는 다른 문제가 아니라는 것을 이해하게 될 것입니다. input-output 쌍이 있어야 한다는 것입니다. 물리적 AI를 위해서 입력은 비전과 언어가 될 것입니다. 비전이 실제 상황을 볼 수 있어야 하고, 언어는 지침을 제공할 것입니다. 그리고 출력은 정확한 행동이 될 것입니다. 행동은 또한 위치의 시퀀스로 정의될 수 있습니다. 만약 당신이 행동을 정의하고 싶다면, 그것은 정말로 당신의 손이 어디에 있는지, 또는 로봇의 손이 어디에 있는지를 궁극적으로 참조하는 것입니다.
그렇다면 입력-출력 관계를 정의할 수 있다면 물리적 AI는 단지 데이터와 가능한 한 적은 인간 개입으로 훈련될 수 있습니다. 그것이 가능하다면 그러면 항상 초점은 데이터에 있어야 합니다. 언어 및 비전 연구의 초기에서 배운 이 교훈은 우리가 해결하고자 하는 문제와는 불가지론적입니다. 그것은 단지 입력과 출력을 정의하는 것이며, 이를 통해 실제로 데이터를 모델화할 수 있는 충분한 데이터를 보유하고 있는지 여부와 관련이 있습니다.
Joules: 좋습니다. 우리는 시간에 가까워지고 있으므로 질문할 시간이 있기를 바랍니다. 마지막으로 Minjoon과 Sean에게 몇 가지 질문을 더 드리겠습니다. 물리적 AI에 입문하려는 사람에게 어떤 조언을 주고 싶습니까?
Minjoon: 저는 그것이 물리적 AI의 어떤 부분을 하고 싶은지에 따라 달라진다고 생각합니다. 현재 우리는 우리 자신의 로봇 하드웨어를 개발하지 않고 있습니다. 우리는 다른 사람의 하드웨어를 사용하고 있습니다. 왜냐하면 이 로봇을 개발하는 데 많은 비용이 들기 때문입니다. 따라서 많은 자본과 하드웨어가 어떻게 작동하는지에 대한 많은 전문 지식이 필요합니다. 물리적 AI라고 할 때는 여러 부품이 있습니다. 그러므로 제가 질문할 첫 번째 질문은 우리가 물리적 AI에서 어떤 부분에 집중하려고 하느냐는 것입니다.
우리가 하려는 일은 주로 소프트웨어 계층에 초점을 맞추고 있습니다. 그러나 그렇다고 해서 우리가 하드웨어 지식이 필요 없다는 것은 아닙니다. 왜냐하면 우리는 많은 하드웨어를 많이 사용하고 있기 때문이죠. 그래서 물리적 AI를 시작하려는 사람에게는, 저도 시작했던 중요한 교훈이 될 것입니다. 중요한 것은 많은 재료의 리드 타임을 주의해야 한다는 것입니다. 소프트웨어만 사용하는 산업과는 매우 다릅니다. 소프트웨어 산업에서 AI 사람들이 더 빨리 일을 할 수 있습니다. 다운로드하거나 웹에서 가져오기만 하면 되니까요.
그러나 하드웨어가 개입되면 주문해야 하고, 제작해야하며, 만들어야 하므로 리드 타임이 발생합니다. 그리고 그 리드 타임이 축적되면 매우 길어질 수 있습니다. 예를 들어, 만약 정말 훌륭한 아이디어가 있다면 소프트웨어만 프로젝트에서는 즉시 시작할 수 있습니다. 하지만 물리적 AI에서는 훌륭한 아이디어가 있다면 다른 부품을 주문해야 합니다. 그리고 그 부품들은 아마 한두 달 후에야 올 것입니다. 그러고 나서 그 부품들을 가지고 개발을 시작하게 되는데, 그러고 나서 발견한 것이 어떤 부품에서는 설계 변경이 필요하다는 것입니다. 그러면 설계를 변경하기 위해 또 한두 달이 더 걸릴 것입니다. 시간은 그냥 빨리 지나가겠죠.
특히 소프트웨어 측에만 회사를 시작하는 사람들에게, 저는 개인적으로 하드웨어를 다루는 것의 가장 중요한 교훈이었습니다. 그래서 그 점이 중요합니다.
하지만 하드웨어 측에서 오고 AI를 시도하는 사람들이라면, 가장 중요한 것은 전통적인 로봇 접근방식과 AI 기반 또는 데이터 기반 로봇 간의 차이점을 구분하는 것이라고 생각합니다. 그들은 언어 문제를 해결하는 방식과 매우 유사합니다. 저 또한 언어학에 중점을 두었던 경향이 있었지만, 그 기본적으로 "아, 우리는 훌륭한 언어 모델을 만들기 위해서는 언어 자체에 대한 지식이 필요하다"고 믿었으나, 요즘은 그렇지 않습니다. 우리는 버전이 무엇인지, 대명사가 무엇인지 알 필요 없이 언어 모델을 구축할 수 있습니다. 단지 좋은 데이터가 있는 데이터 주도 방법이 필요한 것입니다.
그래서 로봇 접근 방식에도 동일한 교훈을 적용할 수 있습니다. 질문은: 우리는 훌륭한 모델을 만들기 위해 로봇의 모든 부분에 대한 지식을 알고 있어야 할까요? 그것이 확실히 도움이 되겠지만, 우리는 그렇게 안 해야 합니다. 데이터 기반 방식을 취하고 싶다면 너무 도메인에 국한되는 경우는 발생해서 개발자가 방법을 발명하려고 할 위험이 있죠. 그렇지만 진짜 중요한 것은 방법을 발명하는 것이 아니라 모델을 교육하는 것입니다. 이는 매우 다릅니다. 발명인가요, 아니면 교육인가요? 저는 솔직히 많은 경우 AI는 발명이 아니라 교육과 관련이 있다고 생각합니다. 그래서 이런 철학이 매우 중요합니다.
Joules: 좋습니다. Sean, 그거 외에 추가할 점은 무엇인가요? Sahara AI가 이 공간에서 일하는 빌더를 지원할 수 있는 방법에 대해요?
Sean: 네, 확실히. 오늘 회의와 대화의 핵심은 데이터였습니다. 이는 우리의 가장 큰 추진력 중 하나에 완벽하게 부합합니다. AI를 위한 유용한 데이터 주위에 생태계를 부트스트랩하는 것을 실제로 돕기 위해 사용자에게 인센티브를 제공하면서 그들이 적절한 소유권을 가질 수 있도록 지속적으로 수익화하고 이점도 얻을 수 있도록 하는 것입니다.
물리적 AI의 맥락에서, 저는 모든 사람들이 자신이 소유한 모든 종류의 장치를 사용하여 로봇과 물리적 AI 에이전트를 훈련시키는 데 유용한 데이터를 생성하고, 또한 그 데이터가 나중에 기업이나 다른 개인들 의해 수익화될 때 이점을 얻기를 바랍니다. 그리고 그 데이터 서비스 플랫폼이 그렇게 하는 방법은 확실히 로드맵에도 포함되어 있습니다.
또한 물리적 AI는 가상적 또는 소프트웨어 구성 요소가 없다는 것이 아닙니다. 우리 Sahar에는 이제 사람들에게 매우 간단한 UX/UI로 에이전트를 구축할 수 있는 방법을 제공할 예정입니다. 동시에 자신의 에이전트에 대한 소유권을 주장하고 메타데이터를 체인에 등록할 수 있습니다. 이는 향후 출시 예정인 중요한 단계입니다. 개인화된 AI가 되려면 개인을 이해하는 가상적 중심이 필요합니다. 그래서 이러한 에이전트 제작자들이 매우 중요하겠죠. 개인 사용자의 데이터베이스에 접근할 수 있는 기억과 연결성도 있거든요. 기대해 주세요. 에이전트 제작자와 등록 프로세스에 대한 더 많은 발표를 할 예정입니다.
Joules: 훌륭합니다, 감사합니다 Sean. 청중으로부터 몇 가지 질문이 있습니다. 첫 번째 질문: 더 강력한 에이전트가 더 많은 책임을 의미하는 경우, 실제 세계와 상호작용하는 AI를 설계할 때 연구자와 제작자가 주의해야 할 점은 무엇인가요?
Minjoon: 네, 정말 좋은 질문입니다. 이는 소프트웨어 세계에 있는 에이전트들이 물리적 세계와 연결되는 것과 관련이 있습니다. 소프트웨어의 에이전트가 물리적 세계와 상호작용할 때, 이는 우리가 잠재적 위험에 더 많이 노출된다는 것을 의미합니다. 왜냐하면 이것은 그냥 소프트웨어가 아니라, 해를 끼치거나 의도하지 않은 기능을 수행할 수 있는 로봇을 가지고 있기 때문입니다. 따라서 언어 모델과 마찬가지로 우리는 오작동에 주의해야 합니다. 하지만 그 기준은 높아집니다.
그것이 아마도 이러한 모델을 개발하는 데 있어 가장 큰 병목일 것입니다. 우리는 어떤 실수, 특히 누군가를 다치게 할 수 있는 실수를 원하지 않습니다. 그래서 우리는 로봇이 처음으로... 저는 다른 의견들이 있을 것이라고 생각합니다. 우리는 가정에서 로봇을 더 먼저 볼 것인가, 아니면 공장에서 볼 것인가? 물론 공장에는 이미 로봇이 있습니다. 하지만 인간형의 로봇에 대해 이야기하는 것입니다. 그리고 그것에 대한 질문에 대한 대답은 정말 어렵습니다. 그러나 안전성 측면에서 보면, 공장에서는 로봇을 보다 접근이 완전히 분리된 상태에서 운영할 수 있어, 무언가 생긴다 해도 인간에게 해를 끼치지 않습니다. 집에서는 아마도 훨씬 가벼운 로봇이나 약한 로봇이 필요할 것이고, 만약 그것들이 고장 나더라도 사람을 다치게 하지 않을 것입니다. 로봇 청소기처럼요. 그 로봇들이 돌아다니면서 사람을 치기도 하지만, 그 자체로 걱정스럽지 않습니다. 왜냐하면 그치지 않기 때문입니다. 따라서 우리는 로봇을 만들 때, 심지어 그것이 잘못될 경우에도 해를 끼치지 않거나 큰 문제가 되지 않도록 해야 합니다. 아마도 그 조치가 첫 번째로 중요한 일입니다. 그러나 그렇게 로봇을 제한한다면 우리가 할 수 있는 일이 그만큼 줄어들 것입니다. 로봇이 점점 더 안전해질수록 그들은 더 많은 능력을 지닌 로봇이 될 것입니다.
Joules: 커뮤니티에서 또 다른 질문이 있습니다: 데이터, 환경 또는 아키텍처 중에서 에이전트를 훈련시키는 데 더 중요한 것은 무엇일까요? 특히 물리적 AI와 관련하여요.
Minjoon: 아키텍처라고 한다면 아마도 모델 아키텍처일 것입니다. 솔직히 말씀드리면, 아키텍처가 절대적인 의미에서 중요하지 않다고 말할 수는 없습니다. 우리는 만약 신경망이나 변형기가 발견되지 않았다면 이런 발전을 보지 못했을 것이라고 생각합니다. 그래서 아키텍처는 확실히 중요합니다. 하지만 다음 질문은 많은 다른 아키텍처가 필요하냐는 것입니다. 제 생각에 답은 아니오입니다. 왜냐하면 만약 누군가 정말 좋은 아키텍처를 발견하고 그것이 오픈 소스로 공개된다면, 대부분의 경우 새 아키텍처를 만들 필요가 없기 때문입니다. 그래서 데이터 및 환경으로 초점이 바뀌게 됩니다. 제가 말한 것처럼, 아키텍처는 단지 용기입니다. 그러나 그것이 능력을 곧바로 의미하지는 않습니다. 오히려 큰 상한선, 높은 상한선에 가까운게죠. 그래서 저는 데이터가 중요하다고 생각합니다. 이미 우수한 아키텍처가 있다면요.
Sean: 네, 동의합니다. 이는 자동차의 예에서 생각하는 것과 비슷합니다. 차량 엔진이 업그레이드되면 좋죠. 차가 훨씬 더 빨리 달릴 수 있기 때문에요. 하지만 항상 연료가 필요합니다. 그리고 그것이 바로 데이터입니다. 우리는 계속 연료를 공급해야 플랫폼이 작동하는 것이죠. 그리고 AI에게 무엇이든 가스가 없다면 즉 그것을 실제 사용할 수 없습니다. 그저 주차되어 있을 뿐이니까요. 아키텍처에 대한 매우 유효한 점입니다.
Joules: 네, 매우 유효한 지적입니다. 질문을 보고 있자면, 두 손을 사용하는 로봇 교육에서 가장 과소평가된 도전 과제는 무엇인지 궁금합니다. Minjoon.
Minjoon: 과소평가된 도전 과제. 정말 좋은 질문입니다. "과소평가된 도전 과제"라고 하니깐요. 그럼 명백한 도전 과제가 있을 테고, 과소평가된 문제가 있을 것입니다. 그런데 저로서는 정말 얼마나 많은 데이터가 필요한지가 과소평가된 주요 문제라고 생각합니다. 우리가 다루고 있는 양은 우리가 많은 사람들이 깨닫는 것보다 훨씬 더 높습니다. 왜냐하면 단순한 픽 앤 플레이스를 생각해 보세요. 무엇인가를 집어 올리고 다른 곳에 놓는 것이죠. 그런 종류의 작업을 수행하기 위해서는 많은 데이터가 필요하지 않을 수 있습니다. 그러나 인간은 실제로 그들의 손으로 많은 일을 합니다. 그리고 정말 중요한 것은 동작 자체가 아니라는 것입니다. 동작은 단지 출력일 뿐이죠. 언어에서 모든 출력은 단지 토큰입니다. 영어에는 30,000개의 단어가 존재합니다. 이렇게 따지면 그게 복잡해 보입니다. 단지 30,000개의 토큰 중 올바른 것을 선택해야 하는 것입니다.
정말로 중요한 것은 어떤 지능이 필요하며, 그 시퀀스의 토큰을 출력할 것입니다. 그리고 우리가 모델에서 배우는 것이 바로 그 것입니다. 그리고 모든 이 데이터가 동일하게 작용한다는 것입니다. 물론 인간의 동작도 중요하지만, 우리는 입력-출력 쌍을 갖고 한 지능을 도입해야 하는 것입니다. 여기서 출력은 위치입니다. 네, 그러나 우리가 배우고 있는 기본적이고 잠재적인 것들은 지능입니다. 이를 배우려면 저는 실제로 많은 데이터가 필요하다고 생각합니다. 그리고 이는 과소평가된 부분이라고 생각합니다. 사람들은 양손 데이터를 단순히 컵 모양에 따라 접근하는 거라고 생각할 수 있지만, 물론 그것도 포함되지만, 상호작용 자체에 대한 문제만이 아닙니다. 정말 중요한 것은 물리적 작업을 수행하기 위해 뒤에 있는 다양한 추론입니다. 그래서 저는 이 부분이 현재 분야에서 비교적 과소평가된 도전 과제라고 생각합니다.
Joules: 네, 정말 흥미롭네요. 우리는 시간에 맞춰 진행하고 있습니다. 마지막 의견이 있으신가요? 나가기 전에 하실 말씀이나 공유하실 내용이 있나요?
Sean: 네, 제가 짧게 얘기하겠습니다. 최종 줄을 Minjoon에게 남기고 싶습니다. 오늘 우리는 매달 흥미로운 제품 출시를 많이 준비하고 있으니 기댈 부분도 많습니다. 제가 방금 말씀드린 내용은 체인에 등록된 에이전트를 구축 및 등록할 수 있는 방법에 대한 것입니다. 이는 향후 투명하고 감사 가능한 소유권을 태도로 두는 중요한 단계입니다. 저는 개인적으로 이 큰 발전에 무척 흥미롭게 생각합니다. Minjoon?
Minjoon: 네. Sean이 말씀하신 것처럼 모든 사람이 생산한 데이터는 여러분이 지금 추적하지 않고 있습니다. 그러나 모든 사람은 매일, 자신의 일상적인 작업을 수행하면서 모든 것을 생성하고 있습니다. 우유를 따르거나 요리를 하거나 손으로 무엇이든 하는 일을 하는 것에 대한 가치가 매우 중요하며 이러한 데이터는 모든 사람에게 매우 가치가 있습니다. 그러나 그 가치는 실제로 수집되지 않고 있습니다. 그러므로 이는 미래에 가장 중요한 것이라고 생각합니다. 물론, 이를 위해서는 많은 레이어가 필요하지만, 단지 기술 문제만이 아니라 생태계와 커뮤니티가 필요하다는 것입니다. 그래서 우리는 기술적인 부분을 지원할 수 있는 회사가 되어야 한다고 생각합니다. 그리고 Sahara는 커뮤니티 부분인 생태계를 제공할 수 있는 기업이 되기를 희망합니다. 우리의 뉴스에 대해서는, Sean이 말한 것과 마찬가지로 제품 MVP를 준비하고 있습니다. 우리는 여전히 스텔스 모드에 있기 때문에 웹사이트에서 그렇게 많은 정보를 드릴 것은 없지만, 사람들이 로봇 모델을 개발하는 플랫폼을 구축하기 위한 서비스는 올해 3분기에 출시하기 위해 노력하고 있습니다. 곧 좋은 소식을 전할 계획이니 기대해 주시길 바랍니다.
Joules: 좋습니다. Minjoon이 와주셔서 대단히 감사합니다. 오늘도 함께 호스트를 해주신 Sean Ren님께도 감사드립니다. 우리의 대화가 새로운 아이디어를 불러일으켰다면 반드시 우리의 소셜 채널에서 최신 정보를 확인해 보시기 바랍니다. Sahara AI, Minjoon 팔로우하시고 다음 번에 뵙겠습니다. 감사합니다, 여러분.