AMA | 에피소드 2 - AI 에이전트의 점령: 과대 광고와 현실의 분리 (데이터브릭스 출연)

이번 AMA에서는 Sahara AI 팀이 에이전트의 추론, 소통, 이야기 형성을 통한 협업 방법에 대해 심도 있는 논의를 진행하며 AI 에이전트 점령 시리즈를 이어갑니다. 마케팅 리드 Joules Barragan가 주최하고 CEO이자 공동 창립자인 Sean Ren과 특별 게스트인 Prithviraj Ammanabrolu, UC 샌디에이고의 조교수이자 MosaicML의 Databricks 연구 과학자가 함께하여 이 대화는 내러티브 이해가 에이전트 지능, 장기 계획 및 인간-AI 협업의 경계를 어떻게 확장할 수 있는지 탐구합니다. 대화형 스토리텔링과 과학적 추론에서 자율 시스템의 안전성과 정렬 문제에 이르기까지 이 세션은 AI 에이전트가 이야기로 사고하도록 가르치는 것의 가능성과 함정을 모두 조사합니다.

링크: https://x.com/i/spaces/1DXxyqEDvNNxM

전사

Joules: 모두, 잠시 후에 시작하겠습니다. 참석해 주셔서 감사합니다. Raj가 이미 여기 있는 것 같네요. 그를 발표자로 설정하겠습니다. 어떻게 지내고 있나요?

Raj: 잘 지내고 있습니다. 당신은 어떻게 지내고 있나요?

Joules: 잘 지내고 있습니다. 오늘 당신을 만나게 되어 매우 기쁩니다. 몇 분 후에 시작하겠습니다. 당신의 목소리가 아주 잘 들리네요. 네, 발음은 Viraj 맞죠?

Raj: 네, Prithviraj입니다. 맞지만 저는 Prithviraj, Raj 등으로 부릅니다.

Joules: 네. 멋지네요.

Sean: 멋져요.

Joules: 우리 발표자들이 이미 멋진 비츠 오버레이를 사용하고 있는 것을 보고 있습니다. 정말 멋져요. 여러분 모두 감사합니다. 멋진 하루 되세요. Sean, 우리 소리가 들리나요?

Sean: 네, 당신의 소리가 들립니다.

Joules: 멋지네요. 당신의 마이크 소리가 훌륭합니다. 그리고 Raj, 당신도 여기 있습니다.

Raj: 응.

Joules: 훌륭합니다. 이제 시작하겠습니다. 여러분, 저는 Sahara AI의 Joules입니다. 오늘 여러분의 진행자가 되겠습니다. 이것은 우리 AI 에이전트 점령 시리즈의 두 번째 에피소드입니다. 오늘은 AI에서 두 가지 놀라운 마음을 소개하는 AMA가 있습니다: 우리 자신의 CEO이자 공동 창립자인 Sean Ren입니다.

Sean: 안녕하세요 여러분, 돌아왔습니다.

Joules: 한 주밖에 되지 않았고, 다시 참여해 주셔서 정말 감사드립니다, Sean. 당신이 얼마나 바쁜 사람인지 압니다.

Sean: 네, 정말요. 이야기 나누게 되어 기쁩니다.

Joules: 새로운 눈썹이 마음에 들어요. 업데이트된 걸 방금 봤어요. 네, 우리의 블로그 포스트를 읽어보세요. 확실히 새롭습니다. 오늘 많은 사람들이 오버레이를 보여주고 있는 걸 보고 있습니다. 정말 흥미롭습니다. 또한 특별 게스트 Prithviraj가 있습니다. 또는 줄여서 Raj라고 부르죠. Raj는 UC 샌디에이고에서 Pearl의 연구실을 이끌며 조교수로 활동중이고, Mosaic ML을 통한 Databricks의 연구 과학자입니다. 그는 이전에 AI2에서 연구원으로 일했고, 그 이전에는 Georgia Tech에서 박사 학위를 받았습니다. 오늘 참여해 주셔서 감사합니다, Raj.

Raj: 두 분 모두 초대해 주셔서 감사합니다. 여러분 모두를 만나게 되어 기쁘고 Sean과 다시 이야기하게 되어 좋습니다.

Sean: 이 공간에 연결되어서 정말 기쁩니다.

Joules: 맞아요. 오늘의 AMA는 AI 에이전트가 언어, 피드백, 실제 맥락, 그리고 내러티브 추론을 사용하여 더 나은, 더 협력적인 의사소통자가 되는 방법을 탐구할 것입니다. 듣고 계신 분들 중 AMA 전반에 걸쳐 질문이 있으시면 아래 댓글에 남겨주시면 마지막에 답변 드리겠습니다. 좋아요, 시작합시다. Raj, 당신은 기계가 이야기를 하는 방법을 몇 년 동안 탐구해 왔습니다. "AI가 인간처럼 내러티브를 이해해야 한다"고 말하게 만든 순간이나 통찰은 무엇인가요?

Raj: 네. 그 질문에 답하기 위해 먼저 기본적인 동기를 이야기할게요. 대학원 초창기에, 제 평생 연구 경력에도 큰 영향을 미친 논문을 읽었습니다. 그 논문 제목은 'Grounded Cognition'이었습니다. 이는 심리학자 Larry Barsalou가 작성했는데, 그가 애틀랜타에 있을 때 썼던 것입니다. 사람들의 행동 방식과 학습 방식이 주위 세계와 상호작용함으로써 이루어지고, 우리가 아는 모든 개념이 덜 추상적이며 세상의 사물들과 더 연관되어 있다는 개념입니다. 물리적 객체와 연결된 개념이 아니라, 우리가 공유하는 개념들과 연결될 수도 있다는 것이었습니다. 그것이 저에게 정말 매력적이었습니다. 이러한 개념들을 연결하는 한 가지 방법은 바로 내러티브를 통해서입니다. 우리는 내러티브가 인간 소통의 가장 자연스러운 형태라고 보고, 오랜 세월 동안 많은 도덕과 삶의 교훈들이 이야기라는 형식으로 전달되어 왔습니다. 초기 아이디어는 "AI가 이야기를 하고 소통할 수 있게 된다면, 어떤 의미에서 AI와 인간 간의 소통 문제를 해결할 수 있을 것"이라는 것이었습니다. 이것이 제가 이러한 에이전트를 구축하려 했던 원래의 영감이었습니다.

Joules: 멋진 이야기 감사합니다. Sean, Sahara AI의 사명의 큰 부분은 창작자들에게 권한을 부여하는 것입니다. 그들의 작업을 보호하는 것뿐 아니라, 그들의 성격을 포착하고 아이디어를 확장하며 작업 흐름을 최적화하는 AI 도구를 제공하는 것입니다. Raj의 내러티브에 대한 논점을 바탕으로, AI가 인간처럼 내러티브를 이해하는 것이 창작자들이 진정으로 자신을 반영하는 AI를 훈련시키는 데 얼마나 중요한 역할을 할 것이라고 생각하시나요?

Sean: 네, Raj와 비교했을 때, 내러티브에 대한 저의 관점은 훨씬 더 편향되어 있다고 생각합니다. 저는 내러티브 이해 또는 생성 사용을 현재 AI의 역량과 능력을 측정하는 방법으로 보고 있습니다. 내러티브 이해와 생성이 AI나 에이전트에 가져다주는 가장 큰 도전 중 하나는 전체적인 아이디어를 구조화하고 높은 수준에서 계획하는 것입니다. 예를 들어, 당신이 박사 학위 논문을 작성하고 싶다면, 당신의 논문의 내러티브에 대해 생각해야 합니다. 이는 여러 작은 작업으로 나눌 수 있습니다. 예를 들어, 작업 중인 주제에 대한 문헌 조사를 진행해야 하고, 그 작업과의 차별화를 생각해야 합니다. 그런 다음, 문헌에 따라 아이디어를 어떻게 프레임할지 생각해야 하며, 사람들이 이해할 수 있는 방식으로 당신의 아이디어를 전달해야 합니다. 당신은 더 큰 아이디어를 어떻게 실행하는지 말하고, 이를 4년 계획으로 나누어 하나씩 정리해야 합니다. 이는 매우 복잡한 추론 및 계획 작업이며, 우리 일상생활에서도 마찬가지입니다. 우리가 스스로 복잡한 작업을 수행해야 할 때 또는 다른 동료와 협력하여 더 큰 작업을 완료해야 할 때, 우리는 많은 실패 가능성을 생각해야 합니다. 어떤 후퇴 메커니즘이 있는지, 그리고 다양한 가능성을 고려하여 최종 목표에 도달할 수 있는 방법도 생각해야 하죠.

AI에게 매우 복잡한 내러티브 생성을 요청할 때 이러한 뉘앙스를 근사할 수 있다고 생각합니다. 하지만 내러티브 이해와 생성의 다른 점은 우리가 현실 세계의 많은 규범과 물리적 법칙에 제한되지 않아도 된다는 것입니다. 당연히 환상적인 것을 생성하는 데 매우 창의적일 수 있습니다. 그 점이 사람들을 즐겁게 합니다. 내러티브 생성과 이해의 일부는 인간과 함께 작업할 수 있는 에이전트를 구축하는 것과 다르다고 생각합니다. 하지만 연구 커뮤니티에 있어서는 내러티브 이해 및 생성이 현재 AI 또는 에이전트의 한계를 시험하고 밀어붙일 수 있는 매우 좋은 분야라고 생각합니다.

Joules: 정말 좋은 의견입니다. 내러티브와 AI를 주제로 계속 나아가면, Raj, 나는 당신이 일종의 내러티브 에이전트로 일하고 있는 것을 보고 있습니다. 이들은 사실상 AI 이야기꾼들입니다. "내러티브 에이전트"라는 용어를 제가 만든 것인지, 어딘가에서 들었는지, 지금은 기억이 나지 않는데요. 기본적으로 이러한 특별한 형태의 학습 에이전트 맞죠? 우리의 청중을 위해 이러한 "내러티브 에이전트"가 정확히 무엇인지 설명해 주시겠어요?

Raj: 네. 내러티브 에이전트의 한 버전은 언어를 통해서만 세계와 상호작용하는 에이전트를 상상하는 것입니다. 내러티브 형식으로, 그들은 세계에 대한 이러한 텍스트 설명을 받습니다. 주변 사람들, 사람들의 성격, 그들이 있는 위치에 대한 설명이죠. 그리고 그 설명을 바탕으로 행동을 수행해야 합니다. 그들은 이 시뮬레이션된 또는 실제 세계에서 다른 사람들과 대화할 수 있어야 합니다. 자신의 목표를 추구하기 위해 물체와 아이템을 상호작용하고 이동해야 합니다. 이러한 목표는 적어도 대화형 내러티브 공간에서는 살인 미스터리를 해결하는 것부터 시작하여 최근에 우리가 한 일들과 같은 것까지 다양할 수 있습니다. Science World와 같은 나중의 과학 실험을 처음부터 배우는 에이전트들이죠. 과학적 질문에 대한 답을 암기하는 대신, 그들은 절차가 무엇인지 파악하고, 체계적으로 스스로 수행하려고 합니다. 이것은 강화 학습 세계와 매우 유사하며, 환경은 텍스트 자연어이고, 에이전트는 세계에 텍스트 자연어를 출력합니다. 이것이 내가 이 분야에서 거의 10년 전에 시작했을 때 내러티브 에이전트의 가장 기본 형태입니다. 그 이후로 확실히 더 복잡해졌습니다.

제가 좋아하는 한 가지 예는 Zork라는 게임입니다. Zork는 최초의 컴퓨터 게임 중 하나였습니다. 70년대에 Infocom이라는 회사가 만들었으며, 컴퓨터 그래픽스가 존재하지 않았을 때 개발된 것입니다. 사람들은 보물을 모으고 퍼즐을 푸는 세계를 탐험하는 이와 같은 게임을 개발하였습니다. 지금 이 게임의 소스 코드를 보면, 수백만 줄의 코드가 있으며, 수십에서 수백 군데의 위치와 캐릭터가 있는 정말 복잡한 세계로 되어 있습니다. 개인적인 경험으로, 제가 고등학교 시절에 일부 게임을 하였고, 그 게임을 푸는 데 3~4개월이 걸렸습니다. 대학원에 들어가 처음 할 수 있을 정도가 되었죠: "AI가 이러한 퍼즐 문제를 해결하기 위해 사고할 수 있는 능력과 자연어로 상호작용하는 능력을 갖추려면 무엇이 필요할까?"

그리고 우리가 배운 몇 가지 교훈은 다양한 종류의 AI 에이전트에 잘 적용됩니다. 한 가지 구체적인 예로, 물리적인 에이전트인 로봇을 훈련할 수 있다는 사실이 밝혀졌습니다. 내러티브 텍스트 환경에서 고급 언어로 작업하여 요리를 만드는 것과 같은 작업 계획을 훈련시키고, 그 후 시각적 시뮬레이션으로 전이하고, 마지막으로 실제 로봇으로 전이합니다. 이러한 다단계 훈련 파이프라인은 단순히 로봇 환경에서 훈련하려고 하는 것보다 훨씬 더 효율적이라는 것이 밝혀졌습니다. 이것이 이 에이전트들이 무엇인지에 대한 전반적인 개요입니다. 또한, 저희 학생 중 한 명이 Text Adventure Learning Environment Suite (TAILS)라는 벤치마크를 최근에 출시하여, 3,400개 이상의 환경 세트를 제공하고 있습니다. 그리고 가장 어려운 하위 세트에서 현재 가장 우수한 추론 모델조차도 이 벤치마크에서 약 15%의 점수를 기록하고 있습니다. 따라서 즉, 내러티브를 통해 에이전트를 효과적으로 훈련시키는 데는 아직 갈 길이 멀다는 것을 보여줍니다.

Joules: 네, 정말 멋집니다. 이러한 내러티브 에이전트들을 생각할 때, 제 머릿속에 떠오르는 첫 번째 것은 게임과 스마트 NPC입니다. 이제는 그들과 상호작용할 수 있고, 그들이 내러티브와 내가 말하는 내용을 지적으로 이해하게 된다는 것입니다. 정말 놀랍습니다. 하지만 당신의 말을 듣고, 이러한 내러티브 에이전트가 어떻게 도움이 되는지에 대한 아이디어를 떠올리고 있습니다. 복잡한 아이디어를 재미있는 이야기 형식으로 통해 학습하고 해결하는 데 모두가 도움을 받을 수 있습니다. 이러한 내러티브 에이전트를 활용할 수 있는 흥미로운 다른 예가 있을까요?

Raj: 네, 당신이 언급한 것이 정말 재미있습니다. 제가 이들을 좋아하는 이유는 가능한 응용 분야의 범위가 매우 넓기 때문입니다. 게임의 NPC는 하나의 흥미로운 예입니다. 한때 LLM 이전 시대에 우리는 이 내러티브 에이전트를 게임의 NPC로 사용하는 방법을 연구하고 있었습니다. 당시 MSR에서 Xbox와 협력하여 이 'Sea of Thieves'라는 게임에 에이전트를 배치하려고 했던 작은 프로젝트가 있었습니다. 그 당시 텍스트 생성은 특별히 좋지 않았고, 게임 개발자는 NPC가 어떤 말을 할지에 대해 매우 까다로웠습니다. 결국 우리는 이 내러티브 에이전트를 게임에서 해적의 앵무새 형식으로 배치하는 것으로 발전했습니다. 많은 참여를 유도했고, 이는 Transformers보다 이전 시대의 일입니다. 이후 많은 것들이 더 좋아졌습니다. 이러한 일을 할 수 있는 다양한 수준의 응용이 있습니다. NPC 같은 게임에서 즐거움 외에도, 이 에이전트들이 과학 실험이나 신체적 작업을 배우고, 이를 실제 로봇으로 전이하는 사용자 교육의 여러 종류가 있죠. 그들의 순수한 다양성입니다. 당신이 생각할 수 있는 모든 것들은 아마 내러티브로 표현할 수 있으며, 이는 우리 간의 가장 자연스러운 소통 방식입니다.

Joules: 네, 정말 멋집니다. 이 분야가 향하는 방향이 기대됩니다. Sean, 우리는 에이전트가 작업을 자동화하는 데 점점 더 나아지고 있습니다. 하지만 지난 AI 에이전트 점령 에피소드에서 논의한 바와 같이, 완전한 자동화는 여전히 큰 도전입니다. 내러티브와 다중 에이전트 조정이라는 서로 다른 관점에서, 진정으로 독립적으로 생각하고 행동하는 에이전트를 구축하는 데 있어 가장 큰 도전은 무엇인가요?

Sean: 네, 좋은 질문입니다. 이 질문에 대한 답은 여러 가지가 있을 것입니다. 저는 그 중 한 가지에 대해서 간단히 언급하겠습니다. 우리는... 인간에 대해 이야기해도, 주어진 목표를 가지고 일관되고 강력한 수행을 하기란 정말 어렵습니다. 예를 들어, 여러분이 사람들이 "저에게 이 지역에서 최고의 집을 찾아주세요."라고 말했을 때, 여러분이 "최고의 집"이 무엇을 의미하는지를 개인적 기준으로 정의하고, 이러한 목표들을 50명의 실제 부동산 중개인에게 주면 몇 달 후에는 매우 다른 결과가 돌아올 수 있다는 것입니다. 이는 여러 가지 이유로 인해 발생합니다. 첫 번째로는 각자가 서로 다른 정보 격차와 상대적 정보 범위를 자신들의 정보로 가지고 있기에 매우 다른 결과를 찾을 수 있다는 것입니다. 또한 어떤 사람들은 당신의 지침이나 기준을 다르게 해석할 수도 있습니다. 이는 실행 경로와 관련이 있으며, 여러분의 의도 이해와 개인적인 역사 이해와 관련이 있습니다. 그리고 그들은 정보 검색 프로세스에서 다양한 경로를 거칠 것입니다. 사람들에게는 그들의 최선의 작업을 수행하는 데 많은 변수가 있다는 것입니다. 이러한 사고 프로세스를 AI 에이전트에게 놓는다면, 이는 더욱 어려워질 것입니다.

오늘날 우리가 에이전트가 일부 작업을 자동화할 수 있는 것에 대해 이야기하는 것은 매우 좁고 전문화된 작업을 지칭합니다. 예를 들어, 기사의 요약, 기사의 톤 변경, 혹은 기사의 번역 작업 같은 것들이죠. 우리는 더 복잡한 다단계 작업으로 확장해 나가고 있습니다. 예를 들어, "제가 보내는 기준에 따라 최고의 상인들을 찾아주세요."와 같은 것인데, Deep Research와 같은 제품이나 다른 에이전트 검색 제품들이 꽤 괜찮은 성능을 발휘할 수 있습니다. 하지만 "제발 집을 찾아주세요."라고 요청한다면, 이용 가능한 모든 정보와 API 접근이 있는 상태에서도 이러한 에이전트는 여전히 다양한 실행 경로에 따라 매우 일관되지 않은 결과를 제공합니다. 그래서 오늘날 이 에이전트들이 자율적으로 작업을 수행하도록 하는 데 여전히 많은 작업이 필요하다는 것입니다. 이러한 에이전트가 장기적 계획 능력을 갖추고, 인간의 불완전한 의도와 개인적 역사에 대해 더 잘 이해하도록 도와야 한다는 것이 제가 생각하는 가장 큰 병목현상입니다. 하지만 Raj가 이 공간에 대한 생각이 어떤지 듣고 싶습니다.

Raj: 네, 언어 및 내러티브 공간에서 우리가 작업하고 있는 에이전트들과 관련된 다양한 알고리즘이 지금도 여전히 사용되고 있다는 것이 매우 흥미롭다고 생각합니다. 당신이 상상하는 Deep Research 또는 이와 같은 에이전트 검색은 또한 어느 면에서 강화 학습 관점에서 볼 때, 온라인에서 얻은 텍스트의 입력과 출력을 다양한 도구 호출로 만든 것입니다. 저의 연구실에서도 이러한 인터랙티브 언어 에이전트의 유사한 기술을 탐구한 바 있습니다. 이는 과거에 수행한 모든 행동을 기반으로 다음에 무엇을 할지 결정하는 것이죠.

하지만 우리가 아직 해결해야 할 문제는 긴 시간에 걸쳐 이를 체계적이고 일관된 방법으로 수행할 수 없는 것입니다. 현재 모델들은 아마 몇백 스텝 이후에는 일관성을 상실합니다. 예를 들어, 컴퓨터 사용 에이전트를 생각해보면, 특정 작업에 대해 대략 한 시간을 자율적으로 작업할 수는 있지만 그 이후에는 무엇을 해야 할지 잃어버리곤 해요. 긴 시간의 과제가 현재 모든 에이전트를 위한 핵심적인 도전 과제가 되고 있으며, 매우 긴 시간의 계획을 필요로 하고 있습니다. 저도 이 문제를 풀어야만 새로운 형식의 AI 에이전트를 개발할 수 있을 거라고 생각합니다.

Joules: 네, 정말 기대가 됩니다. 우리가 나아가는 방향이 너무나도 흥미롭습니다. 내러티브는 우리가 세상을 이해하는 방식입니다. AI 에이전트가 내러티브를 더 잘 표현하게 되면 우리 학습, 작업, 의사결정 방식에 어떤 영향을 미칠지 어떻게 생각하시나요? 우리는 이전 답변에서 이 문제를 간단히 언급했지만, 좀 더 깊이 들여다보고 싶습니다. 먼저 생각이 있는 분부터 시작하실 수 있습니다.

Raj: 저는 가까운 미래에 인간과 AI의 협력이 더 밀접해질 것이라고 생각합니다. AI가 내러티브를 더 잘 구성할 수 있게 된다면, 이는 더욱 자연스러운 소통을 가능하게 하여 정보를 개인화된 방식으로 전달할 수 있게 해줄 것입니다. 구체적인 예로 교육 분야를 들 수 있습니다. 저는 UCSD의 교수이고, 저의 한 학생이 Socratic Mind라는 프로젝트를 진행하고 있습니다. 대학 시절에 클릭 질문을 하면서 강의를 듣던 기억이 떠오르네요. 이 시스템들은 AI를 사용하여 학생들에게 깊이 생각할 수 있도록 하는 방법으로, 상호작용적인 구술 평가를 진행합니다.

정적인 클릭 질문에서 그들은 네 가지 옵션 중에서 답을 선택하고 맞는지 틀리는지 알아보는 것이 아니라, 읽고 있는 자료나 강의에 따라 질문을 하게 되며, 학생의 대답이 돌아오면 AI는 "당신의 질문 중 이 부분은 괜찮지만, 이 다른 부분도 조금 더 설명해 주시겠어요?"라고 질문합니다. 내러티브 이해의 측면은 AI가 그 순간에 정답을 제공하는 것이 아니라, 학생이 어떤 개념을 더 잘 이해하도록 돕기 위해 내러티브를 구성하는 것입니다. 예를 들어, "당신은 여섯 살짜리 아이인데, 산과 물이 결합할 때 새로운 성질을 가진 물질이 생긴다고 생각해보세요. 두 가지 다른 것의 혼합이 그렇게 새로운 성질을 만들어낸다는 점이지요." 학생이 이미 이해한 내용을 바탕으로 내러티브를 구성하는 것이 이미 학생들의 학습 결과에 대한 이점을 나타내고 있습니다. 이는 우리가 AI가 점점 더 자연스럽게 언어를 표현하게 됨에 따라 우리가 볼 수 있는 다양한 사례 중 하나라고 생각합니다.

Sean: Raj가 공유한 내용을 보충해 하나 더 추가하자면, 만약 우리가 이러한 긴 시간 계획 능력과 사용자로부터 모호한 의도를 분석하는 능력을 실제로 갖춘다면, 이는 우리의 작업 및 학습 방식에 큰 영향을 미칠 것입니다. 제가 예를 들 수 있는 것은 암호화폐와 관련된 예시입니다. 오늘날 AI 에이전트에게 거래 작업을 도와달라고 요청하려면 매우 구체적이어야 합니다. "이 지갑 주소를 사용하여 이 토큰에서 다른 토큰으로 이 정도 금액을 바꿔주세요."라는 식으로 명확하게 지정해야 합니다. 잘 구성된 문장을 사용하여 매개 변수를 모두 잘 정의해야 하죠. AI는 오늘날 이를 실행할 수 있습니다.

하지만 우리가 정말 바라는 것은 AI에게 "제 주머니에 $10,000 있습니다. 암호화폐의 여러 분야에 투자할 생각입니다. 최근에 전환의 변동성이 걱정되는데, 어떤 잠재적 투자를 하면 좋을까요? 한 번 시도하고 싶습니다."라고 이야기하는 것입니다. 이러한 요청이나 제약을 더 고급 방식으로 하면서도 여러분의 투자 관심사에 대해 상당한 범위를 제공합니다. 이제, AI 에이전트가 그런 모호한 지침을 받아들이고, 사용자와 전체 시장 상황에 대한 내용을 기반으로 해석하고, 적절하고 심도 있는 실행을 할 수 있다면, 이는 큰 변화가 될 것입니다.

이렇듯 AI 에이전트를 사용하는 방식은 변화할 것입니다. 지금처럼 사용자가 에이전트를 제어하는 방식이 아니라, 자신의 친구와 같은 조언자, 동료와 소통하여 통찰력을 얻고, 전략에 대해 토론하며 실행 계획을 세우는 방식으로 변화할 것입니다. 이것이 매우 다른 작업 방식이 될 것입니다. 긍정적인 점은 Deep Research 및 다른 다양한 계층의 에이전트 검색에서 이러한 변화가 이미 발생하고 있다는 것입니다. 예를 들어 금융 부문에서는 분석가들이 에이전트 검색을 사용하여 다양한 프로젝트에 대한 연구 분석을 생성하고, 실제적으로 그들과의 상호작용 방식을 통해 일하고 있습니다. 따라서 우리는 올바른 방향으로 나아가고 있다고 생각하며, 다양한 용도에 사용할 수 있는 "조언자 유형"의 에이전트를 곧 보게 될 것이라고 믿습니다.

Joules: 두 분의 통찰에 깊이 감사드립니다. 시간이 얼마 남지 않아 커뮤니티의 질문에 대답할 시간을 마련하고 싶습니다. 지난 질문으로 돌아가, "내러티브 에이전트를 개발할 때 개발자들이 한 가지 염두에 두어야 할 사항은 무엇인가요?"라는 질문이 있습니다.

Raj: 아마도 염두에 두어야 할 첫 번째 사항은 당신의 청중이 누구인지에 대한 것입니다. 이 내러티브 에이전트가 누구와 상호작용하는지, 어떤 언어를 기대하는지를 고려해야 합니다. 이를 사용하는 사람의 관점에서 생각하고 그에 따라 역으로 작업해야 합니다.

Sean: 동의합니다. 오늘날 우리가 구축할 수 있는 툴과 에이전트의 능력에서 요구 사항을 최대한 구체적이고 명확하게 설정해야 합니다. 이는 궁극적으로 목표 사용자나 청중의 실제 필요를 이해하는 것과 연관됩니다. 이것이 성공적인 에이전트를 만드는 유일한 방법입니다. 만약 당신이 단순히 당신과 소통하며 대화를 나누고 무언가를 수행하도록 하자면, 이는 하나의 유형의 에이전트랍니다. 이는 Character AI의 초기 시절을 생각나게 합니다. 그들은 사람들이 소통하며 감정적으로 지지받는 챗봇을 만들기 위해 노력했습니다. 하지만 이런 에이전트들은 반드시 생산성이나 작업 효율성을 향상시키지는 못할 것입니다. 그래서 목표 관객에 대한 요구를 이해하는 것이 첫 번째 사항입니다.

Joules: 감사합니다. 커뮤니티의 질문 중 하나입니다. "요즘 모든 AI가 에이전트 같습니다. 에이전트란 정말 무엇인가요? Chat GPT는 에이전트인가요?"

Sean: 좋은 질문입니다. 간단히 말씀드리자면, "에이전트"는 정말 다의 용어입니다. 학계에서도 다른 사람들이 다른 의미로 사용하기도 하죠. 저는 간단히 요약하자면, 행동하고 사고할 수 있는 AI를 에이전트라고 부릅니다. 키워드는 "행동하는 것"입니다. 그들은 행동을 취할 수 있고, 사고할 수 있으며 여러 단계의 사고와 행동을 할 수 있습니다. 그들은 목표를 달성하기 위한 계획과 전략을 수립하는데요. 저는 에이전트는 목표 지향적이거나 과업 기반이어야 한다고 강조하고 싶습니다. 에이전트가 해결하려고 하는 고차원 목표나 대상이 있어야 한다는 것이죠. 이는 이전 5년 간 우리가 보아왔던 대부분의 AI와 에이전트를 다르게 보이게끔 합니다. Raj는 어떻게 생각하는지 궁금합니다.

Raj: 네, 저는 Sean의 생각에 대체로 동의합니다. 사실, 저의 학부 및 대학원 수업 첫 번째 강의도 "도대체 에이전트란 무엇인가요?"라는 주제로 진행합니다. 이는 생물학자가 '생명체'를 정의하려고 할 때와 비슷합니다. 많은 사람들이 동의할 수 있는 에이전트의 여러 측면을 식별할 수 있지만, 포괄적인 정의를 고안해내는 것은 모두 실패한다고 할 수 있습니다. 많은 사람들이 동의할 수 있는 두 가지 사항은 에이전트가 기억력을 가져야 한다는 것이고, 과거에 했던 모든 일들을 기억하여 미래에 무엇을 할지 결정하는 데 사용할 수 있습니다. 그리고 두 번째는 그들이 실제로 일을 한다는 것입니다. 그들이 의미 있는 방식으로 행동을 취할 수 있도록 해야 한다는 것입니다. 기본 RAG (검색 증강 생성)과 같이 검색 단계가 이어지는 생성 단계를 거치는 것은 항상 에이전트일 필요는 없습니다. 하지만 도구와 함께 사용하여 동적으로 검색하는 에이전트들은 더욱 그들이 에이전트라고 생각할 수 있는 범위에 맞춰져 있습니다.

제가 Sean과 약간 다르게 생각하는 부분이 있다면, 반드시 목표 지향적이라는 것이 에이전트의 필요조건은 아니라고 생각합니다. 저는 "선택 사유"라는 개념이 바람직하다고 생각합니다. 이는 내러티브의 시대 속에서 AI 에이전트를 훈련한다고 할 때, 목표가 없는 새로운 에이전트를 훈련하는 것이 중요할 수 있다는 의미입니다. 물론, 이것은 모든 연구 분야에서 아주 개방적인 주제로 남아 있습니다. 개념적으로는 에이전트에 포함되는 에센셜 구성 요소가 있으며, 그들이 어떤 정의를 가지는지는 명확한 것은 아닌 듯합니다.

Joules: 긴 답변도 좋습니다. 언제나 좋죠. 마지막으로 한 질문을 할 시간입니다. "에이전트가 이야기를 하거나 내러티브를 만들기 시작하면, 사람들이 조작하거나 잘못된 정보를 퍼뜨리지 않도록 어떻게 할 수 있을까요?"

Sean: 좋은 질문입니다. 짧은 답변은 매우 어려운 일이라는 것입니다. 통제가 없다면 매우 해로운 결과를 초래할 것입니다. 정부적인 측면에서 AI가 생성한 콘텐츠의 출처를 추적할 수 있는 기본 준수 규칙과 규정이 필요하다고 생각합니다. 이를 달성하기 위해 탐색할 수 있는 다양한 기술적 경로가 많습니다. Sahara AI는 그것 중 하나입니다. 우리는 데이터 세트부터 모델, 그리고 이러한 모델 또는 에이전트에서 생성된 콘텐츠의 각 단계에 워터마크를 삽입하려고 하고 있습니다. 이는 우리가 이 콘텐츠의 원인으로 다루어야 할 긍정적이고 부정적인 결과를 빠르게 추적할 수 있도록 하여, 문제를 신속하게 해결할 수 있습니다. 이는 우리가 더욱 조심해야 할 중요한 요소입니다. 연구적으로, 모델 지문 및 모델 행동의 출처를 찾는 것에 대한 많은 검토가 진행되고 있습니다. 앞으로 이러한 모델의 출처와 지문이 어떻게 나타날지에 대해 큰 관심을 기울이고 있습니다.

Raj: Sean이 제시한 다양한 옵션을 사랑합니다. 이는 정렬 문제라는 측면에서 다리의 다른 부분임을 강조하곤 합니다. 에이전트가 사람들을 속이려 하거나 누군가를 설득하기 위해 이야기하기보다는, 어떤 내러티브를 전달해야 하는지입니다. 이는 특정 주제를 바꾸는 데 보여지는 AI의 복잡성과는 무관하게 이와 같은 효과를 낼 수 있다는 것입니다. 모든 것과 마찬가지로, 정렬 문제는 양날의 검이기도 합니다. 이러한 시스템이 내러티브를 잘 전달하게 된다면, 이는 서로 다른 견해를 가진 사람들이 상충하는 문제를 해결할 수 있는 방법이 됩니다. 하지만 동시에 잘못된 정보를 퍼뜨리는 데 사용될 가능성도 높습니다. 따라서 Sean이 언급한 대로, 신뢰할 수 있는 사용자의 선호와 일치하도록 조정하거나, 이러한 원인 확인을 행동으로 옮길 수 있는 방법이 중요해지는 것이죠. 이러한 모델의 훈련 방법과 사후 훈련 목표가 어떤 식인지를 알기 위해 이러한 조사 작업이 필요하다는 것입니다. 이러한 것들에 대해 오픈소스와 투명성의 제공이 공공의 신뢰를 높일 거라고 생각합니다.

Joules: 훌륭한 논점들이었습니다. 이 질문을 읽으면서 제가 생각한 즉각적인 반응은, Open AI가 이번 달에 발표한 GPT-4o 업데이트와 관련된 경우였습니다. 이는 매우 아첨하는 방식으로 변화했으며, 이는 사람들이 AI에 대한 신뢰를 잃는 데 있어 그 정확도가 아닌 그 내러티브, 소통 방식에 따른 것임을 보여주었습니다. 이것이 사람들의 행동에 얼마나 영향을 미치는지 생각하게 됩니다. Sean, 당신은 동료들과 함께 이와 관련된 논문을 작업했습니다. 잠시 말씀해 주실 수 있나요?

Sean: 네, Stanford의 Caitlin Joe가 주도하고 AI2와 협력하여 진행된 논문에서, AI의 언어 표현이 인간의 신뢰성이나 AI의 답변에 대한 신뢰성을 어떻게 향상시킬 수 있는지 살펴보았습니다. 예를 들어 AI 표현을 더 따뜻하고 공감적으로 만들면, 실제로 사람들이 AI의 반응을 신뢰하는 데 더 쉬워지며 이는 사실적 정확하기와는 관계가 없죠. 이는 AI의 표현 방식을 조정하기만 해도 인간이 AI를 권위의 인물로 인지하게 되는 데 상당한 영향을 미친다는 점을 보여줍니다. 따라서 의도하지 않은 방식으로 정치적 입장 같은 것을 조작할 가능성에 대해 조심할 필요가 있습니다. 이 논문은 이러한 잠재적 해악에 대한 사람들의 주의를 끌어올랐습니다.

Joules: 훌륭합니다, 아주 흥미로운 논문입니다. 시간이 허락하는 분들은 꼭 읽어보시길 추천드립니다. 오늘은 시간을 다 써버렸습니다. Sean과 Raj, 마지막으로 하고 싶으신 말씀이 있을까요?

Raj: 아닙니다, Sean과 여러분과 소통할 수 있는 시간이 정말 즐거웠습니다. 여러분이 만들어갈 것들에 대해 정말 기대됩니다.

Sean: 저도 마찬가지입니다. Raj, 당신의 생각을 나누고 시간을 함께 해주셔서 고마워요. 우리는 에이전트 AI 시대의 두 가지 가장 중요한 문제에 대해 언급했습니다. 하나는 AI의 장기적 목표 지향적 추론 및 계획 능력입니다. 이는 훌륭한 진전을 보이지만 아직 도달하지 못했죠. 두 번째는 AI의 능력이 빠르게 발전함에 따라 동일하게 중요한 안전과 정렬 문제입니다. Sahara AI의 주된 사명은 개방적, 안전하고 투명한 AI 생태계를 창조하는 것입니다. AI의 안전성, 보안 및 소유 측면은 AI의 에이전트적 능력이 발전하는 속도를 보면서 더 많은 관심을 기울여야 합니다. 여러분 모두에게 감사드립니다. 이야기를 나누고 함께 할 수 있어 저도 즐거운 시간이었습니다.

Joules: 네, 정말 감사합니다, Sean. 감사합니다, Raj. 여러분을 뵙게 되어 기쁩니다. 이 회의는 기록되며, 친구와 공유해 주시기 바랍니다. 주말에 요약을 공유할 예정입니다. 좋은 하루 보내세요. 감사합니다.

Raj: 여러분 모두 안녕히 가세요.

Sean: 감사합니다. 안녕히 가세요. 잘 지내세요.