AMA | 第2集 - AI代理人接管:将炒作与现实区分开来(Featuring Databricks)
2025年5月28日
在这个AMA中,沙哈拉人工智能团队继续进行人工智能代理接管系列,深入探讨代理如何通过叙事进行推理、沟通和合作。由市场营销主管Joules Barragan主持,首席执行官兼联合创始人Sean Ren及特邀嘉宾Prithviraj Ammanabrolu,加州大学圣地亚哥分校的助理教授和通过MosaicML在Databricks的研究科学家参与,这场对话探讨了叙事理解如何推动代理智能、长期规划以及人机协作的边界。 从互动故事讲述和科学推理,到自主系统的安全性和对齐挑战,本次会议既探讨了教授人工智能代理通过故事进行思考的潜力,又探讨了相关的陷阱。
链接:https://x.com/i/spaces/1DXxyqEDvNNxM
文字记录
Joules:好了,大家,我们将在几分钟后开始。感谢你们的参与。我看到Raj已经在这里了。让我们为他设置为发言人。你过得怎么样?
Raj:很好,你呢?
Joules:很不错。很高兴你今天能来。我们会在几分钟后开始。我能听到你说得很清楚。是的,发音是Viraj,对吧?
Raj:是的,我叫Prithviraj。是的,但我用Prithviraj,Raj,随便。
Joules:好的。太棒了。
Sean:酷。
Joules:我看到很多我们的发言人已经在使用我们酷炫的小叠加。太棒了。非常感谢大家。大家好,欢迎Sean,你能听到我们吗?
Sean:是的,我能听到你。
Joules:太棒了。你的麦克风声音很好。Raj,你也在这里。
Raj:是的。
Joules:很好。让我们开始吧。大家好。我是Joules,来自Sahara AI。今天我将是你们的主持人。这是我们人工智能代理接管系列的第二集。我们今天有一个激动人心的AMA,邀请到两位杰出的人工智能头脑:我们自己的Sean Ren,Sahara AI的首席执行官和联合创始人。
Sean:嘿,大家,我回来了。
Joules:是的,自你上次AMA以来,才过去一周。非常感谢你再次加入,Sean。我知道你是一个非常繁忙的人。
Sean:是的,当然。很高兴能聊天。
Joules:我喜欢你的新眉毛。我刚看到更新。是的,阅读我们的博客文章。绝对是新的。我看到很多人今天展示这些叠加,真的很兴奋,太酷了。我们还有我们的特邀嘉宾Prithviraj,简称Raj。Raj是加州大学圣地亚哥分校的助理教授,领导Pearl实验室,并且是通过Mosaic ML在Databricks的研究科学家。他之前是AI2的研究员,之前在乔治亚理工大学获得博士学位。感谢你今天加入我们,Raj。
Raj:感谢你们的邀请。很高兴见到你们,Sean,欢迎回来。
Sean:很高兴能加入这个空间。
Joules:是的。所以今天的AMA将探讨人工智能代理如何使用语言、反馈、现实世界背景和叙事推理来成为更好、更具协作性的沟通者。如果你在听,并且在整个AMA中有任何问题,请在下面的评论中提问,我们将在最后回答。好了,让我们开始。Raj,你花了几年时间探索机器讲故事。这一刻或者洞察到什么令你真的意识到,"哇,人工智能需要像人类一样理解叙事"?
Raj:是的。为了回答这个问题,我要稍微退一步,谈论一下潜在的动机。很早在研究生阶段,我读到了一篇对我一生的研究生涯产生了重要影响的论文。那篇论文叫《扎根认知》。作者是一位名叫Larry Barsalou的心理学家,他在亚特兰大艾默里大学时写的。这一概念是人们做事、学习的方式是通过与周围世界的互动,而我们所了解到的所有概念都不是那么抽象,而是更多地与现实世界中的事物相关联。并不仅仅是将一个概念与物理对象相联系,而是可以与我们之间共享的概念建立关联。这让我十分着迷。其中一种将这些概念联系在一起的方式是通过叙事来实现的。我们认为叙事是人类沟通最自然的形式,毕竟很久以来,许多道德观、生活经验都是以故事、神话的形式来叙述的。这是一个原始的想法。"哦,如果我们能让人工智能讲故事,能够进行交流,那么在某种程度上,故事将解决人工智能和人类之间的沟通问题。"这就是让我尝试构建这些代理的最初灵感。
Joules:太棒了,非常感谢。Sean,沙哈拉AI的使命很大一部分也是关于授权创作者,不仅仅是保护他们的工作,而是通过给予他们人工智能工具来捕捉他们的个性、扩展他们的想法以及优化他们的工作流程。基于Raj关于叙事的观点,你认为人工智能能够像人类一样理解叙事在帮助创作者训练出真正反映他们身份的人工智能方面有多重要?
Sean:是的,与Raj相比,我对叙事的看法更为片面。我更倾向于将叙事理解或生成作为衡量当前人工智能能力和能力的一种方式。我认为叙事理解和生成给人工智能或代理带来的最大挑战是高层次的整体规划和整体构思。例如,如果你想为你的博士学位写一个论文大纲,你需要考虑论文的叙事。这可以分解为许多更小的任务,例如你需要对你所研究的一些主题进行文献综述,你需要对这些工作进行对比并找出差异。然后你需要考虑如何通过将你的想法与文献中的所有内容进行定位。之后,以人们能够理解的方式讲述你的想法。你需要告诉人们如何实现这些更大理论,分解为四年计划,并逐一构建这些任务。这是一个非常复杂的推理和规划任务,就像我们在现实生活中一样。当我们独自工作时需要解决复杂任务,或者在与其他同事互动以完成更大任务时,我们必须考虑许多失败模式和后备机制,以便达到最终目标。
我认为当你要求人工智能生成非常复杂的叙事时,这些细微差别可以近似。但叙事理解和生成的不同之处在于,你不必受限于我们现实生活中的诸多规范甚至物理法则。你可以非常有创意地生成幻想或者一些现实中不存在的东西。这正是让人们感到娱乐的地方。因此,我认为叙事生成和理解的一些部分与生成可以与人类在现实生活中合作的代理是不同的。但从某种程度上,我认为对于研究界来说,叙事理解和生成是一个很好的领域,我们可以真正测试并推动当前人工智能或代理的极限,并看看他们的表现如何。
Joules:是的,真的很好的观点。继续讲述关于叙事与人工智能的话题,Raj,你曾参与过的工作,我喜欢称之为叙事代理,因为它们确实是这些人工智能讲述者。我不知道我是否自己造出了“叙事代理”这个词,或者在某处读到过它,我现在记不起来。但基本上它们是特殊类型的学习代理,对吧?你能给我们的观众解释一下这些“叙事代理”究竟是什么吗?
Raj:是的。所以我想象的叙事代理之一是想象一个代理仅通过语言与世界互动。以叙事的形式,他们接收世界的文本描述——周围人的描述、角色的描述、他们所处地点的描述。然后,根据这些描述,他们必须执行一个动作。他们必须能够与这个模拟或现实世界中的其他人交谈。他们必须能够与对象互动并移动物品,通常为了追求自己的目标。这些目标,至少在互动叙事的背景下,可能会从解决一起谋杀悬案——你在角色扮演这种侦探——到最近我们所做的一些事情,比如科学世界,其中代理试图从基本原理中学习如何进行科学实验。因此,与其记住科学问题的答案,他们试图 figure out出什么程序,然后系统性地自己完成。 这与强化学习世界非常相似,其中环境是文本自然语言,代理也向世界输出文本自然语言。这是我刚开始入驻该领域时这些代理的最基本形式,距今已有近10年的时间了。在这之后,其复杂性已经大大增加。
我喜欢用一个例子,这是一款名为Zork的游戏。Zork是最早的计算机游戏之一,由Infocom公司开发,早在70年代,计算机图形和其他东西还没有出现。人们开发了这些游戏,玩家需要在一个世界中四处游走,收集宝藏并解决难题。因为始于70年代,这些游戏相当复杂,之后人们不断地将其改进。在现在的一些游戏源代码中,它们有数百万行代码,且它们的世界极其复杂,包含数十到数百个地点、角色等等。作为旁白,我在高中时玩过一些这样的游戏。我花费三到四个月时间才能独自解决其中一款游戏。因此,这就是我在研究生期间首次尝试的事情:“好吧,人工智能要具备推理能力和在自然语言中互动以解决这些难题,需具备什么条件?”
事实证明,在这途中我们学到的一些经验对很多不同类型的人工智能代理也非常适用。所以一个具体的例子是,对于具身代理——例如一些机器人等等——你实际上可以在这类叙事文本环境中训练机器人,在这里你教它们如何以高级语言计划做一些事情,比如在一个完全基于文本的环境中做一个食谱,非常快速且易于进行计算机模拟,再转移到视觉模拟,再到现实世界中的机器人。这样的多阶段训练流程在计算上证明比仅在机器人环境中训练它们高效得多。这就是这些代理的整体高级概述,它们的某些下游直接影响是什么,以及为什么我非常喜欢将它们用作测试平台以研究自然语言。我也应该提到,我最近的一名学生发布了一个基准测试,称为文本冒险学习环境套件(TAILS),我们有一套3400多个这样的环境。事实证明,在最难的子集上,即使是目前最佳的推理模型也仅获得大约15%的分数。因此,它清楚地显示了在能够发展出能够有效推理的代理方面还有很长的路要走。
Joules:是的,真的很酷。当我想到这些叙事代理时,我首先想到的就是游戏和聪明的NPC,我终终于能够与之互动,他们将理解叙事和我在智力上的交流。我觉得这真的很棒。但仅仅听到你谈论这些,我还在思考这些叙事代理能以其他方式发挥作用,甚至帮助人们通过有趣的故事讲述复杂的思想。你能想到是否还有其他有趣的例子来说明这些叙事代理的使用方式?
Raj:是的,你提到的这个事情真的很有趣。我喜欢这些代理,因为它们有如此广泛的应用可能性。游戏中的NPC是一个有趣的版本。一段时间前,在LLM前时代,我们正在研究如何利用这些叙事代理作为游戏中的NPC。我们曾做过一个小项目。当时我在MSR,我们与Xbox合作,试图在一款名为《海盗之海》的游戏中放置一个代理。当时,文本生成并不是特别好。而且游戏开发者对于他们让NPC说什么非常挑剔。因此,最终我们将这个叙事代理部署成了游戏中的一只海盗的鹦鹉。它获得了大量参与,这早于Transformer出现之前。在此之后,事情改善了许多。可以应用很多层级。一切从那些娱乐方面的NPC到这些代理学习如何进行科学实验和具身任务,并转移到真实机器人上。因此,它的多功能性是纯粹的。你想到的任何事情,可能都可以用叙事的方式表达出来,这是我们之间非常自然的沟通方式。
Joules:是的,太酷了。我对这个领域的前景感到非常兴奋。我确实有个问题想问Sean。我们看到代理在自动化任务上变得更好,对吗?但正如我们在上次AI代理接管的节目中讨论的,完全自动化仍然是一个巨大的挑战。从你不同的视角来看——叙事,多代理协调——在构建真正能够独立思考和行动的代理方面,最大挑战是什么?
Sean:是的,这是个好问题。我相信这个问题会有很多答案。我可能只会提及其中一个。我认为我们谈论到……即使对人类来说,很难用给定的目标进行非常一致和强大的执行。假设你告诉人们:“嘿,帮我找到这个地区最好的房子”,甚至可以根据个人标准定义你所说的“最好的房子”。你将这些目标交给50个不同的房地产代理,几个月后他们可能会给出相当不同的结果。我认为这有多个原因。首先,每个人都有不同的信息缺口和相对范围的信息。他们为你找出的结果可能会有所不同。尤其是,他们可能对你的指示或标准的解释相对不同。这个待办事项,就像意图理解、理解你的人物个性和过往历史一样。他们会有不同的执行路径,如何寻找信息,如何将一条信息逐步深入挖掘,从而找到最终结果。我想这种现象在尽可能做到自己工作时很常见。如果我们将这些思考问题归结到人工智能代理上,这对代理来说更加困难。
今天,当我们谈论代理能够自动化某些任务时,我们实际上是指非常窄和专业化的任务。例如,进行一篇文章的摘要,改变文章的语气,或进行文章的翻译。我们正在在朝着更复杂的多步骤任务进步中取得显著的进展。例如,“根据我发送的一些标准为我找出最好的商家。”类似Deep Research或一些其他代理搜索产品的产品可以做得相当不错。但如果你真正要求它们执行诸如“为我找到房子”这一类任务,考虑到所有可用信息和API访问,我认为这些代理依然会根据其执行路径给出相对不一致的结果。因此,我认为,如今在考虑如何将这些代理自主、独立地执行任务时,我们还有很多工作要做,赋予这些代理长期规划的能力,并帮助他们更好地对齐和理解人类所未详述的意图和个人历史。因此,这就是今天最大的瓶颈。但我非常期待听到Raj对此领域的看法。
Raj:是的,我认为我们在语言与叙事空间中所操作的很多代理以及最初为使用这些代理开发的很多算法,实际上现在仍在使用。你可以想象像Deep Research这样的代理搜索你想象的内容,在某种程度上也与强化学习的视角非常相似,你输入一些来自互联网的文本,而输出是这个特定代理必须以参数进行的各种工具调用。我实验室的一些研究已经探索了一些类似的技术,比如这些互动语义代理执行带参数的某些动作。如“从桌子上拿起刀”非常像“拿起”的函数调用。结果证明,这两者在强化学习角度都映射到相同的基础马尔科夫决策过程(Markov decision process)。
但我认为你是对的,我们之所以还没有达到这个水平,是因为尚未以非常稳定的方式进行长时间的规划。我们现在的模型通常在大约几百步后会失去连贯性。例如,如果你在想想某个电脑使用的代理,他们可能在某些任务中能够进行约一个小时的自主工作,然后失去对所做事的跟踪。因此,长时间的运行是一个必须解决的问题。这也是我当初对此类互动叙事产生浓厚兴趣的核心原因,因为早期的任何信息都可能在之后的某种瓶颈变得非常相关。这对各种代理都是如此。深度研究代理,很多科学家现在使用它来帮助{




