AMA | 第3集 - 人工智能代理的接管:物理人工智能与机器人技术(特色配置智能)
2025年6月4日
在本次AMA中,我们的市场负责人 Joules Barragan 将与我们的联合创始人兼首席执行官 Sean Ren 以及Config Intelligence的联合创始人兼首席执行官以及KAIST的副教授 Minjoon Seo 一同出席。一起,他们探索了人工智能代理的下一个前沿,将其带入物理世界。从教机器人通过观察人类示范学习,到解决机器人技术中的大数据瓶颈,他们讨论了降低开发成本和重新思考数据所有权如何能加速真正通用机器的到来。无论您对双手机器人训练感到好奇,还是对区块链来源在人工智能中的作用,亦或是从小众任务到家庭伴侣的道路感兴趣,这节会议深入探讨了塑造物理人工智能的突破、挑战和生态系统变迁。
链接:https://x.com/i/broadcasts/1kvJpyaVrlPxE
逐字稿
Joules:大家好,欢迎来到我们的第三场AMA,正如我们代理接管系列中的一次。我是Joules,来自 Sahara AI。今天我将是您的主持人。这是我们人工智能代理接管系列的第三集。我们今天迎来了两位在人工智能领域的杰出头脑,正是我们自己的首席执行官兼联合创始人Sean Ren。
Sean:大家好,我回来了。很高兴能和一些新嘉宾聊天。
Joules:是的,说到新嘉宾,我们有Minjoon Seo。他是Config Intelligence的联合创始人和首席执行官,以及KAIST的副教授。他正在努力通过利用人类操作数据,显著减少开发双手机器人模型的成本和时间。他还是2025年NAACL最佳论文奖的获奖者,以及2020年AI2持久影响论文奖的获得者。感谢您今天加入我们,Minjoon。
Minjoon:好的,感谢您邀请我参加这次活动。
Joules:是的,随时欢迎。那么,今天的AMA将全力探索人工智能代理的下一个重大步骤,我们将深入探讨物理人工智能的世界以及机器人如何从人类行为中学习。如果您在AMA过程中有任何问题,请在评论中留言,我们将在最后回答。
好的,让我们开始吧。Minjoon,我想从您开始。您花了多年时间研究语言模型如何推理和自我评估。现在,您正在帮助人们建立基本上通过观察人类移动来学习的机器人。您能谈谈您目前的工作以及是什么激励您将这两个领域结合起来的吗?
Minjoon:好的。正如您介绍的,我和我们的公司正在研究如何从根本上降低模型开发的成本。这意味着,如果您考虑现在,只有少数拥有大量资金的公司才能创建模型或制作机器人来完成任务。我认为这是非常不幸的,因为价格昂贵,我们能做的事情非常有限。例如,假设您想要自动化汉堡制作。现在真的很难做到,因为您可能需要花费数百万美元,甚至更多来做到这一点。但市场规模在许多情况下可能并不大。同时,在实际看到一些结果之前,您可能也不愿意花费那么多钱。
所以我们看到,开发成本是创造机器人生态系统的最大瓶颈。我们基本上在努力降低这一点。如果我们能减少这一点,我们认为世界将很快看到我们周围的机器人。所以这就是我们最重要的使命。为了实现这一目标,目前最大的瓶颈实际上是获取合适的数据,因为显然数据是人工智能中最重要的东西。我们如何以更便宜和更快的方式为机器人获取数据,这确实是开发机器人的最大瓶颈。所以我们在帮助客户解决这个问题,教他们如何更便宜、更快地获取数据,同时仍然保持质量。
我在语言模型方面工作了很多年。在动机方面,我认为人工智能不仅仅是与语言相关的事情。更像是,如果我们回到2009年或2010年,人工智能实际上是关于包含物理运动的。它能够与人类进行不同的互动。不仅仅是语言,也不仅仅是视觉,而是实际的动作。我认为这是我对人工智能的看法。所以我一直想创建一个能够实际执行人类正在做的事情的系统,就像机器人一样。但最初,我认为语言必须首先解决,或者必须首先处理才能实现这一目标。我觉得推理实质上是源于语言。
但正如大家所知道的,我们现在看到语言和视觉方面的许多进展。语言和视觉都在快速发展,语音也是如此。因此,我认为这些要素正在准备,制作一个不仅能够处理语言,还能执行物理任务等所有事情的完整人工智能的时间到了。我认为这更接近我早期的激情。因此,我认为有技术,现在时机已成熟,可以在这一领域开展工作。这就是我最近关注机器人的最大原因。
Joules:是的,这很酷。Sean,Minjoon提到了一个非常好的观点,关于数据以及缺乏数据来真正支持许多物理人工智能的发展。我知道在Sahara AI,我们非常注重数据。我想知道您对数据在人工智能开发中的重要性是否有什么评论。
Sean:是的,我想超越数据本身。我们在讨论的是机器人,无论是与人类在Twitter上互动的虚拟机器人,试图帮助主人回复并与粉丝互动,还是我们谈论的是实际在您家中坐着、为您做各种日常、重复或创造性工作的物理机器人。在任何情况下,根本性的问题是,机器人和代理必须根据您的用例和您与之互动的方式进行个性化。要么它成为您工作的副驾驶,提升您的生产力,要么它成为一个与您互动、娱乐您并让您感到更充实的个人朋友。
在任何情况下,他们都需要消化您内部的许多信息,而您将其外部化以告知代理,或者代理必须熟悉您的生活环境,比如您与谁对话以及您与其他人讨论了什么,以及所有历史背景。我认为所有这些数据都是高度个人的,并且往往非常敏感。想象一下,如果Open AI可以访问数亿用户的所有这些数据。这将引发关于隐私的巨大问题,还有另一个关于所有权和潜在货币化权利的巨大问题。如果您面临这两个问题,情况就会变得非常可怕。
如果您考虑Open AI实际上学习数亿人所有个人对话和生活情况,那么他们可能会尝试推出另一代人工智能,基本上了解每个人,就像您看到的那些科幻电影一样。到那个阶段,我非常担心人类应该如何看待他们的隐私,以及他们如何看待自己的版权和对个人数据的控制。我认为这根本要求我们建立数据所有者与模型或代理所有者之间,以及数据和模型的消费者与模型开发者之间关系的新范式。
因此,这就是Sahara AI研究的核心问题,完全独立于将人工智能变得更强大、更高效的巨大关注。我认为这两者同样重要。但显然,现在人们对于推动人工智能变得更有能力和更有效的热情远超过思考如果有一天这种人工智能了解到您所有的电子邮件、对话和短信并在您完全不知情的情况下做出某些事情的后果,我认为推动Sahara AI的发展是为了真正利用这一点。我们都相信这个以人工智能驱动的未来,在那里我们每个人都可以使用我们的代理来实现我们的创造性想法,同时让其他人更有效率和更快乐。但是在这个过程中,如果没有对您的人工智能的保护,或者如果没有透明度来说明您的数据在下游过程中的使用,那么情况就令人担忧了。
Joules:是的,这很有道理。您让我想到了某些事情,关于透明度、来源和所有权,尤其是在我们所讨论的这个以人工智能驱动的未来。区块链领域已经讨论了很久的机器对机器经济的未来,您可以拥有机器人,甚至是自驾车,它们将拥有自己的加密货币钱包。它们可以通过执行服务获得收入,为填充油料、调校车辆等服务付费,并在某种程度上自行操作。您认为这是一个现实的未来吗?如果是这样的话,技术上或法律上需要发生什么事情才能使我们真正到达那里?
Minjoon:是的,实际上这是一个非常有趣的问题。正如Sean所说,代理有不同的类型,但我认为最终我们希望一切都相互连接。即使对于机器人,我认为有一个摘要层的代理用于规划和推理。所以我认为它们都是相互连接的。基本上,这些机器人的到来或实际上在我们身边的时间表是什么?因为显然,我们现在并没有如Chat GPT或其他人工智能一样看到它们。我认为这里最大的瓶颈实际上是缺乏机器人数据的生态系统。这与语言模型或其他类型的人工智能有很大不同,因为那些实际上是基于互联网数据构建的。这些数据来自所有用户。数据不是由单个用户或者单个公司创建的。谷歌不拥有那些数据,Open AI也不拥有那些数据。这些数据来自用户。而且这些用户出于感激,与世界共享他们宝贵的数据已经很多年了,比如代码、论文,这些都是我们所谈论的高质量数据。甚至是Reddit帖子。他们只是偶然同意将这些数据分享到互联网上。这些公司可以利用这些数据进行模型训练。
所以人们可能认为,"哦,数据是免费的,GPU是不免费的,人类也不是免费的,所以我们必须花钱在GPU和人类身上。"但在没有这样的生态系统时,情况并非如此。例如,在机器人技术方面,根本没有这样的生态系统。因此,没有数据出现在其他人创造或共享中。不只是没有共享;甚至根本没有创建,因为它必须通过目前并不存在的机器人来创造。因此,我不知道这个生态系统会怎样形成。我认为它可能需要许多参与者,也可能需要像Sahara这样的公司来在此领域发挥作用。当然,我们也希望加速这一过程。
但我认为这里将需要很多公司参与,以及许多用户,才能真正创造出这个生态系统。这个生态系统必须增长,以便数据的积累量超过某个数量,以便进行训练的模型可以在其上做一些类似于机器人Chat GPT的事情。因此,与许多在物理人工智能领域的其他公司认为进展将很快的观点不同,我认为由于缺乏生态系统数据,这真的很困难。我们必须实际创造生态系统。而这两者必须结合在一起才能实现。
更具体地说,我认为要看到真正的通用机器人,至少需要五到十年。但这并不意味着我们不会在周围看到机器人。我认为它们将非常特定于任务,借用Sean的说法,它们将是个性化的。我认为我们需要那一阶段,以便能够有更多的机器人和更多的参与者加入这个生态系统。但当该生态系统增长到足够大的时候,我认为整个人类作为一个整体,也就是整个文明才能够创造真正的通用机器人。
Sean:是的,补充一下Minjoon所说的,我认为未来至少可以看到这两种类型的代理。一种代理基本上是代表个体的,比如说一个代理在虚拟或物理世界中运行24/7,为所有者做事情。另一种代理则更具目标导向。例如,目前已经存在的一些代理是在加密市场上,由这些机构部署,试图捕捉不同DEX和交易所的收益机会。我认为,将来我们已经被任务特定、以目标为导向的代理所包围。
我甚至在想那些在我家的自主吸尘器。它们会在家中四处移动,使用相机拍摄整个房子的照片,然后将其发送到中央服务器。因此,该公司可能知道数十万人的房子是什么样的,甚至知道家里的宠物和一切。如果您考虑这一点而没有适当的合规和监管,这很可怕。但我认为这一切已经发生了。
我想我最大的担忧是,如果这些代理犯了错误,谁应对此承担责任?我们甚至可以考虑自主驾驶汽车。它们会在街道上行驶。在洛杉矶,我所在的城市,现在有成百上千的Waymo汽车在街道上运行。它们运行得相当不错。我也知道在幕后有人正在操作这些车辆;它们并不完全自主。但有一天,它们可能会非常自主。如果它们造成了车祸,谁要对这承担责任?我认为在我们解决这些低层但非常关键的问题之前,很难让这些代理开始运行。我们可能会有一些非常低风险的代理在运行。例如在Twitter上,您会看到一些机器人基本上在发布内容。可以说这些是低风险的代理,因为它们并不直接威胁他人的生命,但说实话,它们对人们的情绪也会产生影响。我只是想提出几个例子,让人们意识到这个问题的细微之处。
Joules:所以我们一直在讨论数据。Minjoon,您最近开发了一种使用人类示范视频训练机器人的方法,对吗?我相信您甚至提出了一种方法来从大规模的、未标注的或甚至弱标注的人类示范视频中学习。您能谈谈这方面吗?能够实现这一点的最大突破是什么?
Minjoon:是的,这项工作实际上是我们去年与Nvidia和Microsoft合作的。该工作的名称实际上是潜在动作预训练(LAPA)。这项工作主要集中在如何利用人类数据。我们想通过人类示范来训练机器人,但传统上这非常困难,因为人类示范有输入,即视频,但没有输出,即人类手的确切坐标。即便如此,人类的手和机器人的手也不同,因此它们并不能轻易转换。这就是瓶颈。
因此,这项技术确实是关于我们如何利用人类数据来训练机器人。我们能够证明,人类数据与机器人数据同样有效。这是非常重要的,因为获取人类数据比获取机器人数据容易得多。如果您想获取机器人数据,您需要有机器人,而很多人并没有机器人。然而,我们认为重要的是,物理劳动中的知识,假设您是一个木匠。它体现在您的数据中,您完成某件事情的示范在某种意义上也是您的知识产权,尽管很难为其申请专利或获得报酬。但是,这确实是非常重要的知识。而且基本上,我们认为人类可以创造这些知识。但很难以原始形式加以利用,因为它是人类数据。
所以我们想知道,能否通过连接使机器人利用人类数据,从而更容易利用示范?如果可以做到这一点,从长期来看,这可能意味着我们能够更广泛地利用人们自己产生的数据,将其变成价值。我们已经在早期结果中显示,这与机器人数据一样优秀。因此,我们的公司正在拓展这一点。我们如何更轻松、更准确地利用人类数据?我们真的认为这是推动进步的重要组成部分。
Joules:好的,Sean,我知道我们正在努力使开发者更容易获取所需的数据,尤其是在Minjoon所谈论的关于一些较特殊{




