AMA | 第1集 - 人工智能代理的接管:区分炒作与现实(Featuring AG2)
2025年5月20日
在这场AMA中,我们启动了AI代理接管系列,探讨了这个领域中最重要的问题之一:在AI代理方面,什么是炒作,什么是真实的?由我们的市场负责人 Joules Barragan 主持,并与 Sahara AI 的首席执行官兼联合创始人 Sean Ren 以及 Chi Wang、AG2 创始人和 Google DeepMind 研究员一起,我们深入探讨开源代理框架的未来、去中心化AI在所有权和归属中的作用,以及构建真正自主系统的挑战。无论您是早期开发者还是正在塑造前沿的研究人员,本次会议将探讨突破、障碍和塑造代理AI生态系统的机会。
链接: https://x.com/i/spaces/1eaKbWYmEOYGX
记录
Joules:大家好。我是 Joules,来自 Sahara AI。我将是您的主持人。今天我们有一场令人兴奋的AMA,邀请了两位AI领域的杰出思想者。我们的 Sean Ren,Sahara AI 的首席执行官兼联合创始人。大家都听过他很多次的讲话,真高兴再次见到他。我们还请来了我们的特别嘉宾,Chi Wang。Chi,这是您首次参加我们的AMA。
Chi:欢迎。
Joules:对于那些不认识的人,他是 AG2 的创始人,之前称为 AutoGen,这是一个支持所代理 AI 的开源代理操作系统及其母项目 FLAML,这是一个快速的 AutoML 和调优库。他拥有超过15年的计算机科学研究经验,曾在 Google DeepMind、微软研究、Meta、UIUC 和清华工作。Chi,我的发音对吗?
Chi:清华。
Joules:他在自己的领域获得了多项奖项。感谢您今天加入我们,Chi。
Chi:非常感谢。很高兴来到这里。
Joules:太棒了。如果您在听,如果在这场AMA中有任何问题,请在下面的评论中留言,最后我们会回答它们。哦,感谢您,Sean。我没有让您说话,我刚才没注意到了。
Sean:我不需要说。请继续。
Chi:抱歉。谢谢您。
Joules:Chi。AG2 的开始是为了简化AI代理的开发。我很好奇,您在AI领域看到了什么问题,让您真的觉得需要这样一个东西呢?
Chi:是的,感谢您的提问。我一直在做 AutoML 和超参数调优,如您所提到的。在我为AI代理工作 AutoGen 之前,我参与了 AutoML 并看到了语言模型的威力,我尝试将 AutoML 的理念应用于调整这些语言模型的推理参数,以查看当我们改变使用模型进行应用的方式时,差异有多大。结果发现差异很大,这就是起点,尤其是在这些模型在更大系统中如何使用方面。因此,这对于这些新类型模型是一个全新的问题,因为与以前几代机器模型相比,它们不仅能进行预测,还能在开放空间中进行开放生成。它们甚至可以变成新的大脑,成为系统如何运行的新控制平面,而不仅仅是一个在某个系统中的小组件。这为设计打开了一个非常大的空间。但是我看到时没有好的框架。当我大约两年前开始研究这个问题时,我没有看到好的解决方案,没有围绕这些新模型而构建的良好操作系统,可以使开发者在此基础上构建开源应用程序。因此,我们确实需要一种新类型的操作系统,它针对这些新型模型进行了优化,并支持所有多样化的应用程序在其上运行。这是我所看到的缺失部分,这也是我的起点。
Joules:这真是太棒了。Sean,您还在AI领域待了大约10年,现在您处在Web3和AI的交汇点上,这真是令人惊叹。您认为AI代理技术中当今最激动人心的突破是什么?
Sean:是的,我认为,这可能比AI代理更一般化。在这个新时代,我们所看到的,就像互联网的上一个时代一样,大家可以开始在互联网上发布自己的内容,通过一个非常高效的方式浏览彼此所生产的内容,理解彼此的想法,不再受物理和时间限制的阻碍,能够即时沟通。我认为今天,当我们看到这一新时代的AI和AI代理时,我觉得它确实降低了人们创造有趣应用和内容的壁垒,因为想想一个编码代理,这个代理对于普通和非技术人员来说非常有前景,可以在多个小时内真正创建应用程序、前端以及所有这些用户交互应用,而不是几天或几周。因此,我认为这进一步降低了我们传达创意的壁垒,甚至以非常高效的方式创造可盈利的应用程序。我预见到,因为人们创新和产生理念的方式变得更加简单、高效、流畅,这也带来了如何保护人们创造性想法和这些应用程序、未来可能的盈利机会等新挑战。因此,基本上的版权保护、可追溯的所有权、归属的问题成为了一项非常新兴的问题。这就是我们开始 Sahara AI 的原因,旨在解决这一系列问题,我认为这与提升代理的能力是并行的。
Joules:很棒,您说得非常好。您提到了降低门槛和开放获取许多AI工具的好处,并且这一切都促进了创新的增加。而其中一个重要部分就是这个开源运动,Chi。我知道 AG2 在这个领域深耕发展,并建立了一场庞大的开源运动。你们拥有超过20,000名来自 Google、IBM、Meta 和许多顶尖大学的构建者。开源协作在 AG2 的发展中最令人惊讶的方式是什么?
Chi:是的,这是个很好的问题。所以我在六年前开始从事开源项目,起初是 FLAML AutoML 库,AutoGen 实际上从一开始就在 FLAML 内开发。所以每一行代码都是从一开始以开源方式编写的,作为 FLAML 内的一个子包,几个月后我们才将其移出,变成一个独立的 GitHub 仓库,并且仍然保持开源。开源一直不是封闭开发,而是从一开始就是开放开发。与我长期合作的化学教授 Chung Yu 以及我们两人是 AutoGen 的主要作者之一,当它发展到一定形态时,来自社区的更多用户加入并加入了这个全球的行列。
让我感到最惊讶的是,当我们刚刚建立 AutoGen 框架时,我们的目标是非常强大的代理。但我们很快意识到有一堵很大的墙要攀登,对吧?这很难。尽管这些记忆模型显示出非常强大的前景,但仍然存在各种问题需要解决。因此,与其单靠自己朝着那个目标努力,我很快意识到,我们可以先构建基础框架,搭建一套便于其他人在此基础上构建和尝试各种想法的通用基础设施,这样我们可能会更快达到目标。这表明这是产品发展的最有效方式。许多想法实际上是社区实现的,我们吸收这些想法,尝试对其进行迭代、完善并增加到框架中,使其更强大。例如,这个群组聊天对话模式允许多个代理在同一群组中对话,分享相同的上下文并共同解决问题。它最初是来自开源协作的提案,并作为一个实验性功能展示了这个框架可能允许你做的事情。它不是唯一的选择,但作为一个示例添加了进来。但实际上,它成为了一个非常受欢迎的功能,用户们也进一步开发和完善,变得更加丰富多样。开源贡献实际上是社区非常活跃的原因,图书馆本身的有趣发展也是如此。不仅如此,很多人在这个过程中不断尝试他们的想法,尤其是比一些主流研究或工程团队早得多地去做这件事,都是非常惊人的。
例如,早期的先进探索,很多功能的探索,与今天所见的深度研究类似,提交至少在一年前开始。开源社区取得了非常强的结果。这些类型的早期探索和非常先进的功能也从根本上改变了我学习新想法和工作的方式。因此,现在开放源代码社区是我灵感的主要来源。所以这不仅仅是偶尔从他们身上学习,而是我不断在学习。是的,他们有时在一些具有挑战性的基准上取得了非常高的表现,例如在软件工程的套件基准上的优异表现等等。这就是我在这段旅程中所收获的重要经验。
Joules:是的,真是令人惊叹。开源开发总是让我感到惊讶,尤其是在这个领域。Web3 长期以来一直以开源为核心,我自2015年以来深耕Web3,看到AI社区也在开源领域发展得如此迅速,真令人惊讶。Sean,我很好奇。开源 AI 和去中心化 AI,从某种意义上说,它们是同一枚硬币的两面。两者都旨在将权力交还给社区,但它们是不同的方法,并涉及不同的内容。您怎么看这两种方法的互补或挑战?特别是在您之前提到的处理所有权和版权问题的视角下。
Sean:是的,我认为这是一个很好的问题。实际上,让我更详细地解释一下这个问题,因为我认为去中心化 AI对很多人来说是一个过度使用甚至模糊的术语。甚至开源AI也被不同公司过度使用。例如,Llama,你能说 Llama 是一个开源模型吗?他们可能将其理解为开放权重,但显然并不完全是关于配方和所有的过程。因此,回到 Joules 的问题,我认为它们可以共存并互相补充。如果我换上我的研究者身份,我一直很喜欢开源 AI,因为这基本上推动了科学进步和开放科学的力量。每个人都知道 DeepSeek 是如何从零到一创建的,所有细节都是透明的,而不仅仅是权重,潜在的我们也希望看到在训练模型中使用的所有数据。
我认为另一个很好的例子是来自某人工智能研究所的 AI 工具的 OMO 模型,他们实际上发布了在预训练和后训练阶段用于创建模型的所有数据集。这使研究人员能够首先在现有的数据和模型以及配方上进行构建,调查所有有趣的现象,以便帮助他们激发新的智力想法,为下一轮改进模型做准备,其次,他们还可以为每个特定领域和用例构建各种有趣的专业模型,并尝试使这些由模型驱动的应用程序受益。因此,我认为开源 AI 是科学的基础。没有它,我认为简单地说,研究人员和博士生将在赶上行业的最新进展方面面临很多困难。
另一方面,我认为去中心化 AI,我对其的定义就是将所有权和控制权归还给数据集和模型的所有者。如果你想象一下当前的中心化 AI 模式,开发者和数据服务提供商都是被 AI 公司雇佣来完成他们的一部分工作,最终产品的成果和结果将由公司控制并由公司进行商业化。通过应用程序网关,所有的收入和用户都流回公司,而公司控制着这些资金和利益应如何在不同利益方之间分配。显然,我们看到今天的分配非常不公平,模型开发者过得相对不错,薪水都很高,看看 Open AI 和所有这些大型 AI 模型的薪水包,但许多为数据做出贡献、为模型和聊天模型提供反馈的贡献者,实际上并没有获得任何回报,尽管这些对改进模型是根本有用的。
因此,我认为在这些货币结果的返还给贡献者方面存在一种偏见分配。这正是去中心化 AI试图颠覆的地方。其方法是从一开始,比如数据集被创建的时候,我们就知道谁是共同所有者和股东。这种追踪将沿着模型、代理和应用程序的所有者向下传播。然后,你可以利用这种追踪进行收益分享,一直追溯到上游贡献者。这就是去中心化 AI 的希望所在。通过将所有权力归还给创作者和贡献者,它具有更可持续的经济模式。对吧?因为每个人都能获得自己的那一份。现在,我认为超出这个问题的技术挑战是,如何以一种自主、公平、算法驱动的方式进行分配?我认为包括 Sahara 今天正在研究的许多研究问题。
Joules:谢谢你,Sean。说得很好。Chi,您是否有想补充的内容?
Chi:没有,这很好。
Joules:太好了。我想稍微改变一下关注点。我知道我们时间不多。我想聊聊一些这些 AI 代理在实际应用中的表现。我们看到一些被称为独立企业家的人使用 AG2 代理来自动化从电子邮件、日历、YouTube 记录到网页抓取的所有功能。您之前提到了一些额外的示例。哪个案例让您感到惊讶,让您觉得“哦,真不错?”
Chi:是的。有很多这样的例子。但给您一个例子,对于这个社区来说可能更贴近,我看到一个使用 AG2 构建的自主交易代理的案例,他们利用代理管理您的 web3 资产,进行自动交易。即使在人们睡觉时,代理也不停止,24小时、每周七天地管理所有资产并进行自动买卖,以增加投资组合。这让我感到相当惊讶。
Joules:是的,我确实也看到更多的 AI 在 DeFi 领域。这真是太神奇了。Sean,你想对此补充些什么吗?
Sean:是的,我认为只要补充一些观察。尽管自主交易机器人或代理在 Web3 中已成为一大热点,尽管我会反对他们并不完全可用,他们更像是原型或 MVP 概念,但是我们确实看到这个代理可以成功地将 100 美元比特币转换为100个Sol。这可以成功实现。但当允许他们采取模糊的用户意图时,比如说我有10,000 美元想要投资某些类型的 meme 硬币,并找到在这段时间内最佳的投资方式,将这些10,000元投放出去。这种指令还是相当模糊而高级,交易代理能否理解并执行这一点,产生一个高可信度的结果?我们离这个目标还有很远,我认为我们至少还需要一年的时间。
这实际上使我想要指出,我们已经看到从上一代非常规则驱动、非常程序化的人工智能向今天更加代理化的人工智能过渡的巨大进展,今天的更为代理化的人工智能表现出能够理解人们的自然语言评论,虽然这些评论在许多情况下可能并不明确,但它们仍能够采取常识性和可信的行动。我认为这是一个巨大的飞跃。我相信我们都对这一点感到非常兴奋,它真的在降低我们完成工作的门槛。例如,我对市场上所有类型的钱包并不非常了解,我也只是对几种有一定了解,我可能熟悉一些去中心化交易所,但如果能给我一个代理,让我可以在所有去中心化交易所上操作并执行的话,我认为这确实有助于未来的大规模采用。
Joules:是的,您所提出的一些观点确实非常好,我实际上会有一些后续问题要问你们俩。因此,显然我们看到这些代理在自动化任务方面变得越来越出色,越来越自主,但完全自主显然仍然是一个非常大的挑战。从您们的角度来看,今天使AI代理真正自主的最大障碍是什么?我们究竟在等待什么?您说这些 DeFi 代理,例如,我们距离真正可用还可能需要一年或更长的时间。
Sean:我可以先让 Chi 谈谈。
Chi:好的,所以如果你仔细想想,让代理自我运行并不困难。让他们做正确的事情,自主进行自我纠正所需的时间比较合理,才是难点。因此,您只要让他们运行并不难,但当他们开始执行错误的操作时,他们可能会走得越来越歪。所以这与一个自主的人大不相同,我们也都犯错误。我们不能保证总是走在正确的轨道上,但有时我们将收回意识,意识到“哦,我们在做傻事”,我们应该改变行为。我认为这是代理缺乏的一项重要能力。如果我们能做到这一点,那么我认为我们会在让他们自主完成任务方面取得很大的进展。但如果你再往前大胆一步想,是否人类真的完全自主,往往也并非如此。如果你请某个同事为你工作,他可能能自动做一些事情,但并不总是您最初所想的那样。您仍然需要为他们提供更多的指示和反馈,以便改进。
即使人类目前的自主程度高于代理,也并不是完全自主的。因此,根据您对完全自主的定义,瓶颈可能会有所不同。因此,一旦我们达到了代理的人类水平的自主性,我们可能还要问这个问题:我们是否能做到更好?因为当有人跟您合作更长时间时,他们确实会更多地了解您,了解您的习惯,实际上能变得越来越自主。最终您可以在没有太多干预的情况下完成大部分事情。代理可能也需要具备这样的能力。当我们解决当前瓶颈时,我们希望他们能够随时间推移而改善,变得更加自主,而不仅仅是在开始时就能独立处理所有事情,而随着时间的推移,他们可以减少人类的干预。
Sean:是的。稍微补充一下您所说的内容,我也非常同意你的观点。我认为,我们正在从一种程序化人工智能转变为我们需要对人工智能的操作非常明确的一种模型,转型为一种更加目标驱动的AI,能够设定高阶的目标并尝试实现,尽管我们距离这个光明的终极目标还有很远。我认为另一个重要的进展是这个代理能力,包括使用工具。这不是我们在上一代人工智能中所见的,它能够使用您的浏览器,数据库,使用 Microsoft Office 和各种访问 Twitter 的工具,并执行各种组合任务以达到设定的目标。因此,我认为我们在这一整轮新的进步的开始,我认为每个人对此都感到非常兴奋。但我并不想让人们对我们所处的距离过于乐观。
Joules:是的,您俩的观点都很有道理。的确是值得思考的问题。尤其是 Chi,您所说的,人类和同事,无论是否完全自主,确实让人耳目一新,是个很好的思路。我从未以这种方式看待过,所以非常感谢您。从这一点出发,代理开始变得越来越出色,重塑了我们的工作方式。有些人认为它们只是会成为助手,帮助我们,而其他人则非常担心它们最终会取代许多人的工作。我很好奇,你们认为我们实际上正在走向何方?
Joules:您想先说吗,Chi?
Chi:哦,我可以说一遍。好的。是的,这是一个非常艰难的问题。我认为它很可能会改变工作分配。有很多我们可以想象的变化,但是我猜测的一个趋势是AI代理将使个人或小团队可以实现更多。因此,我们可能会看到越来越多的小团队进行更多了不起的事情。这可能是未来可能发生的工作分配变化的一个类型。我认为我们应该鼓励思考我们能如何创建新工作?有没有一些新工作会要求人类解决{




