AMA | Эпизод 2 - Захват ИИ-агентом: Разделение шума и реальности (с участием Databricks)
28 мая 2025 г.
В этом AMA команда Sahara AI продолжает серию "Поглощение AI-агентами" с глубоким изучением того, как агенты размышляют, общаются и сотрудничают через нарративы. Модератором является руководитель по маркетингу Жулес Барраган, а в качестве участников - CEO и соучредитель Шон Рен и специальный гость Притхвирадж Амманабролу, доцент в UC San Diego и научный сотрудник в Databricks через MosaicML. Эта беседа исследует, как понимание нарратива раздвигает границы интеллекта агентов, долгосрочного планирования и сотрудничества человека и AI. От интерактивного повествования и научного мышления до проблем безопасности и выравнивания автономных систем, эта сессия изучает как обещания, так и подводные камни обучения AI-агентов мыслить в рассказах.
Ссылка: https://x.com/i/spaces/1DXxyqEDvNNxM
Транскрипт
Жулес: Хорошо, всем привет, мы начнем через несколько минут. Спасибо, что пришли. Я уже вижу Раджа здесь. Давайте устроим его как спикера. Как дела?
Радж: Все хорошо. Как ты?
Жулес: Отлично. Рад вас видеть сегодня. Мы начнем через несколько минут. Я слышу тебя отлично. Да, это произносится как Вирадж, верно?
Радж: Да, это Притхвирадж. Да, но я использую Притхвирадж, Радж, как угодно.
Жулес: Да. Здорово.
Шон: Круто.
Жулес: Я вижу много наших спикеров, которые уже используют наши классные маленькие наложения. Это потрясающе. Спасибо всем вам. Привет всем. Шон, ты нас слышишь?
Шон: Да, я вас слышу.
Жулес: Замечательно. Твой микрофон звучит отлично. И Радж, ты тоже здесь.
Радж: Yep.
Жулес: Отлично. Давайте начнем. Привет всем. Я Жулес из Sahara AI. Я буду вашим модератором сегодня. Это второй эпизод нашей серии "Поглощение AI-агентами". У нас сегодня увлекательный AMA с двумя невероятными умами в AI: нашим собственным Шоном Реном, CEO и соучредителем Sahara AI.
Шон: Привет, всем, я вернулся.
Жулес: Да, прошла всего неделя с твоего последнего AMA. Спасибо, что снова присоединился, Шон. Я знаю, что ты очень, очень занятой человек.
Шон: Да, определенно. Рад пообщаться.
Жулес: Мне нравятся твои новые брови. Я только что увидел их обновленные. Да, прочитаю наш блог. Определенно, новое. Я вижу, что много людей показывают наложения сегодня. Это так волнительно. Это очень круто. У нас также наш специальный гость, Притхвирадж, или Радж, если коротко. Радж — это доцент в UC San Diego, возглавляющий лабораторию Перл, и научный сотрудник в Databricks через Mosaic ML. Ранее он работал исследователем в AI2, а до этого получил докторскую степень в Georgia Tech. Спасибо, что присоединился к нам сегодня, Радж.
Радж: Спасибо за приглашение вам обоим. Рад вас всех видеть и слышать снова, Шон.
Шон: Рад подключиться к этому пространству, определенно.
Жулес: Да. Итак, сегодняшний AMA будет исследовать, как AI-агенты используют язык, обратную связь, контекст реального мира и нарративное мышление, чтобы стать лучшими, более совместными коммуникаторами. Если вы слушаете и у вас есть какие-либо вопросы в ходе AMA, просто оставьте их в комментариях ниже, и мы перейдем к ним в самом конце. Итак, давайте начнем. Радж, ты потратил годы на изучение того, как машины рассказывают истории. Какой был момент или инсайт, который действительно заставил тебя сказать: "Ух ты, AI должен понимать нарративы так же, как и люди"?
Радж: Да. Чтобы ответить на это, я немного отступлю, чтобы поговорить о основной мотивации. Очень рано в аспирантуре я прочитал эту статью, которая оказала очень большое влияние на остальную часть моей исследовательской карьеры. Статья называлась "Укоренный когнитивизм". Ее написал психолог по имени Лэри Барсалю, когда он также был в Атланте в Эмори. Но это идея о том, что люди делают вещи, учатся, взаимодействуя с окружающим миром, и как все концепции, которые мы знаем, менее абстрактны, но больше связаны с вещами в мире. И это не просто укоренение в смысле: "Эй, у меня есть концепция, связанная с физическим объектом", но это может быть укоренение в общих концепциях между нами. И это было действительно увлекательно для меня. Один из способов, которым мы связываем эти концепции вместе, - это через нарративы. Мы видим нарративы как наиболее естественную форму человеческого общения, поскольку давно были многие моральные и жизненные уроки, все это рассказывается в форме историй, мифологий и так далее. Это была первоначальная идея. Это как: "О, если мы сможем заставить AI рассказывать истории и уметь общаться, мы в некотором смысле решим проблему общения AI с людьми." И с этого момента возникло мое первоначальное вдохновение в направлении создания этих агентов.
Жулес: Здорово. Спасибо большое. Шон, большая часть миссии Sahara AI также заключается в том, чтобы наделить создателей возможностями, не просто защищая их работу, но и предоставляя им AI-инструменты для запечатления их личности, масштабирования их идей и оптимизации их рабочих процессов. Исходя из точки Раджа о нарративе, насколько важным ты считаешь, что AI сможет понимать нарративы так же, как и люди, в помощи создателям обучать AI, который на самом деле отражает то, кем они являются?
Шон: Да, по сравнению с Раджем, у меня определенно более предвзятая перспектива по поводу нарратива. Я больше исхожу из использования понимания нарратива или генерации нарратива как способа действительно измерить компетентность и возможности текущего AI. Я думаю, что одной из самых больших проблем, которые понимание и генерация нарратива представляют для AI или агентов, является этот высокий уровень, целостное планирование и структурирование всей идеи. Например, если вы хотите представить диссертацию для своей докторской степени, вам нужно подумать о нарративе вашей диссертации. Это можно разбить на множество меньших задач, таких как вам нужно провести обзор литературы по некоторым темам, которые вы исследуете, и вам нужно провести контрастирование и провести различия с этой работой. Затем вам нужно подумать о том, как представить свои идеи, расположив их среди всей литературы, а затем рассказать свои идеи так, чтобы люди могли понять. Вам нужно рассказать людям, как вы реализовали более крупные идеи, разбив их на четырехлетний план, и как задачи складываются одна за другой. Это очень сложная задача рассуждения и планирования, точно так же, как и в нашей реальной жизни. Когда нам нужно работать над сложной задачей самостоятельно или нам нужно взаимодействовать с другими коллегами или сотрудниками для завершения более крупной задачи, есть множество режимов сбоев, о которых мы должны думать, каковы механизмы резервирования и как мы можем достичь конечной цели, учитывая разные возможности.
Я думаю, что эти нюансы могут быть приближены, когда вы просите AI создать очень сложный нарратив. Но отличие в понимании и генерации нарратива в том, что вам не нужно ограничиваться так многими нормами и даже физическими законами в нашей реальной жизни. Вы можете быть супер креативными, чтобы даже создать фантазии или вещи, которые не существуют в реальном мире. Вот что развлекает людей. Так что я думаю, что есть некоторые части понимания и генерации нарратива, которые отличаются от создания агента, который может работать с людьми в реальной жизни. Но, тем не менее, я думаю, что для исследовательского сообщества понимание и генерация нарратива - это очень хорошая область, в которой мы можем действительно протестировать и протолкнуть границы текущего AI или агентов и увидеть, как им удается это делать.
Жулес: Да, действительно отличные идеи. Продолжая тему нарратива и AI, Радж, ты работал над тем, что я как-то люблю называть "нарративными агентами", потому что это действительно AI-повествователи. Не знаю, придумал ли я слово "нарративный агент" или прочитал его где-то, сейчас не помню. Но это, по сути, особые виды обучающих агентов, верно? Можешь объяснить для нашей аудитории, что такое "нарративные агенты"?
Радж: Да. Так что я бы сказал, что одна версия нарративных агентов - это представить себе агента, который взаимодействует с миром исключительно через язык. В форме нарратива они получают текстовые описания мира - окружающих людей, описания личностей людей, местоположений, в которых они находятся. И затем, получив это описание, они должны выполнить действие. Они должны иметь возможность общаться с другими людьми в этом смоделированном или реальном мире. Они должны быть в состоянии взаимодействовать и передвигать объекты и вещи вокруг, обычно в погоне за своими собственными целями. Эти цели, по крайней мере, для интерактивного нарративного пространства, могут варьироваться от решения загадки убийства - вы играете роль детектива - до некоторых из более недавних проектов, которые мы сделали, таких как Научный мир, где у вас есть агенты, которые пытаются научиться делать научные эксперименты с нуля. То есть вместо того, чтобы запоминать ответы на научный вопрос, они пытаются понять, какова процедура, а затем систематически выполнить её сами. Это выглядит очень похоже на мир обучения с подкреплением, где среда является текстовым естественным языком, а агент также выводит текстовый естественный язык в мир. И это базовая форма этих агентов, по крайней мере, когда я начинал почти 10 лет назад в этом пространстве. С тех пор они стали гораздо более сложными.
Одним примером, который мне нравится использовать, является эта игра под названием Zork. Zork была одной из самых первых компьютерных игр. Это была компания под названием Infocom в 70-х, до того как существовала компьютерная графика или что-либо подобное. Люди разработали такие игры, где нужно было путешествовать по миру, собирать сокровища и решать головоломки. Игры довольно сложные, так как они начались в 70-х, и люди продолжали работать над ними все больше и больше. Если вы посмотрите на исходный код некоторых из этих игр сейчас, они содержат миллионы строк кода и представляют собой безумно сложные миры с десятками и сотнями местоположений, персонажей и так далее. В качестве анекдота, я сам играл в некоторые из этих игр, когда был подростком в средней школе. Мне понадобилось три или четыре месяца, чтобы решить одну из этих игр самостоятельно. И это было одно из первых вещей, которыми я начал заниматься, когда был в аспирантуре: "Хорошо, что потребуется AI, чтобы можно было рассуждать и взаимодействовать на естественном языке, чтобы решать такие головоломки?"
И оказывается, что некоторые уроки, которые мы извлекли на этом пути, действительно применимы ко многим различным типам AI-агентов. Так что одним конкретным примером этого является то, что оказывается, что для воплощенных агентов - то есть вещей, которые больше похожи на роботов и подобное - вы можете на самом деле обучать роботов в таких нарративных текстовых средах, где вы учите их планировать на высоком уровне, как делать вещи, например, готовить рецепты в чисто текстовой среде, это удобно и быстро для вычислительного моделирования, а затем переносить их в визуальную симуляцию, а затем переносить в робота в реальном мире. Эта многоступенчатая цепочка обучения оказывается гораздо более эффективной вычислительно, чем просто пытаться обучить их в какой-то среде робота. Вот общий уровень того, что такое эти агенты, каковы некоторые непосредственные эффекты, и почему мне очень нравится использовать их в качестве испытательных площадок для изучения естественного языка. Мне также следует упомянуть, что один из моих студентов недавно выпустил бенчмарк под названием Набор сред обучения текстовых приключений (TAILS), где у нас есть набор из более чем 3,400 окружений, таких. Оказывается, что на самом сложном подмножестве даже лучшие модели рассуждений сейчас получают результат около 15% по этому бенчмарку. Таким образом, это очевидно показывает, что у нас еще много работы, чтобы развивать агентов, которые смогут эффективно рассуждать сквозь нарративы.
Жулес: Да, это действительно круто. Когда я думаю о этих нарративных агентах, первое, что приходит мне на ум, - это игры и умные NPC, с которыми я могу наконец взаимодействовать, и они поймут нарратив и то, что я им говорю, интеллектуальными способами. Я думаю, это действительно удивительно. Но, слушая тебя, я также размышляю обо всех других способах, которыми эти нарративные агенты могут работать, даже просто помогая людям учиться и прорабатывать сложные идеи через классные повествования. Есть ли другие интересные примеры, которые ты можешь представить о том, как эти нарративные агенты могут быть использованы?
Радж: Да, смешно, что ты это упоминаешь. Причина, по которой мне нравятся эти агенты, заключается в том, что у них такой широкий спектр возможных применений. NPC в играх - это один интересный версия. Некоторое время назад, в эпоху до LLM, мы действительно разбирались, как использовать этих нарративных агентов в качестве NPC в играх. Был один небольшой проект, который мы сделали. Я был в MSR в то время и сотрудничал с Xbox, где мы пытались внедрить агента в этой игре под названием Sea of Thieves. В то время генерация текста не была особенно хороша. И, во-вторых, разработчики игр действительно очень придирчивы к тому, что они позволяют говорить своим NPC. Так что в конце концов мы в конечном итоге внедрили этого нарративного агента в форме попугая пирата в игре. Это привлекло много внимания, и это было еще до появления Трансформеров или чего-либо подобного. С тех пор стало значительно лучше. Есть столько уровней применения, чтобы использовать это. Все, начиная от таких NPC в играх как развлечение. Многие из людей, с которыми я сотрудничал, ушли в Facebook AI Research после этого и провели больше времени, создавая эти типы нарративных агентов. Значительная часть людей из моей команды в конечном итоге стала соучредителем Character AI, с которой, я уверен, многие из вас знакомы, она является одним из основных мест, где вы можете сформировать такие персонализированные AI и поиграть с персонажами. Так что есть развлекательные аспекты, но есть также и все эти другие типы вещей, которые вы можете сделать. Вы можете заставить этих агентов научиться делать научные эксперименты и воплощать задачи, и перенести это на реальные роботы. Так что это чистая универсальность. Все, что вы можете представить, вы, вероятно, можете выразить в форме нарратива, и это просто очень естественная форма общения между нами.
Жулес: Да, это действительно круто. Я действительно взволнован тем, куда это пространство движется. У меня есть вопрос для Шона. Мы видим, что агенты становятся лучше в автоматизации задач, верно? Но, как мы обсуждали в нашем последнем эпизоде "Поглощение AI-агентами", полная автоматизация все еще представляет собой очень большую проблему. С вашей точки зрения - нарратива, многопользовательской оркестрации - какова самая большая проблема в создании агентов, которые действительно мыслят и действуют независимо?
Шон: Да, это отличный вопрос. Я полагаю, что на эти вопросы будет много ответов. Я, вероятно, просто коснусь одного из них. Я думаю, что мы говорим о ... даже для людей действительно трудно иметь очень последовательное и мощное выполнение с данной целью. Давайте скажем, если вы скажете людям: "Эй, помоги мне найти лучший дом в этом районе", и вы даже можете определить, что вы имеете в виду под лучшим домом на основе ваших личных критериев. Вы даете эти цели 50 различным агентам по недвижимости, и они могут предложить вам довольно разные результаты через пару месяцев. Я думаю, это связано с несколькими причинами. Во-первых, у каждого есть разные информационные пробелы и относительно ограниченная информация. Они найдут очень разные результаты для вас. Также они могут интерпретировать ваши инструкции или критерии довольно иначе. Это такой список дел, типа понимания намерений и осознания вашего личного опыта. И тогда у них будут различные пути выполнения с точки зрения того, как они ищут информацию, как они берут один кусок информации и продолжают раскопать другой кусок информации и идут по пути к финальным результатам. Я думаю, это происходит со многими людьми, которые стараются сделать свою работу как можно лучше. И если мы перенесем все эти проблемные моменты на AI-агентов, для агентов это будет еще сложнее.
Сегодня, когда мы говорим об агентах, способных автоматизировать некоторые задачи, мы на самом деле говорим о очень узких, очень специализированных задачах. Например, делать резюме статьи, изменять тональность статьи или делать перевод статей. Мы добиваемся больших успехов в переходе к более сложным многослойным задачам. Например, "найдите мне лучших торговцев на основе некоторых критериев, которые я отправил". Продукты, такие как Deep Research или некоторые другие агентские поисковые продукты, могут сделать довольно неплохую работу. Но если вы действительно попросите их выполнить что-то вроде "найти дом для меня", учитывая всю доступную информацию и доступ к API, я думаю, что эти агенты по-прежнему будут давать довольно непоследовательные результаты в зависимости от их пути выполнения. Так что я думаю, сейчас, когда мы думаем о том, насколько далеки мы от использования этих агентов автономно и независимо выполняя задачи за нас, все еще есть много работы, которую нужно сделать, предоставляя этим агентам возможность длительного планирования и помогая им лучше согласовывать и понимать человеческие неясные намерения и личные истории. Так что я думаю, это самая большая проблема на сегодняшний день. Но мне определенно интересно услышать, что Радж думает по этому поводу.
Радж: Да, я думаю, что это здорово, что многие агенты, над которыми мы работали в области языка и нарратива, и многие алгоритмы, которые были первоначально разработаны для их использования, на самом деле все еще используются сейчас. Вы можете представить себе что-то вроде Deep Research или этот тип поиска агентов, который вы представляете, также в некотором смысле, с точки зрения обучения с подкреплением, очень похож на то, где вы вводите некоторый текст, который вы получаете из Интернета, а выходные данные - это различные вызовы инструментов, которые этот конкретный агент должен сделать с параметрами. И некоторые из вещей, которые исследует моя лаборатория, в основном используют очень похожие техники на этих интерактивных языковых агентов, когда они выполняют действия с параметрами. "Поднимите нож со стола" очень похоже. "Поднимать" - это вызов функции. Оказывается, что обе эти вещи в некотором смысле соответствуют одному и тому же основному процессу принятия решений из области обучения с подкреплением.
Но я думаю, вы правы, в том, что мы еще не достигли этого в надежном виде в долгосрочной перспективе. Модели в настоящее время, как правило, теряют последовательность в том, что они делают, после, возможно, нескольких сотен шагов. Например, если вы подумаете о компьютерном исполнительном агенте, они могут, возможно, для некоторых задач выполнять ориентировочно час автономной работы, и затем они теряют ориентир в том, что делают после этого. Так что долгосрочные горизонты чего-либо определенно требуют решения. Это также одна из основных причин, по которой мне было очень интересно работать с этими интерактивными нарративами, потому что что-то, что вы сделали очень рано - информация, которую вы собрали в самом начале, возможно, после того, как задали вопрос - оказывается очень актуальной, чтобы преодолеть какое-то препятствие позже. И это верно для всех типов агентов. Агент глубоких исследований, с помощью которого многие ученые сейчас используют, чтобы помочь им выполнять такие задачи, как поиск литературы или потенциально предлагать новые идеи для исследований, все, что вы можете представить, что требует таких долгосрочных горизонтов, имеет такие зависимости, которые модели должны преодолеть. Я думаю, что решение этого станет одной из больших задач в AI, но мне{




