AMA | Эпизод 3 - Захват ИИ-агента: Физический ИИ и робототехника (с участием Config Intelligence)
4 июн. 2025 г.
В этом AMA наш руководитель по маркетингу Джулес Барраган присоединился к нашему соучредителю и генеральному директору Шону Рену, а также к соучредителю и генеральному директору Config Intelligence и ассоциированному профессору в KAIST Минджуну Сео. Вместе они исследуют следующую грань для ИИ-агентов, оживляя их в физическом мире. От обучения роботов учиться, наблюдая за демонстрациями людей, до решения огромных Bottleneck с данными в робототехнике, они обсуждают, как снижение затрат на разработку и переосмысление владения данными могут ускорить появление по-настоящему универсальных машин. Если вам интересно, как проходит обучение бимануальных роботов, роль он-цепочной подлинности в ИИ или путь от нишевых задач до домашних компаньонов, эта сессия погружается в прорывы, вызовы и изменения в экосистеме, которые формируют физический ИИ.
Ссылка: https://x.com/i/broadcasts/1kvJpyaVrlPxE
Транскрипт
Джулес: Привет всем. Добро пожаловать на наш третий AMA в серии Агентский захват. Я Джулес из Sahara AI. Я буду вашим ведущим сегодня. Это третий эпизод нашей серии Агентского захвата ИИ. У нас сегодня захватывающий AMA с участием двух невероятных умов в ИИ. Наш собственный Шон Рен, наш генеральный директор и соучредитель Sahara.
Шон: Привет, ребята, я снова с вами. Рад пообщаться с некоторыми новыми гостями.
Джулес: Да, говоря о новых гостях, у нас есть Минджун Сео. Минджун — соучредитель и генеральный директор Config Intelligence и ассоциированный профессор в KAIST. Он работает над значительным снижением стоимости и времени разработки бимануальных моделей роботов, используя данные о манипуляциях человека. Он также является лауреатом Премии за лучшую статью на NAACL 2025 и Премии за долговременное влияние AI2 в 2020 году. Спасибо, что присоединились к нам сегодня, Минджун.
Минджун: Да. Спасибо за приглашение.
Джулес: Да, всегда пожалуйста. Так что сегодняшнее AMA будет посвящено следующему большому шагу для ИИ-агентов, и мы погрузимся в мир физического ИИ и то, как роботы учатся на людском поведении. Если вы слушаете и у вас есть какие-либо вопросы в ходе AMA, просто напишите их в комментариях, и мы к ним перейдем в самом конце.
Ладно, давайте начнем. Минджун, я хочу начать с тебя. Ты провел годы, изучая, как языковые модели рассуждают и оценивают себя. Теперь ты помогаешь людям строить роботов, которые на самом деле учатся, наблюдая, как движутся люди. Можешь немного рассказать о своей работе сейчас и что вдохновило тебя соединить эти два мира?
Минджун: Да. Как ты меня представил и нашу компанию, мы работаем над тем, как можем значительно сократить затраты на разработку моделей. Так что, если подумать об этом, в настоящее время только отдельные компании, имеющие много финансирования, могут создавать модели или создавать роботов для выполнения задач. И я считаю это очень печальным, потому что из-за стоимости у нас есть очень небольшое количество вещей, которые мы можем сделать. Например, скажем, вы хотите автоматизировать процесс приготовления гамбургеров. Это действительно сложно сделать сейчас, потому что, возможно, вам нужно потратить несколько миллионов долларов или даже больше на это. Но затем размер рынка сам по себе может не быть в многих случаях таким большим. Также, вы можете не хотеть тратить так много денег, прежде чем на самом деле увидите какие-либо результаты.
Таким образом, мы видим, что стоимость разработки является самым большим узким местом для создания экосистемы роботов. И мы, по сути, пытаемся снизить это. Если мы сможем это уменьшить, мы считаем, что мир увидит роботов вокруг нас рано или поздно. Так что это наша главная миссия. Чтобы это сделать, самое большое узкое место на сегодняшний день - это на самом деле получение правильных данных, потому что, очевидно, данные являются самой важной вещью в ИИ. И как мы можем фактически получить данные дешевле и быстрее для роботов, это действительно самая важная часть, по крайней мере, самое большое узкое место на сегодняшний день в сфере разработки роботов. Так что мы помогаем нашим клиентам в этом, как они могут получить данные дешевле и быстрее и при этом сохранить качество.
Я работал над языковыми моделями в течение многих лет. Я думаю, по мотивации, я представлял ИИ не как специфическую для языка вещь. Это было скорее так, если вернуться к 2009 или 2010 году, ИИ действительно касался включения физических движений. Он должен был уметь делать разные вещи с людьми. Не только язык, не только зрение, но и реальные действия. Я думаю, именно так я воспринимал ИИ. Поэтому я всегда хотел создать систему, которая на самом деле может делать вещи, которые делают люди, так же как роботы. Но сначала я думал, что язык необходимо решить или нужно с ним разобраться, чтобы добраться до этого. И я чувствовал, что рассуждения на самом деле исходят от языка.
Но, как вы все знаете, мы сейчас видим много прорывов в языке и также в зрении. Так что язык и зрение очень сильно развиваются, также и речь. Так что я думаю, что ингредиенты готовятся, чтобы создать более полный ИИ, который может на самом деле выполнять не только язык, но и физические задачи и все остальное. И я думаю, что это было ближе к моей страсти с ранних дней. Так что я думаю, что в основном... Я теперь думаю, что у нас есть технологии, и время готово, чтобы на самом деле поработать над этим. Так что это главная причина, почему я последнее время занимаюсь роботами.
Джулес: Да, это действительно круто. Шон, Минджун поднял действительно хороший вопрос о данных и недостатке данных, чтобы реально поддержать развитие этого физического ИИ. Я знаю, что в Sahara AI мы действительно сконцентрированы на данных. Мне интересно, есть ли у вас какие-либо комментарии относительно того, как важны данные для разработки ИИ.
Шон: Да, я хочу выйти за рамки только данных. Мы говорим о роботах здесь, и пусть это будут виртуальные роботы, которые взаимодействуют с людьми в Twitter, пытаясь помочь владельцам отвечать и общаться с их фанатами, или мы говорим о физических роботах, которые на самом деле сидят у вас дома и выполняют все виды повседневных, повторяющихся или творческих задач для вас. В любом случае основная проблема здесь заключается в том, что робот, агент, должен быть персонализирован на основе ваших случаев использования и того, как вы с ним взаимодействуете. Либо он становится системой, помогающей вам в вашей работе, повышая вашу продуктивность, либо он становится личным другом, который общается с вами, развлекает вас и делает вас более удовлетворенным.
В любом случае, им нужно переварить много вашей внутренней информации, которую вы бы выносили за пределы, чтобы рассказать агентам, или агенту нужно ознакомиться с вашей жилой средой, например, с тем, с кем вы разговариваете, о чем вы говорили с другими людьми и с контекстом в историческом плане. Я думаю, все эти данные очень личные и часто очень чувствительные. Представьте, если у Open AI будет доступ ко всем этим данным от сотен миллионов пользователей. Это огромная проблема конфиденциальности, и есть еще одна огромная проблема владения и потенциальных прав на монетизацию этих данных. Если у вас есть эти две проблемы, это станет очень страшным.
Если вы подумаете о том, как Open AI на самом деле изучает все личные разговоры и жизненные условия сотен миллионов людей, и тогда они могут попытаться создать еще одно поколение ИИ, которое в основном понимает всех, как в тех научно-фантастических фильмах, которые вы видели. Так что на этом этапе это действительно беспокоит меня, как человечество должно относиться к своей конфиденциальности и как человечество должно относиться к своим авторским правам и контролю над своими личными данными. Я думаю, что это, по сути, оспаривает новую парадигму для установления отношений между владельцами данных и владельцами моделей или агентов, а также потребителями данных и моделей и разработчиками моделей.
Так что это основной постулат проблемы для Sahara AI, чтобы на него обратить внимание, совершенно независимо от огромного фокуса на том, чтобы сделать ИИ более способным и более компетентным. Я думаю, что оба аспекта одинаково важны. Но, очевидно, в последнее время люди становятся гораздо более взволнованными тем, чтобы продвинуть ИИ на более высокий уровень возможностей и компетентности, чем размышлять о проблеме: что если когда-нибудь этот ИИ знает все о ваших электронных письмах и разговорах и текстовых сообщениях, и они собираются сделать что-то за кулисами, о чем вы даже не догадываетесь? Я думаю, что то, что движет Sahara AI, — это использовать это. Мы все верим в это будущее, управляемое ИИ, где каждый из нас, используя нашего агента, может реализовать свои творческие идеи, а также сделать каждого другого человека более продуктивным и счастливым. Но в этом процессе, если у вас нет защиты вашего ИИ и если у вас нет прозрачности о том, как ваши данные использовались в последующих процессах, тогда это действительно вызывает беспокойство.
Джулес: Да, это имеет много смысла. Вы заставили меня задуматься о чем-то, говоря о прозрачности, подлинности и владении, особенно в этом будущем, управляемом ИИ, о котором мы говорим. В пространстве блокчейна в течение некоторого времени много разговоров о будущем машинной экономики, где вы можете иметь роботов, даже просто самоуправляемые машины, у которых будут свои биткойн-кошельки. Они могут зарабатывать деньги, выполняя услуги, которые они предоставляют, платить за услуги, например, заправку газом, техническое обслуживание своего автомобиля и по сути работать с некоторой степенью автономности. Вы думаете, что это реалистичное будущее, и если да, что должно произойти, либо технически, либо юридически, чтобы мы действительно туда добрались?
Минджун: Да, это на самом деле очень интересный вопрос. Как Шон сказал, есть разные виды агентов, но, я думаю, в конце концов, мы хотим, чтобы все были взаимосвязаны. Даже для роботов, я думаю, есть абстрактный уровень агентов, который работает для планирования и рассуждения. Так что я думаю, они все связаны. В основном, какой срок у этих роботов, чтобы прийти к нам или на самом деле быть рядом с нами? Потому что, очевидно, мы не видим их сейчас, в отличие от Chat GPT или других ИИ. И я думаю, что самым большим узким местом здесь, на самом деле, является то, что не существует экосистемы для данных в робототехнике. Это очень отличается от языковых моделей или других видов ИИ. Они, на самом деле, основаны на данных из интернета. Так что эти данные пришли от всех пользователей, верно? Они не созданы одним пользователем или одной компанией. Google не владеет этими данными. Open AI не владеет этими данными. Данные поступают от пользователей. А эти пользователи на самом деле согласились с радостью делиться своими ценными данными в интернете на протяжении многих лет - такими как коды, статьи, это самые качественные данные, о которых мы говорим. Или даже публикации Reddit. Они просто согласились делиться ими в интернете. И многие из этих компаний могли использовать эти данные и обучать на них модели.
Так что люди могут думать, "О, данные бесплатные, а GPU не бесплатные, люди не бесплатные, так что нам нужно тратить деньги на GPU и людей". Но это не так, когда нет такой экосистемы. Для робототехники, например, не было такой экосистемы. Так что данных, созданных или поделённых другими людьми, нет. Это не только то, что их не делятся; их вообще не создают, потому что они должны быть созданы роботами, которые пока не существуют в широком масштабе. Так что я не знаю, как эта экосистема появится. Я думаю, ей, вероятно, потребуется много игроков, и, вероятно, потребуется, чтобы такая компания, как Sahara, также действительно сыграла свою роль в этой области. И, конечно, мы хотим ускорить этот процесс тоже.
Но я думаю, что здесь нужно будет много компаний, которые должны быть вовлечены, и много участников, много пользователей, чтобы действительно создать эту экосистему. И эта экосистема должна вырасти, чтобы объем данных, который накапливается в интернете или в мире, превысил определенное количество, чтобы была модель, которая могла бы на этом обучаться и делать что-то, как Chat GPT для роботов. Так что в отличие от многих других компаний в области физического ИИ, которые считают, что движение наступит очень скоро, я думаю, это действительно трудно из-за нехватки данных экосистемы. Мы должны на самом деле создать эту экосистему. И эти два аспекта должны идти вместе, чтобы действительно туда добраться.
Чтобы быть более конкретным, я думаю, это займет как минимум пять-десять лет, чтобы на самом деле увидеть по-настоящему универсальных роботов. Но это не значит, что мы не увидим роботов вокруг нас. Я думаю, они будут очень специфичными по задачам, и, используя слова Шона, они будут персонализированными. Я думаю, что сначала нам нужна эта фаза, чтобы мы могли иметь больше роботов и больше игроков в этой экосистеме. Но затем, когда эта экосистема вырастет достаточно, тогда я думаю, что человечество в целом, вся цивилизация, получит шанс создать действительно универсальных роботов.
Шон: Да, добавляя к тому, что сказал Минджун, я думаю, что в будущем я вижу как минимум два типа агентов. Один тип агента представляет собой индивидуумов, как прокси, который действует в виртуальных или физических мирах и выполняет дела 24/7 для владельца. И я вижу другой тип агента, который больше ориентирован на цель. Например, уже существуют агенты на крипторынках, которые развертываются этими учреждениями, пытающимися поймать любые возможности дохода на различных DEX и биржах. Я думаю, что в будущем нас уже окружает много агентов, которые очень специфичны для задач, ориентированы на целевые результаты.
Я даже думал о тех автономных пылесосах в моем доме. Они просто проходят через ваш дом, используя свою камеру, чтобы снимать видео всего дома, а затем отправляют его на централизованные серверы. Так что, вероятно, компания знает, как выглядят дома сотен тысяч людей, и даже домашних животных и всего остального. Так что это страшно, если подумать об этом без надлежащего соблюдения и регулирования. Но я думаю, что это уже происходит сейчас.
Я думаю, что самая большая проблема, которую я имею, это если эти агенты совершают ошибки, кто несет ответственность за эти затраты? Мы можем даже подумать об автономных автомобилях. Они просто ездят по улице. В Лос-Анджелесе, городе, где я нахожусь, сейчас на улице ездит сотни автомобилей Waymo. И они очень хорошо справляются с этим. Я также знаю, что за кулисами есть люди, которые управляют этими транспортными средствами; они не полностью автономны. Но однажды они могут стать довольно автономными. И если они вызовут аварии, кто будет нести ответственность за это? Я думаю, пока мы не разберемся с этими низкими, но очень высокими ставками вопросами, очень сложно запустить этих агентов. У нас может быть несколько агентов с очень низкими ставками. Как в Twitter, вы видите кучу ботов, которые просто публикуют что-то. Вы можете сказать, что это низкие ставки, потому что они не угрожают жизни людей, но это действительно также повлияет на настроение людей, если быть честным. Я просто хочу привести множество примеров, чтобы люди знали о нюансах в этом вопросе.
Джулес: Итак, мы много говорили о данных. Минджун, ты недавно работал над методом обучения роботов, используя видео демонстраций людей, верно? Я полагаю, вы даже предложили метод обучения на крупномасштабных, неаннотированных или даже слаборазмеченных видео демонстраций людей. Можешь немного рассказать об этом? Какой самый большой прорыв, который это сделало возможным?
Минджун: Да, это работа, которую мы на самом деле сотрудничали с Nvidia и Microsoft в прошлом году. Название работы - Latent Action Pre-training (LAPA). Эта работа в основном была сосредоточена на том, как мы можем использовать человеческие данные. Мы хотим обучить роботов на демонстрациях людей, но традиционно это было очень сложно, потому что у человеческих демонстраций есть, конечно, входные данные, такие как видео, но у них нет выхода, то есть точных координат человеческих рук. И даже тогда человеческие руки и руки робота отличаются, так что они на самом деле не так легко переходят. Это было узкое место.
Таким образом, технология на самом деле заключалась в том, как мы можем использовать человеческие данные для обучения роботов. И нам удалось на самом деле показать, что человеческие данные могут быть настолько же эффективными, как и роботизированные данные. Это очень значимо, потому что получение человеческих данных намного проще, чем получение данных от робота. Если вы хотите получить данные от робота, вам нужны роботы, а не у многих людей их есть. Но что на самом деле важно, что мы думали, это интеллектуальная собственность в физическом труде - это на самом деле... давайте предположим, вы плотник. Это физические знания, которые воплощены в ваших данных. Ваша демонстрация чего-то на самом деле является вашей интеллектуальной собственностью в некотором смысле, хотя это действительно трудно запатентовать или получить за это плату. Но это действительно важное знание. И, по сути, это то, что мы считали, что люди могли бы создавать. Но это действительно трудно использовать в сыром виде, потому что это человеческие данные.
Поэтому мы хотели выяснить, можем ли мы это соединить? Могут ли роботы использовать человеческие данные так, чтобы они могли легче использовать демонстрации? И если мы сможем это сделать, это, что это может значить в долгосрочной перспективе, это то, что мы могли бы использовать больше и больше данных, которые люди сами производят, создавая ценность. Нам удалось показать на первых результатах, что это так же хорошо, как и данные роботов. Так что наша компания развивает это. Как мы можем, на самом деле, использовать человеческие данные легче, точнее? Мы действительно считаем, что это очень важная часть для достижения этого прогресса.
Джулес: Ну, это действительно круто, Шон. Я знаю, что мы работаем над множеством разных способов облегчить разработчикам получение необходимых данных, особенно когда дело касается достаточно специфических данных, таких как некоторые из того, о чем говорит Минджун. Ты хочешь немного об этом рассказать и о том, над чем мы работаем?
Шон: Да. Мне действительно нравится работа, которую только что описал Минджун. Чтобы дать всем немного больше контекста, Sahara AI имеет платформу услуг данных, которая является децентрализованной платформой, на которую люди могут приходить, помогать просматривать, какие потенциальные проекты данных ищет сторона спроса или другие пользователи, а затем пытаться работать над различными типами сбора данных, при этом становясь частью совместной собственности наборов данных. Так что вы получаете как право собственности на набор данных в будущем, так и вознаграждения, стимулы и прямую оплату за усилия, которые вы тратите на набор данных. Это действительно гибридный результат по сравнению со старыми моделями, такими как то, что делает Scale AI, которое дает вам фиксированную оплату за то, что вы сделали для набора данных.
Так что это действительно инновационный способ побудить людей приходить и использовать свою экспертизу, чтобы помочь собрать и размечать данные. И я думаю, что это очень органическая связь с данными из робототехники, которые только что описал Минджун. Я только что посетил встречу на обеде с одним из моих друзей-профессоров из USC сегодня, и он описывал почти те же самые проблемы. Такие компании, как Google, Nvidia, прилагают много усилий для сбора данных о роботах. Они покупают сотни этих маленьких роботов, и эти маленькие роботы должны быть вручную отслежены и введены в эксплуатацию реальными людьми в очень контролируемых лабораторных экспериментах, таких как производство этих роботов. Затем они записывают видео этих роботов, и эти данные являются самыми качественными и полезными данными.
Но, очевидно, проблема в масштабе. Вы можете работать только с таким количеством видео в день с сотнями роботов, и будет действительно экономически невыгодно бросать сотни тысяч роботов в реальную жизнь и позволять незнакомцам играть с ними. Так что именно поэтому, я думаю, что то, что описал Минджун, — это будущее. Если у нас будет прорыв в получении данных такого качества просто из человеческого эгосентричного взгляда на то, что они делают — вы готовите в кухне, и мы видим, как ваши руки работают с ножом и всеми этими ингредиентами и делают омлет. Если эти данные становятся такими же полезными, как у робота, делающего то же самое с точки зрения обучения робота, чтобы имитировать или подражать тому, что происходит, тогда это будет огромный, огромный прорыв для всего сообщества обученияRobots.
Если эта технология готова, я думаю, что то, что платформа услуг данных Sahara сможет принести, это то, что мы можем соединить эту технологию по сбору человеческих данных с сотнями тысяч наших поставщиков данных на платформе. Это может быть так просто, как каждый человек берет свой мобильный телефон, возможно, фиксируя его на конкретном устройстве на лбу, а затем дает вам эгосентричные видеоклипы того, что вы делаете. Даже убирать своего питомца. И это даст нам миллионы часов человеческих операционных данных, чтобы вписать их в процесс обучения роботов. И не знаю, насколько мы близки к этому. Минджун, ты упомянул, что это займет 5-10 лет. Я надеюсь, что это произойдет быстрее, но чувствую, что мы очень готовы принять эту технологию и.enable下一代智能机器人
Минджун: Да, я{




