АМА: Искусственный интеллект в 2025 году и позже
2 янв. 2025 г.
В этом AMA генеральный директор и соучредитель Sahara AI Шон Рен и Рохан Таори из Anthropic обсуждают самые важные достижения в области ИИ за год и делятся своими мыслями о том, куда движется отрасль в 2025 году. От новых тенденций до будущего ИИ-агентов, они объясняют, что будет дальше и что это означает для ландшафта ИИ.
Ссылка на полную запись: https://x.com/i/spaces/1yNGagBaPZVxj
Джулес Барраган (04:11)
Привет всем! Добро пожаловать на наш первый AMA, "ИИ в 2025 году и далее." Я Джулес из отдела маркетинга Sahara AI, и я буду вашим ведущим сегодня. Мы рады приветствовать двух замечательных гостей:
Шон Рен – наш генеральный директор и соучредитель Sahara AI. Он также является доцентом кафедры компьютерных наук в Университете Южной Калифорнии, где возглавляет лабораторию исследований по интеллекту и открытию знаний.
Рохан Таори – член технического персонала в Anthropic. Если вы еще не слышали об Anthropic, это ведущая организация по безопасности и исследованиям в области ИИ, которая создала очень известный Claude ИИ. У него также есть степень PhD от Лаборатории ИИ Стэнфорда.
Добро пожаловать, Шон и Рохан!
Шон Рен (05:10)
Рад быть здесь.
Рохан Таори (05:12)
Да, спасибо за организацию, Джулес. Рад быть здесь.
Джулес Барраган (05:15)
Спасибо вам обоим за участие! У нас захватывающая повестка дня: мы поговорим о достижениях ИИ этого года, что делает ИИ "великим" и предсказания о будущем. Прежде чем мы погрузимся в тему, краткое напоминание: мы будем раздавать эксклюзивные сувениры, приглашение на наше следующее мероприятие (с одним гостем), и три места в белом списке для нашей Платформы услуг данных, Сезон 1. Чтобы выиграть, просто задавайте вдумчивые вопросы во время AMA в чате. Мы выберем победителей в конце и опубликуем их на X (бывший Twitter).
Давайте начнем с быстрого вопроса к Шону и Рохану: Какое одно достижение ИИ в этом году поразило вас больше всего?
Шон Рен (06:13)
Я могу начать. Я очень взволнован тем, что называется GenIE (сокращение от Генеративные Интерактивные Среды), опубликованное Google DeepMind. Исторически сложилось так, что симуляционные среды для ИИ-агентов были очень тщательно разработаны — много установленных правил и ограничений. Однако с генеративными интерактивными средами вы можете войти в бесконечно множество возможностей. Вы можете представить различные типы игр или сценариев, которые ИИ-агент может исследовать, даже выходящие за рамки того, что физически возможно в реальном мире. Это открывает огромные возможности для обучения и оценки ИИ. Я ожидаю, что другие стороны также начнут делать подобную работу, что будет подталкивать границы того, как ИИ тестируется и разрабатывается. Как вы думаете, Рохан?
Рохан Таори (07:49)
Да, это очень интересно и тесно связано с тем, что я собирался упомянуть: переход к вычислениям во время тестирования и обучению с подкреплением (RL). Исторически сложилось так, что люди сосредоточились на увеличении обучения — предварительном обучении на большем количестве данных и более крупных моделях. Однако масштабирование вычислений во время тестирования для RL расширяет пространство решений. Вы можете иметь более нюансированные распределения данных, более разнообразные среды и множество способов настроить вашу модель так, как вам нужно. Этот новый акцент на вычислениях во время тестирования, в сочетании с тем, что вы упомянули об интерактивных средах, действительно расширяет творческое пространство ИИ. Мы увидим гораздо больше этого в 2025 году.
Джулес Барраган (09:11)
Круто! 2024 год был годом монументальных прорывов. Взглянув назад, как вы оба думаете, какие были некоторые из самых значительных достижений в области ИИ за прошедший год?
Шон Рен (09:32)
Я согласен с акцентом Рохана на масштабируемости во время вывода (или тестирования). Все знают, что масштабирование предварительного обучения — бросание большего количества вычислительных мощностей и данных в эти модели — было успешным, но оно показывает признаки насыщения. Люди в OpenAI и других лабораториях это замечают. Все еще есть много что сделать с пост-обучением (например, тонкая настройка и RLHF), но новая граница заключается в том, чтобы вложить больше интеллекта и вычислений в этап вывода.
Кроме того, меня впечатлили новые, более эффективные архитектуры последовательных моделей, такие как Mamba, модели состояния пространства и другие, которые уменьшают вычислительные требования для обучения и вывода. Это огромно для инженерной и инфраструктурной стороны ИИ.
Рохан Таори (11:07)
Точно. И наряду с более эффективными архитектурами, мы также видим масштабные снижения цен на запуск моделей — потенциально в 10, 100 раз или более для токенов вывода. Это значит, что больше людей могут развертывать и экспериментировать с этими моделями. Также с выпуском Llama 3.1 появляются все более способные открытые модели, что замечательно для сообщества с открытым исходным кодом, любителей и экспериментаторов.
Шон Рен (12:51)
Да, порой я забываю, насколько хорошими стали модели с открытым исходным кодом. Всего лишь один или два года назад открытые модели были довольно ограниченными. Но теперь модели, такие как семья Llama 3, довольно полезны сразу из коробки. Вы можете использовать их для поиска личной информации, обслуживания клиентов или генерации с дополнением извлечения. Вы даже можете обслуживать некоторые из меньших моделей на устройстве благодаря таким методам, как дистилляция модели. Это большое дело для более широкого развертывания.
Рохан Таори (13:35)
Будет интересно увидеть, как развиваются развертывания на устройствах в 2025 году. Люди работают над более качественными схемами квантования и способами уменьшить требования к памяти. Сообщество с открытым исходным кодом действительно продвигает эту границу.
Джулес Барраган (13:50)
Совершенно верно. Одной из тем, которую мы не затронули, является децентрализованный ИИ. Какую роль сыграл децентрализованный ИИ в 2024 году?
Рохан Таори (13:48)
Это интересный вопрос. В 2023 году мы наблюдали значительный импульс на вовлечение сообщества с открытым исходным кодом — создание наборов данных для тонкой настройки Llama 1 и 2, например. С запуском Llama 3.1 и его сильной встроенной тонкой настройкой и RLHF, произошло меньше акцент на наборах данных с инструкциями, созданных сообществом, поскольку официальные версии уже довольно хороши. Но децентрализованный ИИ шире, чем просто создание наборов данных. Это также касается того, как мы можем совместно создавать и делиться моделями, данными и средами для RL. Здесь определенно все еще существует большая возможность, особенно с масштабированием во время тестирования, но для этого потребуются инновации и, возможно, новые стимулы для сообщества.
Шон Рен (16:08)
Да, я полностью согласен. Масштабирование во время вывода делает децентрализованный ИИ более привлекательным. Например, вы можете взять что-то вроде Llama 3 в качестве основы (например, товарного слоя), а затем создать частный или приватный конвейер наверху — такие как специализированные системные подсказки, RAG базы данных или внешняя память с определенными индуктивными смещениями. Этот конвейер становится монетизируемым компонентом. Малые или средние предприятия могут это делать; разработчики могут разворачивать интересные случаи использования. Тогда большой вопрос в том, как создатели базовых моделей будут поддерживать себя. Но пока такие компании, как Meta, продолжают обновлять Llama, это приносит пользу всей экосистеме.
Джулес Барраган (17:59)
Отличные идеи. Шон, вы кратко затронули данные. Sahara AI недавно запустила Платформу услуг данных, и в Sahara мы часто говорим: "Хороший ИИ требует хороших данных." Почему мы начали с Платформы услуг данных, и что это значит для ИИ?
Шон Рен (18:17)
Все знают, что данные — это "новая нефть" для ИИ, но ими должны быть качественные данные. Вы можете проходить по интернету, но получите шумные данные. Если вы создаете ИИ-приложение в определенной области, вам нужны хорошо отобранные, сбалансированные данные — без серьезных предвзятостей, без нерелевантного шума. Вот почему услуги по работе с данными (сбор, очистка, маркировка) все еще представляют собой огромную индустрию.
Следующий уровень заключается в том, чтобы выяснить, как стимулировать людей делиться ценными данными, не беспокоясь о том, что они потеряют право собственности или потенциальный доход. Вы хотите предоставить возможность постоянного дележа доходов для поставщиков данных, если их данные используются для обучения или улучшения модели, которая в конечном итоге зарабатывает деньги. Вот где происхождение данных становится критически важным — отслеживание происхождения и использования, чтобы, если работа поставщика данных окажется в прибыльном приложении, они могли получать доход.
Мы начали с Платформы услуг данных, потому что это основа для всего этого. Мы хотим создать рынок, где уникальные наборы данных встретятся с разработчиками моделей. Позже мы сможем позволить более сложные взаимодействия, такие как разделение доходов от получившихся моделей или приложений.
Рохан Таори (21:20)
Точно. И смотря на 2025 год, увеличение вычислений во время тестирования и RL потребует не только текстовых данных, но и интерактивных сред. Это еще один вид "данных" и новый аспект настройки модели. Представьте себе краудсорсинговые среды или задачи, которые эти агенты могут исследовать. Те же механизмы стимула применимы: как мы можем вознаградить участников этих сред или специализированных наборов данных?
Джулес Барраган (23:49)
Отлично. Рохан, вы упомянули, что мы перешли от "ИИ помощников" к "ИИ агентам". По мере приближения к 2025 году, какие другие большие тенденции вы видите на горизонте?
Рохан Таори (30:17)
Мы затронули многие из них: больше агентных систем, больше вычислений во время тестирования и большие снижения затрат. Эти тенденции в сочетании сделают ИИ дешевле, быстрее, умнее и более универсальным. Я особенно рад мультимодальности. Мы уже видели прорывы с моделями, которые принимают текст, изображения, аудио и даже видеопотоки (как новые демо Google с Gemini). В 2025 году мы увидим взрыв мультимодальных моделей — как проприетарных, так и с открытым исходным кодом — где вы сможете разговаривать с ИИ, используя любую модальность и получать ответы в нескольких формах. Это откроет огромные новые приложения. Это также увеличит проблему с данными, поскольку теперь мы имеем дело с текстом, изображениями, аудио, видео, 3D данными и другими.
Шон Рен (32:05)
Да, меня также волнуют "контекстуализированные" модели, которые интегрируют сигналы помимо текста — речь, изображения, данные об окружающей среде и т. д. — для создания более естественных взаимодействий. Например, вы можете записать быстрое видео и попросить ИИ наблюдать или рассуждать о том, что он видит. Реальные примеры использования становятся гораздо более убедительными и практичными. С бизнес-стороны эти более богатые модели увеличивают производительность (автоматизация повторяющихся задач, интеграция с корпоративными системами) и развлечения (впечатляющие, похожие на игру, опыты). Мне интересно, увидим ли мы совершенно новое "убийственное приложение", которое выйдет из мультимодального ИИ. В любом случае это определенно улучшит то, что уже существует.
Джулес Барраган (35:16)
Мы достигли этапа, когда ИИ кажется повсеместным. Мое поколение выросло как интернет-адепты; следующее поколение может вырасти как ИИ-адепты. Как далеко это?
Рохан Таори (35:43)
Скорее, чем мы думаем! Даже сейчас странно, что ваш компьютер не "понимает" вас, если вы не нажимаете кнопки или не вводите команды определенным образом. Через несколько лет детям будет странно, как мы использовали компьютеры в 2023 или 2024 году. Они будут спрашивать: "Что вы имеете в виду, когда говорите, что вам нужно нажимать все эти иконки для Photoshop?" Они будут ожидать, что просто скажут "Эй, компьютер, сделай это", и он это сделает. Этот переход будет таким же масштабным, как переход от бумажных карт к Google Maps.
Шон Рен (36:59)
Да, это переопределит "инженерное дело" или "производительность". В настоящее время вам нужны навыки программирования. Но вскоре агент сможет написать целые кодовые базы по единственному запросу на естественном языке. Нам понадобится новое мышление об образовании тоже. Будем ли мы все еще обучать всех Python, или сосредоточимся на обучении людей управлять и контролировать ИИ-системы? Этика, философия и управление останутся критически важными, потому что нам нужно обеспечить соответствие этих ИИ-систем человеческим ценностям.
Рохан Таори (39:17)
Это интересный вопрос. Исчезнут ли навыки программирования как специализированные, или они станут такими же распространенными, как изучение английского в школе? Мы можем оказаться в мире, где каждый имеет некую программную грамотность, потому что это важный способ контролировать ИИ. Или мы можем увидеть экосистему "мета-агентов", которые создают, проверяют и поддерживают программное обеспечение, получая лишь высокоуровневые указания от людей.
Джулес Барраган (41:22)
Давайте оставим немного времени для вопросов от аудитории. Один из вопросов: "Какие этические границы мы должны установить для ИИ, способного создавать другие ИИ?"
Рохан Таори (45:20)
Захватывающий вопрос. Здесь есть, по крайней мере, два аспекта:
ИИ, улучшающий или создающий новый ИИ: Это может означать рекурсивное самосовершенствование или дистилляцию модели. Мы должны обеспечить, чтобы вновь созданные ИИ оставались согласованными и безопасными. Это требует надежных ограничений и оценок после каждого поступательного увеличения возможностей. ИИ-лаборатории работают над этим, но это огромная задача, особенно в вопросе о том, как измерить риск или "возможность взлома".
ИИ, порождающий больше вычислений для задач: Другой вопрос в том, сколько вычислительной мощности мы позволяем ИИ использовать одновременно, или позволяем ли мы ему самостоятельно запускать несколько агентов. Это также требует тщательного тестирования. Итеративный подход к развертыванию — когда мы тестируем новые возможности, видим, нарушают ли они согласование, и затем продолжаем — будет ключевым.
Шон Рен (48:05)
Да. В ближайшие сроки те же методы согласования, которые мы используем сегодня, применимы к сценариям ИИ, создающему ИИ — дистилляция модели, самоигра или улучшение с помощью нескольких агентов. Это не совершенно отдельная проблема, хотя она поднимает ставки. Нам просто нужно быть особенно внимательными.
Джулес Барраган (49:05)
Еще один вопрос: "Как близки мы к достижению AGI и что это означало бы для человечества?"
Рохан Таори (49:07)
Трудно сказать, потому что AGI значит разное для разных людей. Некоторые определяют его по экономическому воздействию, другие — по способности ИИ к рекурсивному самосовершенствованию. Но в целом возможности ИИ развиваются так быстро, что социокультурные трансформации произойдут быстрее, чем предыдущие технологические волны (например, интернет). Я не думаю, что все изменится в 2025 году, но мы увидим крупные прорывы, особенно в мультимодальности и расширенном рассуждении.
Шон Рен (50:23)
Да, это зависит от определений. Если вы называете высокоэффективную мультимодальную модель "AGI", это может быть через год или два. Или если вы имеете в виду что-то полностью согласованное и самосовершенствующееся, это может занять больше времени. Но более продуктивно сосредоточиться на реальном согласовании и безопасности, чем просто отсчитывать время до "AGI".
Джулес Барраган (51:23)
Следующий вопрос: "Как мы можем побудить сообщество с открытым исходным кодом более активно участвовать в разработке и улучшении процессов тонкой настройки моделей, особенно в децентрализованном ИИ?"
Шон Рен (51:42)
Тонкая настройка больших моделей дорого стоит — вычисления и данные являются реальными препятствиями. Один из подходов заключается в создании новых стимулов. Например, если вы вносите данные для тонкой настройки, вы должны разделить доход, если настроенная модель будет коммерциализирована. Это означает создание платформ, которые отслеживают происхождение данных и использование, чтобы участники не просто отдали данные бесплатно. Также для вычислений может понадобиться децентрализованный или управляемый сообществом кластер, чтобы уменьшить нагрузку на любую одну сторону.
Рохан Таори (52:33)
Да. Также нам следует расширить рамки не только тонкой настройки на основе текста, но и RL и настройки на основе среды. Это может означать, что людям нужно строить или вносить "мини-среды", которые помогают формировать поведение агентов. Но главный вопрос — это как обеспечить достаточно вычислений для этого — так что это сводится к созданию хороших платформ и моделей финансирования для сообщества с открытым исходным кодом.
Джулес Барраган (53:16)
Последний вопрос аудитории: "Сколько времени пройдет, прежде чем ИИ можно будет полностью отделить от человеческого компонента?"
Шон Рен (53:16)
Честно говоря, я не думаю, что это должно быть полностью отделено. Это создает сценарии, как в Матрице, где люди оказываются источником энергии для ИИ. Я предпочел бы видеть, чтобы люди и ИИ оставались тесно связаны, постоянно согласуя ИИ с человеческой этикой, ценностями и контролем.
Рохан Таори (54:03)
Да, полностью согласен. Крайне важно, чтобы они оставались в совместном согласовании.
Джулес Барраган (54:09)
Это все, что у нас есть времени. Спасибо всем, что присоединились к нам сегодня, и спасибо Шону и Рохану за то, что поделились своими идеями. Мы скоро выберем победителей призов и объявим их на X.
Несколько заключительных заметок:
Не забудьте подписаться на нас в X (Twitter) и присоединиться к нашему Discord.
Запишитесь в наш список ожидания: Сезон 2 нашей Платформы услуг данных скоро наступит! Мы всегда сначала делимся альфа-информацией со списком ожидания.
Мы планируем еще один AMA в Twitter Spaces через две недели, так что следите за новостями, когда мы движемся в новый год.
Спасибо еще раз за участие!