Как Sahara AI способствовала прорыву MIT в обучении ИИ-агентов, которые используют компьютеры как люди

Когда исследовательской команде MIT понадобилось обучить ИИ-агентов, способных ориентироваться в реальных операционных системах, они столкнулись с проблемой, которую никто другой не мог решить. Sahara AI предоставила один из самых комплексных наборов данных о реальном взаимодействии человека и компьютера, когда-либо созданных для обучения агентов, обеспечив работу OSGym — теперь ведущей open-source инфраструктуры для обучения агентов, использующих компьютер.

Обещание автономных ИИ-агентов реально: агенты, которые управляют вашим календарём, ведут ваши финансы, проводят ваши исследования и выполняют сложные рабочие процессы от вашего имени. Инструменты вроде Claude от Anthropic с функцией использования компьютера, Operator от OpenAI и open-source проекты вроде OpenClaw уже дают эту возможность пользователям.

Но между «впечатляющим демо» и «автономностью уровня production» есть разрыв, который большая часть индустрии всё ещё пытается закрыть. Модели сбоят на многошаговых задачах, теряют контекст между приложениями и не умеют восстанавливаться, когда происходит что-то неожиданное. Агенты могут следовать сценарию. Но чего они пока не могут делать надёжно — это продумывать реальный рабочий процесс так, как это делает человек: переключаться между приложениями, восстанавливаться после ошибок, ориентироваться в незнакомых интерфейсах, связывать действия в цепочку, не теряя нить.

Ограничивающий фактор здесь — не интеллект модели; это обучающие данные. Большая часть обучения агентов по-прежнему опирается на синтетические среды или узкие песочницы, которые не отражают хаотичный, нелинейный способ реальной работы людей. Чтобы это исправить, нужно реальное человеческое поведение, зафиксированное в масштабе и размеченное с глубиной, позволяющей обучить агента не только тому, что делать, но и тому, как думать. Именно эту задачу Sahara AI решила для MIT.

Sahara AI потратила годы на создание и внедрение агентного ИИ в живых production-средах для некоторых ведущих предприятий мира. Мы знаем, как агенты ломаются, почему они дают сбои в реальных условиях и как именно должны выглядеть обучающие данные, чтобы сделать их надёжными в масштабе. Именно эта глубина опыта — причина, по которой MIT выбрал партнёрство с нами.

Что на самом деле нужно, чтобы обучить ИИ-агента пользоваться компьютером как человек

Почти за год Sahara AI реализовала одну из самых амбициозных программ сбора мультимодальных данных из реального мира, когда-либо предпринятых для обучения агентов работе с компьютером. Такой масштаб стал возможен только благодаря платформе Data Services от Sahara AI — глобальной сети из более чем 200 000 предварительно проверенных разметчиков в более чем 35 странах, охватывающей всё разнообразие операционных систем, рабочих процессов и человеческого поведения, которое агентам MIT необходимо было освоить.

Наши экспертные аннотаторы собрали высокоточные данные о взаимодействиях во всех ключевых средах, которые должен освоить агент для работы с компьютером, — в рабочих процессах macOS, Windows и Ubuntu. Это включало всё: от повседневного использования веба на разных платформах до приложений для программирования и инструментов разработчика, а также сложных последовательностей задач между разными приложениями.

В результате были получены мультимодальные обучающие данные, включая скриншоты UI, журналы операций, пошаговые последовательности взаимодействий и метаданные контекста задач. Затем эти данные прошли валидацию через многоуровневую систему QA, достигнув 88%–100% точности на уровне батчей. Для этой категории данных не существовало сопоставимого публичного датасета. Sahara AI создала его с нуля, в масштабе и в сжатые сроки.

Эти данные стали основой обучения агентов, которые впоследствии легли в основу OSGym — open-source инфраструктуры, созданной MIT для масштабирования обучения агентов работе с компьютером до тысяч параллельных реплик ОС.

Этап 2: Учим агентов лучше ошибаться 

Сбор обучающих данных был лишь половиной уравнения. Следующим шагом было системно научить агентов понимать, где именно они ошиблись и почему.

Sahara AI разработала структурированную программу коррекции, охватывающую множество реальных веб-сайтов в широком спектре повседневных категорий использования. Для каждой оцениваемой задачи наша команда разбирала каждую ошибку, чтобы понять, что пошло не так. Каждая коррекция фиксировала цепочку рассуждений агента, классифицировала тип ошибки (логика, навигация, недопонимание, последовательность), оценивала ход мысли и сопоставляла альтернативные оптимальные пути.

Эти структурированные шаги записывались, проверялись и аннотировались, формируя сигналы супервизии с высокой степенью детализации, далеко выходящие за рамки бинарного pass/fail. Именно это превращает посредственного агента в такого, который превосходит текущий state of the art.

Объединяя всё вместе, чтобы создать одну из лучших моделей работы с компьютером

Обе фазы подпитывали друг друга. Sahara собирала реальные человеческие данные. MIT обучал на них агентов. Sahara оценивала и корректировала агентов. MIT дорабатывал модели. И так по кругу.

То, что сделало этот цикл эффективным, — не сама его структура, а экспертиза внутри него. Каждая коррекция, внесённая Sahara AI, исходила от команды, которая создаёт и внедряет агентный ИИ в production. Мы не аннотировали поведение, о котором читали. Мы диагностировали режимы отказа, которые видели своими глазами — в живых средах и в масштабе предприятий. Именно это сделало сигналы супервизии достаточно достоверными, чтобы действительно сдвинуть модель вперёд.

За шесть месяцев результаты накопились: снижение частоты ошибок в сложных задачах, улучшение стабильности рассуждений, лучшее восстановление после неожиданных сбоев, более сильная обобщающая способность в средах, с которыми агенты раньше не сталкивались. На OSWorld — стандартном бенчмарке для оценки того, насколько хорошо ИИ-агенты выполняют реальные компьютерные задачи в живых операционных системах, — показатели после обучения выросли на 30%.

Итоговым продуктом стал OSGym — система, которая параллелизует более тысячи реплик ОС, генерирует 1 420 многоходовых траекторий в минуту и работает всего за $0.20–$0.30 в день на одну реплику. Теперь она полностью open-source: код на GitHub, а датасеты — на HuggingFace.

В этом и заключается преимущество Sahara AI. Наши возможности по данным существуют потому, что мы создаём агентный ИИ, а не наоборот. Когда мы работаем с предприятиями и исследовательскими лабораториями, мы привносим годы опыта production-ИИ в каждое решение о том, что собирать, как это размечать и как замыкать цикл, пока модель не начнёт показывать нужный результат.

Как резюмировал один из участников исследовательской команды MIT: "Мы определённо снова будем работать с Sahara AI и рекомендуем их другим исследовательским командам. Sahara предоставила большой объём высококачественных данных в очень короткие сроки и сыграла очень важную роль в нашем процессе обучения."

Работайте с Sahara AI для корпоративных сервисов данных

От поддержки OSGym в MIT до MATHVISTA в Microsoft Research — Sahara AI создала одну из самых продвинутых платформ сервисов данных в индустрии.

Глобальный охват — более 200 000 предварительно проверенных разметчиков в более чем 35 странах, охват 45+ языков и диалектов.

Покрытие мультимодальности — разметка текста, изображений, видео и аудио.

Разнообразная доменная экспертиза — от математических рассуждений до коррекции поведения агентов, финансов и не только.

Синергия ИИ и человека — комбинированная разметка с участием ИИ и human-in-the-loop для скорости и точности.

Вот почему Microsoft, Amazon, Snap и MIT доверяют Sahara AI, когда точность, скорость и надёжность не подлежат компромиссам.

Узнать больше: https://saharaai.com/data-services-enterprise 

О Sahara AI: Sahara AI — это компания в области агентного ИИ, нацеленная на то, чтобы сделать ИИ более доступным и справедливым. Мы создаём базовые протоколы, инфраструктуру и приложения, которые позволяют персональным агентам предвосхищать и выполнять действия от вашего имени. Чтобы это работало, инфраструктура должна быть надёжной: проверяемое исполнение, применимые политики использования и автоматическое распределение ценности между каждым инструментом, моделью и сервисом, с которыми взаимодействует агент. Sahara создаёт растущий набор приложений на базе агентов поверх этого фундамента, включая Sorin — вашего персонального агента для глобальных цифровых рынков. Наши решения уже обеспечивают работу ИИ-агентов и высококачественных данных для потребителей, компаний из Fortune 500 и ведущих исследовательских лабораторий, включая Microsoft, Amazon, MIT, Motherson и Snap.