02.07.2026
Индекс Remote Labor Index, оценивающий, как часто ИИ-агенты справляются с реальными оплачиваемыми фриланс-проектами на уровне, который принял бы клиент, показал резкий рост автоматизации. Лучший результат — 16,1% у модели Fable 5 — более чем вчетверо превышает прежний максимум. Тем не менее на большинстве проектов ИИ по-прежнему не дотягивает до профессионального качества.
Организация Center for AI Safety (CAIS, некоммерческая организация по безопасности ИИ) совместно с Scale Labs обновила Remote Labor Index (RLI) — тест, который измеряет, как часто ИИ-агенты доводят до конца реальные, коммерчески ценные фриланс-проекты на уровне качества, который реально принял бы платящий клиент.
Бенчмарк охватывает такие области, как 3D и CAD, архитектура, графический дизайн, видео и анимация, аудио, анализ данных и веб-приложения. В него входят 240 проектов на общую сумму около 144 тыс. долларов, собранных у 358 проверенных фрилансеров. Каждый результат оценивают люди-эксперты, сравнивая его с эталоном, который подготовил оплаченный профессионал. Ключевая метрика — доля проектов, где работа ИИ признана не хуже человеческой (automation rate).
На старте бенчмарка лучший агент автоматизировал лишь 2,5% проектов. По последним данным, модель Fable 5 достигает 16,1% — это самый высокий результат за всё время наблюдений. Показатель примерно вдвое выше, чем у Opus 4.8 (8,3%); GPT-5.5 набирает 6,3%. Все три модели превзошли любую из ранее протестированных систем — прежний лидер, Opus 4.6 в связке с фреймворком Claude Cowork, показывал 4,17%. Таким образом, за неполные восемь месяцев верхняя планка выросла более чем вчетверо.
У результата Fable 5 есть оговорка: оценить успели лишь 218 из 240 проектов, прежде чем власти США ограничили доступ к модели. Даже в худшем сценарии, если бы модель провалила все недостающие проекты, её показатель составил бы 14,6% — всё равно выше остальных. При этом прогресс не совпадает с датами релизов: более новая Gemini 3 Pro в полной таблице Scale Labs оказалась почти в самом низу — около 1,25%, позади заметно более старых систем.
Отдельные примеры показывают, где даже лучшие модели ещё не дотягивают. На задаче по дизайну кольца Fable 5 заметно превосходит прежние ИИ, но при ближайшем рассмотрении выглядит непрофессионально. В архитектурном проекте GPT-5.5 сгенерировала привлекательный рендер с помощью генератора изображений, тогда как сама 3D-модель осталась дефектной.
Команда проверила, можно ли заменить дорогую экспертную оценку на ИИ-судью, и вывод оказался однозначным: автоматический оценщик ставил новым моделям слишком высокие баллы — для GPT-5.5 почти втрое выше реального, для Opus 4.8 примерно в два с половиной раза. Порядок ранжирования ИИ-судья при этом угадывал, но абсолютные значения сильно расходились. По объяснению CAIS, чтобы честно оценить работу, нужно открыть файлы в нужном профессиональном ПО, корректно им пользоваться и вынести суждение как заказчик, — а именно такое практическое обращение с программами хуже всего даётся нынешним агентам.
Чтобы модели могли раскрыть возможности, их запускают в тех же инструментах, что используют разработчики, — Claude Code и Codex CLI, дополненных возможностью управлять графическими программами. Рабочая среда — виртуальная машина на Linux с более чем 30 профессиональными приложениями, включая Blender, GIMP и Audacity; на каждый проект отводится до 24 часов вычислительного времени. Используется и «критический цикл»: второй агент придирчиво проверяет результат, как требовательный клиент, после чего первый агент дорабатывает работу.
На большинстве проектов ИИ по-прежнему не достигает профессионального качества — ни один из показанных результатов Fable 5 не прошёл бы как готовая работа. Тем не менее авторы отмечают, что рост доли автоматизации в пределах одного года стремителен и напрямую отражает скорость автоматизации удалённого труда.
Источник: safe.ai