Данные Разработка Безопасность Инфраструктура Курсы и книги

ИИ-агенты научились выполнять на профессиональном уровне 16% фриланс-заказов против 2,5% восемь месяцев назад

CITNews

02.07.2026

Индекс Remote Labor Index, оценивающий, как часто ИИ-агенты справляются с реальными оплачиваемыми фриланс-проектами на уровне, который принял бы клиент, показал резкий рост автоматизации. Лучший результат — 16,1% у модели Fable 5 — более чем вчетверо превышает прежний максимум. Тем не менее на большинстве проектов ИИ по-прежнему не дотягивает до профессионального качества.

Организация Center for AI Safety (CAIS, некоммерческая организация по безопасности ИИ) совместно с Scale Labs обновила Remote Labor Index (RLI) — тест, который измеряет, как часто ИИ-агенты доводят до конца реальные, коммерчески ценные фриланс-проекты на уровне качества, который реально принял бы платящий клиент.

Бенчмарк охватывает такие области, как 3D и CAD, архитектура, графический дизайн, видео и анимация, аудио, анализ данных и веб-приложения. В него входят 240 проектов на общую сумму около 144 тыс. долларов, собранных у 358 проверенных фрилансеров. Каждый результат оценивают люди-эксперты, сравнивая его с эталоном, который подготовил оплаченный профессионал. Ключевая метрика — доля проектов, где работа ИИ признана не хуже человеческой (automation rate).

На старте бенчмарка лучший агент автоматизировал лишь 2,5% проектов. По последним данным, модель Fable 5 достигает 16,1% — это самый высокий результат за всё время наблюдений. Показатель примерно вдвое выше, чем у Opus 4.8 (8,3%); GPT-5.5 набирает 6,3%. Все три модели превзошли любую из ранее протестированных систем — прежний лидер, Opus 4.6 в связке с фреймворком Claude Cowork, показывал 4,17%. Таким образом, за неполные восемь месяцев верхняя планка выросла более чем вчетверо.

У результата Fable 5 есть оговорка: оценить успели лишь 218 из 240 проектов, прежде чем власти США ограничили доступ к модели. Даже в худшем сценарии, если бы модель провалила все недостающие проекты, её показатель составил бы 14,6% — всё равно выше остальных. При этом прогресс не совпадает с датами релизов: более новая Gemini 3 Pro в полной таблице Scale Labs оказалась почти в самом низу — около 1,25%, позади заметно более старых систем.

Отдельные примеры показывают, где даже лучшие модели ещё не дотягивают. На задаче по дизайну кольца Fable 5 заметно превосходит прежние ИИ, но при ближайшем рассмотрении выглядит непрофессионально. В архитектурном проекте GPT-5.5 сгенерировала привлекательный рендер с помощью генератора изображений, тогда как сама 3D-модель осталась дефектной.

Команда проверила, можно ли заменить дорогую экспертную оценку на ИИ-судью, и вывод оказался однозначным: автоматический оценщик ставил новым моделям слишком высокие баллы — для GPT-5.5 почти втрое выше реального, для Opus 4.8 примерно в два с половиной раза. Порядок ранжирования ИИ-судья при этом угадывал, но абсолютные значения сильно расходились. По объяснению CAIS, чтобы честно оценить работу, нужно открыть файлы в нужном профессиональном ПО, корректно им пользоваться и вынести суждение как заказчик, — а именно такое практическое обращение с программами хуже всего даётся нынешним агентам.

Чтобы модели могли раскрыть возможности, их запускают в тех же инструментах, что используют разработчики, — Claude Code и Codex CLI, дополненных возможностью управлять графическими программами. Рабочая среда — виртуальная машина на Linux с более чем 30 профессиональными приложениями, включая Blender, GIMP и Audacity; на каждый проект отводится до 24 часов вычислительного времени. Используется и «критический цикл»: второй агент придирчиво проверяет результат, как требовательный клиент, после чего первый агент дорабатывает работу.

На большинстве проектов ИИ по-прежнему не достигает профессионального качества — ни один из показанных результатов Fable 5 не прошёл бы как готовая работа. Тем не менее авторы отмечают, что рост доли автоматизации в пределах одного года стремителен и напрямую отражает скорость автоматизации удалённого труда.

Источник: safe.ai

Новости IT

2 июля 2026

Google Cloud прошёл оценку защиты данных нидерландского госсектора (DPIA)

2 июля 2026

NVIDIA запускает модель разделения выручки с облаками, чтобы масштабировать ИИ-инфраструктуру

2 июля 2026

Google расширяет AI-функции AlloyDB: новые операторы и ускорение обработки LLM-запросов

2 июля 2026

ИИ-агенты научились выполнять на профессиональном уровне 16% фриланс-заказов против 2,5% восемь месяцев назад

2 июля 2026

Venice AI привлекла $65 млн и достигла оценки в $1 млрд