30.05.2026
OpenAI, разработчик ChatGPT, опубликовала руководство для сторонних организаций, проводящих оценку передовых ИИ-систем. Документ описывает, как проверять возможности моделей и устойчивость защитных механизмов, а также как корректно интерпретировать результаты тестов. Цель — повысить прозрачность и доверие к заявлениям о безопасности frontier-моделей.
Компания OpenAI, разработчик ChatGPT, опубликовала руководство для независимых (сторонних) организаций, которые оценивают передовые ИИ-системы. Под frontier-моделями (передовыми моделями) понимаются наиболее мощные на сегодня модели; их независимая проверка призвана давать дополнительные свидетельства в пользу заявлений об их возможностях и безопасности.
Ключевой акцент в документе сделан на так называемой «оснастке» (harness) — окружении, в котором модель тестируется. По мнению OpenAI, именно эта обвязка существенно влияет на поведение системы: на то, как она использует инструменты, удерживает контекст и восстанавливается после ошибок. Из-за этого одна и та же модель может показывать разные результаты в зависимости от условий теста, что важно учитывать при чтении отчётов.
OpenAI предлагает, чтобы полезный отчёт об оценке явно описывал две вещи помимо самого результата: какое именно утверждение проверял тест и какие есть свидетельства того, что результат достоверен. Проверяемые в оценках утверждения компания делит на три типа: выявление возможностей (способна ли модель в принципе продемонстрировать оцениваемую способность), устойчивость защитных механизмов (насколько надёжно срабатывают тестируемые защиты против определённого поведения или атаки) и сравнение (как разные модели ведут себя в одинаковых условиях).
Рекомендации адресованы прежде всего внешним оценщикам и тем, кто опирается на результаты таких проверок, включая корпоративных и государственных заказчиков. Стандартизация описания условий тестирования и интерпретации результатов, по замыслу OpenAI, должна сделать независимые оценки более сопоставимыми и укрепить экосистему безопасности ИИ.
Источник: openai.com