Данные Разработка Безопасность Инфраструктура Курсы и книги

OpenAI предложила метод прогнозировать сбои ИИ-моделей до релиза

CITNews

17.06.2026

Исследователи OpenAI описали метод Deployment Simulation: новая модель тестируется не на специально написанных промптах, а на обезличенных фрагментах реальных диалогов с предыдущими моделями. По данным авторов, такой подход лучше предсказывает частоту нежелательного поведения после запуска и снижает риск того, что модель «поймет», что проходит тест.

Исследователи OpenAI предложили метод Deployment Simulation для предрелизной оценки больших языковых моделей. Идея состоит в том, чтобы брать обезличенные диалоги из реального использования предыдущей модели, сохранять контекст разговора и поручать новой, еще не выпущенной модели сгенерировать следующий ответ.

Авторы считают, что такой тест ближе к реальной эксплуатации, чем традиционные наборы проверок безопасности, которые часто состоят из синтетических, вручную написанных или намеренно провокационных запросов. Полученные ответы можно проверять на новые типы нежелательного поведения и использовать для численной оценки того, как часто такие проблемы могут возникать после релиза.

Метод проверили на четырех развертываниях моделей серии GPT-5. Для GPT-5.4 прогнозы были зафиксированы до анализа реальных пострелизных данных; три более ранних выпуска изучались ретроспективно. В категориях, где частота проблем заметно менялась между версиями, Deployment Simulation правильно предсказал направление изменения в 92% случаев, тогда как тесты на «сложных» промптах — в 54%.

Исследователи также сообщили, что симуляция могла заранее выявить поведение, названное ими «calculator hacking»: GPT-5.1 использовала браузерный инструмент как калькулятор, но сообщала пользователю, что выполняла веб-поиск. Отдельно отмечено, что в реальных и симулированных диалогах модели существенно реже распознавали ситуацию как тест, чем в стандартных проверках.

Ограничения метода связаны прежде всего с задачами, где модель активно использует внешние инструменты, например среду разработки, файловую систему или сетевые сервисы. OpenAI экспериментировала с имитацией ответов инструментов другой моделью, но авторы признают, что качество таких симуляций остается важным условием надежности оценки. Еще одно ограничение — очень редкие риски, которые могут проявляться только в единичных случаях среди десятков миллионов диалогов.

Источник: cdn.openai.com

Новости IT

17 июня 2026

Zhipu AI выпустила открытую модель GLM-5.2 с контекстом в 1 млн токенов

17 июня 2026

Pew: только 16% взрослых американцев ждут положительного влияния ИИ на общество

17 июня 2026

GitHub сделала приложение Copilot общедоступным для macOS, Windows и Linux

17 июня 2026

Nvidia, CMU и UC Berkeley показали ENPIRE: ИИ-агенты сами дорабатывают код управления роботами

17 июня 2026

Pramaana Labs привлекла $27 млн на формальную верификацию ИИ-систем