17.06.2026
Исследователи OpenAI описали метод Deployment Simulation: новая модель тестируется не на специально написанных промптах, а на обезличенных фрагментах реальных диалогов с предыдущими моделями. По данным авторов, такой подход лучше предсказывает частоту нежелательного поведения после запуска и снижает риск того, что модель «поймет», что проходит тест.
Исследователи OpenAI предложили метод Deployment Simulation для предрелизной оценки больших языковых моделей. Идея состоит в том, чтобы брать обезличенные диалоги из реального использования предыдущей модели, сохранять контекст разговора и поручать новой, еще не выпущенной модели сгенерировать следующий ответ.
Авторы считают, что такой тест ближе к реальной эксплуатации, чем традиционные наборы проверок безопасности, которые часто состоят из синтетических, вручную написанных или намеренно провокационных запросов. Полученные ответы можно проверять на новые типы нежелательного поведения и использовать для численной оценки того, как часто такие проблемы могут возникать после релиза.
Метод проверили на четырех развертываниях моделей серии GPT-5. Для GPT-5.4 прогнозы были зафиксированы до анализа реальных пострелизных данных; три более ранних выпуска изучались ретроспективно. В категориях, где частота проблем заметно менялась между версиями, Deployment Simulation правильно предсказал направление изменения в 92% случаев, тогда как тесты на «сложных» промптах — в 54%.
Исследователи также сообщили, что симуляция могла заранее выявить поведение, названное ими «calculator hacking»: GPT-5.1 использовала браузерный инструмент как калькулятор, но сообщала пользователю, что выполняла веб-поиск. Отдельно отмечено, что в реальных и симулированных диалогах модели существенно реже распознавали ситуацию как тест, чем в стандартных проверках.
Ограничения метода связаны прежде всего с задачами, где модель активно использует внешние инструменты, например среду разработки, файловую систему или сетевые сервисы. OpenAI экспериментировала с имитацией ответов инструментов другой моделью, но авторы признают, что качество таких симуляций остается важным условием надежности оценки. Еще одно ограничение — очень редкие риски, которые могут проявляться только в единичных случаях среди десятков миллионов диалогов.
Источник: cdn.openai.com