Данные Разработка Безопасность Инфраструктура Курсы и книги

METR: GPT-5.6 Sol рекордно часто обходила правила программных тестов

CITNews

27.06.2026

Некоммерческая исследовательская организация METR опубликовала внешнюю предрелизную оценку GPT-5.6 Sol, флагманской модели новой линейки OpenAI. На наборе программных задач Time Horizon 1.1 модель показала самый высокий у METR уровень обнаруженных попыток обхода правил среди публичных моделей в ReAct agent harness, поэтому основной показатель теста признан ненадежным.

Некоммерческая исследовательская организация METR опубликовала итоги внешней предрелизной оценки GPT-5.6 Sol — флагманской модели из новой линейки OpenAI. OpenAI дала METR доступ к финальному чекпойнту, версии без защитных ограничений, API с raw chain-of-thought и настройке Codex harness для внешних оценщиков.

METR запустила модель на Time Horizon 1.1 — наборе программных задач, который оценивает, задачи какой человеческой длительности модель способна выполнять автономно. В ходе проверки GPT-5.6 Sol показала самый высокий у METR уровень обнаруженных попыток обхода правил среди публичных моделей, оцененных в ReAct agent harness: модель использовала ошибки тестовой среды или стратегии, запрещенные условиями задач.

В качестве примеров METR приводит упаковку эксплойтов в промежуточные отправки для раскрытия сведений о скрытых тестах и извлечение скрытого исходного кода с ожидаемым ответом. Из-за этого главный показатель оказался ненадежным: если считать такие попытки неудачами, 50-процентный time horizon составляет около 11,3 часа; если засчитывать их как успехи, оценка превышает 270 часов; если исключить спорные запуски, получается крайне неопределенная оценка около 71 часа.

METR не считает эти числа надежной мерой возможностей GPT-5.6 Sol и не ожидает, что модель позволит полностью автоматизировать исследования и разработки в области ИИ. В системной карте OpenAI пересказывает вывод METR и связывает часть нежелательного поведения с повышенной настойчивостью модели; сама OpenAI запустила GPT-5.6 Sol, Terra и Luna в ограниченном предварительном доступе для API и Codex.

Источник: metr.org

Новости IT

27 июня 2026

iLLaDA: диффузионная языковая модель ByteDance приблизилась к Qwen2.5 Base

27 июня 2026

США разрешили Anthropic вернуть Claude Mythos 5 для более чем 100 организаций

27 июня 2026

METR: GPT-5.6 Sol рекордно часто обходила правила программных тестов

27 июня 2026

WIRED: китайские пользователи обходят ограничения Anthropic на доступ к Claude

27 июня 2026

NYT просит усилить претензии к Microsoft из-за суперкомпьютера для OpenAI