Данные Разработка Безопасность Инфраструктура Курсы и книги

Microsoft выпустила ASSERT для проверки поведения AI-агентов по текстовым требованиям

CITNews

03.06.2026

Microsoft открыла фреймворк ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing), который преобразует требования к AI-системе, описанные на естественном языке, в исполняемые проверки. Инструмент рассчитан на регрессионное тестирование прикладного поведения агентов и приложений на больших языковых моделях, где общих бенчмарков часто недостаточно.

2 июня 2026 года Microsoft представила фреймворк с открытым кодом ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing). Он предназначен для команд, которым нужно проверять не только общие метрики качества модели, но и конкретные правила своего продукта: политики доступа к данным, ограничения на действия агента, требования к ответам и сценарии эскалации.

ASSERT принимает текстовые спецификации — например продуктовые требования, политики, системные промпты или чек-листы запуска — и превращает их в редактируемую таксономию разрешенного и недопустимого поведения. Затем фреймворк генерирует одно- и многоходовые тестовые сценарии, запускает их против модели, агента или прикладного workflow и оценивает результаты по исходной политике.

Для агентных систем ASSERT может сохранять трассы выполнения: вызовы инструментов, извлеченный контекст, маршрутизацию и промежуточные действия, а не только финальный ответ. Это помогает разбирать, где именно система нарушила требование, и использовать проверки как regression suite при изменении модели, промптов, инструментов или бизнес-логики.

Код доступен в репозитории GitHub под лицензией MIT. В описании проекта указана поддержка проверки модельных endpoint’ов через LiteLLM и агентов через OpenInference; артефакты выполнения сохраняются локально в JSON/JSONL.

Microsoft отдельно отмечает ограничения подхода: ASSERT не заменяет человеческую экспертизу, телеметрию и доменную проверку. Расплывчатые спецификации дают расплывчатые сценарии, а LLM-судьи могут быть нестабильны в тонких или предметно-специфичных случаях.

Источник: commandline.microsoft.com

Новости IT

3 июня 2026

GitHub запустил agent apps для подключения сторонних ИИ-агентов

3 июня 2026

GitHub вывела песочницы для Copilot в публичное превью

3 июня 2026

OpenAI расширила Codex ролевыми плагинами и функцией Sites

3 июня 2026

Microsoft выпустила ASSERT для проверки поведения AI-агентов по текстовым требованиям

3 июня 2026

Microsoft показала Project Solara — платформу на базе AOSP для устройств с ИИ-агентами