Данные Разработка Безопасность Инфраструктура Курсы и книги

Google: GKE Inference Gateway ускоряет ответы LLM

CITNews

10.06.2026

Google Cloud опубликовала результаты теста GKE Inference Gateway — расширения Google Kubernetes Engine для маршрутизации инференса больших языковых моделей. По данным Principled Technologies, в сценарии с общим префиксом запросов GKE показал меньшую задержку и более высокую пропускную способность, чем неназванный сторонний управляемый Kubernetes-сервис с обычной HTTP-балансировкой.

Google Cloud сообщила о результатах тестирования GKE Inference Gateway — компонента Google Kubernetes Engine для маршрутизации запросов к генеративным AI-моделям с учетом состояния model server и кэша.

Ключевая функция, на которой делает акцент Google, — prefix caching. При повторяющихся длинных префиксах промпта, например системных инструкциях, документации или контексте RAG, LLM-сервер может не пересчитывать уже обработанные токены. GKE Inference Gateway направляет следующий запрос на pod, где соответствующий KV cache уже находится в памяти GPU или TPU.

В бенчмарке Principled Technologies сравнивались GKE с GKE Inference Gateway и неназванный сторонний управляемый Kubernetes-сервис со стандартной round-robin HTTP-балансировкой. Тест проводился на Llama 3.1 8B Instruct в сценарии shared prefix; обе конфигурации использовали одинаковое оборудование — восемь GPU NVIDIA A100 40GB.

По опубликованным данным, GKE обеспечил 7169,21 выходного токена в секунду против 6042,05 у сравниваемого сервиса, то есть на 15,7% больше. Среднее время до первого токена составило 188,36 мс против 2624,73 мс, а межтокенная задержка — 30,20 мс против 81,03 мс. Google интерпретирует это как сокращение TTFT на 92,8% и снижение inter-token latency на 62,6%.

Такая оптимизация особенно заметна в приложениях, где многие запросы разделяют значительную часть контекста: корпоративные Q&A-системы поверх документации, чат-боты с неизменяемыми правилами и персонами, кодовые ассистенты и другие сервисы на базе LLM с длинными системными промптами.

Источник: cloud.google.com

Новости IT

10 июня 2026

Госдума одобрила запрет продаж терминалов неразрешенных иностранных спутниковых систем

10 июня 2026

Google описала AI-агентов для Google Security Operations

10 июня 2026

Госдума отклонила обязательную маркировку ИИ-контента

10 июня 2026

Waymo представила модель ReD для сравнения роботакси с водителем-человеком

10 июня 2026

Decart открыла API к Oasis 3 для генерации дорожных сцен