10.06.2026
Google Cloud опубликовала результаты теста GKE Inference Gateway — расширения Google Kubernetes Engine для маршрутизации инференса больших языковых моделей. По данным Principled Technologies, в сценарии с общим префиксом запросов GKE показал меньшую задержку и более высокую пропускную способность, чем неназванный сторонний управляемый Kubernetes-сервис с обычной HTTP-балансировкой.
Google Cloud сообщила о результатах тестирования GKE Inference Gateway — компонента Google Kubernetes Engine для маршрутизации запросов к генеративным AI-моделям с учетом состояния model server и кэша.
Ключевая функция, на которой делает акцент Google, — prefix caching. При повторяющихся длинных префиксах промпта, например системных инструкциях, документации или контексте RAG, LLM-сервер может не пересчитывать уже обработанные токены. GKE Inference Gateway направляет следующий запрос на pod, где соответствующий KV cache уже находится в памяти GPU или TPU.
В бенчмарке Principled Technologies сравнивались GKE с GKE Inference Gateway и неназванный сторонний управляемый Kubernetes-сервис со стандартной round-robin HTTP-балансировкой. Тест проводился на Llama 3.1 8B Instruct в сценарии shared prefix; обе конфигурации использовали одинаковое оборудование — восемь GPU NVIDIA A100 40GB.
По опубликованным данным, GKE обеспечил 7169,21 выходного токена в секунду против 6042,05 у сравниваемого сервиса, то есть на 15,7% больше. Среднее время до первого токена составило 188,36 мс против 2624,73 мс, а межтокенная задержка — 30,20 мс против 81,03 мс. Google интерпретирует это как сокращение TTFT на 92,8% и снижение inter-token latency на 62,6%.
Такая оптимизация особенно заметна в приложениях, где многие запросы разделяют значительную часть контекста: корпоративные Q&A-системы поверх документации, чат-боты с неизменяемыми правилами и персонами, кодовые ассистенты и другие сервисы на базе LLM с длинными системными промптами.
Источник: cloud.google.com