使用 Gateway API Inference Extension 安装
本指南提供了将 vLLM Semantic Router (vSR) 与 Istio 和 Kubernetes Gateway API Inference Extension (GIE) 集成的分步说明。这种强大的组合允许您使用 Kubernetes 原生 API 管理自托管的 OpenAI 兼容模型,实现高级的 load-aware routing。
架构概览
部署包含三个主要组件:
- vLLM Semantic Router:基于请求内容对传入请求进行分类的智能核心。
- Istio & Gateway API:网络网格和所有进入集群流量的前门。
- Gateway API Inference Extension (GIE):用于管理和扩展自托管模型后端的 Kubernetes 原生 API 集(
InferencePool等)。
集成优势
将 vSR 与 Istio 和 GIE 集成,为服务 LLM 提供了一个强大的 Kubernetes 原生解决方案,具有以下关键优势:
1. Kubernetes 原生 LLM 管理
使用熟悉的自定义资源定义 (CRD) 通过 kubectl 直接管理您的模型、路由和扩展策略。
2. 智能模型和副本路由
结合 vSR 基于提示词的模型路由与 GIE 的智能负载感知副本选择。这确保请求不仅发送到正确的模型,还发送到最健康的副本,一次高效跳转完成所有操作。
3. 保护模型免受过载
内置调度器跟踪 GPU 负载和请求队列,在高需求时自动卸载流量,防止模型服务器崩溃。
4. 深度可观测性
从高级别 Gateway 指标和详细的 vSR 性能数据(如 token 使用和分类准确性)获取洞察,以监控和排查整个 AI 堆栈。
5. 安全的多租户
使用标准 Kubernetes 命名空间和 HTTPRoute 隔离租户工作负载。在共享公共安全网关基础设施的同时应用速率限制和其他策略。
支持的后端模型
此架构旨在与任何暴露 OpenAI 兼容 API 的自托管模型配合使用。本指南中的演示模型使用 vLLM 服务 Llama3 和 Phi-3,但您可以轻松地用自己的模型服务器替换它们。