使用 Gateway API Inference Extension 安装
本指南提供了将 vLLM Semantic Router (vSR) 与 Istio 和 Kubernetes Gateway API Inference Extension (GIE) 集成的分步说明。这种强大的组合允许您使用 Kubernetes 原生 API 管理自托管的 OpenAI 兼容模型,实现高级的 load-aware routing。
架构概览
部署包含三个主要组件:
- vLLM Semantic Router:基于请求内容对传入请求进行分类的智能核心。
- Istio & Gateway API:网络网格和所有进入集群流量的前门。
- Gateway API Inference Extension (GIE):用于管理和扩展自托管模型后端的 Kubernetes 原生 API 集(
InferencePool等)。