使用 Envoy AI Gateway 安装
本指南提供了在 Kubernetes 上将 vLLM Semantic Router 与 Envoy AI Gateway 集成的分步说明,以实现高级流量管理和 AI 特定功能。
架构概览
部署包含以下组件:
- vLLM Semantic Router:提供智能请求路由和语义理解
- Envoy Gateway:核心网关功能和流量管理
- Envoy AI Gateway:基于 Envoy Gateway 构建的 LLM Provider AI Gateway
集成优势
将 vLLM Semantic Router 与 Envoy AI Gateway 集成,为生产级 LLM 部署提供企业级能力:
1. 混合模型选择
在云端 LLM 提供商(OpenAI、Anthropic 等)和自托管模型之间无缝路由请求。
2. Token 速率限制
通过细粒度速率限制保护您的基础设施并控制成本:
- 输入 token 限制:控制请求大小以防止滥用
- 输出 token 限制:管理响应生成成本
- 总 token 限制:为每个用户/租户设置总体使用配额
- 基于时间窗口:配置每秒、每分钟或每小时的限制