安装
本指南将帮助您安装和运行 vLLM Semantic Router。Router 完全在 CPU 上运行,推理不需要 GPU。
系统要求
注意
无需 GPU - Router 使用优化的 BERT 模型在 CPU 上高效运行。
要求:
- Python: 3.10 或更高版本
- Docker: 运行 Router 容器所需
快速开始
1. 安装 vLLM Semantic Router
# 创建虚拟环境(推荐)
python -m venv vsr
source vsr/bin/activate # Windows 上: vsr\Scripts\activate
# 从 PyPI 安装
pip install vllm-sr
验证安装:
vllm-sr --version
2. 启动 vllm-sr
vllm-sr serve
如果当前目录还没有 config.yaml,vllm-sr serve 会自动 bootstrap 一个最小工作区,并以 setup mode 启动 dashboard。
Router 将:
- 自动下载所需的 ML 模型(约 1.5GB,一次性)
- 在端口 8700 上启动 dashboard
- 激活后在端口 8888 上启动 Envoy Proxy
- 激活后启动 Semantic Router 服务
- 在端口 9190 上启用 metrics
3. 打开 Dashboard
在浏览器中打开 http://localhost:8700。
首次使用时:
- 先配置一个或多个模型。
- 选择 routing preset,或保留 single-model baseline。
- 激活生成的配置。
激活后,config.yaml 会写入当前目录,Router 会退出 setup mode。