核心能力
AI Gateway 围绕企业 AI 服务治理的核心诉求,提供以下七项主要能力:
1. 统一的 AI API 接入
AI Gateway 兼容 OpenAI API 协议,为应用提供统一的调用入口,屏蔽不同模型服务之间的接口差异。
无论底层使用的是:
- 企业内部部署的推理服务(如 vLLM、SGLang、TGI)
- 第三方 SaaS 模型服务
- 多个不同来源的模型能力
业务系统都只需要接入一套 API,即可完成统一调用。
目前支持的 AI 能力类型包括:
| AI 能力 | API 端点 | 说明 |
|---|---|---|
| 文本生成 | /v1/chat/completions | 支持流式与非流式 |
| Embedding | /v1/embeddings | 文本向量化 |
| 文生图 | /v1/images/generations | 文本生成图像 |
| 语音转文字 | /v1/audio/transcriptions | 音频转录 |
| 视频生成 | /v1/videos | 文生视频 / 图生视频 |
| MCP 代理 | /v1/mcp/* | MCP 服务转发 |
| Agent 代理 | /v1/agent/:type/* | Agent 服务代理 |
| Sandbox 代理 | /v1/sandboxes/:name/* | 沙箱环境代理 |
2. 多模型与多服务商统一调度
AI Gateway 支持为同一个模型配置多个上游供应商,并通过统一的路由能力实现模型调度与流量分发。支持:
- 会话级粘性路由:保障多轮对话连续性
- 加权轮询负载均衡:按权重将流量分发到多个实例
- 基于健康状态的动态路由:自动剔除响应异常的节点
- 自动故障隔离:异常节点触发熔断后自动从 路由中移除
即使底层模型来自不同厂商或不同部署环境,也可以通过统一入口稳定提供服务。
3. 认证与额度管理
AI Gateway 提供统一的认证与访问控制能力。所有请求均可通过兼容 OpenAI 的 Authorization: Bearer 方式进行认证,并支持:
- 访问令牌校验
- 调用额度控制
- Token 使用限制
- TPM(每分钟 Tokens)限流
- 输入 / 输出 Token 分别统计
帮助企业更精细地管理 AI 资源使用情况。
4. 内容安全检测
AI Gateway 内置内容安全检测能力,可同时对用户输入内容和模型生成结果进行统一审查。支持:
- 流式实时检测:在流式输出过程中同步进行安全审查
- 非流式完整检测:对完整请求与响应执行检测
- 白名单跳过机制:对可信来源请求可配置跳过检测
在保障安全性的同时,尽量减少额外延迟。
5. 高可用与自动故障切换
为了保障 AI 服务稳定性,AI Gateway 提供完整的健康检查与熔断机制,包括:
- 上游服务主动健康检查
- 自动熔断异 常节点
- 故障节点自动隔离
- 请求级自动故障切换
当某个模型服务异常时,系统可自动切换到其他可用供应商,降低业务中断风险。
6. 请求日志与数据沉淀
AI Gateway 会完整记录模型调用过程中的请求与响应数据,包括:
- 输入提示词(Prompt)
- Tools 调用详情
- 流式输出内容
这些日志可用于:
- 审计与问题排查
- 模型效果分析
- 再训练与微调数据积累
- 消息队列消费与数据分析
帮助企业逐步沉淀自己的 AI 数据资产。
7. 用量统计与计费
AI Gateway 内置统一的用量统计能力,可自动统计不同 AI 能力的 Token 消耗与调用量:
| 统计维度 | 说明 |
|---|---|
| Chat | 文本生成的输入 / 输出 Token 数 |
| Embedding | 向量化请求的输入 Token 数 |
| Audio | 语音转录的时长与调用次数 |
| Image | 文生图的调用次数与分辨率档位 |
| Video | 视频生成的调用次数 |
实现统一计量与费用管理,为企业内部成本分摊与商业化运营提供数据支撑。