用量统计与限流
适用读者:站长、成本与安全负责人
用量页面展示调用次数、token、失败率、活跃模型、调用明细和每日限额;访客限流按客户端 IP 控制小时和每日频率。
两类限制
| 类型 | 目的 | 维度 |
|---|---|---|
| 模型每日 token 上限 | 控制预算 | 模型名称 + 日期 |
| 访客频率限制 | 防止滥用 | 客户端 IP + 小时/日期 |
模型限额采用预扣与调用后对账,降低并发请求同时穿透上限的风险。
配置建议
- 先观察一周真实用量。
- 给主要 Chat 模型设置高于正常峰值的每日上限。
- 为匿名访客设置小时和每日限制。
- 只给可信监控或办公出口配置白名单。
- 验证 Nginx 正确传递
X-Forwarded-For。
如果所有访客都被识别为同一个代理 IP,限流会误伤整个站点。
调用场景
场景用于区分费用来源,例如访客问答、Embedding、Rerank、摘要、脑图、写作、评测和运营智能体。完整枚举见 用量场景参考。
排查
| 现象 | 检查 |
|---|---|
| 请求突然全部被拒绝 | 模型日限额、日期边界、失败重试 |
| 多个访客共享额度 | 代理头与真实 IP |
| token 为 0 | 兼容服务是否返回标准 usage |
| 调用数有但模型不对 | 场景和模型配置是否复用 |
| 失败率升高 | 调用明细错误、模型日志、网络 |
安全提示
白名单等于绕过访客频率限制,不等于绕过模型总预算。不要把不受控的公网代理加入白名单。