Skip to content

用量统计与限流

适用读者:站长、成本与安全负责人

用量页面展示调用次数、token、失败率、活跃模型、调用明细和每日限额;访客限流按客户端 IP 控制小时和每日频率。

两类限制

类型目的维度
模型每日 token 上限控制预算模型名称 + 日期
访客频率限制防止滥用客户端 IP + 小时/日期

模型限额采用预扣与调用后对账,降低并发请求同时穿透上限的风险。

配置建议

  1. 先观察一周真实用量。
  2. 给主要 Chat 模型设置高于正常峰值的每日上限。
  3. 为匿名访客设置小时和每日限制。
  4. 只给可信监控或办公出口配置白名单。
  5. 验证 Nginx 正确传递 X-Forwarded-For

如果所有访客都被识别为同一个代理 IP,限流会误伤整个站点。

调用场景

场景用于区分费用来源,例如访客问答、Embedding、Rerank、摘要、脑图、写作、评测和运营智能体。完整枚举见 用量场景参考

排查

现象检查
请求突然全部被拒绝模型日限额、日期边界、失败重试
多个访客共享额度代理头与真实 IP
token 为 0兼容服务是否返回标准 usage
调用数有但模型不对场景和模型配置是否复用
失败率升高调用明细错误、模型日志、网络

安全提示

白名单等于绕过访客频率限制,不等于绕过模型总预算。不要把不受控的公网代理加入白名单。

基于 GPL-3.0 许可发布