Skip to content
你正在查看 0.2.23 的历史文档。前往最新版

RAG 效果评测

适用读者:RAG 调优人员、内容运营人员

效果评测使用持久化数据集批量执行问答,并由评审模型检查相关性、正确性、忠实度、完整性、引用准确性和幻觉风险。

效果评测

数据集

每个用例包含:

  • 问题 question
  • 参考答案 referenceAnswer
  • 期望来源 expectedSources
  • 标签 tags

默认模板用于示例,不应直接当成你站点的真实基准。优先从高频访客问题、重要文章和历史点踩中建立自己的数据集。

运行评测

  1. 新建或复制数据集。
  2. 检查参考答案和来源文章。
  3. 提交运行,获得 runId
  4. 页面轮询任务进度。
  5. 完成后查看总分、检索命中率、忠实度和高风险用例。
  6. 调整配置后用同一数据集再次运行。

指标解释

指标含义
检索命中率期望来源是否进入检索结果
相关性回答是否针对问题
正确性是否符合参考答案
忠实度是否得到检索上下文支持
完整性是否覆盖关键点
引用准确性引用是否支持对应结论
幻觉风险是否包含无依据内容

成本

每个用例至少包含回答和评审调用,可能同时产生 Embedding、Rewrite、HyDE 和 Rerank 成本。先运行小数据集,确认预算后再扩大。

对比原则

  • 固定数据集和模型,再比较检索参数。
  • 或固定检索参数,再比较模型。
  • 不要同时改变模型、切片、Prompt 和增强策略。
  • 保存运行记录,避免只看当前一次结果。

相关接口见 Console API

基于 GPL-3.0 许可发布