RAG 效果评测

适用读者：RAG 调优人员、内容运营人员

效果评测使用持久化数据集批量执行问答，并由评审模型检查相关性、正确性、忠实度、完整性、引用准确性和幻觉风险。

效果评测

数据集

每个用例包含：

问题 question
参考答案 referenceAnswer
期望来源 expectedSources
标签 tags

默认模板用于示例，不应直接当成你站点的真实基准。优先从高频访客问题、重要文章和历史点踩中建立自己的数据集。

运行评测

新建或复制数据集。
检查参考答案和来源文章。
提交运行，获得 runId。
页面轮询任务进度。
完成后查看总分、检索命中率、忠实度和高风险用例。
调整配置后用同一数据集再次运行。

指标解释

指标	含义
检索命中率	期望来源是否进入检索结果
相关性	回答是否针对问题
正确性	是否符合参考答案
忠实度	是否得到检索上下文支持
完整性	是否覆盖关键点
引用准确性	引用是否支持对应结论
幻觉风险	是否包含无依据内容

成本

每个用例至少包含回答和评审调用，可能同时产生 Embedding、Rewrite、HyDE 和 Rerank 成本。先运行小数据集，确认预算后再扩大。

对比原则

固定数据集和模型，再比较检索参数。
或固定检索参数，再比较模型。
不要同时改变模型、切片、Prompt 和增强策略。
保存运行记录，避免只看当前一次结果。

相关接口见 Console API。