通用大模型 RAG 项目 · 标注规则文档

本文档适用于所有参与 RAG 项目的标注员与质检员,请在上岗前完整阅读并通过规则测试。覆盖项目背景、数据格式、结果字段定义、标志位说明、标注 SOP、质量标准与示例样本。

文档版本
v1.0
生效日期
2026-03
项目代号
RAG-01
标注方式
审核 + 筛选改写
文档负责人
数据负责人
1
项目背景与目标

RAG(Retrieval-Augmented Generation,检索增强生成)是一种通过「外部知识检索 + 大模型生成回答」提升模型准确性、时效性与可解释性的技术框架。它的核心作用,是让模型在回答问题前先参考外部知识,而不是只依赖参数记忆进行输出。

本项目的核心目标,是构建一批高质量 RAG 训练数据,用于提升模型在「借助参考材料回答问题」场景下的能力,包括材料阅读理解能力、答案与证据一致性能力、多材料冲突分辨能力、在材料不足时谨慎表达的能力,以及高质量回答生成能力。

本文档规则依据三维判断顺序组织:问题维度(最高)→ 材料维度 → 回答维度。评估时按此顺序逐层判断,前一层不通过时无需继续评估后续维度。

1.1 项目目标

模型侧目标

  • 基于材料准确回答问题,减少幻觉与无依据扩写
  • 提升知识时效性与可追溯性
  • 提升回答完整性与结构化表达能力

数据侧目标

  • 产出高质量 RAG 问答标注数据
  • 问题 / 材料 / 回答异常识别数据
  • 候选答案筛选与改写数据
  • 质检记录与难例归档
2
RAG 基础认知

2.1 一句话理解

RAG 让 AI 先查资料,再组织回答。相比单纯依赖大模型记忆,RAG 可以显著改善知识过时、专业知识不足和结果不可解释等问题。

2.2 三维判断优先级

评估时从顶层向下逐层执行,顶层优先级最高。发现高优先级问题即可停止向下评估,直接判定该条数据结果。

← 先判断,不可用则直接跳过
🔴 问题维度最高优先级
🟡 材料维度次高优先级
🔵 回答维度最终判断
决定采纳 / 改写 / 重写 →

2.3 数据来源类型

维度说明示例
在线数据实时网络搜索、API 调用、动态数据库查询联网搜索功能、实时天气查询
离线数据本地文档库、企业知识库、预处理的数据集公司内部知识库、FAQ 文档

2.4 RAG 解决的四大问题

📚
幻觉问题
通过检索外部知识减少与事实不符的回答
⚙️
专业知识不足
企业内部或垂类知识无法仅靠预训练学到
时效性不足
模型知识截止在训练完成时,无法天然知道最新信息
🔗
可解释性不足
引入参考材料后,回答可追溯到依据来源

2.5 RAG 三步流程

第一步
Index
将文档切分为 Chunk,并建立向量索引
第二步
Retrieve
根据用户问题检索相关材料与片段
第三步
Generate
基于问题与材料生成答案。AI 训练师重点参与此环节的数据建设
3
数据来源、规模与输入输出

3.1 数据来源

  • 在线数据:搜索引擎结果、网页摘要、API 查询结果
  • 离线数据:本地文档、FAQ、制度文件、产品手册、企业知识库
  • 问题数据:真实用户 query、客服问答日志、多轮对话抽样
  • 候选回答:由基座模型或参考模型预先生成的回答1 / 回答2 / 回答3

3.2 项目规模(示例)

原始文档数
12 万份
进入索引
切分后 Chunk
约 950 万
原始 Query
80 万
一期精标任务
5 万

3.3 单条数据输入 / 输出形式

部分说明
历史对话包含一轮或多轮对话,最后一轮为用户最新问题
参考材料1~3通常为与最新问题相关的搜索结果或知识库材料
回答1~3系统预生成的候选答案,供标注员筛选、改写或重写
标志位标注员对该条数据的最终处理结论
改写文本在需要改写或重写时填写最终答案
原因备注记录关键判断原因,供质检复核
4
标注任务定义

本项目的标注目标,不是单纯「写一个答案」,而是从 问题、材料、回答 三个维度进行综合判断,决定该条数据是否可用、材料是否足以支撑回答,以及候选回答中是否存在可直接采纳或可改写的答案。

📋
问题维度
判断历史对话与用户最后一问是否可理解、可处理、无严重异常
📄
材料维度
判断参考材料是否相关、充分、准确,能否为最终回答提供依据
✍️
回答维度
比较回答1~3,决定是直接采纳、基于某个回答改写,还是自行重写
5
结果字段与标志位说明

每条数据完成审核后,标注员必须在「标志位」字段中选择 一个且仅一个 结果,表示该条数据的最终处理方式。

5.1 标志位选项与决策路径

路径 A
跳过

对话/材料/其他不可用 → 选对应跳过

路径 B
直接采纳

回答1/2/3 满足标准 → 选通过采纳

路径 C
改写或重写

可改写底稿 / 自行修改回答

标志位定义适用场景
跳过-对话不可用历史对话或用户问题本身存在严重异常,无法继续处理逻辑错误、语义不清、上下文缺失、前后矛盾、高风险内容
跳过-材料不可用参考材料无法支撑回答或质量问题严重材料不相关、缺核心信息、错误严重、材料冲突不可判定
跳过-其他原因不属于前两类,但因其他异常无法处理字段缺失、乱码、结构错位、样本异常;备注必填
通过采纳【回答1/2/3】对应回答已满足优质回答标准,可直接作为最终答案答案准确、完整、清晰、基于材料、无需修改
不通过-【回答1/2/3】可改写对应回答不能直接采纳,但可作为较好的改写底稿结构较好、主体正确,但有冗余、遗漏、超材料发挥等问题
自行修改回答三个候选回答均不可直接利用,需从头重写都未结合材料、事实错误明显、逻辑混乱或偏题严重
填写提醒:「标志位」为单选字段,不可自定义;选择「跳过-其他原因」时,原因备注必填;选择「可改写」或「自行修改回答」时,改写文本必填。
6
标注规则总表

6.1 问题维度规则

规则名称解释标注技巧正向案例负向案例
问题正常问题语义明确、逻辑通顺、上下文可理解重点看最后一问是否能被独立理解或由上下文明确补足「关于第二点,可以详细说说怎么治疗多囊卵巢综合征吗?」「那个怎么处理?」且前文无明确指代对象
语义不清问题表达模糊,无法判断真实意图看是否缺主体、动作或关键限定条件「这个是不是那个情况?」无可识别上下文
逻辑错误问题本身事实关系错误或逻辑不成立区分冷知识与明显常识错误「美国独立日为何要使用唐朝的开国大典主题?」
✅ 问题正常(正确示例)
问:关于第二点,可以详细说说怎么治疗多囊卵巢综合征吗?
✓ 上下文明确,指代清晰,可独立理解
❌ 语义不清(错误示例)
问:那个怎么处理?
✗ 前文无明确指代对象,无法判断

6.2 材料维度规则

规则名称解释标注技巧正向案例负向案例
材料充分可用材料能直接支撑问题回答看是否覆盖核心信息,而不是只看关键词命中问「退款多久到账」,材料中明确写到账时间
材料部分可用材料相关,但信息不完整部分相关 ≠ 完整可答材料只写了治疗方向,没写完整适用条件误判为「充分可用」
材料有错误或冲突材料存在事实性错误,或多材料之间冲突优先依据更权威、更近时效的材料;无法判定时跳过材料不可用官方文档与旧论坛帖冲突,应采官方随意拼接冲突信息生成结论

6.3 回答维度规则

规则名称解释标注技巧正向案例负向案例
可直接采纳回答准确、完整、清晰、严格基于材料逐句对照材料核查时间、数字、对象、限制条件材料写「15天内提交」,回答一致且无多余扩写加入材料中未出现的药物、流程、原因分析
可改写主体结构较好,但存在少量冗余、遗漏或不稳妥表达优先选择结构最完整、最接近材料、修改成本最低的一版内容大体正确,但遗漏限制条件或局部表达过细事实错误较多仍强行判为可改写
需重写三个回答都不适合作为底稿若都未结合材料、偏题明显、结构混乱,则直接重写选一个明显错误回答硬改
7
标注执行 SOP
本节为完整操作流程,请严格按步骤执行,不可跳步。标志位选择顺序:先判断对话是否可用 → 再判断材料是否可用 → 再判断是否有可直接采纳的回答 → 若无,则判断是否存在可改写底稿 → 若都没有,则自行修改回答。特殊异常走「跳过-其他原因」。

7.1 单条数据完整操作流程

1

读取最后一轮用户问题

判断是否可理解、语义是否明确、逻辑是否通顺。若不可用 → 选「跳过-对话不可用」。

2

查看历史对话

补足指代关系,判断是否存在前后矛盾、上下文缺失。

3

阅读材料1~3

判断材料是否相关、充分、准确,能否支撑问题回答。若不可用 → 选「跳过-材料不可用」。

4

对比回答1~3

优先找可直接采纳答案,再找可改写底稿。若无合适底稿,则自行修改回答。

5

填写标志位与相关字段

  • 选择唯一标志位
  • 可改写/自行修改时填写改写文本
  • 跳过-其他原因时原因备注必填
8
质检标准

8.1 抽检比例与准确率

新人前 3 天
30%
抽检率
稳定期
10%
抽检率
项目终验
15%
抽检率
总体准确率
≥92%
目标

8.2 质检维度

质检维度标准说明不合格表现
标签正确率标签与规则一致,判断逻辑正确将材料部分可用误判为充分可用;将明显异常问题判为可用
证据一致性回答必须建立在材料依据上使用常识替代材料、无依据扩写
备注有效性备注能说明关键原因,便于复核备注写「感觉不对」「有点问题」等无效表述
字段完整性必填项完整、格式正确应填改写文本时未填,跳过其他原因但未备注

8.3 重点检查项

📊 准确率要求

  • 总体准确率 ≥ 92%
  • 关键标签准确率 ≥ 90%
  • 连续两天低于 88% 需返训

📋 重点检查

  • 误判对话可用性
  • 误判材料充分性
  • 无依据扩写
  • 遗漏时间 / 数字 / 限制条件
9
人员成本与人效

9.1 人员配置

标注员
20
质检员
4
项目周期
6 周
一期精标
5 万

9.2 人效预估

角色单条平均耗时每小时产能每日有效时长单人日产能
标注员4 分钟/条15 条/小时6 小时90 条/天
质检员3 分钟/条20 条/小时6 小时120 条/天
10
Excel 样例说明

以下为项目实际表格字段示意。标注员需基于「历史对话 + 材料1~3 + 回答1~3」对样本做最终判断,并填写「标志位、改写文本、原因备注」。

data_id历史对话材料1材料2材料3回答1回答2回答3标志位改写文本原因备注
23 Human: 来曲唑片的作用与功效 …… Human: 关于第二点,可以详细说说怎么治疗多囊卵巢综合征吗? 多囊卵巢综合征治疗方法:一般疗法、药物治疗、定期复查…… 多囊卵巢综合征治疗方法:手术、辅助用药、控制体重…… 多囊卵巢综合征治疗方法:药物治疗为主,也涉及手术…… 候选回答1 候选回答2 候选回答3 从固定选项中选择 1 项 仅在可改写 / 自行修改时填写 记录关键原因,供质检复核
填写提醒:「标志位」为单选字段,不可自定义;选择「跳过-其他原因」时,原因备注必填;选择「可改写」或「自行修改回答」时,改写文本必填。
11
难例处理机制

以下情况需提交质检或组长仲裁,不允许标注员自行拍板

  • 多材料互相冲突,且无法判断哪个更可信
  • 问题依赖上下文,但上下文本身也含歧义
  • 材料过于专业,标注员无法可靠判断
  • 医学、法律、金融等高风险场景中,候选回答存在明显扩写争议
  • 规则表未覆盖的新类型边界样本
规则争议处理:遇到规则文档未覆盖的情形,禁止自行判断后直接提交。正确流程:截图存疑数据 → 在项目沟通群 @PM 并描述疑问 → 等待官方解释。
12
附录:优质回答标准
📌
结合材料
回答必须引用参考材料中的信息,不可脱离材料自由发挥
准确性
信息准确,不违背事实,不与材料冲突
📋
完整性
覆盖用户问题核心点,不遗漏关键条件
🔗
逻辑清晰
结构清楚,不冗余,不绕弯
时效性
注意材料时间截止点,不做过度推断
通用大模型 RAG 项目 · 标注规则文档 v1.0 · 内部使用,请勿外传
如有疑问请联系项目 PM