通用大模型 RAG 项目 · 标注规则文档
本文档适用于所有参与 RAG 项目的标注员与质检员,请在上岗前完整阅读并通过规则测试。覆盖项目背景、数据格式、结果字段定义、标志位说明、标注 SOP、质量标准与示例样本。
RAG(Retrieval-Augmented Generation,检索增强生成)是一种通过「外部知识检索 + 大模型生成回答」提升模型准确性、时效性与可解释性的技术框架。它的核心作用,是让模型在回答问题前先参考外部知识,而不是只依赖参数记忆进行输出。
本项目的核心目标,是构建一批高质量 RAG 训练数据,用于提升模型在「借助参考材料回答问题」场景下的能力,包括材料阅读理解能力、答案与证据一致性能力、多材料冲突分辨能力、在材料不足时谨慎表达的能力,以及高质量回答生成能力。
1.1 项目目标
模型侧目标
- 基于材料准确回答问题,减少幻觉与无依据扩写
- 提升知识时效性与可追溯性
- 提升回答完整性与结构化表达能力
数据侧目标
- 产出高质量 RAG 问答标注数据
- 问题 / 材料 / 回答异常识别数据
- 候选答案筛选与改写数据
- 质检记录与难例归档
2.1 一句话理解
RAG 让 AI 先查资料,再组织回答。相比单纯依赖大模型记忆,RAG 可以显著改善知识过时、专业知识不足和结果不可解释等问题。
2.2 三维判断优先级
评估时从顶层向下逐层执行,顶层优先级最高。发现高优先级问题即可停止向下评估,直接判定该条数据结果。
2.3 数据来源类型
| 维度 | 说明 | 示例 |
|---|---|---|
| 在线数据 | 实时网络搜索、API 调用、动态数据库查询 | 联网搜索功能、实时天气查询 |
| 离线数据 | 本地文档库、企业知识库、预处理的数据集 | 公司内部知识库、FAQ 文档 |
2.4 RAG 解决的四大问题
2.5 RAG 三步流程
3.1 数据来源
- 在线数据:搜索引擎结果、网页摘要、API 查询结果
- 离线数据:本地文档、FAQ、制度文件、产品手册、企业知识库
- 问题数据:真实用户 query、客服问答日志、多轮对话抽样
- 候选回答:由基座模型或参考模型预先生成的回答1 / 回答2 / 回答3
3.2 项目规模(示例)
3.3 单条数据输入 / 输出形式
| 部分 | 说明 |
|---|---|
| 历史对话 | 包含一轮或多轮对话,最后一轮为用户最新问题 |
| 参考材料1~3 | 通常为与最新问题相关的搜索结果或知识库材料 |
| 回答1~3 | 系统预生成的候选答案,供标注员筛选、改写或重写 |
| 标志位 | 标注员对该条数据的最终处理结论 |
| 改写文本 | 在需要改写或重写时填写最终答案 |
| 原因备注 | 记录关键判断原因,供质检复核 |
本项目的标注目标,不是单纯「写一个答案」,而是从 问题、材料、回答 三个维度进行综合判断,决定该条数据是否可用、材料是否足以支撑回答,以及候选回答中是否存在可直接采纳或可改写的答案。
每条数据完成审核后,标注员必须在「标志位」字段中选择 一个且仅一个 结果,表示该条数据的最终处理方式。
5.1 标志位选项与决策路径
对话/材料/其他不可用 → 选对应跳过
回答1/2/3 满足标准 → 选通过采纳
可改写底稿 / 自行修改回答
| 标志位 | 定义 | 适用场景 |
|---|---|---|
| 跳过-对话不可用 | 历史对话或用户问题本身存在严重异常,无法继续处理 | 逻辑错误、语义不清、上下文缺失、前后矛盾、高风险内容 |
| 跳过-材料不可用 | 参考材料无法支撑回答或质量问题严重 | 材料不相关、缺核心信息、错误严重、材料冲突不可判定 |
| 跳过-其他原因 | 不属于前两类,但因其他异常无法处理 | 字段缺失、乱码、结构错位、样本异常;备注必填 |
| 通过采纳【回答1/2/3】 | 对应回答已满足优质回答标准,可直接作为最终答案 | 答案准确、完整、清晰、基于材料、无需修改 |
| 不通过-【回答1/2/3】可改写 | 对应回答不能直接采纳,但可作为较好的改写底稿 | 结构较好、主体正确,但有冗余、遗漏、超材料发挥等问题 |
| 自行修改回答 | 三个候选回答均不可直接利用,需从头重写 | 都未结合材料、事实错误明显、逻辑混乱或偏题严重 |
6.1 问题维度规则
| 规则名称 | 解释 | 标注技巧 | 正向案例 | 负向案例 |
|---|---|---|---|---|
| 问题正常 | 问题语义明确、逻辑通顺、上下文可理解 | 重点看最后一问是否能被独立理解或由上下文明确补足 | 「关于第二点,可以详细说说怎么治疗多囊卵巢综合征吗?」 | 「那个怎么处理?」且前文无明确指代对象 |
| 语义不清 | 问题表达模糊,无法判断真实意图 | 看是否缺主体、动作或关键限定条件 | — | 「这个是不是那个情况?」无可识别上下文 |
| 逻辑错误 | 问题本身事实关系错误或逻辑不成立 | 区分冷知识与明显常识错误 | — | 「美国独立日为何要使用唐朝的开国大典主题?」 |
✓ 上下文明确,指代清晰,可独立理解
✗ 前文无明确指代对象,无法判断
6.2 材料维度规则
| 规则名称 | 解释 | 标注技巧 | 正向案例 | 负向案例 |
|---|---|---|---|---|
| 材料充分可用 | 材料能直接支撑问题回答 | 看是否覆盖核心信息,而不是只看关键词命中 | 问「退款多久到账」,材料中明确写到账时间 | — |
| 材料部分可用 | 材料相关,但信息不完整 | 部分相关 ≠ 完整可答 | 材料只写了治疗方向,没写完整适用条件 | 误判为「充分可用」 |
| 材料有错误或冲突 | 材料存在事实性错误,或多材料之间冲突 | 优先依据更权威、更近时效的材料;无法判定时跳过材料不可用 | 官方文档与旧论坛帖冲突,应采官方 | 随意拼接冲突信息生成结论 |
6.3 回答维度规则
| 规则名称 | 解释 | 标注技巧 | 正向案例 | 负向案例 |
|---|---|---|---|---|
| 可直接采纳 | 回答准确、完整、清晰、严格基于材料 | 逐句对照材料核查时间、数字、对象、限制条件 | 材料写「15天内提交」,回答一致且无多余扩写 | 加入材料中未出现的药物、流程、原因分析 |
| 可改写 | 主体结构较好,但存在少量冗余、遗漏或不稳妥表达 | 优先选择结构最完整、最接近材料、修改成本最低的一版 | 内容大体正确,但遗漏限制条件或局部表达过细 | 事实错误较多仍强行判为可改写 |
| 需重写 | 三个回答都不适合作为底稿 | 若都未结合材料、偏题明显、结构混乱,则直接重写 | — | 选一个明显错误回答硬改 |
7.1 单条数据完整操作流程
读取最后一轮用户问题
判断是否可理解、语义是否明确、逻辑是否通顺。若不可用 → 选「跳过-对话不可用」。
查看历史对话
补足指代关系,判断是否存在前后矛盾、上下文缺失。
阅读材料1~3
判断材料是否相关、充分、准确,能否支撑问题回答。若不可用 → 选「跳过-材料不可用」。
对比回答1~3
优先找可直接采纳答案,再找可改写底稿。若无合适底稿,则自行修改回答。
填写标志位与相关字段
- 选择唯一标志位
- 可改写/自行修改时填写改写文本
- 跳过-其他原因时原因备注必填
8.1 抽检比例与准确率
8.2 质检维度
| 质检维度 | 标准说明 | 不合格表现 |
|---|---|---|
| 标签正确率 | 标签与规则一致,判断逻辑正确 | 将材料部分可用误判为充分可用;将明显异常问题判为可用 |
| 证据一致性 | 回答必须建立在材料依据上 | 使用常识替代材料、无依据扩写 |
| 备注有效性 | 备注能说明关键原因,便于复核 | 备注写「感觉不对」「有点问题」等无效表述 |
| 字段完整性 | 必填项完整、格式正确 | 应填改写文本时未填,跳过其他原因但未备注 |
8.3 重点检查项
📊 准确率要求
- 总体准确率 ≥ 92%
- 关键标签准确率 ≥ 90%
- 连续两天低于 88% 需返训
📋 重点检查
- 误判对话可用性
- 误判材料充分性
- 无依据扩写
- 遗漏时间 / 数字 / 限制条件
9.1 人员配置
9.2 人效预估
| 角色 | 单条平均耗时 | 每小时产能 | 每日有效时长 | 单人日产能 |
|---|---|---|---|---|
| 标注员 | 4 分钟/条 | 15 条/小时 | 6 小时 | 90 条/天 |
| 质检员 | 3 分钟/条 | 20 条/小时 | 6 小时 | 120 条/天 |
以下为项目实际表格字段示意。标注员需基于「历史对话 + 材料1~3 + 回答1~3」对样本做最终判断,并填写「标志位、改写文本、原因备注」。
| data_id | 历史对话 | 材料1 | 材料2 | 材料3 | 回答1 | 回答2 | 回答3 | 标志位 | 改写文本 | 原因备注 |
|---|---|---|---|---|---|---|---|---|---|---|
| 23 | Human: 来曲唑片的作用与功效 …… Human: 关于第二点,可以详细说说怎么治疗多囊卵巢综合征吗? | 多囊卵巢综合征治疗方法:一般疗法、药物治疗、定期复查…… | 多囊卵巢综合征治疗方法:手术、辅助用药、控制体重…… | 多囊卵巢综合征治疗方法:药物治疗为主,也涉及手术…… | 候选回答1 | 候选回答2 | 候选回答3 | 从固定选项中选择 1 项 | 仅在可改写 / 自行修改时填写 | 记录关键原因,供质检复核 |
以下情况需提交质检或组长仲裁,不允许标注员自行拍板:
- 多材料互相冲突,且无法判断哪个更可信
- 问题依赖上下文,但上下文本身也含歧义
- 材料过于专业,标注员无法可靠判断
- 医学、法律、金融等高风险场景中,候选回答存在明显扩写争议
- 规则表未覆盖的新类型边界样本
如有疑问请联系项目 PM