通用大模型 RAG 项目 · 标注规则文档 v1.0

1

项目背景与目标

RAG（Retrieval-Augmented Generation，检索增强生成）是一种通过「外部知识检索 + 大模型生成回答」提升模型准确性、时效性与可解释性的技术框架。它的核心作用，是让模型在回答问题前先参考外部知识，而不是只依赖参数记忆进行输出。

本项目的核心目标，是构建一批高质量 RAG 训练数据，用于提升模型在「借助参考材料回答问题」场景下的能力，包括材料阅读理解能力、答案与证据一致性能力、多材料冲突分辨能力、在材料不足时谨慎表达的能力，以及高质量回答生成能力。

ℹ

本文档规则依据三维判断顺序组织：问题维度（最高）→ 材料维度 → 回答维度。评估时按此顺序逐层判断，前一层不通过时无需继续评估后续维度。

1.1 项目目标

模型侧目标

基于材料准确回答问题，减少幻觉与无依据扩写
提升知识时效性与可追溯性
提升回答完整性与结构化表达能力

数据侧目标

产出高质量 RAG 问答标注数据
问题 / 材料 / 回答异常识别数据
候选答案筛选与改写数据
质检记录与难例归档

2

RAG 基础认知

2.1 一句话理解

RAG 让 AI 先查资料，再组织回答。相比单纯依赖大模型记忆，RAG 可以显著改善知识过时、专业知识不足和结果不可解释等问题。

2.2 三维判断优先级

评估时从顶层向下逐层执行，顶层优先级最高。发现高优先级问题即可停止向下评估，直接判定该条数据结果。

← 先判断，不可用则直接跳过

🔴 问题维度最高优先级

🟡 材料维度次高优先级

🔵 回答维度最终判断

决定采纳 / 改写 / 重写 →

2.3 数据来源类型

维度	说明	示例
在线数据	实时网络搜索、API 调用、动态数据库查询	联网搜索功能、实时天气查询
离线数据	本地文档库、企业知识库、预处理的数据集	公司内部知识库、FAQ 文档

2.4 RAG 解决的四大问题

📚

幻觉问题

通过检索外部知识减少与事实不符的回答

⚙️

专业知识不足

企业内部或垂类知识无法仅靠预训练学到

⏱

时效性不足

模型知识截止在训练完成时，无法天然知道最新信息

🔗

可解释性不足

引入参考材料后，回答可追溯到依据来源

2.5 RAG 三步流程

第一步

Index

将文档切分为 Chunk，并建立向量索引

第二步

Retrieve

根据用户问题检索相关材料与片段

第三步

Generate

基于问题与材料生成答案。AI 训练师重点参与此环节的数据建设

3

数据来源、规模与输入输出

3.1 数据来源

在线数据：搜索引擎结果、网页摘要、API 查询结果
离线数据：本地文档、FAQ、制度文件、产品手册、企业知识库
问题数据：真实用户 query、客服问答日志、多轮对话抽样
候选回答：由基座模型或参考模型预先生成的回答1 / 回答2 / 回答3

3.2 项目规模（示例）

原始文档数

12 万份

进入索引

切分后 Chunk

约 950 万

条

原始 Query

80 万

条

一期精标任务

5 万

条

3.3 单条数据输入 / 输出形式

部分	说明
历史对话	包含一轮或多轮对话，最后一轮为用户最新问题
参考材料1~3	通常为与最新问题相关的搜索结果或知识库材料
回答1~3	系统预生成的候选答案，供标注员筛选、改写或重写
标志位	标注员对该条数据的最终处理结论
改写文本	在需要改写或重写时填写最终答案
原因备注	记录关键判断原因，供质检复核

4

标注任务定义

本项目的标注目标，不是单纯「写一个答案」，而是从 问题、材料、回答 三个维度进行综合判断，决定该条数据是否可用、材料是否足以支撑回答，以及候选回答中是否存在可直接采纳或可改写的答案。

📋

问题维度

判断历史对话与用户最后一问是否可理解、可处理、无严重异常

📄

材料维度

判断参考材料是否相关、充分、准确，能否为最终回答提供依据

✍️

回答维度

比较回答1~3，决定是直接采纳、基于某个回答改写，还是自行重写

5

结果字段与标志位说明

每条数据完成审核后，标注员必须在「标志位」字段中选择 一个且仅一个 结果，表示该条数据的最终处理方式。

5.1 标志位选项与决策路径

路径 A

跳过

对话/材料/其他不可用 → 选对应跳过

路径 B

直接采纳

回答1/2/3 满足标准 → 选通过采纳

路径 C

改写或重写

可改写底稿 / 自行修改回答

标志位	定义	适用场景
跳过-对话不可用	历史对话或用户问题本身存在严重异常，无法继续处理	逻辑错误、语义不清、上下文缺失、前后矛盾、高风险内容
跳过-材料不可用	参考材料无法支撑回答或质量问题严重	材料不相关、缺核心信息、错误严重、材料冲突不可判定
跳过-其他原因	不属于前两类，但因其他异常无法处理	字段缺失、乱码、结构错位、样本异常；备注必填
通过采纳【回答1/2/3】	对应回答已满足优质回答标准，可直接作为最终答案	答案准确、完整、清晰、基于材料、无需修改
不通过-【回答1/2/3】可改写	对应回答不能直接采纳，但可作为较好的改写底稿	结构较好、主体正确，但有冗余、遗漏、超材料发挥等问题
自行修改回答	三个候选回答均不可直接利用，需从头重写	都未结合材料、事实错误明显、逻辑混乱或偏题严重

⚠

填写提醒：「标志位」为单选字段，不可自定义；选择「跳过-其他原因」时，原因备注必填；选择「可改写」或「自行修改回答」时，改写文本必填。

6

标注规则总表

6.1 问题维度规则

规则名称	解释	标注技巧	正向案例	负向案例
问题正常	问题语义明确、逻辑通顺、上下文可理解	重点看最后一问是否能被独立理解或由上下文明确补足	「关于第二点，可以详细说说怎么治疗多囊卵巢综合征吗？」	「那个怎么处理？」且前文无明确指代对象
语义不清	问题表达模糊，无法判断真实意图	看是否缺主体、动作或关键限定条件	—	「这个是不是那个情况？」无可识别上下文
逻辑错误	问题本身事实关系错误或逻辑不成立	区分冷知识与明显常识错误	—	「美国独立日为何要使用唐朝的开国大典主题？」

✅ 问题正常（正确示例）

问：关于第二点，可以详细说说怎么治疗多囊卵巢综合征吗？
✓ 上下文明确，指代清晰，可独立理解

❌ 语义不清（错误示例）

问：那个怎么处理？
✗ 前文无明确指代对象，无法判断

6.2 材料维度规则

规则名称	解释	标注技巧	正向案例	负向案例
材料充分可用	材料能直接支撑问题回答	看是否覆盖核心信息，而不是只看关键词命中	问「退款多久到账」，材料中明确写到账时间	—
材料部分可用	材料相关，但信息不完整	部分相关 ≠ 完整可答	材料只写了治疗方向，没写完整适用条件	误判为「充分可用」
材料有错误或冲突	材料存在事实性错误，或多材料之间冲突	优先依据更权威、更近时效的材料；无法判定时跳过材料不可用	官方文档与旧论坛帖冲突，应采官方	随意拼接冲突信息生成结论

6.3 回答维度规则

规则名称	解释	标注技巧	正向案例	负向案例
可直接采纳	回答准确、完整、清晰、严格基于材料	逐句对照材料核查时间、数字、对象、限制条件	材料写「15天内提交」，回答一致且无多余扩写	加入材料中未出现的药物、流程、原因分析
可改写	主体结构较好，但存在少量冗余、遗漏或不稳妥表达	优先选择结构最完整、最接近材料、修改成本最低的一版	内容大体正确，但遗漏限制条件或局部表达过细	事实错误较多仍强行判为可改写
需重写	三个回答都不适合作为底稿	若都未结合材料、偏题明显、结构混乱，则直接重写	—	选一个明显错误回答硬改

7

标注执行 SOP

ℹ

本节为完整操作流程，请严格按步骤执行，不可跳步。标志位选择顺序：先判断对话是否可用 → 再判断材料是否可用 → 再判断是否有可直接采纳的回答 → 若无，则判断是否存在可改写底稿 → 若都没有，则自行修改回答。特殊异常走「跳过-其他原因」。

7.1 单条数据完整操作流程

1

读取最后一轮用户问题

判断是否可理解、语义是否明确、逻辑是否通顺。若不可用 → 选「跳过-对话不可用」。

2

查看历史对话

补足指代关系，判断是否存在前后矛盾、上下文缺失。

3

阅读材料1~3

判断材料是否相关、充分、准确，能否支撑问题回答。若不可用 → 选「跳过-材料不可用」。

4

对比回答1~3

优先找可直接采纳答案，再找可改写底稿。若无合适底稿，则自行修改回答。

5

填写标志位与相关字段

选择唯一标志位
可改写/自行修改时填写改写文本
跳过-其他原因时原因备注必填

8

质检标准

8.1 抽检比例与准确率

新人前 3 天

30%

抽检率

稳定期

10%

抽检率

项目终验

15%

抽检率

总体准确率

≥92%

目标

8.2 质检维度

质检维度	标准说明	不合格表现
标签正确率	标签与规则一致，判断逻辑正确	将材料部分可用误判为充分可用；将明显异常问题判为可用
证据一致性	回答必须建立在材料依据上	使用常识替代材料、无依据扩写
备注有效性	备注能说明关键原因，便于复核	备注写「感觉不对」「有点问题」等无效表述
字段完整性	必填项完整、格式正确	应填改写文本时未填，跳过其他原因但未备注

8.3 重点检查项

📊 准确率要求

总体准确率 ≥ 92%
关键标签准确率 ≥ 90%
连续两天低于 88% 需返训

📋 重点检查

误判对话可用性
误判材料充分性
无依据扩写
遗漏时间 / 数字 / 限制条件

9

人员成本与人效

9.1 人员配置

标注员

20

人

质检员

4

人

项目周期

6 周

—

一期精标

5 万

条

9.2 人效预估

角色	单条平均耗时	每小时产能	每日有效时长	单人日产能
标注员	4 分钟/条	15 条/小时	6 小时	90 条/天
质检员	3 分钟/条	20 条/小时	6 小时	120 条/天

10

Excel 样例说明

以下为项目实际表格字段示意。标注员需基于「历史对话 + 材料1~3 + 回答1~3」对样本做最终判断，并填写「标志位、改写文本、原因备注」。

data_id	历史对话	材料1	材料2	材料3	回答1	回答2	回答3	标志位	改写文本	原因备注
23	Human: 来曲唑片的作用与功效 …… Human: 关于第二点，可以详细说说怎么治疗多囊卵巢综合征吗？	多囊卵巢综合征治疗方法：一般疗法、药物治疗、定期复查……	多囊卵巢综合征治疗方法：手术、辅助用药、控制体重……	多囊卵巢综合征治疗方法：药物治疗为主，也涉及手术……	候选回答1	候选回答2	候选回答3	从固定选项中选择 1 项	仅在可改写 / 自行修改时填写	记录关键原因，供质检复核

⚠

填写提醒：「标志位」为单选字段，不可自定义；选择「跳过-其他原因」时，原因备注必填；选择「可改写」或「自行修改回答」时，改写文本必填。

11

难例处理机制

以下情况需提交质检或组长仲裁，不允许标注员自行拍板：

多材料互相冲突，且无法判断哪个更可信
问题依赖上下文，但上下文本身也含歧义
材料过于专业，标注员无法可靠判断
医学、法律、金融等高风险场景中，候选回答存在明显扩写争议
规则表未覆盖的新类型边界样本

⚠

规则争议处理：遇到规则文档未覆盖的情形，禁止自行判断后直接提交。正确流程：截图存疑数据 → 在项目沟通群 @PM 并描述疑问 → 等待官方解释。

12

附录：优质回答标准

📌

结合材料

回答必须引用参考材料中的信息，不可脱离材料自由发挥

✓

准确性

信息准确，不违背事实，不与材料冲突

📋

完整性

覆盖用户问题核心点，不遗漏关键条件

🔗

逻辑清晰

结构清楚，不冗余，不绕弯

⏱

时效性

注意材料时间截止点，不做过度推断