Files
AIEC_Skills/.claude/skills/requirement-generator-v1/requirement_final.md
2025-12-11 14:19:36 +08:00

352 lines
16 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 医疗精神疾病深度研究助手 (DeepResearch Assistant) - 需求文档
**文档版本**: 1.1
**创建时间**: 2025-12-07
**生成方式**: Claude Code 智能需求生成器
**项目类型**: Agent 开发
---
## 1. 背景与目标
### 1.1 项目背景
开发一个面向医疗精神疾病领域的深度研究助手DeepResearch Assistant帮助科研人员、医学生和医疗信息分析师进行系统性文献调研。该助手能够根据用户提出的研究问题自动执行多数据源并行搜索对搜索到的文献进行智能分析最终生成高质量、结构化的研究报告确保引用准确、逻辑清晰。
### 1.2 目标与价值
**核心目标**
1. **提高文献调研效率**:将传统需要数天的文献调研工作压缩到小时级别完成
2. **提升研究质量**:确保文献覆盖全面、引用准确可追溯、分析逻辑严谨
3. **构建长期知识库**:通过知识图谱积累领域知识,支持持续研究和知识发现
**目标用户**
1. **科研人员/学者**:进行精神疾病领域的学术研究
2. **医学生/规培医生**:学习精神科知识,辅助学业
3. **医疗信息分析师**:处理大量文献数据,支持机构决策
---
## 2. 使用场景与触发方式
### 2.1 典型使用场景
#### 场景一:文献综述撰写
**触发条件**:用户输入研究问题,如"近5年精神分裂症认知功能障碍的非药物治疗进展"
**操作步骤**
1. 用户输入研究问题
2. 系统展示Multi-Agent执行进度解析问题 -> 制定搜索策略
3. 并行搜索多个数据源,实时显示"正在搜索PubMed..."、"已找到X篇文献"
4. 对文献进行智能分析和综合
5. 将新文献动态加入知识图谱,执行去重
6. 生成结构化研究报告
**预期结果**:获得一份包含背景概述、核心文献分析、研究类型分布、研究结论与知识空白、标准格式引用的完整中文研究报告
#### 场景二:研究题目探索
**触发条件**:用户希望了解某个新研究方向的进展和空白
**操作步骤**
1. 用户输入探索性问题
2. 系统搜索相关文献并分析研究现状
3. 识别该领域的知识空白和潜在研究方向
4. 生成研究现状与机会分析报告
**预期结果**:了解该方向的研究现状、主要发现、知识空白和潜在研究机会
### 2.2 使用入口与触发方式
- **主要入口**:通过对话界面以自然语言输入研究问题
- **触发方式**用户输入研究问题后系统自动启动Multi-Agent协作流程
- **语言支持**:支持中英文提问
- **搜索策略控制**:默认自动执行搜索;高级用户可开启搜索策略预览与调整模式;在结果页面提供调整搜索范围后重新生成的入口
---
## 3. 输入输出定义
### 3.1 输入
| 输入项 | 描述 | 格式 | 必填 |
|-------|------|------|------|
| 研究问题 | 用户以自然语言描述的研究问题 | 自然语言文本(中/英文) | 是 |
**输入示例**
- "近5年精神分裂症认知功能障碍的非药物治疗进展"
- "抑郁症与肠道菌群的关系研究现状"
- "治疗抵抗性抑郁症的增效治疗策略"
- "首发精神分裂症的早期干预证据"
**术语规范化处理**系统基于DSM-5/ICD-11术语库自动识别用户输入的非标准术语并映射到标准术语进行搜索。
### 3.2 输出
**输出格式**结构化中文研究报告Markdown格式用户可自行转换为其他格式
**报告结构**
| 章节 | 内容描述 |
|-----|---------|
| 研究背景与现状概述 | 对研究问题的背景介绍和领域概况 |
| 核心文献摘要与分析 | 重要文献的摘要提取和关键发现对比分析,每条结论标注证据来源链接 |
| 研究类型分布 | 纳入文献的研究类型分类(系统评价/Meta分析、RCT、队列研究、病例对照、病例报告等 |
| 研究方法学注意事项 | 诊断标准差异提醒、评估量表说明、方法学局限性说明 |
| 研究结论与知识空白 | 综合结论和领域内尚待研究的问题 |
| 文献引用列表 | 标准格式的完整引用列表,所有引用均经过来源验证 |
**报告透明性说明**
- 显示研究类型分布包含3项RCT、5项队列研究等
- 展示文献筛选逻辑搜索到200篇相关性筛选后纳入50篇
- 对核心专业术语提供悬浮解释或脚注
- 明确标注"研究类型分类由AI提供完整的证据等级评估需专业人员判断"
---
## 4. 交互流程说明
### 4.1 典型主流程
```mermaid
flowchart TD
Start([用户输入研究问题]) --> Parse[解析问题/制定搜索策略]
Parse --> Search[并行搜索多数据源]
Search --> Progress[实时展示搜索进度]
Progress --> Analyze[智能文献分析与综合]
Analyze --> KG[知识图谱更新与去重]
KG --> Generate[生成结构化报告]
Generate --> Output([输出研究报告])
```
**流程说明**
1. **问题解析**:理解用户研究问题,进行术语规范化转换,提取关键词,制定多数据源搜索策略
2. **并行搜索**:同时向多个学术数据源发起检索请求
3. **进度展示**:实时向用户反馈各数据源搜索状态和已找到的文献数量,展示预估完成时间
4. **文献分析**:对检索到的文献进行摘要提取、研究类型分类、关键发现对比
5. **知识图谱更新**:将新文献信息存入知识图谱,执行多级去重
6. **报告生成**:综合分析结果,生成结构化研究报告
### 4.2 异常与分支流程
| 异常场景 | 处理方式 |
|---------|---------|
| 某数据源访问失败 | 记录失败原因,继续使用其他数据源,在报告中注明数据源覆盖情况 |
| 搜索结果为空 | 建议用户调整研究问题或扩大搜索范围 |
| 文献数量过多 | 采用分层处理策略第一轮粗筛可处理200篇相关性排序第二轮精读分析处理Top 50-80篇核心文献明确告知用户已分析文献范围 |
| 重复文献识别 | 通过知识图谱多级去重机制自动合并 |
| 用户问题模糊 | 提供问题澄清引导,帮助用户明确研究范围 |
---
## 5. 外部系统与数据依赖
### 5.1 外部数据源需求
| 数据源 | 类型 | 用途 | 优先级 | 授权方式 |
|-------|------|------|--------|----------|
| PubMed/MEDLINE | 生物医学文献数据库 | 获取生物医学研究文献 | 核心MVP | 免费开放APIE-utilities |
| PsycINFO | 心理学专业数据库 | 获取心理学/精神科专业文献 | 核心 | 需机构订阅,支持用户自带机构账号模式 |
| Embase | 欧洲文献数据库 | 获取欧洲文献及药物研究 | 核心 | 需机构订阅,支持用户自带机构账号模式 |
| Cochrane Library | 循证医学数据库 | 获取系统评价和Meta分析 | 扩展 | 需机构订阅 |
| CNKI | 中国知网 | 获取中文学术文献 | 扩展 | 需机构订阅 |
| 万方数据 | 中文文献数据库 | 补充中文文献来源 | 扩展 | 需机构订阅 |
| bioRxiv/medRxiv | 预印本平台 | 获取最新未发表研究 | 扩展MVP | 免费开放API |
| Google Scholar | 综合学术搜索 | 补充其他来源遗漏文献 | 扩展 | 需评估访问限制 |
| ClinicalTrials.gov | 临床试验注册库 | 获取在研试验信息,评估发表偏倚 | 扩展Phase 2 | 免费开放API |
**预印本来源说明**:对预印本来源的文献进行明确标注和风险提示,说明其未经同行评审的局限性,并降低其在证据综合中的权重。
### 5.2 系统集成需求
- **知识图谱存储系统**:用于持久化存储文献、概念、作者、研究时间线等实体及其关系
- **医学术语标准化组件**必须集成ICD-11、DSM-5术语库、MeSH/UMLS作为搜索和去重的基础能力
- **文献全文获取服务**可选用于获取文献全文内容可考虑使用Unpaywall等开放全文获取渠道
### 5.3 数据交互时序
```mermaid
sequenceDiagram
participant U as 用户
participant O as 调度Agent
participant S1 as 搜索Agent-PubMed
participant S2 as 搜索Agent-PsycINFO
participant S3 as 搜索Agent-Embase
participant A as 分析Agent
participant KG as 知识图谱
participant R as 报告生成Agent
U->>O: 输入研究问题
O->>O: 解析问题/术语规范化/制定策略
par 并行搜索
O->>S1: 搜索PubMed
O->>S2: 搜索PsycINFO
O->>S3: 搜索Embase
S1-->>O: 返回文献列表
S2-->>O: 返回文献列表
S3-->>O: 返回文献列表
end
O->>A: 提交文献进行分析
A->>KG: 查询已有知识
KG-->>A: 返回相关知识
A->>KG: 更新新知识(含去重)
A-->>O: 返回分析结果
O->>R: 生成研究报告
R-->>U: 输出结构化报告
```
---
## 6. 系统模块与Agent角色定义
### 6.1 Agent列表与核心职能
| Agent名称 | 核心职能 | 主要能力 |
|----------|---------|---------|
| 调度Agent | 任务分解与协调 | 解析研究问题、术语规范化、制定搜索策略、协调各Agent工作、汇总结果 |
| 搜索Agent(多实例) | 数据源检索 | 连接特定数据源、执行检索、返回文献元数据、将源格式转换为统一格式 |
| 分析Agent | 文献智能分析 | 摘要提取、研究类型分类、关键发现对比、评估量表识别、知识图谱交互 |
| 报告生成Agent | 报告撰写 | 综合分析结果、生成结构化报告、格式化引用、引用来源校验 |
| 去重Agent | 知识图谱去重 | 文献ID去重、基于UMLS/MeSH的跨语言术语对齐、关系级去重 |
### 6.2 Agent能力边界
| Agent | 能做 | 不能做 |
|-------|-----|-------|
| 调度Agent | 任务分解、进度跟踪、结果汇总、术语规范化 | 直接访问数据源、执行深度分析 |
| 搜索Agent | 连接数据源、执行检索、格式转换 | 分析文献内容、生成报告 |
| 分析Agent | 理解文献内容、研究类型分类、量表名称识别 | 直接访问数据源、格式化输出、完整GRADE证据等级评估 |
| 报告生成Agent | 组织报告结构、生成标准引用、引用ID校验 | 搜索文献、分析文献内容、自行补充引用 |
| 去重Agent | 识别重复实体和关系、跨语言术语对齐 | 搜索文献、分析文献内容 |
### 6.3 Agent间协作关系
```mermaid
flowchart LR
Orchestrator[调度Agent] --> Search1[搜索Agent-PubMed]
Orchestrator --> Search2[搜索Agent-PsycINFO]
Orchestrator --> Search3[搜索Agent-其他数据源]
Orchestrator --> Analyzer[分析Agent]
Analyzer <--> KG[(知识图谱)]
Analyzer <--> Dedup[去重Agent]
Orchestrator --> Reporter[报告生成Agent]
subgraph 并行执行
Search1
Search2
Search3
end
```
---
## 7. 分阶段交付计划
### 7.1 阶段1MVP版本 - 实现核心搜索和报告生成能力
**阶段目标**: 验证核心价值,实现基本的多数据源搜索和结构化报告生成能力
**功能清单**:
- 3个核心数据源并行搜索PubMed、bioRxiv/medRxiv为MVP必选PsycINFO/Embase支持用户自带机构账号
- 结构化报告生成Markdown格式
- Multi-Agent执行进度展示
- 基于DOI/PMID的精确匹配去重
- 研究类型分类(系统评价/Meta分析、RCT、队列研究、病例对照、病例报告等
- 诊断标准关键词识别与标注识别文献中出现的DSM-5、ICD-11等关键词
- 常用精神科量表名称识别PANSS、HAM-D、MADRS、CGI等
- 研究方法学注意事项提醒章节
- 引用幻觉防范机制:结构化输出+引用ID校验
### 7.2 阶段2完善版本 - 扩展数据源,引入知识图谱与完整去重
**阶段目标**: 扩展全部数据源,引入知识图谱存储与完整的去重机制,提升研究深度
**功能清单**:
- 扩展全部数据源Cochrane、CNKI、万方、Google Scholar
- 整合ClinicalTrials.gov临床试验注册库
- 知识图谱存储(文献引用关系、概念/实体关系、作者合作关系、研究时间线)
- 完整去重机制文献ID去重、基于UMLS/MeSH CUI的跨语言术语对齐、关系级去重
- 基于知识图谱的推理与充分性检查
- 报告格式动态调整(根据问题类型灵活调整报告结构)
- 直接导出Word/PDF功能
- 偏倚风险初筛基于Cochrane偏倚风险评估工具框架
- 量表评分结果提取
- 诊断标准版本自动识别与标注
**阶段划分说明**: MVP阶段聚焦核心价值验证搜索+报告生成+基本专业功能),知识图谱及其相关功能(完整去重、推理)作为整体在第二阶段一起引入,避免功能割裂
---
## 8. 技术约束与非功能性需求
### 8.1 技术约束
以下为用户明确要求的技术约束:
**知识图谱存储**
> 使用知识图谱进行文献存储与动态更新
**全图去重机制**
> 建立全图去重机制文献ID去重+基于UMLS/MeSH的跨语言术语对齐+关系级去重)
**Multi-Agent架构**
> 采用Multi-Agent架构实现并行处理和进度展示
**医学术语标准化组件**
> 必须集成ICD-11、DSM-5术语库、MeSH/UMLS作为搜索和去重的基础能力
**引用幻觉防范**
> 报告生成Agent的引用必须且只能来自搜索Agent返回的文献列表采用结构化输出格式后处理阶段校验所有引用ID是否存在于原始搜索结果中
### 8.2 性能要求
| 指标 | 要求 | 说明 |
|-----|------|------|
| 响应时间 | 允许小时级执行 | 追求全面深入的研究结果而非快速响应 |
| 进度反馈 | 实时 | Multi-Agent执行过程需实时展示进度包含预估完成时间 |
| 后台执行 | 支持 | 支持后台执行+完成通知,用户无需持续等待 |
| 文献处理能力 | 分层处理 | 第一轮粗筛可处理200篇第二轮精读分析处理Top 50-80篇核心文献 |
### 8.3 安全要求
- 无特殊安全要求,主要处理公开学术文献
- 无需用户认证或敏感数据加密
- 用户机构账号信息如用于PsycINFO访问需安全存储
### 8.4 其他非功能性要求
| 类别 | 要求 |
|-----|------|
| 使用规模 | 个人/小团队使用1-10人 |
| 日均查询量 | 10-50次 |
| 输出语言 | 报告输出为中文 |
| 文献处理 | 支持中英文文献处理 |
---
## 9. 验收标准
### 9.1 功能验收标准
| 验收项 | 验收标准 | 验证方式 |
|-------|---------|---------|
| 引用来源可追溯率 | =100%刚性约束所有引用必须来自搜索返回结果禁止AI自行生成 | 自动化校验+人工抽查 |
| 引用格式准确率 | >=95%DOI、作者、标题等信息与原始数据一致 | 人工抽查验证 |
| 报告完整性 | 包含背景、文献分析、研究类型分布、方法学注意事项、结论、引用等必要章节 | 结构检查 |
| 进度展示 | Multi-Agent执行过程可视化展示用户能了解当前进度和预估完成时间 | 用户体验测试 |
| 复杂问题处理 | 能处理涉及多种疾病类型、多种治疗方法的跨领域研究问题 | 复杂问题测试用例验证 |
| 去重准确率 | >=90%(允许边界情况保留两者) | 知识图谱检查 |
| 研究类型分类准确率 | >=85%(系统评价/RCT/队列研究/病例报告等基本分类) | 人工抽查验证 |
### 9.2 非功能验收标准
| 验收项 | 验收标准 |
|-------|---------|
| 执行时间 | 完整研究报告生成在合理时间内完成简单问题30分钟内复杂问题2小时内 |
| 并发支持 | 支持小团队1-10人同时使用 |
| 中英文支持 | 能正确处理中英文混合的研究问题和文献 |
| 术语规范化 | 能正确识别并处理精神科领域的非标准术语输入 |