352 lines
16 KiB
Markdown
352 lines
16 KiB
Markdown
|
|
# 医疗精神疾病深度研究助手 (DeepResearch Assistant) - 需求文档
|
|||
|
|
|
|||
|
|
**文档版本**: 1.1
|
|||
|
|
**创建时间**: 2025-12-07
|
|||
|
|
**生成方式**: Claude Code 智能需求生成器
|
|||
|
|
**项目类型**: Agent 开发
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 1. 背景与目标
|
|||
|
|
|
|||
|
|
### 1.1 项目背景
|
|||
|
|
|
|||
|
|
开发一个面向医疗精神疾病领域的深度研究助手(DeepResearch Assistant),帮助科研人员、医学生和医疗信息分析师进行系统性文献调研。该助手能够根据用户提出的研究问题,自动执行多数据源并行搜索,对搜索到的文献进行智能分析,最终生成高质量、结构化的研究报告,确保引用准确、逻辑清晰。
|
|||
|
|
|
|||
|
|
### 1.2 目标与价值
|
|||
|
|
|
|||
|
|
**核心目标**:
|
|||
|
|
1. **提高文献调研效率**:将传统需要数天的文献调研工作压缩到小时级别完成
|
|||
|
|
2. **提升研究质量**:确保文献覆盖全面、引用准确可追溯、分析逻辑严谨
|
|||
|
|
3. **构建长期知识库**:通过知识图谱积累领域知识,支持持续研究和知识发现
|
|||
|
|
|
|||
|
|
**目标用户**:
|
|||
|
|
1. **科研人员/学者**:进行精神疾病领域的学术研究
|
|||
|
|
2. **医学生/规培医生**:学习精神科知识,辅助学业
|
|||
|
|
3. **医疗信息分析师**:处理大量文献数据,支持机构决策
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 2. 使用场景与触发方式
|
|||
|
|
|
|||
|
|
### 2.1 典型使用场景
|
|||
|
|
|
|||
|
|
#### 场景一:文献综述撰写
|
|||
|
|
|
|||
|
|
**触发条件**:用户输入研究问题,如"近5年精神分裂症认知功能障碍的非药物治疗进展"
|
|||
|
|
|
|||
|
|
**操作步骤**:
|
|||
|
|
1. 用户输入研究问题
|
|||
|
|
2. 系统展示Multi-Agent执行进度:解析问题 -> 制定搜索策略
|
|||
|
|
3. 并行搜索多个数据源,实时显示"正在搜索PubMed..."、"已找到X篇文献"
|
|||
|
|
4. 对文献进行智能分析和综合
|
|||
|
|
5. 将新文献动态加入知识图谱,执行去重
|
|||
|
|
6. 生成结构化研究报告
|
|||
|
|
|
|||
|
|
**预期结果**:获得一份包含背景概述、核心文献分析、研究类型分布、研究结论与知识空白、标准格式引用的完整中文研究报告
|
|||
|
|
|
|||
|
|
#### 场景二:研究题目探索
|
|||
|
|
|
|||
|
|
**触发条件**:用户希望了解某个新研究方向的进展和空白
|
|||
|
|
|
|||
|
|
**操作步骤**:
|
|||
|
|
1. 用户输入探索性问题
|
|||
|
|
2. 系统搜索相关文献并分析研究现状
|
|||
|
|
3. 识别该领域的知识空白和潜在研究方向
|
|||
|
|
4. 生成研究现状与机会分析报告
|
|||
|
|
|
|||
|
|
**预期结果**:了解该方向的研究现状、主要发现、知识空白和潜在研究机会
|
|||
|
|
|
|||
|
|
### 2.2 使用入口与触发方式
|
|||
|
|
|
|||
|
|
- **主要入口**:通过对话界面以自然语言输入研究问题
|
|||
|
|
- **触发方式**:用户输入研究问题后,系统自动启动Multi-Agent协作流程
|
|||
|
|
- **语言支持**:支持中英文提问
|
|||
|
|
- **搜索策略控制**:默认自动执行搜索;高级用户可开启搜索策略预览与调整模式;在结果页面提供调整搜索范围后重新生成的入口
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 3. 输入输出定义
|
|||
|
|
|
|||
|
|
### 3.1 输入
|
|||
|
|
|
|||
|
|
| 输入项 | 描述 | 格式 | 必填 |
|
|||
|
|
|-------|------|------|------|
|
|||
|
|
| 研究问题 | 用户以自然语言描述的研究问题 | 自然语言文本(中/英文) | 是 |
|
|||
|
|
|
|||
|
|
**输入示例**:
|
|||
|
|
- "近5年精神分裂症认知功能障碍的非药物治疗进展"
|
|||
|
|
- "抑郁症与肠道菌群的关系研究现状"
|
|||
|
|
- "治疗抵抗性抑郁症的增效治疗策略"
|
|||
|
|
- "首发精神分裂症的早期干预证据"
|
|||
|
|
|
|||
|
|
**术语规范化处理**:系统基于DSM-5/ICD-11术语库,自动识别用户输入的非标准术语并映射到标准术语进行搜索。
|
|||
|
|
|
|||
|
|
### 3.2 输出
|
|||
|
|
|
|||
|
|
**输出格式**:结构化中文研究报告(Markdown格式,用户可自行转换为其他格式)
|
|||
|
|
|
|||
|
|
**报告结构**:
|
|||
|
|
| 章节 | 内容描述 |
|
|||
|
|
|-----|---------|
|
|||
|
|
| 研究背景与现状概述 | 对研究问题的背景介绍和领域概况 |
|
|||
|
|
| 核心文献摘要与分析 | 重要文献的摘要提取和关键发现对比分析,每条结论标注证据来源链接 |
|
|||
|
|
| 研究类型分布 | 纳入文献的研究类型分类(系统评价/Meta分析、RCT、队列研究、病例对照、病例报告等) |
|
|||
|
|
| 研究方法学注意事项 | 诊断标准差异提醒、评估量表说明、方法学局限性说明 |
|
|||
|
|
| 研究结论与知识空白 | 综合结论和领域内尚待研究的问题 |
|
|||
|
|
| 文献引用列表 | 标准格式的完整引用列表,所有引用均经过来源验证 |
|
|||
|
|
|
|||
|
|
**报告透明性说明**:
|
|||
|
|
- 显示研究类型分布(如:包含3项RCT、5项队列研究等)
|
|||
|
|
- 展示文献筛选逻辑(如:搜索到200篇,相关性筛选后纳入50篇)
|
|||
|
|
- 对核心专业术语提供悬浮解释或脚注
|
|||
|
|
- 明确标注"研究类型分类由AI提供,完整的证据等级评估需专业人员判断"
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 4. 交互流程说明
|
|||
|
|
|
|||
|
|
### 4.1 典型主流程
|
|||
|
|
|
|||
|
|
```mermaid
|
|||
|
|
flowchart TD
|
|||
|
|
Start([用户输入研究问题]) --> Parse[解析问题/制定搜索策略]
|
|||
|
|
Parse --> Search[并行搜索多数据源]
|
|||
|
|
Search --> Progress[实时展示搜索进度]
|
|||
|
|
Progress --> Analyze[智能文献分析与综合]
|
|||
|
|
Analyze --> KG[知识图谱更新与去重]
|
|||
|
|
KG --> Generate[生成结构化报告]
|
|||
|
|
Generate --> Output([输出研究报告])
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
**流程说明**:
|
|||
|
|
1. **问题解析**:理解用户研究问题,进行术语规范化转换,提取关键词,制定多数据源搜索策略
|
|||
|
|
2. **并行搜索**:同时向多个学术数据源发起检索请求
|
|||
|
|
3. **进度展示**:实时向用户反馈各数据源搜索状态和已找到的文献数量,展示预估完成时间
|
|||
|
|
4. **文献分析**:对检索到的文献进行摘要提取、研究类型分类、关键发现对比
|
|||
|
|
5. **知识图谱更新**:将新文献信息存入知识图谱,执行多级去重
|
|||
|
|
6. **报告生成**:综合分析结果,生成结构化研究报告
|
|||
|
|
|
|||
|
|
### 4.2 异常与分支流程
|
|||
|
|
|
|||
|
|
| 异常场景 | 处理方式 |
|
|||
|
|
|---------|---------|
|
|||
|
|
| 某数据源访问失败 | 记录失败原因,继续使用其他数据源,在报告中注明数据源覆盖情况 |
|
|||
|
|
| 搜索结果为空 | 建议用户调整研究问题或扩大搜索范围 |
|
|||
|
|
| 文献数量过多 | 采用分层处理策略:第一轮粗筛可处理200篇(相关性排序),第二轮精读分析处理Top 50-80篇核心文献,明确告知用户已分析文献范围 |
|
|||
|
|
| 重复文献识别 | 通过知识图谱多级去重机制自动合并 |
|
|||
|
|
| 用户问题模糊 | 提供问题澄清引导,帮助用户明确研究范围 |
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 5. 外部系统与数据依赖
|
|||
|
|
|
|||
|
|
### 5.1 外部数据源需求
|
|||
|
|
|
|||
|
|
| 数据源 | 类型 | 用途 | 优先级 | 授权方式 |
|
|||
|
|
|-------|------|------|--------|----------|
|
|||
|
|
| PubMed/MEDLINE | 生物医学文献数据库 | 获取生物医学研究文献 | 核心(MVP) | 免费开放API(E-utilities) |
|
|||
|
|
| PsycINFO | 心理学专业数据库 | 获取心理学/精神科专业文献 | 核心 | 需机构订阅,支持用户自带机构账号模式 |
|
|||
|
|
| Embase | 欧洲文献数据库 | 获取欧洲文献及药物研究 | 核心 | 需机构订阅,支持用户自带机构账号模式 |
|
|||
|
|
| Cochrane Library | 循证医学数据库 | 获取系统评价和Meta分析 | 扩展 | 需机构订阅 |
|
|||
|
|
| CNKI | 中国知网 | 获取中文学术文献 | 扩展 | 需机构订阅 |
|
|||
|
|
| 万方数据 | 中文文献数据库 | 补充中文文献来源 | 扩展 | 需机构订阅 |
|
|||
|
|
| bioRxiv/medRxiv | 预印本平台 | 获取最新未发表研究 | 扩展(MVP) | 免费开放API |
|
|||
|
|
| Google Scholar | 综合学术搜索 | 补充其他来源遗漏文献 | 扩展 | 需评估访问限制 |
|
|||
|
|
| ClinicalTrials.gov | 临床试验注册库 | 获取在研试验信息,评估发表偏倚 | 扩展(Phase 2) | 免费开放API |
|
|||
|
|
|
|||
|
|
**预印本来源说明**:对预印本来源的文献进行明确标注和风险提示,说明其未经同行评审的局限性,并降低其在证据综合中的权重。
|
|||
|
|
|
|||
|
|
### 5.2 系统集成需求
|
|||
|
|
|
|||
|
|
- **知识图谱存储系统**:用于持久化存储文献、概念、作者、研究时间线等实体及其关系
|
|||
|
|
- **医学术语标准化组件**:必须集成ICD-11、DSM-5术语库、MeSH/UMLS,作为搜索和去重的基础能力
|
|||
|
|
- **文献全文获取服务**(可选):用于获取文献全文内容,可考虑使用Unpaywall等开放全文获取渠道
|
|||
|
|
|
|||
|
|
### 5.3 数据交互时序
|
|||
|
|
|
|||
|
|
```mermaid
|
|||
|
|
sequenceDiagram
|
|||
|
|
participant U as 用户
|
|||
|
|
participant O as 调度Agent
|
|||
|
|
participant S1 as 搜索Agent-PubMed
|
|||
|
|
participant S2 as 搜索Agent-PsycINFO
|
|||
|
|
participant S3 as 搜索Agent-Embase
|
|||
|
|
participant A as 分析Agent
|
|||
|
|
participant KG as 知识图谱
|
|||
|
|
participant R as 报告生成Agent
|
|||
|
|
|
|||
|
|
U->>O: 输入研究问题
|
|||
|
|
O->>O: 解析问题/术语规范化/制定策略
|
|||
|
|
|
|||
|
|
par 并行搜索
|
|||
|
|
O->>S1: 搜索PubMed
|
|||
|
|
O->>S2: 搜索PsycINFO
|
|||
|
|
O->>S3: 搜索Embase
|
|||
|
|
S1-->>O: 返回文献列表
|
|||
|
|
S2-->>O: 返回文献列表
|
|||
|
|
S3-->>O: 返回文献列表
|
|||
|
|
end
|
|||
|
|
|
|||
|
|
O->>A: 提交文献进行分析
|
|||
|
|
A->>KG: 查询已有知识
|
|||
|
|
KG-->>A: 返回相关知识
|
|||
|
|
A->>KG: 更新新知识(含去重)
|
|||
|
|
A-->>O: 返回分析结果
|
|||
|
|
|
|||
|
|
O->>R: 生成研究报告
|
|||
|
|
R-->>U: 输出结构化报告
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 6. 系统模块与Agent角色定义
|
|||
|
|
|
|||
|
|
### 6.1 Agent列表与核心职能
|
|||
|
|
|
|||
|
|
| Agent名称 | 核心职能 | 主要能力 |
|
|||
|
|
|----------|---------|---------|
|
|||
|
|
| 调度Agent | 任务分解与协调 | 解析研究问题、术语规范化、制定搜索策略、协调各Agent工作、汇总结果 |
|
|||
|
|
| 搜索Agent(多实例) | 数据源检索 | 连接特定数据源、执行检索、返回文献元数据、将源格式转换为统一格式 |
|
|||
|
|
| 分析Agent | 文献智能分析 | 摘要提取、研究类型分类、关键发现对比、评估量表识别、知识图谱交互 |
|
|||
|
|
| 报告生成Agent | 报告撰写 | 综合分析结果、生成结构化报告、格式化引用、引用来源校验 |
|
|||
|
|
| 去重Agent | 知识图谱去重 | 文献ID去重、基于UMLS/MeSH的跨语言术语对齐、关系级去重 |
|
|||
|
|
|
|||
|
|
### 6.2 Agent能力边界
|
|||
|
|
|
|||
|
|
| Agent | 能做 | 不能做 |
|
|||
|
|
|-------|-----|-------|
|
|||
|
|
| 调度Agent | 任务分解、进度跟踪、结果汇总、术语规范化 | 直接访问数据源、执行深度分析 |
|
|||
|
|
| 搜索Agent | 连接数据源、执行检索、格式转换 | 分析文献内容、生成报告 |
|
|||
|
|
| 分析Agent | 理解文献内容、研究类型分类、量表名称识别 | 直接访问数据源、格式化输出、完整GRADE证据等级评估 |
|
|||
|
|
| 报告生成Agent | 组织报告结构、生成标准引用、引用ID校验 | 搜索文献、分析文献内容、自行补充引用 |
|
|||
|
|
| 去重Agent | 识别重复实体和关系、跨语言术语对齐 | 搜索文献、分析文献内容 |
|
|||
|
|
|
|||
|
|
### 6.3 Agent间协作关系
|
|||
|
|
|
|||
|
|
```mermaid
|
|||
|
|
flowchart LR
|
|||
|
|
Orchestrator[调度Agent] --> Search1[搜索Agent-PubMed]
|
|||
|
|
Orchestrator --> Search2[搜索Agent-PsycINFO]
|
|||
|
|
Orchestrator --> Search3[搜索Agent-其他数据源]
|
|||
|
|
Orchestrator --> Analyzer[分析Agent]
|
|||
|
|
Analyzer <--> KG[(知识图谱)]
|
|||
|
|
Analyzer <--> Dedup[去重Agent]
|
|||
|
|
Orchestrator --> Reporter[报告生成Agent]
|
|||
|
|
|
|||
|
|
subgraph 并行执行
|
|||
|
|
Search1
|
|||
|
|
Search2
|
|||
|
|
Search3
|
|||
|
|
end
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 7. 分阶段交付计划
|
|||
|
|
|
|||
|
|
### 7.1 阶段1:MVP版本 - 实现核心搜索和报告生成能力
|
|||
|
|
|
|||
|
|
**阶段目标**: 验证核心价值,实现基本的多数据源搜索和结构化报告生成能力
|
|||
|
|
|
|||
|
|
**功能清单**:
|
|||
|
|
- 3个核心数据源并行搜索(PubMed、bioRxiv/medRxiv为MVP必选,PsycINFO/Embase支持用户自带机构账号)
|
|||
|
|
- 结构化报告生成(Markdown格式)
|
|||
|
|
- Multi-Agent执行进度展示
|
|||
|
|
- 基于DOI/PMID的精确匹配去重
|
|||
|
|
- 研究类型分类(系统评价/Meta分析、RCT、队列研究、病例对照、病例报告等)
|
|||
|
|
- 诊断标准关键词识别与标注(识别文献中出现的DSM-5、ICD-11等关键词)
|
|||
|
|
- 常用精神科量表名称识别(PANSS、HAM-D、MADRS、CGI等)
|
|||
|
|
- 研究方法学注意事项提醒章节
|
|||
|
|
- 引用幻觉防范机制:结构化输出+引用ID校验
|
|||
|
|
|
|||
|
|
### 7.2 阶段2:完善版本 - 扩展数据源,引入知识图谱与完整去重
|
|||
|
|
|
|||
|
|
**阶段目标**: 扩展全部数据源,引入知识图谱存储与完整的去重机制,提升研究深度
|
|||
|
|
|
|||
|
|
**功能清单**:
|
|||
|
|
- 扩展全部数据源(Cochrane、CNKI、万方、Google Scholar)
|
|||
|
|
- 整合ClinicalTrials.gov临床试验注册库
|
|||
|
|
- 知识图谱存储(文献引用关系、概念/实体关系、作者合作关系、研究时间线)
|
|||
|
|
- 完整去重机制(文献ID去重、基于UMLS/MeSH CUI的跨语言术语对齐、关系级去重)
|
|||
|
|
- 基于知识图谱的推理与充分性检查
|
|||
|
|
- 报告格式动态调整(根据问题类型灵活调整报告结构)
|
|||
|
|
- 直接导出Word/PDF功能
|
|||
|
|
- 偏倚风险初筛(基于Cochrane偏倚风险评估工具框架)
|
|||
|
|
- 量表评分结果提取
|
|||
|
|
- 诊断标准版本自动识别与标注
|
|||
|
|
|
|||
|
|
**阶段划分说明**: MVP阶段聚焦核心价值验证(搜索+报告生成+基本专业功能),知识图谱及其相关功能(完整去重、推理)作为整体在第二阶段一起引入,避免功能割裂
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 8. 技术约束与非功能性需求
|
|||
|
|
|
|||
|
|
### 8.1 技术约束
|
|||
|
|
|
|||
|
|
以下为用户明确要求的技术约束:
|
|||
|
|
|
|||
|
|
**知识图谱存储**
|
|||
|
|
> 使用知识图谱进行文献存储与动态更新
|
|||
|
|
|
|||
|
|
**全图去重机制**
|
|||
|
|
> 建立全图去重机制(文献ID去重+基于UMLS/MeSH的跨语言术语对齐+关系级去重)
|
|||
|
|
|
|||
|
|
**Multi-Agent架构**
|
|||
|
|
> 采用Multi-Agent架构实现并行处理和进度展示
|
|||
|
|
|
|||
|
|
**医学术语标准化组件**
|
|||
|
|
> 必须集成ICD-11、DSM-5术语库、MeSH/UMLS,作为搜索和去重的基础能力
|
|||
|
|
|
|||
|
|
**引用幻觉防范**
|
|||
|
|
> 报告生成Agent的引用必须且只能来自搜索Agent返回的文献列表,采用结构化输出格式,后处理阶段校验所有引用ID是否存在于原始搜索结果中
|
|||
|
|
|
|||
|
|
### 8.2 性能要求
|
|||
|
|
|
|||
|
|
| 指标 | 要求 | 说明 |
|
|||
|
|
|-----|------|------|
|
|||
|
|
| 响应时间 | 允许小时级执行 | 追求全面深入的研究结果而非快速响应 |
|
|||
|
|
| 进度反馈 | 实时 | Multi-Agent执行过程需实时展示进度,包含预估完成时间 |
|
|||
|
|
| 后台执行 | 支持 | 支持后台执行+完成通知,用户无需持续等待 |
|
|||
|
|
| 文献处理能力 | 分层处理 | 第一轮粗筛可处理200篇,第二轮精读分析处理Top 50-80篇核心文献 |
|
|||
|
|
|
|||
|
|
### 8.3 安全要求
|
|||
|
|
|
|||
|
|
- 无特殊安全要求,主要处理公开学术文献
|
|||
|
|
- 无需用户认证或敏感数据加密
|
|||
|
|
- 用户机构账号信息(如用于PsycINFO访问)需安全存储
|
|||
|
|
|
|||
|
|
### 8.4 其他非功能性要求
|
|||
|
|
|
|||
|
|
| 类别 | 要求 |
|
|||
|
|
|-----|------|
|
|||
|
|
| 使用规模 | 个人/小团队使用(1-10人) |
|
|||
|
|
| 日均查询量 | 10-50次 |
|
|||
|
|
| 输出语言 | 报告输出为中文 |
|
|||
|
|
| 文献处理 | 支持中英文文献处理 |
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 9. 验收标准
|
|||
|
|
|
|||
|
|
### 9.1 功能验收标准
|
|||
|
|
|
|||
|
|
| 验收项 | 验收标准 | 验证方式 |
|
|||
|
|
|-------|---------|---------|
|
|||
|
|
| 引用来源可追溯率 | =100%(刚性约束,所有引用必须来自搜索返回结果,禁止AI自行生成) | 自动化校验+人工抽查 |
|
|||
|
|
| 引用格式准确率 | >=95%(DOI、作者、标题等信息与原始数据一致) | 人工抽查验证 |
|
|||
|
|
| 报告完整性 | 包含背景、文献分析、研究类型分布、方法学注意事项、结论、引用等必要章节 | 结构检查 |
|
|||
|
|
| 进度展示 | Multi-Agent执行过程可视化展示,用户能了解当前进度和预估完成时间 | 用户体验测试 |
|
|||
|
|
| 复杂问题处理 | 能处理涉及多种疾病类型、多种治疗方法的跨领域研究问题 | 复杂问题测试用例验证 |
|
|||
|
|
| 去重准确率 | >=90%(允许边界情况保留两者) | 知识图谱检查 |
|
|||
|
|
| 研究类型分类准确率 | >=85%(系统评价/RCT/队列研究/病例报告等基本分类) | 人工抽查验证 |
|
|||
|
|
|
|||
|
|
### 9.2 非功能验收标准
|
|||
|
|
|
|||
|
|
| 验收项 | 验收标准 |
|
|||
|
|
|-------|---------|
|
|||
|
|
| 执行时间 | 完整研究报告生成在合理时间内完成(简单问题30分钟内,复杂问题2小时内) |
|
|||
|
|
| 并发支持 | 支持小团队(1-10人)同时使用 |
|
|||
|
|
| 中英文支持 | 能正确处理中英文混合的研究问题和文献 |
|
|||
|
|
| 术语规范化 | 能正确识别并处理精神科领域的非标准术语输入 |
|