Files
deepagents----/需求文档_V1.md
2025-11-02 18:06:38 +08:00

194 lines
5.4 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Deep Research System - 需求文档
**框架:** DeepAgents (LangChain) | **日期:** 2025-10-31
## 产品定位
智能深度研究系统:自动搜集信息→来源验证→交叉核对→生成高可信度研究报告
---
## 核心流程7步
1. **意图分析** - 识别领域、提取概念、生成3-5个搜索查询
2. **并行搜索** - 同时执行多查询,聚合去重
3. **来源验证** - Tier 1-4分级过滤低质量来源总数≥5高质量≥3
4. **内容分析** - 提取信息、交叉验证、检测矛盾、识别缺口
5. **置信度评估** - 计算置信度0-1判断是否达标
6. **迭代决策** - 未达标→生成补充查询→重复步骤2-5最多N轮
7. **报告生成** - 技术/学术报告Markdown格式
---
## 三种深度模式
| 模式 | 迭代轮次 | 目标来源数 | 置信度目标 | 并行搜索 | 预期时长 |
|------|---------|-----------|-----------|---------|---------|
| **quick** | 1-2 | 5-10 | 0.6 | 3 | ~2分钟 |
| **standard** | 2-3 | 10-20 | 0.7 | 5 | ~5分钟 |
| **deep** | 3-5 | 20-40 | 0.8 | 5 | ~10分钟 |
---
## 来源可信度分级Tier 1-4
| Tier | 评分 | 技术类来源 | 学术类来源 |
|------|------|-----------|-----------|
| **1** | 0.9-1.0 | 官方文档、第一方GitHub、标准组织 | 同行评审期刊、高引用论文(>100) |
| **2** | 0.7-0.9 | MDN、Stack Overflow高分、大厂博客 | 会议论文、中等引用(10-100) |
| **3** | 0.5-0.7 | 高质量教程、维基百科、社区知识库 | - |
| **4** | 0.3-0.5 | 论坛讨论、个人博客、社交媒体 | - |
**质量要求:** 总来源≥5Tier 1-2≥3
---
## 置信度计算
```
置信度 = 来源可信度×50% + 交叉验证×30% + 时效性×20%
```
| 维度 | 权重 | 评分规则 |
|------|------|---------|
| **来源可信度** | 50% | Tier1=0.95, Tier2=0.80, Tier3=0.65, Tier4=0.45 (平均值) |
| **交叉验证** | 30% | 1源=0.4, 2-3源=0.7, 4+源=1.0 (有矛盾-0.3) |
| **时效性** | 20% | <6月=1.0, 6-12月=0.9, 1-2年=0.7, 2-3年=0.5, >3年=0.3 |
**评级:** ≥0.8=🟢高 | 0.6-0.8=🟡中 | <0.6=🔴
---
## 报告格式
### 技术报告结构
```markdown
# 技术研究报告:{主题}
## 📊 研究元信息
- 研究日期、置信度、来源统计、轮次
## 🎯 执行摘要
- 3-5个最重要发现
## 🔍 关键发现
### [主题分组]
#### 发现X
🟢 置信度0.XX
[详细描述]
**支持证据:**
- [来源](URL) - Tier X - "引用"
## 📊 来源可信度矩阵
| 来源 | 类型 | 层级 | 可信度 | 日期 | 贡献 |
## ⚠️ 矛盾和不确定性
[如有矛盾,详细列出]
## 📚 参考文献
```
### 学术报告结构
摘要 引言 文献综述 研究方法 研究发现 讨论 结论 参考文献
---
## CLI命令
### research - 执行研究
```bash
research <研究主题> [选项]
# 选项:
--depth <quick|standard|deep> # 深度模式默认standard
--format <technical|academic|auto> # 报告格式默认auto
--min-tier <1-4> # 最低层级默认2
--save # 保存会话
```
### config - 配置管理
```bash
config --show # 显示配置
config --set <键>=<值> # 设置配置
config --reset # 重置配置
```
### history & resume - 历史记录
```bash
history # 列出所有历史
history --view <ID> # 查看会话详情
resume <ID> # 恢复指定会话
```
---
## 质量保障
### 自动质量检查
- **研究开始前** 检查LLM/搜索服务可用性
- **每轮搜索后** 检查来源数量(≥5Tier1-23不足则扩展
- **内容分析后** 检查置信度未达标且未超轮次继续迭代
- **报告生成前** 确保所有发现有来源引用和置信度
### 自动扩展机制
**触发条件:** 来源不足 | 高质量来源不足 | 置信度低 | 知识缺口
**扩展策略:** 宽泛关键词 | 同义词 | 不同搜索后端 | 针对缺口专门查询
**限制:** 最多轮次由模式决定 | 连续两轮提升<0.05则停止
### 矛盾处理
1. 比较来源层级优先高Tier
2. 比较时效性优先新信息
3. 比较证据强度优先有数据/实验/引用
4. 无法解决报告中并列展示
---
## 性能要求
| 项目 | 要求 |
|------|------|
| **响应时间** | quick: 2分钟 \| standard: 5分钟 \| deep: 10分钟 (80%情况) |
| **并发能力** | 真正并行执行非串行 |
| **超时控制** | 单个搜索/提取: 30秒 \| 整体: 按模式设定 |
| **错误处理** | 自动重试2-3次指数退避\| 部分失败降级使用 |
---
## 运行环境
- **虚拟环境** `deep_research_env` (Python 3.11.x, Anaconda)
- **编码** UTF-8
- **API** DashScope (Qwen-Max) + Tavily (搜索)
---
## 验收标准
### 功能完整性
- 三种深度模式 | 4级来源验证 | 置信度公式 | 多轮迭代
- 技术/学术报告 | CLI命令系统
### 质量标准
- **研究质量** 标准模式平均置信度0.7 | Tier1-2占比60%
- **报告质量** Markdown正确 | 来源引用完整 | 结构清晰
- **用户体验** 进度显示实时 | 错误信息友好 | 配置简单
### 性能指标
- 标准模式 5分钟内完成80%情况
- 并行搜索真正并发
- 不因单个来源失败而整体失败
---
**文档结束**