# Deep Research System - 需求文档 **框架:** DeepAgents (LangChain) | **日期:** 2025-10-31 ## 产品定位 智能深度研究系统:自动搜集信息→来源验证→交叉核对→生成高可信度研究报告 --- ## 核心流程(7步) 1. **意图分析** - 识别领域、提取概念、生成3-5个搜索查询 2. **并行搜索** - 同时执行多查询,聚合去重 3. **来源验证** - Tier 1-4分级,过滤低质量来源(总数≥5,高质量≥3) 4. **内容分析** - 提取信息、交叉验证、检测矛盾、识别缺口 5. **置信度评估** - 计算置信度(0-1),判断是否达标 6. **迭代决策** - 未达标→生成补充查询→重复步骤2-5(最多N轮) 7. **报告生成** - 技术/学术报告,Markdown格式 --- ## 三种深度模式 | 模式 | 迭代轮次 | 目标来源数 | 置信度目标 | 并行搜索 | 预期时长 | |------|---------|-----------|-----------|---------|---------| | **quick** | 1-2 | 5-10 | 0.6 | 3 | ~2分钟 | | **standard** | 2-3 | 10-20 | 0.7 | 5 | ~5分钟 | | **deep** | 3-5 | 20-40 | 0.8 | 5 | ~10分钟 | --- ## 来源可信度分级(Tier 1-4) | Tier | 评分 | 技术类来源 | 学术类来源 | |------|------|-----------|-----------| | **1** | 0.9-1.0 | 官方文档、第一方GitHub、标准组织 | 同行评审期刊、高引用论文(>100) | | **2** | 0.7-0.9 | MDN、Stack Overflow高分、大厂博客 | 会议论文、中等引用(10-100) | | **3** | 0.5-0.7 | 高质量教程、维基百科、社区知识库 | - | | **4** | 0.3-0.5 | 论坛讨论、个人博客、社交媒体 | - | **质量要求:** 总来源≥5,Tier 1-2≥3 --- ## 置信度计算 ``` 置信度 = 来源可信度×50% + 交叉验证×30% + 时效性×20% ``` | 维度 | 权重 | 评分规则 | |------|------|---------| | **来源可信度** | 50% | Tier1=0.95, Tier2=0.80, Tier3=0.65, Tier4=0.45 (平均值) | | **交叉验证** | 30% | 1源=0.4, 2-3源=0.7, 4+源=1.0 (有矛盾-0.3) | | **时效性** | 20% | <6月=1.0, 6-12月=0.9, 1-2年=0.7, 2-3年=0.5, >3年=0.3 | **评级:** ≥0.8=🟢高 | 0.6-0.8=🟡中 | <0.6=🔴低 --- ## 报告格式 ### 技术报告结构 ```markdown # 技术研究报告:{主题} ## 📊 研究元信息 - 研究日期、置信度、来源统计、轮次 ## 🎯 执行摘要 - 3-5个最重要发现 ## 🔍 关键发现 ### [主题分组] #### 发现X 🟢 置信度:0.XX [详细描述] **支持证据:** - [来源](URL) - Tier X - "引用" ## 📊 来源可信度矩阵 | 来源 | 类型 | 层级 | 可信度 | 日期 | 贡献 | ## ⚠️ 矛盾和不确定性 [如有矛盾,详细列出] ## 📚 参考文献 ``` ### 学术报告结构 摘要 → 引言 → 文献综述 → 研究方法 → 研究发现 → 讨论 → 结论 → 参考文献 --- ## CLI命令 ### research - 执行研究 ```bash research <研究主题> [选项] # 选项: --depth # 深度模式(默认standard) --format # 报告格式(默认auto) --min-tier <1-4> # 最低层级(默认2) --save # 保存会话 ``` ### config - 配置管理 ```bash config --show # 显示配置 config --set <键>=<值> # 设置配置 config --reset # 重置配置 ``` ### history & resume - 历史记录 ```bash history # 列出所有历史 history --view # 查看会话详情 resume # 恢复指定会话 ``` --- ## 质量保障 ### 自动质量检查 - **研究开始前:** 检查LLM/搜索服务可用性 - **每轮搜索后:** 检查来源数量(≥5,Tier1-2≥3),不足则扩展 - **内容分析后:** 检查置信度,未达标且未超轮次→继续迭代 - **报告生成前:** 确保所有发现有来源引用和置信度 ### 自动扩展机制 **触发条件:** 来源不足 | 高质量来源不足 | 置信度低 | 知识缺口 **扩展策略:** 宽泛关键词 | 同义词 | 不同搜索后端 | 针对缺口专门查询 **限制:** 最多轮次由模式决定 | 连续两轮提升<0.05则停止 ### 矛盾处理 1. 比较来源层级(优先高Tier) 2. 比较时效性(优先新信息) 3. 比较证据强度(优先有数据/实验/引用) 4. 无法解决→报告中并列展示 --- ## 性能要求 | 项目 | 要求 | |------|------| | **响应时间** | quick: 2分钟 \| standard: 5分钟 \| deep: 10分钟 (80%情况) | | **并发能力** | 真正并行执行(非串行) | | **超时控制** | 单个搜索/提取: 30秒 \| 整体: 按模式设定 | | **错误处理** | 自动重试2-3次(指数退避)\| 部分失败→降级使用 | --- ## 运行环境 - **虚拟环境:** `deep_research_env` (Python 3.11.x, Anaconda) - **编码:** UTF-8 - **API:** DashScope (Qwen-Max) + Tavily (搜索) --- ## 验收标准 ### 功能完整性 - ✅ 三种深度模式 | 4级来源验证 | 置信度公式 | 多轮迭代 - ✅ 技术/学术报告 | CLI命令系统 ### 质量标准 - **研究质量:** 标准模式平均置信度≥0.7 | Tier1-2占比≥60% - **报告质量:** Markdown正确 | 来源引用完整 | 结构清晰 - **用户体验:** 进度显示实时 | 错误信息友好 | 配置简单 ### 性能指标 - 标准模式 5分钟内完成(80%情况) - 并行搜索真正并发 - 不因单个来源失败而整体失败 --- **文档结束**