需求文档skill回溯专家博弈之前
This commit is contained in:
130
.claude/skills/requirement-generator-v1/temp/review_ai.json
Normal file
130
.claude/skills/requirement-generator-v1/temp/review_ai.json
Normal file
@ -0,0 +1,130 @@
|
||||
{
|
||||
"reviewer_role": "AI专家",
|
||||
"review_date": "2025-12-07",
|
||||
"document_path": "D:\\AA_Work\\AIEC-团队开发规范Skills\\.claude\\skills\\requirement-generator-v1\\requirement.md",
|
||||
|
||||
"strengths": [
|
||||
"优点1:Multi-Agent架构设计合理,职责分工明确,调度Agent、搜索Agent、分析Agent、报告生成Agent、去重Agent各司其职,符合复杂任务分解的最佳实践",
|
||||
"优点2:Agent能力边界定义清晰(第6.2节),明确划分了各Agent'能做'与'不能做'的范围,有助于避免职责混乱",
|
||||
"优点3:分阶段交付计划合理,MVP阶段聚焦核心价值验证,知识图谱作为完整功能在第二阶段引入,避免功能割裂",
|
||||
"优点4:异常处理场景考虑周全(第4.2节),包括数据源失败、空结果、文献过多、重复识别等场景",
|
||||
"优点5:允许小时级执行时间,对AI深度分析任务的时间预期合理,未过度追求不切实际的响应速度"
|
||||
],
|
||||
|
||||
"issues": [
|
||||
{
|
||||
"severity": "high",
|
||||
"category": "质量标准",
|
||||
"description": "引用准确性验收标准缺乏量化指标。文档仅表述'每篇文献都能在对应数据源中找到原文',但未定义可接受的准确率阈值,也未说明如何处理AI生成幻觉引用的风险",
|
||||
"location": "第9.1节 功能验收标准 - 引用准确性",
|
||||
"suggestion": "建议明确:(1)引用准确率目标值(如>98%);(2)幻觉检测机制(如引用验证Agent);(3)人工抽查的抽样比例和方法"
|
||||
},
|
||||
{
|
||||
"severity": "high",
|
||||
"category": "智能化适用性",
|
||||
"description": "证据等级评估的AI能力边界未明确。证据等级评估(如牛津证据等级、GRADE评分)是专业性极强的任务,需要理解研究设计、统计方法、偏倚风险等,当前LLM在此任务上的可靠性存疑",
|
||||
"location": "第3.2节 输出 - 研究方法与证据等级;第6.1节 分析Agent职能",
|
||||
"suggestion": "建议:(1)明确证据等级评估的标准体系(如采用Oxford还是GRADE);(2)定义AI评估的准确率目标;(3)考虑人工复核机制或标注AI评估的置信度"
|
||||
},
|
||||
{
|
||||
"severity": "high",
|
||||
"category": "能力要求",
|
||||
"description": "知识图谱的'实体语义去重'能力要求过高。跨语言(中英文)、跨数据源的医学实体语义相似度判断(如判断'精神分裂症'与'Schizophrenia'为同一实体)需要强大的领域知识和对齐能力,当前方案未说明如何实现",
|
||||
"location": "第6.1节 去重Agent职能;第7.2节 完整去重机制",
|
||||
"suggestion": "建议:(1)引入标准医学术语库(如UMLS、MeSH)作为对齐基准;(2)明确语义相似度的判定阈值;(3)定义去重准确率目标"
|
||||
},
|
||||
{
|
||||
"severity": "medium",
|
||||
"category": "人机协作与降级",
|
||||
"description": "缺乏AI分析结果的人工确认机制。文献分析、证据等级评估、知识空白识别等任务的输出直接生成报告,未设计用户确认或修正的环节",
|
||||
"location": "第4.1节 典型主流程;第6.1节 分析Agent",
|
||||
"suggestion": "建议增加:(1)关键分析结果的用户确认步骤;(2)报告生成前的摘要预览与用户反馈机制;(3)报告输出后的纠错/补充入口"
|
||||
},
|
||||
{
|
||||
"severity": "medium",
|
||||
"category": "质量标准",
|
||||
"description": "'复杂问题处理'验收标准过于模糊。'能处理多维度、跨领域的精神疾病研究问题'缺乏具体定义,什么算'多维度'?什么算'跨领域'?如何验证'处理成功'?",
|
||||
"location": "第9.1节 功能验收标准 - 复杂问题处理",
|
||||
"suggestion": "建议:(1)定义3-5个典型复杂问题测试用例;(2)明确复杂问题的评判维度(如涉及的疾病类型数量、治疗方法数量等);(3)定义处理成功的标准"
|
||||
},
|
||||
{
|
||||
"severity": "medium",
|
||||
"category": "能力要求",
|
||||
"description": "报告生成Agent的'综合分析'能力边界不清。将多篇文献的发现进行综合分析、识别知识空白、提出研究方向,这需要较强的推理和创造性,但文档未说明期望的分析深度和可靠性要求",
|
||||
"location": "第3.2节 报告结构 - 研究结论与知识空白;第6.1节 报告生成Agent",
|
||||
"suggestion": "建议:(1)明确综合分析的深度要求(如是否需要提出创新性见解);(2)区分'事实性总结'与'推断性分析'的边界;(3)对推断性内容标注置信度或来源"
|
||||
},
|
||||
{
|
||||
"severity": "medium",
|
||||
"category": "任务复杂度",
|
||||
"description": "调度Agent的'问题解析与搜索策略制定'能力要求可能被低估。将自然语言研究问题转化为多数据源的有效检索式(如PubMed的MeSH词+布尔逻辑)是需要专业知识的复杂任务",
|
||||
"location": "第6.1节 调度Agent职能;第4.1节 问题解析",
|
||||
"suggestion": "建议:(1)提供检索策略模板或规则;(2)考虑用户确认或调整搜索策略的环节;(3)定义搜索召回率/准确率的验收指标"
|
||||
},
|
||||
{
|
||||
"severity": "low",
|
||||
"category": "智能化适用性",
|
||||
"description": "全文获取服务标注为'可选',但部分分析任务(如证据等级评估、方法学分析)可能需要全文信息,仅依赖摘要可能导致分析质量下降",
|
||||
"location": "第5.2节 系统集成需求 - 文献全文获取服务",
|
||||
"suggestion": "建议明确:(1)仅依赖摘要时的功能降级范围;(2)哪些分析任务必须依赖全文;(3)全文不可用时的处理策略"
|
||||
},
|
||||
{
|
||||
"severity": "low",
|
||||
"category": "分阶段演进",
|
||||
"description": "MVP阶段'暂不使用知识图谱',但去重需求(如同一文献在PubMed和Embase都出现)在MVP阶段同样存在,未说明MVP阶段如何处理",
|
||||
"location": "第7.1节 阶段1功能清单",
|
||||
"suggestion": "建议明确MVP阶段的简化去重策略(如仅基于DOI/PMID的精确匹配去重)"
|
||||
}
|
||||
],
|
||||
|
||||
"missing_items": [
|
||||
"遗漏项:未定义AI生成内容的幻觉检测与防范机制。文献引用、研究发现等内容存在AI编造的风险,需要明确验证机制",
|
||||
"遗漏项:未说明搜索Agent访问各数据源的API/接口方式及限制(如PubMed API的访问频率限制、PsycINFO的授权要求等)",
|
||||
"遗漏项:未定义分析Agent处理单次任务的文献数量上限。当搜索返回数百篇文献时,AI分析的上下文长度限制如何处理?",
|
||||
"遗漏项:未说明知识图谱的Schema设计(实体类型、关系类型、属性定义),这对后续开发有重要影响",
|
||||
"遗漏项:未定义报告生成的格式输出能力(如是否支持导出Word/PDF、引用格式是否可配置如APA/Vancouver等)"
|
||||
],
|
||||
|
||||
"ai_risks": [
|
||||
{
|
||||
"risk_level": "high",
|
||||
"description": "引用幻觉风险:LLM在生成引用时可能编造不存在的文献(包括作者、标题、期刊、DOI等),这是当前大模型的已知弱点",
|
||||
"impact": "严重损害研究报告的学术可信度,可能导致用户引用不存在的文献",
|
||||
"mitigation": "建议:(1)所有引用必须来自搜索Agent返回的实际文献列表,报告生成Agent禁止自行'补充'引用;(2)增加引用验证Agent进行回查;(3)在报告中明确标注'所有引用均经过来源验证'"
|
||||
},
|
||||
{
|
||||
"risk_level": "high",
|
||||
"description": "证据等级评估不可靠风险:证据等级评估需要理解研究设计细节(如随机化方法、盲法、样本量计算等),LLM可能给出看似合理但实际错误的评估",
|
||||
"impact": "误导用户对研究证据的判断,可能影响医疗决策参考",
|
||||
"mitigation": "建议:(1)证据等级评估结果标注'AI初评,建议人工复核';(2)提供评估依据的透明说明;(3)MVP阶段可考虑简化为研究类型分类而非证据等级评估"
|
||||
},
|
||||
{
|
||||
"risk_level": "medium",
|
||||
"description": "跨语言语义理解偏差风险:中英文医学术语的对齐(如'精神分裂症'与'Schizophrenia'的各种变体)可能出现错误,导致去重遗漏或错误合并",
|
||||
"impact": "知识图谱质量下降,可能遗漏重要文献或错误合并不同概念",
|
||||
"mitigation": "建议:(1)优先使用标准术语库(MeSH、ICD-11)进行术语对齐;(2)语义相似度判断设置保守阈值;(3)对高不确定性的合并进行人工确认"
|
||||
},
|
||||
{
|
||||
"risk_level": "medium",
|
||||
"description": "上下文长度限制风险:当搜索返回大量文献(如100+篇)时,LLM无法在单次推理中处理所有内容,需要分批处理可能导致信息遗漏或不一致",
|
||||
"impact": "文献分析可能不完整,综合结论可能遗漏重要发现",
|
||||
"mitigation": "建议:(1)定义分批处理策略和信息汇总机制;(2)对长文献列表进行相关性排序,优先处理高相关性文献;(3)明确告知用户'已分析X篇文献,另有Y篇待后续分析'"
|
||||
},
|
||||
{
|
||||
"risk_level": "low",
|
||||
"description": "Agent协作一致性风险:多Agent异步协作可能导致信息传递偏差,如搜索Agent返回的文献在传递给分析Agent时信息丢失或变形",
|
||||
"impact": "可能导致分析结果与原始文献不符",
|
||||
"mitigation": "建议:(1)定义Agent间数据交换的标准格式;(2)关键信息(如DOI、引用格式)全程保持原始值透传;(3)增加端到端的一致性校验"
|
||||
}
|
||||
],
|
||||
|
||||
"suggestions": [
|
||||
"建议1:增加'引用验证Agent'角色,专门负责校验报告中的每条引用是否与搜索结果一致,防止幻觉引用",
|
||||
"建议2:将证据等级评估任务降级为'研究类型分类'(如RCT/队列研究/病例报告等),减少AI判断的主观性和错误风险",
|
||||
"建议3:在报告输出中增加'AI置信度声明',对事实性内容和推断性内容进行区分标注",
|
||||
"建议4:MVP阶段建议先实现用户对搜索策略的确认和调整功能,确保检索方向正确后再进行分析",
|
||||
"建议5:建议引入MeSH/UMLS等标准医学术语库,作为跨语言术语对齐的基准,提升去重准确性",
|
||||
"建议6:明确定义单次任务的文献处理上限(如50篇),超出时提供分批处理或用户筛选机制",
|
||||
"建议7:考虑增加'分析结果预览'环节,在生成完整报告前让用户确认关键发现是否准确"
|
||||
]
|
||||
}
|
||||
Reference in New Issue
Block a user