yanxulong/AIEC_Skills

Fork 0

Files

闫旭隆 f4314c3ede 需求文档skill回溯专家博弈之前

2025-12-11 14:19:36 +08:00

8.6 KiB

Raw Blame History

Q&A资源库类会议纪要 (2025-12-08)

一、会议信息

会议时间: 2025-12-08
参会人员: 连云波(主持)、闫旭隆、江争达、郝倩玉、陶西平
纪要整理人: Claude

二、工作问题 Q&A

1. 会议纪要Skill相关问题

Q1: 会议纪要Skill信息提取准确率低怎么解决？

问题背景: 会议转写文本存在语音识别错误、语义跳脱等问题，导致Skill提取信息时准确率不高，且分块索引搜索容易遗漏信息。

解决方案:

文字转写换成Gemini多模态: 上传会议视频让Gemini转写，准确率远高于传统语音识别，几乎无字错误
Clean预处理: 对转写文本进行去重、去错处理，压缩到紧凑版本后再使用
全量读取替代索引搜索: 将Clean后的完整文本加载到主上下文，通过语义理解提取而非关键词匹配
主窗口全量处理: 尝试将所有映射逻辑写入主窗口Skill，一次性处理，避免Sub-Agent分块造成逻辑割裂

Q2: P0/P1/P2优先级如何准确判断？

问题背景: AI难以准确判断任务优先级，因为不了解团队成员的年龄、级别、工作时长等潜在上下文。

解决方案:

AI先给建议: 让系统给出优先级排序建议，而非直接生成
人工确认反馈: 会议中或会后立即向每个人确认优先级
保留学习材料: 将确认过程的所有材料保留，作为后续强化学习或微调的数据

2. Sub-Agent调用相关问题

Q3: Skill调用项目级Sub-Agent为什么不稳定？

问题背景: 测试发现使用相对路径调用项目级Sub-Agent几乎全部失败，但使用绝对路径可以稳定成功。

解决方案:

必须使用绝对路径: 调用项目级Sub-Agent时指定完整的绝对路径
原因分析: Claude默认优先搜索全局Agent目录，找不到会忽略而非查找项目目录
架构建议: 优先使用Agent调用Agent的方式，而非Skill调用Agent

Q4: Skill嵌套还是Sub-Agent分离，哪个更好？

问题背景: 复杂任务需要多个步骤协作，存在Skill嵌套Skill和Skill调Sub-Agent两种架构选择。

解决方案:

推荐Skill嵌套Skill: 上下文共享，逻辑控制精确，调用关系清晰
不推荐Sub-Agent: 上下文剥离后会丢失大量信息，逻辑控制容易出问题
最佳实践: Agent调Agent > Skill嵌套Skill > Skill调Agent

3. 数字人需求相关问题

Q5: 数字人视频时长应该定义为多少？

问题背景: 需求文档中定义的3-5分钟时长不符合实际业务场景需求。

解决方案:

主要需求改为20-30分钟: 这是PPT宣讲的真实时长需求
3-5分钟作为测试: 初期可用短时长验证技术可行性
技术上无本质差异: 主要是成本问题，不是技术瓶颈

Q6: 数字人平台如何选型？

问题背景: 市场上数字人平台众多，需要评估性价比和效果。

调研结果:

平台	特点	建议
百度希壤	价格较低（40元/10分钟），API便宜	重点测试，本周出样本
黑镜	会员免费，只收定制费，后续生成免费	重点测试，本周出样本
HeyGen	效果好但价格高	作为参考
可灵/即梦	价格很贵	不优先考虑
VEO 3.1	新升级，能力提升	测试首尾帧生成视频效果

4. 前端重构相关问题

Q7: 前端重构如何保证质量？

问题背景: 需要在保留现有功能的基础上重构前端，同时避免引入问题。

解决方案:

后端先审查不改: 用Opus 4.5或Codex对后端代码做Code Review，记录问题不急改
方案交叉验证: 用GPT Research生成方案与现有方案对比
考虑下一版本: 重构时把下一版本功能需求一起考虑进去
提供示例代码: 特别是后端交互的逻辑代码

5. 需求表达相关问题

Q8: 为什么与大模型交互总是得不到好答案？

问题背景: 技术调研文档和需求表达不够清晰，导致他人难以理解，与大模型交互效果也差。

解决方案:

详细说明背景: 包含为什么做、要解决什么问题、核心诉求是什么
站在读者角度: 考虑没有上下文的人能否理解
先写后说: 对于复杂背景，先写下来整理清楚再交流
正反示例: 在Prompt中同时给出正确和错误示例

三、重点工作方法

方法 1：Gemini多模态视频转写方法

描述: 使用Gemini的多模态能力进行会议视频转写，可同时识别画面内容和语音内容。先将会议视频上传给Gemini，让其原文转写所有内容，再用Clean后的文本作为后续处理的输入。
适用场景: 会议纪要生成、视频内容分析、培训视频转文档
关键要点:
- 支持最长1小时的视频
- 可以通过prompt调整提取内容
- 能识别画面变化（屏幕切换、操作演示）
- 转写准确度极高，几乎无字错误

方法 2：全量上下文处理优于分块搜索

描述: 在处理长文本时，使用全量读取加载到主上下文，通过语义理解提取信息，而非RAG关键词搜索。人的口语存在大量跳脱和不清晰表达，直接搜索会漏掉信息。
适用场景: 会议转写处理、文档信息提取、口语化内容分析
关键要点:
- 先做Clean预处理，去除冗余
- 通过Attention机制理解上下文语义
- 可接受较长上下文换取准确性
- RAG对口语化内容效果很差

方法 3：Skill嵌套Skill架构方法

描述: 使用Skill嵌套Skill的方式进行复杂任务编排，直接在主窗口Skill.md中调用其他Skill，而不是通过Sub-Agent。上下文共享，逻辑控制精确。
适用场景: 复杂工作流编排、多步骤任务自动化
关键要点:
- 上下文共享，信息不丢失
- 调用关系清晰，易于调试
- 避免Sub-Agent的上下文隔离问题
- 接受较长上下文的代价

方法 4：Agent调Agent架构组织

描述: 在子项目下定义主Agent，由主Agent调配各Sub-Agent，而非Skill调Agent。这样架构组织更清晰，避免来回嵌套。
适用场景: 多Agent协作系统、复杂项目架构
关键要点:
- 主Agent负责调度和协调
- Sub-Agent专注单一功能
- 架构层次分明，易于维护
- 调用语法更规范

方法 5：提示词正反示例编写技巧

描述: 在编写Skill或Agent的Prompt时，必须同时提供正确示例和错误示例。格式："错误的是什么，正确的是什么"。Agent有自己的想法，通过正反对比可以强化行为规范。
适用场景: 高精度任务的Prompt编写、规范化操作流程
关键要点:
- 正确示例：期望的输出格式和内容
- 错误示例：常见的错误模式
- 双向约束，减少偏离
- 适用于精密操作任务

方法 6：Playwright+MCP浏览器自动化

描述: 使用Playwright Extension（Chrome插件）结合MCP进行浏览器自动化操作，可实现网页操作的完全自动化。对于脱离浏览器的操作（如文件保存对话框），使用OS Scripts配合处理。
适用场景: 网页自动化操作、Gemini/Canva等平台自动操作
关键要点:
- 自动打开网页、输入文本、点击按钮
- 自动上传和下载文件
- OS Scripts处理浏览器外的操作
- 控制精准，完全自动化

方法 7：Gemini分镜头脚本视频生成工作流

描述: 使用Gemini 3.0 Pro生成视频分镜头脚本和图片，再通过VEO等模型生成视频。流程：需求描述 → 分镜脚本 → 分镜图片 → 视频生成 → 合成。
适用场景: 动画视频制作、数字人视频生成、宣传片制作
关键要点:
- Gemini分镜脚本生成能力最强
- 首尾帧+文字稿生成视频已成熟
- 分镜图片质量决定最终效果
- 可生成30秒-2分钟的视频段落

方法 8：工具组合使用策略

描述: 不同大模型在不同场景下的最佳组合使用策略，发挥各自优势。
适用场景: 日常开发、AI辅助编程
关键要点:
- 前端开发: Gemini（效果极好）
- 代码逻辑/架构: Claude Code（工具调用能力最强）
- Bug修复/测试: GPT Codex
- 文字问答: GPT 5.1（Claude幻觉较高）
- 多模态/视觉: Gemini 3.0 Pro

纪要整理人: Claude 纪要时间: 2025-12-08 下次会议: 2025-12-15

8.6 KiB Raw Blame History Unescape Escape

Q&A资源库类会议纪要 (2025-12-08)

一、会议信息

二、工作问题 Q&A

1. 会议纪要Skill相关问题

2. Sub-Agent调用相关问题

3. 数字人需求相关问题

4. 前端重构相关问题

5. 需求表达相关问题

三、重点工作方法

方法 1：Gemini多模态视频转写方法

方法 2：全量上下文处理优于分块搜索

方法 3：Skill嵌套Skill架构方法

方法 4：Agent调Agent架构组织

方法 5：提示词正反示例编写技巧

方法 6：Playwright+MCP浏览器自动化

方法 7：Gemini分镜头脚本视频生成工作流

方法 8：工具组合使用策略

8.6 KiB

Raw Blame History