8.6 KiB
8.6 KiB
Q&A资源库类会议纪要 (2025-12-08)
一、会议信息
- 会议时间: 2025-12-08
- 参会人员: 连云波(主持)、闫旭隆、江争达、郝倩玉、陶西平
- 纪要整理人: Claude
二、工作问题 Q&A
1. 会议纪要Skill相关问题
Q1: 会议纪要Skill信息提取准确率低怎么解决?
问题背景: 会议转写文本存在语音识别错误、语义跳脱等问题,导致Skill提取信息时准确率不高,且分块索引搜索容易遗漏信息。
解决方案:
- 文字转写换成Gemini多模态: 上传会议视频让Gemini转写,准确率远高于传统语音识别,几乎无字错误
- Clean预处理: 对转写文本进行去重、去错处理,压缩到紧凑版本后再使用
- 全量读取替代索引搜索: 将Clean后的完整文本加载到主上下文,通过语义理解提取而非关键词匹配
- 主窗口全量处理: 尝试将所有映射逻辑写入主窗口Skill,一次性处理,避免Sub-Agent分块造成逻辑割裂
Q2: P0/P1/P2优先级如何准确判断?
问题背景: AI难以准确判断任务优先级,因为不了解团队成员的年龄、级别、工作时长等潜在上下文。
解决方案:
- AI先给建议: 让系统给出优先级排序建议,而非直接生成
- 人工确认反馈: 会议中或会后立即向每个人确认优先级
- 保留学习材料: 将确认过程的所有材料保留,作为后续强化学习或微调的数据
2. Sub-Agent调用相关问题
Q3: Skill调用项目级Sub-Agent为什么不稳定?
问题背景: 测试发现使用相对路径调用项目级Sub-Agent几乎全部失败,但使用绝对路径可以稳定成功。
解决方案:
- 必须使用绝对路径: 调用项目级Sub-Agent时指定完整的绝对路径
- 原因分析: Claude默认优先搜索全局Agent目录,找不到会忽略而非查找项目目录
- 架构建议: 优先使用Agent调用Agent的方式,而非Skill调用Agent
Q4: Skill嵌套还是Sub-Agent分离,哪个更好?
问题背景: 复杂任务需要多个步骤协作,存在Skill嵌套Skill和Skill调Sub-Agent两种架构选择。
解决方案:
- 推荐Skill嵌套Skill: 上下文共享,逻辑控制精确,调用关系清晰
- 不推荐Sub-Agent: 上下文剥离后会丢失大量信息,逻辑控制容易出问题
- 最佳实践: Agent调Agent > Skill嵌套Skill > Skill调Agent
3. 数字人需求相关问题
Q5: 数字人视频时长应该定义为多少?
问题背景: 需求文档中定义的3-5分钟时长不符合实际业务场景需求。
解决方案:
- 主要需求改为20-30分钟: 这是PPT宣讲的真实时长需求
- 3-5分钟作为测试: 初期可用短时长验证技术可行性
- 技术上无本质差异: 主要是成本问题,不是技术瓶颈
Q6: 数字人平台如何选型?
问题背景: 市场上数字人平台众多,需要评估性价比和效果。
调研结果:
| 平台 | 特点 | 建议 |
|---|---|---|
| 百度希壤 | 价格较低(40元/10分钟),API便宜 | 重点测试,本周出样本 |
| 黑镜 | 会员免费,只收定制费,后续生成免费 | 重点测试,本周出样本 |
| HeyGen | 效果好但价格高 | 作为参考 |
| 可灵/即梦 | 价格很贵 | 不优先考虑 |
| VEO 3.1 | 新升级,能力提升 | 测试首尾帧生成视频效果 |
4. 前端重构相关问题
Q7: 前端重构如何保证质量?
问题背景: 需要在保留现有功能的基础上重构前端,同时避免引入问题。
解决方案:
- 后端先审查不改: 用Opus 4.5或Codex对后端代码做Code Review,记录问题不急改
- 方案交叉验证: 用GPT Research生成方案与现有方案对比
- 考虑下一版本: 重构时把下一版本功能需求一起考虑进去
- 提供示例代码: 特别是后端交互的逻辑代码
5. 需求表达相关问题
Q8: 为什么与大模型交互总是得不到好答案?
问题背景: 技术调研文档和需求表达不够清晰,导致他人难以理解,与大模型交互效果也差。
解决方案:
- 详细说明背景: 包含为什么做、要解决什么问题、核心诉求是什么
- 站在读者角度: 考虑没有上下文的人能否理解
- 先写后说: 对于复杂背景,先写下来整理清楚再交流
- 正反示例: 在Prompt中同时给出正确和错误示例
三、重点工作方法
方法 1:Gemini多模态视频转写方法
- 描述: 使用Gemini的多模态能力进行会议视频转写,可同时识别画面内容和语音内容。先将会议视频上传给Gemini,让其原文转写所有内容,再用Clean后的文本作为后续处理的输入。
- 适用场景: 会议纪要生成、视频内容分析、培训视频转文档
- 关键要点:
- 支持最长1小时的视频
- 可以通过prompt调整提取内容
- 能识别画面变化(屏幕切换、操作演示)
- 转写准确度极高,几乎无字错误
方法 2:全量上下文处理优于分块搜索
- 描述: 在处理长文本时,使用全量读取加载到主上下文,通过语义理解提取信息,而非RAG关键词搜索。人的口语存在大量跳脱和不清晰表达,直接搜索会漏掉信息。
- 适用场景: 会议转写处理、文档信息提取、口语化内容分析
- 关键要点:
- 先做Clean预处理,去除冗余
- 通过Attention机制理解上下文语义
- 可接受较长上下文换取准确性
- RAG对口语化内容效果很差
方法 3:Skill嵌套Skill架构方法
- 描述: 使用Skill嵌套Skill的方式进行复杂任务编排,直接在主窗口Skill.md中调用其他Skill,而不是通过Sub-Agent。上下文共享,逻辑控制精确。
- 适用场景: 复杂工作流编排、多步骤任务自动化
- 关键要点:
- 上下文共享,信息不丢失
- 调用关系清晰,易于调试
- 避免Sub-Agent的上下文隔离问题
- 接受较长上下文的代价
方法 4:Agent调Agent架构组织
- 描述: 在子项目下定义主Agent,由主Agent调配各Sub-Agent,而非Skill调Agent。这样架构组织更清晰,避免来回嵌套。
- 适用场景: 多Agent协作系统、复杂项目架构
- 关键要点:
- 主Agent负责调度和协调
- Sub-Agent专注单一功能
- 架构层次分明,易于维护
- 调用语法更规范
方法 5:提示词正反示例编写技巧
- 描述: 在编写Skill或Agent的Prompt时,必须同时提供正确示例和错误示例。格式:"错误的是什么,正确的是什么"。Agent有自己的想法,通过正反对比可以强化行为规范。
- 适用场景: 高精度任务的Prompt编写、规范化操作流程
- 关键要点:
- 正确示例:期望的输出格式和内容
- 错误示例:常见的错误模式
- 双向约束,减少偏离
- 适用于精密操作任务
方法 6:Playwright+MCP浏览器自动化
- 描述: 使用Playwright Extension(Chrome插件)结合MCP进行浏览器自动化操作,可实现网页操作的完全自动化。对于脱离浏览器的操作(如文件保存对话框),使用OS Scripts配合处理。
- 适用场景: 网页自动化操作、Gemini/Canva等平台自动操作
- 关键要点:
- 自动打开网页、输入文本、点击按钮
- 自动上传和下载文件
- OS Scripts处理浏览器外的操作
- 控制精准,完全自动化
方法 7:Gemini分镜头脚本视频生成工作流
- 描述: 使用Gemini 3.0 Pro生成视频分镜头脚本和图片,再通过VEO等模型生成视频。流程:需求描述 → 分镜脚本 → 分镜图片 → 视频生成 → 合成。
- 适用场景: 动画视频制作、数字人视频生成、宣传片制作
- 关键要点:
- Gemini分镜脚本生成能力最强
- 首尾帧+文字稿生成视频已成熟
- 分镜图片质量决定最终效果
- 可生成30秒-2分钟的视频段落
方法 8:工具组合使用策略
- 描述: 不同大模型在不同场景下的最佳组合使用策略,发挥各自优势。
- 适用场景: 日常开发、AI辅助编程
- 关键要点:
- 前端开发: Gemini(效果极好)
- 代码逻辑/架构: Claude Code(工具调用能力最强)
- Bug修复/测试: GPT Codex
- 文字问答: GPT 5.1(Claude幻觉较高)
- 多模态/视觉: Gemini 3.0 Pro
纪要整理人: Claude 纪要时间: 2025-12-08 下次会议: 2025-12-15