261 lines
11 KiB
Markdown
261 lines
11 KiB
Markdown
|
|
# Q&A资源库类会议纪要 (2025-12-02)
|
|||
|
|
|
|||
|
|
## 一、会议信息
|
|||
|
|
|
|||
|
|
- **会议时间:** 2025-12-02
|
|||
|
|
- **参会人员:** 连云波(主持)、闫旭隆、江争达、郝倩玉、陶西平
|
|||
|
|
- **纪要整理人:** Claude
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 二、工作问题 Q&A
|
|||
|
|
|
|||
|
|
### 1. 会议纪要Skill相关问题
|
|||
|
|
|
|||
|
|
**Q1: 会议纪要Skill信息提取准确性不足怎么办?**
|
|||
|
|
|
|||
|
|
**问题详情:** 文字转写准确性不够,语义识别困难;缺乏上下文约束能力;分块搜索导致信息遗漏;P0/P1/P2优先级判断不准确。
|
|||
|
|
|
|||
|
|
**A1:**
|
|||
|
|
1. 将文字转写工具从腾讯会议换成Gemini多模态转写,利用其视觉识别能力提高准确性
|
|||
|
|
2. 对转写文本进行Clean预处理,去除脏数据和重复内容
|
|||
|
|
3. 采用全量主上下文窗口处理,不用分块搜索
|
|||
|
|
4. P0/P1/P2优先级在会议上实时确认,不完全依赖AI判断
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
**Q2: 子Agent分割处理会导致什么问题?**
|
|||
|
|
|
|||
|
|
**问题详情:** 使用多个子Agent并行提取信息后,在主窗口整合时发现信息丢失和逻辑割裂。
|
|||
|
|
|
|||
|
|
**A2:**
|
|||
|
|
1. 子Agent提取后主窗口无法建立各部分之间的关联性
|
|||
|
|
2. 建议把Clean后的转写文本直接加载给主上下文全量处理
|
|||
|
|
3. 将子Agent提取的结果作为增强Prompt传给主上下文,减少信息损失
|
|||
|
|
4. 非长连续工作场景,主上下文能处理好的就全放主上下文
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
### 2. Sub-agent架构相关问题
|
|||
|
|
|
|||
|
|
**Q3: Sub-agent调用不稳定怎么解决?**
|
|||
|
|
|
|||
|
|
**问题详情:** Sub-agent在项目下使用相对路径调用时几乎无法成功执行,会读取prompt但不执行。
|
|||
|
|
|
|||
|
|
**A3:**
|
|||
|
|
1. **必须使用绝对路径调用Sub-agent**,相对路径调用不稳定
|
|||
|
|
2. 采用Agent调Agent的架构,而非Skill调Agent
|
|||
|
|
3. 定义主Agent后直接选定激活,其他Agent自动成为Sub-agent
|
|||
|
|
4. 调试阶段可用Skill,调通后将Skill.md移植到Agent中
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
**Q4: Skill和Agent应该如何组织架构?**
|
|||
|
|
|
|||
|
|
**问题详情:** Skill调Agent、Agent调Skill来回嵌套导致逻辑混乱。
|
|||
|
|
|
|||
|
|
**A4:**
|
|||
|
|
1. **用Agent调Agent,不用Skill调Agent**
|
|||
|
|
2. 可以用Skill嵌套Skill,虽然上下文长但逻辑控制精确
|
|||
|
|
3. Sub-agent因不带上下文会导致控制问题,主上下文共享更好
|
|||
|
|
4. 子项目下用主Agent组织其他Agent更清晰
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
### 3. 数字人PPT相关问题
|
|||
|
|
|
|||
|
|
**Q5: 数字人选型需要注意什么?**
|
|||
|
|
|
|||
|
|
**问题详情:** 老外数字人说流利中文会让人质疑真实性,与追求真实感的目标矛盾。
|
|||
|
|
|
|||
|
|
**A5:**
|
|||
|
|
1. **不要只看树木不看森林**,老外说流利中文会让人质疑真假
|
|||
|
|
2. 追求真实性就要用真实可信的形象,用真人录制训练
|
|||
|
|
3. 数字人必须有手势动作,前十秒不能呆站
|
|||
|
|
4. 视频结尾加独立告别画面,有始有终
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
**Q6: 数字人平台如何选型?**
|
|||
|
|
|
|||
|
|
**问题详情:** 多个平台费用和能力不同,如何选择。
|
|||
|
|
|
|||
|
|
**A6:**
|
|||
|
|
1. **优先百度希壤和HeyGen(黑镜)**
|
|||
|
|
2. 可灵即梦按秒收费太贵
|
|||
|
|
3. 百度希壤按分钟包价格合理(40块钱10分钟)
|
|||
|
|
4. 黑镜会员免费生成,只收定制费
|
|||
|
|
5. 可尝试Gemini VEO 3.1,3.0 Pro后视频能力升级明显
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
### 4. 前端重构相关问题
|
|||
|
|
|
|||
|
|
**Q7: 前端重构应该如何规划?**
|
|||
|
|
|
|||
|
|
**问题详情:** 只重构展示部分可能不够,担心后续架构又要重改。
|
|||
|
|
|
|||
|
|
**A7:**
|
|||
|
|
1. **重构时必须考虑下一版本的交互逻辑修改**
|
|||
|
|
2. 后端先不动,用Opus 4.5或Codex做一次Code Review
|
|||
|
|
3. 将审查发现的问题记录作为重构需求文档
|
|||
|
|
4. 先审查再动手,避免盲目重构
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
### 5. 需求Skill相关问题
|
|||
|
|
|
|||
|
|
**Q8: 多专家博弈评审机制如何验证效果?**
|
|||
|
|
|
|||
|
|
**问题详情:** 只看到专家提问,看不到响应,无法判断评审水平是否足够。
|
|||
|
|
|
|||
|
|
**A8:**
|
|||
|
|
1. 将专家评估意见和响应整合成可视化的一问一答文档
|
|||
|
|
2. 评估提问和响应的水平是否匹配
|
|||
|
|
3. 水平不匹配则不需要这个环节
|
|||
|
|
4. 各领域专家的prompt需要专人编写
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
### 6. AI能力边界相关问题
|
|||
|
|
|
|||
|
|
**Q9: AI优先级判断不准怎么办?**
|
|||
|
|
|
|||
|
|
**问题详情:** AI对P0/P1/P2任务优先级判断困难,缺乏人员背景等隐性上下文。
|
|||
|
|
|
|||
|
|
**A9:**
|
|||
|
|
1. **在会议上实时确认优先级**,不完全依赖AI
|
|||
|
|
2. 让AI先给出建议排序,人再确认反馈
|
|||
|
|
3. 将确认过程材料保留,用于后续强化学习
|
|||
|
|
4. 尝试将潜在上下文逐步显性化
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 三、重点工作方法
|
|||
|
|
|
|||
|
|
### 方法1: 多模态视频转写优先法
|
|||
|
|
- **描述:** 使用Gemini多模态能力处理会议视频转写,相比纯语音识别效率更高。Gemini能识别画面内容、文字和说话人动作,可通过prompt调整提取内容,甚至直接给会议模版让其一步生成会议纪要。
|
|||
|
|
- **适用场景:** 会议记录、视频内容提取、多信息源整合
|
|||
|
|
- **关键要点:**
|
|||
|
|
- 多模态处理比纯语音识别效率高,能识别背景画面信息
|
|||
|
|
- Gemini上下文最长(100万token),视觉能力最强
|
|||
|
|
- 可用Gem自定义功能,预置会议纪要模版后上传视频自动生成
|
|||
|
|
|
|||
|
|
### 方法2: AI工具组合使用策略
|
|||
|
|
- **描述:** 不同AI工具各有专长,应根据任务特点组合使用:前端用Gemini(多模态强),中间逻辑用Claude(工具调用强),项目修复测试用GPT Codex。
|
|||
|
|
- **适用场景:** 复杂项目开发、多任务并行处理
|
|||
|
|
- **关键要点:**
|
|||
|
|
- Gemini最全面,多模态尤其视觉能力超强,适合做PPT和视频
|
|||
|
|
- Claude工具调用和工具理解能力无人能及,做Agent首选
|
|||
|
|
- 选择工具要看任务特点而非盲目追求最聪明的模型
|
|||
|
|
|
|||
|
|
### 方法3: 转写文本预清洗法
|
|||
|
|
- **描述:** 在处理会议转写前,先用AI对原始转写进行Clean,去除脏数据和重复内容,保证信息全面的同时内容紧凑。
|
|||
|
|
- **适用场景:** 会议转写处理、长文本预处理、数据清洗
|
|||
|
|
- **关键要点:**
|
|||
|
|
- 原始转写存在逻辑中断、错误,直接处理效果差
|
|||
|
|
- Clean后内容紧凑,从3万字可精简到2万字左右
|
|||
|
|
- 避免给AI喂垃圾数据,先精加工再处理
|
|||
|
|
|
|||
|
|
### 方法4: 主上下文全量处理法
|
|||
|
|
- **描述:** 对于信息损失敏感的任务,优先在主上下文窗口全量处理,而非分割给多个子Agent。
|
|||
|
|
- **适用场景:** 信息整合、关联分析、会议纪要生成
|
|||
|
|
- **关键要点:**
|
|||
|
|
- 子Agent处理会造成逻辑割裂和信息丢失
|
|||
|
|
- 主上下文直接生成比提示词生成再整合信息量更大
|
|||
|
|
- 非长连续工作场景,主上下文能处理好的就全放主上下文
|
|||
|
|
|
|||
|
|
### 方法5: 人机协作关键节点介入法
|
|||
|
|
- **描述:** 识别AI难以自主判断的关键节点(如优先级判断),在这些节点让人介入给予关键帮助。
|
|||
|
|
- **适用场景:** 复杂决策、优先级判断、隐性知识应用
|
|||
|
|
- **关键要点:**
|
|||
|
|
- AI缺乏潜上下文(人员级别、工作年限等),某些判断靠人更有效
|
|||
|
|
- 先让AI给建议再人工确认,保留确认记录用于后续训练
|
|||
|
|
- 把潜在上下文逐步显性化给AI
|
|||
|
|
|
|||
|
|
### 方法6: 会议实时确认法
|
|||
|
|
- **描述:** 在会议进行中或刚结束时,实时整理会议纪要并当场确认,不等会后让AI自行判断。
|
|||
|
|
- **适用场景:** 周会、项目会议、决策会议
|
|||
|
|
- **关键要点:**
|
|||
|
|
- 会议中前半部分已可开始整理
|
|||
|
|
- 会上直接确认P0/P1等关键信息
|
|||
|
|
- 当场确认效率最高、准确度最高
|
|||
|
|
|
|||
|
|
### 方法7: Sub-Agent绝对路径调用法
|
|||
|
|
- **描述:** 在项目下调用Sub-Agent时必须使用绝对路径,相对路径调用几乎不成功。
|
|||
|
|
- **适用场景:** Skill开发、Agent架构设计
|
|||
|
|
- **关键要点:**
|
|||
|
|
- 相对路径调用Sub-Agent几乎不成功
|
|||
|
|
- 绝对路径调用测试七八次基本稳定
|
|||
|
|
- 不指定目录时AI会优先找全局Agent
|
|||
|
|
|
|||
|
|
### 方法8: Agent调用Agent架构
|
|||
|
|
- **描述:** 不要在Skill里调用Sub-Agent,而应该用Agent调用Agent。定义主Agent后选定它,再调用的其他Agent就是Sub-Agent。
|
|||
|
|
- **适用场景:** 复杂Agent系统设计、多Agent协作
|
|||
|
|
- **关键要点:**
|
|||
|
|
- Skill调用Sub-Agent组织会乱
|
|||
|
|
- Agent调Agent最容易实现
|
|||
|
|
- 避免Skill和Agent互相嵌套调用
|
|||
|
|
|
|||
|
|
### 方法9: Skill嵌套Skill替代Sub-Agent
|
|||
|
|
- **描述:** 直接用Skill嵌套Skill来组织复杂流程,放弃Sub-Agent。虽然上下文较长,但逻辑控制精确。
|
|||
|
|
- **适用场景:** 复杂流程自动化、多步骤任务
|
|||
|
|
- **关键要点:**
|
|||
|
|
- Skill套Skill比Sub-Agent清晰得多
|
|||
|
|
- 上下文共享使逻辑控制精确
|
|||
|
|
- Sub-Agent不带上下文会导致控制问题
|
|||
|
|
|
|||
|
|
### 方法10: 上下文越全越好原则
|
|||
|
|
- **描述:** 不要过度限定AI做什么,而是给它尽量完整的上下文,让它自己理解并制定方案。
|
|||
|
|
- **适用场景:** 创意生成、方案设计、内容生成
|
|||
|
|
- **关键要点:**
|
|||
|
|
- Claude生成的提示词不如Gemini直接读文档效果好
|
|||
|
|
- 不要规定AI做什么,给全上下文让它自己决定
|
|||
|
|
- 启发:上下文管理思路的转变
|
|||
|
|
|
|||
|
|
### 方法11: Playwright+OS Scripts自动化工作流
|
|||
|
|
- **描述:** 用Playwright MCP控制浏览器操作,当操作超出浏览器范围时用OS Scripts接管,实现完全自动化。
|
|||
|
|
- **适用场景:** 网页自动化、图片生成、PPT制作
|
|||
|
|
- **关键要点:**
|
|||
|
|
- Playwright控制浏览器内操作
|
|||
|
|
- OS Scripts处理系统对话框等浏览器外操作
|
|||
|
|
- Python脚本组装最终产出
|
|||
|
|
|
|||
|
|
### 方法12: AI分镜头脚本生成法
|
|||
|
|
- **描述:** 用Gemini 3生成分镜头脚本,分段生成图片,再通过首尾帧生成连贯视频,最后合成完整视频。
|
|||
|
|
- **适用场景:** 视频制作、数字人视频、宣传片
|
|||
|
|
- **关键要点:**
|
|||
|
|
- Gemini 3对镜头理解和分镜脚本生成优于其他模型
|
|||
|
|
- 先生成分段图片,再用首尾帧生成视频
|
|||
|
|
- 分段生成后合并成完整视频
|
|||
|
|
|
|||
|
|
### 方法13: 代码审查驱动重构法
|
|||
|
|
- **描述:** 重构前先用AI对现有代码做完整审查,记录问题作为需求文档,再逐步重构。
|
|||
|
|
- **适用场景:** 代码重构、技术债务清理、架构升级
|
|||
|
|
- **关键要点:**
|
|||
|
|
- 先审查再动手,审查结果就是重构需求文档
|
|||
|
|
- 用Opus 4.5或Codex做Code Review
|
|||
|
|
- 重构时同时考虑下一版本功能需求
|
|||
|
|
|
|||
|
|
### 方法14: AI模拟专家访谈法
|
|||
|
|
- **描述:** 在需求文档第一版生成时,用AI模拟领域专家来回答访谈问题,实现需求采集流程自动化。
|
|||
|
|
- **适用场景:** 需求采集、专家访谈、方案设计
|
|||
|
|
- **关键要点:**
|
|||
|
|
- 用AI模拟比我们经验丰富的专家
|
|||
|
|
- 专家Agent回答可能更全面
|
|||
|
|
- 适用于需求文档初版生成
|
|||
|
|
|
|||
|
|
### 方法15: 字段映射逻辑图驱动开发
|
|||
|
|
- **描述:** 开发复杂Skill时,先绘制每个输出字段的来源映射逻辑图,明确来源和优先级。
|
|||
|
|
- **适用场景:** Skill开发、数据处理流程设计
|
|||
|
|
- **关键要点:**
|
|||
|
|
- 每个字段明确来源和优先级
|
|||
|
|
- 用可视化逻辑图而非纯文字描述
|
|||
|
|
- 解决AI逻辑不连贯问题
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
**纪要整理人:** Claude
|
|||
|
|
**纪要时间:** 2025-12-02
|
|||
|
|
**下次会议:** 2025-12-09
|