AIEC_Skills/会议转写测试/会议纪要生成效果对比/gemini清洗前/Q&A资源库类会议纪要_2025-12-08_第6次周会.md

# Q&A资源库类会议纪要 (2025-12-08)

## 一、会议信息
- **会议时间:** 2025-12-08
- **参会人员:** 连云波(主持)、闫旭隆、江争达、郝倩玉、陶西平
- **纪要整理人:** Claude

---

## 二、工作问题 Q&A

### 1. 会议纪要Skill相关问题

**Q1: 会议纪要Skill信息提取准确率低怎么解决？**

**问题背景:** 会议转写文本存在语音识别错误、语义跳脱等问题，导致Skill提取信息时准确率不高，且分块索引搜索容易遗漏信息。

**解决方案:**
1. **文字转写换成Gemini多模态:** 上传会议视频让Gemini转写，准确率远高于传统语音识别，几乎无字错误
2. **Clean预处理:** 对转写文本进行去重、去错处理，压缩到紧凑版本后再使用
3. **全量读取替代索引搜索:** 将Clean后的完整文本加载到主上下文，通过语义理解提取而非关键词匹配
4. **主窗口全量处理:** 尝试将所有映射逻辑写入主窗口Skill，一次性处理，避免Sub-Agent分块造成逻辑割裂

---

**Q2: P0/P1/P2优先级如何准确判断？**

**问题背景:** AI难以准确判断任务优先级，因为不了解团队成员的年龄、级别、工作时长等潜在上下文。

**解决方案:**
1. **AI先给建议:** 让系统给出优先级排序建议，而非直接生成
2. **人工确认反馈:** 会议中或会后立即向每个人确认优先级
3. **保留学习材料:** 将确认过程的所有材料保留，作为后续强化学习或微调的数据

---

### 2. Sub-Agent调用相关问题

**Q3: Skill调用项目级Sub-Agent为什么不稳定？**

**问题背景:** 测试发现使用相对路径调用项目级Sub-Agent几乎全部失败，但使用绝对路径可以稳定成功。

**解决方案:**
1. **必须使用绝对路径:** 调用项目级Sub-Agent时指定完整的绝对路径
2. **原因分析:** Claude默认优先搜索全局Agent目录，找不到会忽略而非查找项目目录
3. **架构建议:** 优先使用Agent调用Agent的方式，而非Skill调用Agent

---

**Q4: Skill嵌套还是Sub-Agent分离，哪个更好？**

**问题背景:** 复杂任务需要多个步骤协作，存在Skill嵌套Skill和Skill调Sub-Agent两种架构选择。

**解决方案:**
1. **推荐Skill嵌套Skill:** 上下文共享，逻辑控制精确，调用关系清晰
2. **不推荐Sub-Agent:** 上下文剥离后会丢失大量信息，逻辑控制容易出问题
3. **最佳实践:** Agent调Agent > Skill嵌套Skill > Skill调Agent

---

### 3. 数字人需求相关问题

**Q5: 数字人视频时长应该定义为多少？**

**问题背景:** 需求文档中定义的3-5分钟时长不符合实际业务场景需求。

**解决方案:**
1. **主要需求改为20-30分钟:** 这是PPT宣讲的真实时长需求
2. **3-5分钟作为测试:** 初期可用短时长验证技术可行性
3. **技术上无本质差异:** 主要是成本问题，不是技术瓶颈

---

**Q6: 数字人平台如何选型？**

**问题背景:** 市场上数字人平台众多，需要评估性价比和效果。

**调研结果:**
| 平台 | 特点 | 建议 |
|-----|-----|-----|
| 百度希壤 | 价格较低（40元/10分钟），API便宜 | 重点测试，本周出样本 |
| 黑镜 | 会员免费，只收定制费，后续生成免费 | 重点测试，本周出样本 |
| HeyGen | 效果好但价格高 | 作为参考 |
| 可灵/即梦 | 价格很贵 | 不优先考虑 |
| VEO 3.1 | 新升级，能力提升 | 测试首尾帧生成视频效果 |

---

### 4. 前端重构相关问题

**Q7: 前端重构如何保证质量？**

**问题背景:** 需要在保留现有功能的基础上重构前端，同时避免引入问题。

**解决方案:**
1. **后端先审查不改:** 用Opus 4.5或Codex对后端代码做Code Review，记录问题不急改
2. **方案交叉验证:** 用GPT Research生成方案与现有方案对比
3. **考虑下一版本:** 重构时把下一版本功能需求一起考虑进去
4. **提供示例代码:** 特别是后端交互的逻辑代码

---

### 5. 需求表达相关问题

**Q8: 为什么与大模型交互总是得不到好答案？**

**问题背景:** 技术调研文档和需求表达不够清晰，导致他人难以理解，与大模型交互效果也差。

**解决方案:**
1. **详细说明背景:** 包含为什么做、要解决什么问题、核心诉求是什么
2. **站在读者角度:** 考虑没有上下文的人能否理解
3. **先写后说:** 对于复杂背景，先写下来整理清楚再交流
4. **正反示例:** 在Prompt中同时给出正确和错误示例

---

## 三、重点工作方法

### 方法 1：Gemini多模态视频转写方法
- **描述:** 使用Gemini的多模态能力进行会议视频转写，可同时识别画面内容和语音内容。先将会议视频上传给Gemini，让其原文转写所有内容，再用Clean后的文本作为后续处理的输入。
- **适用场景:** 会议纪要生成、视频内容分析、培训视频转文档
- **关键要点:**
  - 支持最长1小时的视频
  - 可以通过prompt调整提取内容
  - 能识别画面变化（屏幕切换、操作演示）
  - 转写准确度极高，几乎无字错误

### 方法 2：全量上下文处理优于分块搜索
- **描述:** 在处理长文本时，使用全量读取加载到主上下文，通过语义理解提取信息，而非RAG关键词搜索。人的口语存在大量跳脱和不清晰表达，直接搜索会漏掉信息。
- **适用场景:** 会议转写处理、文档信息提取、口语化内容分析
- **关键要点:**
  - 先做Clean预处理，去除冗余
  - 通过Attention机制理解上下文语义
  - 可接受较长上下文换取准确性
  - RAG对口语化内容效果很差

### 方法 3：Skill嵌套Skill架构方法
- **描述:** 使用Skill嵌套Skill的方式进行复杂任务编排，直接在主窗口Skill.md中调用其他Skill，而不是通过Sub-Agent。上下文共享，逻辑控制精确。
- **适用场景:** 复杂工作流编排、多步骤任务自动化
- **关键要点:**
  - 上下文共享，信息不丢失
  - 调用关系清晰，易于调试
  - 避免Sub-Agent的上下文隔离问题
  - 接受较长上下文的代价

### 方法 4：Agent调Agent架构组织
- **描述:** 在子项目下定义主Agent，由主Agent调配各Sub-Agent，而非Skill调Agent。这样架构组织更清晰，避免来回嵌套。
- **适用场景:** 多Agent协作系统、复杂项目架构
- **关键要点:**
  - 主Agent负责调度和协调
  - Sub-Agent专注单一功能
  - 架构层次分明，易于维护
  - 调用语法更规范

### 方法 5：提示词正反示例编写技巧
- **描述:** 在编写Skill或Agent的Prompt时，必须同时提供正确示例和错误示例。格式："错误的是什么，正确的是什么"。Agent有自己的想法，通过正反对比可以强化行为规范。
- **适用场景:** 高精度任务的Prompt编写、规范化操作流程
- **关键要点:**
  - 正确示例：期望的输出格式和内容
  - 错误示例：常见的错误模式
  - 双向约束，减少偏离
  - 适用于精密操作任务

### 方法 6：Playwright+MCP浏览器自动化
- **描述:** 使用Playwright Extension（Chrome插件）结合MCP进行浏览器自动化操作，可实现网页操作的完全自动化。对于脱离浏览器的操作（如文件保存对话框），使用OS Scripts配合处理。
- **适用场景:** 网页自动化操作、Gemini/Canva等平台自动操作
- **关键要点:**
  - 自动打开网页、输入文本、点击按钮
  - 自动上传和下载文件
  - OS Scripts处理浏览器外的操作
  - 控制精准，完全自动化

### 方法 7：Gemini分镜头脚本视频生成工作流
- **描述:** 使用Gemini 3.0 Pro生成视频分镜头脚本和图片，再通过VEO等模型生成视频。流程：需求描述 → 分镜脚本 → 分镜图片 → 视频生成 → 合成。
- **适用场景:** 动画视频制作、数字人视频生成、宣传片制作
- **关键要点:**
  - Gemini分镜脚本生成能力最强
  - 首尾帧+文字稿生成视频已成熟
  - 分镜图片质量决定最终效果
  - 可生成30秒-2分钟的视频段落

### 方法 8：工具组合使用策略
- **描述:** 不同大模型在不同场景下的最佳组合使用策略，发挥各自优势。
- **适用场景:** 日常开发、AI辅助编程
- **关键要点:**
  - **前端开发:** Gemini（效果极好）
  - **代码逻辑/架构:** Claude Code（工具调用能力最强）
  - **Bug修复/测试:** GPT Codex
  - **文字问答:** GPT 5.1（Claude幻觉较高）
  - **多模态/视觉:** Gemini 3.0 Pro

---

**纪要整理人:** Claude
**纪要时间:** 2025-12-08
**下次会议:** 2025-12-15