7.9 KiB
7.9 KiB
Q&A资源库类会议纪要 (2025-12-02)
一、会议信息
- 会议时间: 2025-12-02
- 参会人员: 连云波(主持)、闫旭隆、江争达、郝倩玉、陶西平
二、工作问题 Q&A
1. 会议纪要Skill相关问题
Q1: 会议转写文本语音识别错误多,说话者标记不准确怎么办?
A:
- 使用Gemini多模态能力进行视频转写,直接上传视频而非仅依赖语音
- 对转写文本进行预清洗,去除重复和脏数据
- 多模态转写能提供画面切换、屏幕操作等额外上下文信息
Q2: AI难以准确判断P0/P1/P2任务优先级怎么办?
A:
- 让AI先给出优先级建议,人再确认反馈
- 在会上直接语音确认优先级,给AI明确输入
- 保留确认过程的所有材料作为后续微调素材
- 原因:AI缺少成员年龄、级别、工作时长等潜意识上下文
Q3: 并行Agent处理会造成信息丢失和逻辑割裂怎么办?
A:
- 采用全量加载让主窗口一次性处理,而非分块搜索
- 人的语言有大量不清晰表达,直接搜索难以匹配
- AI通过上下文语义理解能更准确提取信息
- 把skill写到主窗口里一次性处理,效果不比分块差
2. 数字人PPT相关问题
Q4: 数字人PPT视频时长需求如何定义?
A:
- 应定义为20-30分钟而非3-5分钟
- 实际场景包括PPT宣讲(20-30分钟)、创始人讲解、领导发言等
- 技术上没有难度,主要是花销问题
- 3-5分钟作为最小实现,但20-30分钟是主要需求
Q5: 如何避免数字人看起来很假(如老外说流利中文)?
A:
- 使用真人录制训练数字人语音和形象
- 在百度曦灵和黑镜平台测试定制数字人效果
- 避免使用看起来不真实的数字人形象
- 数字人的手势动作也要有,开场和结尾不能呆呆站着
3. Skill调用机制问题
Q6: 项目级调用全局Agent不稳定怎么办?
A:
- 使用绝对路径调用SubAgent,测试表现稳定
- 不指定路径时系统默认搜索全局目录,找不到就忽略
- 改用Agent调Agent方式,而非Skill调Agent
- 在子项目下定义主Agent,通过主Agent调用其他Agent
Q7: Skill嵌套调用的最佳方式是什么?
A:
- 精确逻辑控制场景:Skill嵌套Skill优于SubAgent
- Skill共享主窗口上下文,逻辑控制精确
- SubAgent不带上下文,容易出现逻辑割裂
- 调试阶段用Skill主窗口加载方式,调通后再移植
4. 前端重构相关问题
Q8: 前端重构前需要做什么准备?
A:
- 用大模型对后端代码做Code Review审查
- 找专门的code review agent或skill
- 记录发现的问题作为需求文档
- 重构时考虑下一版本的交互逻辑变更
- 提供示例代码给大模型,保持代码风格一致
三、重点工作方法
方法 1:多模态视频转写会议纪要
- 方法描述: 使用Gemini的多模态能力直接上传会议视频进行转写,而非仅依赖纯语音识别。视频包含文字、图像、音频等多种信息,能提供更丰富的上下文(如画面切换、屏幕操作等),转写准确性更高。可以直接给视频配合会议纪要模板,一步生成结构化会议纪要。
- 适用场景: 会议纪要生成、视频内容提取
- 关键要点:
- 多模态信息比纯音频更准确
- 可直接配合模板一步生成
- 画面信息提供额外上下文
方法 2:模型工具组合策略
- 方法描述: 前端开发用Gemini(一句话就能生成完整前端),中间逻辑代码构造用Claude Code(工具调用和理解能力最强),整体项目修复和测试用GPT的Codex。如果只能选一个,主力还是Claude Code,因为做Agent时工具理解能力最重要。
- 适用场景: AI辅助开发、工具选型
- 关键要点:
- 前端→Gemini
- 逻辑代码→Claude Code
- 修复测试→GPT Codex
方法 3:全量上下文处理优于分块搜索
- 方法描述: 会议纪要信息提取应采用全量加载转写文本让AI自行提取,而非分块搜索。因为人的语言有大量不清晰表达,直接搜索难以匹配,AI通过上下文语义理解能更准确提取信息。
- 适用场景: 会议纪要生成、文本信息提取
- 关键要点:
- 分块搜索容易丢失信息
- AI语义理解比关键词匹配更准确
- 全文一次性处理效果最好
方法 4:文字转写预清洗
- 方法描述: 在进行会议纪要生成前,先对原始转写文本进行一次清洗加工:去除重复内容、脏数据,保证信息全面的同时内容紧凑。清洗后的文本再作为主窗口的上下文输入。
- 适用场景: 会议纪要处理、长文本处理
- 关键要点:
- 去除重复和脏数据
- 保持信息完整性
- 减少每个Agent的处理负担
方法 5:优先级判断人机协作
- 方法描述: P0/P1/P2任务优先级判断是AI最难的部分,因为AI缺乏成员年龄、级别、工作时长等潜意识上下文。解决方案:让AI先给出优先级建议,人再确认反馈;或在会上直接语音确认优先级。
- 适用场景: 任务优先级评估、工作安排
- 关键要点:
- AI给建议、人做确认
- 保留确认材料用于后续优化
- 尝试将隐性上下文显性化
方法 6:Agent调Agent优于Skill调Agent
- 方法描述: 在Claude Code中组织多Agent时,建议用Agent调用Agent而非Skill调用Agent。在子项目下定义一个主Agent,激活后用它调用其他子Agent。这样组织更清晰,不会出现Skill嵌套Skill的逻辑混乱。
- 适用场景: 多Agent编排、复杂Skill开发
- 关键要点:
- 定义主Agent负责调度
- 避免Skill嵌套的逻辑混乱
- SubAgent必须用绝对路径调用
方法 7:试错式行为规范定义
- 方法描述: 定义Agent行为规范时,不要预先规定太多动作(会限制能力),而是先让它犯错,然后针对性地告诉它:'必须做什么'(漏了的)、'不要做什么'(错了的)。用正确示例和错误示例对比来规范行为。
- 适用场景: Skill开发、Agent行为规范
- 关键要点:
- 预先规定太多会限制AI能力
- 先测试再针对性规范
- 正确/错误示例对比最有效
方法 8:代码审查先于重构
- 方法描述: 重构代码前,先用大模型(如Claude 4.5、GPT Codex)对现有代码进行审查(Code Review),找专门的code review agent或skill。记录发现的问题作为需求文档,评估后再决定是否修改,避免盲目重构。
- 适用场景: 代码重构、质量改进
- 关键要点:
- 审查先行,避免盲目重构
- 问题记录作为需求文档
- 下次会议评估是否修改
方法 9:提问表达能力决定AI输出质量
- 方法描述: 与AI交互时,必须清晰交代背景、核心诉求和问题点。站在对方角度思考:如果不补充这些上下文,对方能否理解你要干什么?表达不清会导致AI给出糟糕的答案。
- 适用场景: AI交互、需求沟通
- 关键要点:
- 清晰交代背景和核心诉求
- 站在对方角度检查表达
- 表达能力直接影响AI输出质量
方法 10:Playwright+Claude实现办公自动化
- 方法描述: 使用Playwright MCP扩展控制浏览器,配合Claude Code的Skill编排,实现办公自动化流程。例如:自动打开Gemini网页、上传文件、输入提示词、下载生成结果、组装PPT。对于浏览器外的操作(如保存对话框),用Python脚本通过scripts调用。
- 适用场景: 办公自动化、批量文档处理
- 关键要点:
- Playwright控制浏览器操作
- Python脚本处理浏览器外操作
- Skill编排整体流程
纪要整理人: Claude 纪要时间: 2025-12-08 下次会议: 2025-12-09