Files
AIEC_Skills/会议转写测试/会议纪要生成效果对比/gemini清洗前/Q&A资源库类会议纪要_2025-12-08_第6次周会.md
2025-12-11 14:19:36 +08:00

8.6 KiB
Raw Blame History

Q&A资源库类会议纪要 (2025-12-08)

一、会议信息

  • 会议时间: 2025-12-08
  • 参会人员: 连云波(主持)、闫旭隆、江争达、郝倩玉、陶西平
  • 纪要整理人: Claude

二、工作问题 Q&A

1. 会议纪要Skill相关问题

Q1: 会议纪要Skill信息提取准确率低怎么解决

问题背景: 会议转写文本存在语音识别错误、语义跳脱等问题导致Skill提取信息时准确率不高且分块索引搜索容易遗漏信息。

解决方案:

  1. 文字转写换成Gemini多模态: 上传会议视频让Gemini转写准确率远高于传统语音识别几乎无字错误
  2. Clean预处理: 对转写文本进行去重、去错处理,压缩到紧凑版本后再使用
  3. 全量读取替代索引搜索: 将Clean后的完整文本加载到主上下文通过语义理解提取而非关键词匹配
  4. 主窗口全量处理: 尝试将所有映射逻辑写入主窗口Skill一次性处理避免Sub-Agent分块造成逻辑割裂

Q2: P0/P1/P2优先级如何准确判断

问题背景: AI难以准确判断任务优先级因为不了解团队成员的年龄、级别、工作时长等潜在上下文。

解决方案:

  1. AI先给建议: 让系统给出优先级排序建议,而非直接生成
  2. 人工确认反馈: 会议中或会后立即向每个人确认优先级
  3. 保留学习材料: 将确认过程的所有材料保留,作为后续强化学习或微调的数据

2. Sub-Agent调用相关问题

Q3: Skill调用项目级Sub-Agent为什么不稳定

问题背景: 测试发现使用相对路径调用项目级Sub-Agent几乎全部失败但使用绝对路径可以稳定成功。

解决方案:

  1. 必须使用绝对路径: 调用项目级Sub-Agent时指定完整的绝对路径
  2. 原因分析: Claude默认优先搜索全局Agent目录找不到会忽略而非查找项目目录
  3. 架构建议: 优先使用Agent调用Agent的方式而非Skill调用Agent

Q4: Skill嵌套还是Sub-Agent分离哪个更好

问题背景: 复杂任务需要多个步骤协作存在Skill嵌套Skill和Skill调Sub-Agent两种架构选择。

解决方案:

  1. 推荐Skill嵌套Skill: 上下文共享,逻辑控制精确,调用关系清晰
  2. 不推荐Sub-Agent: 上下文剥离后会丢失大量信息,逻辑控制容易出问题
  3. 最佳实践: Agent调Agent > Skill嵌套Skill > Skill调Agent

3. 数字人需求相关问题

Q5: 数字人视频时长应该定义为多少?

问题背景: 需求文档中定义的3-5分钟时长不符合实际业务场景需求。

解决方案:

  1. 主要需求改为20-30分钟: 这是PPT宣讲的真实时长需求
  2. 3-5分钟作为测试: 初期可用短时长验证技术可行性
  3. 技术上无本质差异: 主要是成本问题,不是技术瓶颈

Q6: 数字人平台如何选型?

问题背景: 市场上数字人平台众多,需要评估性价比和效果。

调研结果:

平台 特点 建议
百度希壤 价格较低40元/10分钟API便宜 重点测试,本周出样本
黑镜 会员免费,只收定制费,后续生成免费 重点测试,本周出样本
HeyGen 效果好但价格高 作为参考
可灵/即梦 价格很贵 不优先考虑
VEO 3.1 新升级,能力提升 测试首尾帧生成视频效果

4. 前端重构相关问题

Q7: 前端重构如何保证质量?

问题背景: 需要在保留现有功能的基础上重构前端,同时避免引入问题。

解决方案:

  1. 后端先审查不改: 用Opus 4.5或Codex对后端代码做Code Review记录问题不急改
  2. 方案交叉验证: 用GPT Research生成方案与现有方案对比
  3. 考虑下一版本: 重构时把下一版本功能需求一起考虑进去
  4. 提供示例代码: 特别是后端交互的逻辑代码

5. 需求表达相关问题

Q8: 为什么与大模型交互总是得不到好答案?

问题背景: 技术调研文档和需求表达不够清晰,导致他人难以理解,与大模型交互效果也差。

解决方案:

  1. 详细说明背景: 包含为什么做、要解决什么问题、核心诉求是什么
  2. 站在读者角度: 考虑没有上下文的人能否理解
  3. 先写后说: 对于复杂背景,先写下来整理清楚再交流
  4. 正反示例: 在Prompt中同时给出正确和错误示例

三、重点工作方法

方法 1Gemini多模态视频转写方法

  • 描述: 使用Gemini的多模态能力进行会议视频转写可同时识别画面内容和语音内容。先将会议视频上传给Gemini让其原文转写所有内容再用Clean后的文本作为后续处理的输入。
  • 适用场景: 会议纪要生成、视频内容分析、培训视频转文档
  • 关键要点:
    • 支持最长1小时的视频
    • 可以通过prompt调整提取内容
    • 能识别画面变化(屏幕切换、操作演示)
    • 转写准确度极高,几乎无字错误

方法 2全量上下文处理优于分块搜索

  • 描述: 在处理长文本时使用全量读取加载到主上下文通过语义理解提取信息而非RAG关键词搜索。人的口语存在大量跳脱和不清晰表达直接搜索会漏掉信息。
  • 适用场景: 会议转写处理、文档信息提取、口语化内容分析
  • 关键要点:
    • 先做Clean预处理去除冗余
    • 通过Attention机制理解上下文语义
    • 可接受较长上下文换取准确性
    • RAG对口语化内容效果很差

方法 3Skill嵌套Skill架构方法

  • 描述: 使用Skill嵌套Skill的方式进行复杂任务编排直接在主窗口Skill.md中调用其他Skill而不是通过Sub-Agent。上下文共享逻辑控制精确。
  • 适用场景: 复杂工作流编排、多步骤任务自动化
  • 关键要点:
    • 上下文共享,信息不丢失
    • 调用关系清晰,易于调试
    • 避免Sub-Agent的上下文隔离问题
    • 接受较长上下文的代价

方法 4Agent调Agent架构组织

  • 描述: 在子项目下定义主Agent由主Agent调配各Sub-Agent而非Skill调Agent。这样架构组织更清晰避免来回嵌套。
  • 适用场景: 多Agent协作系统、复杂项目架构
  • 关键要点:
    • 主Agent负责调度和协调
    • Sub-Agent专注单一功能
    • 架构层次分明,易于维护
    • 调用语法更规范

方法 5提示词正反示例编写技巧

  • 描述: 在编写Skill或Agent的Prompt时必须同时提供正确示例和错误示例。格式"错误的是什么,正确的是什么"。Agent有自己的想法通过正反对比可以强化行为规范。
  • 适用场景: 高精度任务的Prompt编写、规范化操作流程
  • 关键要点:
    • 正确示例:期望的输出格式和内容
    • 错误示例:常见的错误模式
    • 双向约束,减少偏离
    • 适用于精密操作任务

方法 6Playwright+MCP浏览器自动化

  • 描述: 使用Playwright ExtensionChrome插件结合MCP进行浏览器自动化操作可实现网页操作的完全自动化。对于脱离浏览器的操作如文件保存对话框使用OS Scripts配合处理。
  • 适用场景: 网页自动化操作、Gemini/Canva等平台自动操作
  • 关键要点:
    • 自动打开网页、输入文本、点击按钮
    • 自动上传和下载文件
    • OS Scripts处理浏览器外的操作
    • 控制精准,完全自动化

方法 7Gemini分镜头脚本视频生成工作流

  • 描述: 使用Gemini 3.0 Pro生成视频分镜头脚本和图片再通过VEO等模型生成视频。流程需求描述 → 分镜脚本 → 分镜图片 → 视频生成 → 合成。
  • 适用场景: 动画视频制作、数字人视频生成、宣传片制作
  • 关键要点:
    • Gemini分镜脚本生成能力最强
    • 首尾帧+文字稿生成视频已成熟
    • 分镜图片质量决定最终效果
    • 可生成30秒-2分钟的视频段落

方法 8工具组合使用策略

  • 描述: 不同大模型在不同场景下的最佳组合使用策略,发挥各自优势。
  • 适用场景: 日常开发、AI辅助编程
  • 关键要点:
    • 前端开发: Gemini效果极好
    • 代码逻辑/架构: Claude Code工具调用能力最强
    • Bug修复/测试: GPT Codex
    • 文字问答: GPT 5.1Claude幻觉较高
    • 多模态/视觉: Gemini 3.0 Pro

纪要整理人: Claude 纪要时间: 2025-12-08 下次会议: 2025-12-15