Files
AIEC_Skills/会议转写测试/会议纪要生成效果对比/gemini清洗前平台一次性生成/gemini工程类会议纪要.md
2025-12-11 14:19:36 +08:00

9.8 KiB
Raw Blame History

工程类会议纪要-2025-12-02-第X次周会

一、会议信息

  • 会议时间: 2025-12-02
  • 参会人员: 连云波(主持)、江争达、郝倩玉、陶西平、闫旭隆
  • 记录整理人: Gemini

二、工作内容

1. 重点项目进展情况汇总

项目名称 原负责人 原截止时间 项目进展情况
会议纪要Skill架构优化 闫旭隆 12月02日 基本完成但需进一步测试(周报:已完成)。 会议演示了全量读取转写文本的方案但发现Sub-agent调用存在路径和上下文隔离问题建议后续尝试Agent调用Agent架构计划引入Gemini视频转写作为输入源。
需求澄清Skill测试与推广 闫旭隆、郝倩玉 12月02日 完成。 已增加专家博弈机制(多轮交叉评价),并录制了演示视频。
数字人PPT需求文档 江争达 12月02日 需重写(周报:已完成)。 会议评审未通过需求提炼过于简单仅3-5分钟未体现20-30分钟长视频的技术难点且对“真实感”理解有误如流利中文的老外缺乏手势动作等核心需求。
问答系统V1.1前端重构方案 江争达、陶西平 12月02日 进行中。 已出初版文档会议建议暂停直接开发先利用Opus审查后端代码并用大模型生成前端重构方案进行对比。
数字分身需求文档 郝倩玉 12月02日 暂停/放缓。 核所需求放缓,暂不以其需求为核心,转为自行调研市面优秀案例。

2. 重点项目问题及解决方案

项目: 会议纪要Skill开发

问题1Skill调用Sub-agent存在上下文和路径问题

  • 问题描述: 在测试中发现Skill调用Sub-agent时如果是相对路径几乎无法成功绝对路径偶尔成功且Sub-agent的上下文隔离效果不理想逻辑控制存在问题。
  • 解决方案:
    1. 短期方案: 暂时将Skill逻辑直接提取到主窗口上下文执行利用主窗口的强大理解能力。
    2. 长期架构: 放弃“Skill调Sub-agent”模式转向“Agent调用Agent”架构在主Agent下定义子Agent逻辑更清晰。
    3. 输入源优化: 采用Gemini处理会议视频多模态能力生成精准文字稿后再喂给Skill。
  • 责任人: 闫旭隆
  • 截止时间: 2025-12-09

项目: 数字人PPT生成

问题2需求文档缺乏深度与核心难点

  • 问题描述: 提交的需求文档仅列出了基础功能如PPT同步、画面不遮挡忽视了长视频20-30分钟生成的成本与技术难点且对数字人“真实感”的定义存在偏差如不仅是语音流利更要有肢体动作
  • 解决方案:
    1. 修改需求: 增加时长至20-30分钟的要求增加手势动作需求。
    2. 技术路径: 利用Gemini 3.0生成分镜脚本和分镜图片结合VEO 3.1或Nano Banana生成视频片段再进行拼接。
    3. 样本制作: 本周内必须用真人素材训练出一个语音和视频样本,验证可行性。
  • 责任人: 江争达
  • 截止时间: 2025-12-09

项目: 前端重构

问题3重构方案缺乏大模型辅助验证

  • 问题描述: 目前的重构方案主要基于人工思考未充分利用大模型能力进行代码审查和方案对比且Claude 4.5在文字回答上存在幻觉风险。
  • 解决方案:
    1. 后端审查: 使用Opus 4.5或Codex对现有后端代码进行Code Review。
    2. 方案对比: 让GPT-5.1或Gemini基于现有架构生成一版前端重构方案与人工方案进行对比查漏补缺。
  • 责任人: 江争达、陶西平
  • 截止时间: 2025-12-09

3. 下周工作安排

项目名称 负责人 下周会前目标 优先级 截止时间
🔴 会议纪要Skill优化与测试 闫旭隆 生成双版本对比纪要1.基于当前Skill+腾讯会议文本2.基于Gemini视频转写+Skill P0 12月09日
🔴 需求澄清Skill二阶段可视化 闫旭隆 整理二阶段专家交叉回应的可视化效果,并梳理完整流程图 P0 12月09日
🔴 数字人PPT视频样本及需求修正 江争达 1.产出真人训练视频样本2.使用Gemini 3.0测试分镜脚本3.修正需求文档 P0 12月09日
🔴 招投标文件Skill架构设计 闫旭隆、郝倩玉 完成架构设计(需求紧急,优先级提升) P0 12月09日
问答系统V1.1前端重构 江争达、陶西平 使用大模型Opus/GPT生成对比方案并审查后端代码 P1 12月09日
Gartner报告解读转写系统 郝倩玉、闫旭隆 完成架构设计 P1 12月09日
PDF Skill技术调研 江争达 调研Claude Code PDF能力 P1 12月09日
架构迁移研究 闫旭隆 研究从Cloud Code Skill架构转为LangChain/Deep Agent架构的可行性 P1 待定
日报驱动系统需求研究 江争达(丁康执行) 指导丁康完成Asana架构学习及日报驱动需求研究 P2 待定
Skill Plugin管理系统搭建 江争达 学习并搭建内部Skill Marketplace P2 待定

4. 组内成员工作进展

闫旭隆

上周完成:

  • 需求澄清-需求文档skill优化增加多轮博弈机制
  • 会议纪要Skill优化全量读取模式

进行中:

  • 🔄 招投标文件Skill架构设计

收到的反馈/学习建议:

  • 建议: Skill调用Sub-agent路径问题难以解决建议转向Agent调用Agent架构。
  • 建议: 提示词编写要有明确的正确/错误示例才能保证Agent执行质量。
  • 表扬: 演示的PPT生成Skill结合Gemini规划+Playwright执行效果非常好完全自动化。

下周任务:

  • 🔴 P0会议纪要Skill优化与测试Gemini视频源对比
  • 🔴 P0需求澄清Skill二阶段可视化
  • 🔴 P0招投标文件Skill架构设计
  • P1架构迁移研究Skill to Deep Agent

江争达

上周完成:

  • 数字人PPT需求文档会议评审认为需重写
  • 问答系统v1.1前端重构方案(初版)

进行中:

  • 🔄 数字人PPT需求文档修正
  • 🔄 前端重构方案优化

收到的反馈/学习建议:

  • 批评: 数字人需求文档“只看树木不看森林”,对“真实感”理解有误(如流利中文老外问题)。
  • 批评: 需求文档过于简单未挖掘20-30分钟长视频生成的真正技术难点。
  • 建议: 不要急着写代码先用Opus审查后端用GPT/Gemini生成前端方案做对比。
  • 建议: 尽快测试Gemini 3.0的分镜脚本生成能力。

下周任务:

  • 🔴 P0数字人PPT视频样本及需求修正
  • P1问答系统V1.1前端重构(模型辅助方案)
  • P1PDF Skill技术调研
  • P2日报驱动系统需求研究指导丁康
  • P2Skill Plugin管理系统搭建

郝倩玉

上周完成:

  • Gartner报告解读转写系统需求文档
  • 投标商务应答文件自动生成系统需求文档

进行中:

  • 🔄 数字分身需求对接(放缓)

收到的反馈/学习建议:

  • 确认: 招投标文件Skill需求紧急提升为P0优先级。

下周任务:

  • 🔴 P0招投标文件Skill架构设计协助
  • P1Gartner报告解读转写系统架构设计

陶西平

上周完成:

  • 协助江老师修改数字人需求文档
  • 前端框架重构分析

进行中:

  • 🔄 前端功能分析

收到的反馈/学习建议:

  • 任务调整: 配合江争达进行前端重构的大模型方案生成与对比。

下周任务:

  • P1问答系统V1.1前端重构(协助)

三、会议总结

核心议题: 会议纪要Skill架构复盘、数字人PPT需求深度评审、前端重构方法论纠偏

关键决策:

  1. 会议纪要输入源升级: 决定引入Gemini处理会议视频利用其多模态能力生成高质量文字稿作为Skill输入。
  2. Agent架构调整 鉴于Skill调用Sub-agent的路径和上下文问题未来开发倾向于“Agent调用Agent”或主窗口全量加载模式。
  3. 数字人需求变更: 明确数字人PPT视频需满足20-30分钟时长必须包含手势动作并利用Gemini 3.0生成分镜脚本。
  4. 优先级调整: 招投标文件Skill开发提升为P0级任务。
  5. 重构方法论: 前端重构禁止直接编码必须先通过大模型Opus/GPT进行后端审查和前端方案生成对比。

下周工作重点:

  1. 完成会议纪要Skill的双版本效果对比腾讯会议文本 vs Gemini视频转写
  2. 产出数字人真人的训练视频样本及修正后的需求文档。
  3. 完成招投标文件Skill的架构设计。
  4. 落实前端重构的大模型辅助验证方案。