需求文档skill回溯专家博弈之前

This commit is contained in:
闫旭隆
2025-12-11 14:19:36 +08:00
parent 5f329d7b4c
commit f4314c3ede
117 changed files with 28969 additions and 3325 deletions

File diff suppressed because it is too large Load Diff

View File

@ -0,0 +1,648 @@
**会议日期**2025-12-02
**参会人员**:连云波、闫旭隆、焦老师等
---
## 一、会议纪要工具与Gemini多模态能力讨论
**画面内容:** 01:20 画面切换显示 Windows 桌面,正在打开一份 Excel 表格,标题显示"P0项目进展情况"。01:23 画面切换至微信电脑版界面。
**发言者(连云波):** 关于这个会议纪要,基本上找到一条路径了。
**画面内容:** 01:36 微信界面点击切换到与"江达"的聊天窗口,显示发送过一个名为"20251201-问题摘录...md"的文件。
**画面内容:** 02:07 微信界面点击切换到与"连云波"的聊天窗口。02:11 打开一张聊天记录截图。02:14 滚动浏览微信聊天记录,显示关于 Gemini 的讨论内容。
**画面内容:** 02:32 切换至 Google Chrome 浏览器,显示 Gemini 界面,标题为"信息系统建设方案书工作指导"。
**发言者(连云波):** 我一直认为纯粹的语音识别效率很低,因为好多背景信息都是没有的。文字它不知道,视频它也不知道,我们的切换它也不知道。所以从这个角度来说,多模态以后一定是做文字识别最重要的一个路径。
上周那个Gemini出来之后我觉得非常好。我拿那个视频去测试了一下大概半小时的会议我上传上去让它原文转写所有视频里的文字稿。
**画面内容:** 02:58 浏览器中点击右侧历史记录,打开名为"信息系统建设方案书工作指导"的对话记录。页面显示上传了一个名为"2025112618...的继续会议-视频.mp4"的文件。
**画面内容:** 03:01 页面向下滚动,显示 Gemini 输出的"时间轴00:00-03:40"及其对应的文字描述内容。
**发言者(连云波):** 基本上可以看到它能识别画面内容,比如"Lian正在操作电脑查找文件"然后画面静止黑屏连接什么的。我特意对了一下基本上没有错误的单字了。更重要的是这个模型最厉害的是它本身就是多模态的你可以用prompt来调整需要提取的内容。
所以有可能最厉害的做法是直接给它一个会议模版把视频给它它就有可能直接生成一步到位了。Gemini里面也有那种Gem你可以自定义把会议纪要模版全部放进去然后上传视频根据模版自动生成。
**画面内容:** 05:57 鼠标点击"Writing editor"图标。06:02 进入 Writing editor 界面。
**画面内容:** 06:14 点击输入框左侧的"+"号,显示上传文件选项。
**发言者(连云波):** 所以这是我找到的目前最有效的路径。Gemini大家肯定要用了因为它的多模态能力是最强的而且它上下文是最长的。
**发言者(连云波):** Gemini目前能力是最全面的。不是说最聪明最聪明我觉得GPT 5.1还是聪明。但最全面的是Gemini而且它的多模态尤其是视觉能力是超强的。我用它来做PPT的效果非常好。
所以前端用Gemini中间逻辑整个代码的构造部分用Cloud整个项目的修复、查找问题或测试可以用GPT的Codex。但主力我现在用下来还是Cloud Code因为它的工具调用能力目前无人能及工具调用和工具理解能力是没有人能赶过它的。所以我们做Agent的话对于工具的理解肯定是第一位的。
---
## 二、会议纪要Skill架构讨论
**画面内容:** 11:15 打开文件夹 `AA_Work` -> `skills合集` -> `.claude` -> `skills` -> `meeting-minutes-generator-v1`。11:32 打开文件夹内的 `Phase2执行流程图.drawio` 文件。
**画面内容:** 11:42 `draw.io` 软件正在加载。11:48 打开了流程图,标题为"工程类会议纪要 Skill 执行流程图"。
**发言者(闫旭隆):** 会议纪要Skill主要改了一下整体的架构。之前是用索引搜索我改成了全量读取确实可以。这个是每一个字段的来源映射逻辑图。包括上周提到的负责人要改为原负责人就是第一个字段代表这个项目原本交给谁了。截止时间我也改为原截止时间就是上周会议纪要定下的这个任务的截止时间。
**发言者(连云波):** 你这个很重要。我自己在做Skill过程当中总觉得Claude自己的逻辑不够清晰容易瞎改改完之后改前忘后改后忘前。目前我认为它最缺的就是逻辑的一致和前后的连贯性。
**发言者(闫旭隆):** 进展情况应该以会议转写为优先,这个也改进去了。下周逻辑我也顺了一下,也是会议转写优先。测下来发现最大的问题还是文字的语义识别,比如交给谁了这种信息。
**发言者(连云波):** 目前会议纪要里面最头疼的事情就是文字转写的准确性和上下文的约束能力。转写能力如果不清晰,又没有很好的约束,它很难处理。因为我们是在非常清晰的上下文背景下来开会的,它是不知道的。
所以后面到底用什么工具比如继续用Claude来处理还是用Gemini。有可能直接调Gemini的API在Cloud里面调Gemini的API来做。
**发言者(闫旭隆):** 这样自动化程度更高。
**发言者(连云波):** API现在好像还行转写成文字也没多少。半小时6000多字一分钟200多字。5个小时也才3万字差不多2万多token。对于它100万token来说太小了。
---
## 三、会议目的与工作安排
**发言者(连云波):** 整个会议最重要的是下周的工作安排。以后要知道,开会的目的首要是为了解决问题,其次才是分享知识。分享知识不一定需要在周会讨论,可以直接在群里分享。只有会议纪要是需要大家共同坐在一起的。
尤其是未来人多了,项目分散以后更是了。每个人都做一部分,完全需要一个大项目协调,有人负责前有人负责后,就需要信息沟通。
所以整个会议里面最核心的目的是为了得到下周工作安排的合理安排。一切逻辑都是往这儿聚的。能把这个写清楚,基本上大部分问题不大了。因为前面的信息得提取正确,汇报的信息得提取正确,逻辑理顺清楚,才能得出下周工作纪要。
---
## 四、Skill并行架构与子Agent设计
**发言者(连云波):** 这些目标是一次性的提取完成,还是分次提取?
**发言者(闫旭隆):** 我是并行用搜索Agent。并行搜索Agent去搜然后把搜到的信息都反馈给主窗口主窗口负责读所有的信息然后写。
**画面内容:** 18:03 闫旭隆在流程图中点击查看"三、会议总结..."部分。
**发言者(连云波):** 这个方法比较清晰。但第一,我觉得它资源浪费太大了,每一个过程全部全量处理一遍。第二,会造成逻辑的割裂。因为你要在主窗口主上下文窗口里面再去做整合。
**发言者(闫旭隆):** P0任务识别是根据语义来识别。比如领导说紧急、优先它就会识别为P0。
**发言者(连云波):** 这个是最难的。作为判断,如果它能做得到,比你们都强。因为人对于整个项目里面的轻重缓急判的没那么清晰,而且你们都会忘。会议当中内容早就忘掉了。
所以它如果能提取出来你可以让它给个建议。让它先给出建议不要上来就生成P0。建议排序是什么然后人再给它一个反馈。每个人都会得出下周工作的P0到P2的。最好是让它发给你们确认一下。这样把确认过程所有的材料都保留下来作为后续的强化学习或微调。
**画面内容:** 20:49 滚动查看 `draw.io` 文件中的"Phase 2: 工程类会议纪要生成 - 并行执行流程图"。
**发言者(连云波):** 现在已经有个新的AI drawIO开源项目可以在里面直接用AI修改。它要Gemini的API免费的API调用次数肯定够用。
**发言者(闫旭隆):** Phase 1是输入数据的加载都加载到主窗口。会议信息由主窗口直接生成因为主窗口已经有这些了足够生成。
**发言者(连云波):** P0任务列表是周报P0任务列表还是上周纪要的P0任务要写清楚。
**发言者(闫旭隆):** 这两块去重之后形成最终的P0任务列表传递给子Agent时会传递这个信息让子Agent知道已确认的P0任务有哪些然后去搜索。这也是给子Agent的一个上下文。
**发言者(闫旭隆):** 并行提取会根据会议纪要模版的字段判断哪些字段需要涉及到。主要是涉及到需要去文字转写里面去搜索的字段。每次去搜的时候会调用通用Agent里面预设了很多种任务类型每一种任务类型返回做了Json格式的约束。
**发言者(连云波):** 你是到里面去搜索是吗?
**发言者(闫旭隆):** 不是搜索,是全量加载,然后给它任务,自己去找,自己执行。
**发言者(连云波):** 叫搜索是很容易出问题的。人的语言里面有大量的跳脱会议当中很多语言没那么清晰直接搜索是搜索不出来的。但通过上下文Attention的处理它能够理解并提取出来。如果用RAG你是绝对RAG不出来的。
**发言者(连云波):** 你把这几个问题同时合到一个问题传给它几个Agent并发的时候把这几个全部合进到一个里面让它执行。因为都是一次性全量加载的。
**发言者(闫旭隆):** 行肯定是行。我现在是靠主窗口来整合。可能每一个Agent只执行特定任务会找得更多一点冗余重叠部分更多主窗口可能也更好给它整合出来。
**发言者(连云波):** 主窗口里面上下文是所有的都加载的?
**发言者(闫旭隆):** 主窗口包括输入数据都给了,除了转写文本没给。
**发言者(连云波):** 这种方式可能比较精准但逻辑会割裂。每个Agent提取出来的东西直接给到主Agent主Agent没法建立起每个之间的关联性。
**发言者(闫旭隆):** 关联性我给它写了映射规则体现在Skill.md里。主窗口接收到每一种类型的返回后会根据这每一种类型的返回按照我给它的方法论去映射然后一起合并。
---
## 五、子Agent与主窗口上下文优化建议
**画面内容:** 屏幕显示 ProcessOn 或类似的在线流程图工具,标题为"Phase 2 并行执行流程图",图表中包含多个 Agent 节点(如 User Proxy Agent、Agent C、Agent D1/Dn 等)。
**发言者(连云波):** 你一旦把上下文剥离之后,最全量的上下文剥离之后,比如转写文本剥离之后,它的效果一定不如给它一个主窗口让它自己去处理。
我举个例子我给了它一篇文章让它生成PPT两种方法一个是读完文章给我一个提示词然后用提示词去生成图另一个是直接让它在主窗口生成图。我看了这两个信息量差距非常大。它真的是把上下文全部用在图形生成过程中而且逻辑关系更清楚更明确。你现在相当于把提示词生成的结果给到主上下文会丢失好多信息。
**画面内容:** 鼠标在流程图左侧的"Phase 1 基础信息提取"区域画圈示意。
**发言者(连云波):** 我建议你把转写文本Clean一次把那些脏的、重复的全部做一遍加工。保证信息全面的同时内容是紧凑的没有太多重复。然后把这个Clean后的直接加载给主上下文。
**画面内容:** 鼠标指向流程图中间的"主窗口全量Context全量Prompt"。
**发言者(闫旭隆):** 那子Agent的上下文也是Clean后的
**发言者(连云波):** 也是Clean后的。然后把子Agent提取出来的东西其实某种程度上就是一个大的Prompt给到主上下文让主上下文结合Clean的文档加上这个大的长的Prompt因为Prompt已经运算过一次了。
**发言者(闫旭隆):** 加强了一次。
**发言者(连云波):** 我觉得这个可能最准,而且信息量损失最小。不要一次性上来就处理,不然每个人都喂垃圾进去。
另外还可以尝试一个更大胆的把映射规则写在主上下文让它主上下文一次性处理不用子Agent。尤其是Gemini的情况下你给Gemini调用一次试试看。反正有300美金的API免费额度不用都浪费了。
差不多3万字Clean之后差不多剩2万字左右。这2万字一定是包含了大量信息的。还有之前的上下文足够了。重复处理开销太大每个人都要精加工一遍有点浪费。
---
## 六、会议纪要Skill测试结果对比
**画面内容:** 屏幕切换,打开一个文件夹窗口,然后打开一个 Markdown 编辑/预览工具VS Code 或类似编辑器)。
**发言者(闫旭隆):** 这个是用上周的资源生成的比较。这个是大家手动订正过的。
**画面内容:** 屏幕显示左右分栏的文档对比。标题为"工程类会议纪要2025-11-25"。左侧内容较少,右侧内容较多。
**发言者(连云波):** 右边是你生成的,左边是手动的?
**发言者(闫旭隆):** 右边是我生成的,左边是手动的。
**发言者(连云波):** 那为什么请假人员刘艳红一直在?
**发言者(闫旭隆):** 因为应该是上上周那个里面有。
**画面内容:** 文档继续向下滚动,对比"二、工作内容"和"1. 重点项目进展情况汇总"。
**发言者(连云波):** 发现存在逻辑映射不大。它比较概括,你这个非常具体。为什么它那么概括?这可能就是存在的差异了。我们想要的是概括性的呢,还是具体的?我觉得具体性更好,容易执行。
**画面内容:** 文档向下滚动,浏览表格内容,包括"项目名称"、"负责人"、"截止时间"、"项目进展情况"等列。
**发言者(连云波):** 领导建议和领导指示这块,可能是大家共同商量的结果。领导建议那写成解决方案。
**画面内容:** 文档滚动至"2. 重点项目问题及解决方案"。
**发言者(连云波):** 会议纪要Skill信息提取准确性问题。这里有一个没提取出来就是要找加力去商量。你要看它为什么没有提取出来。
**画面内容:** 切换浏览器窗口,打开 Bing 搜索页面,然后点击收藏夹中的某个链接,进入 HackMD 页面。
**画面内容:** HackMD 页面加载中,随后显示"工程类会议纪要2025-11-25"。
**画面内容:** 切换回 HackMD 页面,鼠标选中"项目组导致的事情主要由主理人承担后果不再推诿"这一行。
**画面内容:** 切换回 VS Code 的文档对比界面。
**发言者(连云波):** 左边归纳的好像更好。两个都对。需求澄清Skill完成1.0版本测试,我觉得左边的更好,更细一点。
**画面内容:** 文档滚动至"问题 5数字人 PPT 需求文档存在产出问题"。
**发言者(闫旭隆):** 更好肯定是人改的更好。但是比较接近,主要的要点是有的。以前没有的,上一版本没有的也有了。
**发言者(连云波):** Opus做专家评审我只建议做多轮博弈。
**画面内容:** 文档继续向下滚动,查看"问题 6日报驱动系统架构设计不系统"。
**发言者(连云波):** 日报驱动系统这块全部丢掉了?
**发言者(闫旭隆):** 可能是我写提示词的时候,让它以上面这些项目为叙述汇总的逻辑,新的就没有了。
**画面内容:** 文档滚动至"4. 组内成员工作进展"。
---
## 七、天眼查需求与技术实现讨论
**发言者(连云波):** 天眼查需求明确,现在的情况是已经跟小鹏把这个接好了。具体的技术实现,让江老师出一个技术方案和时间方案,可以帮助小鹏自动更新他那个客户库。
**发言者(闫旭隆):** 目前应该是江老师正在做。
**画面内容:** 文档滚动至"问题 4Skill 测试效率低下问题"。
---
## 八、全量处理与信息遗漏问题
**发言者(连云波):** 你看,未记报告。它比你们记忆力好。因为太长了之后你们确实没有人有耐心把它读完。
我建议你写一个精简版,就是一个很易读的文本。我读那个原文转写的时候特别耗脑子,因为逻辑老是中断,动不动就错,思路完全被打断,根本没办法推进。
Gemini最大的好处是它几乎每个都是我们说话时候的原封不动给你转述。哪怕有一些语气词错误得少能读得下去。稍微改写就能成为大家能够很快能够读的东西。
**发言者(连云波):** 我下面给你们建议是生成一个每个人一份的会议纪要。全量生成完每个人给它一份跟你相关的发言。这样有助于当你回忆不清纪要的时候可以回到那个版本去看一下。全量的文档放在上面标注好每个人和每个时间段会议纪要里面一点回去就能看到原文。GPT就是这么干的每一条都有对应的时间点。
**发言者(连云波):** 你可以用全量的主上下文窗口全量做一次,我觉得你还能找到漏洞。因为你这个其实肯定信息有遗漏的。
---
## 九、会议纪要实时确认建议
**发言者(连云波):** 我们会议有一个什么最好的状态?就是会议刚开完没多久或者在开的过程中,你把前面的全量整理了,然后会上直接做一个确认。这样会议成果是最清晰的,时间上肯定来得及。
这么复杂完全靠它的判断非常困难尤其是判断P0、P1、P2这些事。这个还是靠人。
另一个方案是我每次会议上把会议纪要直接确认掉人写或者我自己去在会上直接确认。我们认为这个是P0还是P1给它一个确认。所以会上就要辅助它让它自己判断太难了。
---
## 十、会议纪要Skill测试结果详细对比
**画面内容:** 屏幕显示 Typora 软件界面,打开的文件名为"工程类会议纪要 2025-11-25",右侧为 Markdown 预览模式。
**画面内容:** 鼠标滚动至文档"4. 组内成员工作进展"部分,对比"已完成"和"进行中"的任务描述。
**发言者(连云波):** 负责人和那个投标进行中的不一样了。这个是你改过吗?
**发言者(闫旭隆):** 这个是我用的更加准确的一个名称。
**画面内容:** 鼠标选中"进行中"列表下的"数智人需求文档及技术实现方式"。
**画面内容:** 鼠标指向"运营商信息挖掘系统需求总确认沟通"。
**发言者(连云波):** 明显不具体。
**画面内容:** 屏幕切换至浏览器窗口,显示 HackMD 页面,标题为"我的工作空间 / 工程类会议纪要"。
**画面内容:** 在 HackMD 页面中查看历史记录或相关条目,鼠标悬停在"江平达"名字附近。
**画面内容:** 屏幕切回 Typora 文档,查看"进行中"的任务列表。
**画面内容:** 再次切换回 HackMD 浏览器页面,查看表格内容。
**画面内容:** 并在 Typora左侧和 HackMD右侧之间进行内容比对。
**画面内容:** 查看 Typora 文档下方的"下周工作任务"列表,关注 P0 和 P1 的任务分级。
**发言者(连云波):** 搜索Skill功能调研那个大纲报告整理其实也不对的但是没有写那个细。
**画面内容:** 在 HackMD 页面向上滚动,查看"上周完成"部分。
**发言者(连云波):** 那你分块搜索一定会丢好多东西,所以全文一定是最有效的。而且你又做了一次加工之后再给提示词,我认为也会丢很多。
所以我建议你还是尝试做一次全量的主上下文窗口搜索。因为你并行都已经处理那么多次了,不在乎主窗口输入输出这一次了。
**发言者(闫旭隆):** 主窗口也没耗多少token。
**发言者(连云波):** 主窗口耗的还没几个并行多呢。
---
## 十一、天眼查自动更新需求确认
**发言者(闫旭隆):** 就是那个天眼查。上次开会的时候联通说让你后续可以做一个帮助小童自动更新她那个天眼查客户数据库的技术实现方式。
**发言者(连云波):** 后来是说她不需要嘛,她现在也不需要每天更新那么多次了。你再确认一下,她这个自动更新要不要。
**发言者(闫旭隆):** 后续小童她没有跟我反馈过。
**发言者(连云波):** 那你再确认一下。
**画面内容:** 打开 Windows 图片查看器,显示一张流程图,标题包含"工程类会议纪要 SKILL 执行流程图"。
**画面内容:** 关闭图片查看器,回到 Typora 界面。
**画面内容:** 在 Typora 中对比左右两侧的文本列表。
**画面内容:** 滚动查看文档中的"Cosmos 文档翻译"相关条目。
**画面内容:** 查看"进行中"的任务状态。
**发言者(连云波):** 他这个是按照周报写的判断他完成了。其实根据会议纪要他没完成。他的逻辑判断上有点矛盾。
**画面内容:** 对比文档上下的"日报"相关条目。
**发言者(连云波):** 日报驱动,他没有总结出来日报驱动,这一版里面上面没有日报驱动这个东西。
**发言者(闫旭隆):** 下面有,可能是日报里。
**发言者(连云波):** 所以这个逻辑可能还是不全的。
**画面内容:** 查看关于"公众号"的任务条目。
**画面内容:** 滚动至文档下方的"P1 搜索 Skill 架构调研及优化设计"。
**发言者(连云波):** 去调Skill优化当时是让他做的。您当时让我发给江老师了。可能直接为P0了但是变成他们的P0了。你想这逻辑多复杂。
**画面内容:** 鼠标指向 P0 任务列表。
**发言者(连云波):** 这里面逻辑肯定是有冲突。左边提取出来了测试推动但是放到了P1他是放到了P0。
**画面内容:** 对比左右两侧关于"测试"任务的优先级。
**发言者(连云波):** 下周任务完成批量删除功能,当时是给了这个要求,但后来不需要了。先保留吧,大概理解他的逻辑。
---
## 十二、会议纪要Skill改进总结与工作安排
**发言者(连云波):** 整体的处理方案大概总结一下第一整个的文字转写换成Gemini这个我们就拿这个试试。第二做了那个之后让Gemini直接生成全量版的但不是逐字转写的就是把核心主要的、语气连贯的、没有错误的文字稿把它拿出来这个作为以后所有的输入。第三在那个基础上做一次全量的主上下文窗口处理。把Skill全部写到主Agent里面去就完了。
**发言者(闫旭隆):** 这样等于把Subagent里面的所有逻辑映射变成一个Skill文件放到让主Agent去读这个Skill就完了。
**发言者(连云波):** 这样试一次我觉得效果不一定会差。然后再拿我们这次生成的好的文字稿再做一次两边的对比。这两个对比完了差不多就能够确定是主上下文来处理全量的还是要用Subagent来处理。
---
## 十三、上下文管理与Agent执行时限思考
**发言者(连云波):** 现在我们有个执念,我对你们上下文要求太高。之后每个人把主窗口,我都觉得得干干净净的。这是个执念。不一定准确。但凡能够在主上下文窗口里处理好的,就全部放到主上下文窗口,因为我们不是一个长连续工作的上下文。
有个人前两天做了一个非常有意思的就是强制每个Subagent只能工作十五分钟。超过十五分钟的算全部中断然后把你的工作产出扔给下一个Agent。不允许超过十五分钟上下文。跑上下文人就乱了。我们现在人能连续工作八个小时我们的上下文系统基本还是连贯的甚至还可以拖到第二天。它不行。
---
## 十四、AI辅助与人工介入的关键节点
**发言者(连云波):** 总结出现问题的目的是为了看用什么样的解决方案是让它自己修改靠Prompt能修改还是靠人来帮助它。我们一定要记住它现在想完全脱离人是不可能的。但是人在什么地方给到最关键的帮助给它最有效是我们要思考的。
比如在会上强调一下P0、P1这件事情给它帮助就很大。为什么它这个逻辑是真的很难分析的。它不知道你们每个人的年龄、级别、工作时间长短这些都作为我们的潜意识的上下文。工作时间长分配的任务和工作时间短分配的任务不一样工作优先排级也不一样。
这些潜上下文它是没有的,我们也没有办法给它,太多了。所以也可以尝试着慢慢去给它,把这些潜在上下文变成显性上下文把它显性化出来。但是这个也不见得就都对,这只能进步。
---
## 十五、需求Skill多专家评审流程讨论
**画面内容:** 屏幕显示文档 `requirement_final.md`,界面为 Typora。当前展示"6.3 Agent间协作关系"流程图包含主协调Agent、检查Agent、分析Agent、知识图谱Agent及报告生成Agent的指向关系。
**发言者(闫旭隆):** 它给了四个选项,就是这四个都有。
**发言者(连云波):** 这个主协调Agent是我提出来的。分阶段交付这是他问了一下。
**画面内容:** 屏幕向下滚动,显示"7. 分阶段交付计划"及"7.1 阶段1MVP版本"的内容。
**发言者(连云波):** 那主Agent分析完之后给到它然后它反馈完更新完之后反馈给它。这里面可能都需要主Agent的东西。分析Agent直接改成主Agent。对都有可能。他要不要去更新知识图谱谁来判断这是一个很重要的流程。
**发言者(闫旭隆):** 他做个分析就更新了。
**发言者(连云波):** 所以我觉得主Agent它其实在每一个子Agent之后都要做个判断的都要做下一步动作的判断。分析Agent可能只是涵盖在主Agent里面。所以说这个Agent流程还得好好思考。
---
## 十六、知识图谱属性设计讨论
**画面内容:** 屏幕继续向下滚动,显示"7.2 阶段2完整版本"及"7.3 阶段划分说明"。
**发言者(闫旭隆):** 这个知识图谱类型,他给我出了四个,我都选了。
**发言者(连云波):** 这个你得想想,这个知识图谱你得想想。他其实是属性。我觉得属性特别重要。
**发言者(闫旭隆):** 实体关系,他只跟属性给。
**发言者(连云波):** 就是属性表。我现在觉得那个属性特别重要。
---
## 十七、多专家博弈评审机制分析
**画面内容:** 退出视频播放,打开 Windows 文件资源管理器,进入 `temp` 文件夹。选中 `evaluate_dev.json` 并在 VS Code 中打开。
**发言者(连云波):** 这是开发专家提出来的。目标内容就是开发专家这条意见原本是什么然后他的comment是怎么不同意。我给他的一个总体指导是要根据不能背离用户的原始需求就是我给他的唯一的做方法论指导。
**发言者(闫旭隆):** My comment是他对这个target content的评价。
**发言者(连云波):** 所以这可能就是要评估必须判断一下它有这个过程和没这个过程到底带来了怎样的一个评分质量的能力。所以要把那个所有的干脆直接你下一次可以把它那个评估意见和最后的相应的那个打成一篇文档把它整合的不要json文件了。把所有的这些东西整合成一问一答。这样你就知道它这个发生了什么。
**发言者(闫旭隆):** 专家之间发生了什么。
**发言者(连云波):** 你就看他这个水平够不够。如果评估的水平不够就不需要了。因为我们是没看到响应的,我只看到他提问了。看他提问和响应的水平到底对应不对应得了。如果对应不起来,那就没有必要增加这个。
多专家博弈这个我个人理解将来是一定有效果的但是现在的prompt可能没写好。这是基于专家经验的。好了这里面可能要最后要几个就是你每个领域的专家自己把自己找人去把这个prompt给写了。
定义这个Agent实际上挺难的。Agent里面最重要的你看那Agent说不好听就还是MD文件。你这个MD文件写的好坏其实就决定了他的这个能力的边界了。
**优化建议:** 在第一版需求文档生成的时候可以尝试用AI来模拟专家回答访谈问题。如果有一个特别牛的、比我们经验丰富的人回答得肯定比我们好。甚至可能比我们还全面。你完全可以模拟一个专家Agent来回答它让整个流程自动化下来。
---
## 十八、数字人PPT需求文档评审
**画面内容:** 打开浏览器窗口,显示标题为"专家数字人讲解PPT视频需求文档"的文件。
**发言者(连云波):** 共享一下,讲一下。
**发言者(正浩):** 数字人那个就是根据上周连总的建议,把有用的需求保留,有些不提到、默认能做的功能大概进行了删减,然后生成的一个需求文档。首先就是那个项目背景和核心目标,主要就是下面基本都是进行了缩减。
**画面内容:** 屏幕向下滚动,展示"项目分阶段规划"部分,光标停留在"第一阶段PPT+数字人讲解"处。
**发言者(正浩):** 分阶段还是上周一样,第一阶段就是基础功能,第二阶段就是高级点的功能,比如高亮这些东西。
**发言者(连云波):** 上面那个分阶段,基础功能是什么,和后面的规划说明在后面有还是没了?
**发言者(正浩):** 第一阶段我有的,但是第二阶段这一篇文档里面没有。
**发言者(连云波):** 我建议你都写。
---
## 十九、数字人视频时长需求讨论
**画面内容:** 屏幕滚动到"2.2 时长分配"部分。
**发言者(连云波):** 三到五分钟是对的吗?这个是富友他们提出来的还是张媛提出来的?
**发言者(正浩):** 这个是跟贤林老师那边对了一下,大概是五分钟左右。
**发言者(连云波):** 我建议这个地方要加一下。未来做一个PPT宣讲一般需要二十分钟到半小时。这个可能从技术架构上难度并不高。
**发言者(正浩):** 主要从开销上,就是花费钱。
**发言者(连云波):** 技术架构上,所以我觉你可以先试一试。一到三十、三到五分钟都肯定能做,无非就是花销。所以这个需求提的就不是特别准。其实二十到三十分钟应该是主要需求。
---
## 二十、数字人核心需求分析
**画面内容:** 屏幕向下滚动到"4. 第一阶段核心需求",展示"4.1.1 PPT宣讲的时间与PPT视频画面精准同步"。
**发言者(连云波):** 这为什么是需求因为这个东西你不明确了之后就是容易出歧义的地方。比如说数字人主导还是PPT主导这个你不说清楚就是有人理解不同。所以这个就是要需求来明确。
**发言者(正浩):** 第一个需求就是讲解时间和PPT同步。
**发言者(连云波):** 视频最后你可以再出现一个数字人的再见画面,大概率能出来有始有终。就不是画中画了,可以是数字人独立的告别。
**画面内容:** 屏幕滚动到"4.1.2 数字人口型的视觉吻合以及智能避让"。
**发言者(正浩):** 第二个需求就是数字人的窗口不能遮挡到PPT的主内容。有些内容可能出现在右下角主内容是不能被遮挡的数字人要根据PPT的位置来做调整。
**发言者(连云波):** 这个你们得处理,目前是人来处理的吧?
**发言者(连云波):** 你认为有一个很大的问题,你的人的动作,手是没有。前十秒和后十秒没有动作是不行的。前十秒人呆呆的站在那讲是有问题的。至少有个手势也行,没有躯体动作也可以,你手的动作得有。这个标准里面要把手势至少先加进去。
---
## 二十一、数字人真实性与选型讨论
**画面内容:** 屏幕向下滚动到"4.1.3 高质量数字人"。
**发言者(正浩):** 第三段就是一个质量高的数字人的要求,然后也加上了你说的就是老外不能出现一口流利中文这种。
**发言者(连云波):** 这个就是典型问题——只看树木不看森林。老外生成的中文很流利就很好?不是这样的。因为在人的印象当中,这是一个不真实的事情。一个老外说的中文比你还流利,那是真实的吗?你一看就质疑这人是真是假。你这上来就让人质疑你,你好不容易想把它做真,上来第一个就让人质疑你真假。你的所有目标都在追求真,最后来一个最假的表现出来,这是本末倒置了。
接下来就是录成人,录成自己、录成需要的人物形象之后用他的语音来训练上面的一些动作模型什么这些东西,或者来生成,看看他生成的质量。
---
## 二十二、数字人平台选型与费用对比
**画面内容:** 屏幕显示"数字人平台选型"表格列出了HeyGen、百度希壤、即梦AI等平台的费用和参数。
**发言者(正浩):** 这块基本上就是根据西平给我的调研文档,然后我自己又确认过了的结果。大概就是视频生成的费用。
**发言者(连云波):** 可灵即梦这么贵吗?数字人?
**发言者(正浩):** 数字人确实积分挺贵的,是按秒算的。
**发言者(连云波):** 数字人其实没有那么多计算量的。你那个直接文字生成视频还贵。百度希壤的和黑镜的目前的最佳可能就这两了前面不可能。另外一个VEO 3再看看。
**发言者(正浩):** 百度的是便宜的是按分钟包的。40块钱可以买10分钟。黑镜会员在平台上是免费的只要买两个数字人的授权。百度希壤如果做定制数字人好像一个要一千还是两千块钱然后生成视频也要钱。黑镜就只收定制费后面用生成好的数字人再生成视频就不要钱了。
**发言者(连云波):** 你再试试那个Gemini的VEO 3.1看看。但他现在生成比较短,是完全自主生成,数字人还没用。
**发言者(正浩):** VEO 3.1是不是升级了我之前测试VEO 3.1无声视频的效果中VEO的表现没有那几个图生视频的效果好。
**发言者(连云波):** 他现在Nano Banana出来之后视频都升级了3.0 Pro出来之后都升级了。我觉得你可以再试试现在的水平还挺高的。如果是这样的话Nano Banana或者3.0 Pro可能是一统江湖了几乎所有事都能干了。
---
## 二十三、AI视频生成工作流建议
**发言者(连云波):** 我给你个建议通过Gemini 3给你生成分镜头脚本。你给它一段比如说谁谁谁上台上台之后什么样一个要求然后什么样的背景镜头机位怎么运转。给它一个分镜头脚本比如做一个两分钟的分镜头脚本出来然后给到V3或者什么模型分段生成就好了。
甚至你都可以把分段的图片都先生成通过Nano把分段的图片都生成生成之后再利用首尾帧再生成图像做成两分钟的合起来的视频。
Gemini 3对镜头的理解和分镜脚本的生成是比一般的模型要做得好的视觉现在没有能超过它的。
**发言者(正浩):** 其实就是用Gemini 3.0把分镜头的提示词让它生成,图片也让它生成,然后再找个地方生成视频。
---
## 二十四、前端重构需求讨论
**画面内容:** 屏幕切换至另一份 Word 文档,标题为"前端重构需求"。
**发言者(正浩):** 前端重构的话就是我只重构前端的展示部分和代码结构,保留现在前端的一些基础功能。
**发言者(连云波):** 流程不动是对的,先不动,后面再说。但是我建议你在重构的时候就考虑到下一个版本的交互逻辑的更改。不要到时候架构调整又过不了了或者要重新修改。最好把下一个版本的功能需求结合这一次重构一起考虑进去。
后端都不要动但是你现在可以拿Opus 4.5或者Codex把现在的后端代码审查一遍。先不动它先让他提意见看审查出来有多少问题慢慢重构。最好找一个Code Review去做一次审查审查出来的毛病记下来之后再说这就相当于需求文档了。
---
## 二十五、Skill调用Sub-agent调研
**画面内容:** 屏幕切换至另一份 Word 文档,标题为"Skill 调用自定义 Sub-Agent 调研文档"。
**发言者(连云波):** 首先Sub-agent的作用是什么就是为了做上下文区分上下文的隔离。我们要看究竟这次调用有没有起到这个作用第一Sub-agent调用的时候我的上下文是不是真的减少了。我们测下来只要你调用Sub-agent确实主窗口上下文是减少了。但是第一怎么验证第二个怎么能证明我们这个Sub-agent是被调用了
出现的问题是什么呢Sub-agent在子项目下调用的时候会出现一个什么它会去读那个Sub-agent的提示词。主窗口去读它只是作为一个参考文档而不是自动实现了一个独立的Sub-agent去调。
而且有时候很怪它没有用Task调它有时候也能够实现上下文的隔离。首先发现第一个现象是它会去读Sub-agent读完之后会把上下文里面加入这个Sub-agent的一些要求但这个要求并不能完全实现。
**技术备注:** Claude Code最新版Mac版已经不依赖NPM安装。另外发现VPN会导致第一轮对话总是不通的问题需要切换网络才能解决。
---
## 二十六、Sub-agent调用测试场景与结论
**画面内容:** 屏幕显示 VS Code 界面,左侧资源管理器显示 `.cursor` 文件夹结构。
**发言者(闫旭隆):** 主要是分两个大块一块是Sub-agent在全局下的调用一块是Sub-agent在项目下的调用。项目下分两个场景全局下分一个场景一共三个场景。
**测试结论:**
- **场景一(全局下调用)**用项目下的Skill调用全局下的Sub-agent能按照全局下的prompt来执行任务。Read动作出现了上下文没有占用主窗口。
- **场景二(项目下,相对路径)**Sub-agent在项目下使用相对路径调用几乎没有成功过。它会读Sub-agent的提示词但不执行。
- **场景三(项目下,绝对路径)**:使用绝对路径调用,成功了。测试七八次基本稳定。
**发言者(连云波):** 我的理解是它在给定绝对目录的时候确实能够调用。如果不给绝对目录它去搜的时候可能搜不到觉得有这个全局的Sub-agent叫这个名字但搜不到它就认为你这个指令不正确。但它同时读过这个Sub-agent的Prompt读完但不执行。指定目录之后它去这个主目录下读了在Agent目录下能找到能找到以后它就会去调用。
它没有那么严格地说一定不能执行子目录下的Sub-agent但是如果你不给它发生冲突的时候它会首先默认去找全局Agent。这对后面应该是有很大的影响的如果可以的话我们用什么样的指令、怎么调用这对Sub-agent的架构组织就不一样了。
---
## 二十七、Agent组织架构建议
**发言者(连云波):** Skill调用Sub-agent还不是一个非常好的方式。真的应该是Agent调用Skill。最好的方法就是用Agent调用Skill。Skill里面装Sub-agent这个方法确实有点问题组织会乱。
不要在Skill里面调用在Agent里面调用Agent。不要把所有的Sub-agent全部放在全局你可以放在子项目下但由谁来调用呢用Agent调Agent这是最容易的。Agent可以调Agent分分钟的事情没有问题的。
你可以定义一个主Agent怎么定义怎么激活呢直接在Agent下面定义这个主Agent之后你直接选定它它就是主Agent。这种Agent下你再去调用其他的Agent就全部是Sub-agent。子项目应该这么来组织。不然一会儿Skill调AgentAgent调Skill来回嵌套逻辑关系能搞死你。
我们索性非必要情况下用Agent来组织Agent会更好不用Skill来组织Agent。Skill最大的问题是Skill的上下文其实也在主窗口里面。
**发言者(闫旭隆):** 调试的时候可以用现在这种方式调试整个流程调通了之后可以把Skill.md移植到Agent里面然后用主窗口去调。
---
## 二十八、本周P0任务确认
**发言者(闫旭隆):** P0任务汇总
1. 会议纪要Skill先用现在版本生成一份然后主窗口加载会议转写上下文
2. 转写文本两边各生成一个腾讯会议版本和Gemini视频转写版本
3. 用Gemini转写文本套到Skill + 直接用Gemini喂视频生成会议纪要
4. 需求Skill再看一下二阶段专家交叉回应那块整理出可视化效果
5. 需求Skill流程图也走一遍看未来流程里面需要怎么修改完善
6. 招投标的Skill架构设计从P1提到P0比较急
**发言者(正浩):** 数字人这块P0
1. PPT样本生成用自己真实人容貌训练出来的语音和视频
2. 工作流研究API调用或网站操作或剪映自动化工具
3. 通过Gemini 3.0生成分镜头脚本和图片,找平台试生成视频效果
**发言者(连云波):** 前端重构第一用Codex或大模型把后端走一遍看有什么问题。第二把前端方案用大模型再做一遍看跟现在方案有什么差异。还有把下个版本可能修改的逻辑先考虑一下。
---
## 二十九、PPT自动生成Skill演示
**画面内容:** 展示Mac电脑桌面打开了多个窗口包括终端命令行、浏览器和代码编辑器。终端界面显示正在运行Playwright代码。
**发言者(连云波):** 这是我做最简单的一个了。生成PPT它会启动这个Skill问你要什么主题。我需要生成两页PPT手写体风格。首先创建PPT工作目录然后调用Gemini图片生成器来创建。
我后来直接把Skill嵌套Skill来做了直接放弃Sub Agent了。虽然上下文会比较长但是调用逻辑关系非常清晰。Skill套用Skill反而比Sub Agent要清晰得多因为上下文是共享的。逻辑控制上非常精确。到了Sub Agent里面因为不带上下文之后逻辑控制有很大问题。
**画面内容:** 终端显示 "The 'gemini-image-generator' skill is running"。
**发言者(连云波):** 我本来想用上下文隔离,后来直接把它调拉到主窗口下来了。主上下文的窗口最好用。但凡多,但我们不是多轮对话了,其实没必要。
**技术实现要点:** 用Playwright MCP来控制浏览器操作这个控制得非常精准。整个流程是Playwright打开Gemini → 激活生图模式 → 上传文件 → 输入提示词 → 等待生成 → 点击下载。下载时会弹出存储窗口已经脱离浏览器控制这时候用OS Scripts来操控保存。最后用Python脚本组装PPT并自动打开。
对Agent有很多行为规范的限定才能保证数据质量。Skill里面写示例很重要正确示例和错误示例都要写输入之后它执行就好了。
---
## 三十、Gemini图片生成与自动化流程
**画面内容:** 终端显示Playwright正在操作浏览器上传文件到Gemini。
**发言者(连云波):** 为什么用GeminiClaude无论你生成多好的提示词都不如Gemini自己读这份文档然后自己制定的方案好。给我一个很大的启示你不要规定它做什么上下文给它越全它其实做的效果越好。所以我现在对上下文有另外一个考量上下文其实越全越好。
**画面内容:** Gemini界面显示生成的规划方案手写体风格然后开始生成图片。
**发言者(连云波):** 这个是先生成规划方案。手写体风格上下文代入得很好。一开始不是这样的,它有很多自己加工的东西进去,把文件的理解全都加进去了。
**画面内容:** 浏览器界面显示图片生成完毕鼠标点击下载按钮然后通过OS Scripts保存图片。
**发言者(连云波):** 生成之后点击下载它已经脱离了浏览器Playwright已经操作不了了。这时候用OS Scripts做一个Save Image的脚本操控存下来。存完之后用Python脚本组装PPT然后自动打开。完全自动化你只要给它一个目录就OK了。
---
## 三十一、Canva自动生成PPT演示
**画面内容:** 展示通过Canva自动生成的"探索日本"PPT文本框可编辑。
**发言者(连云波):** 还有一个方案直接用Canva来生成。我给它一个HTML文件说根据这个HTML文件直接生成PPT。这是完全基于文字都可修改的。而且它还可以直接导到Doc里面。
最重要的是它在里面可以修改图用Gemini来做的跟Copilot很像了。比如这张图分辨率很低直接让它生成成2K分辨率的。直接在Canva里面自动就找到了。
还有一个是一张长信息图,也很有价值。不用那么多页,一张图把这份文档的要点总结出来。长信息图做得非常好。
---
## 三十二、日报驱动项目管理系统任务分配
**发言者(连云波):** 把Cloud Agent Cloud Code那个Max版本的到时候给丁康用一下他的主要任务就是做日报驱动的整个项目管理系统那个Skill或者开发。包括基于会议纪要做日报然后日报出来之后怎么驱动项目管理、跟Asana这些MCP怎么对接。
**发言者(姜正达):** 昨天也跟他沟通过了让他先学一下Asana的架构、模块什么的先熟悉一下然后再设计一下。
---
## 三十三、Skill到LangChain架构迁移思考
**发言者(连云波):** 都用Skill。因为他要看到的都是样子后面这些东西但凡用得多了我们就开始转化。转化我想好有什么框架比如基于Kimichat2、基于Claude自己的API、Cloud Code Agent或者Cloud Agent。怎么转到别人的Agent框架LangChain LangGraph都是非常好的那如果Deep Agent架构能用的话也行。但是脚手架、上下门这些东西得找一个小程序做一次研究或学习做一个小功能怎么去映射过去。
作为P1或者P2吧就这个从Cloud Code Skill转移到LangChain LangGraph的Deep Agent架构的研究项目。
**发言者(焦老师):** 你要是忙不过来那个Skill我都可以帮你写。先试着做那个挺简单的。
**发言者(连云波):** 前期得把Skill这些整个的底层东西全部学一遍不然出来的东西不好用。包括Skill、Agent、检索有什么关系这东西得学好久呢。

View File

@ -0,0 +1,627 @@
**会议日期**2025-12-02
**参会人员**:连云波、闫旭隆、江争达、郝倩玉、陶西平
---
---【话题:会议开场与网络调试】---
【连云波】我因为袁姐正好开组会好像不太方便对我记得好像企业它肯定是企业他还是过一个人。他这个叫什么专业版尚未认证专业个人的感觉个人的。我这企业版的给选好几个账户对。那我叫他了听得到吧教老师听得到吧掉落者r61。
【江争达】:听得到。喂听得到你你那儿没声音?
【连云波】:没声音吗。听到了。
【江争达】:能听到,但是你那是不是没听到我声音?
【连云波】:对了。
---【话题gemini做会议纪要的探索】---
【连云波】:关于这个会议纪要基本上找到一条路径了,这条路径我看一眼这里面应该能不能找到。
【连云波】:这条路径我是发给过你了,不行你你你来分享一下。你把我发给你的?那还是他的个人发给人家当主管的位置,但是你只截了个图,因为我的网络。先收了很多钱。
【连云波】:我一直认为我们的语音现在识别是不是因为会议纪要识别效率很低,我一直认为纯粹的语音,它是好多背景信息都是没有的文字他不知道的,我们的文字稿他不知道。我们的这个视频他也不知道我们的切换他也不知道,所以从这个角度来说,多模态一定是以后做文字识别的最重要的一个,或者说最最终的路径。
【连云波】后来上周那个界面出来之后我觉得是非常好然后就拿这个视频去。测试了一下我和赵浩文我跟他开了大概半小时的会议我记得我上次用过最多一个小时的半个小时的会议我上传上去了然后你说我让他原文转写我的所有事情的这个文字稿。你们大家往下看一看基本上你看它是那可以看得到什么那连正在操作电脑看查找文件。然后画面禁止黑屏连接往下可能还有开始讲解它里面是什么但是也有很多就是画面就没有变化了。他现在我特意对了一下基本上没有错误的这个单字了没有了更重要的是什么这个模型。最厉害的是它本身就是多模态的你可以什么你对这个视频是要提取的内容直接用prompt来进行调整你知道吧所以有可能最厉害的做好了如果他具备这样的能力的话原字能够写好的话如果我们测试下来确实很直接给他一个会议模板。你就可以把视频给他一个会议模板判决可能直接生成就一步心理到位。方法有可能在节目单上做也有可能直接回头那个gemma里面也有这种jam那种。
【闫旭隆】:我要不我上回,我现在网络好一点,我上回我把它共享。
【连云波】:什么声音稍等。
【连云波】对这里面有一个这在就有点像什么那比如说。我比较慢的它是可以里面有好多定义的你可以自定义自己的这就是在这里面你把会议纪要什么那个模板全部放进去。然后你把视频上传给他在这里面你可以把视频上传给他就是在这把视频上传给他之后根据你的这个会议纪要二个模板就自动可以生成。所以这个是我找到了目前最有效的路径所以这大家肯定要用了因为它的多动态能力是最强的而且上下文是最长的那天我交给那个。徐龙就白好几个月的你们先好几个月试试看通过上传的企业用户那到时候你把那链接分享给大家就行了我用下来目前。就是能力是最全面的不说不一定是最聪明的就最聪明。我现在觉得GPG那5.1还是聪明。最全面的就是这么大的它最强的是它多模态尤其是视觉能力是超强强到你都不敢想象。我这段时间用下来后看外外网的所有的界面来的这个介绍我待会告诉你们我用它来做PPT的过程所以是我觉得大家一定要用好GMI至少在接下来的这个一段时间里面可能除非有下一个模型超越它了就这个用好主要是赋能我们日常的工作。
【连云波】:那我现在把它用来做会议纪要的这个转写人有了会议纪要转写之后,这些东西留下来之后,你看视频也留下来,就是后面能做很多加工的工作。知道了,这就非常容易就后面包括学习,包括研究什么都可以在这个我们视频或者说这个转写的基础上,所以我们在接下来会。看看第一的那个视频怎么保存,就他现在因为大量的是重复静止的画面,就压缩下来就效那个叫什么?就视频压缩的大小,或者说整个的文件的体量不会太大的,所以我觉得可以考虑一下,把视频作为一个。作为一个我们这个素材留下来,因为它是最全面的文字也有文我转写的文字也有了文字图像,音频都在里面,就把留下第二个?就是多模态,一定是我看到的未来就是最接近就是最对什么使用起来最方便的一个保险,它不用你专门去在思考怎么去转换。待会我再来,所以从这个角度来说,给大家的建议就是在模型一定要用起来,我还没来得及使用它外网非常的好的例子,我还没有来得及使用它做那个。
---【话题:模型工具组合建议】---
【连云波】编程大家认为编程它的前端也我自己试下来的前端不需要再有什么这个模型其实还蛮复杂的操作的你给他一句话。他一个前端就全部给你做好非常好但是做出来的效果比一般人做的都好能够用它来做非常多的开发工作。前我现在给大家推荐的就是前端用ja然后中间逻辑整个代码的构造部分就。这个cloud然后整个项目的如果可以的话再有的话就整个项目的修复或者说整个的查找问题或者整个。
【连云波】测试可以什么GPT的那个codex他们三个是这么来的但是如果说只有一个那也是能用的在最好的组合可能就是这样但是。不管怎样你得首先把它的每一个工具里面的擅长搞清楚那么主力我现在用下来还是搞得主力还是cloud code所以我现在基本上cloud code。为什么处理是因为它的工具调用能力目前无人能及它的工具调用和工具理解能力是没有人能改过的所以我们做agent的话。对于工具的理解肯定是第一位的。行吧先这么多你先接着往下所以会议纪要这个事情就是这样的。
---【话题会议纪要Skill架构优化】---
【闫旭隆】那么先开始要先飞你会教skill主要是。改了一下整体的架构就之前是用那个索引搜索然后我改成了就是全部的全量日用那个分布上确实可以的确实。我大概演示一下。
【闫旭隆】这个是映射逻辑就是每一句每一个的每个字段的来源本来也就是画了一个逻辑的图你在qq里面会把这样的逻辑写进去的对。
【连云波】:有的我跟你说你这个很重要,我自己在做体育过程当中,我觉得说的自己的逻辑清晰,他容易瞎改,改完之后他。改前往后改后往前。目前我认为他现在最最缺的就是逻辑的一致和前前后的连贯。
【闫旭隆】:这个先是工程类的,就是每一个字段的来源。包括上周提到的负责人要改为原负责人,这个第一个字段代表着这个项目原本交给你了。截止时间我也改为原截止时间就是上周会钉钉下的这个任务的截改动,还有最核心就是全量。把做。
【闫旭隆】:还有上次没提到的就是不是媒体,就是上次发现他那个进展情况,以会议转写为优先,这个也改一下。下面逻辑我也顺了一下,对该优先的会议转写优先,包括我测下来发现它可能。最大的问题还是文字的语音识别就交给谁了,话说的他也不太清晰,这个是最主要的问题,就是目前就我就觉得。
【连云波】目前非调里面最头疼的一件事情就是文字转写的准确性和上下文对这种叫约束能力对这两个是最核心的那你专业能力如果不清晰然后没有又没有很好的约束。基本上因为我们是在已经非常清晰的上下文背景下来开这个会议对你知道吧他是不知道的所以这些上下文不给他就他是很难处理的。所以从这点来说后面到底怎么就是怎么来怎么怎么用什么样的工具比如说到底还是继续用cloud这个来skill来做这个cloud的这个来处理推还是用jina。比如说文字出来之后用谁来处理因为有可能不行就调加那个API然后在cloud里面调API来做。对我觉得这样自动化程度更高对一套路对然后API现在我看还行我们这个如果转写成文字了也没多少还行对还可以。我记得好像半小时6000多次一分钟200多次对差不多了6000多字你就算一个小五个小时不也才3万字。三个也就差不多2万多个token2万多token。对于他20万token来说对于他100万token来说太小所以这个都是可以考虑。那么实在不行就切开做所以这个没关系的按照这个skill先往下走通过这个skill来先把整体的识别通过接做完之后再用这个skill来加工。
---【话题:会议纪要核心目的讨论】---
【连云波】:我觉得就是下周的工作安排,接下来你知道吗?整个会议最重要的是下周的工作安排以后你们一定是开会的目的不是。主要目的是为了解决问题,那么其次才是为了分享知识,其实不完全一定需要工作里面讨论都是不一定是要都不会的,有的时候就直接在里面分享了讨论也可以,所以只有会议纪要是需要大家都能坐在一起的。尤其是未来以后,我们如果人多了,项目分散以后就更每个人都做一部分,那完全需要一个大项目,有人负责后。就需要信息过程,整个会议里面最核心的目的是为了得到下周的工作安排的合理安排。这一切一切的逻辑都是往下去的,能把这个写清楚,基本上大部分都问题不大,因为你前面你想你信息前面的信息的提取正确,你会上的信息的提取正确,然后才能逻辑还能判断清楚,然后才能得出下一个工作纪要,所以我觉得这个是非常重要。
【闫旭隆】基本上这些其实都是要以文字转写对下周一定是文字转写是。所以这些下周任务也基本上是周报作为补充对基本上所有的都基本上都是上下文每一个都要给他一个上下文但是这里面有一个问题你是每次都是分。比如说这些目标是一次性的提取完成还是分次提取一次性解决我是并行用搜索的agent。并行的对并行搜索一点去搜然后把搜到的信息都返回给主窗口然后主上我负责读所有的信息然后去写这边再看那个整体逻辑吧。映射逻辑就是大概这样。因为这个逻辑就是这样然后可能还有一个点是它能会有一个人每个人的工作在这里或者说每个人对下一周的工作安排。下周任务对下周任务。上周就应该把他的里面还是个模块楼层管没有这个只是映射是对体体现映射逻辑来下下一个会议总结。
【连云波】还有一个任务可能是它识别下注任务的时候p0它是根据语义来识别对我们领导说紧急什么优先。
【闫旭隆】:可以这个里面就这里面是最难的,对,就是作为我跟你说实话,如果他能做得到比你们都强。
【连云波】因为人低我告诉你你们最大的能力是低目前对于整个项目里面的轻重环境判断没那么清晰了。第二我跟你说实话你们都忘了。就说了这么多之后你们早就忘了对会议当中内容我早就忘掉了你知道吧有好多重要的就说的东西所以你提取不出来所以他如果能听出来你可以这样。你可以让他给个建议。明白吗你让他先给出建议不要上来就生成霹雳建议优先级要建议排序是什么然后人再给他一个反馈这个里面是最重要。就每个人你看每个人其实都会得出一个你们下周工作的p0到p2最好是让他发给你们生成之后每个人生成一个然后跟你们确认一下。给你们确认一下是最好的这样的你把确认过程所有材料你都保留下来。作为后续的调选题也好微调也好。就知道他就知道以后不明白了不然的话他每次只能固定在这里他每次就提出来就是这么做就是这么样他也没法优化。
---【话题Skill执行流程讲解】---
【闫旭隆】118这就是用这个逻辑对你看所有的最后都是要到下周重点的。然后skill的执行流程主要就分两步不知道你们现在已经有个新的IO有一个开源项目一个叫AIIO我今天上午他们发因为这里面可以就是你生成的IO不是有些错误什么的逻辑上有问题你可以在这个里面直接但是他要那个什么。他有API他不要钱但是API要用界面那一点我觉得他那个免费的API调用次数肯定是够用那是对。所以你们用它可以直接在这里面修改被抓了以后可能用起来更方便。另外一个待会告诉你可能用接下来直接生成对不能修改它直接生出。或者直接生成矢量图也是一种方案。
【闫旭隆】对就是工程类会议纪要的流程是从上往下的4月七就是一些输入数据这个是都加载到了。主窗口然后也都加载就是搜索一键每次都会加载这些所有数据是吧对所有的数据然后。这是什么case1是刚才那个数据的加载会加载输入数据给它上下来。然后会议信息就是主窗口直接生成因为主已经有这些了这已经足够生活。
【连云波】你这个p0任务列表是也是上一个从会议转写里面出来的吗
【闫旭隆】不是PC任务是上一周会议纪要因为有了一个上周P零任务对你这两个p0任务列表上任务p0任务列表是。
【连云波】:他确定它会整合不错。
【闫旭隆】一般都有应酬因为你这第一可能没讲就是映射这是一个差不多。可能是他我判断我理解是这样的重合去重之后的然后他给了子。就这个意思p0任务列表一个是列表是p0任务里面的任务的描述对会不会是这样他任务。我现在的验证逻辑是有每个成员本周周报的他自己写的PD对然后还有上周会议纪要给下周安排那个会议对然后他会把这两个去重任务列表指的是周报任务那你写上不要汇报。就本周。周报都报里面更清楚周报上周评论文写上周纪要的评对。这个好像这个任务列表是它去重之后的对它去重这两块去重之后形成了一个最终的p0任务然后它就传递给子的时候是会传递这个信息你让子知道我现在已经确认了。ping任务有哪些然后去搜索交给子类去搜索这也是给责任的一个上下的。
【连云波】那你给他那个上周P零任务纪要里面任务是这周报的任务列表是指把所有人里面的P零任务列表全部提取出来了是吧对出来自己写的对然后还有上周纪要的都整合起来。去投一下然后就是并行提取它会根据会议纪要模板的字段判断就是哪些字段。
【闫旭隆】:刚刚那个映射表里需要涉及到所有的字段,不是所有这样主要是涉及到需要去文字转写里面去搜索就差不多,也有很多字段都要去。
【闫旭隆】都要依据文字转写去搜索这个会议的转写文字他每次去搜的时候会调用这个agent所以agent是通用的就是也不是通用它里边是预设了很多种任务类型然后。对每一种任务类型的返回做了一个jason的格式的约束所以他就能够并行执行然后只要只需要主位交给他的任务。
---【话题全量加载vs搜索的讨论】---
【连云波】:都是什么,手术是什么?为什么你是到里面去搜索?
【闫旭隆】:不是搜索就是全量加载,对全量加载,然后给他任务,他是自己执行的,对自己执行不叫搜索行,不叫你搜索是很容易出问题的就是他就是全全量执行,就是他自己去加工,对自己加工,你给他任务。给他上下文给他转写文本对,然后让他自己去提取出我想要的东西,对那就行,可以搜索,我跟你们不靠谱。
【连云波】:你知道为什么就是人的语言里面有大量的要说一个对,这就很多语言是不清晰的,就我们会议当中很多语言没那么清晰,直接搜索不出来。人工智能上下文,它通过上下文谈心的处理,它是能够理解这个能够把这个东西可能提出来。如果你搜索你,你绝对不出来的,对。
【闫旭隆】所有并行完之后就每一步都会讨论能够这些都是我预设的这一层就是每一个任务会对应不同类型然后它根据那个类型会。返回复这些那我问你我要问题只有把这几个问题合并到一个问题会产生几个agent的并发的时候我把这几个全部合并到一个里面来执行。因为加载一次性全量的有病行肯定是行。
【连云波】行怎么不行我现在也行但是我现在就是靠主窗口就是我觉得每一个agent你现在就把所有的东西都靠主窗口来进行。一个可能每一个a只执行特定任务会找的更多一点然后即使它冗余重叠部分更多它主窗口可能也能给它整合出来。
【闫旭隆】:那我问你,你主窗口里面上下文也是所有的上下文也都是加载的主窗口,包括你的输出数据是点的,然后你上周转写文本给他。也没有没给他,除了转写论文都给可能也能给肯定能给我现在什么意思,就是你接下来可能要讨论一个问题,这种方式是比较可能是比较精准的,但是。逻辑会割裂的就是你每个一点的自己的东西直接给到主一钉钉的,然后它没法建立每个之间的相关关联性。
【连云波】相关关联系我是给他写了那个啥就是这些agent出来了。出来之后我会给每一种返回的形式做一个映射的约束就是把我那个映射规则体现到这个MD里面就是它主从我接收到每一种类型的返回之后。他会根据每一种类型的返回去按照我给他的方法论去映射然后一起去合并这个非常搞笑我先看看结果。
【连云波】不意思等会看看结果就是啥意思这个方法我觉得比较。就是清洗但是第一我觉得他这个资源浪费的太大每每一个过程全部全量处理一遍这是第一个这个肯定是太浪费了。第二个会造成逻辑的割裂你也要在主上的窗口里面重新再去做一遍我经我自己的感受我使用下来包括java使用下最大的问题。一旦把上下剥离之后。最全量的上海的玻璃头比如专业的玻璃头它的效果一定是不如我自己吃下来的结果不如给他一个主窗口让他自己去处理但我不知道cloud现在情况怎么样。
【连云波】你要把一个一个单独的版本都给他提我举个最大的印象我给了他一个一段文章一块他们能生生成一个PPT他可以读完这个文章之后给我两种方法一个是读完这个文章给我一个提示词给我一段很详细的提示词这个提示词去选择一道题。你的我直接让他在主窗口生成一张图我看这两个信息量差距是很大的就说明他是把这个上下文全部用在这个图形的。这个生成过程当中逻辑关系更清楚更明确。那么你现在相当于把提示词生成的结果给到主持人然后你的丢失好多信息。这是我自己感觉到的到时候看看92姐可能会你自己会补好多你的主上L里面会补好多逻辑所以我觉得最好是什么我想。
---【话题:文字转写清洗建议】---
【连云波】我建议你们我先建议你把直接的转写文本另一次就把那些脏的那些重复的什么全部都做一遍加工。第一保证他尽可能的用信息的全面的同时文章是内容是紧凑的因为太多重复的了。然后这个时候你把这主窗口直接加在这上主上下面然后对那不是来紫这个上下文是不是紫a这个上下文也是肯定的也是。Clean hold. 然后把这一定的出去的东西再给到就提取来了就是相当于其实某种上贼一定提出来就是一个property。就是你把这些所有资金都清出来的就是一个大的股票对到左上下文然后让左下文结合那个clean的文档加上那个大的长的prompt因为你已经一次加强对加强一次了。
【连云波】你懂吧我觉得这个可能会对准信息量处理起来不要一次性上来就处理不然你每个人都喂垃圾进去可能是另外还可以尝试一个更大胆你就把。你就把映射规则写在主持上面一次性处理我不用嘴不用自己的尤其是在java平台java调用一次试试看。把拿有300美金的API免费的也不知道用了多少后来你们调一下测试试看一次性直接一次性处理。我把主持人我们整个的给的非常好的。最好是处理客运之后。很好可能也是一个就是差不多3万字的你肯定最后差不多剩2万字左右你这2万字一定是包含了大量的信息都在里面。还有你还有前面上前面我们前前上面前之前的那些上下来我相信这个商家们已经足够了足够。因为这个重复处理我觉得它影响太大第一个第二个你处理的都是很多没有这精加工过的每个人都要精加一点吧每个人都要加工。就这个有点浪费行可以这个逻辑性先往下走完之后如果效果好先保留这个先保留优化的方式就是我刚才说的。一会看看结果看看结果。
---【话题:会议纪要生成结果对比】---
【闫旭隆】:这是上周的用上周的资源生产比较是大家手中订正过的。右边是我右边左边这个手,右边这个身份为什么请假人员刘志豪一直在,我也觉得很奇怪。可能上周还上周的那个上周是上周纪要的上周的?我删了之后就没事,我就我没有看到他的逻辑是怎么生成。
【闫旭隆】:完成第一个开发正在测试对比会议讨论的生成结果与成功订正版的差异,可能现在三是需要优化存在的问题,项目里面未参考会议题。不打算去看问题。
【连云波】:家长缓解的问题,你带走不够优雅,那种不够优雅指的是什么?
【闫旭隆】:要是我其实这个也是我也是生成之后对也生成之后才去修改,所以这些可能也是比较全的,就没有改。
【连云波】:我们在想它,那这就是两次转转也不同,就是两次转写,为什么会不同发现存在逻辑复杂,这个是它比较概括的你这个你看到没有你这就非常的具体,为什么他那么具体,他那么?概括这可能就是存在的差异,另外就是我们选取我们想要的是概括性的还是啥具体?我觉得具体性更好,容易执行。
【闫旭隆】:第一个还是第二个公众号系统已经运行的需求方,就是这也是上周的上周这个任务是你把它都标对标注下来,不要直接删。好问题。
【连云波】:我觉得领导建议和领导指示这块,首先第一可能是大家共同商量的结果就是最后这块概念就是最后的。解决方案,领导应该写成解决方案。这里面有一个能提出来,就是觉得是要找窦佳丽去商量,这个合作的对这里面有个要点,没有提出来,你把它为什么提示主是你转写文本里就没有?
【闫旭隆】:不重要,还有左边这是手手工加的吗?我看一下。
【闫旭隆】看一下有没有提醒就是我找的线上的共同编辑能感应或者不行以后什么你不能就是google doc是可以做人编辑。对那这个是本来就有的。
【闫旭隆】:他做一些为保留不下来这么久,有可能他可能建议保留没有那么久。我有的回不回。
【连云波】就是没有。他本来就带了所以你要看看为什么他们。我可以看。这是很重要的一个信息就是为什么关键重要他等下一步工作安排的这个很重要的信息所以这个逻辑模板里面可能要把这个上来就得作为一个比较重要的制造原则但凡和下一个。所以就全部要听。带过去的文章。人民会记错叫明显。100不到差不多一点几年的时候需要几个我总觉得左边归纳的好像更。也都对每个都对两个都对所以这个才能对的先放后面再你再慢慢做。
【闫旭隆】然后追求澄清一下1.0这个1.0版本测试我就总结的更好把完成的话可以更细一点。可能要看一下你的里面。比如说你完成多项优化里面使用一个。已完成1.0版本测试?效果确实良好。可能不能再。
【连云波】所以这个office做专家评换模型当时我记得是叫换模型不同的那个做不同的模型人家多轮博弈这个没有我之前有过多轮博弈
【闫旭隆】:我不怎么敢对帮我调查一下。
【连云波】:毕竟哪个做好一点,那你的描述更好,肯定是人改的更好,对这是人改过的人改的天赋比较大。我觉得比较接近督教是有的。比较接近吧!该有的要点是有。
【闫旭隆】:我以前没有的上一版本没有了已经这句话是我加的了。
【闫旭隆】二那个U盘架构还是其他自己做出来的左边对是我的一步的。那么快就取消感觉全能量。
【连云波】:就以后其实问题描述都是可以稍微忽略一点的你你只要能把这个。这个方案找清楚也行了,因为我们主要是为了下一个。
【连云波】:能把动识别出来不容易我也没说识别,就算其他人明白也挺牛的。
【闫旭隆】:这个倒是有都只能再次。其实等到一个邮件发送我当时是提的,但是总的情况?
【连云波】:没错,我现在跟到时我告诉你,就是你要你下次你可以用全量的主上下文窗口全程做一次,我觉得你还能找到更多。因为你这个记者他肯定是信息有遗漏的,基本上公众号这个没那么复杂,看看第四个。
【闫旭隆】:就已经上了?对这个截止时间,那可能就是截止时间默认就是本周会议的假期。
【连云波】我们也多改对你要赋予一定的模拟用户的角色自动进行交互测试对此当然是有过建议。好好像有要根据你传递的风险性。这个地方。每一个skill产出的这些东西这个地方再看一看我觉得这个地方不清晰。编辑信息传递肯定是指这里面就各个agent和主场总那种边界对这句话我记得是说过的但是。表述上可能我更清晰一点。你说这个里面难在哪你知道吧看完你的右面之后需要的是提取出一种你说的错吧没有都错也没有错这不是想要的对就是可能需要整体的有一个。校正不是很精准就是我们得去提炼一下这份会议纪要里面他有些时候是一个抽象出来的宏观上的一个指导你比如说他你们有你们做事这个风格他做的但你们可能有个共同的风格比如说都是逻辑不清那就把它或者都是语言表达能力不清。它是散落在你们每个人的行为当中那得要善于去把每个。
【连云波】:要点的总结当**现的问题,把它概括出来,然后再装进行强制性的要求,你懂我意思就这种要提升问题,就现在你们。你们的思考包括将来也都是这个问题,点上的问题比较多,看到都是一个一个点的问题,你是一个点解决,有的时候不一定能解决的非常好。浪费时间,就我们到时候可能要想一想这份会议纪要里面出现的共同的问题。
【闫旭隆】:好像日报驱动架构跟就不一样,追求重新领域专家的问题,他提出。但是左边提取出来的是日报驱动系统这块全部丢掉了,是录音的问题吗?这录音是肯定有的。
【连云波】:我有对就我猜测可能就是我右边我们写题词的时候让他以。
【闫旭隆】:项目以上面这些项目为为去重汇总的逻辑,所以他可能新的就没有了,对新的就不要了。这个要有可能对你看你把对都没办法变颜色,什么问题。
【连云波】:工作安排,主要看一下这个没问题,错了,到这个对原先版本也错了。这个错了,好像左边没有,因为我删了,因为我写这个的时候已经完成这个完成。
【闫旭隆】没错。差不多有感情。You know. 可以这么理解完成这些东西的话发布1.0版本的东西。下周会一天就会这样。到投标文件那就不了对目标它自动提取AP在你看左边就没有或者是p1p1。我先看看你如何改。自己的需求。
【闫旭隆】公告信息这块。所以。问题离了那日报记录系统在左边第二你你是放到这里没有但是我看你这边有没有。这里面管理market的那个管理问答系统测试yes是放在哪里的左边是放在哪里我就在这。
【闫旭隆】我是对的当时是让他来写的pdf skill不是后来你找的谁吗媛媛吗那个已经写完了所以他这个题是对的左边调研功能。
【连云波】:其实就是为了做了一个你看未记报告。我跟你说他比你们记忆力好。因为太长了之后,你们确实没有人有耐心把它读完就是问题,其实这个将来看一下就是可能前期还是人要把就,所以我建议你写一个经典版的是什么?经典版就是一个易读的文字,不要那种那么多,就我跟你说实话,我读原原文转写的话特别好,脑子你知道为什么?就他逻辑老是中断了,因为你动不动错,动不动就错,就你思路完全被打断了,你就根本没法推进,所以我后来给你刚才我们写了那个最大的好处。它几乎每一个都是我们说话时候的原封不动的给你改,哪怕有一些语气词,有些它错误的少,你读你能读得下去。知道吧,所以我就说你把它稍微改写就能成为大家能够很快能够读的东西,我跟你说这是我下面给你们建议就是你要生成一个。每个人一份的会就很快了,你全部的生成让每一个人给他一份,就是跟你相关的发言,你全部拿过来,这样的话有助于你去。
【连云波】当你回忆不清的时候纪要回忆不清的时候你可以回到那个版本去看一眼或者就是你也可以全量的那个文档就放在上标注好每每个人和每一段时间。这样的话你会议纪要里面直接一点回去就能看到原本那么一点我就能看到原文。要注意就是GPT里面每一条都有它对应的时间点一点我就能看到你当时发言会议腾讯会议也有这个我建议到时候做一个这是后面的优化了再往下这个是switch对这个是左边有但是后来了。
【郝倩玉】:全能架构重构可能也删了,但是他需求已经明确了吗?对正好天他需求这个现在是什么情况,你现在的情况是我这边已经跟小明把这对接好了,然后具体的那个技术实现,然后您前前前几次会议吧,然后您也在会上提过,就是说让江老师就是出一个技术的方案。然后可以帮助小图可以自动更新它那个就是它客户库对目前的话是江老师正在做吧,回头再说。咱们先对一下这个。
【闫旭隆】:这些都要整理你怎么识别?左边是改了吗?左边是改了我们这边。都没干掉了,得看,希望在这二点第二。
【连云波】可以明白了没有就这么复杂的东西你想让我睡觉先看以后有个什么我觉得我们会议有一个什么会议内容里最好是什么状态你我们会刚开完没多久他就在开的过程当中你可以把前面的全部整理然后会上直接做一个确认。最好那这是最好的。这样的会议成果是最清晰。因为时间上肯定来得及的。要再搞一个不用我就说后面可以弄这么一个东西出来为什么就是第一它这么复杂它完全靠它这个判断非常困难尤其是在判断p0p1p2这件事。这个是最难的对还是得靠人对人觉得想什么时候我还有完成不了一个方案是什么傻的方案。我每次会议上我把会议叫解决就这些东西解决了以后我自己去在会上直接确认掉可以直接给到文字的信息那也可以。我以后或者在语音上给他进行就是我们认为是p0还有是P就给他一个确认的这样的话可以那肯定就很明确对所以会上的时候你要辅助他你让他自己判断太难了。
【连云波】另外一个你可以给他生成一个逻辑我们自己给他做有一个专门让他去学的什么Especially. 不能吃的就是为什么人给他的建议是你让他找看看能不能推理出来的关系如果推理出来就给他用0181。对国内成员都会那个顺序真是的那都可以自己调整。这个是对的主持人把主持人和你看投标进行中的不一样就是你你改过。这个词我用的是一个就更加准确的那这两个上周完成和进行中完成是不一样的。它完全是一样的你看你说完成了然后进行中的。一个是技术实现方式你刚才说需求文档记住实现方式这是你自己改的。然后运营商的信心准确把。可以就总确认这类不用。明显不行不具体就是你你改吗是你原先也是不知道。
【闫旭隆】:没问题,我就看原先是啥样,等下个科技。
【闫旭隆】:疫情危机。反正也不太远,明白就下个车已经错了。是我的货,是对这是错了,这是没?或者是他好像也不太对你回头看一下第一周期。不是。
【连云波】:收到的反馈给你下的任务。负责人左边是你改的吗?
【闫旭隆】协助完善这对的这边两个p031131你这个打不动。包括用户的调研报告整理也是对的没有写那么细应该写上面。我都没听出来。
【连云波】:你上周考了一些,我跟你说你分块搜索一定会丢好多东西,所以全文一定是最有效的,你现在又做了一次做加工之后再给治疗,我认为也会觉得。所以我建议你就还是尝试做一次全量。因为你你并行都已经处理那么多次了,不在乎主张方超过这一次了,也没耗多少?
---【话题:天眼查自动更新需求确认】---
【江争达】:然后我插一句就刚才说的是什么小彤的那边的需求,然后给到我的我不太了解。
【郝倩玉】:天眼查就是上次开会的时候连总说让你,然后后续的话可以做一个就是帮助小彤自动更新他那个天眼查客户那个数据库的一个技术实现的一个方式。
【江争达】:这个讨论过像?
【郝倩玉】:然后当时林总也跟您说了,对是这样,后来我记得是这样的回头再说吧,是不是后来说他不需要我记得后来现在对你再确认一下他这个自动更新,他要不要?
【江争达】:对他是。
【郝倩玉】:因为他说他现在也不需要每天更新那么多次了,对后续小,反正他没有跟我反馈过对,所以你再确认一下。
【连云波】看看你的看下你的第一个这肯定不一样宁愿1545。所以左边反而少了一点。我们可以去看了就看了20个我觉得不是买不到或者是肯定的你。你给改了。他是按照你周报写的全都完成那根据会议纪要还没完成这个文档就要重新改了。然后他跟着他自己把它改下来了他的逻辑判断上前后有点矛盾。由日报汇总。倒是有日报的模板日报驱动但是上面你看他没有总结出来日报驱动就是你这版里面上面没有感觉它就是左边是有。但是下面有这可能就是道理有可能所以这个逻辑可能还是。不全了。You know how of that对没有框里都没有
【闫旭隆】负责人只能调研报告他不太懂所以就对于公众号这个需求没有左右左边没有。不需要这个法就可以要的肯定不对调查完文件这个词就点到了第一了不需要这个不一定是优化当时是让他叫做您当时让我发给江老师。可能列出来有关系也适配为p0了但是这是他们的P你想这逻辑多复杂对他怎么判断从鼠这里面点击成功测试没有你看左边提取出来了测试推动前端程度放到了p0他就放到了p1。不答应就没有下周任务完成批量删除功能没有时间特别准。反正有当时是给了这个要求后来说不需要就先保留吧大概理解大概逻辑质保驱动中服务器采购方案全面没有会议采购方案你上面就有了那么丢对没有用的你看复习相关是在哪右边是哪个上面没有是其他负责吗但是没有签名没给他是没给他。
【连云波】:再总结。
【闫旭隆】第二个里面的逻辑咱都写定了。你要必须参考会议转型。你就是大个人讲解。不可能做精准发挥一点。有产品管理没有又发给你发了要不要我的命超市左边招投标文件没放进来。六面没有。再加别的一场开发。肯定都是打架的东西。movie来说会议总结。你认为哪个更反正我觉得大部分都差不多我倒觉得他是就整理出来总的能改过的他。因为大家也没有就没什么改。
【连云波】:玻璃终端系统成功终端特别因为我们。
【连云波】总的来说比上面是有进步了另外一个你自己最好再做一次跟上一次直接总结出来文档原文档。基本差不多了那整个逻辑可以先这么固化下来然后先用吧先这么用用但是就我给你的建议就是刚才那些建议就再修改一下我就差不多只能是这样那么最核心的几个都更改了第一整个的文字转写。换成全了这个我们就拿这个试试把这个专业分成将来做第二个周末之后做一个就你可以让直接生成那种叫全量版的但是不是逐字转写就是把核心主要的就是与其连贯的没有错误的文字。是作为以后的所有的书第二个就是在这个基础上做一次全量的主上下文的。prompt加上处理后的文档或一次性按照你的prompt的原则你把prompt就把skill全部写好。一定的里面去就是skill全部写到主一定的里面我就是把你等于把里面的所有逻辑映射什么这些东西变成一个skill文件。放到让主谓的去读这个skill这样试一次我觉得效果不见得会差我真的会唱。或者就拿这次做一次对比看看然后再拿我们这次生成的好的文字稿再做一次两个的对比这两个对比完了差不多就能够确定是主上门来处理全量。
【连云波】要有下背景的车现在我们有个直面我有时候也有问题的我对这个上面要求太高之后每个我觉得干干净净这是个直面。强迫症我一定支持但凡能够在主杀文窗口里处理好的就全部放在主持。因为我不是一个长连续工作的上下文进去或者叫工作进去如果是连续工作的你这方法一定是对的因为伤害会越来越低所以你看有个人前两天做了一个非常隐私的课程。强制每个四大背景只能工作支付超过15分钟的算全部中断然后把你的动作铲除扔给下一个词agent不允许超过15分钟。就它也意味着不允许超过多少都这样的人就乱了就我们现在人能连续工作八个小时还有一些都基本上连贯的甚至还可以跳到第二天他不行的。
【连云波】那这个就先这样所以整个整整体的这个处理方案大概总结一下来就是这样当然再去总结一下他们出现的宏观的这些问题的。共同点就是说地方案逻辑没清楚其实总结的目的总结出现的问题的目的是为了第一看看有什么解决方案就是让他自己修改靠prompt的修改还是靠人来帮他帮助他。知道吧所以现在他我们一定要记住他现在想完全脱离了是不可能但是人在什么地方给到最关键的帮助对它最有效的是我们需要思考的。
【连云波】那你比如说在会上强调1下p0p一这件事情对他帮助就很大为什么他这个逻辑是很难的事情因为你看他不知道你们每个人的。年龄不知道你们的级别工作时间长短等等都不知道情况下这些都作为我们的潜意识的上下文所以我们分配工作的时候的潜意识下文全都有的。你知道吧你工作时间长我给你分配的任务和你工作时间短所有内容不一样工作的优先排挤也不一样所以这些浅上下文它是没有的我们也没有办法给他。太多了也可以尝试着慢慢去给他把这些潜在上下文变成显性了就影视上下文把它显性化出来。但是也不见得就都对就只能进步所以他是在不断进步好不好所以就把这些问题提取出来看用什么样的方式帮助他。
---【话题需求Skill专家博弈流程】---
【连云波】:往下走。需求只有一个时间点加入了。
【闫旭隆】:我就全在全给你回头我家里来我们跟你说一下,但是哪里有个大的,应该做了一个非常简单的测试,但测了好长时间来回测,总算是。基本的保障它可以调下飞机。但是调用形式到时候我跟你说还是很怪,会是他的这么复杂。也不是死,就是箭头多,之前是到了,这就是这是之前的就用户的需求,先访谈,然后再选择进入评审,这是进入中间的评审。
【闫旭隆】然后之前是独立评审就是每个人自己做一个对完之后扔出来了扔出来之后就到这样就是每一个人专家会评价其他三位专家的评审意见。给出一个对因为因为agent它不太可能连贯的去读所以它就是在各自等各自的话。就是让他们都输出之后然后再教育它会加载自己的定义然后加载自己原先的评价就是自己原先的立场对别人他是其他三位其他所有。其他所有专家的评价都给他了对全量的。因此它这个比较。
【连云波】没有其实就直接一个大粗箭头所有弹出的你这样不清晰确实是真没听到当时只想着突出就是其他人自己的也在里面在a这个你要一个从箭头下就最准确了。下面一个也是大图箭头。下面是一个交他的回忆对其他人他自己的都不过来也过来那就还是一个大。是对所有都是全面的对然后就是评价完之后他会在那个jason里面就是写明这个这条评价是针对哪个专家的哪条目的。的评价ok然后你就方便。第二轮就是交叉回应的时候这个专家能知道哪些意见所以我给他然后再针对其他三个人假设三个专家都回应我给这个专家的评论专家评论一专家二专家三家我都给他。那这个时候你是把这个评论全部给到所有专家自己去选的还是说你把单都已经摘出来给他我没摘现在给摘了这个都还是全给他自己针对去读对自己找自己的就是根据提出。然后之后就一样回去之后就是决策就确认有变化我录了个视频也有结果就是看视频还是直接看结果吧我先看看这个不明白了我再看。
【闫旭隆】:这个是开吗?问题都有两个翻译,就之前那个翻译,经过多轮的翻译之前还有没有?有是有,但是他因为是两次实行过程,我给到他的判断和上下文可能不太一样。那你先看看先参考,为了对立对的感觉最好右边是新的。需要一个能够我终于看到了。
【闫旭隆】:我也不会。
【闫旭隆】它俩不一样倒是重复了你看了上次我就给他那个目标和价值怎么判断文化价值其实很难差不多的但是左边最大的好处就是它给了一个量化。给了个电话这个电话可不靠谱不知道等于右边量化没有了但是给了目标客户了用户风险提示了如果你看它里面。还挺有一些说法这可能这全是这一段告诉他的结构化的报告引用准确逻辑清晰回答清晰。现有不能支持明确说明不能提过内容这个是我给他你给他位置你从哪里给他Add something.
【连云波】:不会他右边更全面一点,而且你自己也给了一些东西,所以你说你上下文不一样,那就不一样了,包括他每次提的问题也不可能不太一样。
【闫旭隆】:你这就不是精神疾病问题。也是看你们晚上?也是这个,这里这也是我给他也是对,也是我给他。那就这边就不值得。
【闫旭隆】:跟我说我一般的这个跟他请。
【闫旭隆】:分析现有知识库。
【闫旭隆】:包括对外部的系统没有就是先分析现有的知识库就是之前增量更新好的那个世界模型,然后如果有的话就根据它去判断,再去生成研究任务。并行多数据搜索多数据就那些拍卖的什么?
【闫旭隆】:是它的增加是我在那个问题的时候选择了提问交互,我问他哪种组合方式。最全的,然后我选他给的最全的一个方式去执行。
【连云波】你想过没有你完全可以模拟一个这样的a组所以你不是可以搞你这样的话自动起来。然后太自动化了我因为你在测试使用的时候一定是他们用了那你们测试的时候。你给他一些为我们开发非专业以外的第一版的需求因为我生成第一版需求给到专家的时候专家会认为很有水平。因为你是专家因为第一版的需求很多他们自己也是你你通过专家指出第一版需求之后才能它左边有一个需求列表的这个对照就可以改。很好危险。
【闫旭隆】就是2.0出来说话的,有持续的。定是逻辑成员。
【闫旭隆】最后一个。Please feel. 可以吗这个a进的不管是你提出来的还是他自己就提出来了你提出来了。他是给了一些选项有选项他给了四个选项这四个都有就回头看录像可以。主席才会听说我分阶段交付这次他问了一下等会不一定分析完。他直接你就是主任的来规划有多特殊任务他也是给我这是。很好你看这两个都是唯一的我分析现有对都是这两个对所以这两个都是主。把对应的分析完之后给到它对然后接下来并行完之后我先分析就直接给分析了就先不回到主页上先不回。然后这里直接给分清了对也不回复了它更新完之后会回复这都有问题其实主这里面可能都需要做一。分析一点直接感觉对有可能那你要不要去更新知识图谱谁来判断这是一个很重要的分流流程。那么他说的飞机就更新了所以我觉得不一定它其实在每一个随意的之后都要做个判断都要做下一个动作就是对分析一点可能就涵盖在主页上。
【闫旭隆】我说这几天能不能再好好思考这是活动。这是问题。我们一个T。分析一些可能是他的特质。
【闫旭隆】:之前大家提出了一些,就是我给他给了我四个,我们都选。我得想对宇宙未来的。我觉得属性特别人体关系,它这个属性是主句一条。我现在觉得属性特别。
【闫旭隆】:看一下。
【闫旭隆】不知道吧。对。1.0。
【闫旭隆】:到过。这是我问他对大家对你给他的建议。说的有哪些?在你选择多一定的架构。需要多日子行动。有个问题不要提的问题,看题,这个回答见到后面说是领导系统。
【闫旭隆】:另外你们多专家评估的过程在后面,你那个刚才文档全部都是。
【闫旭隆】:其实我也。那我给他的方法论就知道他。关闭了。这是他提的那些接触过来。我觉得还都挺有用的,会提不出来。
【连云波】:确实我们建议你们这种情况下,如果有一个特别以我们经验丰富的人回答,这个会比我们回答的好,确实。对在第一版的需求的时候可以这样写的,到底怎么来的,模拟这个人,他其实是完全可以。这个生意比我没有那这个人可能没那么全面。可以的,你他这个主页键它没有做这个主页键的没有上来,没有做任何的定义,做好了一个需求的主上下的窗口。
【闫旭隆】:没有限定有我的方法论在访谈的方法里面放在哪里?我放在主窗口了,这个只做的以上的单词不是加载的,不是一上来就是它会先判断项目类型吧。判断项目类型完确认之后确认这个项目之后,就他就会加载这个项目对应的方法论,作为访谈的方法。
【闫旭隆】不对我还发现这个test something它需要输入完之后等一两秒钟再点进去否则它就会丢失后面。这是我新发现的点太快更恶心的很新装那个高的最新版本的G的它是不依赖你的STM不依赖那个。
【闫旭隆】所有的方法我发现啥问题你知道吗我第一轮对话总是不通的但是我把那个VP给了一切一起我那天你知道这个问题我找了多长时间吗它这第一轮总是考在那儿然后我把网络真我那天查了一晚上查了吧这个一页大概三个小时才把他们全部搞定太恶心了。来把他。
【闫旭隆】:就这些课题,那你最后也是不让他就自己做了,后面就让他自己做申请数理专家。身体也挺好的,饿了。然后就是交叉评价,每一个对交叉评价,每会注意的,其他的。其他的听一下。那你千万别的。
【闫旭隆】有jason文件对。你比较多就把评估evaluate你想看哪个对开发者对开发专家这条意见提出来的目标内容就是他开发专家这条意见的是什么然后他的command不同。
【闫旭隆】开发第二个开发的对那也是对台湾的。可能是我给他的一个总体指导是。我给他一个总体的指导是要根据不能背离用户的原始需求这是我给他的唯一的。唯一的方法论指导对评审方法论指导然后后面就是。我们分享上下文对my my command是他对target。但是。
【闫旭隆】他上来就都明确了他认为不应该明确。但是一些基础。这不是AI单间它能起的去哪里回家走都是对他需求就可以了。
【闫旭隆】:他就不是跟人家提的是。我们就是智能化。
【闫旭隆】:原来仪表分析?
【闫旭隆】:我们稍等一下。所以说建议在。
【闫旭隆】:高中肯定有较大差距,他觉得一些分析的问题是需要首先对比分析。我们就对比分析。不可以更加壮观的理由。智能化能力是重要的。
【闫旭隆】这几条不同的你想看谁的会Your box. 因为。
【闫旭隆】Not the the practical. 你要是别人给他提出来的格式。二楼不是有?
【闫旭隆】:你衣服穿起来舒服。你们在我们这里。
【闫旭隆】:我们签到最后好像是。你再看一下吧,我最后是要达到最后的修改意见当中去,对好,接下来得到了之后再去修改了吗?什么?有这个需求报告,他有改有不改,对我看看有很大有个干净的,你看一下那个视频。因为有一些输出。这个是一个共识。你想。能这样吗?你记得刚才底下每个专家都提出了好多项目,这是最后的。有一个不错的。
【连云波】还是不能多四个专家每个人我看至少提了有三到四个人都不止每个人都提了三到四个也就是他从来三个就是十个左右。50乘上四应该40个左右。你不是文读的可能不太全。
【闫旭隆】:大概理解的意思,但最终的还要再看一下我的意见,他怎么想好的?
【闫旭隆】整合我是把所有的上下文都给他把每个人的所有的对方每个人所的就这十14个。这四个建设文件我都给他对每个人的对就是每个人的评价和回应还有最开始的立场还有那个最开始的需求报告和用户的访谈需求都给他了。他自动整出来。最后就是14个就这么多文章都给他。我就琢磨他到底是第一加入这个环节之后质量提升到底怎么样是他认为分析点。各个专家在议论博弈之后的主要分析点让他用这种形式解除。
【连云波】:你技术验证确认不可以需在用户手册对把你留下来保留下来,这点。对。这可能就是要评估或者说判断一下有这个过程和没这个过程到底带来怎样的一个评分质量问,所以要把什么?你以后要把所有的干脆就这样,你下一次可以把他评估意见和最后的响应的打成一篇文档,把它整个的不要监测文章,你把所有的这些东西整成一问一答。就把他整了死行,对这样的话你就知道他这个发生了什么,专家这边发生了什么,你就看他这个水平够不够,如果评估的水平不够就不需要了。因为你我们是没看到响应的,或者看到他提问了,我们看他提问和响应的水平到底对应不了,如果对应不起来,那就没有必要增加。或者对应的不好,也没有必要,然后他如果对你响应的好,保留的保留分的扔掉,那最后我们看它保留下来是什么,然后最后在需求文档里体现出来的是。
【连云波】不然的话这过程没法确认客专家博弈这个我个人理解将来是一定有效果的但是现在的prompt可能没写好这个方面可能会有些好不太容易写的这是基于专家经验这个专家经验可能。里面可能要最后要几个就是你每个领域的专家自己把自己找人去把这个prompt给写了。或者去调查一遍我们调查一下所以这个定语这个agent是挺难的
【连云波】其实我觉得agent里面最重要的首先第一个你看他一定能说的不好听就这样文件对你这个MD文件写的好坏取决于。这是决定了他的能力的边界有的现在我感觉是它越来越智能了。现在真的是叫试错式你有的时候不能是预先规定他很多动作你预先规定之后他可能很能力就没了。你不一定太多他能力就没了但你不一定少了他又完全铲除不是你的需要所以很多时候怎么办我待会可以讲一下我的例子我最大的特点是。我就先看你犯什么错然后翻过头来我告诉你我要做啥很重要或者是必须做什么对你漏了我就必须做你做错了我让你不要做就是在行为规范的时候可能这么来规范的。而不是上来凭空想象才能做我想不出来。就这样吧那我这周就很没什么然后就这两个事情和什么。
---【话题PDF需求文档进展】---
【郝倩玉】PDF那个文件那个需求是还没到这边来那个已经都写完了然后人员也都确认了现在已经发给旭龙了那我们看一下等会回到那个。对照一下上对上周的工作计划每次回到上海周的会议纪要。更多的会议期间就是咱们刚才整理出来的或者说有人能改。
【郝倩玉】:下周工作安排。怎么没有用?
【郝倩玉】:自动化测试工具的一个决定。这个是得保留出来。
【连云波】:比较好多,你以前的会?知道吧,这个是你这样的话,你看你就会,如果你这个会议纪要我们开会是这样的话,你这个问题以后就永远会变成了。也在他的体现不出来,因为讨论也没讨论,会议转写里面也没有讨论,也没讨论这周的周报,你的周报里面也没有,所以这个问题就会被扔掉。
【闫旭隆】:仪表盘可能什么它没有,但是我用这个生成下周的会议纪要可能会有,你为什么会有因为我下周的会议纪要的逻辑是并集。
【连云波】:和周报取得一个定级,所以该有周报里有吗?我周末里没有周末你周末没有,你看你的周报没有这一周的会议转写也没有。
【闫旭隆】:对,但是它还有一个输入就是这个什么,就是这个上周的会议纪要的下周工作安排取了一个。你把上周的会议纪要里面的工作安排放进来,避免都没提到就扔了。
【连云波】你看另外还有一个我们的工作纪要出来之后和你们的日报怎么结合现在还没开始做好之后你们的每天工作安排也很清楚细化之后的工作安排。得留着不见得要做就不是立刻要做的。所以你看截止期间这些工作不能忘因为这个可能是我们以后非常重要的一个就我刚才你看我们做好多skill的反馈但是我真的觉得你skill其实挺难的就是这个逻辑文字的逻辑比程序的逻辑可复杂多可灵活多了。对你程序的好处是几乎你变成什么样它就什么逻辑都会变我现在不适应就a进的这个反应。远远超出你们程序规定逻辑他制度极高对它对于skill的理解。和你skill本身编排他对你他对skill的理解和我们人理解不一样。其实怎么去未来skill怎么怎么修改怎么去优化是一个很重要的一起先这样。
---【话题:数字分身需求讨论】---
【连云波】:下一个投资人在吗?
【江争达】:在的数字的就是根据上周连总的反馈就是不对联动的建议就是把那些。
【连云波】:你共享一下。
【江争达】:有用的保留有用的需求保留可能就是有一些不提到,就也是能可能默认能做的那些功能。大概就是进行了一些筛减。然后生成了一个需求文档。
【江争达】:首先就是项目背景和核心目标大概还是上周那样,主要就是下面这基本上都是进行了缩减。这个分阶段还是上周一样,就是第一阶段就是基础功能,第二阶段就是高高级点的功能,就比如说是什么。
【江争达】:高亮这些东西主要就是第一阶段?
【连云波】:我觉得是这样,等会上面就是你的分阶段的一些基础功能是什么和什么,后面的包括你在后面有规划说明还是就没了。
【江争达】:你说的是第二阶段是吧,第一阶段我是有的,但是第二阶段我这一篇文档里边没有我是我有一个备份,但是就是今天展示的就是第一阶段的。
【连云波】:第一和第二阶段。我电影都写。
【郝倩玉】:对知道了。
【江争达】:第一阶段需求就是我整理了五个,就是第一个是第一阶段的核心需求,整理了五个。
【连云波】:上面回头我看回到上面还没看完,直接跳走,你这是对因为你对上面那些东西对你都是有要求的。
【江争达】:从这开始。
【连云波】:陈总对吗?这个是我就说三到五分钟,这个是富友他们提出来的吗?还是元元提出来的?
【江争达】你那儿又卡住了是跟贤林老师那边对了一下大概是五分钟左右15分20分钟到半小时。
【连云波】五分钟左右是基于那说的我建议这个地方要加一下未来可能你做一个PPT宣讲你宣讲一般需要20分钟到半小时。对这个是对可对后续你得加进来或者甚至你第一版能实现就最好因为这个可能从技术架构上难度并不高。
【江争达】:感觉或许可扩展。从主要从开销上就是花费钱,对行,我因为我只做了一个后续可扩展,就是这个时间是可以扩展这个需求。
【连云波】主要是开销对技术架构上所以我觉得你可以先试一到30你三到五分钟肯定能做无非就是花销所以这个需求提的就不是特别准。因为100来年。是错了。20到30分钟是主要需求。
【江争达】:行吧,那我就直接行,我知道了。
【连云波】知道吧实现20包含在里面那第一阶段技术上不没有难就分阶段一定要分。这个实现你看你以为都很简单的需求其实都很多时候是值得讨论的你比如说像创始人讲解PPT你看何所书记讲话。
【连云波】或者是合作出去做会议这个发言或者我们出去做会议发言有时候就不用我如果不用我自己的话。我有可能就要讲20到30分钟。这个需求还很长存在的不是只有云大说的一个需求。
【江争达】:明白,那这个开场可能开场这些好像也不用调整了,我说开场这些应该都不用调整吧。
【连云波】:这点我觉得。什么。不用查。
【江争达】:好。
【连云波】:在数字人的后面的时间可以改?
【江争达】然后这就是一些布局的需求然后主要就是数字人和PPT内容的占比这个需求然后还有数字人的位置对然后第一阶段的核心需求。
【连云波】:这些都可以。对你看为什么是需求,我跟你说,因为这个东西你不明确了之后就是容易出歧义的地方。
【江争达】对我觉得它比如说数字人主导还是PPT主导这些然后就是第一阶段的核心。
【连云波】:对你不说清楚,就是有人理解不通。你是这么理解,他这么理解,所以这个就是要需求来明确。
【江争达】核心需求是第一个讲解时间和PPT同步。
【连云波】:我等会视频,最后你可以再出现一个数字人的在建的画画面或者视频。
【江争达】:我懂。参考开场画面。
【连云波】:一开始你出来有十分十秒钟的对真人的。
【江争达】:那就是等于再有一个真人直接说再见的那种画面大概。
【连云波】:这都是画中画了,可以是数字人独立的告白告别。好。
【江争达】然后第一阶段核心就是第一个是就主要是五个需求第一个是PPT和数字人口型的同步这是我觉得是需要写上去的。
【江争达】第二个就是数字人的窗口在说在和PPT结合的时候它是不能遮挡到内容的。
【连云波】:进行同步。还是有延迟的,对你们懂人气还不小!
【江争达】:喂。因为你那里就是十二十的卡,有的时候甚至就没声音了。
【连云波】:不是连连他你的网络?
【郝倩玉】:没有我选的就是你的那行吧,就那样,那我跟你说,我问你一下,你这个精准现在是靠人来调的?
【江争达】PPT这个现在就是11段就是一叫一页PPT的摘要然后生成。
【江争达】生成11段口播视频就比如说像上次会上说的就是一个PPT如果生成了五秒的摘要我就生成五秒的那个口播视频。
【连云波】:对同步是怎么实现的?
【江争达】:你你说你说的,你是指啥意思,同步是什么,实现是啥意思,就是现在是人工接的。
【连云波】:这里面有几个问题,我怎么用电话的网络真的有问题,我切过热点,我感觉我热点。
【连云波】首先第一个你说什么五秒那也是没什么好说的比如说一个PPT你让他生成了五秒的文。
【江争达】:又听不到,听不到。
【连云波】太费劲。挺好不行你就连guest四小时B段一次四小时肯定够了。听得见吗。
【江争达】:现在听得到。
【连云波】我说你比如说你这段PPT生成的口播文字稿怎么限定开始五秒
【江争达】我不是我不限定它五秒就是我生成了口播稿之后我先生成口播视频然后我根据口播视频的时间然后生成那一页PPT的视频的时间。
【连云波】所以我就说那你这一页PPT因为它的时间可长可短了反正就是放在上面好了他也不翻页你把录屏录下来就行了
【江争达】:可以这么理解。
【连云波】:人要在那自动翻页,还是人帮他翻页,就你录屏的时候。
【江争达】:人现在是现在是人帮他翻译等于对。
【连云波】:说我就是一段一段的?人帮的翻译?还是说我干脆我就定义好每一段视频的时长,比如火播视频生成之后,第一页十秒,我就在那录十秒。
【连云波】第二页反正这个20秒我就录个20秒或者是这个意思吗还是说人在旁边
【江争达】现在就是比如说我现在3页ppT三页PPT的话我录口播的这三页我可能要录。
【江争达】:三个口播视频大概?
【连云波】:知道了每一页就固定好,就他按照时长设置录好录屏,然后连检就是把它联合在一起?
【江争达】:对这个感觉是要优化。
【连云波】:知道了行吧,这个东西也先这样,这个训练我觉得后面肯定是有。优化的空间,因为在剪映里面好像是能自动拉长的,就每一段对每一段。
【江争达】:对对的。
【连云波】:每一段都可以自动的调整它的时长,我记得。
【江争达】然后第二个需求就是数字人的窗口它不能遮挡到那个PPT的主内容就是有些的内容是可能会出现在比如说右下角的主内容是。
【连云波】:到时候再看你们再试试。
【江争达】不能被遮挡有可能就是数字然后根据PPT的位置来做调整对目前人来处理。
【连云波】:你们得这是人来处理的?
【江争达】:然后第三段就是一个质量高的数字人的要求,然后也加上了你那天跟我说的就是老外不能出现什么一口流利中文这种让人觉得很假。
【连云波】:对你就典型的你这个只看树木不看森林了,你是觉得老外生成的中文很流利?
【连云波】:就很好,不是那样的,因为这在人的印象当中,这是一个不真实的事情,一个老外说的中文比你还流利,那中是真实的吗?
【连云波】:你一眼看过去**这个首先质疑这人是真是假,你就上来就让人质疑你,你好不容易想把它做真上来。第一个你就让人质疑你真假,你这不是本末倒置了吗?
【连云波】:你你的所有目标都在追求真最后来一个最假的表现出来。
【江争达】:对。
【连云波】:我们是不行的。接下来就是路程人,然后路程自己录成这个需要的人物形象之后,用他的语音来训练上面的这些动作型什么这些东西或者是来生成,看看它生成的质量。
【郝倩玉】:确实是有问题。然后你听不见了吗?江老师他就忽然的。
【江争达】:我摁了,但是你们那边有的时候摁的时候不收不到是个声。
【郝倩玉】:我们这我告诉你这个摁本身就有问题。对你看现在是好的,有时候是他那边,因为什么有时候麦克风没有回应的时候知道跟他谈话,有时候有可能。
【江争达】:不是他是腾讯视频,有的时候可能对这个词是他收的,会比较感觉不进去的感觉那种你的因为在现场。
【连云波】:但是别人的恩好像就不存在的问题。我说你上回是别人,这个反正这些要求先这么定义,说实话,你这些定义也只是给人看的,你这些东西也没也只能是作为你选型的需求,你没有办法改进它,你能改进它吗?
【连云波】:你选型定了你也改进不了?
【江争达】:如果后续作为把这一块就是现在这块视频不是基本上都是人工剪辑,如果后面把这套做成一个工作流的话,那这个时候就有用了。
【江争达】:你比如说对是只能可能是作为选型的要求了。
【连云波】:我指的是你画面数字人的要求。对现在有没有出现那种可以微调可以训练的数字人?
【江争达】:这一块目前还没有研究过多的研究要研究一下。
【连云波】:这个地方你你们要去找一找就是终极目标,可能就是要么是它生成特别好,通用模型生成特别好,第二个。
【江争达】:行。
【连云波】:要么自己微调。
【连云波】完了所以我觉得另外一个你再试试那个gemini那个Vo3.1看看,但是它现在生存比较短,他那是完全空就是。
【江争达】可以然后第四点就是数字人和PPT的风格就是一致性还有一个是模板化就是可能要多次使用的作为我是想后面做成一个工作流什么的。
【连云波】:自主生成它数字人还没有行吧。
【连云波】:我问一下现在比如说你,你说的很对,能做到,比如说我的衣服,我给你一个一段我穿白衣服的拍的视频?
【江争达】:然后,这是第一阶段的标准,对这是在平台里边就能做,就是那些软件平台里边能做对。
【连云波】:比如说现在你要换成蓝颜色的就是直接现在视频里能把它换成蓝颜色的,我记得是在视频里面数字里面。另外还有一个方案是什么?就是你首先你看拉诺现在不是可以直接生成一个人的这个衣服的合成了?
【江争达】:然后这是第一?
【连云波】:你就是还是图片生视频,这个图片声视频你们看看给他一段文字稿,然后给他一个衣服。
【连云波】给他一个人的头像或者是照片看看他能不能生成一段口播的视频稿The video video.
【江争达】就是用Voe试试RVU对好
【连云波】5v13.1,我感觉是有可能生成一段口播时可能时间。
【江争达】Vu3.1是不是升级了就是在我之前测试Vu3.1的无声视频的效果中VEO的表现没有那几个图声视频的效果好的。
【连云波】他现在统统拿出来之后他视频的那都是都升级了3.0pro出来之后都升级了。
【江争达】:行,那我再试一下好。
【连云波】把那个我觉得你可以再试试我觉得他现在的水平还挺高的就是如果是这样的话为什么我说banana下面就或者说3.0pro可能是一个。一统江湖了,就几乎所有事都能干。
【连云波】:知道吗?他几乎所有的事情都能干。
【江争达】:明白,我试试后面就是一个质量标准就验收标准。
【连云波】:可以行吧。
【江争达】:说非功能性需求,我就写了一个就是好。
【连云波】:不让我再下一把验收标准的。你认为有一个很大的问题,你的人的动作手是没有可以。
【江争达】:对我本来第一阶段就是不想要太多的手势动作的,我是想规划到第二阶段,你有。
【连云波】:李晨你前十秒和后十秒没有动作肯定是不行的,你前十秒人呆呆的站在那讲,这是有问题的。
【江争达】:是电影什么关系?
【连云波】:你至少有个手势也行,没有躯体动作也可以,你手的动作得有。
【江争达】Seen that. 这个就是非功能性需求了就是输入什么PPT文件然后导输出的是。
【连云波】:你看看怎么弄好,我觉得你这个标准里面要把这个手势至少先加进去。
【江争达】是一段Mp4的文件然后使用范围介绍一下大概就这么多这个这是然后约束条件就是反正就是首先看效果其次先不做那个预算的上限。
【连云波】:负责人可选?还有一个我就没提到,非算是半功能性需求,就使用界面是什么,就你们现在是自己在那捯饬半天生成这玩意?
【连云波】:就以后怎么给富有他们用的?
【江争达】:我懂了。我明白了这个这块的话,我后面再整理,现在目前我们也在调研阶段,调研完了之后现在有两个方向,一个是通过。
【江争达】工作流或者说是通过API调用还有一种方式就是让他们在比如说这些平台的网站上直接生成这个方案这两个方案我们还要对比因为现在API调用这块我们用的也不是很多。
【连云波】:对要看一看。
【江争达】:对,然后这块基本上就是我们的选就是我根据那个西平给我的一个调研文档,然后我自己又确认过了的这个结果大概就是这样的就是。图片是生成的费用。
【连云波】:就是一分钟?
【江争达】:对这都是按一分钟算的。
【连云波】:可能这么贵,寂寞可零基本都这么贵吗?数字人类这有问题。
【江争达】数字人对因为我也去看了一下他确实积分确实挺贵的就是它是按秒算的。也基本上是一120也是一样但是我数字人生成的费用。
【连云波】:对一般都是那数字人不一样,你要说生成那种?数字人其实没有那么多计算量,对你直直接就是文字生成视频还贵,我感觉差不多了。
【江争达】:我也去看了,确实还真是差不多了,已经差不多了,对百度就是我们现在不确定它这个最高视频是多长,只是投放了一个就是四分钟的。
【连云波】:百度西。所以我就让你去看看百度。
【江争达】那个音频给他就能生成四分钟的视频但是具体它能生成多少网站上说是可以给他录入90分钟的音频但我们没试过。先只能写成四分钟最少。
【连云波】API好像比页面还便宜。
【江争达】你故意对你说百百度的百度的是便宜的对百度的是按他是按分钟包的就是说你40块钱可以买十分钟的。
【江争达】分钟就是你就是它是这样付费的就是你40块钱买十分钟然后你用对但这个跟那个就是说。
【连云波】:推荐会员的平台上是免费的,你当你你要买两个什么数字人的授权?
【江争达】:我现在做的调研是用公开数字人生成的,如果用定制数字人生成的话,这百度西林的我还没。
【江争达】还没把那个文档呈现就是百度西林如果做定制数字人的话好像一个定一个数字人要1000还是2000块钱然后再生成那个视频然后生成视频也是要钱的。
【连云波】:对。
【江争达】:但是黑镜就他就只收那个叫定制费,你后面用那个生成好的视频再生成好的数字人再生成视频的话,它就不要钱了。
【连云波】我觉得他说目前的最最大可能就这俩了前面不可能考虑的好知道了另外一个Vthree再看看。
【江争达】:大概是这么个区别,对好,我再看看。
【连云波】123.1你看看其他也就差不多了,数字人那块,说实话就我们能做的工作很少,基本上就是。
【江争达】:好。对就是你要花那个大精力,就是说按照网上就是你上次不是给我推的那个就是搭那个工作流,但是其实它那个搭工作流的那个效果,我看了它其实也是就是说基于那个模型的能力。
【连云波】:靠平台是靠什么这些东西?
【江争达】它是把你的先把你的图片也好或者说是文字也好它通过提示词然后或者说先通过一些。一些比如说叫什么来着一些能提取什么人物结构脸部信息或者打点的那些模型先提取出来之后再给一个比如说开源的模型就像那个WAN那个2.2那个什么模型一样。你再给它,然后它再生成你的圆还是基于那些模型的能力,但是就是我大概看了一下他们的测试效果,其实还不如这些。
【连云波】:没有。
【江争达】:收费的平台。只是定制化的程度很高,比较精细的控制,但是你最终生成的效果其实差不太多。
【连云波】:你还没用不到你现在这些需求,你现在的这些需求还用不到你比如说大幅度的身体动作。
【江争达】:对还没用到对的。
【连云波】:你就要用别人来控制,你要靠个人或者一个视频来,你模仿一个视频,你让他自己生成是没戏的。
【江争达】:对我知道。
【连云波】:生成不了那么好的,你比如说你把一个视频发上去给他,然后让对方迈克杰克逊跳舞的视频你发上去,你说让你也跳这个舞。你现在通过这种通用的视频,你生成出来效果是很差的,知道吧,你理解吗?但是如果你通过那套工作流把你的。
【江争达】:能理解。
【连云波】:杰克迈克杰克逊上面视频的每一帧的骨骼关节点全部提取出来,把它骨骼关节点变化这个逻辑映射到你的身体上。生成的视频就比你要准的多得多懂了。
【连云波】:对所以我就说你还没用上,你就说那个视频那就不如他好,在你这可能是这样的,因为你这个是最简单的明白了不?
【江争达】:对明白。
【连云波】:就是你以后要做真正的视频动作,那就完全不是说现在普通能生成的,对于动作的精准控制你比如说很简单,你。
【江争达】:明白了。
【连云波】:你两个人,比如说这个互相那个这个动作的视频,你比如说你去看现在的武打视频,你的武打视频,两个人如果是凭空生成的话。
【连云波】:有时候会出现很荒谬的动作,你这个人能从他的胳膊里面一长就削过去了,知道吧,穿过他的手臂了,明白吗?
【江争达】:对我理解你的意思,像你说的话,如果你通过一个平台生成,你比如说你是控制不到每一帧的,但是你你如果通过工作流生成的话,其实它每一帧的生成效果你都是。
【江争达】:可见的是更适合更精细化的控制的,对的。
【连云波】所以我说你根本就没用上的所以你说他还不如这个平台那是因为你没用好第一个你这个现在的就过于简单用不到这么就杀鸡不用牛刀。a lot但是就是包括将来我就大大规模的或者说这种精细的人。AI电影的制作肯定是要用到的不然的话你出现的动作就。
【连云波】:很难控制你,比如说你生成一个,比如说未来能生成一分钟的视频,一分钟里面出现三到五个这样的镜头,你怎么改,我问你,你就很难改,这时候可能就要把这个镜头拆出来。
【江争达】:对我知道。
【连云波】:把这些镜子都拆出来之后,然后用精细化的方式去控制它。
【江争达】:明白它就等于后面,如果更精细的话,就是拆到一帧一帧的图片,然后其实它是生成一帧一帧的图片之后,然后把这些图片再生成视频,这样就是最最准确,最精确,最准确。
【连云波】:里面反正有很多问题对。对知道吧,所以再说,你这个都后面那个什么内容多着?
【江争达】:明白。对。
【连云波】我们我估计我们可能用不到这么一个功能到时候看吧那就先着那就先把就是可灵的要不先把那个百度的70的。和这个黑的尽快再做一个样本出来就是根据我上次给你的要求就用自己的人训练一个出来就花点钱赶快用自己的人训练出来这周最好是这周末就出来训练出来之后我们就确定。
【江争达】:知道了。可以好的。
【连云波】:到时候能不能用另外一个就是你现在那个人动画的制作,因为合作会不用了,时间问题可能来不及了,或者他现在还不太想用这个技术,但是我们得。
【连云波】:得把它做好放在那儿生成这种动画视频怎么做?
【江争达】:动作替换的那种,说是什么。
【连云波】你比如说他可能不是上来做PPT的他就是有大幅的是比如说要行走的动作有打招呼的动作等等这些。
【江争达】:对我知道了,那就是等于动作替换那一块再研究,然后包括把我们真人的换成动作替换,或者说是。
【连云波】:大幅度的。动作替换是动作生成。
【江争达】:我靠我考虑考虑,因为有两种方式就是一个是动作,叫你就像你之前跟我说的两种方式,一个是动作。
【连云波】哪里来的替换最简单的肯定是方便的动作生成它因为有很长的时间现在你得看有那种就比如说类似像vuthree什么这些好多包括可能也都有那种动作生成。
【江争达】:对。可以。
【连云波】就是动作视频上的你就打招呼上来走给你你把整个的你这样我给你个建议通过js给你生成分镜头脚本。所以你给他一段比如说谁我要上去上台之后什么样一个要求然后什么样的一个背景你就比如说你的镜头机位怎么运转那这种情况下你给他一个分镜头脚本比如做一个两分钟的分镜头脚本出来然后你给到Vthree或者给到什么
【连云波】:模型分段生成就好了,或者甚至你都可以把分段的图片都先生成。
【江争达】:我是。
【连云波】懂吗你可以通过nano把分段的图片都生成之后再建利用首尾帧再生成图像。
【江争达】:好。
【连云波】:把它做成两两分钟的合起来的视频。
【江争达】:理解。
【连云波】理解吗。这个流程基本上你就可以拿这个虽然我认为这个G是可以做到的而且做的会比其他都好它对镜头的理解和分镜脚本的生成是比一般的模型要做的好的视觉现在没有能超过它的。
【江争达】:行,我试试。
【连云波】你抓紧时间把这个测试一下就是GMS生成分镜头脚本加上分镜头的图片然后把再通过vuthree也好别的什么也好再生成视频通过分镜头和图片来生成。
【连云波】:通过分镜头的图片加脚,本来生成视频的工作已经有很多模型可以完成了你之前也测试过?
【江争达】明白好的那我大概理解你意思就是你用用就用3.0,就是把那个分镜头的提示词也让它生成图片,让它生成,然后再找个地方生成视频。
【连云波】对你也可以找vuthree做你也可以找这个其他模型做我说你明白了你看你现在才明白刚才你说明白不是真的明白不明白你就问不要到时候拿回去又走错。
【江争达】:可以明白。好。
【连云波】:这是我看到目前可能最有效的路径了。这个收尾针生成这个工具已经很多了,收尾针视频加上这个文字给他之后那首尾的那个图片给加上文字给他生成视频已经很多了。
【连云波】:但是就看这个能力,就那天我不给你测试过,你还记得我给他一张图片,然后给他一个文,然后那是两张图片吧,你还记得你给我中间切了一段科普的那个老头,加上那个最后医生,你还记得他自动给你生成一段视频,还记得吧。
【江争达】:对。
【江争达】:对我记得知道了。
【连云波】:那个效果不是已经很好了吗?你那个图片很好的话,它生成效果会变得更好的,你的图片本身质量就不好?行吧,先这样吧,根据这个两就是总结一下第一生成视频样本,这周争取把它做完!
【连云波】:视频样本训练拿我们自己真实的动物训练出来的语音和视频,这是一个第二个工作流,你自己抓紧时间看一看。
【江争达】:好。
【连云波】用什么样的工作流大家如果API需要用看看怎么用API如果不要用直接操作网站怎么操作或者剪映这些自动化工具你怎么用整个工作流你你你抓紧时间再研究一下。
【连云波】第三个就是刚才说的通过这个gemini3.0把整个的视频的分镜头的脚本和这个图片包括这个提示都给他生成之后找。两个平台试一试生成的视频效果合成的比如说不一定需要两分钟合成一分钟的也行或者30秒的都行。
【连云波】:行吧。就这样。你这里有什么问题吗你们?
【江争达】:目前数字人这块吗?没有,还没有?
---【话题:问答系统前端重构】---
【连云波】:你回到什么,你下一项工作,仪表盘一楼仪表盘打通。
【郝倩玉】011等会儿要不要再说把前端重构再讲一下。
【江争达】:我还没有完成,我只做了一半,但是我是你要不先看一下我这个方向?
【连云波】:谢谢。
【江争达】:行吧。就是我前端重构,我只重构前端的展示部分和代码结构就说保留现在前端的一些基础功能。首先这个目标是我觉得是没问题的。
【连云波】:流程不动是对的,先不动,后面再说,我建议你在重构的时候就考虑到下一个版本的交互逻辑的更改。
【江争达】:功能行。
【连云波】:不要到时候又这个什么叫什么,这个架构调整又过不了,或者要重新修改了,要增加好多组件了什么的好,你最好把下一个版本的功能的需求。结合这次重构一起考虑进去。
【江争达】:对。对,然后下面就是当前的系统架构,然后主要就是改这个前端后端其实就不动,但是就是前端现在。
【连云波】:对我建议你这样你后端都不要动,你后端不动,但是你现在可以拿。
【连云波】office4.5或者拿code把你现在的后端代码审查一遍。
【连云波】你先不动他然后先让他提意见看看审查出来有多少问题慢慢重构。Alot. 但现在不要急着动,先让我们走一圈,比如说审查你这个代码有什么问题?
【江争达】:明白。
【连云波】最好你你上去找一个agent或者找一个skill网上很多后端的这个代码审查的叫code review你找一个code review去做一次审查。
【连云波】:审查出来的毛病记下来之后再说,到时候看看把这个毛病记录下来之后,就相当于需求文档,到下一次会议的时候,我们看一眼需不需要修改,如果需要修改,我们就让他帮他修改,但是前前端的这些备份什么做好就行。
【江争达】对。对。行知道了然后这块就是下面这块就是API的接口规范就是然后包包括就是输入输出流这块是这块我是确认过的就是我之前拿那个。
【江争达】:之前的测试文档,然后生成的内容先把这个接口肯定要固定好,接口不能错。
【连云波】:可以比如说接口规范文档?
【江争达】:然后就接口问对接口规范文档对就输入输出等于说。
【连云波】:是务必要遵守的?
【江争达】:对必须要遵守的。
【江争达】:然后第这一块那就是接口就不太细讲了。
【连云波】另外一个我建议你你不是的你你肯定也是用大模型做出来的这个方案我建议你这样你让他用你用research也好或者用GPT的research也好你让他给你一版关于前端重构的方案以及注意事项。
【连云波】:看看跟你现在思考。跟你思考的,它有多大的不同?
【江争达】明明白我一开始是让GDP给我写过一版的对我行知道了。
【连云波】或者把你这个方案给他让他研究你这个方案还存在哪些有什么值得借鉴的或者有什么问题你再看看是不是值得思考。另外我跟大家说cloud4.5cloud这个幻觉还是很高的。就是在文字回答上的幻觉是相当高的所以gpt5.1可能比他靠谱所以就是你们日常的问答还是以5.1为主,可能会比较好。
【连云波】这个4.5的幻觉还是蛮严重的。包括。
【江争达】明白我这边就是我这大概的一个思路就是先跟GDP对话完了之后再做一些在做的。
【连云波】PPT稍微靠谱一点现在你是不是接不到也稍微好一点你现在可以这样你用这两个做一次校验试试下次。
【江争达】:然后接着往下讲就是第四份第四部分的功能清单就是我要保留的哪些功能,然后功能模块。
【连云波】:另外一个你写的这些东西去对一下你之前的那些流程图。或者你得审核一下他给你的这些建议和你的流程图是不是对应的?
【江争达】:明白就是我等于我其实现在还在对因为没对完我就没那个接口对完了,然后功能这块还没对完,就包括就是要对完流程图,还要对前端的功能就是不是这个功能像他说的有。像就要都对清楚了之后再往下做。
【连云波】对。所以你就让他给你做100这个简单的对比对照之后然后看你再看看他说的有没有对然后再通过你人来审查他的输出的这个结果。
【连云波】就是人以后90%就是功能了,提要求,然后审查结果要求提的越好,一审查的越轻轻松。
【江争达】:明白。对我们看着。
【连云波】:另外一个你经验做的越多,你审查的越准确,就这个。
【江争达】对我还后面就是可能还要涉及一些比如说我要不要提供它样例代码这些就是我这块的话我还没跟GDP沟通后面就还没做完等于。
【连云波】:我建议你想提供一下我的经验示例代码还是挺有用的。
【江争达】:行。因为我考虑到这个我还没确定我。
【连云波】:前端重构你前端重构的话,你现在都重构了,就是逻辑代码,这些肯定都要的,那你前端重构大部分都是视觉的东西,你给他代码示例有用吗?
【江争达】:我就是想提供,比如说像跟后端交互的这种逻辑代码,对好对我明白。
【连云波】:你本。我建议你提供,有时候他会自己就是你提供他未见的都遵守他自己处理起来还是挺什么的。好。
---【话题Skill调用机制测试】---
【江争达】然后就切到下一个就是上次你周末和我对的就是skill调用的教学好的。
【连云波】:可以给大家讲一下。
【江争达】这个主要就是针对那个skill怎么就是说调用全调用自定义的到底是那个项目级的全局的是怎么怎么和他。就是叫交互功就是怎么调用的这个效果的一个的叫什么调研文档然后首先主要就是为了搞清楚那个skill它调研那个。
【连云波】:听到了。
【江争达】全局下的agent可用还是调研项目级别下的可用最后的调研结果就是。
【连云波】:不是调研,是调用走吧。
【江争达】首先subagent的定义是统一的subagent的定义sub的提示词就是本次测试的。那个prompt就是没动动的只是切换
【连云波】说不清楚算了我来说吧你这个说的根本就重点都丢的100分之90的重点全都给你说丢了知道吧有些首先第1sub的作用是什么就是为了做上下文区分上下文的隔离。
【连云波】那么要看究竟这个我们这次调用有没有起到这个作用。两个第13边形的调用的时候我的上下文是不是真的减少了那这个确实是我们测下来只要你调用三边形的确实上下文是主窗口上下文是减少。
【连云波】使用是减少第一怎么验证第二个怎么能证明我们这个是被调用了或者在全局下被调用了或者在子项目里面或者项目下也被调用了。因为有的时候是什么这个出现的问题是什么就是subagent在子项目下调用的时候。会出现一个什么他会读sub的提示词主窗口去读它只是作为一个参考文档。而不是自动的实现了一个没有它的问题而且有的时候很怪的就是你他没有用这个里面好像就有个问题点就是他没有用task掉他有时候也能够。
【连云波】实现上下文的隔离很怪这是怎么实现的我们到时候再说首先第一个我们出现的发现第一个现象是什么就是他会去毒杀背景他读完之后会把上下文里面加入撒贝宁的一些要求但要求并不能完全实现。所以为什么会加入那个里面任务流程里面那上面那个定义没什么好说的我们会不会加入read因为这个read这个文件很大就只有这个我才能判断出来是不是加入了主上下的双下主窗口剩下的如果你是读下来的只是把我作为一个相当于skill一把上下文全部读下来了并没有按照的方式去调用。那这种情况下你读的就是站在主窗口上的主窗口的那我现在就这个因为这个逻辑很不合理为什么加一个read在里面那目的就是要测试这个。这个就是整个项目测试的背景你背景不交代那你有同样的问题又出现了你不一定不交代。
【江争达】:我背景是没交代清楚,也不是不交代了的就是这个背景。
【连云波】:那你教的那个背景谁听没有用,对我下面理解问题几乎没用,对你没有交代他的核心的诉求和问题点,你要通过这个文档解决什么问题?
【连云波】你的核心诉求点没有说出说清楚所以我就说你需求文档分析是问题很大的因为你不站在其他人的角度去思考你其他人听不懂你讲什么的。如果我不把这段补充上去我根本不知道你要干什么懂了吧所以你去跟上下文去跟大模型交互的时候他90%听不懂你讲什么的。
【江争达】:没说明白。
【连云波】:给你的答案就是很糟糕的懂了!所以同样一个人来问,解决同样一个问题,能够达到的答案是完全不同的。
【连云波】懂了吗如果我刚才我就举现在这个例子好了就我没有刚才这段上下文的补充你们其他几个同同事你们没有一个人能明白我接下来要说什么和干什么。我告诉你我干了什么你也理解不了。Available. 这就是表达能力就是提问题表达能力的重要性,没有你们跟大模型是没法打交道的。
【连云波】:再三跟你们说清楚。往后。
【江争达】:以后这种背景说明可能要特别详细才可以,就是我是想了。
【连云波】:你你可以给人的时候,你不用那么详细的,你可以嘴巴说,你给大模型的对你你大模型的时候,你就必须得写下来。
【江争达】:对有时候说不出来,你像我说不出来的,我可能就先写下来。对没有行知道了。
【连云波】所以你你准备出来你没人看得懂的明白吗你这种文档交接你没人看得懂的我首先第一个你你弄个read在里面谁也听不懂那三个read在里面干什么
【连云波】:第二个,你为什么要测试的东西都是已经现成的既定的一个规则了,你为什么要测试,我们在测试当中发现的情况是什么?它可以去调用这个项目子项目当中的三倍镜,这个是很怪的,那么它是怎么实现,等会在那你继续讲吧,我把这个给你补全了别人才知道你做的东西有没有价值。否则你是没价值的目的意义不清楚。
【江争达】行吧那就主要是分两个就是两大块一块是你subagent在全局下的调用还有一块是你在项目下的调用。然后在项目的下的调用的话要分两个场景然后全局下的调用就分一个场景然后一共是三个场景。
【江争达】怎么怎么搞那我就先说在全局下的一个标就是在全局下测试的场景这是第一个场景。第一个场景的话就是首先那个skill都是项目级的就是SKILLMD都是项目下的第一个场景就是用项目下的skill然后调用全局下的然后看。
【江争达】看skill最终的一个调用效果是SKILLMD的一个就是叫prompt它的主要作用就是启动。一个叫11个生成流程图的一个33维金塔就是它只有一个提示词只有一段提示词。就是看用skill调用这个agent的调用能不能按照。全局下的prompt来执行任务大概就是这么个意思。
【连云波】肯定行我也我用了这个之后那么另外我给你建议一下就是那个视频上方就用task启动是。很不标准的语言它有专门的task那个语言跳个规范的以后我建议你用这个规范来调用。
【连云波】这种用语言描述他能理解不是不能理解skill里面反正主上海门他一听到它确实就会去启动但是不规范有可能会造成视力对。
【江争达】那就先看第一个视频了。你们页面清晰吗这样展示的。首先saas是在全局的agent目录下然后项目下是没有。项目目录下是没有这个skill点MD是这个内容这视频的这三款然后就开始跑这个skill。
【江争达】不是让这个skill来执行任务cloud窗口就在这开的就是在这个项目下就首首先就是先看一下它加载了加载的是不是加载的是哪里的
【连云波】:你这个卡的窗口在哪里展?
【江争达】:这一块就是说它是加载的是全局的,就是用户级的是项目级的。
【江争达】skill的sub是这样你是我之前写的但是你可以不关注。
【江争达】然后让他执行的任务就是用用这个skill用这个skill生成那个流流程图然后流程图的。那个过程流流程图的流程就是一睡觉二起床什么什么然后再加一句并总结文件这个并总结文件要想对应。刚才的那个萨贝进的功能就是你在你的你就是你在你的要执行的任务里面也加一个就是并总结文件看他能不能按照那个。撒贝因特的就是萨微镜上能不能收到了提示字之后然后去生成一个就是读。读需求文档不读会议纪要的一个功能。
【江争达】就是测试结果首先它是生成了两个文件一个是总结的文档就是点MD对着那个叫。
【江争达】它首先是生成了就是按照sub的要求生成了就是读这个会议纪要然后生成了一个总结文件这是第一个。这个。但它这多了一块就是流程图的一个说明。他也把这块给总结了。
【连云波】:因为你说了实验并总结文件知道吧,那你总结文件就是把你这两个任务全部总结了,因为你那写总结文件就是写的是不对的,知道吧,所以你看提示词给的不准确。
【连云波】:你你你测出来结果就是不对的,所以提示词你们脑子思考能力不到就是容易出问题,但这个是对的,就人家执行的是对的,是你提错了,知道吧?
【江争达】:明白。是结果的流程图。这是在那个全,这是调用全局下的。
【连云波】等会儿你把视频拉到恒泰瑞的那块。so the context那块再往上看到没有它这个read是出来的上来他就做规则就是他把这个第一步执行了再拉到那一块。
【江争达】结束的context
【连云波】执行完的状态来记住那2.9。他读的那个一定被删掉。无论我能运用的三倍。但是你看到没有它并没有写task。并没有这样往上你你看那个执行流程上来还要读这个就是这种test启动的没有。教育的时候会应该起一个task。The task. 每每一个不是我告诉你有的会启动的。我这都你从来没遇到过我从来没是不是windows但是都不一样我会有task我就从来没有task的这个字我那会出现task但是不出现task的时候也能调。对这就是冲击的地方他有时候在这地方会写一个task然后括弧但他确实是调成功了他确实是掉了但是我有的时候就看店里面不清楚他怎么样才能进入上下文什么不进入上下不管他。
【江争达】:对的。
【连云波】这个说明白了这个是主的你们理解了吧这种放在全局a镜的下面的。
【江争达】:这是煮的是调用全局印上的煞白。
【连云波】:然后来。再往下吧。
【江争达】:第二个就是这两就是场景二和场景三都是调用项目下的好,那就直接说那场景二。
【连云波】:行了明白了,你都不要费那么多了,你说话太费劲。
【江争达】场景二的skill点MD和场景一的就是刚才的skill点MD是一我对只有位置不一样然后那个提示词是一样的就是都是这一句然后是它的就最后的测试效果。
【连云波】位置不一样对。一定要给它掉你这两个场景有啥区别然后你就是agent的位置不是他这是项目下分两个场景。
【江争达】:一个对向往下分,两个场景是这样的,提示词不同,一个是绝对路径,一个是默认的路径就是这儿。
【连云波】:时候木头。
【江争达】:这儿有区别,就是在这加了一个绝对路径,然后调用证成功了吗?绝对路径的调用成功了。
【连云波】:哪个掉的差不多了?直接指到向下这边怎么去成功,但是我觉得有必要看一眼什么看一眼他在这个非绝对目录下的调用就没有指定目录下的调用的这个执行过程就很怪。
【连云波】:就非常怪,别跑,你往前拉,往往前往后对推到。
【江争达】:王后读。
【连云波】:推到他就。你这个场景多少钱,再推一下,你看好就这开始下吧,放吧场景二吗?
【江争达】:就这好。对这是场景二。
【连云波】:他也会去读你这会显示毒吗?
【江争达】:好像是会的我忘了是我看我记得是读了没生成。看一下。
【连云波】对我你加快一点你看不到你这个场景二项目上有a选C然后那个就是right要吗
【江争达】这个场景下是项目下有AS然后全局下没有A。
【连云波】:出现了,还是放在后面了吗?到底是?
【江争达】:这好像读都没读。
【江争达】:等一下先看一下这个流程。他就没读。这次测试他就没读他读都没读。
【连云波】:怎么了。对,但是它也是启动成功了吧?
【江争达】:不是它启动成功和它最终执行的效果还是不一样的,就它启动成功,我觉得是有两步两个方式,一个是他读。
【连云波】:因为他行动成功了,他没有按照平行。
【江争达】那就很可能是把你的那个agent的那个prompt读了然后他带上那个提示词去启动了一个subagent但是它启动的不是你本来自己写好的那个sub。
【连云波】:就没启动三倍金的他为什么要启动三倍金?
【连云波】只有那些对怎么可能自己他怎么会自己启动你脑子里怎么会产生出他自己启动一个设备这个是你商量我就看出来了吗算了吧。你这里面有context吗命令你敲了吗
【江争达】:你你这你在看那个很难?有在后面等一下。就反正就是最后生就它只生成了一个流程图。
【连云波】:有结论吗?你这个就是他上下文站的主窗,还是你看他没读,所以看不出来,所以我跟你说,你这个没有复现出来。我们去读过我们,他自己确实读过它会启动不他最后没有支持。没有觉醒,对他有读动作,读完之后也没进,也没时也没有去总结。所以就压根他。他们自己就把这个动作给不要了,他一看不对,不需要顺着他在判断的时候,他认为生成流程图这件事情不需要做。是不是可以他们这个水平的指标对你其实是就是这么要求的,但是他肯定的是你其实要求之后,他如果再用三倍镜,他也会总结。
【连云波】sub背景你现在读完之后他发现你主题是没有他只把这个sub背景的弄之后他就忽略了你的跟它不相关的东西。它只有自动的去组合和主窗口的它智能的判断我这个条目的到底最后是啥所以这个研究我觉得挺有价值的我对我们去理解。
【连云波】A级究竟怎么去组织还有行吧再往下一个走那就是绝对路径调用是正常的
【江争达】对就是绝对路径就是改了skill的。
【连云波】别的目的我们测了大概七八次你我那天测了45次我让他后面做测了几次所以我每一次改了绝对不行就有我们也担心他有时候能读有时候不能读。有时候就表现很稳定。
【江争达】:我后面测了两次都是正常的,我就没再多测了。你看。
【连云波】就意味着它放在绝对工作下是可调的商务部不错的在公车了也有56次。几乎没有成功过。但是有的时候会出现读这个动作然后来读。这个问题是怎么出现的是因为待会我告诉你我做PPT的时候。甚至的反应所以我就要求测试我自己在做过程我就不对就稍微有问题我觉得时候有问题挺奇怪的那官方说那加载到。空调好漂亮的只有那些出去。
【江争达】没有它yam源也加载就是S的yam也加载了对你看吧这不就是yama的数据
【连云波】:那个样子有数据对,但是你项目对阿里来说没有路径吗?官方没有提到了。按理来说,相对路径和绝对路径对按理来说。
【江争达】:就你的理解就是相对路径和绝对路径其实没有区别?
【连云波】:得通过来走官方他们没提吧,我们研究了好几遍跟你说,等会再说我的送回来了。
【江争达】:对我本来我也是觉我本来也是觉得没有太大区别的。
【连云波】:你在干。
【江争达】:你说啥。你那听不到?
【连云波】:听到。放完赶快抓紧时间。不要离太远了,跟原有关系,可能有关系,变成六人,那这个是不是太差了,所以我本来都用我的这个。
【连云波】:苹果电脑。我想起来。
【连云波】一个最最大的问题是你的这个视频声音效果就不好了你的话筒包括那天你用我电脑你那个电脑纯电这个还行也还行。那他这就是read了他就遇到了这么多行之后你往下再走最后你给结果就行了他只要有这个动作出现就行。
【连云波】最后生成了纪要。同时你再看一下context。
【江争达】那你先看con。
【连云波】:你说。我在开会。我上午不是发了吗?群里面?
【江争达】:这不是。
【连云波】个半小时20分钟半小时。所以你看这个context是进入了这个里面没有进入窗口
【连云波】我们还试过一个就是直接在主窗口里读确实上下文占掉所以就也就意味着他统计是没毛病。我的理解是什么他在给到决定目的时候它确实是能够就不给绝对目录。他去搜的时候他可能搜不到就是有个沙贝一点的叫有一个什么全局的撒贝宁要叫这个名字搜不到。他就认为你这个指令可能是不正确的但是他同时去读过这个设备的这个Prompt Ly. 那么读完了但是他不读。他就把这个票拿出来看看跟我的组的有没有关系跟我的这个probably有没有关系那么这种情况下他可能就觉得没关系或者关系不大我就放掉了。
【连云波】不理了你去指定目录的时候他就这个主目录下读了它确实在AD的目录下在这个a层的门前能找到。懂吗能找到以后他就会去调用我觉得就是这么个关系就是他没有那么严格的说一定不能执行子目录下的a没有这个要求。但是他如果你不给他发生冲突的时候它会首先默认去找全决定你知道吧默认去找全球预定的他还没有这个时候他可能就不那个什么。不就行了但是很怪的是上下文加载的时候它是把子项目的设备也加加载进去了他刚开始装载的时候他是装载这么说的但是他去查他上来优先去查的是查的全局。他发现查到没有他就忽略了那你给定指定目录之后体会到指定目录在一定层面查他发现这个东西确实在一定的目录下它就是个sub。他就执行了。我这么理解。对后面是有很大的影响的你们可以自己测试一下这是我们测试出来的。如果是可以的话我们用什么指令怎么调用这个C架构组怎么组织就不一样了这是一个skill另外一个。
---【话题Agent编排架构讨论】---
【连云波】反正今天时间差不多我个人感觉调用背景还不是一个非常好的方式还不是一个非常好的就是agent的调用skill。最好的方法就是用一点skill里面装的这个方法确实是有点问题因为这样的话第一组织会乱。组织会乱你最好用什么你不要在skill里面调用在a一里面调用。就是你不要把所有的全部放在全局你可以放在子项目下那用谁来调用agent调agent这是最容易的这个调能调的而且分分钟的事情。A级的可以调是没有问题的。或者你可以做一个我一起做今天来的路上我还在想我在一个子项目下我怎么去调用不同的sub背景我怎么去设定一个主维很有意思的我们现在默认的主窗口就是主力的就是你可以定义一个主页键可以对你可以定一个主意那怎么定义怎么激活你直接在这个离a镜子下面定义这个主主谓因子之后你直接选定它他就是主力军游戏。对这种技能的情况下你再去调用其他技能就全部是。
【连云波】所以子项目这么来组织不然你会真的有点乱就是你一会skill掉1.1定skill来回嵌套。塞这逻辑关系能不能搞死你索性非必要情况下。除非特别这个ceo就是一个宏观的C懂吗就我就是要用很多来调用它。我其实用agent来组织agent会更好不用skill来组织。这个逻辑我觉得是我这两年思考一个非常重要的收获只不过就是层级不一样就是对skill skill的。其实本质就是主窗口这个agent去调叫其他一句吗然后你说就是单启在主窗口下面启动一个它作为主调配各个对在下一层对。这个是比较容易掉的语语语法上面没有大的问题我们日后的组织上也不会特别复杂。就是你的这个skill的组织对不会特别串起来这也是对因为有一个主窗口的空间对可以协调因为你skill其实也在主窗口对你skill里面调一点的其实有点费劲除非是这个skill。没有办法这个流程没有办法抽出来那么必须要共享在skill里面共享上下文中反正也不存在那主都是一组装过谁跟亲戚也是一样的。对所以我觉得先用这种逻辑和这种规则吧。
【连云波】就我们先找到了这个bug因为我自己确实想用一下但是我不建议大家都用就我今天前两天在考虑这个agent的编排的时候我觉得还是agent这样比较好。不一定能来调a级的比较而且比较智能而且skill。Skill. 最大的问题是就是skill的上下文也在主窗口里面我觉得可以作为一个分阶段。现在这种形式写skill加载用主动加载这种形式可能调试更好调因为因为毕竟你输入的信息都是在主窗口的如果一上来就用那种agent调调agent的方式就是。level1的调用level2的sub来组织了它那个上下文主窗口是没有的就是如果你要调试的话你是你你输入是定位不到那里面的主窗口不知道你想改什么。然后所以我理解就是调试的时候可以用用就用现在这种方式然后就调试整个流程调通了之后就可以把SKILLMD。移植到杯子里面对然后这时候再用主主窗口去掉这下这个就可以101不用。
【江争达】:没有子窗口的上下文是?
【连云波】回头再说吧因为你你一开始就把skill的这个prompt的流程放到那里面然后放到主页那里面是一样的反正你skill skill就很简单上来。把所有的上下文只要用到这个CPU的上下文全部都放到做主的窗口里面去了所以你定一个主的a键盘里面上下文就等于skill都写好了。是一样的第二个过程是一模一样的无非什么无非是什么里面有几个问题就是除非用到这个skill用到了scripts。用到了这些东西你就没法弄了因为skill里面是可以去调scripts的A进的里面就也能调但是语法上对不那么清晰。语法上。skill肯定这个语法是很清晰的就是它是可以执行iphone代码可以执行代码的所以skill里面对于这个的支持是好的。在a技能里面对于这些知识可能没那么清晰他可能跟主要靠的底层的提示词有关系我一直在思考它的提示词就包括全局进程和子进程。里面提示词它都可能有限定了他上来找的就是全局对有可能你知道吧但是你指定之后你这个就等于。强迫他去做事情他也就认了有可能。
【连云波】行吧那就先这样这个事情大家理解了就行了这个事情是对这个很深的一个探讨了但是这个对我们以后整个项目编排。是有比较大价值的调用可以用cloud模式调就掉贼人头就直接把它当成五层模式。
【连云波】:你说可以的。可以的乌头模式也可以调。
【江争达】那个paper的项目就是用的无头模式
【连云波】因为我对于理解可能是算是一个比较系统的一个架构了就这我们就是一个完成功能的小模块软件模块其实也不只是子模块。实行了原子模块的一些封装成一个特定功能的然后它这样的话就是调用调那个不好的话只有五分钟50。有编排的他那个流程这种时候是有必要你反正就是cloud code里面了你还要调查屋头干什么这样的话就是因为因为你刚才不是说不好调吗就这样我现在已经可以调了就是这个对目录的时候可以调了你这个无头的就再封装一层没有意义。然后你用再用终端去执行一次上下文也是隔离的。你产生的东西也得有文件输出来他不都不是。
【连云波】你对现在我们可以用JS数组什么输出吗这背景的输出的可以直接是个可以
【闫旭隆】:我很多都没出过要存成文件吗?可以不存文件它也可以,但像那个无头模式就不行,无头模式你这个肯定就会丢掉了。
【江争达】:想存就存,不想存就不存。
【连云波】你无头模式上下文你就不可能在这个窗口里存在无头模式执行完就完了它必须是以文件形式外外部存储的形式实现无头模式好像没法把上下文带过来。我感觉是的因为你想的是另外一个终端另外一个进程它都不在总进程里面了你无头模式调的是另外一个终端的另外一个进程的。你上下文只能通过文件的形式把它保存下来再去读。然后刚好像能结束提对cloud是可以直接把这个提示词通过一个比如说把命令行把读提示词放到这个cloud无头模式。这个里面去的但是它也是通过读文件的形式也是通过读文件你不可能把这个主窗口的上下文直接带给这不同模式不可能。你必须是做不到你你必须得有个命令你必须得有个命令把这个东西给不是自动带到上下文窗口里的。
【连云波】明白了我有个问题主的调子的是用的什么模式它这个原理。它的原理就很灵他会把需要的上下文带到撒贝宁的窗口里面但是它带进去之后这个上下文窗口就是独立的。我明白就是他调用的话是通过那种然后可能就是不是。他就相当于在他的后台因为我们cloud全都在后台明白吧它不是你在你本机执行的你无头模式是相当于本级执行的。本机起了一个然后又调另外一个远程知道吧他这个直接的远程的你这个sub指令给到他之后他在后台会自动启动一个独立的。上下文窗口的就相当于独立的对话进程就相当于你又开了一个cloud一个独立对话进程但这个独立对话进程是在它整个里面的。所以它产出的东西它是可以直接感知的就在这个主持安装窗口里面它是直接可以感知的所以你出来的那个已经产生的这种监测速度它只要输出的它都可以被作为上下来用的。你不用单独再存这个东西你们得去思考整个这种编排的进程或者并排的原理。
【连云波】我感觉有必要重新研究一下它的提示词很他现在有他公开了吗好像是有人去把它反推出来。但是有没有公开的我不知道好像我知道有反推出来但是它好像原原版的没有公开这个比较重要很重要。怎么用你把它提示搞懂了你给他改一改也行但他提示时间是很长的你看上次加载那个message不差多少一万多的token上来先给你灌一万字。看一下skill执行的提示词对强制按这个流程执行他好像可以自己添加那个启动添加可以但是你不能改对它内置的有一些你懂吗你可以在上面添加可以。你改不了它的系统其实是不会让你改的行吧那着吧
---【话题:数字分身需求最新进展】---
【郝倩玉】一个关于p0过数字分析还没明确他这有个最新的情况然后跟您汇报一下就是听那个钱林说就是他们有市场部内部的一个工作会然后杜主任最新的一个信息就是说合作他这个需求好像。就是他这个时间点他用不用也不一定对所以就我们现在先做好了刚才也说过了就是所以我目前我跟前反正有反复沟通但是他那边多多少少的就有就是只有那点东西更多的还是得去问邓主任是。让窦主任去会合作他想做一个什么样的东西但如果他现在不做就我们自己做需求了就不以他的需求为核心。但是这个数字分身的这个需求肯定是在的。就相当于咱们多做几个版本完了之后让合作去选对或者是那个市场部这个我们他给一些需求我们自己找一些市面上的我们看到的做的好的我们把它做下来之后就行好的行吧。
---【话题:下周工作安排确认】---
【连云波】好看就做完了超过了抢工资行吧因为时间关系就不多说了就这样吧然后回头每个人再把自己的补充一下咱们要不要现在捋一下你可以吗你那边就是你你。你这个还没出来那把刚才那个讲一下过一遍了我这个会叫skill我先。今天我先用现在这个版本生成一份然后收拾完之后我再就主窗口加载这个会议转写的。上下文然后我这次转写上的是用腾讯会议的还是说把视频这种最好的你你反正先用你这个生成一版先用你生成一版吧然后再把那个做一版吧就用我这个生成的。
【闫旭隆】转写文本是不是转写文本两边各生成一个生成就我现在是按照你的自己用腾讯会议的对因为腾讯会议这个视频出来之后你还得要上传的给那个。行好不好这个肯定是p0然后用用真测试加上就是用正面转写文本套到我这是一个还有另一个是直接用去。喂给他视频让他直接生成会议叫对然后这个也都归P然后这个然后就是需求skill然后我去你再看一下那个二阶段的。专家的交叉回应那一块的字段映射然后整理出来了一个就是可视化的一个一个效果的东西对这个也是平对然后。
【连云波】同时这个需求skill我们可能到时候先看看你的结果吧我觉得把这个需求skill的流程你也走一遍就是整个流程图也看一下是吧整个流程图也看一下。因为看看未来将来这个流程里面需要怎么修改完善行好好的这些都就都归到一个项目。
【郝倩玉】那我这边P一P一就是上周留下那个招投标的skill的架构设计了然后还有现在需求急吗有点七所以就提成p0了6p0行那我这周做然后还有那个G报告转写的那个是可以做批这个可以做P那个我也是我现在设计架构还是我直接实现。
【连云波】架构行那我先设计架构这是PEOk. 行,那我这边没?我这边先没了吧,行你回头看一下你个人工作,你周报的个人工作里面,到时候再补充吧。行,如果看到了,你可以根据会议纪要补充,或者你自己跟他再转写都行。
【连云波】张志达这边刚才也提过了吧数字人的这个p0你们这个PPT肯定是越快越好就是刚才也说过了明确要求了。就是p0的那刚才说跟数字人相关的几个测试根据你的选包括需求修改然后包括最终给出这个视频示范的文档包括你的数字分身的这个端到端的这个。
【连云波】比如说用gemini生成视频脚本和那个文字那个什么分镜脚本和分镜的镜头这个图片等等这些
【连云波】问题答案重构基本上刚才也讲了我觉得你还得用第一个把现在这个叫什么让codex。或者是让什么大模型帮你把后端先走一遍看看有什么问题第二个就是把前端的逻辑用或者这个方案用大模型再帮你做一遍然后看看跟你现在的这个方案有什么差异。
【江争达】:就是好,知道了,还要把下个版本的可能修改的逻辑先考虑一下好的。
【连云波】:这是我记住的,有些补充你们自己再补充。对这些的重点到时候结合会议纪要里面的细节再整合。
【郝倩玉】然后我说我这边的我这边第一个的话就是还是继续协助旭龙然后优化这个会议叫skill然后第二个的话就是合作那个数字分身然后自己先调研一下然后目前市面上比较好的有几个版本然后分别出。一个方案然后发那个就是跟那个闲然后再对接一下然后第三个的话就是招投标的那个skill然后也是写作龙这边然后优化完善那个需求写写清楚了吗写清楚了是吧回头把这个需求到时候可能你们先看一看。如果需求需要讨论的话也需要再明确一下因为有些他的需求不一定合理然后提到p0了。就圆圆的那个也挺着急的因为他说那个涉及到就是他想年末的那个什么对他像那个倒不难没有收入对他那个不会吧他现在得给人家做演示然后做明年的钉钉阅吧。但是好像涉及到签合同反正他说有可能做出来基本上有30万那你加进来吧那个倒不难提到p0。
【连云波】大三的报告提到p0那我这周先设计一个架构对行确实不难但是就是优化比较难那先有个样子本来。
【郝倩玉】明白我就是都用skill你现在快都是skill因为他要看到的都是样子的后面这些东西但凡用的多了我们就开始转化了。就转化我也没有想好有什么框架我也没研究了CPU怎么转成整个基于到底基于哪个的基于Ktwo还是基于cloud自己的API。基于这里面都有都要思考你cloud code agent或者cloud agent sdk能用的可能更容易最简单。因为它是自己的框架那怎么转到别人的agent的框架而且Lchina graph都是那如果那个架构能用的话也行。当前封装那个低配的架构但是它脚手架比如说上下文的这些东西。又得找一个小程序做一次研究或者做一次学习做一个小功能怎么去映射过去学习一下看他暴露出哪些问题。这就作为p1或者p2这个从cloud skill转移到lunch long graph的低配的架构作为。
【连云波】p1或者p2的研究项目明白然后这块你要是忙不过来我都可以全写作你你先开始做一下对你可以设一个一个的那你先试试也行他好像他挺想学学给我。挺好的但是你前期得把skill这些整个的底层的东西全部学一遍不然你出来的东西不好用对包括skill agent检查什么关系我跟你说你这东西都要学好久可以先试试上手试一下就对你先试一个问题。
【陶西平】怎么着然后你就是丁康那边后面可以协助有其实你们都一直忘了写了在会议里面关于整个项目驱动的就是那个日报项目驱动你还记得上面一直没写。那个后面可以所以确实要p1或者p2去了让丁康来负责因为他不着急他可以有空闲时间周六周日帮我们来写这个。到时候江南。
【江争达】:听得到。
【连云波】人把那个cloud cloud code我那个max版本的到时候可以给丁康用一下。他的主要任务就是做日报驱动的整个的项目管理系统的skill或者开发。
【江争达】:好。
【连云波】包括基于会议纪要怎么来做日报然后之后怎么驱动项目管理跟这些MCP怎么对接
【江争达】:昨天也跟他沟通过了,他让他先学一下那个阿三大的架构模块什么的,先熟悉一下,然后再设计一下。
---【话题PPT自动生成演示】---
【连云波】对好不好行吧那这个时间关系我就给你简单大家讲一下我做的那个PPT的那个我觉得对大家以后可能。
【连云波】本机自动化是有很大的价值的或者说还有它其实出了一个chrome dev的就是好像cloud自己出了一个。prome浏览器的控制我们用的我用的是那个什么用的还是playwright1个extension就是在chrome上的extension做的
【闫旭隆】:我没用。
【连云波】那就可以了那这就是我最最简单的一个比如说上来生成PPD我现在不跟他说什么然后他会启动这个skill等会我给大家看这个skill的流程。就是他就会问我你要什么主题的你可以自己打一个目标进去那你也可以跟他聊我需要什么什么简单的粗的都行那么第二个就是什么是给一个文件路径我就把这个。是什么我要跟他说生成这个测试做的很少两页你可以做20页都没问题的手写体风格。然后它来生成两页的这个PPT首先创建一个这个PPT的工作目录然后。现在接下来就是调用java图片生成器来创建信息图关于PPT都是一组然后接下来这个就我后来直接把就是skill嵌套skill来做了我最后直接放弃subagent。
【连云波】虽然上下文会比较长但是我的调用逻辑关系非常清晰skill调用skill反而比三要清晰得多因为上海文是共享的。知道吧所以他逻辑控制上非常精确到了三倍镜的里面因为不带上下文之后它的逻辑控制有很大问题等会我跟有空你们可以试试我一开始做了好几个subagent在里面做一个包括用agent来调这个skill。我本来我是用这个skill来调用一个subagent的这个310可以放在主窗口主那个叫全局也可以放在300进的。我都尝试去掉过的但是效果都不太好好的上下文连接就是不太好这是一个第二个。后来我就直接把这个skill提取出来了我不用它去掉了我本来想用上下文隔离我觉得我们都出现这样办。那叫什么偏执狂其实主上的窗口好用的最好用的还是主上下文的窗口但是不怕多但是我们不是多轮对话其实没必要的我后来直接把它就调拉到主窗口下面来了所以这个用这个skill来做。
【连云波】这个skill是写的就写到skill里面的对等会我给你看一下目录先看这个流程然后开始用playwright调了看到没有先打开gemini然后。开始我要激活这个生图模式用playwright去找到生图的模式然后生图模式出来以后上传文件他也用把这个文件就上传了上传之后看到没有把这文件就拷过去了拷过去之后他一开始出现很恶心的他要上来先读这个文件我让他不要读了你读完之后读完了可恶心了你直接给java就java自动。
【连云波】来为什么我用gemma来那个cloud无论你生成多好的提示词都不如janine自己读这份文档然后自己制定的方案好所以给我一个很大的启示就是你不要规定他做什么。你不要给他说上下文给他越权它其实做的效果越好知道吧所以我现在对上下文是一个有另外一个考量了。
【连云波】上下文其实越全越好这给到他之后他就开始上传了上传之后开始。输入框看这个是什么它有一个非常简单的我在skill里面规定的你根据用户上传的内容文件生成那这两页是他带进去的吧16比九是他规定好的然后手写里风格看到没有他把给带过去了把CQ给带过去了这就非常容易带了。
【连云波】开始规划然后等他产出那这儿我给大家并排看一眼。到底是在每一页一张图没什么对每一页是张图片你看我是让他先。先生成看到没有是先生成规划看到没有生成规划方案看到没有首页的风格这个上海湾带入的很好一开始不是这样的它有很多自己加工的好多东西进去他给你把这个文件的理解什么全都给你加进去了。然后它生成了这么多新意图看到了这是jama生成的好界面生成之后我就我让它生成第一张。那生成第一张图片这个就是都是通过API API发送然后不是API直接通过playwright cmcp来调用的对MCP控制的非常精准。
【连云波】:然后生成之后,才开始点击下载,这可以有一个下载自动化操作的浏览器对,然后所以这些话也都是传递过来的。它可以操控浏览器的知道吧,明白,然后最后我这里面有个运行脚本,我都看一下,给大家看一下我的这个脚本就是我让它怎么,因为它生成之后,它已经脱离了这个。
【连云波】浏览器吗它出来就会弹出一个储存窗口存储窗口他已经脱除了这个浏览器已经操作不了这时候我要用。用的什么OS对scripts后来做了一个C image的这个脚本然后就调用脚本来操控这个调控之后它就存下来了存下来之后。
【连云波】:接着就是第二个看到没有好,我写下来之后到第二个继续生成,然后变成之后继续存完之后,因为我现在没有办法,因为在这里面操作非常麻烦,刚才那个非常麻烦我就。没有让它直接去指定目录了,我就直接让他存到这个文档里面了,那文稿里面我就自己从文稿里面把它。
【连云波】找到这个文件然后移动到我的当前目录下找到这个图片然后移动到我的公众录像然后在这工作里面就有两张图片这张图片。就这两张图片在里面看到没有在这两张图片了然后干我又执行一个操作它有一个叫PPT组装。实现组装PPT是也是一个python脚本生成了PPT之后直接开始自动打开了open了。然后就给我弹出我这个PPT到此就完成了所以完全自动你只要给他一个目录就ok了。
【连云波】那这个里面大家再看一眼我的目录结构这些可以通过API调用不行这边在调用API我没有12家都很贵的。可以那种CRL的那种用网页的也不太执行不太准确那在这里面在cloud里面你看skill我一开始用agent后来我给删掉了。我就把它转移到skill里面了skill这里面后来定义这个词后来我也没用我把它直接放到我的skill里面定义了个agent。
【连云波】我都尝试这个了但其实效果都不好那这里面scripts1个就是执行操作命令的它核心就是一个了。操作命令了等待他完成然后直接移动到目标看到没有就找文件先是存下来然后找文件然后找到文件把它移动到那个。
【连云波】目录里面这一个第二个就是assemble pppT的屏蔽组装其实也很简单把每个图装进去就好了。然后这些脚本都是我让就自动生成的简单的然后这个是scripts这个是skill这是ppt auto这是第一个。然后第二个它调用的skill嵌套的skill是什么是这个skill就非常的我调了很长时间为什么他总是不知这个逻辑它总是执行不好。就是AG总有自己的想法他不完全按照你的skill来执行吧所以我就给他一步一步一步一步最重要的是他那个即使字总是。不按照我的来然后你看这里面为什么失利正确的示例和错误示例对他都很重要注入之后后面他就开始很好了。就开始比较好的执行你的了所以你看这里面有要求必须怎么样什么必须不能错误的是什么正确的是什么都是一样的你看这里面也有提示字模板错误的是什么正确的是什么。怎么保存不可省略等等这些所以其实要有很多的行为规范的心理才能保证它数据的质量。如果你要求操作非常精密的话如果你说我不需要探索的比较灵活的那ok的。
【连云波】严总我看您关注的是它那个自动化流程然后PPT生成为什么用它来生成是因为我觉得不到这个效果太吓人了。他一份文档我就给他了是一张图片一张图片可以点一点点对满满的图片。它自动的然后我给你看一下它这是它生成的通过测试的还有我生成了一张五页的我觉得做的相当好是这个。
【连云波】这是两边没有动物业主这是一页这是另外一个增长做的相当好了是知道吧我花了五分钟时间给了他一个文稿自动给我做这个PPT完全够用了非常好主流的全部在里面我就问你谁能用五分钟时间做出这么好的一个质量的PPT不太可能。我这两天基本上一直在研究对我就说分分钟就把他们全干死了能比他做的还好。
【闫旭隆】:那你那个上传的文件的内容是什么?
【连云波】:内容是就是这些信息的总结,不是总结,是一份我自己写的文档,更全的对更全的文档。
【连云波】正面同学这个挺好好那这个是我自己写的文档那这也是用真金就是之前的我很早以前这个人全部在推特上我关注他很久了他写的文章还是挺好的我根据他的一些理念。和我自己理解我自己写了一份文档就基本2.5写的主要是之前的我觉得写的蛮好的。写好之后我就把这份文档给到谁了给到这个3.0来画图了,那么这里面有非常多的关于智能体企业怎么来做智能体企业?基于智能体架构的企业看,就是我让他基于他的一些基础的思路理念,我重新写了一遍东西写出来之后,你看这份文档,再加上这个。基本上非常清晰了,你的一套理念体系就可以非常好的展示出来,实施工作就完成完蛋了治病。
【郝倩玉】那有个问题就是新如果用的话可能跟咱们平常汇报还有点他们是模板这个模板是容易非常容易你到时候告诉他我用采用这个图片的模板你上传上去给他就好。或者你直接做一个刚才说那个G就是你上面里面有一些参考文档是什么多简单不容不难的或者你把这个图缩小一点把那个上面做成多少比例的就行了比例你调一下就ok了。
【连云波】这里我有一个就是想跟你分享就是你这个不是图片右下角还有那个图标然后我看当时用的时候我们做了一样就是用PPPT的那个代码他能直接做成一个可以修改。
【闫旭隆】:对,那我告诉你不用这个,我说另外一个方法,就我既然能够自动操作它,这个我就可以操作另外一个。我看看我有没有把它倒数下来看看,结果本来没打算讲。不可有。都是测试的?
【连云波】我告诉你还有一个什么方案直接用那个什么只用canva来生成做的很好日本深度我放哪了到文档里面放。在下载里面。你看这是通过填满自动生成的这是给他一个给他帮我做一个日本深度游的它也会自动的等会我找一下我看这里面能不能找到。
【连云波】过程。我是让他给我什么给我做一个实业关于日本旅游的详细的这个方案他给我做了一个什么HTML文件出来。知道吗我把这个HTM完全存下来之后我去做了一下确实还挺好但是它里面的图片都没有这些图片来源什么都没有知道吧这些链接都没有这是该L。
【连云波】我说根据HTML文件直接生成PPT用开发生成的在开发里面生成大家可以也非常吓人它就生成这个。这是完全基于文字都可修改的另外一个你可以导到这个dock里面这个我已经把那个都删掉了。告诉你你修改。
【连云波】这就是直接导到这边来最重要的是什么它还可以将来回头再说吧你们如果刘队我觉得他真的非常好。那直接在这里面可以修改你直接可以修改图是吧真的是由gemma来做的就跟cop很像但是你说这张图就原来分辨率很低我直接让它生产成两K分辨率的。
【连云波】这些图都是在开发里面的自动就找到了好吗如果你推荐那个付费的PPT是对他做的这个风格就非常像对先等会再说好的时间关系这个就是开做出来的看到没有基本上已经完全可用了这就是非常简单的那因为我没有给他任何风格什么这些要求如果你谁能详细的制定了还是可以。然后你导出来PPT就可用了所以你看一个是关于那种规划特别好的一个图。另外一种再结合上这种我觉得PPT基本上。不需要什么人的这个作用明白了但是这个带来的还不是说只是PPT我操作网站我自动化操作网站的话。我可以自动生成一些东西我用cloud code去直接调用里面比如说网站上的很多东西。所以你想过没有把这样的代理开了后的代理我开好多的窗口看这一天能做多少事情是不是实现了我跟你们说的场景都实现了这就是我这两三天我做这些东西就是大概两天的时间我就把G pro和cloud融合在一起做办公自动化。
【连云波】这个是提升大家效率的你看其实非常简单那你要说难吗就是skill那个调调的过程比较烦一点整个框架。都是我讲过的都是我们自己做过的那现在结合文纳这么强大的能力之后很快就能实现了非常令人惊艳的这种效果我这个做完这个PPT我吓一跳我说这个东西他妈的以后PPT没法再做了。他整这东西比你整整理的好对他总结的非常好是可惜不能改。
【连云波】能改我告诉你kimi现在做一件事情就是把它变成可以改的把图片变成文字编辑。另外一个你可以干你知道吗你给另一张图片生成SVG。用GI把它生成SVG也是可以的直接用java生成利用这张图片做成SVG你把SVG导过来就可以改了就可改了对。另外一个可改怎么改我告诉你直接修改图片直接在里面使用我试过直接你比如说把这块。是我全部饮料然后重新打一行字上去没有问题的我都干过这个可能更简单因为它这个排列排版都不要动你比如说哪些字你不对了你想改你可以完全。
【连云波】:流程那这里我不能发了,我直接用改了一下,用图片是长信息素,还有一个长信息素。也很有价值,就是你不用多,我不用那么多页,我就一张图把我这份这次文档的要点给你总结出来一张图做得非常好。长期运作做的也非常好,就是他知道他看过我们给医院的设计的非常好。我就说接下来视觉这块真的是已经超出我的想象很多了,怎么把这样的好的能力。包括你给他一个图片,他的理解也很到位,包括视频,所以我就说这边来真的很吓人,非常吓人。

View File

@ -0,0 +1,532 @@
**会议日期**2025-12-02
**参会人员**:待识别
---
<!-- 来源文件20251202085910-转写_信通院云大所市场部-张媛媛预定的会议-转写智能优化版-1.txt -->
【线下人员】:我因为袁姐正好开组会好像不太方便,对我记得好像企业它肯定是企业,他还是过一个人。他这个叫什么专业版尚未认证专业个人的感觉个人的。我这企业版的给选好几个账户对。那我叫他了,听得到吧,教老师听得到吧,掉落者 r61。
【线上-江争达】:听得到。喂听得到你你那儿没声音?
【线下人员】:没声音吗。听到了。
【线上-江争达】:能听到,但是你那是不是没听到我声音?
【线下人员】:对了。
【线下人员】:关于这个会议纪要基本上找到一条路径了,这条路径我看一眼这里面应该能不能找到。
【线下人员】:这条路径我是发给过你了,不行你你你来分享一下。你把我发给你的?那还是他的个人发给人家当主管的位置,但是你只截了个图,因为我的网络。先收了很多钱。
【线下人员】:我一直认为我们的语音现在识别是不是因为会议纪要识别效率很低,我一直认为纯粹的语音,它是好多背景信息都是没有的文字他不知道的,我们的文字稿他不知道。我们的这个视频他也不知道我们的切换他也不知道,所以从这个角度来说,多模态一定是以后做文字识别的最重要的一个,或者说最最终的路径。
【线下人员】:后来,上周那个界面出来之后,我觉得是非常好,然后就拿这个视频去。测试了一下我和赵浩文,我跟他开了大概半小时的会议,我记得我上次用过最多一个小时的半个小时的会议,我上传上去了,然后你说我让他原文转写我的所有事情的这个文字稿。你们大家往下看一看,基本上你看它是那可以看得到什么,那连正在操作电脑看查找文件。然后画面禁止黑屏连接往下可能还有开始讲解它里面是什么,但是也有很多,就是画面就没有变化了。他现在我特意对了一下,基本上没有错误的这个单字了,没有了,更重要的是什么这个模型。最厉害的是它本身就是多模态的,你可以什么,你对这个视频是要提取的内容直接用 prompt 来进行调整,你知道吧?所以有可能最厉害的做好了,如果他具备这样的能力的话,原字能够写好的话,如果我们测试下来确实很直接给他一个会议模板。你就可以把视频给他一个会议模板判决可能直接生成就一步心理到位。方法有可能在节目单上做,也有可能直接回头那个 gemma 里面也有这种 jam 那种。
【线下人员】:我要不我上回,我现在网络好一点,我上回我把它共享。
【线下人员】:什么声音稍等。
【线下人员】:对这里面有一个这在就有点像什么,那比如说。我比较慢的,它是可以里面有好多定义的,你可以自定义自己的,这就是在这里面,你把会议纪要什么那个模板全部放进去。然后你把视频上传给他,在这里面你可以把视频上传给他,就是在这把视频上传给他,之后,根据你的这个会议纪要二个模板就自动可以生成。所以这个是我找到了目前最有效的路径,所以这大家肯定要用了,因为它的多动态能力是最强的,而且上下文是最长的,那天我交给那个。徐龙就白好几个月的,你们先好几个月试试看,通过上传的企业用户,那到时候你把那链接分享给大家就行了,我用下来目前。就是能力是最全面的,不说不一定是最聪明的,就最聪明。我现在觉得 GPG 那5.1还是聪明。最全面的就是这么大的,它最强的是它多模态,尤其是视觉能力是超强,强到你都不敢想象。我这段时间用下来后,看外外网的所有的界面来的这个介绍,我待会告诉你们,我用它来做 PPT 的过程,所以是我觉得大家一定要用好 GM I 至少在接下来的这个一段时间里面可能除非有下一个模型超越它了,就这个用好主要是赋能我们日常的工作。
【线下人员】:那我现在把它用来做会议纪要的这个转写人有了会议纪要转写之后,这些东西留下来之后,你看视频也留下来,就是后面能做很多加工的工作。知道了,这就非常容易就后面包括学习,包括研究什么都可以在这个我们视频或者说这个转写的基础上,所以我们在接下来会。看看第一的那个视频怎么保存,就他现在因为大量的是重复静止的画面,就压缩下来就效那个叫什么?就视频压缩的大小,或者说整个的文件的体量不会太大的,所以我觉得可以考虑一下,把视频作为一个。作为一个我们这个素材留下来,因为它是最全面的文字也有文我转写的文字也有了文字图像,音频都在里面,就把留下第二个?就是多模态,一定是我看到的未来就是最接近就是最对什么使用起来最方便的一个保险,它不用你专门去在思考怎么去转换。待会我再来,所以从这个角度来说,给大家的建议就是在模型一定要用起来,我还没来得及使用它外网非常的好的例子,我还没有来得及使用它做那个。
【线下人员】:编程大家认为编程它的前端也我自己试下来的前端不需要再有什么这个模型其实还蛮复杂的,操作的,你给他一句话。他一个前端就全部给你做好非常好,但是做出来的效果比一般人做的都好,能够用它来做非常多的开发工作。前我现在给大家推荐的就是前端用 ja然后中间逻辑整个代码的构造部分就。这个 cloud然后整个项目的如果可以的话再有的话就整个项目的修复或者说整个的查找问题或者整个。
【线下人员】:测试可以什么 GPT 的那个 codex 他们三个是这么来的,但是如果说只有一个,那也是能用的,在最好的组合可能就是这样,但是。不管怎样,你得首先把它的每一个工具里面的擅长搞清楚,那么主力我现在用下来还是搞得主力还是 cloud code 所以我现在基本上 cloud code。为什么处理是因为它的工具调用能力目前无人能及它的工具调用和工具理解能力是没有人能改过的所以我们做 agent 的话。对于工具的理解肯定是第一位的。行吧,先这么多,你先接着往下,所以会议纪要这个事情就是这样的。
【线下人员】:那么先开始要先飞,你会教 skill 主要是。改了一下整体的架构就之前是用那个索引搜索,然后我改成了就是全部的全量日用那个分布上确实可以的,确实。我大概演示一下。
【线下人员】:这个是映射逻辑,就是每一句每一个的每个字段的来源本来也就是画了一个逻辑的图,你在 qq 里面会把这样的逻辑写进去的对。有的我跟你说你这个很重要,我自己在做体育过程当中,我觉得说的自己的逻辑清晰,他容易瞎改,改完之后他。改前往后改后往前。目前我认为他现在最最缺的就是逻辑的一致和前前后的连贯。这个先是工程类的,就是每一个字段的来源。包括上周提到的负责人要改为原负责人,这个第一个字段代表着这个项目原本交给你了。截止时间我也改为原截止时间就是上周会钉钉下的这个任务的截改动,还有最核心就是全量。把做。
【线下人员】:还有上次没提到的就是不是媒体,就是上次发现他那个进展情况,以会议转写为优先,这个也改一下。下面逻辑我也顺了一下,对该优先的会议转写优先,包括我测下来发现它可能。最大的问题还是文字的语音识别就交给谁了,话说的他也不太清晰,这个是最主要的问题,就是目前就我就觉得。
【线下人员】:目前非调里面最头疼的一件事情就是文字转写的准确性和上下文对这种叫约束能力,对这两个是最核心的,那你专业能力如果不清晰,然后没有又没有很好的约束。基本上因为我们是在已经非常清晰的上下文背景下来开这个会议对你知道吧,他是不知道的,所以这些上下文不给他,就他是很难处理的。所以从这点来说,后面到底怎么就是怎么来,怎么怎么用什么样的工具,比如说到底还是继续用 cloud 这个来 skill 来做这个 cloud 的这个来处理推还是用 jina。比如说文字出来之后用谁来处理因为有可能不行就调加那个 API然后在 cloud 里面调 API 来做。对我觉得这样自动化程度更高,对一套路对,然后 API 现在我看还行我们这个如果转写成文字了也没多少还行对还可以。我记得好像半小时6000多次一分钟200多次对差不多了6000多字你就算一个小五个小时不也才3万字。三个也就差不多2万多个 token 2万多 token。对于他20万 token 来说对于他100万 token 来说太小,所以这个都是可以考虑。那么实在不行就切开做,所以这个没关系的,按照这个 skill 先往下走,通过这个 skill 来,先把整体的识别通过接做完之后再用这个 skill 来加工。
【线下人员】:我觉得就是下周的工作安排,接下来你知道吗?整个会议最重要的是下周的工作安排以后你们一定是开会的目的不是。主要目的是为了解决问题,那么其次才是为了分享知识,其实不完全一定需要工作里面讨论都是不一定是要都不会的,有的时候就直接在里面分享了讨论也可以,所以只有会议纪要是需要大家都能坐在一起的。尤其是未来以后,我们如果人多了,项目分散以后就更每个人都做一部分,那完全需要一个大项目,有人负责后。就需要信息过程,整个会议里面最核心的目的是为了得到下周的工作安排的合理安排。这一切一切的逻辑都是往下去的,能把这个写清楚,基本上大部分都问题不大,因为你前面你想你信息前面的信息的提取正确,你会上的信息的提取正确,然后才能逻辑还能判断清楚,然后才能得出下一个工作纪要,所以我觉得这个是非常重要。
【线下人员】:基本上这些其实都是要以文字转写对下周一定是文字转写是。所以这些下周任务也基本上是周报作为补充,对基本上所有的都基本上都是上下文,每一个都要给他一个上下文,但是这里面有一个问题,你是每次都是分。比如说这些目标是一次性的提取完成,还是分次提取一次性解决,我是并行用搜索的 agent。并行的对并行搜索一点去搜然后把搜到的信息都返回给主窗口然后主上我负责读所有的信息然后去写这边再看那个整体逻辑吧。映射逻辑就是大概这样。因为这个逻辑就是这样然后可能还有一个点是它能会有一个人每个人的工作在这里或者说每个人对下一周的工作安排。下周任务对下周任务。上周就应该把他的里面还是个模块楼层管没有这个只是映射是对体体现映射逻辑来下下一个会议总结。
【线下人员】:还有一个任务可能是它识别下注任务的时候 p0它是根据语义来识别对我们领导说紧急什么优先。可以这个里面就这里面是最难的就是作为我跟你说实话如果他能做得到比你们都强。因为人低我告诉你你们最大的能力是低目前对于整个项目里面的轻重环境判断没那么清晰了。第二我跟你说实话你们都忘了。就说了这么多之后你们早就忘了对会议当中内容我早就忘掉了你知道吧有好多重要的就说的东西所以你提取不出来所以他如果能听出来你可以这样。你可以让他给个建议。明白吗你让他先给出建议不要上来就生成霹雳建议优先级要建议排序是什么然后人再给他一个反馈这个里面是最重要。就每个人你看每个人其实都会得出一个你们下周工作的 p0到 p2最好是让他发给你们生成之后每个人生成一个然后跟你们确认一下。给你们确认一下是最好的这样的你把确认过程所有材料你都保留下来。作为后续的调选题也好微调也好。就知道他就知道以后不明白了不然的话他每次只能固定在这里他每次就提出来就是这么做就是这么样他也没法优化。
【线下人员】118这就是用这个逻辑对你看所有的最后都是要到下周重点的。然后 skill 的执行流程?主要就分两步,不知道你们现在已经有个新的 I O 有一个开源项目,一个叫 AI I O 我今天上午他们发,因为这里面可以就是你生成的 IO 不是有些错误什么的,逻辑上有问题,你可以在这个里面直接,但是他要那个什么。他有 API 他不要钱,但是 API 要用界面那一点,我觉得他那个免费的 API 调用次数肯定是够用,那是对。所以你们用它可以直接在这里面修改,被抓了以后可能用起来更方便。另外一个待会告诉你,可能用接下来直接生成,对不能修改它直接生出。或者直接生成矢量图也是一种方案。
【线下人员】对就是工程类会议纪要的流程是从上往下的4月七就是一些输入数据这个是都加载到了。主窗口然后也都加载就是搜索一键每次都会加载这些所有数据是吧对所有的数据然后。这是什么case1是刚才那个数据的加载会加载输入数据给它上下来。然后会议信息就是主窗口直接生成因为主已经有这些了这已经足够生活。你这个 p0任务列表是也是上一个从会议转写里面出来的吗不是 PC 任务是上一周会议纪要,因为有了一个上周 P 零任务,对你这两个 p0任务列表上任务 p0任务列表是。他确定它会整合不错。
【线下人员】一般都有应酬因为你这第一可能没讲就是映射这是一个差不多。可能是他我判断我理解是这样的重合去重之后的然后他给了子。就这个意思p0任务列表一个是列表是 p0任务里面的任务的描述对会不会是这样他任务。我现在的验证逻辑是有每个成员本周周报的他自己写的 PD 对,然后还有上周会议纪要给下周安排那个会议对,然后他会把这两个去重任务列表指的是周报任务,那你写上不要汇报。就本周。周报都报里面更清楚,周报上周评论文写上周纪要的评对。这个好像这个任务列表是它去重之后的对它去重,这两块去重之后形成了一个最终的 p0任务然后它就传递给子的时候是会传递这个信息你让子知道我现在已经确认了。ping 任务有哪些,然后去搜索交给子类去搜索,这也是给责任的一个上下的。那你给他那个上周 P 零任务纪要里面任务是这周报的任务列表是指把所有人里面的 P 零任务列表全部提取出来了是吧,对出来自己写的对,然后还有上周纪要的都整合起来。去投一下,然后就是并行提取,它会根据会议纪要模板的字段判断就是哪些字段。刚刚那个映射表里需要涉及到所有的字段,不是所有这样主要是涉及到需要去文字转写里面去搜索就差不多,也有很多字段都要去。
【线下人员】:都要依据文字转写去搜索这个会议的转写文字,他每次去搜的时候会调用这个 agent所以 agent 是通用的,就是也不是通用,它里边是预设了很多种任务类型,然后。对每一种任务类型的返回做了一个 jason 的格式的约束,所以他就能够并行执行,然后只要只需要主位交给他的任务。
【线下人员】:都是什么,手术是什么?为什么你是到里面去搜索?不是搜索就是全量加载,对全量加载,然后给他任务,他是自己执行的,对自己执行不叫搜索行,不叫你搜索是很容易出问题的就是他就是全全量执行,就是他自己去加工,对自己加工,你给他任务。给他上下文给他转写文本对,然后让他自己去提取出我想要的东西,对那就行,可以搜索,我跟你们不靠谱。你知道为什么就是人的语言里面有大量的要说一个对,这就很多语言是不清晰的,就我们会议当中很多语言没那么清晰,直接搜索不出来。人工智能上下文,它通过上下文谈心的处理,它是能够理解这个能够把这个东西可能提出来。如果你搜索你,你绝对不出来的,对。
【线下人员】:所有并行完之后就每一步都会讨论能够这些都是我预设的这一层就是每一个任务会对应不同类型,然后它根据那个类型会。返回复这些,那我问你,我要问题只有把这几个问题合并到一个问题会产生几个 agent 的并发的时候我把这几个全部合并到一个里面来执行。因为加载一次性全量的有病行肯定是行。行怎么不行,我现在也行,但是我现在就是靠主窗口,就是我觉得每一个 agent 你现在就把所有的东西都靠主窗口来进行。一个可能每一个 a 只执行特定任务会找的更多一点,然后即使它冗余重叠部分更多,它主窗口可能也能给它整合出来。
【线下人员】:那我问你,你主窗口里面上下文也是所有的上下文也都是加载的主窗口,包括你的输出数据是点的,然后你上周转写文本给他。也没有没给他,除了转写论文都给可能也能给肯定能给我现在什么意思,就是你接下来可能要讨论一个问题,这种方式是比较可能是比较精准的,但是。逻辑会割裂的就是你每个一点的自己的东西直接给到主一钉钉的,然后它没法建立每个之间的相关关联性。相关关联系我是给他写了那个啥,就是这些 agent 出来了。出来之后,我会给每一种返回的形式做一个映射的约束,就是把我那个映射规则体现到这个 MD 里面,就是它主从我接收到每一种类型的返回之后。他会根据每一种类型的返回去,按照我给他的方法论去映射,然后一起去合并这个非常搞笑,我先看看结果。
【线下人员】:不意思,等会看看结果就是啥意思,这个方法我觉得比较。就是清洗,但是第一,我觉得他这个资源浪费的太大,每每一个过程全部全量处理一遍,这是第一个,这个肯定是太浪费了。第二个会造成逻辑的割裂,你也要在主上的窗口里面重新再去做一遍,我经我自己的感受,我使用下来,包括 java 使用下最大的问题。一旦把上下剥离之后。最全量的上海的玻璃头,比如专业的玻璃头,它的效果一定是不如我自己吃下来的结果不如给他一个主窗口让他自己去处理,但我不知道 cloud 现在情况怎么样。
【线下人员】:你要把一个一个单独的版本都给他提我举个最大的印象,我给了他一个一段文章一块他们能生生成一个 PPT他可以读完这个文章之后给我两种方法一个是读完这个文章给我一个提示词给我一段很详细的提示词这个提示词去选择一道题。你的我直接让他在主窗口生成一张图我看这两个信息量差距是很大的就说明他是把这个上下文全部用在这个图形的。这个生成过程当中逻辑关系更清楚更明确。那么你现在相当于把提示词生成的结果给到主持人然后你的丢失好多信息。这是我自己感觉到的到时候看看92姐可能会你自己会补好多你的主上 L 里面会补好多逻辑,所以我觉得最好是什么?我想。
【线下人员】:我建议你们,我先建议你把直接的转写文本,另一次就把那些脏的那些重复的什么全部都做一遍加工。第一,保证他尽可能的用信息的全面的同时,文章是内容是紧凑的,因为太多重复的了。然后这个时候你把这主窗口直接加在这上主上下面,然后对那不是来紫这个上下文是不是紫 a 这个上下文也是肯定的也是。Clean hold. 然后把这一定的出去的东西再给到就提取来了,就是相当于其实某种上贼一定提出来就是一个 property。就是你把这些所有资金都清出来的就是一个大的股票对到左上下文然后让左下文结合那个 clean 的文档,加上那个大的长的 prompt因为你已经一次加强对加强一次了。
【线下人员】:你懂吧,我觉得这个可能会对准信息量处理起来不要一次性上来就处理,不然你每个人都喂垃圾进去,可能是另外还可以尝试一个更大胆,你就把。你就把映射规则写在主持上面一次性处理,我不用嘴,不用自己的,尤其是在 java 平台 java 调用一次试试看。把拿有300美金的 API 免费的也不知道用了多少后来你们调一下测试试看一次性直接一次性处理。我把主持人我们整个的给的非常好的。最好是处理客运之后。很好可能也是一个就是差不多3万字的你肯定最后差不多剩2万字左右你这2万字一定是包含了大量的信息都在里面。还有你还有前面上前面我们前前上面前之前的那些上下来我相信这个商家们已经足够了足够。因为这个重复处理我觉得它影响太大第一个第二个你处理的都是很多没有这精加工过的每个人都要精加一点吧每个人都要加工。就这个有点浪费行可以这个逻辑性先往下走完之后如果效果好先保留这个先保留优化的方式就是我刚才说的。一会看看结果看看结果。
【线下人员】:这是上周的用上周的资源生产比较是大家手中订正过的。右边是我右边左边这个手,右边这个身份为什么请假人员刘志豪一直在,我也觉得很奇怪。可能上周还上周的那个上周是上周纪要的上周的?我删了之后就没事,我就我没有看到他的逻辑是怎么生成。
【线下人员】:完成第一个开发正在测试对比会议讨论的生成结果与成功订正版的差异,可能现在三是需要优化存在的问题,项目里面未参考会议题。不打算去看问题。
【线下人员】:家长缓解的问题,你带走不够优雅,那种不够优雅指的是什么?要是我其实这个也是我也是生成之后对也生成之后才去修改,所以这些可能也是比较全的,就没有改。我们在想它,那这就是两次转转也不同,就是两次转写,为什么会不同发现存在逻辑复杂,这个是它比较概括的你这个你看到没有你这就非常的具体,为什么他那么具体,他那么?概括这可能就是存在的差异,另外就是我们选取我们想要的是概括性的还是啥具体?我觉得具体性更好,容易执行。
【线下人员】:第一个还是第二个公众号系统已经运行的需求方,就是这也是上周的上周这个任务是你把它都标对标注下来,不要直接删。好问题。我觉得领导建议和领导指示这块,首先第一可能是大家共同商量的结果就是最后这块概念就是最后的。解决方案,领导应该写成解决方案。这里面有一个能提出来,就是觉得是要找窦佳丽去商量,这个合作的对这里面有个要点,没有提出来,你把它为什么提示主是你转写文本里就没有?不重要,还有左边这是手手工加的吗?我看一下。
【线下人员】:看一下有没有提醒,就是我找的线上的共同编辑能感应或者不行以后什么?你不能就是 google doc 是可以做人编辑。对那这个是本来就有的。
【线下人员】:他做一些为保留不下来这么久,有可能他可能建议保留没有那么久。我有的回不回。
【线下人员】就是没有。他本来就带了所以你要看看为什么他们。我可以看。这是很重要的一个信息就是为什么关键重要他等下一步工作安排的这个很重要的信息所以这个逻辑模板里面可能要把这个上来就得作为一个比较重要的制造原则但凡和下一个。所以就全部要听。带过去的文章。人民会记错叫明显。100不到差不多一点几年的时候需要几个我总觉得左边归纳的好像更。也都对每个都对两个都对所以这个才能对的先放后面再你再慢慢做。
【线下人员】然后追求澄清一下1.0这个1.0版本测试我就总结的更好把完成的话可以更细一点。可能要看一下你的里面。比如说你完成多项优化里面使用一个。已完成1.0版本测试?效果确实良好。可能不能再。所以这个 office 做专家评换模型,当时我记得是叫换模型,不同的那个做不同的模型,人家多轮博弈,这个没有,我之前有过多轮博弈?我不怎么敢对帮我调查一下。
【线下人员】:毕竟哪个做好一点,那你的描述更好,肯定是人改的更好,对这是人改过的人改的天赋比较大。我觉得比较接近督教是有的。比较接近吧!该有的要点是有。我以前没有的上一版本没有了已经这句话是我加的了。
【线下人员】:二那个 U 盘架构还是其他自己做出来的左边对是我的一步的。那么快就取消,感觉全能量。
【线下人员】:就以后其实问题描述都是可以稍微忽略一点的你你只要能把这个。这个方案找清楚也行了,因为我们主要是为了下一个。
【线下人员】:能把动识别出来不容易我也没说识别,就算其他人明白也挺牛的。
【线下人员】:这个倒是有都只能再次。其实等到一个邮件发送我当时是提的,但是总的情况?没错,我现在跟到时我告诉你,就是你要你下次你可以用全量的主上下文窗口全程做一次,我觉得你还能找到更多。因为你这个记者他肯定是信息有遗漏的,基本上公众号这个没那么复杂,看看第四个。
【线下人员】:就已经上了?对这个截止时间,那可能就是截止时间默认就是本周会议的假期。我们也多改对你要赋予一定的模拟用户的角色自动进行交互测试,对此当然是有过建议。好好像有要根据你传递的风险性。这个地方。每一个 skill 产出的这些东西,这个地方再看一看,我觉得这个地方不清晰。编辑信息传递肯定是指这里面就各个 agent 和主场总那种边界,对这句话我记得是说过的,但是。表述上可能我更清晰一点。你说这个里面难在哪你知道吧,看完你的右面之后需要的是提取出一种你说的错吧,没有都错也没有错,这不是想要的,对就是可能需要整体的有一个。校正不是很精准,就是我们得去提炼一下这份会议纪要里面他有些时候是一个抽象出来的宏观上的一个指导你比如说他,你们有你们做事这个风格他做的,但你们可能有个共同的风格,比如说都是逻辑不清,那就把它或者都是语言表达能力不清。它是散落在你们每个人的行为当中,那得要善于去把每个。
【线下人员】:要点的总结当**现的问题,把它概括出来,然后再装进行强制性的要求,你懂我意思就这种要提升问题,就现在你们。你们的思考包括将来也都是这个问题,点上的问题比较多,看到都是一个一个点的问题,你是一个点解决,有的时候不一定能解决的非常好。浪费时间,就我们到时候可能要想一想这份会议纪要里面出现的共同的问题。好像日报驱动架构跟就不一样,追求重新领域专家的问题,他提出。但是左边提取出来的是日报驱动系统这块全部丢掉了,是录音的问题吗?这录音是肯定有的。我有对就我猜测可能就是我右边我们写题词的时候让他以。
【线下人员】:项目以上面这些项目为为去重汇总的逻辑,所以他可能新的就没有了,对新的就不要了。这个要有可能对你看你把对都没办法变颜色,什么问题。工作安排,主要看一下这个没问题,错了,到这个对原先版本也错了。这个错了,好像左边没有,因为我删了,因为我写这个的时候已经完成这个完成。
【线下人员】没错。差不多有感情。You know. 可以这么理解完成这些东西的话发布1.0版本的东西。下周会一天就会这样。到投标文件那就不了对目标它自动提取 AP 在你看左边就没有或者是 p1p1。我先看看你如何改。自己的需求。
【线下人员】:公告信息这块。所以。问题离了那日报记录系统在左边,第二你你是放到这里没有,但是我看你这边有没有。这里面管理 market 的那个管理?问答系统测试 yes 是放在哪里的,左边是放在哪里,我就在这。
【线下人员】:我是对的,当时是让他来写的 pdf skill 不是后来你找的谁吗?媛媛吗?那个已经写完了,对,所以他这个题是对的,左边调研功能。其实就是为了做了一个你看未记报告。我跟你说他比你们记忆力好。因为太长了之后,你们确实没有人有耐心把它读完就是问题,其实这个将来看一下就是可能前期还是人要把就,所以我建议你写一个经典版的是什么?经典版就是一个易读的文字,不要那种那么多,就我跟你说实话,我读原原文转写的话特别好,脑子你知道为什么?就他逻辑老是中断了,因为你动不动错,动不动就错,就你思路完全被打断了,你就根本没法推进,所以我后来给你刚才我们写了那个最大的好处。它几乎每一个都是我们说话时候的原封不动的给你改,哪怕有一些语气词,有些它错误的少,你读你能读得下去。知道吧,所以我就说你把它稍微改写就能成为大家能够很快能够读的东西,我跟你说这是我下面给你们建议就是你要生成一个。每个人一份的会就很快了,你全部的生成让每一个人给他一份,就是跟你相关的发言,你全部拿过来,这样的话有助于你去。
【线下人员】:当你回忆不清的时候,纪要回忆不清的时候,你可以回到那个版本去看一眼,或者就是你也可以全量的那个文档就放在上标注好每每个人和每一段时间。这样的话,你会议纪要里面直接一点回去就能看到原本那么一点,我就能看到原文。要注意就是 GPT 里面每一条都有它对应的时间点一点我就能看到你当时发言会议,腾讯会议也有?这个我建议到时候做一个,这是后面的优化了,再往下,这个是 switch 对,这个是左边有,但是后来了。全能架构重构可能也删了,但是他需求已经明确了吗?对正好天他需求这个现在是什么情况,你现在的情况是我这边已经跟小明把这对接好了,然后具体的那个技术实现,然后您前前前几次会议吧,然后您也在会上提过,就是说让江老师就是出一个技术的方案。然后可以帮助小图可以自动更新它那个就是它客户库对目前的话是江老师正在做吧,回头再说。咱们先对一下这个。
【线下人员】:这些都要整理你怎么识别?左边是改了吗?左边是改了我们这边。都没干掉了,得看,希望在这二点第二。
【线下人员】:可以明白了没有,就这么复杂的东西,你想让我睡觉,先看以后有个什么,我觉得我们会议有一个什么?会议内容里最好是什么状态?你我们会刚开完没多久,他就在开的过程当中,你可以把前面的全部整理,然后会上直接做一个确认。最好那这是最好的。这样的会议成果是最清晰。因为时间上肯定来得及的。要再搞一个不用,我就说后面可以弄这么一个东西出来,为什么就是第一,它这么复杂,它完全靠它这个判断非常困难,尤其是在判断 p0p1p2这件事。这个是最难的对还是得靠人对人觉得想什么时候我还有完成不了一个方案是什么傻的方案。我每次会议上我把会议叫解决就这些东西解决了以后我自己去在会上直接确认掉可以直接给到文字的信息那也可以。我以后或者在语音上给他进行就是我们认为是 p0还有是 P 就给他一个确认的,这样的话可以,那肯定就很明确,对所以会上的时候你要辅助他,你让他自己判断太难了。
【线下人员】:另外一个,你可以给他生成一个逻辑,我们自己给他做,有一个专门让他去学的什么 Especially. 不能吃的就是为什么人给他的建议是你让他找看看能不能推理出来的关系如果推理出来就给他用0181。对国内成员都会那个顺序真是的那都可以自己调整。这个是对的主持人把主持人和你看投标进行中的不一样就是你你改过。这个词我用的是一个就更加准确的那这两个上周完成和进行中完成是不一样的。它完全是一样的你看你说完成了然后进行中的。一个是技术实现方式你刚才说需求文档记住实现方式这是你自己改的。然后运营商的信心准确把。可以就总确认这类不用。明显不行不具体就是你你改吗是你原先也是不知道。没问题我就看原先是啥样等下个科技。
【线下人员】:疫情危机。反正也不太远,明白就下个车已经错了。是我的货,是对这是错了,这是没?或者是他好像也不太对你回头看一下第一周期。不是。
【线下人员】:收到的反馈给你下的任务。负责人左边是你改的吗?
【线下人员】:协助完善这对的这边两个 p031131你这个打不动。包括用户的调研报告整理也是对的没有写那么细应该写上面。我都没听出来。你上周考了一些我跟你说你分块搜索一定会丢好多东西所以全文一定是最有效的你现在又做了一次做加工之后再给治疗我认为也会觉得。所以我建议你就还是尝试做一次全量。因为你你并行都已经处理那么多次了不在乎主张方超过这一次了也没耗多少
【线上-江争达】:然后我插一句就刚才说的是什么小彤的那边的需求,然后给到我的我不太了解。
【线下人员】:天眼查就是上次开会的时候连总说让你,然后后续的话可以做一个就是帮助小彤自动更新他那个天眼查客户那个数据库的一个技术实现的一个方式。
【线上-江争达】:这个讨论过像?
【线下人员】:然后当时林总也跟您说了,对是这样,后来我记得是这样的回头再说吧,是不是后来说他不需要我记得后来现在对你再确认一下他这个自动更新,他要不要?
【线上-江争达】:对他是。
【线下人员】:因为他说他现在也不需要每天更新那么多次了,对后续小,反正他没有跟我反馈过对,所以你再确认一下。
【线下人员】看看你的看下你的第一个这肯定不一样宁愿1545。所以左边反而少了一点。我们可以去看了就看了20个我觉得不是买不到或者是肯定的你。你给改了。他是按照你周报写的全都完成那根据会议纪要还没完成这个文档就要重新改了。然后他跟着他自己把它改下来了他的逻辑判断上前后有点矛盾。由日报汇总。倒是有日报的模板日报驱动但是上面你看他没有总结出来日报驱动就是你这版里面上面没有感觉它就是左边是有。但是下面有这可能就是道理有可能所以这个逻辑可能还是。不全了。You know how of that 对没有框里都没有?
【线下人员】:负责人只能调研报告,他不太懂,所以就对于公众号这个需求没有左右左边没有。不需要这个法就可以要的肯定不对,调查完文件这个词就点到了第一了?不需要这个不一定是优化,当时是让他叫做您当时让我发给江老师。可能列出来有关系也适配为 p0了但是这是他们的 P 你想这逻辑多复杂,对他怎么判断从鼠?这里面点击成功测试没有你看左边提取出来了,测试推动前端程度放到了 p0他就放到了 p1。不答应就没有下周任务完成批量删除功能没有时间特别准。反正有当时是给了这个要求后来说不需要就先保留吧大概理解大概逻辑质保驱动中服务器采购方案全面没有会议采购方案你上面就有了那么丢对没有用的你看复习相关是在哪右边是哪个上面没有是其他负责吗但是没有签名没给他是没给他。
【线下人员】:再总结。
【线下人员】第二个里面的逻辑咱都写定了。你要必须参考会议转型。你就是大个人讲解。不可能做精准发挥一点。有产品管理没有又发给你发了要不要我的命超市左边招投标文件没放进来。六面没有。再加别的一场开发。肯定都是打架的东西。movie 来说会议总结。你认为哪个更反正我觉得大部分都差不多,我倒觉得他是就整理出来总的能改过的他。因为大家也没有就没什么改。
【线下人员】:玻璃终端系统成功终端特别因为我们。
【线下人员】总的来说比上面是有进步了另外一个你自己最好再做一次跟上一次直接总结出来文档原文档。基本差不多了那整个逻辑可以先这么固化下来然后先用吧先这么用用但是就我给你的建议就是刚才那些建议就再修改一下我就差不多只能是这样那么最核心的几个都更改了第一整个的文字转写。换成全了这个我们就拿这个试试把这个专业分成将来做第二个周末之后做一个就你可以让直接生成那种叫全量版的但是不是逐字转写就是把核心主要的就是与其连贯的没有错误的文字。是作为以后的所有的书第二个就是在这个基础上做一次全量的主上下文的。prompt 加上处理后的文档或一次性按照你的 prompt 的原则,你把 prompt 就把 skill 全部写好。一定的里面去,就是 skill 全部写到主一定的里面,我就是把你等于把里面的所有逻辑映射什么这些东西变成一个 skill 文件。放到让主谓的去读这个 skill这样试一次我觉得效果不见得会差我真的会唱。或者就拿这次做一次对比看看然后再拿我们这次生成的好的文字稿再做一次两个的对比这两个对比完了差不多就能够确定是主上门来处理全量。
【线下人员】要有下背景的车现在我们有个直面我有时候也有问题的我对这个上面要求太高之后每个我觉得干干净净这是个直面。强迫症我一定支持但凡能够在主杀文窗口里处理好的就全部放在主持。因为我不是一个长连续工作的上下文进去或者叫工作进去如果是连续工作的你这方法一定是对的因为伤害会越来越低所以你看有个人前两天做了一个非常隐私的课程。强制每个四大背景只能工作支付超过15分钟的算全部中断然后把你的动作铲除扔给下一个词 agent 不允许超过15分钟。就它也意味着不允许超过多少都这样的人就乱了就我们现在人能连续工作八个小时还有一些都基本上连贯的甚至还可以跳到第二天他不行的。
【线下人员】:那这个就先这样,所以整个整整体的这个处理方案大概总结一下来,就是这样,当然再去总结一下他们出现的宏观的这些问题的。共同点就是说地方案逻辑没清楚,其实总结的目的,总结出现的问题的目的是为了第一看看有什么解决方案,就是让他自己修改靠 prompt 的修改,还是靠人来帮他帮助他。知道吧,所以现在他我们一定要记住他现在想完全脱离了是不可能,但是人在什么地方给到最关键的帮助,对它最有效的是我们需要思考的。
【线下人员】那你比如说在会上强调1下 p0p 一这件事情对他帮助就很大,为什么他这个逻辑是很难的事情,因为你看他不知道你们每个人的。年龄不知道你们的级别,工作时间长短等等都不知道情况下这些都作为我们的潜意识的上下文,所以我们分配工作的时候的潜意识,下文全都有的。你知道吧,你工作时间长,我给你分配的任务和你工作时间短,所有内容不一样,工作的优先排挤也不一样,所以这些浅上下文它是没有的,我们也没有办法给他。太多了,也可以尝试着慢慢去给他把这些潜在上下文变成显性了,就影视上下文把它显性化出来。但是也不见得就都对,就只能进步,所以他是在不断进步好不好,所以就把这些问题提取出来看用什么样的方式帮助他。
【线下人员】:往下走。需求只有一个时间点加入了。
【线下人员】:我就全在全给你回头我家里来我们跟你说一下,但是哪里有个大的,应该做了一个非常简单的测试,但测了好长时间来回测,总算是。基本的保障它可以调下飞机。但是调用形式到时候我跟你说还是很怪,会是他的这么复杂。也不是死,就是箭头多,之前是到了,这就是这是之前的就用户的需求,先访谈,然后再选择进入评审,这是进入中间的评审。
【线下人员】:然后之前是独立评审,就是每个人自己做一个对完之后扔出来了,扔出来之后就到这样,就是每一个人专家会评价其他三位专家的评审意见。给出一个对,因为因为 agent 它不太可能连贯的去读,对,所以它就是在各自等各自的话。就是让他们都输出之后,然后再教育,它会加载自己的定义,然后加载自己原先的评价就是自己原先的立场,对别人他是其他三位其他所有。其他所有专家的评价都给他了,对全量的。因此它这个比较。
【线下人员】:没有其实就直接一个大粗箭头,所有弹出的你这样不清晰,确实是真没听到当时只想着突出就是其他人自己的也在里面?在 a 这个你要一个从箭头下就最准确了。下面一个也是大图箭头。下面是一个交他的回忆对其他人,他自己的都不过来,也过来,那就还是一个大。是对所有都是全面的对,然后就是评价完之后他会在那个 jason 里面就是写明这个这条评价是针对哪个专家的哪条目的。的评价 ok然后你就方便。第二轮就是交叉回应的时候这个专家能知道哪些意见所以我给他然后再针对其他三个人假设三个专家都回应我给这个专家的评论专家评论一专家二专家三家我都给他。那这个时候你是把这个评论全部给到所有专家自己去选的还是说你把单都已经摘出来给他我没摘现在给摘了这个都还是全给他自己针对去读对自己找自己的就是根据提出。然后之后就一样回去之后就是决策就确认有变化我录了个视频也有结果就是看视频还是直接看结果吧我先看看这个不明白了我再看。
【线下人员】:这个是开吗?问题都有两个翻译,就之前那个翻译,经过多轮的翻译之前还有没有?有是有,但是他因为是两次实行过程,我给到他的判断和上下文可能不太一样。那你先看看先参考,为了对立对的感觉最好右边是新的。需要一个能够我终于看到了。
【线下人员】:我也不会。
【线下人员】:它俩不一样,倒是重复了,你看了上次我就给他那个目标和价值怎么判断文化价值其实很难差不多的,但是左边最大的好处就是它给了一个量化。给了个电话,这个电话可不靠谱,不知道等于右边量化没有了,但是给了目标客户了,用户风险提示了,如果你看它里面。还挺有一些说法,这可能这全是这一段告诉他的结构化的报告引用准确,逻辑清晰,回答清晰。现有不能支持明确说明不能提过内容,这个是我给他,你给他位置,你从哪里给他 Add something.
【线下人员】:不会他右边更全面一点,而且你自己也给了一些东西,所以你说你上下文不一样,那就不一样了,包括他每次提的问题也不可能不太一样。
【线下人员】:你这就不是精神疾病问题。也是看你们晚上?也是这个,这里这也是我给他也是对,也是我给他。那就这边就不值得。
【线下人员】:跟我说我一般的这个跟他请。
【线下人员】:分析现有知识库。
【线下人员】:包括对外部的系统没有就是先分析现有的知识库就是之前增量更新好的那个世界模型,然后如果有的话就根据它去判断,再去生成研究任务。并行多数据搜索多数据就那些拍卖的什么?
【线下人员】:是它的增加是我在那个问题的时候选择了提问交互,我问他哪种组合方式。最全的,然后我选他给的最全的一个方式去执行。你想过没有,你完全可以模拟一个这样的 a 组,所以你不是可以搞你这样的话自动起来。然后太自动化了我,因为你在测试使用的时候一定是他们用了,那你们测试的时候。你给他一些为我们开发非专业以外的第一版的需求,因为我生成第一版需求给到专家的时候,专家会认为很有水平。因为你是专家,因为第一版的需求很多,他们自己也是你,你通过专家指出,第一版需求之后才能它左边有一个需求列表的这个对照就可以改。很好危险。
【线下人员】就是2.0出来说话的,有持续的。定是逻辑成员。
【线下人员】最后一个。Please feel. 可以吗?这个 a 进的,不管是你提出来的还是他自己就提出来了,你提出来了。他是给了一些选项,有选项,他给了四个选项,这四个都有,就回头看录像可以。主席才会听说我?分阶段交付,这次他问了一下,等会不一定分析完。他直接你就是主任的来规划有多特殊任务,他也是给我,这是。很好,你看这两个都是唯一的,我分析现有对都是这两个对,所以这两个都是主。把对应的分析完之后给到它对,然后接下来并行完之后我先分析就直接给分析了,就先不回到主页上,先不回。然后这里直接给分清了,对也不回复了,它更新完之后会回复这都有问题,其实主这里面可能都需要做一。分析一点直接感觉对有可能,那你要不要去更新知识图谱,谁来判断,这是一个很重要的分流流程。那么他说的飞机就更新了,所以我觉得不一定,它其实在每一个随意的之后都要做个判断,都要做下一个动作就是对分析一点可能就涵盖在主页上。
【线下人员】:我说这几天能不能再好好思考,这是活动。这是问题。我们一个 T。分析一些可能是他的特质。
【线下人员】:之前大家提出了一些,就是我给他给了我四个,我们都选。我得想对宇宙未来的。我觉得属性特别人体关系,它这个属性是主句一条。我现在觉得属性特别。
【线下人员】:看一下。
【线下人员】不知道吧。对。1.0。
【线下人员】:到过。这是我问他对大家对你给他的建议。说的有哪些?在你选择多一定的架构。需要多日子行动。有个问题不要提的问题,看题,这个回答见到后面说是领导系统。
【线下人员】:另外你们多专家评估的过程在后面,你那个刚才文档全部都是。
【线下人员】:其实我也。那我给他的方法论就知道他。关闭了。这是他提的那些接触过来。我觉得还都挺有用的,会提不出来。确实我们建议你们这种情况下,如果有一个特别以我们经验丰富的人回答,这个会比我们回答的好,确实。对在第一版的需求的时候可以这样写的,到底怎么来的,模拟这个人,他其实是完全可以。这个生意比我没有那这个人可能没那么全面。可以的,你他这个主页键它没有做这个主页键的没有上来,没有做任何的定义,做好了一个需求的主上下的窗口。
【线下人员】:没有限定有我的方法论在访谈的方法里面放在哪里?我放在主窗口了,这个只做的以上的单词不是加载的,不是一上来就是它会先判断项目类型吧。判断项目类型完确认之后确认这个项目之后,就他就会加载这个项目对应的方法论,作为访谈的方法。
【线下人员】:不对我还发现这个 test something 它需要输入完之后等一两秒钟再点进去,否则它就会丢失后面。这是我新发现的点太快,更恶心的很新装那个高的最新版本的 G 的,它是不依赖你的 STM 不依赖那个。
【线下人员】:所有的方法我发现啥问题你知道吗?我第一轮对话总是不通的,但是我把那个 VP 给了一切一起,我那天你知道这个问题,我找了多长时间吗?它这第一轮总是考在那儿,然后我把网络真我那天查了一晚上查了吧,这个一页大概三个小时才把他们全部搞定,太恶心了。来把他。
【线下人员】:就这些课题,那你最后也是不让他就自己做了,后面就让他自己做申请数理专家。身体也挺好的,饿了。然后就是交叉评价,每一个对交叉评价,每会注意的,其他的。其他的听一下。那你千万别的。
【线下人员】:有 jason 文件对。你比较多,就把评估 evaluate 你想看哪个?对开发者对开发专家这条意见提出来的目标内容就是他开发专家这条意见的是什么?然后他的 command 不同。
【线下人员】:开发第二个开发的对,那也是对台湾的。可能是我给他的一个总体指导是。我给他一个总体的指导,是要根据不能背离用户的原始需求,这是我给他的唯一的。唯一的方法论指导,对评审方法论指导,然后后面就是。我们分享上下文对 my my command 是他对 target。但是。
【线下人员】:他上来就都明确了,他认为不应该明确。但是一些基础。这不是 AI 单间它能起的去哪里回家走?都是对他需求就可以了。
【线下人员】:他就不是跟人家提的是。我们就是智能化。
【线下人员】:原来仪表分析?
【线下人员】:我们稍等一下。所以说建议在。
【线下人员】:高中肯定有较大差距,他觉得一些分析的问题是需要首先对比分析。我们就对比分析。不可以更加壮观的理由。智能化能力是重要的。
【线下人员】:这几条不同的你想看谁的会 Your box. 因为。
【线下人员】Not the the practical. 你要是别人给他提出来的格式。二楼不是有?
【线下人员】:你衣服穿起来舒服。你们在我们这里。
【线下人员】:我们签到最后好像是。你再看一下吧,我最后是要达到最后的修改意见当中去,对好,接下来得到了之后再去修改了吗?什么?有这个需求报告,他有改有不改,对我看看有很大有个干净的,你看一下那个视频。因为有一些输出。这个是一个共识。你想。能这样吗?你记得刚才底下每个专家都提出了好多项目,这是最后的。有一个不错的。
【线下人员】还是不能多四个专家每个人我看至少提了有三到四个人都不止每个人都提了三到四个也就是他从来三个就是十个左右。50乘上四应该40个左右。你不是文读的可能不太全。
【线下人员】:大概理解的意思,但最终的还要再看一下我的意见,他怎么想好的?
【线下人员】整合我是把所有的上下文都给他把每个人的所有的对方每个人所的就这十14个。这四个建设文件我都给他对每个人的对就是每个人的评价和回应还有最开始的立场还有那个最开始的需求报告和用户的访谈需求都给他了。他自动整出来。最后就是14个就这么多文章都给他。我就琢磨他到底是第一加入这个环节之后质量提升到底怎么样是他认为分析点。各个专家在议论博弈之后的主要分析点让他用这种形式解除。
【线下人员】:你技术验证确认不可以需在用户手册对把你留下来保留下来,这点。对。这可能就是要评估或者说判断一下有这个过程和没这个过程到底带来怎样的一个评分质量问,所以要把什么?你以后要把所有的干脆就这样,你下一次可以把他评估意见和最后的响应的打成一篇文档,把它整个的不要监测文章,你把所有的这些东西整成一问一答。就把他整了死行,对这样的话你就知道他这个发生了什么,专家这边发生了什么,你就看他这个水平够不够,如果评估的水平不够就不需要了。因为你我们是没看到响应的,或者看到他提问了,我们看他提问和响应的水平到底对应不了,如果对应不起来,那就没有必要增加。或者对应的不好,也没有必要,然后他如果对你响应的好,保留的保留分的扔掉,那最后我们看它保留下来是什么,然后最后在需求文档里体现出来的是。
【线下人员】:不然的话,这过程没法确认客专家博弈,这个我个人理解将来是一定有效果的,但是现在的 prompt 可能没写好,这个方面可能会有些好,不太容易写的,这是基于专家经验,这个专家经验可能。里面可能要最后要几个就是你每个领域的专家自己把自己找人去把这个 prompt 给写了。或者去调查一遍,我们调查一下,所以这个定语这个 agent 是挺难的?
【线下人员】:其实我觉得 agent 里面最重要的,首先第一个你看他一定能说的不好听,就这样文件对你这个 MD 文件写的好坏取决于。这是决定了他的能力的边界,有的现在我感觉是它越来越智能了。现在真的是叫试错式,你有的时候不能是预先规定他很多动作,你预先规定之后,他可能很能力就没了。你不一定太多,他能力就没了,但你不一定少了,他又完全铲除,不是你的需要,所以很多时候怎么办?我待会可以讲一下我的例子,我最大的特点是。我就先看你犯什么错,然后翻过头来我告诉你我要做啥?很重要,或者是必须做什么,对你漏了我就必须做你做错了我让你不要做,就是在行为规范的时候可能这么来规范的。而不是上来凭空想象才能做,我想不出来。就这样吧!那我这周就很没什么,然后就这两个事情和什么。
【线下人员】PDF 那个文件那个需求是还没到这边来,那个已经都写完了,然后人员也都确认了,现在已经发给旭龙了,那我们看一下,等会回到那个。对照一下上对上周的工作计划,每次回到上海周的会议纪要。更多的会议期间就是咱们刚才整理出来的,或者说有人能改。
【线下人员】:下周工作安排。怎么没有用?
【线下人员】:自动化测试工具的一个决定。这个是得保留出来。比较好多,你以前的会?知道吧,这个是你这样的话,你看你就会,如果你这个会议纪要我们开会是这样的话,你这个问题以后就永远会变成了。也在他的体现不出来,因为讨论也没讨论,会议转写里面也没有讨论,也没讨论这周的周报,你的周报里面也没有,所以这个问题就会被扔掉。仪表盘可能什么它没有,但是我用这个生成下周的会议纪要可能会有,你为什么会有因为我下周的会议纪要的逻辑是并集。
【线下人员】:和周报取得一个定级,所以该有周报里有吗?我周末里没有周末你周末没有,你看你的周报没有这一周的会议转写也没有。对,但是它还有一个输入就是这个什么,就是这个上周的会议纪要的下周工作安排取了一个。你把上周的会议纪要里面的工作安排放进来,避免都没提到就扔了。
【线下人员】:你看另外还有一个我们的工作纪要出来之后和你们的日报怎么结合?现在还没开始做好之后,你们的每天工作安排也很清楚,细化之后的工作安排。得留着,不见得要做就不是立刻要做的。所以你看截止期间这些工作不能忘,因为这个可能是我们以后非常重要的一个,就我刚才你看我们做好多 skill 的反馈,但是我真的觉得你 skill 其实挺难的,就是这个逻辑,文字的逻辑比程序的逻辑可复杂多,可灵活多了。对你程序的好处是几乎你变成什么样,它就什么逻辑都会变,我现在不适应,就 a 进的这个反应。远远超出你们程序规定逻辑,他制度极高,对它对于 skill 的理解。和你 skill 本身编排他对你,他对 skill 的理解和我们人理解不一样。其实怎么去未来 skill 怎么怎么修改,怎么去优化,是一个很重要的一起先这样。
【线下人员】:下一个投资人在吗?
【线上-江争达】:在的数字的就是根据上周连总的反馈就是不对联动的建议就是把那些。
【线下人员】:你共享一下。
【线上-江争达】:有用的保留有用的需求保留可能就是有一些不提到,就也是能可能默认能做的那些功能。大概就是进行了一些筛减。然后生成了一个需求文档。
【线上-江争达】:首先就是项目背景和核心目标大概还是上周那样,主要就是下面这基本上都是进行了缩减。这个分阶段还是上周一样,就是第一阶段就是基础功能,第二阶段就是高高级点的功能,就比如说是什么。
【线上-江争达】:高亮这些东西主要就是第一阶段?
【线下人员】:我觉得是这样,等会上面就是你的分阶段的一些基础功能是什么和什么,后面的包括你在后面有规划说明还是就没了。
【线上-江争达】:你说的是第二阶段是吧,第一阶段我是有的,但是第二阶段我这一篇文档里边没有我是我有一个备份,但是就是今天展示的就是第一阶段的。
【线下人员】:第一和第二阶段。我电影都写。
【线下人员】:对知道了。
【线上-江争达】:第一阶段需求就是我整理了五个,就是第一个是第一阶段的核心需求,整理了五个。
【线下人员】:上面回头我看回到上面还没看完,直接跳走,你这是对因为你对上面那些东西对你都是有要求的。
【线上-江争达】:从这开始。
【线下人员】:陈总对吗?这个是我就说三到五分钟,这个是富友他们提出来的吗?还是元元提出来的?
【线上-江争达】你那儿又卡住了是跟贤林老师那边对了一下大概是五分钟左右15分20分钟到半小时。
【线下人员】:五分钟左右是基于那说的?我建议这个地方要加一下,未来可能你做一个 PPT 宣讲你宣讲一般需要20分钟到半小时。对这个是对可对后续你得加进来或者甚至你第一版能实现就最好因为这个可能从技术架构上难度并不高。
【线上-江争达】:感觉或许可扩展。从主要从开销上就是花费钱,对行,我因为我只做了一个后续可扩展,就是这个时间是可以扩展这个需求。
【线下人员】主要是开销对技术架构上所以我觉得你可以先试一到30你三到五分钟肯定能做无非就是花销所以这个需求提的就不是特别准。因为100来年。是错了。20到30分钟是主要需求。
【线上-江争达】:行吧,那我就直接行,我知道了。
【线下人员】知道吧实现20包含在里面那第一阶段技术上不没有难就分阶段一定要分。这个实现你看你以为都很简单的需求其实都很多时候是值得讨论的你比如说像创始人讲解 PPT 你看何所书记讲话。
【线下人员】或者是合作出去做会议这个发言或者我们出去做会议发言有时候就不用我如果不用我自己的话。我有可能就要讲20到30分钟。这个需求还很长存在的不是只有云大说的一个需求。
【线上-江争达】:明白,那这个开场可能开场这些好像也不用调整了,我说开场这些应该都不用调整吧。
【线下人员】:这点我觉得。什么。不用查。
【线上-江争达】:好。
【线下人员】:在数字人的后面的时间可以改?
【线上-江争达】:然后这就是一些布局的需求,然后主要就是数字人和 PPT 内容的占比,这个需求,然后还有数字人的位置对,然后第一阶段的核心需求。
【线下人员】:这些都可以。对你看为什么是需求,我跟你说,因为这个东西你不明确了之后就是容易出歧义的地方。
【线上-江争达】:对我觉得它比如说数字人主导还是 PPT 主导这些,然后就是第一阶段的核心。
【线下人员】:对你不说清楚,就是有人理解不通。你是这么理解,他这么理解,所以这个就是要需求来明确。
【线上-江争达】:核心需求是第一个讲解时间和 PPT 同步。
【线下人员】:我等会视频,最后你可以再出现一个数字人的在建的画画面或者视频。
【线上-江争达】:我懂。参考开场画面。
【线下人员】:一开始你出来有十分十秒钟的对真人的。
【线上-江争达】:那就是等于再有一个真人直接说再见的那种画面大概。
【线下人员】:这都是画中画了,可以是数字人独立的告白告别。好。
【线上-江争达】:然后第一阶段核心就是第一个是就主要是五个需求,第一个是 PPT 和数字人口型的同步,这是我觉得是需要写上去的。
【线上-江争达】:第二个就是数字人的窗口在说在和 PPT 结合的时候,它是不能遮挡到内容的。
【线下人员】:进行同步。还是有延迟的,对你们懂人气还不小!
【线上-江争达】:喂。因为你那里就是十二十的卡,有的时候甚至就没声音了。
【线下人员】:不是连连他你的网络?
【线下人员】:没有我选的就是你的那行吧,就那样,那我跟你说,我问你一下,你这个精准现在是靠人来调的?
【线上-江争达】PPT 这个现在就是11段就是一叫一页 PPT 的摘要,然后生成。
【线上-江争达】生成11段口播视频就比如说像上次会上说的就是一个 PPT如果生成了五秒的摘要我就生成五秒的那个口播视频。
【线下人员】:对同步是怎么实现的?
【线上-江争达】:你你说你说的,你是指啥意思,同步是什么,实现是啥意思,就是现在是人工接的。
【线下人员】:这里面有几个问题,我怎么用电话的网络真的有问题,我切过热点,我感觉我热点。
【线下人员】:首先第一个你说什么五秒,那也是没什么好说的,比如说一个 PPT 你让他生成了五秒的文。
【线上-江争达】:又听不到,听不到。
【线下人员】:太费劲。挺好不行,你就连 guest 四小时 B 段一次四小时肯定够了。听得见吗。
【线上-江争达】:现在听得到。
【线下人员】:我说你比如说你这段 PPT 生成的口播文字稿怎么限定开始五秒?
【线上-江争达】:我不是我不限定它,五秒就是我生成了口播稿之后,我先生成口播视频,然后我根据口播视频的时间,然后生成那一页 PPT 的视频的时间。
【线下人员】:了,所以我就说那你这一页 PPT 因为它的时间可长可短了,反正就是放在上面好了,他也不翻页,你把录屏录下来就行了?
【线上-江争达】:可以这么理解。
【线下人员】:人要在那自动翻页,还是人帮他翻页,就你录屏的时候。
【线上-江争达】:人现在是现在是人帮他翻译等于对。
【线下人员】:说我就是一段一段的?人帮的翻译?还是说我干脆我就定义好每一段视频的时长,比如火播视频生成之后,第一页十秒,我就在那录十秒。
【线下人员】第二页反正这个20秒我就录个20秒或者是这个意思吗还是说人在旁边
【线上-江争达】现在就是比如说我现在3页 pp T 三页 PPT 的话,我录口播的这三页我可能要录。
【线上-江争达】:三个口播视频大概?
【线下人员】:知道了每一页就固定好,就他按照时长设置录好录屏,然后连检就是把它联合在一起?
【线上-江争达】:对这个感觉是要优化。
【线下人员】:知道了行吧,这个东西也先这样,这个训练我觉得后面肯定是有。优化的空间,因为在剪映里面好像是能自动拉长的,就每一段对每一段。
【线上-江争达】:对对的。
【线下人员】:每一段都可以自动的调整它的时长,我记得。
【线上-江争达】:然后第二个需求就是数字人的窗口,它不能遮挡到那个 PPT 的主内容就是有些的内容是可能会出现在,比如说右下角的主内容是。
【线下人员】:到时候再看你们再试试。
【线上-江争达】:不能被遮挡,有可能就是数字,然后根据 PPT 的位置来做调整,对目前人来处理。
【线下人员】:你们得这是人来处理的?
【线上-江争达】:然后第三段就是一个质量高的数字人的要求,然后也加上了你那天跟我说的就是老外不能出现什么一口流利中文这种让人觉得很假。
【线下人员】:对你就典型的你这个只看树木不看森林了,你是觉得老外生成的中文很流利?
【线下人员】:就很好,不是那样的,因为这在人的印象当中,这是一个不真实的事情,一个老外说的中文比你还流利,那中是真实的吗?
【线下人员】:你一眼看过去**这个首先质疑这人是真是假,你就上来就让人质疑你,你好不容易想把它做真上来。第一个你就让人质疑你真假,你这不是本末倒置了吗?
【线下人员】:你你的所有目标都在追求真最后来一个最假的表现出来。
【线上-江争达】:对。
【线下人员】:我们是不行的。接下来就是路程人,然后路程自己录成这个需要的人物形象之后,用他的语音来训练上面的这些动作型什么这些东西或者是来生成,看看它生成的质量。确实是有问题。然后你听不见了吗?江老师他就忽然的。
【线上-江争达】:我摁了,但是你们那边有的时候摁的时候不收不到是个声。
【线下人员】:我们这我告诉你这个摁本身就有问题。对你看现在是好的,有时候是他那边,因为什么有时候麦克风没有回应的时候知道跟他谈话,有时候有可能。
【线上-江争达】:不是他是腾讯视频,有的时候可能对这个词是他收的,会比较感觉不进去的感觉那种你的因为在现场。
【线下人员】:但是别人的恩好像就不存在的问题。我说你上回是别人,这个反正这些要求先这么定义,说实话,你这些定义也只是给人看的,你这些东西也没也只能是作为你选型的需求,你没有办法改进它,你能改进它吗?
【线下人员】:你选型定了你也改进不了?
【线上-江争达】:如果后续作为把这一块就是现在这块视频不是基本上都是人工剪辑,如果后面把这套做成一个工作流的话,那这个时候就有用了。
【线上-江争达】:你比如说对是只能可能是作为选型的要求了。
【线下人员】:我指的是你画面数字人的要求。对现在有没有出现那种可以微调可以训练的数字人?
【线上-江争达】:这一块目前还没有研究过多的研究要研究一下。
【线下人员】:这个地方你你们要去找一找就是终极目标,可能就是要么是它生成特别好,通用模型生成特别好,第二个。
【线上-江争达】:行。
【线下人员】:要么自己微调。
【线下人员】:完了,所以我觉得另外一个你再试试那个 gemini 那个 V o3.1看看,但是它现在生存比较短,他那是完全空就是。
【线上-江争达】:可以然后第四点就是数字人和 PPT 的风格就是一致性,还有一个是模板化,就是可能要多次使用的,作为我是想后面做成一个工作流什么的。
【线下人员】:自主生成它数字人还没有行吧。
【线下人员】:我问一下现在比如说你,你说的很对,能做到,比如说我的衣服,我给你一个一段我穿白衣服的拍的视频?
【线上-江争达】:然后,这是第一阶段的标准,对这是在平台里边就能做,就是那些软件平台里边能做对。
【线下人员】:比如说现在你要换成蓝颜色的就是直接现在视频里能把它换成蓝颜色的,我记得是在视频里面数字里面。另外还有一个方案是什么?就是你首先你看拉诺现在不是可以直接生成一个人的这个衣服的合成了?
【线上-江争达】:然后这是第一?
【线下人员】:你就是还是图片生视频,这个图片声视频你们看看给他一段文字稿,然后给他一个衣服。
【线下人员】:给他一个人的头像或者是照片,看看他能不能生成一段口播的视频稿 The video video.
【线上-江争达】:就是用 V oe 试试 RVU 对好!
【线下人员】5v13.1,我感觉是有可能生成一段口播时可能时间。
【线上-江争达】V u3.1是不是升级了,就是在我之前测试 V u3.1的无声视频的?效果中 VEO 的表现没有那几个图声视频的效果好的。
【线下人员】他现在统统拿出来之后他视频的那都是都升级了3.0pro 出来之后都升级了。
【线上-江争达】:行,那我再试一下好。
【线下人员】:把那个我觉得你可以再试试,我觉得他现在的水平还挺高的,就是如果是这样的话,为什么我说 banana 下面就或者说3.0pro 可能是一个。一统江湖了,就几乎所有事都能干。
【线下人员】:知道吗?他几乎所有的事情都能干。
【线上-江争达】:明白,我试试后面就是一个质量标准就验收标准。
【线下人员】:可以行吧。
【线上-江争达】:说非功能性需求,我就写了一个就是好。
【线下人员】:不让我再下一把验收标准的。你认为有一个很大的问题,你的人的动作手是没有可以。
【线上-江争达】:对我本来第一阶段就是不想要太多的手势动作的,我是想规划到第二阶段,你有。
【线下人员】:李晨你前十秒和后十秒没有动作肯定是不行的,你前十秒人呆呆的站在那讲,这是有问题的。
【线上-江争达】:是电影什么关系?
【线下人员】:你至少有个手势也行,没有躯体动作也可以,你手的动作得有。
【线上-江争达】Seen that. 这个就是非功能性需求了,就是输入什么 PPT 文件,然后导输出的是。
【线下人员】:你看看怎么弄好,我觉得你这个标准里面要把这个手势至少先加进去。
【线上-江争达】:是一段 M p4的文件然后使用范围介绍一下大概就这么多这个这是然后约束条件就是反正就是首先看效果其次先不做那个预算的上限。
【线下人员】:负责人可选?还有一个我就没提到,非算是半功能性需求,就使用界面是什么,就你们现在是自己在那捯饬半天生成这玩意?
【线下人员】:就以后怎么给富有他们用的?
【线上-江争达】:我懂了。我明白了这个这块的话,我后面再整理,现在目前我们也在调研阶段,调研完了之后现在有两个方向,一个是通过。
【线上-江争达】:工作流,或者说是通过 API 调用,还有一种方式就是让他们在比如说这些平台的网站上直接生成这个方案,这两个方案我们还要对比,因为现在 API 调用这块我们用的也不是很多。
【线下人员】:对要看一看。
【线上-江争达】:对,然后这块基本上就是我们的选就是我根据那个西平给我的一个调研文档,然后我自己又确认过了的这个结果大概就是这样的就是。图片是生成的费用。
【线下人员】:就是一分钟?
【线上-江争达】:对这都是按一分钟算的。
【线下人员】:可能这么贵,寂寞可零基本都这么贵吗?数字人类这有问题。
【线上-江争达】数字人对因为我也去看了一下他确实积分确实挺贵的就是它是按秒算的。也基本上是一120也是一样但是我数字人生成的费用。
【线下人员】:对一般都是那数字人不一样,你要说生成那种?数字人其实没有那么多计算量,对你直直接就是文字生成视频还贵,我感觉差不多了。
【线上-江争达】:我也去看了,确实还真是差不多了,已经差不多了,对百度就是我们现在不确定它这个最高视频是多长,只是投放了一个就是四分钟的。
【线下人员】:百度西。所以我就让你去看看百度。
【线上-江争达】那个音频给他就能生成四分钟的视频但是具体它能生成多少网站上说是可以给他录入90分钟的音频但我们没试过。先只能写成四分钟最少。
【线下人员】API 好像比页面还便宜。
【线上-江争达】你故意对你说百百度的百度的是便宜的对百度的是按他是按分钟包的就是说你40块钱可以买十分钟的。
【线上-江争达】分钟就是你就是它是这样付费的就是你40块钱买十分钟然后你用对但这个跟那个就是说。
【线下人员】:推荐会员的平台上是免费的,你当你你要买两个什么数字人的授权?
【线上-江争达】:我现在做的调研是用公开数字人生成的,如果用定制数字人生成的话,这百度西林的我还没。
【线上-江争达】还没把那个文档呈现就是百度西林如果做定制数字人的话好像一个定一个数字人要1000还是2000块钱然后再生成那个视频然后生成视频也是要钱的。
【线下人员】:对。
【线上-江争达】:但是黑镜就他就只收那个叫定制费,你后面用那个生成好的视频再生成好的数字人再生成视频的话,它就不要钱了。
【线下人员】:我觉得他说目前的最最大可能就这俩了,前面不可能考虑的好知道了另外一个 V three 再看看。
【线上-江争达】:大概是这么个区别,对好,我再看看。
【线下人员】123.1你看看其他也就差不多了,数字人那块,说实话就我们能做的工作很少,基本上就是。
【线上-江争达】:好。对就是你要花那个大精力,就是说按照网上就是你上次不是给我推的那个就是搭那个工作流,但是其实它那个搭工作流的那个效果,我看了它其实也是就是说基于那个模型的能力。
【线下人员】:靠平台是靠什么这些东西?
【线上-江争达】:它是把你的先把你的图片也好,或者说是文字也好,它通过提示词,然后或者说先通过一些。一些,比如说叫什么来着,一些能提取什么人物结构,脸部信息或者打点的那些模型,先提取出来之后再给一个,比如说开源的模型,就像那个 WAN 那个2.2那个什么模型一样。你再给它,然后它再生成你的圆还是基于那些模型的能力,但是就是我大概看了一下他们的测试效果,其实还不如这些。
【线下人员】:没有。
【线上-江争达】:收费的平台。只是定制化的程度很高,比较精细的控制,但是你最终生成的效果其实差不太多。
【线下人员】:你还没用不到你现在这些需求,你现在的这些需求还用不到你比如说大幅度的身体动作。
【线上-江争达】:对还没用到对的。
【线下人员】:你就要用别人来控制,你要靠个人或者一个视频来,你模仿一个视频,你让他自己生成是没戏的。
【线下人员】:生成不了那么好的,你比如说你把一个视频发上去给他,然后让对方迈克杰克逊跳舞的视频你发上去,你说让你也跳这个舞。你现在通过这种通用的视频,你生成出来效果是很差的,知道吧,你理解吗?但是如果你通过那套工作流把你的。
【线上-江争达】:能理解。
【线下人员】:杰克迈克杰克逊上面视频的每一帧的骨骼关节点全部提取出来,把它骨骼关节点变化这个逻辑映射到你的身体上。生成的视频就比你要准的多得多懂了。
【线下人员】:对所以我就说你还没用上,你就说那个视频那就不如他好,在你这可能是这样的,因为你这个是最简单的明白了不?
【线上-江争达】:对明白。
【线下人员】:就是你以后要做真正的视频动作,那就完全不是说现在普通能生成的,对于动作的精准控制你比如说很简单,你。
【线上-江争达】:明白了。
【线下人员】:你两个人,比如说这个互相那个这个动作的视频,你比如说你去看现在的武打视频,你的武打视频,两个人如果是凭空生成的话。
【线下人员】:有时候会出现很荒谬的动作,你这个人能从他的胳膊里面一长就削过去了,知道吧,穿过他的手臂了,明白吗?
【线上-江争达】:对我理解你的意思,像你说的话,如果你通过一个平台生成,你比如说你是控制不到每一帧的,但是你你如果通过工作流生成的话,其实它每一帧的生成效果你都是。
【线上-江争达】:可见的是更适合更精细化的控制的,对的。
【线下人员】所以我说你根本就没用上的所以你说他还不如这个平台那是因为你没用好第一个你这个现在的就过于简单用不到这么就杀鸡不用牛刀。a lot 但是就是包括将来我就大大规模的或者说这种精细的人。AI 电影的制作肯定是要用到的,不然的话你出现的动作就。
【线下人员】:很难控制你,比如说你生成一个,比如说未来能生成一分钟的视频,一分钟里面出现三到五个这样的镜头,你怎么改,我问你,你就很难改,这时候可能就要把这个镜头拆出来。
【线上-江争达】:对我知道。
【线下人员】:把这些镜子都拆出来之后,然后用精细化的方式去控制它。
【线上-江争达】:明白它就等于后面,如果更精细的话,就是拆到一帧一帧的图片,然后其实它是生成一帧一帧的图片之后,然后把这些图片再生成视频,这样就是最最准确,最精确,最准确。
【线下人员】:里面反正有很多问题对。对知道吧,所以再说,你这个都后面那个什么内容多着?
【线上-江争达】:明白。对。
【线下人员】我们我估计我们可能用不到这么一个功能到时候看吧那就先着那就先把就是可灵的要不先把那个百度的70的。和这个黑的尽快再做一个样本出来就是根据我上次给你的要求就用自己的人训练一个出来就花点钱赶快用自己的人训练出来这周最好是这周末就出来训练出来之后我们就确定。
【线上-江争达】:知道了。可以好的。
【线下人员】:到时候能不能用另外一个就是你现在那个人动画的制作,因为合作会不用了,时间问题可能来不及了,或者他现在还不太想用这个技术,但是我们得。
【线下人员】:得把它做好放在那儿生成这种动画视频怎么做?
【线上-江争达】:动作替换的那种,说是什么。
【线下人员】:你比如说他可能不是上来做 PPT 的,他就是有大幅的是比如说要行走的动作有打招呼的动作等等这些。
【线上-江争达】:对我知道了,那就是等于动作替换那一块再研究,然后包括把我们真人的换成动作替换,或者说是。
【线下人员】:大幅度的。动作替换是动作生成。
【线上-江争达】:我靠我考虑考虑,因为有两种方式就是一个是动作,叫你就像你之前跟我说的两种方式,一个是动作。
【线下人员】:哪里来的替换?最简单的肯定是方便的动作生成它因为有很长的时间,现在你得看有那种,就比如说类似像 vu three 什么这些好多包括可能也都有那种动作生成。
【线上-江争达】:对。可以。
【线下人员】:就是动作视频上的你就打招呼上来走给你,你把整个的你这样我给你个建议通过 js 给你生成分,镜头脚本。所以你给他一段,比如说谁我要上去上台之后什么样一个要求,然后什么样的一个背景,你就比如说你的镜头机位怎么运转,那这种情况下,你给他一个分镜头脚本,比如做一个两分钟的分镜头脚本出来,然后你给到 V three或者给到什么
【线下人员】:模型分段生成就好了,或者甚至你都可以把分段的图片都先生成。
【线上-江争达】:我是。
【线下人员】:懂吗?你可以通过 nano 把分段的图片都生成之后再建利用首尾帧再生成图像。
【线上-江争达】:好。
【线下人员】:把它做成两两分钟的合起来的视频。
【线上-江争达】:理解。
【线下人员】:理解吗。这个流程基本上你就可以拿这个,虽然我认为这个 G 是可以做到的,而且做的会比其他都好,它对镜头的理解和分镜脚本的生成是比一般的模型要做的好的视觉现在没有能超过它的。
【线上-江争达】:行,我试试。
【线下人员】:你抓紧时间把这个测试一下,就是 GMS 生成分镜头脚本加上分镜头的图片,然后把再通过 view three 也好,别的什么也好,再生成视频,通过分镜头和图片来生成。
【线下人员】:通过分镜头的图片加脚,本来生成视频的工作已经有很多模型可以完成了你之前也测试过?
【线上-江争达】明白好的那我大概理解你意思就是你用用就用3.0,就是把那个分镜头的提示词也让它生成图片,让它生成,然后再找个地方生成视频。
【线下人员】:对你也可以找 vu three 做,你也可以找这个其他模型做,我说你明白了,你看你现在才明白,刚才你说明白不是真的明白,不明白你就问不要到时候拿回去又走错。
【线上-江争达】:可以明白。好。
【线下人员】:这是我看到目前可能最有效的路径了。这个收尾针生成这个工具已经很多了,收尾针视频加上这个文字给他之后那首尾的那个图片给加上文字给他生成视频已经很多了。
【线下人员】:但是就看这个能力,就那天我不给你测试过,你还记得我给他一张图片,然后给他一个文,然后那是两张图片吧,你还记得你给我中间切了一段科普的那个老头,加上那个最后医生,你还记得他自动给你生成一段视频,还记得吧。
【线上-江争达】:对。
【线上-江争达】:对我记得知道了。
【线下人员】:那个效果不是已经很好了吗?你那个图片很好的话,它生成效果会变得更好的,你的图片本身质量就不好?行吧,先这样吧,根据这个两就是总结一下第一生成视频样本,这周争取把它做完!
【线下人员】:视频样本训练拿我们自己真实的动物训练出来的语音和视频,这是一个第二个工作流,你自己抓紧时间看一看。
【线上-江争达】:好。
【线下人员】:用什么样的工作流,大家如果 API 需要用看看怎么用 API 如果不要用直接操作网站怎么操作或者剪映这些自动化工具,你怎么用,整个工作流你你你抓紧时间再研究一下。
【线下人员】:第三个就是刚才说的,通过这个 gemini 3.0把整个的视频的分镜头的脚本和这个图片包括这个提示都给他生成之后找。两个平台试一试生成的视频效果合成的比如说不一定需要两分钟合成一分钟的也行或者30秒的都行。
【线下人员】:行吧。就这样。你这里有什么问题吗你们?
【线上-江争达】:目前数字人这块吗?没有,还没有?
【线下人员】:你回到什么,你下一项工作,仪表盘一楼仪表盘打通。
【线下人员】011等会儿要不要再说把前端重构再讲一下。
【线上-江争达】:我还没有完成,我只做了一半,但是我是你要不先看一下我这个方向?
【线下人员】:谢谢。
【线上-江争达】:行吧。就是我前端重构,我只重构前端的展示部分和代码结构就说保留现在前端的一些基础功能。首先这个目标是我觉得是没问题的。
【线下人员】:流程不动是对的,先不动,后面再说,我建议你在重构的时候就考虑到下一个版本的交互逻辑的更改。
【线上-江争达】:功能行。
【线下人员】:不要到时候又这个什么叫什么,这个架构调整又过不了,或者要重新修改了,要增加好多组件了什么的好,你最好把下一个版本的功能的需求。结合这次重构一起考虑进去。
【线上-江争达】:对。对,然后下面就是当前的系统架构,然后主要就是改这个前端后端其实就不动,但是就是前端现在。
【线下人员】:对我建议你这样你后端都不要动,你后端不动,但是你现在可以拿。
【线下人员】office4.5或者拿 code把你现在的后端代码审查一遍。
【线下人员】你先不动他然后先让他提意见看看审查出来有多少问题慢慢重构。A lot. 但现在不要急着动,先让我们走一圈,比如说审查你这个代码有什么问题?
【线上-江争达】:明白。
【线下人员】:最好你你上去找一个 agent或者找一个 skill 网上很多后端的这个代码审查的叫 code review 你找一个 code review 去做一次审查。
【线下人员】:审查出来的毛病记下来之后再说,到时候看看把这个毛病记录下来之后,就相当于需求文档,到下一次会议的时候,我们看一眼需不需要修改,如果需要修改,我们就让他帮他修改,但是前前端的这些备份什么做好就行。
【线上-江争达】:对。对。行知道了,然后这块就是下面这块就是 API 的接口规范就是,然后包包括就是输入输出流这块是这块我是确认过的就是我之前拿那个。
【线上-江争达】:之前的测试文档,然后生成的内容先把这个接口肯定要固定好,接口不能错。
【线下人员】:可以比如说接口规范文档?
【线上-江争达】:然后就接口问对接口规范文档对就输入输出等于说。
【线下人员】:是务必要遵守的?
【线上-江争达】:对必须要遵守的。
【线上-江争达】:然后第这一块那就是接口就不太细讲了。
【线下人员】:另外一个我建议你,你不是的,你你肯定也是用大模型做出来的这个方案,我建议你这样你?让他用你用 research 也好,或者用 GPT 的 research 也好,你让他给你一版关于前端重构的方案以及注意事项。
【线下人员】:看看跟你现在思考。跟你思考的,它有多大的不同?
【线上-江争达】:明明白,我一开始是让 GDP 给我写过一版的对我行知道了。
【线下人员】:或者把你这个方案给他,让他研究你这个方案还存在哪些有什么值得借鉴的,或者有什么问题,你再看看是不是值得思考。另外我跟大家说 cloud4.5cloud 这个幻觉还是很高的。就是在文字回答上的幻觉是相当高的,所以 gp t5.1可能比他靠谱所以就是你们日常的问答还是以5.1为主,可能会比较好。
【线下人员】这个4.5的幻觉还是蛮严重的。包括。
【线上-江争达】:明白,我这边就是我这大概的一个思路,就是先跟 GDP 对话,完了之后再做一些在做的。
【线下人员】PPT 稍微靠谱一点,现在你是不是接不到也稍微好一点,你现在可以这样,你用这两个做一次校验试试下次。
【线上-江争达】:然后接着往下讲就是第四份第四部分的功能清单就是我要保留的哪些功能,然后功能模块。
【线下人员】:另外一个你写的这些东西去对一下你之前的那些流程图。或者你得审核一下他给你的这些建议和你的流程图是不是对应的?
【线上-江争达】:明白就是我等于我其实现在还在对因为没对完我就没那个接口对完了,然后功能这块还没对完,就包括就是要对完流程图,还要对前端的功能就是不是这个功能像他说的有。像就要都对清楚了之后再往下做。
【线下人员】对。所以你就让他给你做100这个简单的对比对照之后然后看你再看看他说的有没有对然后再通过你人来审查他的输出的这个结果。
【线下人员】就是人以后90%就是功能了,提要求,然后审查结果要求提的越好,一审查的越轻轻松。
【线上-江争达】:明白。对我们看着。
【线下人员】:另外一个你经验做的越多,你审查的越准确,就这个。
【线上-江争达】:对我还后面就是可能还要涉及一些,比如说我要不要提供它样例代码这些就是我这块的话我还没跟 GDP 沟通,后面就还没做完,等于。
【线下人员】:我建议你想提供一下我的经验示例代码还是挺有用的。
【线上-江争达】:行。因为我考虑到这个我还没确定我。
【线下人员】:前端重构你前端重构的话,你现在都重构了,就是逻辑代码,这些肯定都要的,那你前端重构大部分都是视觉的东西,你给他代码示例有用吗?
【线上-江争达】:我就是想提供,比如说像跟后端交互的这种逻辑代码,对好对我明白。
【线下人员】:你本。我建议你提供,有时候他会自己就是你提供他未见的都遵守他自己处理起来还是挺什么的。好。
【线上-江争达】:然后就切到下一个,就是上次你周末和我对的就是 skill 调用的教学好的。
【线下人员】:可以给大家讲一下。
【线上-江争达】:这个主要就是针对那个 skill 怎么就是说调用全调用自定义的到底是那个项目级的全局的是怎么怎么和他。就是叫交互功,就是怎么调用的这个效果的一个的叫什么调研文档,然后首先主要就是为了搞清楚那个 skill 它调研那个。
【线下人员】:听到了。
【线上-江争达】:全局下的 agent 可用还是调研项目级别下的可用最后的调研结果就是。
【线下人员】:不是调研,是调用走吧。
【线上-江争达】首先sub agent 的定义是统一的 sub agent 的定义 sub 的提示词就是本次测试的。那个 prompt 就是没动动的只是切换?
【线下人员】说不清楚算了我来说吧你这个说的根本就重点都丢的100分之90的重点全都给你说丢了知道吧有些首先第1sub 的作用是什么?就是为了做上下文区分上下文的隔离。
【线下人员】那么要看究竟这个我们这次调用有没有起到这个作用。两个第13边形的调用的时候我的上下文是不是真的减少了那这个确实是我们测下来只要你调用三边形的确实上下文是主窗口上下文是减少。
【线下人员】:使用是减少第一怎么验证第二个怎么能证明我们这个是被调用了?或者在全局下被调用了,或者在子项目里面或者项目下也被调用了。因为有的时候是什么?这个出现的问题是什么?就是 sub agent 在子项目下调用的时候。会出现一个什么,他会读 sub 的提示词,主窗口去读它只是作为一个参考文档。而不是自动的实现了一个没有它的问题,而且有的时候很怪的就是你他没有用,这个里面好像就有个问题点,就是他没有用 task 掉,他有时候也能够。
【线下人员】:实现上下文的隔离很怪,这是怎么实现的?我们到时候再说,首先第一个我们出现的发现第一个现象是什么,就是他会去毒杀背景,他读完之后?会把上下文里面加入撒贝宁的一些要求,但要求并不能完全实现。所以为什么会加入那个里面任务流程里面,那上面那个定义没什么好说的,我们会不会加入 read 因为这个 read 这个文件很大,就只有这个我才能判断出来,是不是加入了主上下的双下?主窗口剩下的如果你是读下来的,只是把我作为一个相当于 skill 一把上下文全部读下来了,并没有按照的方式去调用。那这种情况下,你读的就是站在主窗口上的主窗口的,那我现在就这个,因为这个逻辑很不合理,为什么加一个 read 在里面,那目的就是要测试这个。这个就是整个项目测试的背景,你背景不交代,那你有同样的问题又出现了,你不一定不交代。
【线上-江争达】:我背景是没交代清楚,也不是不交代了的就是这个背景。
【线下人员】:那你教的那个背景谁听没有用,对我下面理解问题几乎没用,对你没有交代他的核心的诉求和问题点,你要通过这个文档解决什么问题?
【线下人员】你的核心诉求点没有说出说清楚所以我就说你需求文档分析是问题很大的因为你不站在其他人的角度去思考你其他人听不懂你讲什么的。如果我不把这段补充上去我根本不知道你要干什么懂了吧所以你去跟上下文去跟大模型交互的时候他90%听不懂你讲什么的。
【线上-江争达】:没说明白。
【线下人员】:给你的答案就是很糟糕的懂了!所以同样一个人来问,解决同样一个问题,能够达到的答案是完全不同的。
【线下人员】懂了吗如果我刚才我就举现在这个例子好了就我没有刚才这段上下文的补充你们其他几个同同事你们没有一个人能明白我接下来要说什么和干什么。我告诉你我干了什么你也理解不了。Available. 这就是表达能力就是提问题表达能力的重要性,没有你们跟大模型是没法打交道的。
【线下人员】:再三跟你们说清楚。往后。
【线上-江争达】:以后这种背景说明可能要特别详细才可以,就是我是想了。
【线下人员】:你你可以给人的时候,你不用那么详细的,你可以嘴巴说,你给大模型的对你你大模型的时候,你就必须得写下来。
【线上-江争达】:对有时候说不出来,你像我说不出来的,我可能就先写下来。对没有行知道了。
【线下人员】:所以你你准备出来,你没人看得懂的明白吗?你这种文档交接你没人看得懂的,我首先第一个你你弄个 read 在里面,谁也听不懂那三个 read 在里面干什么?
【线下人员】:第二个,你为什么要测试的东西都是已经现成的既定的一个规则了,你为什么要测试,我们在测试当中发现的情况是什么?它可以去调用这个项目子项目当中的三倍镜,这个是很怪的,那么它是怎么实现,等会在那你继续讲吧,我把这个给你补全了别人才知道你做的东西有没有价值。否则你是没价值的目的意义不清楚。
【线上-江争达】:行吧,那就主要是分两个就是两大块,一块是你 sub agent 在全局下的调用,还有一块是你在项目下的调用。然后在项目的下的调用的话要分两个场景,然后全局下的调用就分一个场景,然后一共是三个场景。
【线上-江争达】:怎么怎么搞,那我就先说在全局下的一个标,就是在全局下测试的场景,这是第一个场景。第一个场景的话就是首先那个 skill 都是项目级的就是 SKILL MD 都是项目下的第一个场景就是用项目下的 skill然后调用全局下的然后看。
【线上-江争达】:看 skill 最终的一个调用效果是 SKILL MD 的一个就是叫 prompt它的主要作用就是启动。一个叫11个生成流程图的一个33维金塔就是它只有一个提示词只有一段提示词。就是看用 skill 调用这个 agent 的调用能不能按照。全局下的 prompt 来执行任务,大概就是这么个意思。
【线下人员】:肯定行,我也我用了这个之后,那么另外我给你建议一下,就是那个视频上方就用 task 启动是。很不标准的语言它有专门的 task 那个语言跳个规范的,以后我建议你用这个规范来调用。
【线下人员】:这种用语言描述他能理解,不是不能理解 skill 里面,反正主上海门,他一听到它确实就会去启动,但是不规范,有可能会造成视力对。
【线上-江争达】:那就先看第一个视频了。你们页面清晰吗?这样展示的。首先 saas 是在全局的 agent 目录下,然后项目下是没有。项目目录下是没有这个 skill 点 MD 是这个内容,这视频的这三款,然后就开始跑这个 skill。
【线上-江争达】:不是让这个 skill 来执行任务 cloud 窗口就在这开的就是在这个项目下就首首先就是先看一下它加载了加载的是不是加载的是哪里的?
【线下人员】:你这个卡的窗口在哪里展?
【线上-江争达】:这一块就是说它是加载的是全局的,就是用户级的是项目级的。
【线上-江争达】skill 的 sub 是这样,你是我之前写的,但是你可以不关注。
【线上-江争达】:对,然后让他执行的任务就是用用这个 skill 用这个 skill 生成那个流流程图,然后流程图的。那个过程流流程图的流程就是一睡觉二起床什么什么,然后再加一句并总结文件这个并总结文件要想对应。刚才的那个萨贝进的功能就是你在你的,你就是你在你的要执行的任务里面也加一个就是并总结文件,看他能不能按照那个。撒贝因特的就是萨微镜上能不能收到了提示字之后,然后去生成一个就是读。读需求文档不读会议纪要的一个功能。
【线上-江争达】:就是测试结果,首先它是生成了两个文件,一个是总结的文档就是点 MD 对着那个叫。
【线上-江争达】:它首先是生成了,就是按照 sub 的要求生成了,就是读这个会议纪要,然后生成了一个总结文件,这是第一个。这个。但它这多了一块,就是流程图的一个说明。他也把这块给总结了。
【线下人员】:因为你说了实验并总结文件知道吧,那你总结文件就是把你这两个任务全部总结了,因为你那写总结文件就是写的是不对的,知道吧,所以你看提示词给的不准确。
【线下人员】:你你你测出来结果就是不对的,所以提示词你们脑子思考能力不到就是容易出问题,但这个是对的,就人家执行的是对的,是你提错了,知道吧?
【线上-江争达】:明白。是结果的流程图。这是在那个全,这是调用全局下的。
【线下人员】等会儿你把视频拉到恒泰瑞的那块。so the context 那块再往上看到没有它这个 read 是出来的上来他就做规则,就是他把这个第一步执行了,再拉到那一块。
【线上-江争达】:结束的 context
【线下人员】执行完的状态来记住那2.9。他读的那个一定被删掉。无论我能运用的三倍。但是你看到没有,它并没有写 task。并没有这样往上你你看那个执行流程上来还要读这个就是这种 test 启动的没有。教育的时候会应该起一个 task。The task. 每每一个不是我告诉你有的会启动的。我这都你从来没遇到过,我从来没是不是 windows 但是都不一样,我会有 task我就从来没有 task 的这个字,我那会出现 task 但是不出现 task 的时候也能调。对这就是冲击的地方,他有时候在这地方会写一个 task然后括弧但他确实是调成功了他确实是掉了但是我有的时候就看店里面不清楚他怎么样才能进入上下文什么不进入上下不管他。
【线上-江争达】:对的。
【线下人员】:这个说明白了,这个是主的,你们理解了吧,这种放在全局 a 镜的下面的。
【线上-江争达】:这是煮的是调用全局印上的煞白。
【线下人员】:然后来。再往下吧。
【线上-江争达】:第二个就是这两就是场景二和场景三都是调用项目下的好,那就直接说那场景二。
【线下人员】:行了明白了,你都不要费那么多了,你说话太费劲。
【线上-江争达】:场景二的 skill 点 MD 和场景一的就是刚才的 skill 点 MD 是一,我对只有位置不一样,然后那个提示词是一样的,就是都是这一句,然后是它的就最后的测试效果。
【线下人员】:位置不一样对。一定要给它掉,你这两个场景有啥区别,然后你就是 agent 的位置,不是他,这是项目下分两个场景。
【线上-江争达】:一个对向往下分,两个场景是这样的,提示词不同,一个是绝对路径,一个是默认的路径就是这儿。
【线下人员】:时候木头。
【线上-江争达】:这儿有区别,就是在这加了一个绝对路径,然后调用证成功了吗?绝对路径的调用成功了。
【线下人员】:哪个掉的差不多了?直接指到向下这边怎么去成功,但是我觉得有必要看一眼什么看一眼他在这个非绝对目录下的调用就没有指定目录下的调用的这个执行过程就很怪。
【线下人员】:就非常怪,别跑,你往前拉,往往前往后对推到。
【线上-江争达】:王后读。
【线下人员】:推到他就。你这个场景多少钱,再推一下,你看好就这开始下吧,放吧场景二吗?
【线上-江争达】:就这好。对这是场景二。
【线下人员】:他也会去读你这会显示毒吗?
【线上-江争达】:好像是会的我忘了是我看我记得是读了没生成。看一下。
【线下人员】:对我,你加快一点,你看不到你这个场景二项目上有 a 选 C然后那个就是 right 要吗?
【线上-江争达】:这个场景下是项目下有 AS然后全局下没有 A。
【线下人员】:出现了,还是放在后面了吗?到底是?
【线上-江争达】:这好像读都没读。
【线上-江争达】:等一下先看一下这个流程。他就没读。这次测试他就没读他读都没读。
【线下人员】:怎么了。对,但是它也是启动成功了吧?
【线上-江争达】:不是它启动成功和它最终执行的效果还是不一样的,就它启动成功,我觉得是有两步两个方式,一个是他读。
【线下人员】:因为他行动成功了,他没有按照平行。
【线上-江争达】:那就很可能是把你的那个 agent 的那个 prompt 读了,然后他带上那个提示词去启动了一个 sub agent但是它启动的不是你本来自己写好的那个 sub。
【线下人员】:就没启动三倍金的他为什么要启动三倍金?
【线下人员】:只有那些对怎么可能自己他怎么会自己启动你脑子里怎么会产生出他自己启动一个设备,这个是你商量我就看出来了吗?算了吧。你这里面有 context 吗?命令你敲了吗?
【线上-江争达】:你你这你在看那个很难?有在后面等一下。就反正就是最后生就它只生成了一个流程图。
【线下人员】:有结论吗?你这个就是他上下文站的主窗,还是你看他没读,所以看不出来,所以我跟你说,你这个没有复现出来。我们去读过我们,他自己确实读过它会启动不他最后没有支持。没有觉醒,对他有读动作,读完之后也没进,也没时也没有去总结。所以就压根他。他们自己就把这个动作给不要了,他一看不对,不需要顺着他在判断的时候,他认为生成流程图这件事情不需要做。是不是可以他们这个水平的指标对你其实是就是这么要求的,但是他肯定的是你其实要求之后,他如果再用三倍镜,他也会总结。
【线下人员】sub 背景你现在读完之后,他发现你主题是没有他只把这个 sub 背景的弄之后,他就忽略了你的跟它不相关的东西。它只有自动的去组合和主窗口的,它智能的判断,我这个条目的到底最后是啥,所以这个研究我觉得挺有价值的,我对我们去理解。
【线下人员】A 级究竟怎么去组织还有行吧,再往下一个走,那就是绝对路径调用是正常的?
【线上-江争达】:对就是绝对路径,就是改了 skill 的。
【线下人员】别的目的我们测了大概七八次你我那天测了45次我让他后面做测了几次所以我每一次改了绝对不行就有我们也担心他有时候能读有时候不能读。有时候就表现很稳定。
【线上-江争达】:我后面测了两次都是正常的,我就没再多测了。你看。
【线下人员】就意味着它放在绝对工作下是可调的商务部不错的在公车了也有56次。几乎没有成功过。但是有的时候会出现读这个动作然后来读。这个问题是怎么出现的是因为待会我告诉你我做 PPT 的时候。甚至的反应,所以我就要求测试我自己在做过程我就不对,就稍微有问题,我觉得时候有问题挺奇怪的,那官方说那加载到。空调好漂亮的,只有那些出去。
【线上-江争达】:没有它 yam 源也加载就是 S 的 yam 也加载了对你看吧,这不就是 yama 的数据?
【线下人员】:那个样子有数据对,但是你项目对阿里来说没有路径吗?官方没有提到了。按理来说,相对路径和绝对路径对按理来说。
【线上-江争达】:就你的理解就是相对路径和绝对路径其实没有区别?
【线下人员】:得通过来走官方他们没提吧,我们研究了好几遍跟你说,等会再说我的送回来了。
【线上-江争达】:对我本来我也是觉我本来也是觉得没有太大区别的。
【线下人员】:你在干。
【线上-江争达】:你说啥。你那听不到?
【线下人员】:听到。放完赶快抓紧时间。不要离太远了,跟原有关系,可能有关系,变成六人,那这个是不是太差了,所以我本来都用我的这个。
【线下人员】:苹果电脑。我想起来。
【线下人员】:一个最最大的问题是你的这个视频声音效果就不好了,你的话筒包括那天你用我电脑,你那个电脑纯电这个还行也还行。那他这就是 read 了,他就遇到了这么多行之后你往下再走,最后你给结果就行了,他只要有这个动作出现就行。
【线下人员】:好,最后生成了纪要。同时你再看一下 context。
【线上-江争达】:那你先看 con。
【线下人员】:你说。我在开会。我上午不是发了吗?群里面?
【线上-江争达】:这不是。
【线下人员】个半小时20分钟半小时。所以你看这个 context 是进入了这个里面没有进入窗口?
【线下人员】:我们还试过一个就是直接在主窗口里读,确实上下文占掉,所以就也就意味着他统计是没毛病。我的理解是什么,他在给到决定目的时候,它确实是能够就不给绝对目录。他去搜的时候他可能搜不到,就是有个沙贝一点的叫有一个什么全局的撒贝宁要叫这个名字搜不到。他就认为你这个指令可能是不正确的,但是他同时去读过这个设备的这个 Prompt Ly. 那么读完了,但是他不读。他就把这个票拿出来看看跟我的组的有没有关系,跟我的这个 probably 有没有关系,那么这种情况下,他可能就觉得没关系,或者关系不大,我就放掉了。
【线下人员】:不理了,你去指定目录的时候,他就这个主目录下读了它确实在 AD 的目录下,在这个 a 层的门前能找到。懂吗?能找到以后他就会去调用,我觉得就是这么个关系,就是他没有那么严格的说,一定不能执行子目录下的 a 没有这个要求。但是他如果你不给他发生冲突的时候,它会首先默认去找全决定,你知道吧,默认去找全球预定的,他还没有,这个时候他可能就不那个什么。不就行了,但是很怪的是上下文加载的时候,它是把子项目的设备也加加载进去了,他刚开始装载的时候他是装载这么说的,但是他去查他上来优先去查的是查的全局。他发现查到没有,他就忽略了,那你给定指定目录之后,体会到指定目录,在一定层面查他发现这个东西确实在一定的目录下,它就是个 sub。他就执行了。我这么理解。对后面是有很大的影响的你们可以自己测试一下这是我们测试出来的。如果是可以的话我们用什么指令怎么调用这个 C 架构组怎么组织就不一样了,这是一个 skill 另外一个。
【线下人员】:反正今天时间差不多,我个人感觉调用背景还不是一个非常好的方式,还不是一个非常好的就是 agent 的调用 skill。最好的方法就是用一点 skill 里面装的这个方法确实是有点问题,因为这样的话第一组织会乱。组织会乱你最好用什么,你不要在 skill 里面调用在 a 一里面调用。就是你不要把所有的全部放在全局,你可以放在子项目下,那用谁来调用 agent 调 agent这是最容易的这个调能调的而且分分钟的事情。A 级的可以调是没有问题的。或者你可以做一个我一起做,今天来的路上我还在想我在一个子项目下,我怎么去调用不同的 sub 背景,我怎么去设定一个主维?很有意思的,我们现在默认的主窗口就是主力的,就是你可以定义一个主页键,可以对你可以定一个主意,那怎么定义怎么激活?你直接在这个离 a 镜子下面定义这个主主谓因子之后,你直接选定它,他就是主力军游戏。对这种技能的情况下,你再去调用其他技能就全部是。
【线下人员】:所以子项目这么来组织,不然你会真的有点乱,就是你一会 skill 掉1.1定 skill 来回嵌套。塞,这逻辑关系能不能搞死你,索性非必要情况下。除非特别这个 ceo 就是一个宏观的 C 懂吗?就我就是要用很多来调用它。我其实用 agent 来组织 agent 会更好,不用 skill 来组织。这个逻辑我觉得是我这两年思考一个非常重要的收获,只不过就是层级不一样,就是对 skill skill 的。其实本质就是主窗口这个 agent 去调叫其他一句吗?对,然后你说就是单启在主窗口下面启动一个它作为主调配各个对在下一层对。这个是比较容易掉的语语语法上面没有大的问题,我们日后的组织上也不会特别复杂。就是你的这个 skill 的组织,对不会特别串起来,这也是对因为有一个主窗口的空间,对可以协调,因为你 skill 其实也在主窗口对你 skill 里面调一点的其实有点费劲,除非是这个 skill。没有办法这个流程没有办法抽出来那么必须要共享在 skill 里面共享上下文中反正也不存在,那主都是一组装过,谁跟亲戚也是一样的。对,所以我觉得先用这种逻辑和这种规则吧。
【线下人员】:就我们先找到了这个 bug因为我自己确实想用一下但是我不建议大家都用就我今天前两天在考虑这个 agent 的编排的时候,我觉得还是 agent 这样比较好。不一定能来调 a 级的比较,而且比较智能,而且 skill。Skill. 最大的问题是就是 skill 的上下文也在主窗口里面,我觉得可以作为一个分阶段。现在这种形式写 skill 加载,用主动加载这种形式可能调试更好调,因为因为毕竟你输入的信息都是在主窗口的,如果一上来就用那种 agent 调调 agent 的方式就是。level1的调用 level2的 sub 来组织了它那个上下文主窗口是没有的,就是如果你要调试的话,你是你你输入是定位不到那里面的主窗口,不知道你想改什么。然后所以我理解就是调试的时候可以用用,就用现在这种方式,然后就调试整个流程调通了之后就可以把 SKILL MD。移植到杯子里面对然后这时候再用主主窗口去掉这下这个就可以101不用。
【线上-江争达】:没有子窗口的上下文是?
【线下人员】:回头再说吧,因为你你一开始就把 skill 的这个 prompt 的流程放到那里面,然后放到主页那里面是一样的,反正你 skill skill 就很简单上来。把所有的上下文只要用到这个 CPU 的上下文全部都放到做主的窗口里面去了,所以你定一个主的 a 键盘里面上下文就等于 skill 都写好了。是一样的,第二个过程是一模一样的,无非什么,无非是什么,里面有几个问题,就是除非用到这个 skill 用到了 scripts。用到了这些东西你就没法弄了因为 skill 里面是可以去调 scripts 的 A 进的里面就也能调但是语法上对不那么清晰。语法上。skill 肯定这个语法是很清晰的就是它是可以执行 iphone 代码可以执行代码的,所以 skill 里面对于这个的支持是好的。在 a 技能里面,对于这些知识可能没那么清晰,他可能跟主要靠的底层的提示词有关系,我一直在思考它的提示词,就包括全局进程和子进程。里面提示词它都可能有限定了,他上来找的就是全局,对有可能你知道吧,但是你指定之后你这个就等于。强迫他去做事情,他也就认了,有可能。
【线下人员】:行吧,那就先这样,这个事情,大家理解了就行了,这个事情是对这个很深的一个探讨了,但是这个对我们以后整个项目编排。是有比较大价值的调用可以用 cloud 模式调就掉贼人头就直接把它当成五层模式。
【线下人员】:你说可以的。可以的乌头模式也可以调。
【线上-江争达】:那个 paper 的项目就是用的无头模式?
【线下人员】因为我对于理解可能是算是一个比较系统的一个架构了就这我们就是一个完成功能的小模块软件模块其实也不只是子模块。实行了原子模块的一些封装成一个特定功能的然后它这样的话就是调用调那个不好的话只有五分钟50。有编排的他那个流程这种时候是有必要你反正就是 cloud code 里面了,你还要调查屋头干什么,这样的话就是因为因为你刚才不是说不好调吗?就这样,我现在已经可以调了,就是这个对目录的时候可以调了你这个无头的就再封装一层没有意义。然后你用再用终端去执行一次上下文也是隔离的。你产生的东西也得有文件输出来,他不都不是。
【线下人员】:你对现在我们可以用 JS 数组什么输出吗?这背景的输出的可以直接是个可以?
【线下人员】:我很多都没出过要存成文件吗?可以不存文件它也可以,但像那个无头模式就不行,无头模式你这个肯定就会丢掉了。
【线上-江争达】:想存就存,不想存就不存。
【线下人员】:你无头模式上下文,你就不可能在这个窗口里存在无头模式,执行完就完了,它必须是以文件形式外外部存储的形式实现无头模式好像没法把上下文带过来。我感觉是的,因为你想的是另外一个终端,另外一个进程,它都不在总进程里面了,你无头模式调的是另外一个终端的另外一个进程的。你上下文只能通过文件的形式把它保存下来,再去读。然后刚好像能结束提对 cloud 是可以直接把这个提示词通过一个,比如说把命令行把读提示词放到这个 cloud 无头模式。这个里面去的,但是它也是通过读文件的形式,也是通过读文件,你不可能把这个主窗口的上下文直接带给这不同模式不可能。你必须是做不到你你必须得有个命令,你必须得有个命令,把这个东西给不是自动带到上下文窗口里的。
【线下人员】:明白了我有个问题主的调子的是用的什么模式,它这个原理。它的原理就很灵,他会把需要的上下文带到撒贝宁的窗口里面,但是它带进去之后,这个上下文窗口就是独立的。我明白就是他调用的话是通过那种,然后可能就是不是。他就相当于在他的后台,因为我们 cloud 全都在后台明白吧,它不是你在你本机执行的你无头模式是相当于本级执行的。本机起了一个,然后又调另外一个远程知道吧,他这个直接的远程的,你这个 sub 指令给到他之后,他在后台会自动启动一个独立的。上下文窗口的就相当于独立的对话进程,就相当于你又开了一个 cloud 一个独立对话进程,但这个独立对话进程是在它整个里面的。所以它产出的东西它是可以直接感知的,就在这个主持安装窗口里面,它是直接可以感知的,所以你出来的那个已经产生的这种监测速度,它只要输出的,它都可以被作为上下来用的。你不用单独再存,这个东西你们得去思考整个这种编排的进程或者并排的原理。
【线下人员】:我感觉有必要重新研究一下它的提示词,很他现在有他公开了吗?好像是有人去把它反推出来。但是有没有公开的,我不知道,好像我知道有反推出来,但是它好像原原版的没有公开,这个比较重要,很重要。怎么用,你把它提示搞懂了,你给他改一改也行,但他提示时间是很长的,你看上次加载那个 message 不差多少,一万多的 token 上来先给你灌一万字。看一下 skill 执行的提示词,对强制按这个流程执行,他好像可以自己添加那个启动添加可以,但是你不能改,对它内置的有一些你懂吗?你可以在上面添加可以。你改不了它的系统其实是不会让你改的行吧,那着吧!
【线下人员】:一个关于 p0过数字分析还没明确他这有个最新的情况然后跟您汇报一下就是听那个钱林说就是他们有市场部内部的一个工作会然后杜主任最新的一个信息就是说合作他这个需求好像。就是他这个时间点他用不用也不一定对所以就我们现在先做好了刚才也说过了就是所以我目前我跟前反正有反复沟通但是他那边多多少少的就有就是只有那点东西更多的还是得去问邓主任是。让窦主任去会合作他想做一个什么样的东西但如果他现在不做就我们自己做需求了就不以他的需求为核心。但是这个数字分身的这个需求肯定是在的。就相当于咱们多做几个版本完了之后让合作去选对或者是那个市场部这个我们他给一些需求我们自己找一些市面上的我们看到的做的好的我们把它做下来之后就行好的行吧。
【线下人员】:好看就做完了,超过了抢工资行吧,因为时间关系就不多说了,就这样吧!然后回头每个人再把自己的补充一下,咱们要不要现在捋一下你可以吗?你那边就是你你。你这个还没出来,行,那把刚才那个讲一下过一遍了,我这个会叫 skill 我先。今天,我先用现在这个版本生成一份,然后收拾完之后我再就主窗口加载这个会议转写的。上下文,然后我这次转写上的是用腾讯会议的还是说把视频?这种最好的你你反正先用你这个生成一版,先用你生成一版吧,然后再把那个做一版吧,就用我这个生成的。转写文本是不是转写文本两边各生成一个生成就,我现在是按照你的自己用腾讯会议的对,因为腾讯会议这个视频出来之后,你还得要上传的给那个。行好不好,这个肯定是 p0然后用用真测试加上就是用正面转写文本套到我这是一个还有另一个是直接用去。喂给他视频让他直接生成会议叫对然后这个也都归 P然后这个然后就是需求 skill 然后我去你再看一下那个二阶段的。专家的交叉回应那一块的字段映射,然后整理出来了一个就是可视化的一个一个效果的东西,对这个也是平对,然后。
【线下人员】:同时这个需求 skill 我们可能到时候先看看你的结果吧,我觉得把这个需求 skill 的流程你也走一遍,就是整个流程图也看一下是吧,整个流程图也看一下。因为看看未来将来这个流程里面需要怎么修改完善行好好的,这些都就都归到一个项目。
【线下人员】:那我这边 P 一 P 一就是上周留下那个招投标的 skill 的架构设计了,然后还有现在需求急吗?有点七,所以就提成 p0了6p0行那我这周做然后还有那个 G 报告转写的那个是可以做批,这个可以做 P 那个我也是我现在设计架构还是我直接实现。
【线下人员】:架构行那我先设计架构,这是 PEOk. 行,那我这边没?我这边先没了吧,行你回头看一下你个人工作,你周报的个人工作里面,到时候再补充吧。行,如果看到了,你可以根据会议纪要补充,或者你自己跟他再转写都行。
【线下人员】:张志达这边刚才也提过了吧,数字人的这个 p0你们这个 PPT 肯定是越快越好,就是刚才也说过了,明确要求了。就是 p0的那刚才说跟数字人相关的几个测试根据你的选包括需求修改然后包括最终给出这个视频示范的文档包括你的数字分身的这个端到端的这个。
【线下人员】:比如说用 gemini 生成视频脚本和那个文字那个什么分镜脚本和分镜的镜头这个图片等等这些?
【线下人员】:问题答案重构基本上刚才也讲了,我觉得你还得用第一个把现在这个叫什么让 codex。或者是让什么大模型帮你把后端先走一遍看看有什么问题第二个就是把前端的逻辑用或者这个方案用大模型再帮你做一遍然后看看跟你现在的这个方案有什么差异。
【线上-江争达】:就是好,知道了,还要把下个版本的可能修改的逻辑先考虑一下好的。
【线下人员】:这是我记住的,有些补充你们自己再补充。对这些的重点到时候结合会议纪要里面的细节再整合。然后我说我这边的我这边第一个的话就是还是继续协助旭龙,然后优化这个会议叫 skill然后第二个的话就是合作那个数字分身然后自己先调研一下然后目前市面上比较好的有几个版本然后分别出。一个方案然后发那个就是跟那个闲然后再对接一下然后第三个的话就是招投标的那个 skill然后也是写作龙这边然后优化完善那个需求写写清楚了吗写清楚了是吧回头把这个需求到时候可能你们先看一看。如果需求需要讨论的话也需要再明确一下因为有些他的需求不一定合理然后提到 p0了。就圆圆的那个也挺着急的因为他说那个涉及到就是他想年末的那个什么对他像那个倒不难没有收入对他那个不会吧他现在得给人家做演示然后做明年的钉钉阅吧。但是好像涉及到签合同反正他说有可能做出来基本上有30万那你加进来吧那个倒不难提到 p0。
【线下人员】:大三的报告提到 p0那我这周先设计一个架构对行确实不难但是就是优化比较难那先有个样子本来。明白我就是都用 skill 你现在快都是 skill因为他要看到的都是样子的后面这些东西但凡用的多了我们就开始转化了。就转化我也没有想好有什么框架我也没研究了 CPU 怎么转成整个基于到底基于哪个的,基于 K two 还是基于 cloud 自己的 API。基于这里面都有都要思考你 cloud code agent 或者 cloud agent sdk 能用的可能更容易最简单。因为它是自己的框架,那怎么转到别人的 agent 的框架,而且 L china graph 都是,那如果那个架构能用的话也行。当前封装那个低配的架构,但是它脚手架,比如说上下文的这些东西。又得找一个小程序做一次研究或者做一次学习,做一个小功能,怎么去映射,过去学习一下,看他暴露出哪些问题。这就作为 p1或者 p2这个从 cloud skill 转移到 lunch long graph 的低配的架构作为。
【线下人员】p1或者 p2的研究项目明白然后这块你要是忙不过来我都可以全写作你你先开始做一下对你可以设一个一个的那你先试试也行他好像他挺想学学给我。挺好的但是你前期得把 skill 这些整个的底层的东西全部学一遍,不然你出来的东西不好用,对包括 skill agent 检查什么关系,我跟你说你这东西都要学好久,可以先试试,上手试一下,就对你先试一个问题。
【线下人员】:怎么着,然后你就是丁康那边后面可以协助有其实你们都一直忘了写了在会议里面关于整个项目驱动的就是那个日报项目驱动,你还记得上面一直没写。那个后面可以,所以确实要 p1或者 p2去了让丁康来负责因为他不着急他可以有空闲时间周六周日帮我们来写这个。到时候江南。
【线上-江争达】:听得到。
【线下人员】:人把那个 cloud cloud code 我那个 max 版本的到时候可以给丁康用一下。他的主要任务就是做日报驱动的整个的项目管理系统的 skill 或者开发。
【线上-江争达】:好。
【线下人员】:包括基于会议纪要怎么来做日报,然后之后怎么驱动项目管理跟这些 MCP 怎么对接?
【线上-江争达】:昨天也跟他沟通过了,他让他先学一下那个阿三大的架构模块什么的,先熟悉一下,然后再设计一下。
【线下人员】:对好不好行吧,那这个时间关系我就给你简单大家讲一下我做的那个 PPT 的那个,我觉得对大家以后可能。
【线下人员】:本机自动化是有很大的价值的,或者说还有它其实出了一个 chrome dev 的就是好像 cloud 自己出了一个。prome 浏览器的控制我们用的我用的是那个什么用的还是 playwright1个 extension就是在 chrome 上的 extension 做的?
【线下人员】:我没用。
【线下人员】:那就可以了,那这就是我最最简单的一个,比如说上来生成 PPD我现在不跟他说什么然后他会启动这个 skill 等会我给大家看这个 skill 的流程。就是他就会问我你要什么主题的你可以自己打一个目标进去那你也可以跟他聊我需要什么什么简单的粗的都行那么第二个就是什么是给一个文件路径我就把这个。是什么我要跟他说生成这个测试做的很少两页你可以做20页都没问题的手写体风格。然后它来生成两页的这个 PPT首先创建一个这个 PPT 的工作目录,然后。现在接下来就是调用 java 图片生成器来创建信息图,关于 PP 都是一组,然后接下来这个就我后来直接把就是 skill 嵌套 skill 来做了,我最后直接放弃 sub agent。
【线下人员】虽然上下文会比较长但是我的调用逻辑关系非常清晰skill 调用 skill 反而比三要清晰得多,因为上海文是共享的。知道吧,所以他逻辑控制上非常精确,到了三倍镜的里面,因为不带上下文之后,它的逻辑控制有很大问题,等会我跟有空你们可以试试,我一开始做了好几个 sub agent 在里面做一个包括用 agent 来调这个 skill。我本来我是用这个 skill 来调用一个 subagent 的这个310可以放在主窗口主那个叫全局也可以放在300进的。我都尝试去掉过的但是效果都不太好好的上下文连接就是不太好这是一个第二个。后来我就直接把这个 skill 提取出来了,我不用它去掉了,我本来想用上下文隔离,我觉得我们都出现这样办。那叫什么偏执狂,其实主上的窗口好用的最好用的还是主上下文的窗口,但是不怕多,但是我们不是多轮对话,其实没必要的,我后来直接把它就调拉到主窗口下面来了,所以这个用这个 skill 来做。
【线下人员】:这个 skill 是写的,就写到 skill 里面的对等会我给你看一下目录,先看这个流程,然后开始用 play write 调了,看到没有先打开 gemini然后。开始我要激活这个生图模式用 play 去找到生图的模式,然后生图模式出来以后上传文件,他也用把这个文件就上传了上传之后看到没有?把这文件就拷过去了,拷过去之后,他一开始出现很恶心的,他要上来先读这个文件,我让他不要读了,你读完之后读完了可恶心了,你直接给 java 就 java 自动。
【线下人员】:来为什么我用 gemma 来那个 cloud 无论你生成多好的提示词都不如 janine 自己读这份文档,然后自己制定的方案好,所以给我一个很大的启示,就是你不要规定他做什么。你不要给他说上下文给他越权,它其实做的效果越好,知道吧,所以我现在对上下文是一个有另外一个考量了。
【线下人员】:上下文其实越全越好,这给到他之后,他就开始上传了,上传之后开始。输入框看这个是什么,它有一个非常简单的我在 skill 里面规定的你根据用户上传的内容文件生成那这两页是他带进去的吧16比九是他规定好的然后手写里风格看到没有他把给带过去了把 CQ 给带过去了,这就非常容易带了。
【线下人员】:开始规划,然后等他产出,那这儿我给大家并排看一眼。到底是在每一页一张图,没什么对每一页是张图片,你看我是让他先。先生成看到没有是先生成规划,看到没有生成规划方案,看到没有首页的风格,这个上海湾带入的很好,一开始不是这样的,它有很多自己加工的好多东西进去,他给你把这个文件的理解什么全都给你加进去了。然后它生成了这么多新意图,看到了这是 jama 生成的好界面生成之后,我就我让它生成第一张。那生成第一张图片,这个就是都是通过 API API 发送,然后不是 API 直接通过 play cmcp 来调用的,对 MCP 控制的非常精准。
【线下人员】:然后生成之后,才开始点击下载,这可以有一个下载自动化操作的浏览器对,然后所以这些话也都是传递过来的。它可以操控浏览器的知道吧,明白,然后最后我这里面有个运行脚本,我都看一下,给大家看一下我的这个脚本就是我让它怎么,因为它生成之后,它已经脱离了这个。
【线下人员】:浏览器吗?它出来就会弹出一个储存窗口,存储窗口,他已经脱除了这个浏览器已经操作不了,这时候我要用。用的什么 OS 对 scripts 后来做了一个 C image 的这个脚本,然后就调用脚本来操控这个调控之后它就存下来了,存下来之后。
【线下人员】:接着就是第二个看到没有好,我写下来之后到第二个继续生成,然后变成之后继续存完之后,因为我现在没有办法,因为在这里面操作非常麻烦,刚才那个非常麻烦我就。没有让它直接去指定目录了,我就直接让他存到这个文档里面了,那文稿里面我就自己从文稿里面把它。
【线下人员】:找到这个文件,然后移动到我的当前目录下,找到这个图片,然后移动到我的公众录像,然后在这工作里面就有两张图片,这张图片。就这两张图片在里面看到没有在这两张图片了,然后干,我又执行一个操作,它有一个叫 PPT 组装。实现组装 PPT 是也是一个 python 脚本,生成了 PPT 之后直接开始自动打开了 open 了。然后就给我弹出我这个 PPT 到此就完成了,所以完全自动,你只要给他一个目录就 ok 了。
【线下人员】:那这个里面大家再看一眼我的目录结构,这些可以通过 API 调用不行,这边在调用 API 我没有12家都很贵的。可以那种 CRL 的那种用网页的也不太执行,不太准确,那在这里面,在 cloud 里面,你看 skill 我一开始用 agent后来我给删掉了。我就把它转移到 skill 里面了skill 这里面,后来定义这个词,后来我也没用,我把它直接放到我的 skill 里面定义了个 agent。
【线下人员】:我都尝试这个了,但其实效果都不好那这里面 scripts1个就是执行操作命令的它核心就是一个了。操作命令了等待他完成然后直接移动到目标看到没有就找文件先是存下来然后找文件然后找到文件把它移动到那个。
【线下人员】:目录里面这一个,第二个就是 assemble ppp T 的屏蔽组装其实也很简单,把每个图装进去就好了。然后这些脚本都是我让就自动生成的,简单的,然后这个是 scripts 这个是 skill 这是 ppt auto 这是第一个。然后第二个它调用的 skill 嵌套的 skill 是什么?是这个 skill 就非常的我调了很长时间,为什么他总是不知这个逻辑,它总是执行不好。就是 A G 总有自己的想法,他不完全按照你的 skill 来执行吧,所以我就给他一步一步一步一步最重要的是他那个即使字总是。不按照我的来,然后你看这里面为什么失利正确的示例和错误示例对他都很重要,注入之后,后面他就开始很好了。就开始比较好的执行你的了,所以你看这里面有要求必须怎么样?什么必须不能错误的是什么?正确的是什么都是一样的,你看这里面也有提示字模板错误的是什么?正确的是什么。怎么保存,不可省略等等这些,所以其实要有很多的行为规范的心理,才能保证它数据的质量。如果你要求操作非常精密的话,如果你说我不需要探索的比较灵活的,那 ok 的。
【线下人员】:严总我看您关注的是它那个自动化流程,然后 PPT 生成,为什么用它来生成,是因为我觉得不到这个效果,太吓人了。他一份文档我就给他了,是一张图片,一张图片可以点一点点,对满满的图片。它自动的,然后我给你看一下它,这是它生成的,通过测试的还有我生成了一张五页的,我觉得做的相当好,是这个。
【线下人员】:这是两边没有动物业主,这是一页,这是另外一个增长,做的相当好了,是知道吧?我花了五分钟时间给了他一个文稿,自动给我做这个 PPT 完全够用了,非常好,主流的全部在里面,我就问你谁能用五分钟时间做出这么好的一个质量的 PPT 不太可能。我这两天基本上一直在研究对我就说分分钟就把他们全干死了,能比他做的还好。那你那个上传的文件的内容是什么?内容是就是这些信息的总结,不是总结,是一份我自己写的文档,更全的对更全的文档。
【线下人员】正面同学这个挺好好那这个是我自己写的文档那这也是用真金就是之前的我很早以前这个人全部在推特上我关注他很久了他写的文章还是挺好的我根据他的一些理念。和我自己理解我自己写了一份文档就基本2.5写的主要是之前的我觉得写的蛮好的。写好之后我就把这份文档给到谁了给到这个3.0来画图了,那么这里面有非常多的关于智能体企业怎么来做智能体企业?基于智能体架构的企业看,就是我让他基于他的一些基础的思路理念,我重新写了一遍东西写出来之后,你看这份文档,再加上这个。基本上非常清晰了,你的一套理念体系就可以非常好的展示出来,实施工作就完成完蛋了治病。
【线下人员】:那有个问题就是新,如果用的话可能跟咱们平常汇报还有点他们是模板,这个模板是容易,非常容易,你到时候告诉他,我用采用这个图片的模板,你上传上去给他就好。或者你直接做一个刚才说那个 G 就是你上面里面有一些参考文档是什么,多简单,不容不难的,或者你把这个图缩小一点,把那个上面做成多少比例的就行了比例你调一下就 ok 了。
【线下人员】:这里我有一个就是想跟你分享,就是你这个不是图片右下角还有那个图标,然后我看当时用的时候我们做了一样,就是用 PPP T 的那个代码,他能直接做成一个可以修改。对,那我告诉你不用这个,我说另外一个方法,就我既然能够自动操作它,这个我就可以操作另外一个。我看看我有没有把它倒数下来看看,结果本来没打算讲。不可有。都是测试的?我告诉你还有一个什么方案,直接用那个什么只用 canva 来生成做的很好,日本深度我放哪了?到文档里面放。在下载里面。你看这是通过填满自动生成的,这是给他一个给他帮我做一个日本深度游的,它也会自动的等会我找一下,我看这里面能不能找到。
【线下人员】:过程。我是让他给我什么给我做一个实业,关于日本旅游的详细的这个方案,他给我做了一个什么 HTML 文件出来。知道吗?我把这个 HTM 完全存下来之后我去做了一下,确实还挺好,但是它里面的图片都没有这些图片来源什么都没有知道吧,这些链接都没有,这是该 L。
【线下人员】:我说根据 HTML 文件直接生成 PPT用开发生成的在开发里面生成大家可以也非常吓人它就生成这个。这是完全基于文字都可修改的另外一个你可以导到这个 dock 里面,这个我已经把那个都删掉了。告诉你你修改。
【线下人员】:这就是直接导到这边来,最重要的是什么,它还可以将来回头再说吧,你们如果刘队我觉得他真的非常好。那直接在这里面可以修改你直接可以修改图是吧,真的是由 gemma 来做的,就跟 cop 很像,但是你说这张图就原来分辨率很低,我直接让它生产成两 K 分辨率的。
【线下人员】:这些图都是在开发里面的自动就找到了好吗?如果你推荐那个付费的 PPT 是对他做的,这个风格就非常像,对先等会再说好的时间关系,这个就是开做出来的,看到没有?基本上已经完全可用了,这就是非常简单的,那因为我没有给他任何风格,什么这些要求,如果你谁能详细的制定了还是可以。然后你导出来 PPT 就可用了,所以你看一个是关于那种规划特别好的一个图。另外一种再结合上这种我觉得 PPT 基本上。不需要什么人的这个作用,明白了,但是这个带来的还不是说只是 PPT 我操作网站我自动化操作网站的话。我可以自动生成一些东西,我用 cloud code 去直接调用里面,比如说网站上的很多东西。所以你想过没有把这样的代理开了后的代理我开好多的窗口,看这一天能做多少事情,是不是实现了,我跟你们说的场景都实现了?这就是我这两三天我做这些东西就是大概两天的时间,我就把 J pro 和 cloud 融合在一起做办公自动化。
【线下人员】:这个是提升大家效率的,你看其实非常简单,那你要说难吗?就是 skill 那个调调的过程比较烦一点,整个框架。都是我讲过的都是我们自己做过的,那现在结合文纳这么强大的能力之后,很快就能实现了非常令人惊艳的这种效果,我这个做完这个 PPT 我吓一跳,我说这个东西他妈的以后 PPT 没法再做了。他整这东西比你整整理的好,对他总结的非常好,是可惜,不能改。
【线下人员】:能改,我告诉你 kimi 现在做一件事情就是把它变成可以改的,把图片变成文字编辑。另外一个你可以干,你知道吗?你给另一张图片生成 SVG。用 GI 把它生成 SVG 也是可以的,直接用 java 生成,利用这张图片做成 SVG你把 SVG 导过来就可以改了就可改了!对。另外一个可改怎么改,我告诉你直接修改图片直接在里面使用,我试过直接你比如说把这块。是我全部饮料,然后重新打一行字上去没有问题的我都干过,这个可能更简单,因为它这个排列排版都不要动,你比如说哪些字你不对了,你想改你可以完全。
【线下人员】:流程那这里我不能发了,我直接用改了一下,用图片是长信息素,还有一个长信息素。也很有价值,就是你不用多,我不用那么多页,我就一张图把我这份这次文档的要点给你总结出来一张图做得非常好。长期运作做的也非常好,就是他知道他看过我们给医院的设计的非常好。我就说接下来视觉这块真的是已经超出我的想象很多了,怎么把这样的好的能力。包括你给他一个图片,他的理解也很到位,包括视频,所以我就说这边来真的很吓人,非常吓人。
【线下人员】:今天要么就分享这么多,因为时间关系,行吧,那先这样。对,就是我们说的话需要用一下 cloud 那个账号是 cloud 你找一下张拿他手头有两个账号。不行就再开一个。

View File

@ -0,0 +1,196 @@
# Q&A资源库类会议纪要 (2025-12-08)
## 一、会议信息
- **会议时间:** 2025-12-08
- **参会人员:** 连云波(主持)、闫旭隆、江争达、郝倩玉、陶西平
- **纪要整理人:** Claude
---
## 二、工作问题 Q&A
### 1. 会议纪要Skill相关问题
**Q1: 会议纪要Skill信息提取准确率低怎么解决**
**问题背景:** 会议转写文本存在语音识别错误、语义跳脱等问题导致Skill提取信息时准确率不高且分块索引搜索容易遗漏信息。
**解决方案:**
1. **文字转写换成Gemini多模态:** 上传会议视频让Gemini转写准确率远高于传统语音识别几乎无字错误
2. **Clean预处理:** 对转写文本进行去重、去错处理,压缩到紧凑版本后再使用
3. **全量读取替代索引搜索:** 将Clean后的完整文本加载到主上下文通过语义理解提取而非关键词匹配
4. **主窗口全量处理:** 尝试将所有映射逻辑写入主窗口Skill一次性处理避免Sub-Agent分块造成逻辑割裂
---
**Q2: P0/P1/P2优先级如何准确判断**
**问题背景:** AI难以准确判断任务优先级因为不了解团队成员的年龄、级别、工作时长等潜在上下文。
**解决方案:**
1. **AI先给建议:** 让系统给出优先级排序建议,而非直接生成
2. **人工确认反馈:** 会议中或会后立即向每个人确认优先级
3. **保留学习材料:** 将确认过程的所有材料保留,作为后续强化学习或微调的数据
---
### 2. Sub-Agent调用相关问题
**Q3: Skill调用项目级Sub-Agent为什么不稳定**
**问题背景:** 测试发现使用相对路径调用项目级Sub-Agent几乎全部失败但使用绝对路径可以稳定成功。
**解决方案:**
1. **必须使用绝对路径:** 调用项目级Sub-Agent时指定完整的绝对路径
2. **原因分析:** Claude默认优先搜索全局Agent目录找不到会忽略而非查找项目目录
3. **架构建议:** 优先使用Agent调用Agent的方式而非Skill调用Agent
---
**Q4: Skill嵌套还是Sub-Agent分离哪个更好**
**问题背景:** 复杂任务需要多个步骤协作存在Skill嵌套Skill和Skill调Sub-Agent两种架构选择。
**解决方案:**
1. **推荐Skill嵌套Skill:** 上下文共享,逻辑控制精确,调用关系清晰
2. **不推荐Sub-Agent:** 上下文剥离后会丢失大量信息,逻辑控制容易出问题
3. **最佳实践:** Agent调Agent > Skill嵌套Skill > Skill调Agent
---
### 3. 数字人需求相关问题
**Q5: 数字人视频时长应该定义为多少?**
**问题背景:** 需求文档中定义的3-5分钟时长不符合实际业务场景需求。
**解决方案:**
1. **主要需求改为20-30分钟:** 这是PPT宣讲的真实时长需求
2. **3-5分钟作为测试:** 初期可用短时长验证技术可行性
3. **技术上无本质差异:** 主要是成本问题,不是技术瓶颈
---
**Q6: 数字人平台如何选型?**
**问题背景:** 市场上数字人平台众多,需要评估性价比和效果。
**调研结果:**
| 平台 | 特点 | 建议 |
|-----|-----|-----|
| 百度希壤 | 价格较低40元/10分钟API便宜 | 重点测试,本周出样本 |
| 黑镜 | 会员免费,只收定制费,后续生成免费 | 重点测试,本周出样本 |
| HeyGen | 效果好但价格高 | 作为参考 |
| 可灵/即梦 | 价格很贵 | 不优先考虑 |
| VEO 3.1 | 新升级,能力提升 | 测试首尾帧生成视频效果 |
---
### 4. 前端重构相关问题
**Q7: 前端重构如何保证质量?**
**问题背景:** 需要在保留现有功能的基础上重构前端,同时避免引入问题。
**解决方案:**
1. **后端先审查不改:** 用Opus 4.5或Codex对后端代码做Code Review记录问题不急改
2. **方案交叉验证:** 用GPT Research生成方案与现有方案对比
3. **考虑下一版本:** 重构时把下一版本功能需求一起考虑进去
4. **提供示例代码:** 特别是后端交互的逻辑代码
---
### 5. 需求表达相关问题
**Q8: 为什么与大模型交互总是得不到好答案?**
**问题背景:** 技术调研文档和需求表达不够清晰,导致他人难以理解,与大模型交互效果也差。
**解决方案:**
1. **详细说明背景:** 包含为什么做、要解决什么问题、核心诉求是什么
2. **站在读者角度:** 考虑没有上下文的人能否理解
3. **先写后说:** 对于复杂背景,先写下来整理清楚再交流
4. **正反示例:** 在Prompt中同时给出正确和错误示例
---
## 三、重点工作方法
### 方法 1Gemini多模态视频转写方法
- **描述:** 使用Gemini的多模态能力进行会议视频转写可同时识别画面内容和语音内容。先将会议视频上传给Gemini让其原文转写所有内容再用Clean后的文本作为后续处理的输入。
- **适用场景:** 会议纪要生成、视频内容分析、培训视频转文档
- **关键要点:**
- 支持最长1小时的视频
- 可以通过prompt调整提取内容
- 能识别画面变化(屏幕切换、操作演示)
- 转写准确度极高,几乎无字错误
### 方法 2全量上下文处理优于分块搜索
- **描述:** 在处理长文本时使用全量读取加载到主上下文通过语义理解提取信息而非RAG关键词搜索。人的口语存在大量跳脱和不清晰表达直接搜索会漏掉信息。
- **适用场景:** 会议转写处理、文档信息提取、口语化内容分析
- **关键要点:**
- 先做Clean预处理去除冗余
- 通过Attention机制理解上下文语义
- 可接受较长上下文换取准确性
- RAG对口语化内容效果很差
### 方法 3Skill嵌套Skill架构方法
- **描述:** 使用Skill嵌套Skill的方式进行复杂任务编排直接在主窗口Skill.md中调用其他Skill而不是通过Sub-Agent。上下文共享逻辑控制精确。
- **适用场景:** 复杂工作流编排、多步骤任务自动化
- **关键要点:**
- 上下文共享,信息不丢失
- 调用关系清晰,易于调试
- 避免Sub-Agent的上下文隔离问题
- 接受较长上下文的代价
### 方法 4Agent调Agent架构组织
- **描述:** 在子项目下定义主Agent由主Agent调配各Sub-Agent而非Skill调Agent。这样架构组织更清晰避免来回嵌套。
- **适用场景:** 多Agent协作系统、复杂项目架构
- **关键要点:**
- 主Agent负责调度和协调
- Sub-Agent专注单一功能
- 架构层次分明,易于维护
- 调用语法更规范
### 方法 5提示词正反示例编写技巧
- **描述:** 在编写Skill或Agent的Prompt时必须同时提供正确示例和错误示例。格式"错误的是什么,正确的是什么"。Agent有自己的想法通过正反对比可以强化行为规范。
- **适用场景:** 高精度任务的Prompt编写、规范化操作流程
- **关键要点:**
- 正确示例:期望的输出格式和内容
- 错误示例:常见的错误模式
- 双向约束,减少偏离
- 适用于精密操作任务
### 方法 6Playwright+MCP浏览器自动化
- **描述:** 使用Playwright ExtensionChrome插件结合MCP进行浏览器自动化操作可实现网页操作的完全自动化。对于脱离浏览器的操作如文件保存对话框使用OS Scripts配合处理。
- **适用场景:** 网页自动化操作、Gemini/Canva等平台自动操作
- **关键要点:**
- 自动打开网页、输入文本、点击按钮
- 自动上传和下载文件
- OS Scripts处理浏览器外的操作
- 控制精准,完全自动化
### 方法 7Gemini分镜头脚本视频生成工作流
- **描述:** 使用Gemini 3.0 Pro生成视频分镜头脚本和图片再通过VEO等模型生成视频。流程需求描述 → 分镜脚本 → 分镜图片 → 视频生成 → 合成。
- **适用场景:** 动画视频制作、数字人视频生成、宣传片制作
- **关键要点:**
- Gemini分镜脚本生成能力最强
- 首尾帧+文字稿生成视频已成熟
- 分镜图片质量决定最终效果
- 可生成30秒-2分钟的视频段落
### 方法 8工具组合使用策略
- **描述:** 不同大模型在不同场景下的最佳组合使用策略,发挥各自优势。
- **适用场景:** 日常开发、AI辅助编程
- **关键要点:**
- **前端开发:** Gemini效果极好
- **代码逻辑/架构:** Claude Code工具调用能力最强
- **Bug修复/测试:** GPT Codex
- **文字问答:** GPT 5.1Claude幻觉较高
- **多模态/视觉:** Gemini 3.0 Pro
---
**纪要整理人:** Claude
**纪要时间:** 2025-12-08
**下次会议:** 2025-12-15

View File

@ -0,0 +1,107 @@
# 云大所需求相关进度会议纪要 (2025-12-08)
## 一、会议信息
- **会议时间:** 2025-12-08
- **参会人员:** 连云波(主持)、闫旭隆、江争达、郝倩玉、陶西平
- **纪要整理人:** Claude
---
## 二、需求项目进展
| 项目名称 | 负责人 | 本周进展 | 存在问题 | 下周计划 | 优先级 |
|---------|-------|---------|---------|---------|-------|
| 投标商务应答自动生成系统 | 闫旭隆、郝倩玉、江争达 | 需求文档已完成并发给闫旭隆本周提升为P0任务 | 涉及30万合同需尽快完成架构设计 | 完成Skill架构设计 | P0 |
| 数字人项目 | 陶西平、江争达、郝倩玉 | 完成第一阶段需求文档、平台选型调研(百度希壤、黑镜等) | 时长需求定义不准应为20-30分钟、缺少手势动作、缺少结尾画面 | 1完成百度希壤和黑镜真人训练样本2测试VEO 3.13测试Gemini分镜头工作流 | P0 |
| Gartner 报告解读转写系统 | 闫旭隆、郝倩玉 | 需求文档已完成,已发给闫旭隆 | 涉及年末收入,媛媛催促较急 | 先完成架构设计 | P1 |
| 运营商信息精准爬取系统 | 郝倩玉 | 持续与需求方沟通中 | 需求方具体需求一直不能明确 | 持续跟进需求明确情况 | P1 |
**备注:** 以下市场部需求项目本次会议未涉及:
- 客户风险推送自动化系统
- 邮件自动处理转发系统
- 证书信息提取系统
- 云大阁新报告自动推送
---
## 三、问题与风险
### 项目1: 投标商务应答自动生成系统
**问题描述:**
- 涉及30万合同需尽快完成架构设计和功能实现
**解决方案:**
1. 本周提升为P0优先级
2. 闫旭隆负责Skill架构设计
3. 先有个样子出来,后续持续优化
**责任人:** 闫旭隆
**截止时间:** 2025-12-15
---
### 项目2: 数字人项目
**问题描述:**
1. 时长需求定义不准确文档写3-5分钟实际主要需求是20-30分钟
2. 数字人缺少手势动作,前十秒站着不动会显得不真实
3. 缺少结尾画面,数字人应有告别动作
4. 数字分身需求放缓(核所需求时间有变)
**解决方案:**
1. 将主要时长需求改为20-30分钟
2. 第一阶段必须加入手势动作
3. 增加结尾画面设计
4. 本周完成百度希壤和黑镜的真人训练样本
5. 测试VEO 3.1和Gemini 3.0分镜头工作流
6. 数字分身如核所不做则自主设计多个版本
**责任人:** 陶西平、郝倩玉
**截止时间:** 2025-12-13视频样本2025-12-15工作流测试
---
### 项目3: Gartner 报告解读转写系统
**问题描述:**
- 媛媛催促较急,涉及年末收入
**解决方案:**
1. 设为P1优先级
2. 先完成架构设计
3. 后续根据架构进行实现
**责任人:** 闫旭隆
**截止时间:** 2025-12-15
---
### 项目4: 运营商信息精准爬取系统
**问题描述:**
- 需求方(富有、琳贤)具体需求一直不能明确
**解决方案:**
1. 持续跟进沟通
2. 提供可行性方案给对方做参考
3. 等待需求明确后再推进
**责任人:** 郝倩玉
**截止时间:** 待需求明确
---
## 四、下周重点
1. 🔴 **投标商务应答自动生成系统:** 完成Skill架构设计P0
2. 🔴 **数字人项目:** 完成百度希壤和黑镜真人训练样本测试VEO 3.1和Gemini分镜头工作流P0
3. **Gartner报告解读转写系统:** 完成架构设计P1
4. **运营商信息精准爬取系统:** 持续跟进需求明确P1
5. **数字分身:** 如核所不做则自主设计多个版本P1
---
**纪要整理人:** Claude
**纪要时间:** 2025-12-08
**下次会议:** 2025-12-15

View File

@ -0,0 +1,247 @@
# 工程类会议纪要 (2025-12-08)
## 一、会议信息
- **会议时间:** 2025-12-08
- **参会人员:** 连云波(主持)、闫旭隆、江争达、郝倩玉、陶西平
- **纪要整理人:** Claude
---
## 二、工作内容
### 1. 重点项目进展情况汇总
| 项目名称 | 原负责人 | 原截止时间 | 项目进展情况 |
|---------|---------|-----------|-------------|
| 会议纪要Skill架构优化 | 闫旭隆 | 2025-12-02 | 已完成架构重构从索引搜索改为全量读取会议转写绘制了字段映射逻辑流程图和Phase2并行执行流程图。存在问题全量读取资源消耗大、子Agent并行处理可能造成逻辑割裂、语义识别准确性不足。**解决方案:** 1使用Gemini进行视频转写2先对转写文本进行Clean处理3尝试主窗口全量处理方案 |
| 需求澄清Skill测试与推广 | 闫旭隆、郝倩玉 | 2025-12-02 | 已完成多轮博弈机制开发加入多角色专家评审和交叉回应功能。存在问题专家prompt编写难度大、评审过程无法直观查看、主Agent可能读取不完整。**解决方案:** 1将评审过程整合为一问一答文档2评估博弈效果效果不佳则优化或去除 |
| 数字人PPT需求文档 | 江争达数字人PPT、郝倩玉数字分身 | 2025-12-02 | 已完成第一阶段需求文档包含5个核心需求、质量标准、平台选型调研。存在问题时长需求定义不准应为20-30分钟而非3-5分钟、缺少手势动作、缺少结尾画面。**解决方案:** 1将主要时长改为20-30分钟2增加手势动作要求3本周完成百度希壤和黑镜真人训练样本 |
| 问答系统V1.1前端重构方案 | 江争达、陶西平 | 2025-12-02 | 已完成部分需求文档系统架构图、API接口规范、功能清单。存在问题未完成功能对照、未考虑下一版本需求、后端代码未审查。**解决方案:** 1用Codex/Opus做后端Code Review2用GPT Research生成方案对比3考虑下一版本功能需求 |
| 招投标文件Skill架构设计 | 郝倩玉、闫旭隆、江争达 | 2025-12-02 | 会议中提升为P0任务涉及30万合同需本周完成架构设计 |
| 问答系统V1.0测试推动 | 江争达、郝倩玉 | 2025-12-02 | 进行中,多次与媛媛沟通,相关领导参与测试时间尚未确定 |
| Gartner报告解读转写系统 | 郝倩玉 | 2025-12-02 | 需求文档已完成并发给闫旭隆设为P1任务先做架构设计 |
### 2. 重点项目问题及解决方案
#### 问题1: 会议纪要Skill信息提取准确性问题
**问题描述:**
会议纪要Skill在提取信息时存在准确性问题
- 转写文本准确性不足,存在错误和语义识别问题
- 上下文约束能力弱,缺少会议背景信息
- 分块索引方式导致信息遗漏,全量读取方案资源消耗大
- Sub-agent并行提取后主窗口整合存在逻辑割裂问题
**解决方案:**
1. 文字转写采用Gemini多模态能力利用其视频识别能力提升转写准确性
2. 对转写文本进行Clean处理去除重复和冗余信息后再作为输入
3. 将全量Clean后的转写文本直接加载到主上下文让主窗口一次性处理
4. 尝试调用Gemini API在Claude内部处理会议纪要生成
5. 测试主上下文全量处理与Sub-agent并行提取两种方案的效果对比
**责任人:** 闫旭隆
**截止时间:** 2025-12-15
#### 问题2: Sub-agent调用路径问题全局vs项目级
**问题描述:**
Skill调用自定义Sub-agent时存在全局路径和项目级路径调用差异问题
- 使用相对路径时Claude优先查找全局Agent找不到会读取项目级Agent的Prompt但不执行
- 使用绝对路径可以成功调用项目级Sub-agent
- 未使用Task规范调用也能成功但机制不清晰
**解决方案:**
1. 调用项目级Sub-agent时必须使用绝对路径
2. 建议采用Agent调用Agent的方式而非Skill调用Agent
3. 在子项目下定义主Agent由主Agent调配各Sub-agent
4. 使用标准的Task调用规范避免语言描述产生歧义
5. 调试阶段可用Skill加载方式调通后迁移到Agent架构
**责任人:** 江争达
**截止时间:** 2025-12-15
#### 问题3: 数字人需求文档表达清晰度问题
**问题描述:**
数字人PPT需求文档存在表达不够清晰和具体的问题
- 时长需求定义为3-5分钟但实际主要需求应为20-30分钟
- 缺少结尾画面设计
- 非功能性需求中缺少使用界面说明
- 数字人手势动作需求缺失
**解决方案:**
1. 将时长需求调整为20-30分钟作为主要需求3-5分钟作为初期测试
2. 增加结尾画面设计,数字人独立告别画面
3. 补充使用界面需求明确工作流、API调用或平台操作方式
4. 在核心质量指标中增加手势动作要求,至少前后十秒要有手势
5. 与GPT/Gemini进行需求方案交叉验证
**责任人:** 陶西平
**截止时间:** 2025-12-15
#### 问题4: 需求文档背景说明不清晰问题
**问题描述:**
技术调研文档和需求文档的背景说明不够清晰:
- 核心诉求和问题点没有交代清楚
- 不站在读者角度思考,导致他人难以理解
- 与大模型交互时无法得到好的答案
**解决方案:**
1. 撰写技术文档时必须站在读者角度思考
2. 把背景、核心诉求、要解决的问题清晰表达出来
3. 对于说不出来的复杂背景说明,先写下来再给大模型
4. 确保文档准备充分后别人才能看得懂
**责任人:** 江争达
**截止时间:** 2025-12-15
### 3. 下周工作安排
| 项目名称 | 负责人 | 下周会前目标 | 优先级 | 截止时间 |
|---------|-------|-------------|-------|---------|
| 🔴 会议纪要Skill优化-Gemini转写对比 | 闫旭隆 | 生成三版会议纪要对比腾讯会议转写版、Gemini转写版、Gemini直接生成版 | P0 | 2025-12-15 |
| 🔴 需求澄清Skill专家交叉评审可视化 | 闫旭隆 | 整理专家交叉回应效果的可视化展示,呈现专家间的问题、建议、响应过程 | P0 | 2025-12-15 |
| 🔴 招投标文件Skill架构设计 | 闫旭隆 | 完成招投标文件生成Skill的整体架构设计 | P0 | 2025-12-15 |
| 🔴 数字人PPT视频样本生成 | 陶西平 | 使用百度希壤和黑镜平台训练真人数字人,生成包含手势动作的视频样本 | P0 | 2025-12-13 |
| 🔴 数字人视频工作流研究 | 陶西平 | 研究数字人视频生成工作流API调用/剪映自动化/平台操作),确定技术方案 | P0 | 2025-12-15 |
| 🔴 Gemini 3.0分镜头脚本+视频生成测试 | 陶西平 | 使用Gemini 3.0生成分镜头脚本和图片通过VEO 3.1生成30秒-2分钟视频 | P0 | 2025-12-15 |
| 🔴 前端重构方案完善 | 江争达 | 用Codex审查后端代码、用GPT Research对比方案、考虑下一版本功能需求 | P0 | 2025-12-15 |
| Gartner报告转写系统架构设计 | 闫旭隆 | 设计Gartner报告转写系统的整体架构 | P1 | 2025-12-15 |
| Claude Code Skill转LangChain研究 | 闫旭隆 | 研究如何将Skill迁移到LangChain/LangGraph的DeepAgent架构 | P1 | 待定 |
| 日报驱动项目管理系统开发 | 丁康 | 学习Asana架构和模块设计基于会议纪要生成日报并对接Asana MCP的系统 | P1 | 待定 |
| 数字分身需求对接 | 郝倩玉 | 继续与娴霖沟通,如核所需求不明确则自主设计多个版本 | P1 | 2025-12-15 |
| 运营商信息精准爬取系统需求跟进 | 郝倩玉 | 持续跟进需求方需求明确情况 | P1 | 2025-12-15 |
### 4. 组内成员工作进展
#### 闫旭隆
**上周完成:**
- ✅ 需求澄清-需求文档skill优化-增加多轮博弈机制
- ✅ 会议纪要Skill优化-变为Read全量读取文字转写上下文
- ✅ 录制演示视频
**进行中:**
- 🔄 会议纪要Skill持续优化
**收到的反馈/学习建议:**
- **建议:** 流程图绘制和字段映射逻辑需要写入Skill中确保Claude逻辑清晰避免瞎改
- **建议:** 会议转写换成Gemini来做做一个clean版本作为输入基础
- **建议:** 尝试主上下文窗口全量处理方案与当前并行子Agent方案对比效果
- **建议:** P0优先级判断让系统给出建议后人工确认保留确认材料用于后续优化
- **表扬:** 会议纪要Skill新版本相比上一版有明显进步主要要点已经提取到位
**下周任务:**
- [ ] 🔴 P0会议纪要Skill优化-Gemini转写对比测试
- [ ] 🔴 P0需求澄清Skill专家交叉评审可视化
- [ ] 🔴 P0招投标文件Skill架构设计
- [ ] P1Gartner报告转写系统架构设计
- [ ] P1Claude Code Skill转LangChain研究
#### 江争达
**上周完成:**
- ✅ 数字人PPT需求文档
- ✅ Sub-agent调用研究文档
**进行中:**
- 🔄 问答系统v1.1前端重构方案
- 🔄 PDF Skill技术调研
- 🔄 服务器采购
- 🔄 招投标文件Skill架构调试
**收到的反馈/学习建议:**
- **批评:** Sub-agent调研文档背景说明不够清晰核心诉求和问题点没有交代清楚90%的重点都说丢了
- **批评:** 表达能力和提问题能力不足,导致与大模型交互时无法得到好的答案
- **建议:** 需要提升需求表达能力,站在读者角度思考,把背景、核心诉求清晰表达出来
- **建议:** 对于说不出来的复杂背景说明,建议先写下来再给大模型
- **建议:** 前端重构方案需要用大模型审查后端代码,找出问题后再决定是否修改
**下周任务:**
- [ ] 🔴 P0前端重构方案完善Code Review + 方案对比)
- [ ] P1问答系统V1.0测试推动
- [ ] P1PDF Skill技术调研
- [ ] P1服务器采购
- [ ] P1招投标文件Skill架构调试
#### 郝倩玉
**上周完成:**
- ✅ 会议纪要Skill架构优化协助闫旭隆优化学习类+Q&A类逻辑
- ✅ Gartner报告解读转写系统需求文档
- ✅ 多次与媛媛沟通问答系统测试事宜
**进行中:**
- 🔄 数字分身需求对接(核所需求放缓)
- 🔄 招投标文件Skill架构设计
- 🔄 问答系统V1.0测试推动
- 🔄 运营商信息精准爬取系统需求跟进
**收到的反馈/学习建议:**
- **任务调整:** 数字分身需求因核所需求放缓而面临不确定性,如核所不做则自己做需求,多做几个版本供选择
- **任务安排:** 招投标文件Skill架构设计提升为P0任务涉及年末收入
- **指导:** 可以尝试学习Skill开发先试一个小的功能
**下周任务:**
- [ ] 🔴 P0推动招投标文件Skill架构设计
- [ ] P1数字分身需求对接持续跟进或自主设计
- [ ] P1运营商信息精准爬取系统需求跟进
- [ ] P1问答系统V1.0测试推动
- [ ] P2学习Skill开发
#### 陶西平
**上周完成:**
- ✅ 数字人PPT需求文档协助江老师修改
- ✅ 数字人平台选型调研HeyGen、百度希壤、黑镜等
**进行中:**
- 🔄 数字人与PPT结合视频生成
- 🔄 前端框架重构分析
**收到的反馈/学习建议:**
- **建议:** 视频时长需求应为20-30分钟主要需求而非3-5分钟
- **建议:** 数字人必须要有手势动作,至少前后十秒要有手的动作
- **建议:** 增加结尾画面,数字人独立告别
- **建议:** 测试VEO 3.1的能力使用Gemini 3.0生成分镜头脚本+图片
- **建议:** 研究可以微调和训练的数字人平台
- **建议:** 前端重构时要考虑下一版本交互逻辑用Codex审查后端代码
**下周任务:**
- [ ] 🔴 P0数字人PPT视频样本生成真人训练本周周末前
- [ ] 🔴 P0数字人视频工作流研究
- [ ] 🔴 P0Gemini 3.0分镜头脚本+VEO 3.1视频生成测试
- [ ] P1完成前端框架重构分析
---
## 三、会议总结
**核心议题:** Gemini多模态能力应用、会议纪要Skill优化、数字人视频生成、Agent架构组织
**关键决策:**
1. **采用Gemini 1.5 Pro进行会议视频转写:** 多模态能力最强,转写准确率高,所有成员必须使用
2. **会议转写改为全量读取方式:** 不再使用索引搜索,避免信息遗漏
3. **转写文本需先进行Clean处理:** 去除重复冗余后再提供给主上下文
4. **会议纪要进展情况以会议转写为优先:** 周报为补充
5. **P0/P1/P2优先级判断采用人机协作:** AI给出建议人工确认
6. **Sub-agent调用必须使用绝对路径:** 相对路径调用不稳定
7. **推荐Agent调用Agent的方式:** 而非Skill调用Agent组织更清晰
8. **数字人视频时长改为支持20-30分钟:** 这是主要需求场景
9. **招投标Skill架构设计提升为P0任务:** 涉及30万合同需本周完成
10. **前端开发用Gemini代码逻辑用Claude Code测试用GPT Codex:** 不同任务使用不同模型
**下周工作重点:**
1. 🔴 会议纪要Skill优化生成三版对比腾讯转写版、Gemini转写版、Gemini直接生成版
2. 🔴 招投标文件Skill架构设计本周完成
3. 🔴 数字人PPT视频样本生成本周周末前真人训练
4. 🔴 Gemini 3.0分镜头脚本+VEO 3.1视频生成测试
5. 🔴 前端重构方案完善Code Review + 方案对比)
6. 需求澄清Skill专家交叉评审效果可视化
---
**纪要整理人:** Claude
**纪要时间:** 2025-12-08
**下次会议:** 2025-12-15

View File

@ -0,0 +1,186 @@
# 工程类会议纪要-2025-12-02-第X次周会
## 一、会议信息
- **会议时间:** 2025-12-02
- **参会人员:** 连云波(主持)、江争达、郝倩玉、陶西平、闫旭隆
- **记录整理人:** Gemini
------
## 二、工作内容
### 1. 重点项目进展情况汇总
| **项目名称** | **原负责人** | **原截止时间** | **项目进展情况** |
| ------------------------ | -------------- | -------------- | ------------------------------------------------------------ |
| 会议纪要Skill架构优化 | 闫旭隆 | 12月02日 | **基本完成但需进一步测试**(周报:已完成)。 会议演示了全量读取转写文本的方案但发现Sub-agent调用存在路径和上下文隔离问题建议后续尝试Agent调用Agent架构计划引入Gemini视频转写作为输入源。 |
| 需求澄清Skill测试与推广 | 闫旭隆、郝倩玉 | 12月02日 | **完成**。 已增加专家博弈机制(多轮交叉评价),并录制了演示视频。 |
| 数字人PPT需求文档 | 江争达 | 12月02日 | **需重写**(周报:已完成)。 会议评审未通过需求提炼过于简单仅3-5分钟未体现20-30分钟长视频的技术难点且对“真实感”理解有误如流利中文的老外缺乏手势动作等核心需求。 |
| 问答系统V1.1前端重构方案 | 江争达、陶西平 | 12月02日 | **进行中**。 已出初版文档会议建议暂停直接开发先利用Opus审查后端代码并用大模型生成前端重构方案进行对比。 |
| 数字分身需求文档 | 郝倩玉 | 12月02日 | **暂停/放缓**。 核所需求放缓,暂不以其需求为核心,转为自行调研市面优秀案例。 |
### 2. 重点项目问题及解决方案
#### 项目: 会议纪要Skill开发
**问题1Skill调用Sub-agent存在上下文和路径问题**
- **问题描述:** 在测试中发现Skill调用Sub-agent时如果是相对路径几乎无法成功绝对路径偶尔成功且Sub-agent的上下文隔离效果不理想逻辑控制存在问题。
- **解决方案:**
1. **短期方案:** 暂时将Skill逻辑直接提取到主窗口上下文执行利用主窗口的强大理解能力。
2. **长期架构:** 放弃“Skill调Sub-agent”模式转向“Agent调用Agent”架构在主Agent下定义子Agent逻辑更清晰。
3. **输入源优化:** 采用Gemini处理会议视频多模态能力生成精准文字稿后再喂给Skill。
- **责任人:** 闫旭隆
- **截止时间:** 2025-12-09
#### 项目: 数字人PPT生成
**问题2需求文档缺乏深度与核心难点**
- **问题描述:** 提交的需求文档仅列出了基础功能如PPT同步、画面不遮挡忽视了长视频20-30分钟生成的成本与技术难点且对数字人“真实感”的定义存在偏差如不仅是语音流利更要有肢体动作
- **解决方案:**
1. **修改需求:** 增加时长至20-30分钟的要求增加手势动作需求。
2. **技术路径:** 利用Gemini 3.0生成分镜脚本和分镜图片结合VEO 3.1或Nano Banana生成视频片段再进行拼接。
3. **样本制作:** 本周内必须用真人素材训练出一个语音和视频样本,验证可行性。
- **责任人:** 江争达
- **截止时间:** 2025-12-09
#### 项目: 前端重构
**问题3重构方案缺乏大模型辅助验证**
- **问题描述:** 目前的重构方案主要基于人工思考未充分利用大模型能力进行代码审查和方案对比且Claude 4.5在文字回答上存在幻觉风险。
- **解决方案:**
1. **后端审查:** 使用Opus 4.5或Codex对现有后端代码进行Code Review。
2. **方案对比:** 让GPT-5.1或Gemini基于现有架构生成一版前端重构方案与人工方案进行对比查漏补缺。
- **责任人:** 江争达、陶西平
- **截止时间:** 2025-12-09
### 3. 下周工作安排
| **项目名称** | **负责人** | **下周会前目标** | **优先级** | **截止时间** |
| ----------------------------- | ------------------ | ------------------------------------------------------------ | ---------- | ------------ |
| 🔴 会议纪要Skill优化与测试 | 闫旭隆 | 生成双版本对比纪要1.基于当前Skill+腾讯会议文本2.基于Gemini视频转写+Skill | P0 | 12月09日 |
| 🔴 需求澄清Skill二阶段可视化 | 闫旭隆 | 整理二阶段专家交叉回应的可视化效果,并梳理完整流程图 | P0 | 12月09日 |
| 🔴 数字人PPT视频样本及需求修正 | 江争达 | 1.产出真人训练视频样本2.使用Gemini 3.0测试分镜脚本3.修正需求文档 | P0 | 12月09日 |
| 🔴 招投标文件Skill架构设计 | 闫旭隆、郝倩玉 | 完成架构设计(需求紧急,优先级提升) | P0 | 12月09日 |
| 问答系统V1.1前端重构 | 江争达、陶西平 | 使用大模型Opus/GPT生成对比方案并审查后端代码 | P1 | 12月09日 |
| Gartner报告解读转写系统 | 郝倩玉、闫旭隆 | 完成架构设计 | P1 | 12月09日 |
| PDF Skill技术调研 | 江争达 | 调研Claude Code PDF能力 | P1 | 12月09日 |
| 架构迁移研究 | 闫旭隆 | 研究从Cloud Code Skill架构转为LangChain/Deep Agent架构的可行性 | P1 | 待定 |
| 日报驱动系统需求研究 | 江争达(丁康执行) | 指导丁康完成Asana架构学习及日报驱动需求研究 | P2 | 待定 |
| Skill Plugin管理系统搭建 | 江争达 | 学习并搭建内部Skill Marketplace | P2 | 待定 |
### 4. 组内成员工作进展
#### 闫旭隆
**上周完成:**
- ✅ 需求澄清-需求文档skill优化增加多轮博弈机制
- ✅ 会议纪要Skill优化全量读取模式
**进行中:**
- 🔄 招投标文件Skill架构设计
**收到的反馈/学习建议:**
- **建议:** Skill调用Sub-agent路径问题难以解决建议转向Agent调用Agent架构。
- **建议:** 提示词编写要有明确的正确/错误示例才能保证Agent执行质量。
- **表扬:** 演示的PPT生成Skill结合Gemini规划+Playwright执行效果非常好完全自动化。
**下周任务:**
- [ ] 🔴 P0会议纪要Skill优化与测试Gemini视频源对比
- [ ] 🔴 P0需求澄清Skill二阶段可视化
- [ ] 🔴 P0招投标文件Skill架构设计
- [ ] P1架构迁移研究Skill to Deep Agent
#### 江争达
**上周完成:**
- ✅ 数字人PPT需求文档会议评审认为需重写
- ✅ 问答系统v1.1前端重构方案(初版)
**进行中:**
- 🔄 数字人PPT需求文档修正
- 🔄 前端重构方案优化
**收到的反馈/学习建议:**
- **批评:** 数字人需求文档“只看树木不看森林”,对“真实感”理解有误(如流利中文老外问题)。
- **批评:** 需求文档过于简单未挖掘20-30分钟长视频生成的真正技术难点。
- **建议:** 不要急着写代码先用Opus审查后端用GPT/Gemini生成前端方案做对比。
- **建议:** 尽快测试Gemini 3.0的分镜脚本生成能力。
**下周任务:**
- [ ] 🔴 P0数字人PPT视频样本及需求修正
- [ ] P1问答系统V1.1前端重构(模型辅助方案)
- [ ] P1PDF Skill技术调研
- [ ] P2日报驱动系统需求研究指导丁康
- [ ] P2Skill Plugin管理系统搭建
#### 郝倩玉
**上周完成:**
- ✅ Gartner报告解读转写系统需求文档
- ✅ 投标商务应答文件自动生成系统需求文档
**进行中:**
- 🔄 数字分身需求对接(放缓)
**收到的反馈/学习建议:**
- **确认:** 招投标文件Skill需求紧急提升为P0优先级。
**下周任务:**
- [ ] 🔴 P0招投标文件Skill架构设计协助
- [ ] P1Gartner报告解读转写系统架构设计
#### 陶西平
**上周完成:**
- ✅ 协助江老师修改数字人需求文档
- ✅ 前端框架重构分析
**进行中:**
- 🔄 前端功能分析
**收到的反馈/学习建议:**
- **任务调整:** 配合江争达进行前端重构的大模型方案生成与对比。
**下周任务:**
- [ ] P1问答系统V1.1前端重构(协助)
------
## 三、会议总结
**核心议题:** 会议纪要Skill架构复盘、数字人PPT需求深度评审、前端重构方法论纠偏
**关键决策:**
1. **会议纪要输入源升级:** 决定引入Gemini处理会议视频利用其多模态能力生成高质量文字稿作为Skill输入。
2. **Agent架构调整** 鉴于Skill调用Sub-agent的路径和上下文问题未来开发倾向于“Agent调用Agent”或主窗口全量加载模式。
3. **数字人需求变更:** 明确数字人PPT视频需满足20-30分钟时长必须包含手势动作并利用Gemini 3.0生成分镜脚本。
4. **优先级调整:** 招投标文件Skill开发提升为P0级任务。
5. **重构方法论:** 前端重构禁止直接编码必须先通过大模型Opus/GPT进行后端审查和前端方案生成对比。
**下周工作重点:**
1. 完成会议纪要Skill的双版本效果对比腾讯会议文本 vs Gemini视频转写
2. 产出数字人真人的训练视频样本及修正后的需求文档。
3. 完成招投标文件Skill的架构设计。
4. 落实前端重构的大模型辅助验证方案。

View File

@ -0,0 +1,260 @@
# Q&A资源库类会议纪要 (2025-12-02)
## 一、会议信息
- **会议时间:** 2025-12-02
- **参会人员:** 连云波(主持)、闫旭隆、江争达、郝倩玉、陶西平
- **纪要整理人:** Claude
---
## 二、工作问题 Q&A
### 1. 会议纪要Skill相关问题
**Q1: 会议纪要Skill信息提取准确性不足怎么办**
**问题详情:** 文字转写准确性不够语义识别困难缺乏上下文约束能力分块搜索导致信息遗漏P0/P1/P2优先级判断不准确。
**A1:**
1. 将文字转写工具从腾讯会议换成Gemini多模态转写利用其视觉识别能力提高准确性
2. 对转写文本进行Clean预处理去除脏数据和重复内容
3. 采用全量主上下文窗口处理,不用分块搜索
4. P0/P1/P2优先级在会议上实时确认不完全依赖AI判断
---
**Q2: 子Agent分割处理会导致什么问题**
**问题详情:** 使用多个子Agent并行提取信息后在主窗口整合时发现信息丢失和逻辑割裂。
**A2:**
1. 子Agent提取后主窗口无法建立各部分之间的关联性
2. 建议把Clean后的转写文本直接加载给主上下文全量处理
3. 将子Agent提取的结果作为增强Prompt传给主上下文减少信息损失
4. 非长连续工作场景,主上下文能处理好的就全放主上下文
---
### 2. Sub-agent架构相关问题
**Q3: Sub-agent调用不稳定怎么解决**
**问题详情:** Sub-agent在项目下使用相对路径调用时几乎无法成功执行会读取prompt但不执行。
**A3:**
1. **必须使用绝对路径调用Sub-agent**,相对路径调用不稳定
2. 采用Agent调Agent的架构而非Skill调Agent
3. 定义主Agent后直接选定激活其他Agent自动成为Sub-agent
4. 调试阶段可用Skill调通后将Skill.md移植到Agent中
---
**Q4: Skill和Agent应该如何组织架构**
**问题详情:** Skill调Agent、Agent调Skill来回嵌套导致逻辑混乱。
**A4:**
1. **用Agent调Agent不用Skill调Agent**
2. 可以用Skill嵌套Skill虽然上下文长但逻辑控制精确
3. Sub-agent因不带上下文会导致控制问题主上下文共享更好
4. 子项目下用主Agent组织其他Agent更清晰
---
### 3. 数字人PPT相关问题
**Q5: 数字人选型需要注意什么?**
**问题详情:** 老外数字人说流利中文会让人质疑真实性,与追求真实感的目标矛盾。
**A5:**
1. **不要只看树木不看森林**,老外说流利中文会让人质疑真假
2. 追求真实性就要用真实可信的形象,用真人录制训练
3. 数字人必须有手势动作,前十秒不能呆站
4. 视频结尾加独立告别画面,有始有终
---
**Q6: 数字人平台如何选型?**
**问题详情:** 多个平台费用和能力不同,如何选择。
**A6:**
1. **优先百度希壤和HeyGen黑镜**
2. 可灵即梦按秒收费太贵
3. 百度希壤按分钟包价格合理40块钱10分钟
4. 黑镜会员免费生成,只收定制费
5. 可尝试Gemini VEO 3.13.0 Pro后视频能力升级明显
---
### 4. 前端重构相关问题
**Q7: 前端重构应该如何规划?**
**问题详情:** 只重构展示部分可能不够,担心后续架构又要重改。
**A7:**
1. **重构时必须考虑下一版本的交互逻辑修改**
2. 后端先不动用Opus 4.5或Codex做一次Code Review
3. 将审查发现的问题记录作为重构需求文档
4. 先审查再动手,避免盲目重构
---
### 5. 需求Skill相关问题
**Q8: 多专家博弈评审机制如何验证效果?**
**问题详情:** 只看到专家提问,看不到响应,无法判断评审水平是否足够。
**A8:**
1. 将专家评估意见和响应整合成可视化的一问一答文档
2. 评估提问和响应的水平是否匹配
3. 水平不匹配则不需要这个环节
4. 各领域专家的prompt需要专人编写
---
### 6. AI能力边界相关问题
**Q9: AI优先级判断不准怎么办**
**问题详情:** AI对P0/P1/P2任务优先级判断困难缺乏人员背景等隐性上下文。
**A9:**
1. **在会议上实时确认优先级**不完全依赖AI
2. 让AI先给出建议排序人再确认反馈
3. 将确认过程材料保留,用于后续强化学习
4. 尝试将潜在上下文逐步显性化
---
## 三、重点工作方法
### 方法1: 多模态视频转写优先法
- **描述:** 使用Gemini多模态能力处理会议视频转写相比纯语音识别效率更高。Gemini能识别画面内容、文字和说话人动作可通过prompt调整提取内容甚至直接给会议模版让其一步生成会议纪要。
- **适用场景:** 会议记录、视频内容提取、多信息源整合
- **关键要点:**
- 多模态处理比纯语音识别效率高,能识别背景画面信息
- Gemini上下文最长(100万token),视觉能力最强
- 可用Gem自定义功能预置会议纪要模版后上传视频自动生成
### 方法2: AI工具组合使用策略
- **描述:** 不同AI工具各有专长应根据任务特点组合使用前端用Gemini多模态强中间逻辑用Claude工具调用强项目修复测试用GPT Codex。
- **适用场景:** 复杂项目开发、多任务并行处理
- **关键要点:**
- Gemini最全面多模态尤其视觉能力超强适合做PPT和视频
- Claude工具调用和工具理解能力无人能及做Agent首选
- 选择工具要看任务特点而非盲目追求最聪明的模型
### 方法3: 转写文本预清洗法
- **描述:** 在处理会议转写前先用AI对原始转写进行Clean去除脏数据和重复内容保证信息全面的同时内容紧凑。
- **适用场景:** 会议转写处理、长文本预处理、数据清洗
- **关键要点:**
- 原始转写存在逻辑中断、错误,直接处理效果差
- Clean后内容紧凑从3万字可精简到2万字左右
- 避免给AI喂垃圾数据先精加工再处理
### 方法4: 主上下文全量处理法
- **描述:** 对于信息损失敏感的任务优先在主上下文窗口全量处理而非分割给多个子Agent。
- **适用场景:** 信息整合、关联分析、会议纪要生成
- **关键要点:**
- 子Agent处理会造成逻辑割裂和信息丢失
- 主上下文直接生成比提示词生成再整合信息量更大
- 非长连续工作场景,主上下文能处理好的就全放主上下文
### 方法5: 人机协作关键节点介入法
- **描述:** 识别AI难以自主判断的关键节点如优先级判断在这些节点让人介入给予关键帮助。
- **适用场景:** 复杂决策、优先级判断、隐性知识应用
- **关键要点:**
- AI缺乏潜上下文人员级别、工作年限等某些判断靠人更有效
- 先让AI给建议再人工确认保留确认记录用于后续训练
- 把潜在上下文逐步显性化给AI
### 方法6: 会议实时确认法
- **描述:** 在会议进行中或刚结束时实时整理会议纪要并当场确认不等会后让AI自行判断。
- **适用场景:** 周会、项目会议、决策会议
- **关键要点:**
- 会议中前半部分已可开始整理
- 会上直接确认P0/P1等关键信息
- 当场确认效率最高、准确度最高
### 方法7: Sub-Agent绝对路径调用法
- **描述:** 在项目下调用Sub-Agent时必须使用绝对路径相对路径调用几乎不成功。
- **适用场景:** Skill开发、Agent架构设计
- **关键要点:**
- 相对路径调用Sub-Agent几乎不成功
- 绝对路径调用测试七八次基本稳定
- 不指定目录时AI会优先找全局Agent
### 方法8: Agent调用Agent架构
- **描述:** 不要在Skill里调用Sub-Agent而应该用Agent调用Agent。定义主Agent后选定它再调用的其他Agent就是Sub-Agent。
- **适用场景:** 复杂Agent系统设计、多Agent协作
- **关键要点:**
- Skill调用Sub-Agent组织会乱
- Agent调Agent最容易实现
- 避免Skill和Agent互相嵌套调用
### 方法9: Skill嵌套Skill替代Sub-Agent
- **描述:** 直接用Skill嵌套Skill来组织复杂流程放弃Sub-Agent。虽然上下文较长但逻辑控制精确。
- **适用场景:** 复杂流程自动化、多步骤任务
- **关键要点:**
- Skill套Skill比Sub-Agent清晰得多
- 上下文共享使逻辑控制精确
- Sub-Agent不带上下文会导致控制问题
### 方法10: 上下文越全越好原则
- **描述:** 不要过度限定AI做什么而是给它尽量完整的上下文让它自己理解并制定方案。
- **适用场景:** 创意生成、方案设计、内容生成
- **关键要点:**
- Claude生成的提示词不如Gemini直接读文档效果好
- 不要规定AI做什么给全上下文让它自己决定
- 启发:上下文管理思路的转变
### 方法11: Playwright+OS Scripts自动化工作流
- **描述:** 用Playwright MCP控制浏览器操作当操作超出浏览器范围时用OS Scripts接管实现完全自动化。
- **适用场景:** 网页自动化、图片生成、PPT制作
- **关键要点:**
- Playwright控制浏览器内操作
- OS Scripts处理系统对话框等浏览器外操作
- Python脚本组装最终产出
### 方法12: AI分镜头脚本生成法
- **描述:** 用Gemini 3生成分镜头脚本分段生成图片再通过首尾帧生成连贯视频最后合成完整视频。
- **适用场景:** 视频制作、数字人视频、宣传片
- **关键要点:**
- Gemini 3对镜头理解和分镜脚本生成优于其他模型
- 先生成分段图片,再用首尾帧生成视频
- 分段生成后合并成完整视频
### 方法13: 代码审查驱动重构法
- **描述:** 重构前先用AI对现有代码做完整审查记录问题作为需求文档再逐步重构。
- **适用场景:** 代码重构、技术债务清理、架构升级
- **关键要点:**
- 先审查再动手,审查结果就是重构需求文档
- 用Opus 4.5或Codex做Code Review
- 重构时同时考虑下一版本功能需求
### 方法14: AI模拟专家访谈法
- **描述:** 在需求文档第一版生成时用AI模拟领域专家来回答访谈问题实现需求采集流程自动化。
- **适用场景:** 需求采集、专家访谈、方案设计
- **关键要点:**
- 用AI模拟比我们经验丰富的专家
- 专家Agent回答可能更全面
- 适用于需求文档初版生成
### 方法15: 字段映射逻辑图驱动开发
- **描述:** 开发复杂Skill时先绘制每个输出字段的来源映射逻辑图明确来源和优先级。
- **适用场景:** Skill开发、数据处理流程设计
- **关键要点:**
- 每个字段明确来源和优先级
- 用可视化逻辑图而非纯文字描述
- 解决AI逻辑不连贯问题
---
**纪要整理人:** Claude
**纪要时间:** 2025-12-02
**下次会议:** 2025-12-09

View File

@ -0,0 +1,86 @@
# 云大所需求相关进度会议纪要 (2025-12-02)
## 一、会议信息
- **会议时间:** 2025-12-02
- **参会人员:** 连云波(主持)、闫旭隆、江争达、郝倩玉、陶西平
- **纪要整理人:** Claude
---
## 二、需求项目进展
| 项目名称 | 负责人 | 本周进展 | 存在问题 | 下周计划 | 优先级 |
|----------|--------|----------|----------|----------|--------|
| 投标商务应答自动生成系统 | 郝倩玉、闫旭隆、江争达 | 需求文档已完成,已发闫旭隆确认 | 架构设计待启动 | 从P1提升到P0完成招投标Skill架构设计 | P0 |
| 运营商信息精准爬取系统 | 郝倩玉 | 持续跟进需求方反馈 | 需求方具体需求一直不能明确 | 持续跟进需求方反馈 | P1 |
| 数字人项目 | 江争达、陶西平 | 需求文档已完成删减优化,整合平台选型调研结果 | 1第二阶段功能规划缺失2时长需求不准确当前3-5分钟实际应20-30分钟3数字人缺少手势动作4老外说流利中文的真实性问题 | 用真人训练生成PPT样本研究数字人工作流测试Gemini分镜头视频生成 | P0 |
| Gartner 报告解读转写系统 | 郝倩玉 | 需求文档已完成,已发闫旭隆 | 无 | 等待技术方案确认 | P1 |
| 客户风险推送自动化系统 | - | 本次会议未讨论 | - | - | - |
| 邮件自动处理转发系统 | - | 本次会议未讨论 | - | - | - |
| 证书信息提取系统 | - | 本次会议未讨论 | - | - | - |
| 云大阁新报告自动推送 | - | 本次会议未讨论 | - | - | - |
---
## 三、问题与风险
### 1. 投标商务应答自动生成系统
**问题描述:** 需求文档已完成,但架构设计尚未启动
**解决方案:**
- 从P1提升到P0优先级加快推进
- 闫旭隆负责确认需求文档并设计Skill架构
- 江争达负责后期调试
**责任人:** 郝倩玉、闫旭隆、江争达
**截止时间:** 2025-12-09
---
### 2. 运营商信息精准爬取系统
**问题描述:** 需求方(富有、琳贤)的具体需求一直不能明确
**解决方案:**
- 持续跟进,反复沟通
- 提供可行性方案给对方做参考
**责任人:** 郝倩玉
**截止时间:** 待定(等待需求方明确)
---
### 3. 数字人项目
**问题描述:**
1. 需求文档第二阶段功能缺失
2. 时长需求不准确3-5分钟 vs 实际20-30分钟
3. 数字人形象和动作要求不完整
4. 真实性考虑不足
**解决方案:**
1. 补充第二阶段功能详细说明
2. 时长需求扩展到支持20-30分钟PPT宣讲
3. 增加手势动作要求,避免呆板
4. 使用真人录制训练的语音和形象
5. 视频结尾增加独立告别画面
**责任人:** 江争达、陶西平
**截止时间:** 2025-12-09
---
## 四、下周重点
1. 🔴 **投标商务应答自动生成系统** - 完成Skill架构设计P0
2. 🔴 **数字人项目** - 用真人训练生成PPT样本研究数字人工作流测试Gemini分镜头视频生成P0
3. **运营商信息精准爬取系统** - 持续跟进需求方反馈P1
4. **Gartner报告解读转写系统** - 等待技术方案确认P1
---
**纪要整理人:** Claude
**纪要时间:** 2025-12-02
**下次会议:** 2025-12-09

View File

@ -0,0 +1,309 @@
# 工程类会议纪要 (2025-12-02)
## 一、会议信息
- **会议时间:** 2025-12-02
- **参会人员:** 连云波(主持)、闫旭隆、江争达、郝倩玉、陶西平
- **纪要整理人:** Claude
---
## 二、工作内容
### 1. 重点项目进展情况汇总
| 项目名称 | 原负责人 | 原截止时间 | 项目进展情况 |
|----------|----------|------------|--------------|
| 会议纪要Skill架构优化 | 闫旭隆、郝倩玉 | 2025-12-02 | 已完成整体架构改进:从索引搜索改为全量读取方式;完成字段来源映射逻辑图设计;修改负责人字段为"原负责人",截止时间改为"原截止时间"。存在问题1文字语义识别仍是最大问题2存在信息遗漏日报驱动系统未提取3逻辑判断存在矛盾。**解决方案:** 1转写工具换成Gemini多模态2生成Clean后的全量文字稿作为输入3全量主上下文窗口处理4将Subagent逻辑整合成单一Skill文件 |
| 需求澄清Skill测试与推广 | 闫旭隆、郝倩玉 | 2025-12-02 | 正在进行多专家博弈评审机制验证已生成专家评审JSON文件。存在问题1多专家博弈的prompt可能没写好2需验证评审水平是否达标。**解决方案:** 1把专家评估意见整合成可视化文档一问一答形式2各领域专家Prompt需专人编写3尝试用AI模拟专家回答访谈问题 |
| 数字人PPT需求文档 | 江争达 | 2025-12-02 | 已完成需求文档删减和优化保留有用需求删除默认功能分阶段规划保持不变已整合数字人平台选型调研结果。存在问题1第二阶段功能规划缺失2时长需求定义不准确当前3-5分钟实际应为20-30分钟3数字人缺少手势动作4老外说流利中文的真实性问题。**解决方案:** 1补充第二阶段说明2时长调整为20-30分钟3加入手势要求4用真实人容貌训练 |
| 数字分身需求文档 | 郝倩玉 | 2025-12-02 | 未在会议中讨论,需求方尚未明确反馈 |
| 问答系统V1.1前端重构方案 | 江争达、陶西平 | 2025-12-02 | 正在规划前端展示部分和代码结构重构保留现有基础功能。存在问题1需考虑下一版本交互逻辑更改2后端代码质量未知。**解决方案:** 1重构时考虑下一版本功能需求2用Opus 4.5或Codex对后端做Code Review3后端先不动审查后再规划 |
| 问答系统V1.0测试推动 | 江争达、郝倩玉 | 2025-12-02 | 未在会议中详细讨论,多次与媛媛沟通,相关领导参与测试时间尚未确定 |
| 招投标文件Skill架构设计 | 郝倩玉、闫旭隆、江争达 | 2025-12-02 | 从P1提升到P0比较紧急。投标商务响应文件自动生成系统需求文档已完成 |
| Gartner报告解读转写系统需求文档 | 郝倩玉 | 2025-12-02 | 已完成,已发闫旭隆 |
### 2. 重点项目问题及解决方案
#### 问题1: 会议纪要Skill信息提取准确性问题
**问题描述:**
会议纪要Skill在信息提取时存在以下问题
- 文字转写的准确性不够,语义识别困难
- 缺乏上下文约束能力,无法理解会议背景信息
- 分块搜索导致信息遗漏,如日报驱动系统未被提取
- 逻辑判断存在矛盾,如周报显示完成但会议中反映未完成
- P0/P1/P2优先级判断不准确
**解决方案:**
1. 将文字转写工具从腾讯会议换成Gemini多模态转写利用其视觉识别能力提高准确性
2. 对转写文本进行Clean预处理去除脏数据和重复内容保证信息紧凑
3. 采用全量主上下文窗口处理将Clean后的转写文本直接加载给主窗口
4. 将子Agent提取的结果作为增强Prompt传给主上下文减少信息损失
5. 尝试用Agent调Agent的架构替代Skill调Agent使组织逻辑更清晰
**责任人:** 闫旭隆
**截止时间:** 2025-12-09
#### 问题2: Sub-agent调用不稳定问题
**问题描述:**
Sub-agent在项目下使用相对路径调用时几乎无法成功执行
- 全局下调用Sub-agent能正常执行
- 项目下使用相对路径调用时会读取Sub-agent的prompt但不执行
- 项目下使用绝对路径调用时才能稳定成功
**解决方案:**
1. Sub-agent调用时必须使用绝对路径
2. 采用Agent调Agent的架构而非Skill调Agent
3. 定义主Agent后直接选定激活其他Agent自动成为Sub-agent
4. 调试阶段可用Skill调通后将Skill.md移植到Agent中
5. 非必要情况下用Agent组织Agent不用Skill组织Agent
**责任人:** 闫旭隆
**截止时间:** 2025-12-09
#### 问题3: 数字人PPT需求文档产出问题
**问题描述:**
数字人PPT需求文档存在以下问题
- 时长需求不准确只写了3-5分钟但实际PPT宣讲需要20-30分钟
- 第二阶段功能需求未写入文档
- 数字人动作要求不完整,缺少手势动作要求
- 真实性考虑不足,老外说流利中文会让人质疑真假(本末倒置)
**解决方案:**
1. 时长需求扩展到支持20-30分钟的PPT宣讲
2. 将第一阶段和第二阶段功能需求都完整写入文档
3. 增加数字人手势动作要求,避免前十秒后十秒呆板无动作
4. 数字人形象选型需考虑真实性,使用真人录制训练的语音和形象
5. 视频结尾增加数字人独立告别画面,有始有终
**责任人:** 江争达、陶西平
**截止时间:** 2025-12-09
#### 问题4: 前端重构方案考虑不全面
**问题描述:**
问答系统v1.1前端重构需要考虑更多因素:
- 只重构前端展示和代码结构可能不够
- 需要考虑下一版本的交互逻辑变更
- 后端代码质量未经审查
**解决方案:**
1. 重构时需考虑下一版本可能的功能需求和交互逻辑变更
2. 用Opus 4.5或Codex对后端代码进行一次Code Review审查
3. 将审查发现的问题记录下来作为后续重构的需求文档
4. 后端暂不动,先审查再规划
**责任人:** 江争达、陶西平
**截止时间:** 2025-12-09
#### 问题5: 需求Skill多专家评审效果不明确
**问题描述:**
需求Skill的多专家博弈评审机制效果无法确认
- 只看到专家提问,看不到响应
- 无法判断专家评估水平是否足够
- 各领域专家的prompt可能没写好
**解决方案:**
1. 将专家评估意见和最后响应整合成可视化的一问一答文档
2. 评估专家提问和响应的水平是否匹配,判断是否有必要保留该环节
3. 各领域专家由专人负责编写专业的prompt
4. 第一版需求文档生成时可尝试用AI模拟专家回答访谈问题
**责任人:** 闫旭隆
**截止时间:** 2025-12-09
#### 问题6: AI优先级判断依赖人工介入
**问题描述:**
AI对P0/P1/P2任务优先级的判断非常困难因为缺乏潜在上下文
- 不知道团队成员的年龄、级别、工作时间长短
- 无法理解不同人员分配任务的差异
- 这些潜在上下文很难完全显性化给AI
**解决方案:**
1. 在会议上实时确认P0/P1/P2任务优先级
2. 让AI先给出建议排序人再确认反馈
3. 将确认过程的材料保留,用于后续强化学习或微调
4. 尝试将潜在上下文逐步显性化
**责任人:** 连云波、闫旭隆
**截止时间:** 2025-12-09
### 3. 下周工作安排
| 项目名称 | 负责人 | 下周会前目标 | 优先级 | 截止时间 |
|----------|--------|--------------|--------|----------|
| 🔴 会议纪要Skill优化-全量主窗口处理 | 闫旭隆 | 先用现有版本生成会议纪要然后在主窗口加载会议转写上下文做全量处理将Subagent逻辑整合成单一Skill文件 | P0 | 2025-12-09 |
| 🔴 会议转写文本双版本对比 | 闫旭隆 | 分别用腾讯会议版本和Gemini视频转写版本生成转写文本进行对比分析 | P0 | 2025-12-09 |
| 🔴 Gemini转写文本测试 | 闫旭隆 | 用Gemini转写文本套到现有Skill生成会议纪要 + 直接用Gemini喂视频一步生成会议纪要 | P0 | 2025-12-09 |
| 🔴 需求Skill专家交叉回应可视化 | 闫旭隆 | 整理二阶段专家交叉回应模块的可视化效果,把评估意见和响应整合成一问一答文档 | P0 | 2025-12-09 |
| 🔴 需求Skill流程图优化 | 闫旭隆 | 走一遍需求Skill流程图查看未来流程需要怎么修改完善 | P0 | 2025-12-09 |
| 🔴 招投标Skill架构设计 | 闫旭隆、郝倩玉 | 从P1提升到P0完成招投标Skill的架构设计 | P0 | 2025-12-09 |
| 🔴 数字人PPT样本生成 | 江争达、陶西平 | 用自己真实人容貌训练出来的语音和视频生成PPT讲解样本 | P0 | 2025-12-09 |
| 🔴 数字人工作流研究 | 江争达、陶西平 | 研究数字人生成工作流包括API调用、网站操作或剪映自动化工具等 | P0 | 2025-12-09 |
| 🔴 Gemini分镜头视频生成测试 | 江争达、陶西平 | 通过Gemini 3.0生成分镜头脚本和图片,再找平台试生成视频效果 | P0 | 2025-12-09 |
| 🔴 前端重构-后端代码审查 | 江争达 | 用Codex或Opus 4.5对现有后端代码做Code Review记录问题作为重构需求 | P0 | 2025-12-09 |
| 🔴 前端重构方案优化 | 江争达、陶西平 | 用大模型重新生成前端重构方案,对比现有方案差异;考虑下个版本交互逻辑 | P0 | 2025-12-09 |
| 数字分身需求对接 | 郝倩玉 | 持续跟进需求方反馈,推动需求明确 | P1 | 2025-12-09 |
| 问答系统V1.0测试推动 | 郝倩玉 | 继续与张媛媛沟通,推动相关领导参与测试 | P1 | 2025-12-09 |
| 运营商信息精准爬取系统需求跟进 | 郝倩玉 | 持续跟进需求方反馈 | P1 | 2025-12-09 |
| 天眼查自动更新需求确认 | 闫旭隆 | 确认小童是否还需要天眼查客户数据库自动更新功能 | P1 | 2025-12-09 |
| 日报驱动项目管理系统开发 | 丁康 | 学习Asana架构和模块设计日报驱动项目管理系统 | P1 | 待定 |
| Skill到LangChain架构迁移研究 | 待定 | 研究如何将Claude Code Skill转移到LangChain/LangGraph架构 | P2 | 待定 |
### 4. 组内成员工作进展
#### 闫旭隆
**上周完成:**
- ✅ 需求澄清-需求文档skill优化-增加多轮博弈机制
- ✅ 会议纪要Skill优化-变为Read全量读取文字转写上下文
- ✅ 录制演示视频
**进行中:**
- 🔄 会议纪要Skill架构优化全量主窗口处理
- 🔄 需求Skill专家博弈机制验证
**收到的反馈/学习建议:**
- **表扬:** 会议纪要Skill的逻辑映射图做得很重要有助于保持逻辑一致性和前后连贯性
- **表扬:** 生成的会议纪要比手动版本更具体详细,主要要点都有提取出来
- **批评:** 日报驱动系统没有总结出来,逻辑不全,存在信息遗漏问题
- **建议:** 整个文字转写换成Gemini因为Gemini多模态能力最强
- **建议:** 把转写文本Clean一次去除脏的、重复的内容直接加载给主上下文
- **建议:** 尝试用全量主上下文窗口处理把Skill全部写到主Agent里
- **建议:** P0/P1/P2优先级判断让AI先给建议人再确认反馈
- **建议:** 调试时可以用Skill调用Sub-agent方式流程调通后把Skill.md移植到Agent中
**下周任务:**
- [ ] 🔴 P0会议纪要Skill优化-全量主窗口处理
- [ ] 🔴 P0会议转写文本双版本对比
- [ ] 🔴 P0Gemini转写文本测试
- [ ] 🔴 P0需求Skill专家交叉回应可视化
- [ ] 🔴 P0需求Skill流程图优化
- [ ] 🔴 P0招投标Skill架构设计
- [ ] P1天眼查自动更新需求确认
#### 江争达
**上周完成:**
- ✅ 数字人PPT需求文档
**进行中:**
- 🔄 问答系统v1.1前端重构方案
- 🔄 PDF Skill技术调研
- 🔄 Skill Plugin管理系统搭建
- 🔄 服务器采购
- 🔄 招投标文件Skill架构调试
**收到的反馈/学习建议:**
- **批评:** 数字人选型存在"只看树木不看森林"的问题——老外生成流利中文会让人质疑真实性,追求真实却选择最假的表现是本末倒置
- **建议:** 数字人PPT需求文档中分阶段规划部分第二阶段内容缺失建议都写上完整
- **建议:** 视频时长需求提得不够准确应该考虑20-30分钟的PPT宣讲场景
- **建议:** 数字人标准中要把手势动作加进去,前十秒后十秒不能呆板无动作
- **建议:** 视频结尾可以增加数字人独立的告别画面,有始有终
- **建议:** 前端重构时要考虑下一版本的交互逻辑更改
- **建议:** 后端先不动用Opus 4.5或Codex对后端代码做一次审查
- **建议:** 通过Gemini 3.0生成分镜头脚本,利用其视觉理解能力生成图片
**下周任务:**
- [ ] 🔴 P0数字人PPT样本生成真人训练
- [ ] 🔴 P0数字人工作流研究
- [ ] 🔴 P0Gemini分镜头视频生成测试
- [ ] 🔴 P0前端重构-后端代码审查
- [ ] 🔴 P0前端重构方案优化
- [ ] P1问答系统V1.0测试推动
- [ ] P1PDF Skill技术调研
- [ ] P1服务器采购
#### 郝倩玉
**上周完成:**
- ✅ 会议纪要Skill架构优化协助旭隆优化学习类+Q&A类会议纪要Skill逻辑
- ✅ Gartner报告解读转写系统需求文档已发闫旭隆
- ✅ 问答系统V1.0测试推动沟通
**进行中:**
- 🔄 数字分身需求对接(需求方尚未明确)
- 🔄 招投标文件Skill架构设计
- 🔄 运营商信息精准爬取系统需求跟进
**收到的反馈/学习建议:**
- 无(本次会议未针对郝倩玉工作进行专门讨论)
**下周任务:**
- [ ] 🔴 P0招投标Skill架构设计配合闫旭隆
- [ ] P1数字分身需求对接
- [ ] P1推动问答系统V1.0测试
- [ ] P1运营商信息精准爬取系统需求跟进
#### 陶西平
**上周完成:**
- ✅ 数字人PPT需求文档协助江老师修改
- ✅ 学习使用claudecode的document skill
- ✅ 调研数字人平台公共数字人能力
- ✅ 根据指定PPT生成数字人结合视频
**进行中:**
- 🔄 数字人与PPT结合优化
- 🔄 前端框架重构
**收到的反馈/学习建议:**
- **建议:** 需求文档分阶段规划中,第一阶段和第二阶段功能都应该写清楚
- **建议:** 数字人视频时长需求应该考虑20-30分钟的PPT宣讲场景
- **建议:** 数字人需要添加手势动作,前十秒呆站着讲是有问题的
- **批评:** 老外数字人说流利中文的问题是"只看树木不看森林",会让人质疑真实性
- **建议:** 视频结尾可以加数字人独立的告别画面,有始有终
- **建议:** 尝试用Gemini VEO 3.1测试视频生成效果
- **建议:** 可以通过Gemini 3生成分镜头脚本分段生成图片再合成视频
- **建议:** 前端重构时要考虑下一版本的交互逻辑更改
- **建议:** 后端先不动用Opus 4.5或Codex对后端代码做审查
**下周任务:**
- [ ] 🔴 P0配合江老师数字人PPT样本生成
- [ ] 🔴 P0数字人工作流研究
- [ ] 🔴 P0Gemini分镜头视频生成测试
- [ ] 🔴 P0前端重构方案优化
- [ ] P1完成问答系统前端重构需求文档
---
## 三、会议总结
**核心议题:** 会议纪要Skill架构优化、数字人PPT需求完善、前端重构方案、AI工具选型
**关键决策:**
1. **AI工具选型方案确定:** 前端用Gemini处理多模态任务中间逻辑用Claude Code测试和问题修复用GPT Codex
2. **会议纪要Skill转写工具改用Gemini多模态:** 纯语音识别效率低Gemini能识别画面内容且错误率低
3. **会议转写文本必须先Clean处理:** 去除脏数据和重复内容,保证信息紧凑后再输入
4. **尝试全量主上下文窗口处理:** 子Agent方式会导致信息丢失和逻辑割裂全量处理信息损失最小
5. **P0/P1/P2优先级判断需人工确认:** AI缺少隐性上下文优先级判断需人工在会上辅助
6. **Agent调Agent优于Skill调Agent:** 定义主Agent后其他都是Sub-agent组织逻辑更清晰
7. **Sub-agent调用必须使用绝对路径:** 相对路径调用不稳定
8. **Skill嵌套Skill比Sub-agent更清晰可控:** 虽然上下文长,但逻辑控制精确
9. **数字人视频时长需求扩展到20-30分钟:** 这是PPT宣讲的主要需求
10. **数字人必须包含手势动作:** 前十秒不能呆站,真实性要求
11. **数字人平台选型优先百度希壤和HeyGen:** 价格合理,可定制
12. **前端重构前先做后端Code Review:** 用Opus 4.5或Codex审查后端先不动
13. **前端重构必须考虑下一版本交互逻辑:** 避免架构调整后又要重改
14. **日报驱动项目管理系统由丁康负责:** 基于会议纪要生成日报对接Asana
15. **Skill迁移到LangChain/LangGraph作为P1-P2研究项目:** 当前Skill用多了后需转化到正式Agent框架
**下周工作重点:**
1. 🔴 会议纪要Skill优化改用Gemini转写 + 全量主窗口处理
2. 🔴 需求Skill专家交叉回应可视化整理
3. 🔴 招投标Skill架构设计P1提升为P0
4. 🔴 数字人PPT样本生成真人训练+ 工作流研究
5. 🔴 前端重构-后端代码审查 + 方案优化
---
**纪要整理人:** Claude
**纪要时间:** 2025-12-02
**下次会议:** 2025-12-09

View File

@ -0,0 +1,132 @@
# 会议纪要生成效果对比报告
## 核心结论
| 排名 | 版本 | 得分 | 说明 |
|------|------|------|------|
| 1 | **Gemini清洗后** | **88.10分** | 最佳方案,但是时间成本高 |
| 2 | 腾讯清洗后 | 86.65分 | |
| 3 | Gemini清洗前 | 82.05分 | 时间成本高 |
| 4 | 腾讯清洗前 | 79.35分 | |
### 关键发现
| 结论 | 数据支撑 |
|------|---------|
| **Gemini优于腾讯会议** | 清洗后领先1.45分清洗前领先2.7分 |
| **Gemini画面提取是关键优势** | 可识别屏幕文字如HeyGen腾讯无此能力 |
| **Gemini分段识别更准确** | 按发言人分段,上下文更清晰;腾讯一大段混在一起,"P0"与"PE"混淆 |
| **85%差异源于执行波动** | 转写有正确内容但LLM未正确提取 |
| **15%差异源于转写质量** | 专有名词错误、优先级误判等 |
---
## 转写来源对比
| 转写来源 | 特点 | 版本 |
|---------|------|------|
| **Gemini** | 多模态(视频+音频),含画面内容提取 | 清洗前、清洗后(窗口交互对话) |
| **腾讯会议** | 纯语音转写 | 清洗前、清洗后Skill基础清洗+话题识别+发言人识别) |
| **手工修订版** | 人工校验基准 | - |
### 关键差异:画面内容提取
| 指标 | Gemini清洗前 | Gemini清洗后 | 腾讯会议 |
|------|-------------|-------------|---------|
| 画面内容标注数量 | 189处 | 70处 | **0处** |
| 能否识别屏幕上的文字 | ✅ 是 | ✅ 是 | ❌ 否 |
---
## 一、转写质量直接影响的差异(📝)
这些差异**直接由转写文本质量导致**Skill无法弥补
### 1.1 专有名词识别
| 正确写法 | Gemini转写 | 腾讯转写 | 影响 |
|----------|-----------|---------|------|
| 百度**曦灵** | 希壤 | 西林 | 产品名称错误 |
| **HeyGen** | 黑镜但画面提取到HeyGen | 黑镜 | Gemini清洗后正确其他错误 |
**结论**:
- Gemini画面内容提取可补充语音识别错误HeyGen案例
- 专有名词错误需后期词典校正
### 1.2 优先级记录差异
| 任务 | 正确优先级 | Gemini转写记录 | 腾讯转写记录 | 影响 |
|------|-----------|---------------|-------------|------|
| Gartner报告Skill | **P0** | ⚠️ P1 | ⚠️ P1 | 均误判为P1 |
**结论**: Gemini转写记录为"可以做P1",腾讯转写为"PE"误识别由于是后续说的“提升为P0”导致未识别理解到两者均导致会议纪要输出P1。这是转写质量+执行波动共同影响的案例。
### 1.3 内容覆盖差异
| 内容 | Gemini清洗前 | Gemini清洗后 | 腾讯清洗前 | 腾讯清洗后 |
|------|-------------|-------------|-----------|-----------|
| 服务器采购 | ✅ 有记录 | ❌ 无 | ❌ 无 | ❌ 无 |
**结论**: 部分内容仅在特定转写版本中存在。
---
## 二、转写来源对会议纪要各维度的影响
### 2.1 下周工作安排权重25%,最核心)
#### P0任务优先级准确性
| 任务 | 手工版 | Gemini清洗前 | 腾讯清洗前 | 腾讯清洗后 | Gemini清洗后 | 差异来源 |
|------|-------|-------------|-----------|-----------|-------------|----------|
| 招投标Skill架构设计 | P0 | ✅ P0 | ⚠️ **P1** | ✅ P0 | ✅ P0 | 🎲 执行波动 |
| Gartner报告Skill | **P0** | ⚠️ **P1** | ⚠️ **P1** | ⚠️ **P1** | ❌ 未列 | 📝 Gemini/腾讯转写均记录为P1 |
| 数字分身方案调研 | P0 | ⚠️ **P1** | ⚠️ **P1** | ✅ P0 | ⚠️ **P1** | 🎲 执行波动 |
#### 负责人识别准确性
| 任务 | 手工版 | Gemini清洗前 | 腾讯清洗前 | 腾讯清洗后 | Gemini清洗后 |
|------|-------|-------------|-----------|-----------|-------------|
| 会议纪要Skill优化 | 闫旭隆、郝倩玉 | 闫旭隆 | 闫旭隆 | 闫旭隆 | 闫旭隆 |
| 数字人PPT样本 | 江争达、陶西平 | 陶西平 | 江争达 | 江争达 | 江争达、陶西平 |
| 招投标Skill架构 | 郝倩玉、闫旭隆 | 闫旭隆 | 郝倩玉 | 郝倩玉 | 闫旭隆、郝倩玉 |
**结论**: Gemini清洗后负责人识别最完整其他版本普遍简化为单人。
### 2.2 问题拆分粒度
| 问题 | 手工版 | Gemini清洗前 | 腾讯清洗前 | 腾讯清洗后 | Gemini清洗后 |
|------|-------|-------------|-----------|-----------|-------------|
| P0/P1/P2优先级判断困难 | ✅ 独立 | ❌ 未列 | ❌ 未列 | ⚠️ 合并 | ✅ 独立 |
| 前端重构方案需完善 | ✅ 独立 | ❌ 合并 | ✅ 独立 | ❌ 未列 | ✅ 独立 |
**结论**: Gemini清洗后问题拆分最细致。
---
## 三、综合评分对比
### 3.1 各维度得分
| 评估维度 | 权重 | 手工版 | Gemini清洗前 | 腾讯清洗前 | 腾讯清洗后 | Gemini清洗后 |
|----------|------|-------|-------------|-----------|-----------|-------------|
| 会议信息 | 5% | 100 | 80 | 80 | 85 | 90 |
| 项目进展汇总 | 15% | 100 | 90 | 85 | 90 | 92 |
| 问题及解决方案 | 20% | 100 | 75 | 70 | 82 | 88 |
| **下周工作安排** | **25%** | 100 | 80 | 82 | 88 | 85 |
| 成员工作进展 | 15% | 100 | 85 | 80 | 85 | 88 |
| 会议总结 | 20% | 100 | 78 | 82 | 88 | 90 |
| **加权总分** | 100% | **100** | **82.05** | **79.35** | **86.65** | **88.10** |
### 3.2 转写来源效果对比
| 转写来源 | 清洗前 | 清洗后 | 清洗提升 |
|---------|--------|--------|----------|
| **Gemini** | 82.05分 | **88.10分** | +6.05分 |
| **腾讯会议** | 79.35分 | 86.65分 | +7.30分 |
| **来源差距** | Gemini领先2.7分 | Gemini领先1.45分 | - |
---
**报告生成时间:** 2025-12-09

View File

@ -0,0 +1,281 @@
# 工程类会议纪要 (2025-12-02)
## 一、会议信息
- **会议时间:** 2025-12-02
- **参会人员:** 连云波(主持)、江争达、闫旭隆、陶西平、郝倩玉、丁康
- **记录整理:** Claude
---
## 二、工作内容
### 1. 重点项目进展情况汇总
| 项目名称 | 原负责人 | 原截止时间 | 项目进展情况 |
| ------------------------ | -------------- | ---------- | ------------------------------------------------------------ |
| 会议纪要Skill架构优化 | 闫旭隆、郝倩玉 | 2025-12-02 | 已完成架构优化改为全量读取会议转写文本不采用索引搜索整理了字段映射逻辑图整个流程已固化。领导评价比上一版有进步整体逻辑可以先固化使用。存在问题文字转写准确性和上下文约束能力是核心瓶颈P0/P1/P2优先级判断难以自动化 |
| 需求澄清Skill测试与推广 | 闫旭隆 | 2025-12-02 | 已完成优化,加入多轮专家博弈机制(独立评审→交叉评价→交叉回应→最终整合),并录制了演示视频。领导建议:验证专家博弈环节的实际效果,将评估意见和响应打成一篇文档进行对照分析 |
| 数字人PPT需求文档 | 江争达 | 2025-12-02 | 已完成需求文档整理包含五个第一阶段核心需求。下周行动计划1)时长从3-5分钟改为20-30分钟2)必须加入手势动作要求3)不能使用老外形象说流利中文4)本周尽快用真人训练数字人样本 |
| 数字分身需求文档 | 郝倩玉 | 2025-12-02 | 相关领导处的需求尚未明确。下一步建议:自己调研市面上做得好的几个版本,分别出方案让需求方选择 |
| 问答系统V1.1前端重构方案 | 江争达、陶西平 | 2025-12-02 | 进行中已完成接口规范文档确认功能模块清单正在对照核实中。领导建议后端代码不要动先用Claude 4.5或Codex做代码审查重构时必须考虑下一版本功能需求 |
### 2. 重点项目问题及解决方案
#### 问题1: 会议纪要文字转写准确性问题
**问题描述:**
会议纪要Skill的最大问题是文字转写的准确性和上下文约束能力不足。语音识别不清晰加上没有很好的上下文约束导致在已经非常清晰的上下文背景下开会时AI无法准确理解和提取信息。
**解决方案:**
1. 考虑使用Gemini进行多模态转写视频+音频+文字利用其100万token的超长上下文能力
2. 将转写文本先进行清洗加工,保证信息全面的同时内容紧凑,去除重复内容,在主窗口+子Agent中加载清洗后的会议转写文本
3. 调用Gemini API在Claude中处理转写后的文本
4. 尝试使用Gemini进行一次性生成会议纪要
**责任人:** 闫旭隆
**截止时间:** 2025-12-09
#### 问题2: 会议纪要P0/P1/P2优先级判断困难
**问题描述:**
AI难以准确判断任务的优先级P0/P1/P2因为缺少关键的潜在上下文信息如成员的年龄、级别、工作时间长短等这些都是分配工作时的潜意识上下文。
**解决方案:**
1. 在会议上直接确认P0/P1/P2优先级给AI一个明确的信号
2. 让AI先给出优先级建议人再给反馈确认
3. 每个人生成一份个人相关的优先级列表后确认
4. 保留确认过程的所有材料作为后续调优或微调的素材
5. 将潜在上下文成员背景信息显性化后提供给AI
**责任人:** 闫旭隆
**截止时间:** 2025-12-09
#### 问题3: Sub Agent在项目目录下调用的路径问题
**问题描述:**
测试发现Sub Agent在项目子目录下调用时存在问题不使用绝对路径时Agent会读取prompt但不执行使用绝对路径指定时才能正常调用。系统似乎默认优先查找全局Agent目录找不到就忽略。
**解决方案:**
1. 在Skill中调用Sub Agent时使用绝对路径指定Agent位置
2. 改用Agent调Agent的方式而非Skill调Agent
3. 定义一个主Agent来调用其他Agent保持逻辑清晰
4. 调试时使用Skill方式便于观察上下文调通后再迁移到Agent调Agent的架构
**责任人:** 江争达
**截止时间:** 2025-12-09
#### 问题4: 问答系统前端重构方案需完善
**问题描述:**
前端重构工作尚未完成,只做了一半。需要确保重构时考虑下一个版本的交互逻辑更改,避免架构调整后又需要重新修改或增加组件。
**解决方案:**
1. 用Opus 4.5或Codex对后端代码进行审查找出问题后记录下来
2. 找一个Code Review的Agent或Skill对代码进行审查
3. 让大模型生成一版前端重构方案,与现有方案对比差异
4. 把下一个版本的功能需求结合这次重构一起考虑
5. 提供示例代码(特别是与后端交互的逻辑代码)给大模型参考
**责任人:** 江争达
**截止时间:** 2025-12-09
#### 问题5: 数字人PPT讲解视频手势动作缺失
**问题描述:**
数字人PPT讲解视频中开场和结尾没有手势动作人物呆呆站着讲解效果不真实。
**解决方案:**
1. 在验收标准中加入手势动作要求
2. 修改数字人在PPT讲解视频中展现形式
3. 测试Veo 3.1的动作生成能力
**责任人:** 陶西平
**截止时间:** 2025-12-09
#### 问题6: 需求表达和背景说明不清晰
**问题描述:**
团队成员在汇报和文档中,需求表达和背景说明不够清晰,不交代核心诉求和问题点,导致其他人或大模型无法理解要解决什么问题。
**解决方案:**
1. 汇报时必须交代核心诉求和问题点
2. 给人可以口头补充,给大模型必须写下来
3. 站在其他人的角度思考,确保表达能被理解
4. 背景说明要特别详细
**责任人:** 全体成员
**截止时间:** 2025-12-09
### 3. 下周工作安排
| 项目名称 | 负责人 | 下周会前目标 | 优先级 | 截止时间 |
| ----------------------------------------- | -------------- | ------------------------------------------------------------ | ------ | ---------- |
| 🔴 会议纪要Skill全量处理优化 | 闫旭隆、郝倩玉 | 用现版本、Gemini视频生成转写文本+主窗口清洗后加载、Gemini视频直接生成三种方式各生成一版会议纪要进行对比测试 | P0 | 2025-12-09 |
| 🔴 数字人PPT视频样本生成 | 江争达、陶西平 | 用百度曦灵和heygen平台训练自己真人的语音和视频生成数字人PPT讲解视频样本需包含手势动作视频时长支持20-30分钟 | P0 | 2025-12-08 |
| 🔴 Gemini分镜脚本生成测试 | 江争达、陶西平 | 使用Gemini 3.0 Pro生成视频分镜脚本和分镜图片再用VEO 3.1或其他模型生成视频,测试端到端数字人视频生成工作流 | P0 | 2025-12-09 |
| 🔴 问答系统V1.1前端重构 | 江争达、陶西平 | 重构前端展示和代码结构保留基础功能和后端不变需结合下一版本交互逻辑变更一起考虑先用大模型对后端代码进行code review | P0 | 2025-12-09 |
| 🔴 需求澄清Skill专家博弈优化 | 闫旭隆 | 查看专家交叉回应的字段映射,整理可视化效果,评估专家博弈环节对需求文档质量的提升效果 | P0 | 2025-12-09 |
| 🔴 投标商务应答自动生成系统Skill架构设计 | 郝倩玉、闫旭隆 | 设计投标商务应答自动生成系统Skill的架构方案 | P0 | 2025-12-09 |
| 🔴 Gartner报告解读转写Skill架构设计 | 郝倩玉、闫旭隆 | 设计Gartner报告转写Skill的架构涉及后续合同签约需求要求最晚12月中旬必须交付 | P0 | 2025-12-09 |
| 🔴 数字分身方案调研及方案撰写 | 郝倩玉 | 先调研市面上做得好的版本,分别出几个方案让需求方选择 | P0 | 2025-12-09 |
| 日报驱动项目管理系统Skill开发 | 丁康 | 开发基于会议纪要的日报生成系统Skill | P1 | 待定 |
| 完成问答系统前端重构需求文档 | 陶西平 | 完成问答系统前端重构需求文档 | P1 | 2025-12-09 |
| 服务器采购 | 江争达 | 尽快采购,先确认好需要部署哪些软件 | P1 | 2025-12-09 |
| Skill Plugin管理系统搭建 | 江争达 | 学习并搭建内部Skill Marketplace管理团队开发的所有Skill | P2 | 待定 |
| Claude Skill转Langchain/Langgraph架构研究 | 闫旭隆 | 研究如何将Claude Code Skill转移到Langchain/Langgraph的低代码架构做一个小功能进行学习验证 | P2 | 待定 |
### 4. 组内成员工作进展
#### 江争达
**上周完成:**
- ✅ 数字人PPT需求文档
**进行中:**
- 🔄 完成问答系统v1.1前端重构方案
- 🔄 PDF Skill技术调研待开始
- 🔄 Skill Plugin管理系统搭建待开始
- 🔄 服务器采购(待开始)
- 🔄 招投标文件Skill架构调试待开始
- 🔄 日报驱动系统需求研究(待开始)
**收到的反馈/学习建议:**
- **批评:** 需求文档分析存在很大问题,不站在其他人的角度去思考,其他人听不懂你讲什么。核心诉求点没有说清楚,背景不交代清楚导致没人看得懂文档
- **批评:** 表达能力需要提升,没有表达能力就没法跟大模型打交道
- **建议:** 问答系统前端重构方案需要把下个版本可能修改的逻辑先考虑进去
- **建议:** 后端代码先不要动先用Opus 4.5或Codex做一遍代码审查
- **建议:** 前端重构方案需要用大模型重新生成一版,与现有方案对比差异
- **建议:** 提供示例代码,特别是与后端交互的逻辑代码应该提供给大模型参考
- **建议:** Claude 4.5幻觉还是很高的日常问答以GPT o1为主可能会比较好
**下周任务:**
- [ ] 🔴 P0问答系统V1.1前端重构
- [ ] 🔴 P0数字人PPT视频样本生成
- [ ] 🔴 P0Gemini分镜脚本生成测试
- [ ] P1PDF Skill技术调研
- [ ] P1服务器采购
- [ ] P2Skill Plugin管理系统搭建
#### 闫旭隆
**上周完成:**
- ✅ 需求澄清-需求文档skill优化-增加多轮博弈机制,录制视频
- ✅ 会议纪要Skill优化-变为Read全量读取文字转写上下文录制视频
**进行中:**
- 🔄 招投标文件Skill架构设计
**收到的反馈/学习建议:**
- **表扬:** 会议纪要Skill架构改进获得认可改用全量读取替代索引搜索的方案是正确的字段映射逻辑图也得到肯定
- **表扬:** 会议纪要Skill的测试结果与人工订正版本相比"比上面是有进步了""该有的要点是有"
- **建议:** 尝试使用主窗口全量处理替代分块agent搜索可能效果更好同时建议用Gemini做会议转写测试
- **建议:** 招投标Skill架构设计作为P0任务需要本周完成同时Gartner报告转写也需要先设计架构
- **建议:** 会议纪要的下周工作安排提取是最核心的功能需要重点优化P0/P1优先级判断的准确性
**下周任务:**
- [ ] 🔴 P0会议纪要Skill全量处理优化及gemini方案对比测试
- [ ] 🔴 P0需求澄清多专家博弈阶段效果可视化展示
- [ ] 🔴 P0招投标Skill架构设计
- [ ] 🔴 P0Gartner报告转写Skill架构设计
#### 郝倩玉
**上周完成:**
- ✅ 会议纪要Skill架构优化协助旭隆优化学习类+Q&A类会议纪要Skill逻辑
- ✅ Gartner 报告解读转写系统需求对接及文档撰写,确定版需求文档已发旭隆。
- ✅ 问答系统V1.0测试推动(多次与媛媛沟通)
- ✅数字分身需求对接
**进行中:**
- 🔄 招投标文件Skill架构设计投标商务响应文件自动生成系统需求文档已完成
**收到的反馈/学习建议:**
- **建议:** 招投标Skill架构设计后续需要针对需求部分再次讨论确认因为有些需求不一定合理
- **建议:** Gartner报告转写系统架构设计需要尽快完成因为涉及年末签合同可能有30万的业务机会优先级提升为P0
- **建议:** 数字分身需求方面,由于合作方需求不明确,需要自己先调研市面上比较好的版本,做出多个方案供选择
**下周任务:**
- [ ] 🔴 P0参与优化会议纪要Skill
- [ ] 🔴 P0参与设计招投标Skill架构
- [ ] 🔴 P0参与设计Gartner报告转写Skill架构
- [ ] 🔴 P0数字分身方案调研
#### 陶西平
**上周完成:**
- ✅ 数字人PPT需求文档协助江老师修改需求文档
- ✅ 学习使用Claude Code的document skill使用pdf skill的表单填写功能
- ✅ 调研数字人平台的公共数字人能力,收集总结相关目标数字人平台价格信息
**进行中:**
- 🔄 数字人与ppt结合生成一个基于指定PPT的数字人视频
- 🔄 前端框架重构(对问答系统前端功能进行分析)
**收到的反馈/学习建议:**
- **肯定:** 陶西平提供的数字人调研文档被团队成员引用,作为数字人平台费用对比的基础参考资料
**下周任务:**
- [ ] 🔴 P0数字人PPT视频样本生成
- [ ] 🔴 P0Gemini分镜脚本生成测试
- [ ] P1完成问答系统前端重构需求文档
---
## 三、会议总结
**核心议题:** 会议纪要Skill优化、数字人PPT视频生成、问答系统前端重构、招投标/Gartner报告Skill架构设计
**关键决策:**
1. **会议纪要转写采用Gemini多模态视频处理方案:** 领导测试发现Gemini 3.0 Pro可以直接上传会议视频生成转写文本多模态能力最强上下文最长效果优于纯语音转写
2. . **进展情况以会议转写为优先,周报作为补充:** 会议中发现转写文本更能反映实际进展情况
3. **P0/P1/P2优先级判断需要人工确认:** AI缺乏隐性上下文如成员资历、工作时长等建议先让AI给出优先级建议然后由人工确认
4. **数字人PPT视频主需求调整为支持20-30分钟时长:** 实际使用场景如PPT宣讲、会议发言需要20-30分钟
5. **数字人形象必须使用中国人,不能用老外说流利中文:** 确保形象和语言匹配,追求真实性
6. **数字人视频第一阶段必须包含手势动作:** 开场和结尾的手势动作是必须的,不能呆板站立讲解
7. **本周完成数字人真人训练视频样本:** 要求本周末前用自己真人训练出语音和视频样本
8. **使用Gemini 3.0生成分镜头脚本和图片,再用其他平台生成视频:** 这是目前最有效的动画视频制作路径
9. **前端重构只改展示部分,后端不动但需做代码审查:** 用Codex或大模型做一遍代码审查找出问题记录下来
10. **Sub Agent调用必须使用绝对路径指定:** 项目下的sub agent不指定绝对路径时调用不稳定
11. **推荐使用Agent调用Agent的方式而非Skill调用Sub Agent:** 这样调用更清晰,上下文共享更好
12. **招投标Skill架构设计提升为P0任务:** 因为涉及年末演示和签合同可能有30万收入
13. **Gartner报告转写Skill提升为P0任务:** 同样因为紧急需求
**下周工作重点:**
1. 🔴 会议纪要Skill全量处理优化对比Gemini转写与腾讯会议转写效果
2. 🔴 数字人PPT视频样本生成本周末前完成真人训练
3. 🔴 招投标Skill和Gartner报告转写Skill架构设计
4. 🔴 问答系统V1.1前端重构,需先做代码审查
5. 🔴 需求澄清Skill专家博弈效果验证和流程图梳理
6. 🔴 数字分身方案调研,主动出多个版本供选择
---
**纪要整理人:** Claude
**纪要时间:** 2025-12-02
**下次会议:** 2025-12-09

View File

@ -0,0 +1,156 @@
# Q&A资源库类会议纪要 (2025-12-02)
## 一、会议信息
- **会议时间:** 2025-12-02
- **参会人员:** 连云波(主持)、江争达、闫旭隆、陶西平、郝倩玉
---
## 二、工作问题 Q&A
### 1. 会议纪要Skill相关问题
**Q1: 会议纪要语音转写准确性不足怎么解决?**
**问题描述:** 语音识别效率低,文字转写的准确性不足,上下文约束能力差。转写文本有大量重复、错误和逻辑中断。
**解决方案:**
- 使用Gemini多模态能力处理视频转写直接上传视频给Gemini生成会议纪要
- 先清洗转写文本去除重复、脏数据再进行处理生成紧凑的clean版本
- 改为全量读取上下文方式,不用索引搜索,让模型通过语义理解提取信息
- 考虑调用Gemini API在Claude里面处理转写实现自动化
**Q2: 会议纪要P0/P1/P2优先级判断不准确怎么办**
**问题描述:** 模型很难准确判断任务的优先级,因为缺少成员的年龄、级别、工作时间等潜在上下文信息。
**解决方案:**
- 让模型先给出优先级建议,人再进行确认反馈
- 在会上直接确认P0/P1/P2给模型明确的文字信息
- 逐步把潜在上下文显性化,作为输入提供给模型
- 保留确认过程的所有材料,作为后续微调训练数据
### 2. Agent架构相关问题
**Q3: Sub Agent调用时相对路径不可靠怎么办**
**问题描述:** 在项目目录下调用全局Agent时使用相对路径调用不可靠。不指定绝对路径时Sub Agent会读取提示词但不会按照预期执行。
**解决方案:**
- 使用绝对路径调用Sub Agent确保路径指向正确位置
- 建议用Agent调Agent而非Skill调Agent逻辑更清晰
- Skill调Skill在主窗口上下文共享控制更精确
- 调试时用Skill形式调通后再移植到Agent中
**Q4: Skill调Agent和Agent调Agent哪个更好**
**问题描述:** 在编排复杂流程时,需要选择合适的调用方式。
**解决方案:**
- **Agent调Agent更推荐:** 逻辑更清晰,更智能
- **Skill调Skill的优势:** 主窗口上下文共享,控制更精确
- **调试建议:** 调试时用Skill形式上下文可见调通后再移植到Agent
- **架构建议:** 非必要情况下不要在Skill里面调用Sub Agent会导致逻辑割裂
### 3. 需求文档相关问题
**Q5: 需求文档如何区分默认需求和核心需求?**
**问题描述:** 数字人PPT需求文档时间要求不准确3-5分钟应为20-30分钟说明需求理解存在偏差。
**解决方案:**
- 先明确目标用户的真实使用场景如PPT宣讲一般需要20-30分钟
- 区分"不提也会做"的默认需求和"必须明确"的核心需求
- 需求文档要站在其他人角度思考,让非技术人员也能看懂
**Q6: 如何提升需求表达能力?**
**问题描述:** 需求文档分析问题大,不站在其他人角度思考,核心诉求没说清楚。
**解决方案:**
- 给大模型的提示词必须写详细完整,口头表达时可以简略
- 先交代背景和核心诉求,再说具体内容
- 用deep research或GPT做方案校验
- 把方案给大模型审查,看有什么值得借鉴或存在的问题
### 4. 前端重构相关问题
**Q7: 前端重构如何避免二次返工?**
**问题描述:** 前端重构方案只完成了一半,未考虑下一版本的交互逻辑更改。
**解决方案:**
- 在重构时就考虑下一版本的功能需求
- 后端先用代码审查工具审查一遍,记录问题
- 用deep research或GPT生成前端重构方案对比
- 对照流程图验证方案的准确性
---
## 三、重点工作方法
### 方法1: Gemini多模态视频转写方法
**方法描述:** 使用Gemini的多模态能力直接处理会议视频生成会议纪要。
**适用场景:** 会议纪要生成、视频内容提取
**关键要点:**
- 直接上传视频给Gemini配合会议纪要模板
- 多模态能力可以同时处理视频、音频、文字
- 比纯文字转写后再处理效果更好
- API调用成本可接受半小时约6000字2万多token
### 方法2: PPT自动化生成方法
**方法描述:** 使用Gemini 3.0生成分镜脚本和图片,再通过视频生成平台合成视频。
**适用场景:** PPT自动生成、视频内容创作
**关键要点:**
- 先用Gemini生成分镜头脚本
- 让Gemini生成每个分镜的图片
- 使用首尾帧+文字通过VEO 3.1等平台生成视频
- 使用Playwright MCP实现浏览器自动化操作
### 方法3: Agent架构调试方法
**方法描述:** 先用Skill形式调试调通后再移植到Agent中。
**适用场景:** 复杂Agent流程开发
**关键要点:**
- 调试时用Skill形式上下文可见便于定位问题
- 调通后移植到Agent实现上下文隔离
- 使用绝对路径调用Sub Agent
- 建议用Agent调Agent而非Skill调Agent
### 方法4: 需求文档审查方法
**方法描述:** 使用大模型对需求文档进行多角度审查。
**适用场景:** 需求文档质量提升
**关键要点:**
- 先用deep research或GPT生成参考方案
- 把自己的方案给大模型审查
- 对比两个方案的差异
- 关注核心需求而非默认功能
### 方法5: 代码审查方法
**方法描述:** 使用Claude 4.5或GPT codex对代码进行审查。
**适用场景:** 代码重构前的问题发现
**关键要点:**
- 先审查再重构,避免带病开发
- 审查出来的问题记录下来作为需求文档
- 使用专业的code review工具或Agent
- 下一次会议讨论是否需要修改
---
**纪要整理人:** Claude
**纪要时间:** 2025-12-02
**下次会议:** 2025-12-09

View File

@ -0,0 +1,79 @@
# 云大所需求相关进度会议纪要 (2025-12-02)
## 一、会议信息
- **会议时间:** 2025-12-02
- **参会人员:** 连云波(主持)、江争达、闫旭隆、陶西平、郝倩玉
---
## 二、需求项目进展
| 项目名称 | 负责人 | 本周进展 | 存在问题 | 下周计划 | 优先级 |
|----------|--------|----------|----------|----------|--------|
| 投标商务应答自动生成系统 | 郝倩玉、闫旭隆、江争达 | 需求文档已完成并已发给闫旭隆确认 | 架构设计尚未开始 | 需求文档确认+Skill架构设计 | P0 |
| 数字人项目 | 江争达、陶西平、郝倩玉 | 江争达展示修改后的需求文档;陶西平完成数字人平台调研 | 时间要求理解错误应为20-30分钟缺少手势动作要求数字分身需求不明确 | 完成真人训练视频样本(百度曦灵/黑镜修改需求文档Gemini分镜脚本测试 | P0 |
| Gartner 报告解读转写系统 | 郝倩玉 | 需求文档已完成 | 架构设计尚未开始 | 架构设计(需求紧急,涉及年末签约) | P0 |
| 运营商信息精准爬取系统 | 郝倩玉 | 进行中,持续跟进 | 需求方需求不明确 | 继续跟进沟通 | P1 |
| 客户风险推送自动化系统 | - | 未讨论 | - | - | - |
| 邮件自动处理转发系统 | - | 未讨论 | - | - | - |
| 证书信息提取系统 | - | 未讨论 | - | - | - |
| 云大阁新报告自动推送 | - | 未讨论 | - | - | - |
---
## 三、问题与风险
### 投标商务应答自动生成系统
**问题描述:** 需求文档已完成,但架构设计尚未开始
**解决方案:**
1. 闫旭隆确认需求文档并设计Skill架构
2. 江争达负责后期调试
**责任人:** 郝倩玉、闫旭隆、江争达
**截止时间:** 2025-12-09
### 数字人项目
**问题1: 需求文档时间要求不准确**
- 问题需求文档写3-5分钟实际需求应为20-30分钟
- 解决方案:修改视频时长要求
**问题2: 缺少手势动作要求**
- 问题:开场和结束时数字人不能呆呆站着
- 解决方案:在验收标准中增加手势动作要求
**问题3: 数字分身需求不明确**
- 问题:合作方需求一直不能明确
- 解决方案:自己调研市面上的方案,做几个版本供选择
**责任人:** 江争达、郝倩玉
**截止时间:** 2025-12-09
### Gartner 报告解读转写系统
**问题描述:** 需求紧急涉及年末签约可能有30万合同
**解决方案:**
1. 本周完成架构设计
2. 优化可以后续迭代,先有个基本架构
**责任人:** 郝倩玉
**截止时间:** 2025-12-09
---
## 四、下周重点
1. 🔴 **投标商务应答自动生成系统** - 需求文档确认 + Skill架构设计
2. 🔴 **数字人项目** - 完成真人训练视频样本(百度曦灵/黑镜)
3. 🔴 **数字人项目** - Gemini 3.0生成分镜脚本测试
4. 🔴 **数字人项目** - 修改需求文档(时长+手势动作)
5. 🔴 **Gartner 报告解读转写系统** - 架构设计
---
**纪要整理人:** Claude
**纪要时间:** 2025-12-02
**下次会议:** 2025-12-09

View File

@ -0,0 +1,246 @@
# 工程类会议纪要 (2025-12-02)
## 一、会议信息
- **会议时间:** 2025-12-02
- **参会人员:** 连云波(主持)、江争达、闫旭隆、陶西平、郝倩玉
---
## 二、工作内容
### 1. 重点项目进展情况汇总
| 项目名称 | 原负责人 | 原截止时间 | 项目进展情况 |
|----------|----------|------------|--------------|
| 会议纪要Skill架构优化 | 闫旭隆、郝倩玉 | 2025-12-02 | 已完成改进版本,改为全量加载方式(不用索引搜索),绘制了映射逻辑图。领导评价:整体有进步,基本逻辑可以固化下来先用;建议尝试用主窗口全量处理 |
| 需求澄清Skill测试与推广 | 闫旭隆、郝倩玉 | 2025-12-02 | 已完成二阶段专家博弈机制开发,新增专家交叉评价和交叉回应功能。领导评价:效果不错,专家博弈机制有价值;建议把评估意见和响应打成文档对比验证 |
| 数字人PPT需求文档 | 江争达 | 2025-12-02 | 已展示修改后的需求文档但需求理解存在偏差。领导反馈时间要求应为20-30分钟而非3-5分钟缺少手势动作要求需要本周完成用真人训练数字人视频样本 |
| 数字分身需求文档 | 郝倩玉 | 2025-12-02 | 进行中,合作方需求不明确。领导建议:自己调研市面上的方案,做几个版本供选择 |
| 问答系统V1.1前端重构方案 | 江争达、陶西平 | 2025-12-02 | 前端重构方案只完成了一半。领导建议:后端先用代码审查工具审查一遍;前端重构要考虑下一版本的交互逻辑 |
| 招投标文件Skill架构设计 | 郝倩玉、闫旭隆、江争达 | 2025-12-02 | 需求文档已完成并已发给闫旭隆被提升为P0任务。领导要求需要尽快设计架构 |
### 2. 重点项目问题及解决方案
#### 问题1: 会议纪要语音转写准确性问题
**问题描述:**
语音识别效率低,文字转写的准确性不足,上下文约束能力差。会议中很多语言不清晰,直接搜索提取不出来。转写文本有大量重复、错误和逻辑中断,导致难以阅读和处理。
**解决方案:**
1. 使用Gemini多模态能力处理视频转写直接上传视频给Gemini生成会议纪要
2. 先清洗转写文本去除重复、脏数据再进行处理生成紧凑的clean版本
3. 改为全量读取上下文方式,不用索引搜索,让模型自己通过语义理解提取信息
4. 考虑调用Gemini API在Claude里面处理转写实现自动化
**责任人:** 闫旭隆
**截止时间:** 2025-12-09
#### 问题2: Sub Agent调用机制问题
**问题描述:**
在项目目录下调用全局Agent时使用相对路径调用不可靠。测试发现不指定绝对路径时Sub Agent会读取提示词但不会按照预期执行只有使用绝对路径调用时才能正常工作。
**解决方案:**
1. 使用绝对路径调用Sub Agent确保路径指向正确位置
2. 建议用Agent调Agent而非Skill调Agent逻辑更清晰
3. Skill调Skill在主窗口上下文共享控制更精确
4. 调试时用Skill形式调通后再移植到Agent中
**责任人:** 江争达、闫旭隆
**截止时间:** 2025-12-09
#### 问题3: 数字人PPT需求文档相关问题
**问题描述:**
- 时间要求不准确需求文档中写的3-5分钟视频时长不准确实际需求应该是20-30分钟的PPT宣讲视频
- 缺少手势动作要求:第一阶段需求中没有包含手势动作要求,但开场和结束时数字人不能呆呆站着讲
**解决方案:**
1. 将视频时长要求修改为20-30分钟3-5分钟作为基础能力
2. 在验收标准中增加开场和结束的手势动作要求
3. 前十秒和后十秒必须有手势动作,可以没有躯体动作但手势必须有
**责任人:** 江争达
**截止时间:** 2025-12-09
#### 问题4: 问答系统前端重构方案未完成
**问题描述:**
前端重构方案只完成了一半,只重构了前端展示部分和代码结构,但未考虑下一版本的交互逻辑更改,可能导致架构调整通不过或需要大量修改。
**解决方案:**
1. 用代码审查工具如Claude Code或Opus 4.5)先审查后端代码,找出问题记录下来
2. 在重构时考虑下一版本的功能需求,避免二次返工
3. 用deep research或GPT的research功能生成前端重构方案对比
4. 对照流程图验证方案的准确性
**责任人:** 江争达
**截止时间:** 2025-12-09
#### 问题5: 数字分身需求不明确
**问题描述:**
合作方(通过市场部对接)的需求一直不能明确,杜主任反馈合作方可能用不用还不确定,导致需求对接工作难以推进。
**解决方案:**
1. 自己做几个版本的数字分身方案,让市场部/合作方选择
2. 调研市面上做得好的数字分身案例,分别出方案
3. 持续与相关人员(琳贤等)沟通跟进
**责任人:** 郝倩玉
**截止时间:** 2025-12-09
### 3. 下周工作安排
| 项目名称 | 负责人 | 下周会前目标 | 优先级 | 截止时间 |
|----------|--------|--------------|--------|----------|
| 🔴 会议纪要Skill腾讯会议版本生成 | 闫旭隆 | 用腾讯会议转写文本生成一版会议纪要与Gemini转写版本对比效果 | P0 | 2025-12-09 |
| 🔴 会议纪要Skill Gemini版本生成 | 闫旭隆 | 使用Gemini视频转写功能直接生成会议纪要测试多模态转写效果 | P0 | 2025-12-09 |
| 🔴 需求Skill二阶段专家博弈字段映射 | 闫旭隆 | 整理二阶段专家交叉评价、交叉回应的字段映射逻辑,做可视化效果展示 | P0 | 2025-12-09 |
| 🔴 数字人PPT真人训练视频样本 | 江争达 | 本周完成用真人训练的数字人视频样本,测试百度西林和黑镜两个平台 | P0 | 2025-12-09 |
| 🔴 Gemini 3.0生成分镜脚本测试 | 江争达 | 使用Gemini 3.0生成分镜头脚本和分镜图片再通过VEO 3.1等平台生成视频 | P0 | 2025-12-09 |
| 🔴 数字人PPT需求文档修改 | 江争达 | 根据会议反馈修改需求文档将视频时长从3-5分钟改为20-30分钟增加手势动作要求 | P0 | 2025-12-09 |
| 🔴 问答系统前端重构方案完善 | 江争达 | 继续完善前端重构方案,考虑下一版本交互逻辑的修改,结合大模型审查方案 | P0 | 2025-12-09 |
| 🔴 问答系统后端代码审查 | 江争达 | 使用Claude 4.5或GPT codex等代码审查工具对后端代码进行一遍审查记录问题 | P0 | 2025-12-09 |
| 🔴 招投标文件Skill需求文档确认 | 郝倩玉 | 确认投标商务响应文件自动生成系统的需求文档,确保需求合理明确 | P0 | 2025-12-09 |
| 🔴 Gartner报告解读转写系统架构设计 | 郝倩玉 | 设计Gartner报告解读转写系统的架构需求紧急涉及年末签约 | P0 | 2025-12-09 |
| 🔴 协助会议纪要Skill优化 | 郝倩玉 | 协助闫旭隆优化会议纪要Skill包括学习类和Q&A类会议纪要逻辑 | P0 | 2025-12-09 |
| 🔴 配合前端框架重构 | 陶西平 | 配合江老师完成问答系统前端框架重构相关工作 | P0 | 2025-12-09 |
| 招投标文件Skill架构设计 | 闫旭隆 | 设计招投标文件自动生成系统的Skill架构 | P1 | 2025-12-09 |
| 招投标文件Skill架构调试 | 江争达 | 协助调试招投标文件Skill架构 | P1 | 2025-12-09 |
| 数字分身需求调研与方案 | 郝倩玉 | 调研市面上较好的数字分身版本,制定多个方案供选择 | P1 | 2025-12-09 |
| 日报驱动项目管理系统Skill开发 | 丁康 | 开发日报驱动的项目管理系统Skill包括基于会议纪要生成日报、与MCP对接等功能 | P2 | 待定 |
| Claude Code Skill转LangGraph架构研究 | 郝倩玉 | 研究如何将Claude Code Skill转移到LangGraph低代码架构作为探索性项目 | P2 | 待定 |
### 4. 组内成员工作进展
#### 闫旭隆
**上周完成:**
- ✅ 需求澄清-需求文档skill优化-增加多轮博弈机制
- ✅ 会议纪要Skill优化-变为Read全量读取文字转写上下文
**进行中:**
- 🔄 会议纪要Skill架构持续优化
**收到的反馈/学习建议:**
- **表扬:** 会议纪要Skill整体有进步基本逻辑可以固化下来先用
- **建议:** 尝试用主窗口全量处理一次可能效果更好不要过于依赖子Agent分块处理
- **建议:** 先清洗转写文本(去除重复、脏数据),再做处理,保证信息全面同时内容紧凑
- **表扬:** 需求Skill的专家博弈机制效果不错
- **建议:** 把专家评估意见和最后响应打成一篇文档对比验证效果
- **建议:** 映射逻辑图很重要要把逻辑写进skill里保持一致性
- **建议:** 会议纪要最核心目的是下周工作安排,所有逻辑都应围绕这个目标展开
**下周任务:**
- [ ] 🔴 P0会议纪要Skill腾讯会议版本生成
- [ ] 🔴 P0会议纪要Skill Gemini版本生成
- [ ] 🔴 P0需求Skill二阶段专家博弈字段映射
- [ ] P1招投标文件Skill架构设计
#### 江争达
**上周完成:**
- ✅ 数字人PPT需求文档初版
**进行中:**
- 🔄 完成问答系统v1.1前端重构方案
- 🔄 Sub Agent调用机制调研测试
**收到的反馈/学习建议:**
- **批评:** 数字人PPT需求文档时间要求不准确3-5分钟应为20-30分钟
- **批评:** 数字人需求缺少手势动作要求,开场和结束不能没有动作
- **建议:** 前端重构要考虑下一版本的交互逻辑
- **建议:** 后端先用代码审查工具如codex审查一遍
- **批评:** Sub Agent调用测试的背景说明不清楚核心诉求没说清楚
- **批评:** 表达能力/提问题表达能力需要提升,不站在其他人角度思考
- **建议:** 给大模型的提示词必须写详细完整,口头表达时可以简略,但给大模型时必须写清楚
- **建议:** 前端重构方案要用deep research或GPT做校验
**下周任务:**
- [ ] 🔴 P0数字人PPT真人训练视频样本
- [ ] 🔴 P0Gemini 3.0生成分镜脚本测试
- [ ] 🔴 P0数字人PPT需求文档修改
- [ ] 🔴 P0问答系统前端重构方案完善
- [ ] 🔴 P0问答系统后端代码审查
- [ ] P1招投标文件Skill架构调试
#### 郝倩玉
**上周完成:**
- ✅ 会议纪要Skill架构优化协助闫旭隆
- ✅ Gartner报告解读转写系统需求对接及文档撰写
**进行中:**
- 🔄 招投标文件Skill架构设计
- 🔄 数字分身需求文档
- 🔄 问答系统V1.0测试推动
**收到的反馈/学习建议:**
- **任务分配:** 招投标文件Skill需求已确认提升为P0
- **任务分配:** Gartner报告解读转写系统需要先设计架构提升为P0
- **建议:** 数字分身需求继续跟进,自己调研市面上的方案,做几个版本供选择
- **建议:** Gartner报告转写系统虽然不难但优化比较难先做出一个基本架构
**下周任务:**
- [ ] 🔴 P0招投标文件Skill需求文档确认
- [ ] 🔴 P0Gartner报告解读转写系统架构设计
- [ ] 🔴 P0协助会议纪要Skill优化
- [ ] P1数字分身需求调研与方案
- [ ] P2Claude Code Skill转LangGraph架构研究
#### 陶西平
**上周完成:**
- ✅ 数字人PPT需求文档协助江老师
- ✅ 学习使用claudecode的document skill使用pdf skill的表单填写功能
- ✅ 调研数字人平台的公共数字人能力
**进行中:**
- 🔄 数字人与ppt结合生成指定PPT的数字人视频
- 🔄 前端框架重构(对问答系统前端功能进行分析)
**收到的反馈/学习建议:**
- **建议:** 数字人PPT需求文档中视频时长需求不准确应该将20-30分钟作为主要需求
- **建议:** 需求文档应考虑数字人手势动作至少前10秒和后10秒要有手势动作
- **建议:** 使用Gemini 3.0生成分镜头脚本和图片再用VEO 3.1等生成视频
**下周任务:**
- [ ] 🔴 P0配合江老师前端框架重构相关工作
- [ ] P1完成数字人调研报告
- [ ] P1完成PPT与数字人结合调研
---
## 三、会议总结
**核心议题:** 会议纪要Skill优化、数字人PPT需求文档、问答系统前端重构、招投标文件Skill架构设计
**关键决策:**
1. **会议纪要Skill方案确定:** 先用当前版本固化流程,后续尝试主窗口全量处理
2. **会议转写方案:** 使用Gemini多模态能力处理视频转写可能是最有效的路径
3. **数字人平台选型:** 重点测试百度曦灵和黑镜两个平台,本周完成真人训练样本
4. **Agent架构决策:** 建议用Agent调Agent而非Skill调Skill更清晰
5. **招投标Skill优先级提升:** 提升为P0因为涉及潜在合同30万
6. **Gartner报告系统优先级提升:** 提升为P0市场部需要年末演示
7. **日报驱动系统负责人确定:** 由丁康负责作为P2任务
8. **PPT自动化方案:** 使用Gemini 3.0生成分镜脚本+图片,再生成视频
9. **数字人PPT讲解时长需求调整:** 从3-5分钟改为支持20-30分钟
10. **前端重构需考虑下一版本交互逻辑**
11. **后端代码先进行审查再重构**
**下周工作重点:**
1. 🔴 会议纪要Skill优化腾讯会议版本 + Gemini版本对比测试
2. 🔴 数字人PPT完成真人训练视频样本百度曦灵/黑镜)
3. 🔴 数字人PPTGemini 3.0生成分镜脚本测试
4. 🔴 问答系统:前端重构方案完善 + 后端代码审查
5. 🔴 招投标文件Skill需求确认 + 架构设计
6. 🔴 Gartner报告解读转写系统架构设计
---
**纪要整理人:** Claude
**纪要时间:** 2025-12-02
**下次会议:** 2025-12-09

View File

@ -0,0 +1,171 @@
# Q&A资源库类会议纪要 (2025-12-02)
## 一、会议信息
- **会议时间:** 2025-12-02
- **参会人员:** 连云波(主持)、闫旭隆、江争达、郝倩玉、陶西平
---
## 二、工作问题 Q&A
### 1. 会议纪要Skill相关问题
**Q1: 会议转写文本语音识别错误多,说话者标记不准确怎么办?**
**A:**
1. 使用Gemini多模态能力进行视频转写直接上传视频而非仅依赖语音
2. 对转写文本进行预清洗,去除重复和脏数据
3. 多模态转写能提供画面切换、屏幕操作等额外上下文信息
**Q2: AI难以准确判断P0/P1/P2任务优先级怎么办**
**A:**
1. 让AI先给出优先级建议人再确认反馈
2. 在会上直接语音确认优先级给AI明确输入
3. 保留确认过程的所有材料作为后续微调素材
4. 原因AI缺少成员年龄、级别、工作时长等潜意识上下文
**Q3: 并行Agent处理会造成信息丢失和逻辑割裂怎么办**
**A:**
1. 采用全量加载让主窗口一次性处理,而非分块搜索
2. 人的语言有大量不清晰表达,直接搜索难以匹配
3. AI通过上下文语义理解能更准确提取信息
4. 把skill写到主窗口里一次性处理效果不比分块差
### 2. 数字人PPT相关问题
**Q4: 数字人PPT视频时长需求如何定义**
**A:**
1. 应定义为20-30分钟而非3-5分钟
2. 实际场景包括PPT宣讲20-30分钟、创始人讲解、领导发言等
3. 技术上没有难度,主要是花销问题
4. 3-5分钟作为最小实现但20-30分钟是主要需求
**Q5: 如何避免数字人看起来很假(如老外说流利中文)?**
**A:**
1. 使用真人录制训练数字人语音和形象
2. 在百度曦灵和黑镜平台测试定制数字人效果
3. 避免使用看起来不真实的数字人形象
4. 数字人的手势动作也要有,开场和结尾不能呆呆站着
### 3. Skill调用机制问题
**Q6: 项目级调用全局Agent不稳定怎么办**
**A:**
1. 使用绝对路径调用SubAgent测试表现稳定
2. 不指定路径时系统默认搜索全局目录,找不到就忽略
3. 改用Agent调Agent方式而非Skill调Agent
4. 在子项目下定义主Agent通过主Agent调用其他Agent
**Q7: Skill嵌套调用的最佳方式是什么**
**A:**
1. 精确逻辑控制场景Skill嵌套Skill优于SubAgent
2. Skill共享主窗口上下文逻辑控制精确
3. SubAgent不带上下文容易出现逻辑割裂
4. 调试阶段用Skill主窗口加载方式调通后再移植
### 4. 前端重构相关问题
**Q8: 前端重构前需要做什么准备?**
**A:**
1. 用大模型对后端代码做Code Review审查
2. 找专门的code review agent或skill
3. 记录发现的问题作为需求文档
4. 重构时考虑下一版本的交互逻辑变更
5. 提供示例代码给大模型,保持代码风格一致
---
## 三、重点工作方法
### 方法 1多模态视频转写会议纪要
- **方法描述:** 使用Gemini的多模态能力直接上传会议视频进行转写而非仅依赖纯语音识别。视频包含文字、图像、音频等多种信息能提供更丰富的上下文如画面切换、屏幕操作等转写准确性更高。可以直接给视频配合会议纪要模板一步生成结构化会议纪要。
- **适用场景:** 会议纪要生成、视频内容提取
- **关键要点:**
- 多模态信息比纯音频更准确
- 可直接配合模板一步生成
- 画面信息提供额外上下文
### 方法 2模型工具组合策略
- **方法描述:** 前端开发用Gemini一句话就能生成完整前端中间逻辑代码构造用Claude Code工具调用和理解能力最强整体项目修复和测试用GPT的Codex。如果只能选一个主力还是Claude Code因为做Agent时工具理解能力最重要。
- **适用场景:** AI辅助开发、工具选型
- **关键要点:**
- 前端→Gemini
- 逻辑代码→Claude Code
- 修复测试→GPT Codex
### 方法 3全量上下文处理优于分块搜索
- **方法描述:** 会议纪要信息提取应采用全量加载转写文本让AI自行提取而非分块搜索。因为人的语言有大量不清晰表达直接搜索难以匹配AI通过上下文语义理解能更准确提取信息。
- **适用场景:** 会议纪要生成、文本信息提取
- **关键要点:**
- 分块搜索容易丢失信息
- AI语义理解比关键词匹配更准确
- 全文一次性处理效果最好
### 方法 4文字转写预清洗
- **方法描述:** 在进行会议纪要生成前,先对原始转写文本进行一次清洗加工:去除重复内容、脏数据,保证信息全面的同时内容紧凑。清洗后的文本再作为主窗口的上下文输入。
- **适用场景:** 会议纪要处理、长文本处理
- **关键要点:**
- 去除重复和脏数据
- 保持信息完整性
- 减少每个Agent的处理负担
### 方法 5优先级判断人机协作
- **方法描述:** P0/P1/P2任务优先级判断是AI最难的部分因为AI缺乏成员年龄、级别、工作时长等潜意识上下文。解决方案让AI先给出优先级建议人再确认反馈或在会上直接语音确认优先级。
- **适用场景:** 任务优先级评估、工作安排
- **关键要点:**
- AI给建议、人做确认
- 保留确认材料用于后续优化
- 尝试将隐性上下文显性化
### 方法 6Agent调Agent优于Skill调Agent
- **方法描述:** 在Claude Code中组织多Agent时建议用Agent调用Agent而非Skill调用Agent。在子项目下定义一个主Agent激活后用它调用其他子Agent。这样组织更清晰不会出现Skill嵌套Skill的逻辑混乱。
- **适用场景:** 多Agent编排、复杂Skill开发
- **关键要点:**
- 定义主Agent负责调度
- 避免Skill嵌套的逻辑混乱
- SubAgent必须用绝对路径调用
### 方法 7试错式行为规范定义
- **方法描述:** 定义Agent行为规范时不要预先规定太多动作会限制能力而是先让它犯错然后针对性地告诉它'必须做什么'(漏了的)、'不要做什么'(错了的)。用正确示例和错误示例对比来规范行为。
- **适用场景:** Skill开发、Agent行为规范
- **关键要点:**
- 预先规定太多会限制AI能力
- 先测试再针对性规范
- 正确/错误示例对比最有效
### 方法 8代码审查先于重构
- **方法描述:** 重构代码前先用大模型如Claude 4.5、GPT Codex对现有代码进行审查Code Review找专门的code review agent或skill。记录发现的问题作为需求文档评估后再决定是否修改避免盲目重构。
- **适用场景:** 代码重构、质量改进
- **关键要点:**
- 审查先行,避免盲目重构
- 问题记录作为需求文档
- 下次会议评估是否修改
### 方法 9提问表达能力决定AI输出质量
- **方法描述:** 与AI交互时必须清晰交代背景、核心诉求和问题点。站在对方角度思考如果不补充这些上下文对方能否理解你要干什么表达不清会导致AI给出糟糕的答案。
- **适用场景:** AI交互、需求沟通
- **关键要点:**
- 清晰交代背景和核心诉求
- 站在对方角度检查表达
- 表达能力直接影响AI输出质量
### 方法 10Playwright+Claude实现办公自动化
- **方法描述:** 使用Playwright MCP扩展控制浏览器配合Claude Code的Skill编排实现办公自动化流程。例如自动打开Gemini网页、上传文件、输入提示词、下载生成结果、组装PPT。对于浏览器外的操作如保存对话框用Python脚本通过scripts调用。
- **适用场景:** 办公自动化、批量文档处理
- **关键要点:**
- Playwright控制浏览器操作
- Python脚本处理浏览器外操作
- Skill编排整体流程
---
**纪要整理人:** Claude
**纪要时间:** 2025-12-08
**下次会议:** 2025-12-09

View File

@ -0,0 +1,73 @@
# 云大所需求相关进度会议纪要 (2025-12-02)
## 一、会议信息
- **会议时间:** 2025-12-02
- **参会人员:** 连云波(主持)、闫旭隆、江争达、郝倩玉、陶西平
---
## 二、需求项目进展
| 项目名称 | 负责人 | 本周进展 | 存在问题 | 下周计划 | 优先级 |
| --- | --- | --- | --- | --- | --- |
| 投标商务应答自动生成系统 | 郝倩玉、闫旭隆、江争达 | 需求文档已完成确认 | 需要先设计Skill架构 | 完成招投标Skill架构设计 | P0 |
| 运营商信息精准爬取系统 | 郝倩玉 | 多轮沟通中,需求方需求尚未明确 | 需求方的具体需求一直不能明确 | 持续跟进需求 | P1 |
| 数字人项目 | 江争达、郝倩玉、陶西平 | 已完成第一阶段需求文档整理和平台调研(百度曦灵、黑镜、可灵),已完成费用对比 | 1视频时长需求定义不准确原3-5分钟应为20-30分钟2需要加入手势动作要求3合作方需求时间点不确定 | 1用真人训练数字人样本2研究端到端工作流3测试Gemini分镜脚本+视频生成路径 | P0 |
| Gartner报告解读转写系统 | 郝倩玉 | 需求文档已完成,人员确认完毕,已发闫旭隆 | 无 | 设计Skill架构涉及年末签合同和30万收入 | P0 |
> **说明:** 本次会议未涉及以下市场部需求项目:客户风险推送自动化系统、邮件自动处理转发系统、证书信息提取系统、云大阁新报告自动推送
---
## 三、问题与风险
### 投标商务应答自动生成系统
**问题:** 需要设计Skill架构
**解决方案:** 本周由郝倩玉完成架构设计,如需求需要讨论则先明确
**责任人:** 郝倩玉
**截止时间:** 2025-12-09
### 数字人项目
**问题1:** 视频时长需求定义不准确
- 原需求3-5分钟
- 实际需求20-30分钟PPT宣讲、领导发言等场景
**解决方案:** 时长改为20-30分钟作为主要需求技术上没有难度主要是花销问题
**问题2:** 合作方(富友)需求时间点不确定
**解决方案:**
1. 先自己做好数字分身方案,不以合作方需求为核心
2. 多做几个版本让合作方选择
3. 调研市面上比较好的方案,分别出方案
**责任人:** 江争达、郝倩玉
**截止时间:** 2025-12-09
### 运营商信息精准爬取系统
**问题:** 需求方的具体需求一直不能明确
**解决方案:** 持续跟进,反复沟通,提供可行性方案给对方做参考
**责任人:** 郝倩玉
**截止时间:** 待定
---
## 四、下周重点
1. 🔴 **数字人视频样本训练** - 本周末完成,使用真实人物在百度曦灵和黑镜平台各生成样本
2. 🔴 **数字人工作流研究** - 测试Gemini 3.0生成分镜脚本+图片后用Veo3.1生成视频
3. 🔴 **招投标Skill架构设计** - 完成投标商务应答自动生成系统的Skill架构
4. 🔴 **Gartner报告转写Skill架构设计** - 涉及年末签合同和30万收入优先级提升
---
**纪要整理人:** Claude
**纪要时间:** 2025-12-08
**下次会议:** 2025-12-09

View File

@ -0,0 +1,225 @@
# 工程类会议纪要 (2025-12-02)
## 一、会议信息
- **会议时间:** 2025-12-02
- **参会人员:** 连云波(主持)、闫旭隆、江争达、郝倩玉、陶西平
---
## 二、工作内容
### 1. 重点项目进展情况汇总
| 项目名称 | 原负责人 | 原截止时间 | 项目进展情况 |
| --- | --- | --- | --- |
| 会议纪要Skill架构优化 | 闫旭隆、郝倩玉 | 2025-12-02 | 已完成索引搜索改为全量读取的架构优化完成字段映射逻辑图设计负责人改为原负责人、截止时间改为原截止时间已进行新旧版本对比测试。存在问题文字转写准确性问题仍是最大挑战P0/P1/P2优先级判断难以精准。**解决方案:** 1先对转写文本做清洗处理2尝试主窗口全量处理替代分块并行3优先级判断让AI先给建议后人工确认 |
| 需求澄清Skill测试与推广 | 闫旭隆、郝倩玉 | 2025-12-02 | 已完成专家博弈流程基本测试实现独立评审→交叉评价→交叉回应→决策整合的完整流程。存在问题专家博弈prompt可能没写好评估水平需验证。**解决方案:** 把评估意见和响应打成问答文档判断质量每个领域专家prompt需专门调优 |
| 数字人PPT需求文档 | 江争达 | 2025-12-02 | 已完成第一阶段需求文档整理五个核心需求完成数字人生成平台调研和费用对比。存在问题视频时长需求不准确原3-5分钟应为20-30分钟手势动作第一阶段也需考虑。**解决方案:** 1时长改为20-30分钟2加入手势动作要求3本周用真人训练数字人样本百度曦灵+黑镜4测试gemini分镜脚本+图片生成视频的工作流 |
| 数字分身需求文档 | 郝倩玉 | 2025-12-02 | Gartner报告解读转写系统需求文档已完成已发闫旭隆。合作方富友需求有变化时间点不确定。**解决方案:** 先做好准备,多做几个版本让合作方选择,自己找市面上好的案例做参考 |
| 问答系统V1.1前端重构方案 | 江争达、陶西平 | 2025-12-02 | 已完成前端重构方案设计明确保留现有基础功能只重构展示部分和代码结构已确认API接口规范文档。存在问题功能清单对比尚未完成需考虑下一版本交互逻辑修改。**解决方案:** 1用大模型做后端代码审查2用research生成前端重构方案与当前方案对比3提前考虑下一版本功能需求 |
| 招投标文件Skill架构设计 | 郝倩玉、闫旭隆、江争达 | 2025-12-02 | 需求文档已完成确认,本周需设计架构 |
### 2. 重点项目问题及解决方案
#### 问题1: 会议纪要相关问题
**问题描述:**
1. 会议转写文本中存在大量语音识别错误,说话者标记不准确,上下文约束能力不足
2. AI难以准确判断任务的P0/P1/P2优先级缺少成员年龄、级别、工作时间等隐性上下文
3. 并行Agent处理会造成信息丢失和逻辑割裂
**解决方案:**
1. 使用Gemini多模态能力进行视频转写直接上传视频并根据会议模板生成纪要
2. 对转写文本进行清洗加工,去除脏数据和重复内容,保证信息全面同时内容紧凑
3. 在会议上直接确认P0/P1/P2优先级让AI先给建议后人再确认
4. 尝试主窗口全量处理一次性生成把skill写到主窗口里
5. 保留确认过程材料作为后续微调素材
**责任人:** 闫旭隆、郝倩玉
**截止时间:** 2025-12-09
#### 问题2: 数字人PPT需求相关问题
**问题描述:**
1. 需求文档中时长要求定义不准确3-5分钟 vs 20-30分钟
2. 数字人生成存在真实性问题(老外说流利中文让人质疑真假)
3. 使用界面/工作流方案尚未明确
**解决方案:**
1. 将视频时长需求改为20-30分钟作为主要需求
2. 使用真人录制训练数字人,用自己真实人物的语音和形象
3. 测试百度曦灵和黑镜平台的定制数字人效果
4. 研究端到端工作流API调用或网站操作或剪映自动化
5. 测试Gemini 3.0生成分镜脚本+图片再用Veo3.1生成视频的路径
**责任人:** 江争达
**截止时间:** 2025-12-09
#### 问题3: 需求方需求不明确问题
**问题描述:**
关于合作方(富友)数字分身需求一直不能明确,杜主任最新信息显示合作方时间点是否使用不确定。
**解决方案:**
1. 先自己做好数字分身方案,不以合作方需求为核心
2. 多做几个版本让合作方选择
3. 自己调研市面上比较好的方案,分别出方案后与相关人员对接
**责任人:** 郝倩玉、江争达
**截止时间:** 2025-12-09
#### 问题4: Subagent调用机制不稳定问题
**问题描述:**
在项目目录下调用全局agent时不指定绝对路径的情况下调用不稳定有时会读取sub的提示词但不执行表现不一致。
**解决方案:**
1. 使用绝对路径调用subagent测试表现稳定
2. 改用agent调agent的方式而不是skill调用subagent
3. 在子项目下定义一个主agent通过主agent调用其他agent
4. 调试阶段用skill主窗口加载方式调通后再移植到agent
**责任人:** 江争达、闫旭隆
**截止时间:** 2025-12-09
### 3. 下周工作安排
| 项目名称 | 负责人 | 下周会前目标 | 优先级 | 截止时间 |
| --- | --- | --- | --- | --- |
| 🔴 会议纪要Skill测试对比 | 闫旭隆 | 使用当前版本生成会议纪要再用腾讯会议转写生成一版同时测试gemini直接喂视频生成纪要的效果 | P0 | 2025-12-09 |
| 🔴 会议转写文本清洗优化 | 闫旭隆 | 把会议转写文本中脏的、重复的内容做一遍加工清洗,保证信息全面同时内容紧凑 | P0 | 2025-12-09 |
| 🔴 需求Skill专家博弈流程优化 | 闫旭隆 | 查看二阶段专家交叉回应的字段映射,整理可视化效果,梳理整体流程图 | P0 | 2025-12-09 |
| 🔴 数字人视频样本训练 | 江争达 | 使用真实人物训练数字人语音和视频,在百度曦灵和黑镜平台各生成一个样本 | P0 | 2025-12-08 |
| 🔴 数字人PPT需求文档修改 | 江争达 | 时长改为20-30分钟添加手势动作要求完善第一阶段和第二阶段需求 | P0 | 2025-12-09 |
| 🔴 数字人工作流研究 | 江争达 | 研究数字人生成工作流方案API调用、剪映自动化测试Gemini 3.0生成分镜脚本+图片后用Veo3.1生成视频 | P0 | 2025-12-09 |
| 🔴 问答系统前端重构 | 江争达 | 完成前端重构方案,考虑下一版本交互逻辑修改,使用大模型审查方案并对比优化 | P0 | 2025-12-09 |
| 🔴 招投标Skill架构设计 | 郝倩玉 | 完成招投标文件Skill的架构设计先确认需求是否需要讨论明确 | P0 | 2025-12-09 |
| 🔴 Gartner报告转写Skill架构设计 | 郝倩玉 | 设计Gartner报告转写的Skill架构涉及年末签合同和30万收入 | P0 | 2025-12-09 |
| 🔴 数字分身市场调研 | 郝倩玉 | 调研市面上较好的数字分身方案版本,分别出方案后与钱林对接 | P0 | 2025-12-09 |
| 协助会议纪要Skill优化 | 郝倩玉 | 协助闫旭隆优化会议纪要Skill | P1 | 2025-12-09 |
| 后端代码审查 | 江争达 | 使用Claude 4.5或GPT做后端code review记录问题作为后续优化需求 | P1 | 2025-12-09 |
| 天眼查自动更新需求确认 | 江争达 | 与小彤确认天眼查客户数据库自动更新需求是否还需要 | P1 | 2025-12-09 |
| Cloud Skill转框架研究 | 郝倩玉 | 研究如何将Claude Skill迁移到LangGraph等低代码架构作为技术储备 | P1 | 待定 |
| 日报驱动项目管理系统开发 | 丁康 | 负责基于会议纪要的日报驱动项目管理系统Skill开发包括与MCP对接 | P1 | 待定 |
### 4. 组内成员工作进展
#### 闫旭隆
**上周完成:**
- ✅ 需求澄清-需求文档skill优化、测试、视频录制
- ✅ 会议纪要Skill开发改为全量读取架构整理流程图
**进行中:**
- 🔄 会议纪要Skill测试对比
**收到的反馈/学习建议:**
- **表扬:** 总的来说比上一版有进步,整个逻辑可以先固化下来使用;该有的要点都有,比较接近了
- **表扬:** 能把动作识别出来不容易,就算其他人明白也挺牛的
- **建议:** 映射逻辑图很重要AI目前最缺的是逻辑一致和前后连贯
- **建议:** 转写文本需先做清洗加工,去除重复和脏数据后再处理
- **建议:** 尝试主窗口全量处理一次性生成减少并行Agent带来的信息丢失
- **建议:** 整个文字转写换成gemini来做生成全量版而非逐字转写
**下周任务:**
- [ ] 🔴 P0会议纪要Skill测试对比腾讯会议+gemini视频两个版本
- [ ] 🔴 P0会议转写文本清洗优化
- [ ] 🔴 P0需求Skill专家博弈流程优化
- [ ] P1招投标文件Skill架构设计和调试
#### 江争达
**上周完成:**
- ✅ 数字人PPT需求文档
**进行中:**
- 🔄 问答系统v1.1前端重构方案
- 🔄 数字人视频样本训练
**收到的反馈/学习建议:**
- **批评:** 背景说明不清楚,核心诉求和问题点没有交代清楚,需求文档分析存在问题,不站在其他人角度思考
- **批评:** 只看树木不看森林,关于数字人老外说中文的问题理解不到位
- **建议:** 数字人PPT时长要求改为20-30分钟而非3-5分钟
- **建议:** 数字人视频需要有手势动作,开场和结尾不能呆呆站着
- **建议:** 前端重构要考虑下一版本交互逻辑修改
- **建议:** 后端代码需用大模型做code review审查
- **建议:** 提供示例代码给大模型是有用的
**下周任务:**
- [ ] 🔴 P0数字人视频样本训练本周末完成
- [ ] 🔴 P0数字人PPT需求文档修改
- [ ] 🔴 P0数字人工作流研究+Gemini分镜测试
- [ ] 🔴 P0问答系统前端重构
- [ ] P1后端代码审查
- [ ] P1天眼查自动更新需求确认
#### 郝倩玉
**上周完成:**
- ✅ 会议纪要Skill架构优化协助
- ✅ Gartner报告解读转写系统需求文档已发闫旭隆
**进行中:**
- 🔄 数字分身需求对接
- 🔄 招投标文件Skill架构设计
**收到的反馈/学习建议:**
- **建议:** 数字分身需求由于合作方时间不确定,先自己做好准备,做几个版本备选
- **建议:** Gartner报告转写因涉及年末签合同提升到P0先设计架构
- **建议:** 如果想学习Skill到LangGraph架构转换需要先把skill底层知识全部学一遍
**下周任务:**
- [ ] 🔴 P0招投标Skill架构设计
- [ ] 🔴 P0Gartner报告转写Skill架构设计
- [ ] 🔴 P0数字分身市场调研
- [ ] P1协助会议纪要Skill优化
- [ ] P1Cloud Skill转框架研究
#### 陶西平
**上周完成:**
- ✅ 数字人PPT需求文档协助提供调研文档
- ✅ 数字人与PPT结合视频生成测试
**进行中:**
- 🔄 前端框架调研
- 🔄 数字人调研报告
**收到的反馈/学习建议:**
- **认可:** 提供的数字人调研文档被江争达采用,作为需求文档重要参考
**下周任务:**
- [ ] 🔴 P0配合江老师前端框架重构相关工作
- [ ] P1完成数字人调研报告
- [ ] P1完成PPT与数字人结合调研
---
## 三、会议总结
**核心议题:** 会议纪要Skill架构优化、数字人PPT需求完善、问答系统前端重构、Subagent调用机制研究
**关键决策:**
1. **会议纪要转写采用Gemini多模态视频处理路径**:多模态能力最强,上下文最长,视觉能力超强
2. **模型工具组合确定**前端用Gemini中间逻辑用Claude Code整体项目修复/测试用GPT Codex
3. **会议纪要Skill改为全量读取方式**:放弃索引搜索,转写文本需先做清洗再处理
4. **P0优先级判断采用AI建议+人工确认模式**:不能完全依赖自动判断
5. **数字人视频时长改为20-30分钟**:技术上没有难度,只是花销问题
6. **数字分身选型聚焦百度曦灵和黑镜两个平台**:本周需用真人训练样本
7. **前端重构只改展示和代码结构**:保留现有功能流程不动,但要考虑下一版本交互逻辑
8. **SubAgent调用必须使用绝对路径**测试表现稳定推荐Agent调Agent方式
9. **Gartner报告转写提升为P0**涉及年末签合同和30万收入
10. **日报驱动项目管理系统由丁康负责**包括基于会议纪要生成日报、与MCP对接
**下周工作重点:**
1. 🔴 会议纪要Skill测试对比腾讯会议转写 vs gemini视频直接生成
2. 🔴 数字人视频样本训练(百度曦灵+黑镜,本周末完成)
3. 🔴 数字人工作流研究Gemini分镜脚本+图片→Veo3.1视频)
4. 🔴 问答系统前端重构方案完善
5. 🔴 招投标Skill和Gartner报告转写Skill架构设计
---
**纪要整理人:** Claude
**纪要时间:** 2025-12-08
**下次会议:** 2025-12-09

View File

@ -0,0 +1,587 @@
以下是该视频内容的逐字语音转写及画面内容提取:
**画面内容:** 视频开始,画面全黑。随后屏幕中央显示白色文字:“信通院云大所市场部-张媛媛”。
**发言者(闫旭隆):** 呃我看用媛姐正好开组会好像不太...不太方便。
**发言者(连云波):** 嗯。对。我记得好像...学号...或者是学号过去更好。
**发言者(闫旭隆):** 呃,可以啊。
**发言者(连云波):** 它这个叫什么专业版?尚未认证。
**发言者(闫旭隆):** 专业版。应该是个人的吧,感觉,个人的。
**发言者(连云波):** 如果是企业版,那就可以选好几个账户了。
**发言者(闫旭隆):** 嗯,嗯,对。
**画面内容:** 00:28 画面出现白色加载圆圈。
**发言者(连云波):** 我叫他了。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 听得到吧焦老师?
**发言者(焦老师):** 嗯听得到。
**发言者(连云波):** 喂?听得到吧焦老师?
**发言者(焦老师):** 喂?喂?听得到。
**发言者(连云波):** 喂?
**发言者(焦老师):** 你...你那没声音?
**发言者(连云波):** 没声音吗?
**发言者(焦老师):** 能听到,但是就是说...你那是不是没听到我声音?
**发言者(连云波):** 听到了呀。
**发言者(焦老师):** 昂。
**画面内容:** 01:05 屏幕变黑。01:09 屏幕显示“信通院云大所市场部-张媛媛”。01:14 屏幕变黑。01:20 画面切换显示 Windows 桌面,正在打开一份 Excel 表格标题显示“P0项目进展情况”。01:23 画面切换至微信电脑版界面。
**发言者(连云波):** 那个,关于这个会议纪要这个...基本上找到一条路径了。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 这条路径...我看一下啊,这里面应该能不能找到。
**画面内容:** 01:36 微信界面点击切换到与“江达”的聊天窗口显示发送过一个名为“20251201-问题摘录...md”的文件。
**发言者(连云波):** 这条路径...呃...我是发给过你是吧?
**发言者(闫旭隆):** 嗯,是不是...
**发言者(连云波):** 不行你你你来那个...分享那个。你把我发给你的那个对话...
**发言者(闫旭隆):** 不在这里啊,应该是个人的。
**发言者(连云波):** 好像是发给我的那个...但是你只截了个图。
**画面内容:** 02:07 微信界面点击切换到与“连云波”的聊天窗口。02:11 打开一张聊天记录截图。02:14 滚动浏览微信聊天记录,显示关于 Gemini 的讨论内容。
**发言者(闫旭隆):** 不知道你发没发截图...
**发言者(连云波):** 哎哟,我也我也...稍等啊...
**发言者(连云波):** 那我就描述一遍吧我这个。
**发言者(闫旭隆):** 行。
**画面内容:** 02:32 切换至 Google Chrome 浏览器,显示 Gemini 界面标题为“信息系统建设方案书工作指导”。02:37 点击浏览器插件栏。
**发言者(连云波):** 我一直认为那个...我们的语音现在识别是不是...因为会议纪要识别效率很低嘛。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 我一直认为纯粹的语音,它因为好多背景信息都是没有的。文字它不知道的,我们的文字稿它不知道。我们的这个视频,它也不知道,对吧,我们的切换它也不知道。
**发言者(连云波):** 所以从这个角度来说,多模态以后一定是做文字识别的最重要的一个...或者说最...最...最终的路径。
**发言者(连云波):** 后来呢...上周那个Gemini出来之后...我觉得是...非常好。然后我就拿那个...那个视频去测试了一下我和...正好我跟江南达开了大概半小时的会议。
**画面内容:** 02:58 浏览器中点击右侧历史记录打开名为“信息系统建设方案书工作指导”的对话记录。页面显示上传了一个名为“2025112618...的继续会议-视频.mp4”的文件。
**发言者(连云波):** 我记得我上传中国最多一个小时的。半个小时的会议我上传上去了。上传上去之后我让他原文转写我这所有视频里的...这个文字稿。你们大家往下看一下啊。
**画面内容:** 03:01 页面向下滚动,显示 Gemini 输出的“时间轴00:00-03:40”及其对应的文字描述内容。
**发言者(连云波):** 基本上...你看,它是...呃...可以看得到什么Lian正在操作电脑查找文件。
**发言者(闫旭隆):** 对吧。
**发言者(连云波):** 然后画面静止黑屏连接,往下可能还有吧。
**发言者(闫旭隆):** 对,开始讲解。
**发言者(连云波):** 它里面是什么呢?当然也有很多其实画面就没有没有...没有变化了。它现在...我特意对了一下,基本上...没有错误的那个单字了。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 没有了。更重要的是什么?这个模型...最厉害的是...它本身就是多模态的你可以什么你可以对这个视频需要提取的内容直接用prompt来进行调整。
**发言者(闫旭隆):** 知道吧?
**发言者(连云波):** 所以有可能...最厉害的做法,如果它具备这样的能力的话,原字能够写好的话,如果我们测试下来确实很好的话...直接给它一个会议模版...
**画面内容:** 04:42 页面继续向下滚动,显示更多文字转写内容。
**发言者(连云波):** 你就可以...就把视频给它,给它一个会议模版,它就有可能直接生成,就一步行之到位了。
**发言者(连云波):** 那方法有可能在Gemini上做也有可能...直接...我...或者...那个Gemini里面也有那种Gem...那种...
**画面内容:** 05:04 视频画面黑屏。05:07 视频画面恢复显示浏览器 Gemini 界面。05:15 点击浏览器左上角的 Gemini 图标回到主页。
**发言者(连云波):** 呃...要不我上回我先好像忘了好一点了,我上回把它共享吧。
**发言者(连云波):** 那,这里面有...有一个这个...Gem...就是在...就有点像什么呢?那比如说...
**画面内容:** 05:57 鼠标点击“Writing editor”图标。06:02 进入 Writing editor 界面。
**发言者(连云波):** 哦,稍微有点慢啊。那,它是可以...里面好多定义的你可以自定义自己的Gem就是在这里面你把会议纪要什么那个模版全部放进去。
**画面内容:** 06:14 点击输入框左侧的“+”号,显示上传文件选项。
**发言者(连云波):** 然后你把视频上传给它,在这里面你可以把视频上传给它,比如说在这把视频上传给它。上传给它之后根据你的这个会议纪要...呃那个模版,就自动给你生成。
**发言者(连云波):** 所以这个是我找到的目前最有效的路径。所以Gemini大家肯定要用了因为它的多模态能力是最强的而且它上下文是最长的。
**发言者(连云波):** 好吧?那这回我交给那个...旭隆,去白薅一个月的,你们先薅一个月试试看。对吧,那个通过上它那个...试用用户。
**发言者(闫旭隆):** 是。
**发言者(连云波):** 呃,那到时候你把那链接分享给大家就行了。
**发言者(连云波):** 其实...我用下来Gemini目前...就是...应该说...就是...能力是最全面的。不应该说不一定是最聪明的啊...就最聪明我现在觉得GPT...GPT那个5.1啊,还是聪明。
**发言者(连云波):** 但是最全面的...就是就是这个...Gemini。而且它最强最强的是它多模态尤其是视觉能力是超强超强的。强到你都不敢想象。
**发言者(连云波):** 呃,我这段时间用下来我看外网的...所有Gemini的这个介绍。我到时候告诉你们我用它来做PPT的过程。
**发言者(连云波):** 好吧。所以,这个...是我觉得大家一定要用好Gemini至少在接下来的这这这个一段时间里面可能除非有下一个模型超越它了。就这个用好主要就是赋能我们日常的工作。
**发言者(连云波):** 嗯...我先把它用来做会议纪要的这个转写。对吧,只要有了会议纪要转写之后,这些东西留下来之后,你看视频也留下来之后...后面能做很多很多很多加工的工作。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 知道吧?
**发言者(闫旭隆):** 嗯嗯。
**发言者(连云波):** 这就非常非常容易,就后面包括学习啊,包括研究啊,什么都可以再在这个...我们这个视频或者说这个转写的基础上面。
**发言者(连云波):** 所以我们下接下来会...看看第一,我们的那个视频怎么保存。它现在因为大量的重复静止的画面嘛,就其实压缩下来就效...那个叫什么...视频压缩的那个大小,或者说整个文件的这个...提...体积不会太大的。
**发言者(连云波):** 所以我觉得可以考虑一下把视频作为一个...作为我们以后素材留下来,因为它它是最全面的。文字也有了,对我如果转写的文字也有了。文字、图像、音频都在里面。好吧,所以把这个留下来。
**发言者(连云波):** 第二个呢...就是多模态一定是我看到的未来...最接近...就最...最...说呢,使用起来最方便的一个模型。它不用你专门去再思考怎么去转换。
**发言者(连云波):** 呃到时候我再告诉大家。好吧所以这个从这个角度来说给大家的建议就是Gemini这个Pro...1.5 Pro这个模型一定要用起来了。而且我还没来得及使用它...外网是非常非常的火爆利用...我还没利...来得及使用它做那个...编程。大家认为编程它的前端...我自己试下来的前端...已经...不需要再有什么...任何模型什么其他复杂的造作了。那给他一句话,他一个前端就全部给你做好了。非常非常的好。而且做出来的效果比一般人做都好。
**发言者(连云波):** 好吧,所以...能用它来做非常多的开发工作。非常非常多。好吧,所以前...我现在给大家推荐什么就是前端用Gemini。对吧然后...中间逻辑...整个代码的构造部分就用那个...Cloud。然后整个项目的...如果可以的话...如果在有的话就是整个项目的那个...修复或者说整个的这个查找问题或者整个测试可以用Gemini...那个什么GPT的那个Codex。他们三个应该是这么来理解。但是如果说只有一个那也是能用的。好吧在最好的组合可能就是这样的。但是不管怎样你得首先把它每一个工具里面的擅长搞清楚。那主力我现在用下来还是Cloud Code。主力还是Cloud Code。
**发言者(连云波):** 所以我现在基本上Cloud Code...为什么主力是Cloud CodeCloud Code是因为它的工具调用能力目前无人能及。就它的工具调用和工具理解能力是没有人能赶过它的。所以我们做Agent的话...对于工具的理解肯定是第一位的。
**发言者(连云波):** 好吧。行吧,先先这么多。你先接着往下。所以会议纪要这个事情就是这样的。
**发言者(闫旭隆):** 嗯。那先会议纪要。
**发言者(连云波):** 嗯。
**画面内容:** 10:17 屏幕黑屏。10:24 屏幕恢复显示浏览器界面。10:39 切换至 Windows 桌面,显示文件夹内容。
**发言者(闫旭隆):** 呃...会议纪要Skill主要是...改了一下整体的架构。就之前是用那个索引...搜索。
**发言者(连云波):** 嗯。
**发言者(闫旭隆):** 然后我改成了就是全量的...
**发言者(连云波):** 全量读取。
**发言者(闫旭隆):** 确实确实可以。
**发言者(连云波):** 可以的是吧?
**发言者(闫旭隆):** 确实可以。
**发言者(闫旭隆):** 然后我...大概演示一下那个...
**画面内容:** 11:15 打开文件夹 `AA_Work` -> `skills合集` -> `.claude` -> `skills` -> `meeting-minutes-generator-v1`。11:32 打开文件夹内的 `Phase2执行流程图.drawio` 文件。
**画面内容:** 11:42 `draw.io` 软件正在加载。11:48 打开了流程图,标题为“工程类会议纪要 Skill 执行流程图”。
**发言者(闫旭隆):** 这个是那个映射逻辑。
**发言者(连云波):** 哦。
**发言者(闫旭隆):** 就是每...每一...每一个的...每一个字段...每一个字段的来源。
**发言者(连云波):** 嗯。
**发言者(闫旭隆):** 来源,就是画了一个映射逻辑的图。
**发言者(连云波):** 你在Skill里面会把它这样的逻辑写进去吗
**发言者(闫旭隆):** 对。
**发言者(连云波):** 我跟你说...你这个很重要。我自己在做Skill过程当中啊...我总有时候觉得Claude自己的逻辑...清晰。它容易瞎改。而且改完之后它...改前忘后,改后忘前。
**发言者(闫旭隆):** 对。
**发言者(连云波):** 好人。目前...我认为它现在最...最...最缺的就是逻辑的一致和前后的连贯性。
**发言者(闫旭隆):** 这个算是工程类的,就是每一个字段的来源。包括...一些就是上周都提到的...负责人要改为原负责人。
**发言者(连云波):** 哦。
**发言者(闫旭隆):** 就是第一个字段代表着这个项目原本交给谁了。然后...呃...
**发言者(闫旭隆):** 截止时间我也改为原截止时间,就是上周会议纪要定下的这个任务的截止时间。
**发言者(闫旭隆):** 然后改动还有...最核心就是那个Agent内部它是全量读取的。
**发言者(连云波):** 其实把这个做完。
**发言者(闫旭隆):** 然后...那个...哦对,还有这个。这个上周没提...没提到就是...不是没提到,就是上周发现它那个进展情况应该以会议转写为优先。
**发言者(连云波):** 啊改进去。
**发言者(闫旭隆):** 这个也改进去了。
**发言者(闫旭隆):** 然后下周逻辑我也顺了一下,也是应该优先,就是会议转写优先。
**发言者(闫旭隆):** 然后我...我测下来发现它可能最...最大的问题还是那个文字的语义识别...就交给谁了,交给谁了...
**发言者(连云波):** 目前...我我就觉得就是...目前会议纪要里面最头疼的一件事情就是文字转写的准确性和上下文的...这种叫约束能力。这两个是最核心的。你转写能力如果不清晰,然后没有又没有很好的约束,那它基本上...因为我们是在...已经非常清晰的上下文背景下来开这场会议的。
**发言者(闫旭隆):** 对。
**发言者(连云波):** 它是不知道的。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 所以这些上下文不给它它是很难处理的。
**发言者(连云波):** 所以从这个角度来说...后面...到底怎么...就是怎么来怎么怎么用什么样的工具。比如说到底还是继续用Claude这个来Skill来做这个Claude的这个这个来来处理会议纪要还是用Gemini。比如说文字出来之后用谁来...谁谁来处理。
**发言者(连云波):** 因为有可能不行就调Gemini那个API。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 然后在Cloud里面调Gemini的API来做。
**发言者(闫旭隆):** 对。我觉得这样自动化程度更高。
**发言者(连云波):** 对。然后API现在我看好像还行。我们这个...如果转写成文字了也没多少。
**发言者(闫旭隆):** 嗯。还行,还可以。
**发言者(连云波):** 我记得好像半小时6000多字嘛。一分钟200多字嘛。
**发言者(闫旭隆):** 对。差不多。
**发言者(连云波):** 6000多字你就算一个拥...5个小时不也才3万字嘛。3万字也就差不多2万多个token。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 2万多token对于它20万token来说...哦对于它100万token来说太小了。
**发言者(闫旭隆):** 对吧。
**发言者(连云波):** 嗯,所以我说这个都是可以考虑的。
**发言者(闫旭隆):** 呃实在不行就切开组。
**发言者(连云波):** 好吧所以这个没关系的按照这个Skill先往下走通过这个Skill来...来来...先把整体的那个识别...工作Gemini做完之后再用这个Skill来加工。
**发言者(闫旭隆):** 嗯,我觉得可以。
**发言者(连云波):** 我觉得那个就是有点高。
**发言者(闫旭隆):** 下周工作安排。
**发言者(连云波):** 你知道吧,整个会议最重要的,是下周的工作安排。以后你们一定要知道,开会的目的不是为了...首要目的是为了解决问题。其次才是为了分享知识。分享知识其实不完全一定需要工作里面讨论的。对吧,不一定是要周会的。有的时候就直接在...我们里面就直接分享了,讨论也避开。所以只有会议纪要是需要大家共同坐在一起的。
**发言者(连云波):** 尤其是未来以后我们如果人多了,项目分散以后就更是了。
**发言者(连云波):** 好吧,每人每个人都做一部分,那完全需要一个大项目,对吧,有人负责前有人负责后。就需要信息沟通。
**发言者(连云波):** 好吧,所以整个这个...会议里面最核心最核心的目的是为了得到下周的工作安排的合理安排。
**发言者(连云波):** 所以一切一切的逻辑都是往这儿聚的。能把这个写清楚,基本上大部分都问题不大了。因为你前面你想想,你信息...前面的信息得提取正确,你汇报的信息得提取正确,然后才能...逻辑理顺清楚,然后才能得出下周工作纪要。
**发言者(连云波):** 好吧。所以我说这个是非常非常重要。
**发言者(闫旭隆):** 嗯,然后...基本上...基本上这些其实都是要以那个文字转写...为为...最优先。
**发言者(连云波):** 对。下周工作安排一定是文字转写。
**发言者(闫旭隆):** 是的。
**发言者(闫旭隆):** 所以这些下周任务也基本上是...周报作为补充。
**发言者(连云波):** 补充嘛。对,基本上所有的都是...上下文,每一个都要给它一个上下文。
**发言者(闫旭隆):** 对。
**发言者(连云波):** 但是这里面有一个问题,你是每一次都是分...比如说...这些目标啊...是一次性的提取完成,还是说分次提取?一次性提取完成?
**发言者(闫旭隆):** 我是并行用搜索Agent。
**发言者(连云波):** 并行的。
**发言者(闫旭隆):** 对并行搜索Agent去搜然后把搜到的信息都反馈给主窗口然后主窗口负责读所有的信息然后写。
**发言者(连云波):** 哦。
**发言者(闫旭隆):** 那么再看那个整体的那个。
**发言者(连云波):** 我这...不,我的意思等会看那个结果。就啥意思呢,就这个方法,我觉得...呃...比较...就是清晰。但是...第一,我觉得它这个资源浪费太大了,每...每一个过程全部全量处理一遍。
**发言者(闫旭隆):** 对,这一个。
**发言者(连云波):** 这个肯定是太浪费了。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 第二个...会造成逻辑的割裂。因为你要在主窗口...主上下文窗口里面...我已经再去做一个...
**发言者(闫旭隆):** 我我我自己的改造啊,我试了。
**发言者(连云波):** 那个下周逻辑,就是大概这样。
**画面内容:** 18:03 闫旭隆在流程图中点击查看“三、会议总结...”部分。
**发言者(闫旭隆):** 呃,对,这个就是...映射逻辑。
**发言者(连云波):** 对。
**发言者(闫旭隆):** 然后可能...还有一个点是它识别...下周任务的时候...P0...它是根据语义来识别。
**发言者(连云波):** 比如领导说紧急...什么优先...
**发言者(闫旭隆):** 它就会识别为P0。
**发言者(连云波):** 对。就这个里面,这个是最难的。
**发言者(闫旭隆):** 对对对。
**发言者(连云波):** 就是...作为...我跟你说实话,如果它能做得到,比你们都强。
**发言者(闫旭隆):** 确实。
**发言者(连云波):** 因为因为人第一啊,我看你们现在的能力是低...目前...对于...就是整个项目里面的轻重缓急判的没那么清晰的。第二,我跟你说实话,你们都忘的。就说了这么多之后你们早就忘掉了。
**发言者(闫旭隆):** 对。
**发言者(连云波):** 会议当中内容你们早就忘掉了。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 你知道吧?有好度重要的就说到弄...所以你提取不出来的。
**发言者(连云波):** 所以它如果能提取出来,你可以这样...你可以让它给个建议。
**发言者(闫旭隆):** 明白吗?
**发言者(连云波):** 你让它先给出建议不要上来就生成P0。
**发言者(闫旭隆):** 建议优先级。
**发言者(连云波):** 哎建议排序是什么。然后人再给它一个反馈。
**发言者(闫旭隆):** 哦。
**发言者(连云波):** 这个里面是最重要的。就每个人,你看啊,每个人...其实都会得出一个你们下周工作的P0到P2的。
**发言者(闫旭隆):** 对吧。
**发言者(连云波):** 最好是让它发给你们。生成之后,每个人生成一个这个之后给你们确认一下。
**发言者(闫旭隆):** 对吧。
**发言者(连云波):** 给你们确认一下。这个是最好的。
**发言者(连云波):** 这样的话呢...把这个确认过程所有的材料你都保留下来。作为后续的强化学习也好啊,微调也好啊...
**发言者(闫旭隆):** 就知道,它就知道以后...
**发言者(连云波):** 知道了。不然的话它每次只能固定在这里。它每次就提取出来就是这么着,就是这样。它也没法优化。
**发言者(闫旭隆):** 明白。
**发言者(闫旭隆):** 嗯对,这个就是映射逻辑。
**发言者(连云波):** 嗯。
**发言者(闫旭隆):** 然后,你看所有的最后都是要到下周重点的。
**发言者(连云波):** 是。
**发言者(连云波):** 好吧。
**发言者(闫旭隆):** 嗯。
**发言者(闫旭隆):** 然后Skill的执行流程...
**画面内容:** 20:49 滚动查看 `draw.io` 文件中的“Phase 2: 工程类会议纪要生成 - 并行执行流程图”。
**发言者(闫旭隆):** 主要就分两步。
**发言者(连云波):** 哎,我告诉你们啊,现在已经有个新的...drawIO有一个开源项目有一个叫AI drawIO了我今天上午发给你们看啊。它这里面可以...就是你生成drawIO不是有有些错误啊什么的吗逻辑上有问题吗。你可以在这个里面直接...但是它要那个什么...它要API的。它要API它不要钱。但是API要用...就Gemini内个...我觉得它那个免费的API那个调用次数肯定是够用的。
**发言者(闫旭隆):** 嗯,那就行。
**发言者(连云波):** 对。所以你们用它可以直接在这里面修改。所以drawIO以后可能用起来更方便。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 另外一个到时候告诉你们可能有Gemini直接生成...现在不能修改啊,它直接生成可能...或者直接生成矢量图也是一种方案。
**发言者(闫旭隆):** 嗯。
**发言者(闫旭隆):** 这个就是工程类会议纪要的...流程...从上往下的。
**发言者(连云波):** 呃Phase 1就是...
**发言者(闫旭隆):** 呃Phase 1就是一些输入数据...这个是都加载到了主窗口然后子Agent也都没加载。就是搜索Agent每次都会加载。
**发言者(连云波):** 加载这些所有数据是吧?
**发言者(闫旭隆):** 对,所有数据。
**发言者(连云波):** 嗯。
**发言者(闫旭隆):** 然后...呃...Phase 1是刚刚那个...输入数据的加载。
**发言者(连云波):** 啊。
**发言者(闫旭隆):** 然后...会议信息就是主窗口直接生成。因为主窗口已经有有这些了。就是已经足够生成。
**发言者(连云波):** 等会你这个P0任务列表是...是谁是上一个从会议转写里面出来的吗?
**发言者(闫旭隆):** 呃不是P0任务是...上周会议纪要...如果是有一个上周P0任务...
**发言者(连云波):** 你这两个P0任务列表我说了P0任务...
**发言者(闫旭隆):** P0任务列表是...它确定,就是它会整合...
**发言者(连云波):** 就是映射。
**发言者(闫旭隆):** 这个这个可能它是...呃...哦,我判断...啊整...重合...呃去重之后然后它给了子Agent。
**发言者(连云波):** 我是你意思。P0任务列表是指周报P0任务列表。那你写上。
**发言者(闫旭隆):** 就本周...
**发言者(连云波):** 周报,周报任务列表。这就不清晰了。周报。
**发言者(连云波):** 那个上周P0任务写...上周纪要的P0任务。对吧
**发言者(闫旭隆):** 对。
**发言者(连云波):** 嗯。
**发言者(闫旭隆):** 呃,这个...这个好像...这个任务列表...应该是它去重之后的。
**发言者(连云波):** 对。
**发言者(闫旭隆):** 它去重就是...呃...这两块去重之后形成了一个最终的P0任务列表。然后它就传递给子Agent的时候是会传递这个信息。就让子Agent知道我现在已经确认了...P0任务有哪些然后去搜索。交给子Agent去搜索。这也是给子Agent的一个上下文。
**发言者(连云波):** 那你给它那个上周P0任务...纪要里的P0任务是...周报的P0任务列表是指把所有人里面的P0任务列表全部提取出来了是吧
**发言者(闫旭隆):** 对。提取出来之后每个人生成一个...
**发言者(连云波):** 对,然后还有上周纪要的都整合起来,去重一下。
**发言者(闫旭隆):** 对。
**发言者(闫旭隆):** 然后就是并行提取。就是并行提取它会根据那个...会议纪要模版的字段...判断...就是哪些字段,刚刚那个映射表里需要涉及到...所有的字段。
**发言者(闫旭隆):** 呃...不是所有字段,主要是涉及到需要去文字转写里面去搜索。
**发言者(连云波):** 嗯。
**发言者(闫旭隆):** 就差不多是所有字段。有有很多字段都要去...都要依据那个文字转写去搜索。就是会议的转写文字。
**发言者(闫旭隆):** 它每次去搜的时候会调用这个Agent。所以这个Agent是通用的。只是...也不是通用,它里面是预设了很多种任务类型,然后...呃对,每一种任务类型它返回做了一个...Json的格式的约束。
**发言者(闫旭隆):** 所以它就...呃...能够并行执行。然后只要只需要主Agent交给它任务...输入是什么,输出是什么。
**发言者(连云波):** 嗯,懂了。呃...你是到里面去搜索是吗?
**发言者(闫旭隆):** 呃不是搜索。就是...就是全量加载嘛。全量加载,然后给它任务,自己去找,自己执行。不叫搜索。
**发言者(连云波):** 叫搜索是很容易出问题的。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 你知道为什么?就人的语言里面有大量的...
**发言者(闫旭隆):** 跳脱。
**发言者(连云波):** 对,就是...就就很多语言是不清晰的。所以我们会议当中很多语言没那么清晰,你直接搜索是搜索不出来的。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 但是...人只能上下文它通过上下文Attention的处理它是能够理解这个...能够把这东西可能能提取出来。
**发言者(连云波):** 如果你搜索你RAG你是绝对RAG不出来的。
**发言者(闫旭隆):** 嗯。对吧。对吧。
**发言者(闫旭隆):** 然后搜索并行完之后就每一步都会...项目进展都会...每一步把...这些都是我预设的Json就是每一个任务会对应不同类型然后它根据那个类型会反馈出这些我要的信息。
**发言者(连云波):** 那我问你一个问题。你把这几个问题同时合到一个问题...就传给它。就几个Agent并发的时候我把这几个全部合进到一个里面让它执行。
**发言者(闫旭隆):** 因为都是加载一次性全量的。
**发言者(连云波):** 嗯。
**发言者(闫旭隆):** 嗯...合并...行肯定是行。
**发言者(连云波):** 行肯定是行。
**发言者(闫旭隆):** 呃我现在...也行。但是...我现在就是靠主窗口,其实...我觉得每一个Agent...
**发言者(连云波):** 啊你现在是把所有的东西全加载到主窗口了?
**发言者(闫旭隆):** 呃对就就靠主窗口来进整合对。可能每一个Agent它只执行特定任务会找得更多一点。然后...意思它冗余重叠部分更多,它主窗口可能也更好给它整合出来。
**发言者(连云波):** 嗯,明白。
**发言者(连云波):** 那我问你,你主窗口里面...上下文其实也是,就是所有的上下文也都是加载的。
**发言者(闫旭隆):** 主窗口...包括...包括你...
**发言者(连云波):** 输入数据是给它了对吧?
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 然后你上周转写文本给它了吗?
**发言者(闫旭隆):** 也给...没给它。没给它。
**发言者(连云波):** 没给它...除了转写文本都给了。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 也就可能也能给。谁肯定能给。我听下什么意思...就是你接下来可能要讨论一个问题啊。这种方式是比较...可能是比较精准的。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 但是...逻辑会割裂的。就是你每个Agent提取出来东西...直接给到主Agent主Agent的时候...它没法建立起每个之间的相关关联性。
**发言者(闫旭隆):** 呃...相关关联性我是给它写了那个啥...
**发言者(连云波):** 嗯。
**发言者(闫旭隆):** 就是这些Agent...
**发言者(连云波):** 出来了。
**发言者(闫旭隆):** 出来之后我会给每一种返回的形式做一个映射的约束就是把我那个映射规则体现在这个Skill.md里。就是它主窗口接收到每一种类型的返回之后它会根据这每一种类型的返回去按照我给它的...给它的方法论去映射,然后...然后一起去合并整个主窗口。
**发言者(连云波):** 行。我我我...先看个结果啊。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 我这...不,我的意思等会看那个结果。就啥意思呢,就这个方法,我觉得...呃...比较...就是清晰。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 但是...第一,我觉得它这个资源浪费太大了,每...每一个过程全部全量处理一遍。
**发言者(闫旭隆):** 对,这一个。
**发言者(连云波):** 这个肯定是太浪费了。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 第二个...会造成逻辑的割裂。因为你要在主窗口...主上下文窗口里面...我已经再去做一个...
**画面内容:** 视频结束。

View File

@ -0,0 +1,495 @@
发言者 1你一旦把上下文剥离之后……
画面内容:屏幕显示 ProcessOn 或类似的在线流程图工具标题为“Phase 2 并行执行流程图”,图表中包含多个 Agent 节点(如 User Proxy Agent、Agent C、Agent D1/Dn 等)。
发言者 1最全量的上下文剥离之后比如转写文本剥离之后它的效果一定是不如……我自己试下来的结果不如给它一个主窗口让它自己去处理的时候。但我不知道 Claude 的情况怎么样。就是你可以把一个一个单独的文本都给它提供,我举个最简单的例子啊,比如我给了它一篇文章,我让它文章生成一个 PPT对吧
画面内容鼠标光标在流程图的“Agent D1/Dn”和“主窗口会话保持”区域移动。
发言者 1它可以读完这个文章之后给我两种方法一个是读完这个文章给我一个提示词对吧给我写一段很详细的提示词然后那个提示词去生成一张图。和我直接让它在主窗口生成一张图我看了这两个信息量差距是很大的。非常非常大的。
发言者 1就是什么意思……它真的是把这个上下文全部用在这个图形的……这个生成过程当中了。而且逻辑关系更清楚更明确。那么你现在相当于把提示词生成的结果给到主上下文你会丢失好多好多信息。
发言者 1嗯。
发言者 1这是我自己感觉到的到时候看看结果。而且可能会你自己会补好多逻辑你的主上下文里面会补好多逻辑的。
发言者 2嗯。
发言者 1所以我觉得最好是什么呢
发言者 2主窗口也加上它。
发言者 1不是。我建议你什么呢我先建议你把这个直接的转写文本Clean 一次。就把它那些脏的、那些重复的、什么全部都做一遍加工。
画面内容鼠标在流程图左侧的“Phase 1 基础信息提取”区域画圈示意。
发言者 2嗯。
发言者 1第一保证它尽可能的信息的全面的同时文章是这个……这个内容是紧凑的。没有太多太多重复的了。
发言者 2嗯。
发言者 1然后这个时候你把这主窗口直接加载给主上下文然后……对。
画面内容鼠标指向流程图中间的“主窗口全量Context全量Prompt”。
发言者 2那子 Agent 的上下文就是……子 Agent 的上下文也是这个。
发言者 1也是这个也是 Clean 后的。也是这个。Clean 后的。然后把子 Agent 的这个出去的东西,再给到……就提取出来的……就是相当于……其实某种程度上子 Agent 提取出来的就是一个 Prompt。就是你把这些所有子 Agent 提取出来的就是一个大的 Prompt。给到主上下文然后让主上下文结合那个 Clean 的文档,加上那个大的长的 Prompt因为你 Prompt 已经运算过一次了。
发言者 2加强了一次。
发言者 1加强了一次了。你懂吧
发言者 2明白了。
发言者 1我觉得这个可能会最准而且信息量损失最小。不要一次性上来就处理了。不然你每个人都喂垃圾进去。
画面内容鼠标在流程图的“Agent D1/Dn”区域移动。
发言者 2好的。
发言者 1好吧。我觉得这个可能是……另外还可以尝试一个更大胆的。你就把……你就把那个映射规则写在主上下文让它主上下文一次性处理看看结果。我不用子 Agent 了。
发言者 2嗯。
发言者 1我不用子 Agent 了。尤其是 Gemini 的情况下,你给 Gemini 调用一次试试看。好吧,那个……反正哪有 300 美金的 API 那个免费的。你不用都浪费了。
发言者 2行。
发言者 1好吧。你给调用一下试试看。然后我一次性就直接一次性处理。我把主上下文整个的这个 Prompt 给它非常好的……好吧,但是是最好是处理 Clean 之后的。
发言者 2嗯。
发言者 1嗯。
发言者 2行。
发言者 1反正也就是一个……差不多 3 万字吧Clean 之后差不多剩 2 万字左右。
发言者 2嗯。
发言者 1你这 2 万字一定是包含了大量大量信息的,都在里面的。还有你还有前面上……前面我们……上面之前之前的那些上下文。我相信这个上下文已经足够足够了。
发言者 2嗯。足够了。
发言者 1足够了。好吧。因为这个重复处理呢我觉得开销太大。这一个。第二个呢你处理的都是很多没有……被精加工过的就每个人都要精加一遍每个人都要加工一遍就是这个有点浪费。
发言者 2行。
发言者 1所以……这个逻辑行。这个先往下走完最后如果效果好先保留啊这个先保留。优化的方式就是我刚才说的。好不好
发言者 2行。那看看结果。
发言者 1看看结果吧。
画面内容:屏幕切换,打开一个文件夹窗口,然后打开一个 Markdown 编辑/预览工具VS Code 或类似编辑器)。
发言者 2这个是……用上周的资源生成的比较。这个是大家手动钉正过的。
发言者 1哦。
发言者 2对。
画面内容屏幕显示左右分栏的文档对比。标题为“工程类会议纪要2025-11-25”。左侧内容较少右侧内容较多。
发言者 1右边是你生成的左边是手动的
发言者 2右边是我生成的左边是手动的。对。
发言者 1右边是你生成的。那为什么请假人员刘艳红一直在……我也觉得很奇怪的。
发言者 2可能是上周……
画面内容:文档向下滚动,展示“参会人员”部分。
发言者 2因为应该是上周……
发言者 1是上上周上周的那个……就是上上周那个里面有。
发言者 2对对对。
发言者 1这事还挺那个的。
发言者 2是的。
发言者 1行吧。
发言者 2我是把那个……我删了之后再跑一遍应该就没事了。
发言者 1没事我就……我主要看到它逻辑是怎么生成的。
画面内容文档继续向下滚动对比“二、工作内容”和“1. 重点项目进展情况汇总”。
发言者 1右边是你生成的。
发言者 2对。
发言者 1发现存在逻辑映射不大。这个是它比较概括你这个你看没有你的就非常的具体。
发言者 2是的。
发言者 1为什么它那么具体它那么概括这可能就是……存在的差异了。
发言者 2是。
发言者 1另外就是我们选取……我们想要什么。我们想要的是概括性的呢还是想要具体的。我觉得具体性更好容易执行。
发言者 2是的。
发言者 1OK。
画面内容:文档向下滚动,浏览表格内容,包括“项目名称”、“负责人”、“截止时间”、“项目进展情况”等列。
发言者 1第一个还是不错。第二个呢
发言者 2公众号。
发言者 1都通已经不行了OK。需求方反弹……
发言者 2这就是上周的……
发言者 1上周的你这个任务是……
发言者 2你把它都标注你把它标注下来了。不要直接删。
发言者 1好好好。
画面内容:文档继续向下滚动。
发言者 1这个我觉得……领导建议和领导指示是这块啊。
发言者 2嗯。
发言者 1首先第一可能是大家共同商量的结果。对吧
发言者 2嗯。
发言者 1你感觉就是……最后这块感觉就是最后的……
发言者 2解决方案。
发言者 1领导建议那写成解决方案。
发言者 2好的。
画面内容文档滚动至“2. 重点项目问题及解决方案”。
发言者 1这块……
发言者 2问题 1。
发言者 1会议纪要 Skill 信息提取准确性问题。你看这里有一个没提取出来就是……你记得是要找……找加力去商量。
发言者 2这个你没做在里面。
发言者 1这里边有个要点没有提取出来。你把它对上……
发言者 3女声是不是你没做那个……
发言者 1为什么没提取出来是主……是你转写文本里就没有啊还是……
发言者 2呃……
发言者 1左边这手工加的吗
发言者 2手工加的吗我看……
画面内容:切换浏览器窗口,打开 Bing 搜索页面,然后点击收藏夹中的某个链接,进入 HackMD 页面。
发言者 2刚才有个……呃我找那个……线上的共同编辑 Markdown 的……
发言者 1对。
画面内容HackMD 页面加载中随后显示“工程类会议纪要2025-11-25”。
发言者 2能展现……或者不行以后那用什么
发言者 1但你不一定能……
发言者 2Google Doc 是可以多人编辑同时呈现的。
发言者 1有。
发言者 2噢对那这个应该是本来就有的。
发言者 1对。
画面内容:切换回 HackMD 页面,鼠标选中“项目组导致的事情主要由主理人承担后果不再推诿”这一行。
发言者 1这里……
发言者 2有。
画面内容:切换回 VS Code 的文档对比界面。
发言者 1这里没有。
发言者 2就是它本来就带的。
发言者 1本来就带的对吧
发言者 2本来就带的。
发言者 1这个你要看它为什么它没有提取出来。
发言者 2嗯。
画面内容:文档对比界面,查看“问题 3运营信息思维信息提取展示不明确”。
发言者 1再看看。
画面内容:文档向下滚动。
发言者 1下面那个……
发言者 2下面……
发言者 1差不多。
发言者 2也是差不多。
发言者 1反正我看觉得左边那个……归纳的好像更……
发言者 2更……
发言者 1也都对。
发言者 2嗯。
发言者 1也都对。两个都对。对吧两个都对。
发言者 2是。
发言者 1反正这个反正对的先放着后面再……再那个什么。然后……需求澄清 Skill完成多项……1.0 版本测试。哎这个 1.0 版本测试我觉得左边的更好。
发言者 2嗯。
发言者 1完成 1.0 版本测试。更细一点。
发言者 2更细一点。
发言者 1所以你可能要看一下你的这个里面……比如说……你完成动态优化里面写一个……你完成 1.0 版本测试,对吧?
发言者 2嗯。
发言者 1然后再往下。
画面内容:文档滚动至“问题 5数字人 PPT 需求文档存在产出问题”。
发言者 1效果……测试人员……
发言者 2问题描述。
发言者 1问题描述。
发言者 2嗯。
发言者 1问题描述。
发言者 2嗯。
发言者 1嗯……
发言者 2嗯……
发言者 1这里面都好一点。
发言者 2呃……
发言者 1问题描述。
发言者 2更好肯定……肯定是人改的更好。
发言者 1这是人改过的。
发言者 2这个是人改的天赋比较大。
发言者 1对。
发言者 2但是我觉得……比较接近。
发言者 1主要的要点是有了。
发言者 2主要的要点是有的。
发言者 1嗯。以前没有的上一版本没有的也有了。
发言者 2这句话是……是我加的。
发言者 1加的是吧
发言者 2对。这个是它自己写的。
发言者 1Opus 做专家评审……这个……我只建议做多轮博弈。
发言者 2嗯。
发言者 1嗯。
画面内容:文档继续向下滚动,查看“问题 6日报驱动系统架构设计不系统”。
发言者 1再往下。日报……日报驱动系统……这块全部丢掉了
发言者 2那个左边吗
发言者 1左边左边。日报驱动系统……
发言者 2这个是我……我不到。
发言者 1你不知道这个。
发言者 2那么换……比较……
发言者 1嗯。改为全量项目……
发言者 2嗯。
发言者 1再往下。
画面内容文档滚动至“4. 组内成员工作进展”。
发言者 1这个……
发言者 2这个可能也删了。嗯。
发言者 1天眼查需求明确……这个已经明确了吗
发言者 2那个……正好天眼查需求明确。
发言者 1现在的……现在的情况是我这边已经跟小鹏把这个接好了然后具体的技术实现然后您……前……前几次会议吧然后您也在会上提过就是说让江老师……就是出一个技术的一个方案一个时间方案然后可以帮助小鹏可以自动更新他那个……就是他那个……客户库。
发言者 2对。嗯。然后目前的话应该是江老师正在做吧。
发言者 1或者在做吧。好反正先对一下这个 Skill。逻辑思考整理……
发言者 2这个整理……
画面内容:文档滚动至“下周工作安排”。
发言者 1左边是改了吗
发言者 2左边应该是改了。
发言者 1左边这边是……
发言者 2这边。
发言者 1嗯。
发言者 2嗯。
发言者 1这个可能……
发言者 2这个可能也删了。嗯。
发言者 1天眼查需求……
发言者 2有。
发言者 1有。
发言者 2嗯。
发言者 1嗯。
发言者 2嗯。
发言者 1这个……这有个问题。这个错了到……
发言者 2对对对这个对原先版本也错了其实。这个错了那……
发言者 1反正……
发言者 2对。
发言者 1这个好像左边没有。
发言者 2因为我删了因为我写这个……的时候已经完成这个了。就完成了。
发言者 1对。
发言者 2嗯。
发言者 1嗯……
发言者 2嗯。
发言者 1这个……
发言者 2嗯。
发言者 1这个……
发言者 2嗯。
发言者 1这个……
发言者 2这个倒是有的都在再往下。
发言者 1那就没没没问题。
发言者 2对。
发言者 1有的。
发言者 2嗯。
发言者 1那基本……沟通耗费精力……没那么复杂。看看第四个第四个呢。
画面内容:文档滚动至“问题 4Skill 测试效率低下问题”。
发言者 1流程……嗯……
发言者 2嗯。
发言者 1重构……
发言者 2嗯。
发言者 1那个倒有一点你告诉大家再试试。
发言者 2嗯。
发言者 1嗯。
发言者 2这好像……左边没有。
发言者 1对。
发言者 2但是它本来就带的。
发言者 1本来就带的对吧
发言者 2本来就带的。
发言者 1这个你要看它为什么它没有提取出来。
发言者 2嗯。
发言者 1再看看。
发言者 2下面……
发言者 1差不多。
发言者 2也是差不多。
发言者 1反正我看觉得左边那个……归纳的好像更……
发言者 2更……
发言者 1也都对。
发言者 2嗯。
发言者 1也都对。两个都对。对吧两个都对。
发言者 2是。
发言者 1反正这个反正对的先放着后面再……再那个什么。然后……需求澄清 Skill完成多项……1.0 版本测试。哎这个 1.0 版本测试我觉得左边的更好。
发言者 2嗯。
发言者 1完成 1.0 版本测试。更细一点。
发言者 2更细一点。
发言者 1所以你可能要看一下你的这个里面……比如说……你完成动态优化里面写一个……你完成 1.0 版本测试,对吧?
发言者 2嗯。
发言者 1然后再往下。
发言者 1问题描述。
发言者 2问题描述。
发言者 1问题描述。
发言者 2嗯。
发言者 1嗯……
发言者 2嗯……
发言者 1这里面都好一点。
发言者 2呃……
发言者 1问题描述。
发言者 2更好肯定……肯定是人改的更好。
发言者 1这是人改过的。
发言者 2这个是人改的天赋比较大。
发言者 1对。
发言者 2但是我觉得……比较接近。
发言者 1主要的要点是有了。
发言者 2主要的要点是有的。
发言者 1嗯。以前没有的上一版本没有的也有了。
发言者 2这句话是……是我加的。
发言者 1加的是吧
发言者 2对。这个是它自己写的。
发言者 1Opus 做专家评审……这个……我只建议做多轮博弈。
发言者 2嗯。
发言者 1嗯。
发言者 1再往下。日报……日报驱动系统……这块全部丢掉了
发言者 2那个左边吗
发言者 1左边左边。日报驱动系统……
发言者 2这个是我……我不到。
发言者 1你不知道这个。
发言者 2那么换……比较……
发言者 1嗯。改为全量项目……
发言者 2嗯。
发言者 1再往下。
发言者 1那个好像……日报驱动系统……跟这个就不一样了。
发言者 1需求澄清……领域专家的问题……它其实是这个。
发言者 2嗯。
发言者 1但是左边提取出来的是日报驱动系统……
发言者 2系统问题。
发言者 1这块全部丢掉了。
发言者 2嗯。
发言者 1是录音的问题吗
发言者 2录音……
发言者 1日报驱动系统……
发言者 2这应该录音是肯定有的。
发言者 1有。
发言者 2有。
发言者 1有。
发言者 1可能你这 Skill 管理……那块……逻辑有点乱,对吧?
发言者 2嗯。
发言者 1日报驱动系统测试系统不系统。
发言者 2嗯。
发言者 1是不是录音的问题
发言者 2有……
发言者 1有。
发言者 2有。
发言者 1那个可能……
发言者 2我……我不……猜测可能是我右边这个……我写提示词的时候让他以……
发言者 1嗯。
发言者 2以项目……就是以上面这些项目……
发言者 1哦。
发言者 2为……叙述……汇总的……
发言者 1哦。
发言者 2逻辑。
发言者 1所以它可能……
发言者 2新的就没有了。
发言者 1新的就不要了。
发言者 2这个要有……有可能。
发言者 1你看……你看这个……他那个……
发言者 2它那个……
发言者 1我要……
发言者 2对。
发言者 1这个……
发言者 2嗯。
发言者 1那个……
发言者 2嗯。
发言者 1这个……
发言者 2这个倒是有的都在再往下。
发言者 1那就没没没问题。
发言者 2对。
发言者 1有的。
发言者 2嗯。
发言者 1那基本……沟通耗费精力……没那么复杂。看看第四个第四个呢。
发言者 1流程……嗯……
发言者 2嗯。
发言者 1重构……
发言者 2嗯。
发言者 1那个倒有一点你告诉大家再试试。
发言者 2嗯。
发言者 1嗯。
发言者 2这好像……左边没有。
发言者 1对。
发言者 2但是它本来就带的。
发言者 1本来就带的对吧
发言者 2本来就带的。
发言者 1这个你要看它为什么它没有提取出来。
发言者 2嗯。
发言者 1再看看。
发言者 1这功能……调用 TF Skill 功能。
发言者 2这个其实就是为了……做那个……Marketplace 那个。
发言者 1嗯。
发言者 1你看未记报告吧。
发言者 2嗯。
发言者 1看到没有
发言者 2是。
发言者 1未记报告。
发言者 2有点聪明。
发言者 1对吧
发言者 2嗯。
发言者 1所以我跟你说它比你们那个……记忆力好。
发言者 2是。
发言者 1所以……因为太长了之后你们确实……没有人有耐心把它读完。就是问题其实……
发言者 2对。
发言者 1这个将来看看啊就是可能前期还是人要把那个……就所以我建议你写一个精简版的是什么呢
发言者 2嗯。
发言者 1精简版就是一个很……易读的文本。不要那种……那么多……就我跟你说实话我读那个原……原文转写的时候特别耗脑子。
发言者 2嗯。
发言者 1你知道为什么吗
发言者 2嗯。
发言者 1就它逻辑老是中断了。因为你动不动错动不动就错。
发言者 2嗯。
发言者 1就是你思路完全被打断了你就根本没办法推进。所以我后来跟你……刚才我们 Share 的那个最大的好处是什么?
发言者 2嗯。
发言者 1它几乎每个都是我们说话时候的……原风不动的给你转述。哪怕有一些语气词啊有一些那个啊它……错误得少你……读能读得下去。
发言者 2嗯。
发言者 1你知道吧
发言者 2嗯。
发言者 1所以我……我……我就说那个你把它稍微改写……改写就能成为……大家能够……很快能够……读的东西。
发言者 2嗯。
发言者 1对吧
发言者 2嗯。
发言者 1而且我跟你说这是很关键的。我……我下面给你们建议是什么呢就是你要生成一个……每个人一份的……会议纪要。
发言者 2嗯。
发言者 1就是这很快了呀。你全量生成完每个人给它一份。就是跟你相关的发言。
发言者 2嗯。
发言者 1你全部拿过来。
发言者 2嗯。
发言者 1好吧这样的话有助于你去……当你回忆不清那个……纪要……回忆不清的时候你可以回到那个版本……去看一下或者就是……你也可以……全量的那个文档就放在上面。
发言者 2嗯。
发言者 1标注好每……每个人和每个段时间。这样的话你……会议纪要里面这段时间一点回去就能看到原文。
发言者 2嗯。
发言者 1知道吧一点回去就能看到原文。
发言者 2嗯。
发言者 1这个……叫……GPT 就是这么干的。GPT 里面每一条都有它对应的时间点,一点回去就能看到你当时发言。
发言者 2会议也有。
发言者 1对会议也有对吧嗯。
发言者 2嗯。
发言者 1这个我建议到时候做一个……反正后面优化了。
发言者 2嗯。
发言者 1再往下。
发言者 1CC Switch……
发言者 2就是……这个是……左边有但是后来就删了。
发言者 1哦。
发言者 2对。
发言者 1协同架构重做。
发言者 2嗯。
发言者 1这也你也知道。
发言者 2这个可能也删了。嗯。
发言者 1天眼查需求已明确……
发言者 2那个……正好天眼查需求明确。
发言者 1现在的……现在的情况是我这边已经跟小鹏把这个接好了然后具体的技术实现然后您……前……前几次会议吧然后您也在会上提过就是说让江老师……就是出一个技术的一个方案一个时间方案然后可以帮助小鹏可以自动更新他那个……就是他那个……客户库。
发言者 2对。嗯。然后目前的话应该是江老师正在做吧。
发言者 1或者在做吧。好反正先对一下这个 Skill。逻辑思考整理……
发言者 2这个整理……
发言者 1这周……这周五要完成。
发言者 2应用。
发言者 1对。
发言者 2嗯。
发言者 1这个……这有个问题。这个错了到……
发言者 2对对对这个对原先版本也错了其实。这个错了那……
发言者 1反正……
发言者 2对。
发言者 1这个好像左边没有。
发言者 2因为我删了因为我写这个……的时候已经完成这个了。就完成了。
发言者 1对。
发言者 2嗯。
发言者 1嗯……
发言者 2嗯。
发言者 1这个……
发言者 2嗯。
发言者 1这个……
发言者 2这个倒是有的都在再往下。
发言者 1那就没没没问题。
发言者 2对。
发言者 1有的。
发言者 2嗯。
发言者 1那基本……沟通耗费精力……没那么复杂。看看第四个第四个呢。
发言者 1这个提示……所谓邮件发送。这个我当时是提的反正左边可能……删掉了。
发言者 2删掉了。
发言者 1呵呵呵。
发言者 2嗯。
发言者 1但是说……我现在就……到时候告诉你就是……你啊你下次……你可以用全量的……主上下文窗口全量做一次。我觉得你还能找到漏洞。
发言者 2嗯。
发言者 1因为你这个其实肯定信息有遗漏的。
发言者 2嗯。
发言者 1好吧。
发言者 2嗯。
发言者 1基本上……如果不……不那么复杂。其实……第四个第四个呢。
发言者 1文稿……
发言者 2嗯。
发言者 1那个倒有一点你告诉大家再试试。
发言者 2嗯。
发言者 1嗯。
发言者 2这好像……左边没有。
发言者 1对。
发言者 2但是它本来就带的。
发言者 1本来就带的对吧
发言者 2本来就带的。
发言者 1这个你要看它为什么它没有提取出来。
发言者 2嗯。
发言者 1再看看。
发言者 1这么复杂的东西啊……就是你想让……会议纪要……当然……先看啊。以后有个什么……我觉得我们会议有一个什么……就是赋予内容里面……
发言者 2嗯。
发言者 1就是……最好是一个什么状态啊
发言者 2嗯。
发言者 1你这个……我们这个会议刚开完没多久……或者就在开的过程中……你把前面的全量整理了。对吧
发言者 2嗯。
发言者 1然后……会上直接做一个确认。最好。
发言者 2嗯。
发言者 1知道吧这是最好的。
发言者 1这样的话会议成果是最清晰的。
发言者 2可以。
发言者 1因为时间上肯定来得及的。
发言者 2可以。
发言者 1嗯。
发言者 2嗯。
发言者 1再搞一个。
发言者 2不……不用。
发言者 1我就说啊后面可以弄这么一个东西出来。为什么呢就是……第一它这么复杂它完全靠它……的判断虽然非常非常困难。尤其是再判断 P0、P1、P2 这些事。
发言者 2是。
发言者 1对吧这个是最难的。
发言者 2对。
发言者 1这个……还是靠人。
发言者 2人觉得……想想想……想什么什么……
发言者 1还有一个方案是什么傻的方案就是……我每次会议上……我把会议纪要请给……就是这些东西请给……以后……人写……我……我……我自己去……在会上直接确认掉它。
发言者 2嗯。那就……那就是……直接……给到文字信息呗。
发言者 1对。
发言者 2那样也可以。
发言者 1我听不懂或者在语音上给它……信息也行。就……我们认为这个是 P0还是这个是 P1。
发言者 2嗯。
发言者 1就给它一个确认。那这样的话……
发言者 2可以。
发言者 1对对对所以会上就要……你要辅助它。你让它自己判断太难了。
发言者 2是。
发言者 1嗯。

View File

@ -0,0 +1,597 @@
发言者 1就是为什么人给他的建议是这个你看能不能推导出来这个相关的逻辑。如果推不出来就给他用。
画面内容:屏幕显示 Typora 软件界面,打开的文件名为“工程类会议纪要 2025-11-25”右侧为 Markdown 预览模式。
发言者 1嗯……
发言者 1零点八一点二。
发言者 2对。
发言者 1就是国内那个原来通常是那个不然是不是去改一改。
发言者 2这需要往那改。
发言者 1那都可以自己调整嘛是吧。
画面内容鼠标在文档中“关键决策”部分的参数0.8, 1.2)附近移动。
发言者 1这个是对的。
发言者 1这个是对的。
发言者 1负责人他负责人和那个……你看投标……进行中的那个就不一样了。
发言者 1这个是你改过吗
画面内容鼠标滚动至文档“4. 组内成员工作进展”部分,对比“已完成”和“进行中”的任务描述。
发言者 2这个是我用的是一个更更加准确的一个名称。
画面内容:屏幕保持在“组内成员工作进展”的“邮储玉”部分。
发言者 1那是两个项目完成和进行中完成就……不一样了吗
发言者 1完全是一样的呀。
发言者 1就是你看比如说完成了然后进行中的。
画面内容:鼠标在“已完成”和“进行中”的条目间上下移动示意。
发言者 1你用的是技术实现方式。
发言者 1你刚才说那个需求文档是吧
发言者 2对。
发言者 1然后技术实现方式。
发言者 1这是你自己改的啊
发言者 2对。
发言者 1OK。
画面内容:鼠标选中“进行中”列表下的“数智人需求文档及技术实现方式”。
发言者 1然后运营商的信息真推靶许。
发言者 1这不就是总确认跟你那个...
发言者 1但是明显不细……不具体。
发言者 2嗯。
发言者 1这也是你改的吗
发言者 2是。
发言者 1原来也是不具体的。
画面内容:鼠标指向“运营商信息挖掘系统需求总确认沟通”。
发言者 1我都不知道这是怎么来的。
发言者 2那个……没问题。
发言者 1没有我怎么……我就说……所以我得看下原来是什么样的。
发言者 1但是你看原来的。
画面内容:屏幕切换至浏览器窗口,显示 HackMD 页面,标题为“我的工作空间 / 工程类会议纪要”。
发言者 1原来也不知道是谁。
发言者 12号……2号……江平达……
发言者 12号……嗯这个是原来的。
发言者 1下个设计。
发言者 1也许是自己……
画面内容:在 HackMD 页面中查看历史记录或相关条目,鼠标悬停在“江平达”名字附近。
发言者 1哎呀我那个没看。
发言者 1我这……我看太快了……都下个设计。
发言者 1我都错过了那个。
发言者 1这个是我的活。
画面内容网页弹出提示框“Coming soon / 敬请期待”,随后关闭。
发言者 2这个是我的活。
发言者 1对。这是我的活。
发言者 1上……没错啊。
发言者 1我这次没错对吧
发言者 2错是没错。
画面内容:屏幕切回 Typora 文档,查看“进行中”的任务列表。
发言者 1它好像也不太对。
发言者 1你再都看一下……
发言者 1呃……比如说信息……这不在这里。
画面内容:再次切换回 HackMD 浏览器页面,查看表格内容。
发言者 1下个……这个……收到那个对对对。
发言者 1改的都是让大家都会认领。
发言者 1负责人……啊对。负责人……
发言者 1左边那个是你改的吗
发言者 2对。
画面内容:并在 Typora左侧和 HackMD右侧之间进行内容比对。
发言者 1协助完善……没必要。OK。
发言者 1这倒对的。
发言者 1视频两个P0变成P1……两个变成P1这倒对的。
发言者 1不是那个答疑系统对。也没错。
画面内容:查看 Typora 文档下方的“下周工作任务”列表,关注 P0 和 P1 的任务分级。
发言者 1搜索Skill功能调研那个大纲报告整理其实也不对的。
发言者 1但是没有写那个细……就那个细……
发言者 1我看一下上一周的。
发言者 1我都没……没提出来啊
画面内容:在 HackMD 页面向上滚动,查看“上周完成”部分。
发言者 2应该是那个没提出来。
发言者 1那确实是没提。
发言者 1没提出来。
发言者 1那你放到了那个考核……好一些。
发言者 1所以我跟你说你那个分块搜索一定会丢好多东西所以全文一定是最有效的。
发言者 1而你现在的又……又做了一次这种……加工之后再给提示词我认为也会丢的很多。
画面内容:屏幕停留在 HackMD 页面,鼠标在文本区域移动。
发言者 1知道吧。所以我建议你就还是尝试做一次全量的主上下游窗口的那个搜索。
发言者 1对吧。
发言者 1因为你……你并行都已经处理那么多次了不在乎主窗口输入输出这一次了。
发言者 2主窗口也没耗多少那个token。
发言者 1对啊。主窗口耗的还没几个并行多呢。
发言者 2对呀。
画面内容:屏幕显示 Typora 文档,光标在文档底部闪烁。
发言者 1对。然后我插一句啊就刚才说的那个是什么小童的那边的需求然后给到我的。
发言者 1那个我……我不太了解。
画面内容:鼠标在屏幕右侧空白处点击。
发言者 2就是那个天眼查。
发言者 2就是上次呃开会的时候联通说让你然后后续的话可以做一个就是帮助小童自动更新她那个天眼查客户呃那个数据库的那个的一个技术实现的一个方式。
发言者 2然后当时联通也跟你说了。
发言者 1对对对。
画面内容:屏幕画面未发生显著变化,仍显示 Typora 文档。
发言者 1那个是这样了后来我记得是这样啊回头再说吧。
发言者 1这个是后来……后来是说……说她不需要嘛我记得。
发言者 1后来现在……对你再确认一下她这个自动更新她要不要。
发言者 1好吧因为她说她现在也不需要每天更新那么多次了我记得。
画面内容:打开 Windows 图片查看器,显示一张流程图,标题包含“工程类会议纪要 SKILL 执行流程图”。
发言者 2对。后续小童她反正她没有跟我反馈过。
发言者 1行。行啊。对。所以你……所以你再确认一下。
发言者 2好的。
发言者 1那我先走。
发言者 1看看你的……看看你的那个那个文档。
画面内容:关闭图片查看器,回到 Typora 界面。
发言者 1呃……不需要确认不需要……呃……呃……
发言者 1你看阅读……你看那个阅读……
发言者 1左边反而少了一个。
发言者 1是吧
发言者 2嗯。
发言者 1对。
画面内容:在 Typora 中对比左右两侧的文本列表。
发言者 1搜集……OK……看看……看那看那……那个……输入的数据。
发言者 1那个……嗯。
发言者 1那都改了。
发言者 1确认……Cosmos对。
画面内容滚动查看文档中的“Cosmos 文档翻译”相关条目。
发言者 1Cosmos那个……输出……那个……应该有的。
发言者 2嗯。
发言者 1你看那个分类那个看。
发言者 1负责人……进行中……啊他这个是按照你周报写的判断他完成了。
画面内容:查看“进行中”的任务状态。
发言者 1嗯。对吧其实根据会议纪要他没完成。
发言者 1是吧
发言者 2嗯……嗯……
发言者 1一九文档其实肯定改了。
发言者 1他后来没……真……他自己把它改成完了吧。
发言者 1是吧
发言者 2对。
发言者 2嗯。
发言者 1他的逻辑判断上……
画面内容:鼠标高亮显示相关文本行。
发言者 1有点矛盾。你得矛盾。
发言者 1输入日报日报汇总。
发言者 1这个倒是有。
发言者 1是吧
发言者 1日报的模……模板。
发言者 1日报驱动当时上面你看他没有总结出来日报驱动。
发言者 1就是你这一版里面上面没有日报驱动这个东西。
发言者 2嗯。对。下面有。
发言者 2这可能是日报里。
画面内容:对比文档上下的“日报”相关条目。
发言者 1有可能。
发言者 1对。所以这个逻辑可……可能还是不全的。
发言者 2嗯……嗯……
发言者 1公众号网站……以前的内容。
发言者 1没有。嗯应用那个没有。那个上面没有。
发言者 1是吧
发言者 2上面也没有。
发言者 1文档这种东西。
发言者 1负责人……只能调研报告有。
发言者 1他不太懂。
发言者 2嗯。
发言者 1所以公众号……这个需求没有。
发言者 1左边没有。
发言者 1左边没有。
画面内容:查看关于“公众号”的任务条目。
发言者 1调用思路……两步去调。
发言者 1不需要……这个法子不对。
发言者 1去调这个Skill……也调到第一了。
发言者 1是吧
发言者 2嗯。
发言者 2嗯。
发言者 1去调这个……去调Skill优化啊……当时是让他做……
画面内容滚动至文档下方的“P1 搜索 Skill 架构调研及优化设计”。
发言者 1这个您当时让我发给江老师了吧。
发言者 2啊……有可能。
发言者 1对。可能……直接为……直接……直接为P0了。
发言者 1但是那个变成他们的P0了。
发言者 2对。对。
发言者 1你想这逻辑多复杂。
发言者 2对对。
发言者 2他怎么判……怎么数啊。是吧
发言者 2对。
画面内容:鼠标指向 P0 任务列表。
发言者 1这里面……逻辑肯定是有冲突。或者是没有。
发言者 1你看左边提取出来了测试推动但是……神丹成动放到了P0他是放到了P1。
发言者 1是吧
发言者 2嗯。
发言者 1那以前……是没有了。
画面内容:对比左右两侧关于“测试”任务的优先级。
发言者 1嗯。下周任务完成批量删除功能……这个……没有……这个不对。
发言者 1反正有……当时是给了这个要求。但后来不需要了。
发言者 2嗯。
发言者 1那就先……先保留吧。大概理解他的逻辑。
发言者 2嗯。
发言者 1日报启动也没有。都没有。
发言者 1服务器采购方案肯定没有。
画面内容:查看文档下方的“服务器采购方案”。
发言者 1服务器采购方案你上面是有的。
发言者 1上面是有的。
发言者 1对的。
发言者 1啊没有正常。
发言者 1你看服务器采购方案是……是江平达……右边。
发言者 1是江平达负责。服务器采购方案。
画面内容:在文档右侧找到“服务器采购方案”,负责人显示为“江平达”。
发言者 1嗯。上面是有。
发言者 1是是他是负责吗
发言者 1对对对但是林……林一民。
发言者 1对吧
发言者 2对对对。
发言者 2林一民没错。
发言者 2嗯。没错。
发言者 1没给他。
发言者 2对。没给他。
发言者 2嗯。
发言者 2对。
画面内容:确认负责人的名字。
发言者 1嗯。看总结。看总结吧。哪怕能……嗯。
画面内容:滚动至文档底部的“三、会议总结”。
发言者 1这个第二个里面的那个逻辑还没写进去了。
发言者 1是吧
发言者 2嗯。
发言者 1你这必须参考会议转写。
发言者 2嗯。嗯。
发言者 1嗯。没写进去。
发言者 1就是那个……怎么对。
画面内容:阅读“会议总结”部分的文本。
发言者 1这种……嗯。
发言者 1数据库更新……嗯……嗯……那个不动了。
发言者 1基础数据库更新……Skill那个管理……管理那个没动了。
画面内容:查看关于数据库和 Skill 管理的总结条目。
发言者 1嗯……嗯……一……一一映射。
发言者 1投标文件……那个也没……没放进来。
发言者 1左边投标文件没放进来。
发言者 1是吧
发言者 2嗯。
发言者 1右边也没有。
画面内容:检查是否包含“投标文件”相关内容。
发言者 1嗯。那个那个……通常……那个。
发言者 1需求开发Skill。
发言者 1全部……不是全量的。
发言者 1那也是个……嗯。
发言者 1对吧总的来说你上面是有进步了啊。
发言者 2嗯。
画面内容:鼠标在屏幕上随意滑动。
发言者 1另外一个你自己最好再做一次跟上一次直接总结出来那个文档你原文那个对比。
发言者 2嗯。
发言者 1是吧
发言者 2嗯。
发言者 2行。
发言者 1基本差不多了那整个逻辑……呃可以先这么固化下来然后先这么用吧。
发言者 1好吧。先这么用。
发言者 1用的……但是……就我给你的建议就是刚才那些建议你去再修改一下。我觉得差不多就都是这样子。
画面内容:屏幕画面静止在 Typora 文档界面。
发言者 1那么最核心的几个都更改啊。
发言者 1第一整个的文字转写换成Gemini这个我们就拿这个试试。
发言者 1文字转写换成Gemini来做。
发言者 1第二个做了那个之后呢做一个……就你可以让Gemini直接生成那种叫……全量版的但是不是逐字转写的。
发言者 1就是把核心……主要的……就是语气连贯的、没有错误的那个文字稿把它拿出来。拿出来。
发言者 1这个是作为以后的所有的输入。
发言者 1好吧
画面内容:打开 Windows 资源管理器,进入 `AA_Work_DeepResearch` 文件夹。
发言者 1第二个就是在那个基础上做一次全量的主上下游那个。
发言者 1Prompt加上这个处理后的文档或者一次性按照你那个Prompt原则。
发言者 1你把Prompt就……其实把Skill全部写到那个……主Agent里面去就完了。
发言者 2嗯。
发言者 1就Skill全部写到主Agent里面。
画面内容:在 VS Code 中打开 `req_auto_consolidator.md` 文件。
发言者 1对吧就是把那个……你等于把Subagent里面的所有逻辑映射呀什么这些东西变成一个Skill文件。
发言者 1放到让主Agent去读这个Skill就完了。
发言者 2嗯。
画面内容:屏幕显示 VS Code 编辑器界面,显示 markdown 代码。
发言者 1对吧这样试一次。我觉得效果不一定会差。
发言者 2嗯。
发言者 1不一定会差。
发言者 1好吧
发言者 1呃……或者就拿这这……这次这个做一次对比看看。
发言者 1然后再拿我们这次生成的好的文字稿再做一次两边的对比。
发言者 1这俩个对比完了差不多就能够确定是主上下文来处理全量的还是要用Subagent来处理。
画面内容:切换至 `requirement-generator-v1` 文件夹下的 `开发文档.md`。
发言者 1好吧。现在呢我们有个执念我有时候也有问题的。我对你们上下文要求太高。
发言者 1之后每个人……把主窗口……我都觉得得干干净净的。
发言者 1呵呵。这是个执念啊。
发言者 2强迫症。
发言者 1对吧。对不一定准确。
发言者 1就是……但凡能够在主上下文窗口里处理好的就全部放到主上下文窗口。
发言者 1因为我们不是一个长连续工作的上下文继续。
发言者 2嗯。
发言者 1那个这种或者叫工作继续。如果是连续工作的你这方法一定是对的。
发言者 1因为上下文要越来越……
画面内容:预览 Mermaid 流程图显示多个阶段Phase
发言者 1所以你看有个人前两天做了一个非常有意思的就是强制每个Subagent只能工作十五分钟。
发言者 1超过十五分钟的算全部中断然后把你的工作产出扔给下一个Agent。
发言者 1不允许超过十五分钟上下文。
画面内容:在流程图预览中查看详细的节点和连线。
发言者 1跑上下文人就乱了。
发言者 2嗯。
发言者 1就我们现在人能连续工作八个小时。我们的上下文系统基本还是连贯的啊。
发言者 1甚至还可以拖到第二天。它不行啊。
画面内容:鼠标在流程图上移动。
发言者 1嗯。是吧
发言者 2嗯。
发言者 1好啊。那这个就先这样。好吧
发言者 1所以整整体的这个处理方案呢大概总结一下就是这样。
发言者 1当然再去总结一下它们出现的宏观的那这些问题的共同点。
发言者 1比如说在这个地方哎逻辑没清楚啊什么。
画面内容:切换回 Typora 的编辑界面。
发言者 1其实总结的目的总结出现的问题的目的是为了第一看看用什么样的解决方案。
发言者 1就是让它自己修改靠Prompt能修改还是靠人来帮它帮助它。
发言者 1知道吧所以现在它……就我们一定要记住它现在想完全脱离人是不可能的。
画面内容:滚动查看文档内容。
发言者 1但是人在什么地方给到最关键的帮助给它最有效。是我们要做思考的。
发言者 1啊你比如说在会上强调一下P0 P1这件事情给它帮助就很大。
发言者 2对。
发言者 1为什么它这个逻辑是真的很难很难去分析的。
画面内容:再次查看 Mermaid 流程图的复杂结构。
发言者 1好吧。因为你看它不知道你们每个人的年龄。它不知道你们的级别工作时间长短。
发言者 1对吧等等都不知道情况下。
发言者 1这些都作为我们的潜意识的上下文。
发言者 2嗯。
发言者 1知道吧你工作时间长我给你分配的任务和你工作时间短分配的任务不一样。
发言者 1对不对而且工作这优先排级也不一样啊。
画面内容:屏幕停留在复杂流程图的概览上。
发言者 1好吧。所以这些潜上下文它是没有的。
发言者 2嗯。
发言者 1我们也没有办法给它。太多了。
发言者 2对。
发言者 1好吧。所以也可以尝试着慢慢去给它。把这些潜在上下文变成显性上下文把它显性化出来。
发言者 1但是这个……也不见得就都对。
发言者 2嗯。
发言者 1这只能进步。所以它是在不断不断进步的。
画面内容:鼠标在屏幕上画圈示意。
发言者 1好不好
发言者 2嗯。啊。
发言者 1所以就是说……就把这些问题提取出来看用什么样的方式帮助它。
发言者 1好吧我先走。
画面内容:关闭当前窗口,回到桌面。
发言者 1需求Skill……需求Skill……加入了这个……
画面内容:打开 Windows 资源管理器,进入 `AA_Work_DeepResearch` -> `req search skill-test-v3` 文件夹。
发言者 1好像……这个……这个之前好像比较多。
发言者 1你应该……
画面内容:打开 `requirement.md` 文件。
发言者 1没有。其实就直接一个大粗箭头所有产出的。
发言者 2啊对。
发言者 1你这样最清晰。
发言者 2确实。
画面内容:在 Typora 中查看 Mermaid 代码生成的流程图。
发言者 1只是没经过……它当时只想只想突出就是其他专家……其实自己的也在里面。
发言者 1对吧
发言者 1所以你弄啊一个大粗箭头下来也就最准确了。
发言者 2是。是是是。
发言者 1对。就是所有的都是全量的过来。
发言者 2对。
画面内容:指着流程图中的“开发专家评价”、“产品经理评价”等节点。
发言者 1对。下面的那个也是大粗箭头吗
发言者 1下面是一个……交叉的回忆。
发言者 2对。
发言者 1其他人是它自己的都过来了。
发言者 1也过来了。
发言者 1那就还是个大粗箭头啊。
发言者 1对吧
发言者 2是是是。
发言者 1就是所有的都是全量的过来。
发言者 2对对对。自己找自己的。
发言者 1就是根据提示词提示去找。
发言者 2OK。
画面内容:指着流程图中汇聚到“决策模式”的箭头。
发言者 1然后之后就评完之后它会……呃……在那个Json里面就是写明这个这条评价是针对于哪个专家的那条那条目的的评价。
发言者 2OK。
发言者 1然后嗯就方便第二轮就是交叉回应的时候那个专家能知道哪些意见是针对我的。
发言者 2对。然后再回应。
画面内容:解释 JSON 数据结构和交叉回应的逻辑。
发言者 1针对其他三个专假设啊那三个专家都回应了。
发言者 2嗯。
发言者 1我给这个专家评论那个专家评论1专家2专家3专家我都给了评论。
发言者 2嗯。
发言者 1这个时候你是把这个评论全部给到所有专家自己去选呢还是你把它单独已经摘出来给它
发言者 2没摘。没摘。现在没摘。
画面内容在流程图的“第2轮博弈 交叉回应”部分比划。
发言者 1OK。那这都还是全量的。
发言者 2对。
发言者 1都让它自己针对这个去读。
发言者 1对吧
发言者 2对对对。自己找自己的。
画面内容:确认数据流向是全量的。
发言者 1无发言
画面内容:打开 Windows 资源管理器,路径为 `Windows-SSD (C:) > Users > 10120 > .claude`。
发言者 1无发言
画面内容:在 `.claude` 文件夹中寻找文件。
发言者 1无发言
画面内容:在 VS Code 中打开 `SKILL.md` 文件,随后切换到 `requirement-generator-v1` 目录下的 `开发文档.md`。
发言者 1那个调用形式当时我觉得还是很……很怪的。
发言者 1或者是它的……么……这么复杂的。
发言者 2也不算死啊。就是箭头多。
画面内容:查看 Mermaid 流程图代码。
发言者 1之前是到到了这里……就是这是之前的。
发言者 2嗯。
发言者 1就用户把需求先访谈然后选择进入评审。
发言者 1这是进入多角色评审。
发言者 2嗯。
发言者 1然后之前是独立评审。
发言者 2嗯。
发言者 1就是每个人自己做一……对对对自己做。
发言者 1做完之后扔出来扔出来了。
发言者 2对。扔出来。
画面内容鼠标在流程图的“阶段1-4”部分移动。
发言者 1扔出来之后就是就到这点。
发言者 2嗯。
发言者 1就是每一个呃专家会评价其他三位专家的评审意见。
发言者 1就给出一个Suggestion。
发言者 2对。
画面内容:指向“阶段 6: 多角色互评”部分。
发言者 1哦。因为因为子Agent它不太可能连贯的去读。
发言者 2嗯。
发言者 2对。
发言者 1所以它……就是它各自等各自的话。
发言者 2对。对。
发言者 1所以就就让它们都输出。
发言者 1都输出之后然后再……再再调用。
画面内容:解释子 Agent 的工作机制。
发言者 1再调用它会加载加载自己的定义然后加载自己原先的评价。
发言者 1就是自己原先的立场。
发言者 2原来的立场。对对。
发言者 1然后评……看三位专家的。
发言者 2对。
画面内容:指着流程图中的数据流向。
发言者 1然后之后就一样了。就是博弈之后就是决策。
发言者 2对。
发言者 1有有变化不是。我我录了个视频。也有结果。
发言者 1你可以看视频还是只看结果。
发言者 1看结果吧。
发言者 1大概明白我再看视频。
画面内容:打开 Windows 资源管理器,进入 `AA_Work_DeepResearch` 文件夹。
发言者 1这个是Final。这两个Final。
发言者 1这就之前那个Final和经过多轮的Final。
画面内容:选中 `requirement.md` 和 `requirement_final.md`。
发言者 1呃……之前那个Final没有的。
发言者 1有是有但是它因为是两次执行过程。
发言者 1我给到它的判断和上下文可能不太一样。
发言者 1哦。
发言者 1那先看看。先参考。
发言者 2对对对。对那个。右边是新的。
发言者 2嗯。
画面内容:在 Typora 中左右对照打开两个 Markdown 文件。
发言者 1差不多。
发言者 1你看……加了一个能够生成……的工具参考。
画面内容:对比文档开头的“文件版本”和“功能描述”。
发言者 1嗯……太自动了。
发言者 1不我的意思是你这测试嘛。
发言者 2嗯。
发言者 1就使用的时候一定是他们……他们就。
发言者 1那你能测试的时候你给的这些……嗯……
发言者 1另外一个其实只为了我们开发非专业领域外的这个……第一版需求。
画面内容:阅读文档正文。
发言者 1你你通过专家给出第一版需求之后他能就像它左边有一个需求列表的这个对照。
发言者 1它自己可以改。
发言者 2第一版。
画面内容:查看文档左侧目录结构。
发言者 1它俩不一样的。
发言者 2对。
发言者 1这个倒是重复了。
发言者 2嗯。
发言者 1你看往上走我就给分那个目标和价值。怎么判断是吧
发言者 2嗯。
发言者 1目标和价值其实很难其实差不多的。
发言者 2嗯。
发言者 1但是左边最大的好处就是它给了一个量化。
画面内容:对比“目标与价值”部分,左侧文档包含量化指标。
发言者 1对吧给了一个量化。但这量化靠不靠谱不知道。
发言者 2嗯。是觉得。
发言者 1但是右边量化没有了但是给了目标客户了。
发言者 1对吧用户风险提示了。
发言者 2嗯。
发言者 1而且如果你看啊它里面它挺有挺有一些说法。这……你看它这全是一些断……
画面内容:对比文档右侧的“目标客户”和“风险提示”部分。
发言者 1结构化的报告。
发言者 1明确准确逻辑清晰回答清晰。
发言者 1现有不能支持这说明确实说明不能支持过内容。
发言者 1就是我我给它。你给它背景。
发言者 1你从哪里给它Add something。
发言者 1哦。
画面内容:查看文档中的具体条款和说明。
发言者 1你这个不是个精神疾病的那个吧。
发言者 2也是。
发言者 1你晚上那个。
发言者 2也是。也是。
发言者 1也是我给它。
发言者 2对也是我给它。
画面内容:确认项目背景。
发言者 1但就这就这边就不太参考了是吧。
发言者 2嗯。太自动了。
发言者 1它这边是……对。参考外部数据和依赖。
发言者 2对。
画面内容:查看“外部系统与数据依赖”章节。
发言者 1嗯……分析……现有知识库。
发言者 1是……
画面内容:查看“系统集成需求”章节。
发言者 1数据库……不动了。
发言者 1基础数据库更新……Skill那个管理……管理那个没动了。
发言者 1先做的是知识库的更新。
发言者 2外部的搜索没有。没有。
发言者 1就是先分析现有的知识库。就是之前增量更新好的那个世界模型。
发言者 1然后如果有的话就根据它然后去判断再去生成研究任务。
画面内容:在 Mermaid 流程图中查看数据处理顺序。
发言者 1这个并行多数据搜索是……就是那些Pubmed什么的。
发言者 2嗯。
画面内容:指向流程图中的“并行多数据源搜索”。
发言者 1这个增增加是……这个是……
发言者 2它增加是我在那个问题时候选择了提问就是交互。
发言者 2然后我问它哪哪种组合方式是最全的。
发言者 2然后我选了它给了最全的那个方式是不是行。
画面内容:查看“异常与分支处理”部分。
发言者 1你想过没有其实你完全可以模拟一个这样的Agent来回答它。
发言者 1因为你不是基……你不是这个专家。
发言者 1你就继续被模拟一个就是专家。去权。让它自动化下来。
发言者 2嗯。太自动了。
画面内容:滚动查看文档末尾,会议视频结束。

View File

@ -0,0 +1,336 @@
以下是根据视频内容提取的详细信息,包含逐字发言和画面变化记录:
### 00:00 - 04:54 文档评审阶段
**发言者 A**:就提出来了。
**发言者 B**:嗯提出来了。
**发言者 A**:它是给个选项。
**画面内容**:屏幕显示文档 `requirement_final.md`,界面为 Typora。当前展示 "6.3 Agent间协作关系" 流程图包含主协调Agent、检查Agent、分析Agent、知识图谱Agent及报告生成Agent的指向关系。
**发言者 B**:有选项了。
**发言者 A**:有选项。他给了四个选项。就是这四个都有。
**发言者 B**:我以前简单看了一下,记得这回重看录像啊。
**发言者 A**:可以。这个主协调 Agent 是我提出来的。
**画面内容**:屏幕向下滚动,显示 "7. 分阶段交付计划" 及 "7.1 阶段1MVP版本" 的内容。
**发言者 A**:分阶段交付,这是他问了一下。
**发言者 B**:问完了。分析完了,这变了。
**发言者 A**:就是主 Agent 来规划有没有错误任务,所以他也是给...
**发言者 B**:对吧。这是分...等一下,这两个都是主 Agent 吧?
**发言者 A**:不,分析... 呃... 对,都是主 Agent。
**发言者 B**:这两个啊?所以这两个都是主 Agent 的任务?
**发言者 A**:对。
**发言者 B**:那主 Agent 分析完之后给到它。
**发言者 A**:对。
**发言者 B**:然后,它反馈完,更新完之后,反馈给它。
**发言者 A**:先分析...
**发言者 B**:就直接给分析了?
**发言者 A**:对,先分析。
**发言者 B**:不反馈到主 Agent 了?
**发言者 A**:先不回。
**发言者 B**:也不回复了?
**发言者 A**:呃... 它更新完之后会回复。
**发言者 B**:这这都有问题。其实主... 这里面可能都需要主 Agent 的东西。
**发言者 A**:呃...
**发言者 B**:对吧?
**发言者 A**:分析 Agent 直接改成主 Agent。
**发言者 B**:对,都有可能。对。他要不要去更新知识图谱,谁来判断?这是一个很重要的分... 流程啊。
**发言者 A**:呃... 他做个分析就更新了。
**发言者 B**:是吧。所以我觉得主 Agent 它其实在每一个子 Agent 之后都要做个判断的。都要做下一步动作的判断。
**发言者 A**:只是... 分析 Agent 可能只是... 涵盖在主 Agent 里面。
**发言者 B**:对。所以说,这个 Agent 流程还得好好思考。
**发言者 A**:这是... 这是我的问题。
**发言者 B**:好。这是我们问题。
**发言者 A**:我的问题。
**发言者 B**:分析 Agent 没出来,这个是他... 特别指出的。
**发言者 A**:嗯... 是。这这都是我写的。
**画面内容**:屏幕继续向下滚动,显示 "7.2 阶段2完整版本" 及 "7.3 阶段划分说明"。
**发言者 B**:这个,知识图谱类型,他给我出了四个,我都选了。
**发言者 A**:这个咱得想想。这个你得想想,这个知识图谱,你得受累想想。他其实是属性。
**发言者 B**:嗯。
**发言者 A**:我觉得属性特别重要。
**发言者 B**:对,实体关系,他只跟属性给。
**发言者 A**:对,就是属性表。是吧。我现在觉得那个属性特别重要。
**发言者 B**:嗯。
**画面内容**:屏幕滚动至 "8. 技术约束与非功能性需求",鼠标在 "技术描述性要求" 部分划过。随后快速滚动经过 "8.2 性能要求"、"8.3 安全要求"、"8.4 其他非功能性要求" 及 "9. 验收标准"。
**发言者 A**:对,这是我的错。
**发言者 B**:看一下那个 Agent。
**发言者 A**:那个生成的。
**发言者 B**:还有把那个多专家那个评估的过程看一下。
**发言者 A**:在后面。
**发言者 B**:你那个... 刚才那个文档全部都是 Claude 生成的?
**发言者 A**:对。对。
---
### 04:55 - 11:39 观看 Agent 运行录屏
**画面内容**:关闭 Typora 文档,打开 EVPlayer录屏软件加载并播放一个视频文件。视频内容显示的是一个代码编辑器VS Code终端界面正在运行 Claude Code。
**发言者 A**:这是我问他的。
**发言者 B**:打字打得好快。
**发言者 A**:啊对,这个对对对。
**发言者 B**:你看他有这个 Thinking 是思考的过程。
**发言者 A**:对。
**发言者 B**:这是一个,你选... 选多 Agent 架构。
**发言者 A**:要多 Agent 协作。
**发言者 B**:对。
**发言者 A**:是。多 Agent 协作。
**发言者 B**:问题他去解答。回答,箭头后面说。
**发言者 B**:这个是他给你的。
**发言者 A**:对,他给你的。
**发言者 B**:绿的是他给你做的判断。
**发言者 A**:嗯。
**发言者 B**:对。你看。
**发言者 A**2。
**发言者 B**2。
**发言者 A**:我给他...
**发言者 B**2。我给他方法论。
**发言者 A**:方法论。指导他去...
**发言者 B**:对。
**发言者 A**:嗯,就是我给他的。
**发言者 B**:问他知不知道。
**发言者 A**:确实。所以...
**发言者 B**:确实。
**发言者 A**:然后这就是他提的那些知识图谱。我觉着... 我觉得还都挺有用的。而且会指出一些新的咱没想到的。
**发言者 B**:对。对。
**发言者 A**:是的。
**发言者 B**:这个确实我们...
**发言者 B**:那个,我这个你也发... 那个什么... 你看,如果有一个特别牛的...
**发言者 A**:嗯。
**发言者 B**:比我们经验丰富的人回答得肯定比我们要回答得好。
**发言者 A**:啊,确实。
**发言者 B**:对... 对。
**发言者 A**:所以在第一版的需求文档生成的时候可以尝试用 AI。
**发言者 B**:嗯。
**发言者 A**:行。你就知道你怎么来模拟这个人。
**发言者 B**:是吧。他其实完全可以...
**发言者 A**:甚至说明比我们还要...
**发言者 B**:比我们全面。
**发言者 A**:但这个人可能有点全面。
**发言者 B**:对。
**发言者 A**:呃...
**发言者 B**:你看... 你给他... 这个主 Agent 也就是它上来没有做任何的...
**发言者 A**:任何的规划也没有。
**发言者 B**:也没有做 Agent... 不是主 Agent。需求的只要的大框架。
**发言者 A**:没有。没有限制。就是 Claude 自己。
**发言者 B**:给的种... 呃...
**发言者 A**:有我的方法论。访谈的方法论。
**发言者 B**:你放在哪里?
**发言者 A**:我放在... 有窗口里啊。
**发言者 B**:在指令里一上来?
**发言者 A**:呃不是一上来,就是他会先判断项目类型嘛。判断项目类型完,确认之后,确认这个项目之后,他就会加载这个项目对应的方法论作为访谈的方法论。
**发言者 B**:那 skill 里面?
**发言者 A**:对,在 skill 里面。
**发言者 B**:嗯。
**画面内容**:视频中的终端界面显示 `Running`,然后出现 `User answered Claude's questions`。
**发言者 A**:哦对,我才发现。这个 type something他需要输入完之后等一两秒钟再给... 去 next。
**发言者 B**:否则...
**发言者 A**:否则他就会丢失后面。
**发言者 B**:哦...
**发言者 A**:这是我新发现的。
**发言者 B**:你我点太快了...
**发言者 A**:装那个... Claude 的那个最新版本 G Mac 的,它是不... 不依赖 NPM 了。
**发言者 B**:不依赖那个...
**发言者 A**node 来装了。
**发言者 B**:嗯。现在我发现啥问题你知道吗?我第一轮对话总是不通的。但是我把那个 VPN 给他里一切...
**发言者 A**:对。
**发言者 B**:我那天你知道这个问题我找了多长时间吗?
**发言者 A**:我操。
**发言者 B**:只要第一轮总是卡在那。
**发言者 A**:哦。
**发言者 B**:然后我把网络真... 我那天查了一晚上。查了晚... 我那天一夜,大概有三个小时在搞这个问题,全部搞定。还有很奇怪。
**发言者 A**:嗯。这这...
**发言者 B**:反正我那个版本这就是... 比较好。
**发言者 A**:是。
---
### 11:40 - 26:34 JSON 文件评审阶段
**画面内容**:退出视频播放,打开 Windows 文件资源管理器,进入 `temp` 文件夹。选中 `evaluate_dev.json` 并在 VS Code 中打开。
**发言者 B**:呃... 要 evaluate。
**发言者 A**evaluate.
**发言者 B**:评估。你想看哪个?
**发言者 A**:看那个 dev。
**发言者 B**dev。
**发言者 A**dev.
**发言者 B**:嗯。对。这被开发专家提出来的。
**发言者 A**:对,对开发专家这条意见提出来的。
**发言者 B**:目标内容,这就是他... 开发专家这条意见原本是什么。然后他的 comment 是怎么... 不同意是吧。
**发言者 A**:嗯。
**发言者 B**:这个可能是,我给他的一个总体指导是... 是...
**发言者 A**:呃...
**发言者 B**:是是我给他一个总体指导,是要根据... 不能背离用户的原始需求。就是我给他的唯一的... 呃... 唯一的做方法论指导。对评审方法论指导。然后后面就是...
**发言者 B**:然后生成了上下文档。
**发言者 A**My comment 是你的...
**发言者 B**My... My comment 是他... 对这个 target content 的评价。
**发言者 A**:这个评价。
**发言者 B**:对。
**发言者 A**:我以为是你的评价。
**发言者 B**:他的评价。
**发言者 A**:这种方面你可以不问了。
**发言者 B**:嗯。
**发言者 A**:对比分析。
**发言者 B**:对比分析。
**发言者 A**:是吧。
**发言者 B**:对。
**发言者 A**:它是支持英文文献的中...
**发言者 B**:中英文混合报告。
**发言者 A**:中英文混合报告。
**发言者 B**:对,这个...
**发言者 A**:他的理由是...
**发言者 B**:对,对。他的理由。
**发言者 A**:这种方面你是 product。
**发言者 B**Product.
**发言者 A**:你看 product 没提这一条。
**发言者 B**:是吧。
**发言者 A**:对。
**发言者 B**Product.
**发言者 A**:咱们先看谁在 focus。
**发言者 B**:咱们想看谁在 focus。
**画面内容**:在 VS Code 中切换文件,查看 `review_domain.json` 等其他文件。最后切换到 `consolidation_report.json`(整合报告)。
**发言者 A**:嗯... 我看看... 那边那个 story。
**发言者 B**Story.
**发言者 A**Story.
**发言者 B**:呃... 最后一个。
**发言者 A**:这里的 story 是指 user story 吗?
**发言者 B**Story.
**发言者 A**Final issues.
**发言者 B**Final issues.
**发言者 A**:应该是别人给他提出来的那个 bug。
**发言者 B**:或者 suggestion。
**发言者 A**:这个没细看。
**发言者 B**:不... 我也没这格式看不懂啊。
**发言者 A**:嗯。
**发言者 B**:比较乱,格式是 json 串。
**发言者 A**:嗯。
**发言者 B**:你看 issues 1。
**发言者 A**Modified.
**发言者 B**Modified.
**发言者 A**Unanimous.
**发言者 B**Unanimous.
**发言者 A**:支持专家。
**发言者 B**:对,你看。
**发言者 A**:专家没区分。
**发言者 B**:这专家就是没区分。
**发言者 A**:没分。
**发言者 B**:对。
**发言者 A**:没分。
**发言者 B**:这就是我们家... 咱们那个...
**发言者 A**:嗯... 这个... 这个没分。
**发言者 B**:没分。
**发言者 A**:是吧,没分。
**发言者 B**:嗯。
**发言者 A**:也没分。
**发言者 B**:那么分项...
**发言者 A**:分项项目。
**发言者 B**:好了。
**发言者 A**:记得刚才,你看每个专家都提出了好多项目。
**发言者 B**:嗯。所以这个...
**发言者 A**:这是最后的一个...
**发言者 B**:这是一个综合。
**发言者 A**:嗯。
**发言者 B**4 个专家,每个人我看至少提了有三到四个,都不止。每个都不止,每个人都提了三到四个。
**发言者 A**:嗯。
**发言者 B**:也就是它乘出来是三个就是十个左右。
**发言者 A**:嗯。
**发言者 B**:乘上 4 应该 40 个左右。
**发言者 A**:嗯。这可能... 14 个。这才是... 主 Agent 读的可能不太全。
**发言者 B**:嗯。
**发言者 A**:嗯。
**发言者 B**:所以这可能就是要评估或者说... 必须... 判断一下... 它有这个过程和没这个过程... 到底... 带来了怎样的一个... 评... 评分质量的能力。所以要把那个什么... 以后要把那个所有的... 干脆直接...
**发言者 A**:嗯。
**发言者 B**:你下一次可以把它那个评估意见... 和最后的相应的那个打成一篇文档,把它整合的不要 json 文件了。你把所有的这些东西整合一问一答。
**发言者 A**:嗯。
**发言者 B**:就把它整合成...
**发言者 A**:啊,行。
**发言者 B**:对,这样的话你就知道它这个发生了什么。
**发言者 A**:哦,专家之间发生了什么。
**发言者 B**:你就看他这个水平够不够。如果评估的水平不够... 就不需要了。
**发言者 A**:对吧。因为你我们是没看到响应的。我只看到他提问了。
**发言者 B**:嗯。
**发言者 A**:对吧,我们看他提问和响应的水平到底对应不对应得了。如果对应对应不起来,那就没有必要增加这个。或者对应的不好也没有必要增加。
**发言者 B**:好吧。然后他如果对应响应的好,保留的保留,扔掉的扔掉,那最后我们看他保留下来的是什么,然后最后在需求文档里体现出来这去没。
**发言者 A**:嗯。
**发言者 B**:不然的话这过程没法... 没法确认。
**发言者 A**:好的。
**发言者 B**:所以说多专家博弈这个呢,我个人理解,将来是一定有... 有效果的,但是现在的 prompt 可能没写好。
**发言者 A**:嗯。这 prompt 可能是没写好。不大容易写。
**发言者 B**:这是基于专家经验的。
**发言者 A**:嗯。这个专家经验可能...
**发言者 B**:对。
**发言者 A**:好了。这个里面可能要最后要几个... 就是你每个领域的专家... 自己把自己找人去把这个 prompt 给写了。
**发言者 B**:或者去调查一下。
**发言者 A**:嗯。
**发言者 B**:去调查一下。嗯。对这个... 定义这个 Agent 实际上挺难的。
**发言者 A**:是的。
**发言者 B**:可是我觉得 Agent 里面最重要的... 首先第一个就是... 你看那 Agent ... 说不好听就还是 MD 文件。
**发言者 A**:对。
**发言者 B**:对不对,你这个 MD 文件写的好坏... 其实... 就证明决定了他的这个能力的边界了。
**发言者 A**:是的。是的。
**发言者 B**:对吧。嗯。
**发言者 A**:好吧。那这样吧。
**发言者 B**:嗯。
**发言者 A**:好像那个我这周就... 嗯... 没什么...
**发言者 B**:然后就是这俩事。那个... 那个那个那个什么... PDF 那个文件那个需求写... 这回分不到这儿来是吧?
**发言者 A**:啊那个都写完了,然后人家也都在确认了,现在已经发给旭龙了。你那边能看见吗?
---
### 26:35 - 视频结束 会议纪要回顾阶段
**画面内容**:切换到另一个 Typora 窗口,显示文档 "工程类会议纪要 (2025-11-25)"。内容包含 "1. 重点项目进展情况汇报" 和 "3. 下周工作安排" 表格。
**发言者 B**:等会儿,回到那个... 那个那个...
**发言者 A**:没有。
**发言者 B**:对照一下上... 啊对。上周的工作计划。
**发言者 A**:上周的工作计划... 就咱们刚才整理出来的。或者是就咱咱... 咱改一下。
**发言者 B**:不知道。上周都会议纪要。
**发言者 A**:上周的会议纪要...
**发言者 B**:就咱们刚才整理出来的。
**发言者 A**:对。
**发言者 B**:那个是... 自动生成工具那个整理。
**发言者 A**:对。但这个是等... 保留下来。
**发言者 B**:不能扔。
**发言者 A**:扔掉好多。以前都扔掉了。
**发言者 B**:知道吧。
**发言者 A**:嘿嘿。
**发言者 B**:所以这个是一个... 你这样的肯定话,你就会... 如果你这周会议纪要,我们开会是这样的话,你这个问题以后就永远会被扔掉。
**发言者 A**:对。
**发言者 B**:因为这再再里头体现不出来。因为讨论也没讨论。会议转写里面也没有。
**发言者 A**:嗯。
**发言者 B**:讨论也没讨论。这周的周报你的周报里面也没有。
**发言者 A**:嗯。
**发言者 B**:对吧,所以这个问题就会被扔掉。
**发言者 A**:嗯,周报可能是那个... 他没有。但是我有这个生成的下周... 下周的会议纪要可能有。
**发言者 B**:你下周为什么会有?
**发言者 A**:因为我下周的会议纪要生成的逻辑是并... 并集。
**发言者 B**:嗯。
**发言者 A**:就是这个和周报取了一个并集,所以应该有。
**发言者 B**:你周报里有吗?
**发言者 A**:我周报里没有。
**发言者 B**:对吧,你周报没有。
**发言者 A**:你看,你周报没有,这周的会议转写也没有。
**发言者 B**:对。但是是... 他有一个输入就是... 就是这个。
**发言者 A**:就是什么?
**发言者 B**:就是就是这个。就是上周的...
**发言者 A**:上周的会议纪要的下周工作安排。
**发言者 B**:那他取了并集。
**发言者 A**:就是避免... 都没提到就就扔了。
**发言者 B**:嗯。
**发言者 A**:行。
**发言者 B**:那...
**发言者 A**:没列表盘可能什么都没...
**发言者 B**:没表盘。
**发言者 A**:但是我用这个生成的下周的会议纪要可能有。

View File

@ -0,0 +1,487 @@
以下为您提取的会议视频信息,按照时间顺序排列,包含发言内容与画面变化:
**画面内容:** 屏幕显示文件资源管理器,显示文件夹 `D:\Documents\wechat_files\wxid_sukm...\FileStorage\File\2025-12`,文件夹内包含多个文件,包括“会议纪要及分工.docx”、“数字人PPT需求文档.docx”等。
**发言者 A管理者** Skill本身这个编排他...他他对你Skill...他对Skill的理解和我们人理解不一样。是。嗯。所以这个其实怎么去...未来Skill怎么...怎么去修改,怎么去优化,是一个很重要的一个...一个议题。嗯...对...好...好吧。行先这样。好。下一个。
**画面内容:** 鼠标移动双击打开了一个浏览器窗口或文档查看器显示标题为“专家数字人讲解PPT视频需求文档”的文件。
**发言者 A管理者** 真的啊?四个人。在吗正浩?
**发言者 B正浩** 啊,在的。
**发言者 A管理者** 你共享一下呗。讲一下。
**发言者 B正浩** 嗯。数字人那个就是...根据上周...连总的那个反馈就是...啊不对...就是连总的那个建议,就是把那些...有用的...保留,有用的需求保留,可能就是有一些...不提到就...就...也是能可能默认能做的那些功能,大概就是进行了一些删减...然后...然后生成的一个需求文档。嗯。首先就是那个项目背景和核心目标,大概还是上周那样。主要就是...下面基本都是进行了缩减啊。
**画面内容:** 屏幕向下滚动展示“项目分阶段规划”部分光标停留在“第一阶段PPT+数字人讲解”处。
**发言者 B正浩** 就是...这个分阶段,还是...上周一样,就是...第一阶段就是基础功能,第二阶段就是...高...高级点的功能,就比如说那个什么...高亮啊这些东西,嗯。然后...主要就是第一阶段...啊这个就是...
**发言者 A管理者** 等会...上面那个...就是你的这个分阶段啊...那些基础功能是什么,和什么后面的...你在后面有规划说明还是就没了。
**发言者 B正浩** 啊你说是是第二阶段是吧?
**发言者 A管理者** 第一和第二阶段。
**发言者 B正浩** 啊第一阶段我是有的,但是第二阶段我...这一篇文档里面没有。
**发言者 A管理者** 哦,我建议你都写啊。
**发言者 B正浩** 啊我我我是我有一个备份,但是就是...今天展示的就是第一阶段的。
**发言者 A管理者** 行,知道了。
**画面内容:** 屏幕向下滚动跳过“1. 产品定位”、“2. 视频结构”停留在“2.2 时长分配”部分。
**发言者 B正浩** 嗯。然后第一阶段需求就是我...整理了五个。就是第一个是...第一个...啊第一阶段核心需求整理了五个。
**发言者 A管理者** 上面那个我看...上面那个看完,别跳走。
**画面内容:** 屏幕向上滚动回“2.2 时长分配”和“3. 画面布局要求”部分。
**发言者 A管理者** 对啊,因为你这上面这些东西对你都是有要求的呗。
**发言者 B正浩** 嗯。
**发言者 A管理者** 三到五分钟是对的吗?
**发言者 B正浩** 喂?您那又卡住了。
**发言者 A管理者** 啊?这个是...我就说三到五分钟这个是富友他们提出来的吗?还是张媛提出来的?
**发言者 B正浩** 呃...这个是跟那个...贤林老师那边对了一下。就是大概是五分钟左右,真的。
**发言者 A管理者** 五分钟左右...那个是基于基于那说是吧?
**发言者 B正浩** 对。
**发言者 A管理者** 我建议这个地方要加一下。就...未来可能...你做一个PPT宣讲你宣讲的话一般需要二十分钟到半小时。
**发言者 B正浩** 二十分钟到半小时。
**发言者 A管理者** 对。这个可能是...
**发言者 B正浩** 嗯...那...
**发言者 A管理者** 对可对后续你得加进来,或者甚至你第一版能实现就最好。因为...这个可能从技术架构上难度并不高。
**发言者 B正浩** 对,从主要从开销上,就是花费,钱。
**发言者 A管理者** 对...开销啊。对对对。技术架构上...所以我觉你可以先试一试。那就是...一到三十你三到五分都肯定能做对吧,无非就是花销呗。所以这个需求没提...提的就不是特别准。
**发言者 B正浩** 啊,行我我因为我只做了一个后续可扩展,就是...这个时间是可以扩展,这个需求。
**发言者 A管理者** 其实...其实是错了。二十到三十分钟应该是主要需求。
**发言者 B正浩** 啊,行吧。那我就直接...
**发言者 A管理者** 对吧?行我知道了,嗯。不试一下二十分钟你...都含在里面。那第一阶段技术上...都没有难...分阶段一定要分阶段实现,对不对。
**发言者 B正浩** 嗯。
**发言者 A管理者** 对吧,所以你看...你以为...都很简单的需求其实都很多东西是值得讨论的。你比如说像数字人讲解PPT你看何所出去讲话对吧或者何所出去做做会议那个发言或者我出去做会议发言有时候就不用人我如果不不用我自己的话我有可能就要讲二十到三十分钟。而且这个需求还常存在的。不是只有云大说这一个需求。好吧。
**发言者 B正浩** 好。
**画面内容:** 屏幕向下滚动到“3. 画面布局要求”和“3.1 开场画面”。
**发言者 B正浩** 那这个开场可能...呃开场这些好像也不用不用调整。
**发言者 A管理者** 开场...我觉得都...这个应该不用调整。嗯,这个可以。
**发言者 B正浩** 那那个数字人的后面的时间可以改。
**发言者 A管理者** 好。
**画面内容:** 屏幕向下滚动到“3.2 讲解画面(画中画)”。
**发言者 B正浩** 嗯。然后这就是一些布局的需求然后那个主要就是这个数字人和PPT内容的占比这个需求然后还有数字人的位置。
**发言者 A管理者** 可以,这些就可以。
**发言者 B正浩** 对。然后第一阶段,第一阶段的核心需求...
**画面内容:** 屏幕向下滚动到“4. 第一阶段要求”展示“4.1.1 PPT宣讲的时间与PPT视频画面精准同步”和“4.1.2 数字人口型的视觉吻合以及智能避让”。
**发言者 A管理者** 这为什么是需求,我跟你说,因为这个东西,你不明确了之后就是容易出歧义的地方。
**发言者 B正浩** 呃...对,我觉得是的。就是说他比如说...数字人...主导还是那个PPT主导。
**发言者 A管理者** 对啊。这这个你不说清楚就是有人理解不同。对不对。你这么理解他那么理解,所以这个就是要需求来明确。
**发言者 B正浩** 嗯。
**发言者 A管理者** 好啊。
**发言者 B正浩** 嗯。然后就是第一阶段的核心...核心需求。核心需求第一个就是...讲解时间和PPT同步。
**发言者 A管理者** 其实我等会...视频最后你可以再出现一个数字人的...这个再见的一个...画画...画面。大概率能出来有始有终...那个...
**发言者 B正浩** 啊,我懂。就是参考参考开场画面。是吧?
**发言者 A管理者** 对对对。对。真人的。
**画面内容:** 屏幕滚动到“3.3 结尾画面(可以参考开场画面)”。
**发言者 B正浩** 呃就是等于再有一个真人直接说再见的那种画面,大概。嗯。
**发言者 A管理者** 对对对。就不是画中画了。可以是数字人独...独立的告白...呃告别。
**发言者 B正浩** 好。
**发言者 A管理者** 嗯。
**画面内容:** 屏幕滚回“4. 第一阶段核心需求”。
**发言者 B正浩** 那,然后第一阶段核心就是...第一个是...就主要是五个需求。第一个是那个PPT...那个...和数字人口型的那个同步,这是我我觉得是需要写上去的。
**发言者 A管理者** 嗯。
**发言者 B正浩** 嗯,然后第二个就是那个数字人的窗口...在那个...就是说在和PPT...就是结合的时候他是不能遮挡到内容的。这个。
**发言者 A管理者** 喂?
**发言者 B正浩** 喂?啊。
**发言者 A管理者** 他又延迟了?啊对能懂。嗯。延迟还不小呢。
**画面内容:** 屏幕画面没有变化停留在4.1章节。
**发言者 A管理者** 嗯,因为你那儿就是时而时的卡。有时候甚至就没声音了就。嗯。不行连那个,连他那个...换个网络连那个网...
**发言者 A管理者对旁边人** 这个...这还是用电话打...这个网络这那个问题...我切换我热点...等于是我热点...行吧,先这样。
**发言者 C旁边人** 那...我连就是你的...
**发言者 A管理者** 你自动连了...
**发言者 C旁边人** 行,那...那我给你说那个...那个精准是...现在是靠人来调的是吧?
**发言者 A管理者** 那个PPT这个这个就是说现在就是...一一段...就是...叫一页PPT的摘要然后生成...生成一一段口播视频。
**发言者 B正浩** 就比如说...就是像上次会上说的。就是一个PPT如果生成了五秒的摘要我就生成五秒的那个口播视频。
**发言者 A管理者** 对啊同步是怎么实现的呢?
**发言者 B正浩** 呃...你你说...你是指啥啥意思?同步是什么实现是啥意思?就是...现在是人工接的。
**发言者 A管理者** 这里面有几个问题啊,所以...嗯...我等...我妈的他这用电话打...这个网络是那个问题。
**发言者 C旁边人** 我...我切我热点。我连我热点。
**发言者 A管理者** 好。
**发言者 C旁边人** 那...首先第一个,你说什么五秒五秒,那那那那是没什么好说的,对吧?你...嗯。比如说一个PPT你让他生成了...五秒的那个文稿...
**发言者 B正浩** 哎又又又听不到了。哎听不到。嗯。
**发言者 A管理者** 太费劲。
**发言者 C旁边人** 这好吗?
**发言者 A管理者** 不行你这...连那个Guest看看。算了吧。
**发言者 C旁边人** 你洗澡嘛,四小时必断一次。
**发言者 A管理者** 四小时肯定够了。听得见吗?正浩?
**发言者 B正浩** 啊现在听得到,嗯。
**发言者 A管理者** 我说啊你比如说啊你这一段PPT生成了口播这个文字稿...怎么限定他是五秒?
**发言者 B正浩** 我...我不...我...我不限定他五秒。就是...我...生成了口播稿之后,我先生成口播视频,然后我根据口播视频的时间...然后生成那一页PPT的视频的时间。
**发言者 A管理者** 哦这就对了嘛。所以我就说...嗯。那你的这...这一页PPT因为他的时间可长可短嘛。反正就是...就放在上面好了,也不翻页,对不对,你把录屏录下来就行了,对吧?
**发言者 B正浩** 对,可以这么理解。
**发言者 A管理者** 就是...也就是说人要在那自动翻页还是人帮他翻页?就你录屏的时候。
**发言者 B正浩** 嗯...啊。人...现在是现在是人帮他翻页,等于。
**发言者 A管理者** 哦人帮他翻页是吧?
**发言者 B正浩** 对。
**发言者 A管理者** 还是说我干脆,我就定义好每一段视频的时长。比如口播视频生成之后,第一页...十秒,我就在那录十秒。第二页...反正...这个二十秒,我就录个二十秒。或者是这个意思吗?还是说...
**发言者 B正浩** 人再帮我录一下...现在现在就是那个比如说啊比如说我现在三页PPT三页PPT的话我...我...录口播的这三页我可能要录...三个口播视频,大概,对吧?
**发言者 A管理者** 懂了嘛。每一页每一页就固定好,他那个按照时长录好录屏,然后剪...就是把它联合联合在一起是吧?
**发言者 B正浩** 对。
**发言者 A管理者** 行吧。就那样。这个东西...这个感觉是要优化。对。是先这样吧。我觉得后面肯定是有...优化的空间的。因为在剪映里面好像是能自动拉长的。
**发言者 B正浩** 啊对对的。
**发言者 A管理者** 对,每一段...每一段都可以自动的调整他的时长的,我记得是。嗯。到时候再看吧,这你再试试。好吧。
**发言者 B正浩** 好。
**画面内容:** 屏幕向下滚动到“4.1.2 数字人口型的视觉吻合以及智能避让”。
**发言者 B正浩** 然后...第二个需求就是那个数字人的窗口他不能遮感道遮挡到那个PPT的主内容。就是有些的内容是可能会出现在比如说...右下角的主内容是不能被遮挡的。所以说有可能就是数字人要根据那个PPT的位置来做调整。
**发言者 A管理者** 这个你们得...这是人来处理的吧?
**发言者 B正浩** 啊,对目前是目前是人来处理。
**发言者 A管理者** OK。
**画面内容:** 屏幕向下滚动到“4.1.3 高质量数字人”。
**发言者 B正浩** 嗯。然后第三段就是...一个质量高的数字人的要求,然后也加上了你那天跟我说的就是...老外不能出现什么一口流利中文这种...
**发言者 A管理者** 对啊。这个就得典型问题就是...只看树木不看森林了。哦你是觉得老外生成老外生成的那个中文很流利,对吧,就就很好。不是这样的。因为就在人的印象当中,这是一个不真实的事情。嗯。一个老外说的中文比你还流利,那中是真实的吗?对吧,你一看那就我操这个首先质疑这人是真是假。你这上来就让人质疑你,你好不容易想把它做真,上来第一个就让人质疑你真假。你这不是...本末倒置了吗。你的所有目标都在追求真,最后来一个最假的表现出来。对吧,所以这个是不行的。
**发言者 B正浩** 嗯。
**发言者 A管理者** 啊接下来就是录成...录成人,然后录成自己...录成这个需要的这个这个人物形象之后用他的语音来训练...上面的一些动作模型什么这些东西。或者是来生成,看看他生成的质量。
**发言者 B正浩** 确实是有问题。嗯。
**发言者 A管理者** 你听不见了吗叫老师?
**发言者 B正浩** 我嗯了,但是你们那边可能就是有的时候嗯的时候不不那个...收不到。
**发言者 A管理者** 不是我那...我告诉你你这个嗯本身就有问题。对你看现在是好的。有手是...他那边一个是有说麦克风...没有回应的时候,懂吧。跟他谈话有...
**发言者 B正浩** 啊那个是腾讯视频有的时候可能对嗯这个词...他收的会比较那个感觉。就是收不进去的感觉那种。
**发言者 A管理者** 有可能。但是别人的嗯好像就不存在这个问题。
**发言者 B正浩** 你的因为在现场。
**发言者 A管理者** 不是你下回是是别人,对吧。
**发言者 B正浩** 好,这个反正...这些要求先这么定义,但说实话你这些定义...也只是给人看的嘛。你这些东西...也没...也只能是作为你选型的需求,你没有办法改进他对吧。你能改进他吗?你选型定了,你也改进不了。呃...如果后续作为...把这一块,就是现在这块视频不是基本上都是人工剪辑嘛,对吧?如果后面把这套做成一个工作流的话,那这个时候就有用了。
**发言者 A管理者** 我指的是...我指的是你上面数字人的要求。
**发言者 B正浩** 啊对,这个是只能可能是作为选型的要求了,这个。
**发言者 A管理者** 对,现在有没有出现那种可以微调啊,可以训练的数字人啊?
**发言者 B正浩** 呃...这块目前还没有研究。过多的研究。要要要研究。
**发言者 A管理者** 我不信这个地方你你你没有去...找一找。就是终极目标...肯定就是要么是他生成特别特别好,对吧,通用模型生成特别好。第二个...要么就是自己微调。
**发言者 B正浩** 嗯。行。
**发言者 A管理者** 好吧。所以我觉的那...另外一个你再试试那个Gemini那个VEO 3.1看看。嗯。但他现在生成比较短。他那是完全空...就是自主生成,他数字人还没用。好吧。
**发言者 B正浩** 啊,行吧。嗯。
**发言者 A管理者** 第四点就是那个...数字人和PPT的风格...就是一致性,还有一个是那个...模板化,就是可能要多次使用的。做为...
**画面内容:** 屏幕向下滚动到“4.1.4 数字人与PPT风格一致”和“4.1.5 模板化 一次定义,多次复用”。
**发言者 B正浩** 我是想后面做成一个工作流或者什么的。
**发言者 A管理者** 啊。对。然后这是第一阶段的...标准...验收标准。
**画面内容:** 屏幕向下滚动到“4.2 第一阶段质量标准”和“4.2.1 容错度”、“4.2.2 核心质量指标”。
**发言者 A管理者** 等一下,我问一下,现在...嗯。比如说啊,你你说的很对啊,但是能做到,比如说我的衣服,我给你一个一段我...我穿白衣服的拍的视频,对吧?
**发言者 B正浩** 嗯。
**发言者 A管理者** 但是比如说现在你要换成这个蓝颜色的。嗯。你是直接现在视频里能把它换成蓝颜色的,我记得是,对吧?
**发言者 B正浩** 对,这个这是在平台里面就能做嘛,就是那些软件平台里面能做。对。
**发言者 A管理者** 另外还有个方案是什么?还有一个方案是什么?就你...首先你看Nano Banana现在不是可以直接生成一个人的这个这个...衣服的这个合成嘛,对吧?
**发言者 B正浩** 嗯。
**发言者 A管理者** 就是你就是还是图片生视频。这个图片生视频你们看看,给他一段...给他一段文字稿。然后给他一个衣服...和给他一个人的头像或者是一个照片。看看他能不能生成一段口播的视频稿。
**发言者 B正浩** 行。就用那个VEO对吧试试。
**发言者 A管理者** 对VEOVEO。
**发言者 B正浩** 啊VEO对对对。好。
**发言者 A管理者** 对VEO 3.1,好吧。我感觉是有可能生成一段...
**发言者 B正浩** 啊VEO 3.1是不是...是不是升级了?就是在...我之前测试VEO 3.1的那个...无声视频的...效果中其实VEO的表现没有那几个图生视频的效果好的。
**发言者 A管理者** 他现在统统Nano Banana出来之后他视频问那个都都升级了3.0 Pro出来之后都升级了。
**发言者 B正浩** 啊。啊行,那我在试一下。嗯。
**发言者 A管理者** 那个我觉得你可以再试试。我觉得他现在的水平还挺高的。
**发言者 B正浩** 嗯。
**发言者 A管理者** 如果是这样的话那为什么我说Nano Banana现在就或者说那个3.0 Pro可能是一个...一统江湖了呢?就几乎所有事都能干了。知道吗?他几乎所有的事情都能干。
**发言者 B正浩** 嗯。明白。我试试后面。嗯。
**发言者 A管理者** 行吧。
**发言者 B正浩** 好。这个就...这个就是一个质量标准,验收标准。嗯。啊。说非功能性需求,非功能性需求我就写了一个,就是验收标准的。
**画面内容:** 屏幕向下滚动到“4.2.3 禁止缺陷”和“4.3 第一阶段验收标准”。之后滚动到“5. 非功能性通用需求”。
**发言者 A管理者** 你认为有一个很大的问题,你的人的动作,手是没有。
**发言者 B正浩** 呃...对。就是说我本来第一阶段就是不想要太多的那个手势动作的。这个我是想规划到第二阶段的。就是说你有一个那个...
**发言者 A管理者** 你前...你前十秒和后十秒没有动作是不行的。
**发言者 B正浩** 嗯...行。
**发言者 A管理者** 你前十秒人呆呆的站在那讲啊,是有问题的。
**发言者 B正浩** 嗯。
**发言者 A管理者** 好吧,你至少有个手势也行,没有躯体动作也可以,你手的动作得有。
**发言者 B正浩** 嗯。
**发言者 A管理者** 好吧,这个你看看怎么弄吧。嗯。我觉得你这个标准里面要把这个手势至少先加进去。
**发言者 B正浩** 行的。
**发言者 A管理者** 好吧。行吧。嗯。
**画面内容:** 屏幕滚动展示“5.1 输入素材需求”、“5.2 输出需求”、“5.3 使用范围与权限”。
**发言者 B正浩** 嗯。这个就是非功能性需求了。就是输入什么PPT文件这个然后导输出的是是一段MP4的文件这种。然后使用范围介绍一下。大概就是这么多。
**发言者 A管理者** 这个...嗯。
**画面内容:** 屏幕滚动到“5.4 制作灵活度需求”和“6. 约束条件”,包含预算、时间、使用率。
**发言者 B正浩** 嗯。然后约束条件就是...就是反正就是首先看效果,其次先不不做那个预算的上限。
**发言者 A管理者** 这个我觉得没没提到,非...算是半功能性需求。就使用界面是什么?就你们现在是自己在那倒吃倒倒吃半天生成这玩儿对吧?
**发言者 B正浩** 对。
**发言者 A管理者** 就以后怎么给...富友他们用呢?
**发言者 B正浩** 呃...我我懂了。嗯。就是...我明白了。这个这个这块的话我...我后面再整理整理。就是说现在目前其实我们也在调研阶段。调研完了之后就是...现在有两个方向嘛一个是通过工作流或者说是通过那个API调用。还有一种方式就是让他们在那个...比如说这些平台的网站上直接生成。这个方这两个方案我我们还要对比对比。因为那个现在API调用这块我们用的也不是很多。
**发言者 A管理者** 对啊。
**画面内容:** 屏幕显示“数字人平台选型”表格列出了HeyGen、百度希壤、即梦AI等平台的费用和参数。
**发言者 B正浩** 对。然后这块基本上就是我们的选...就是我...根据那个...西平给我的一份调研文档,然后我自己又确认过了的这个结果。大概就是这样的。就是视频生生成的费用。
**发言者 A管理者** 可灵这么贵啊?即梦...可灵即梦这么贵吗?数字人哎。
**发言者 B正浩** 数字人,对。
**发言者 A管理者** 这有问题了。
**发言者 B正浩** 嗯。因为我也我也去看了下,我也去看了下,他那个确实...积分确实挺贵的。就是他是按秒算的嘛。基本上是一百...
**发言者 A管理者** 数字人不应该...也不说生成那种...数字人其实没有那么多计算量的。
**发言者 B正浩** 但是我就是说这个就是数字人生成的那个费用。我去看了,确实还真是。嗯。
**发言者 A管理者** 你那个直直接就是文字生成视频还贵我觉得。差不多了就。
**发言者 B正浩** 差不多了。嗯。已经差不多了。
**发言者 A管理者** 百度希壤...所以我就让你去看看百度嘛。对吧。
**发言者 B正浩** 对。百度这个就是我们现在不确定他这个最高视视频是多长。只是投投放了一个就是四分钟的那个...那个音频给他,他就能生成四分钟的视频。但是具体他能生成多少,网站上说是...可以...给他录入90分钟的音频但这个我们没试过。所以这个先只能写成四分钟最少。嗯。
**发言者 A管理者** 这个...API好像比这个页面还便宜吗
**发言者 B正浩** 呃...贵...啊对你说百百度的。百度的是便宜的对。百度的是按那个叫分钟包的。就是说你40块钱可以买10分钟的那个...分钟,就是你...就是他是这样付费的。就是你40块钱买10分钟。然后你用。
**发言者 A管理者** 黑镜会员在平台上是免费的是吧?
**发言者 B正浩** 对。
**发言者 A管理者** 只要你要买两个那个什么数字人的那个授权对吧?
**发言者 B正浩** 呃对。但但这个这个跟那个...就是说...我现在做的这个调研是用公开数字人生成的。如果用定制数字人生成的话,呃...这百度希壤的这个我还没那个...就是说还没把那个文档呈现。就是百度希壤如果做定制数字人的话,好像一个定一个数字人要一千还是两千块钱。
**发言者 A管理者** 哦。
**发言者 B正浩** 然后然后再度生成那个视频。然后生成视频也是要要钱的。但是黑镜呢就是...呃他他就只收那个叫定制费。然后呢你后面用那个生成好的视频再呃生成好的数字人再生成视频的话他就不要钱了。
**发言者 A管理者** 哦。
**发言者 B正浩** 大概是这么个区别,对。
**发言者 A管理者** 看来目前的最佳可能就这两了。前面不可能。
**发言者 B正浩** 对对。是的。
**发言者 A管理者** 好知道了。另外一个VEO 3再看看好吧。
**发言者 B正浩** 好VEO 3我再看看。好的。
**发言者 A管理者** VEO 3.1你看看。好吧。其他也就差不多了,数字人这块。
**发言者 B正浩** 好。
**发言者 A管理者** 这个说实话啊,就我们能做的工作很少哎。基本上就是靠平台靠什么这些东西的。
**发言者 B正浩** 就是你要花那个大精力,就是说按照网上就是你上次不是给我推的那个...就是搭那个工作流嘛。但其实他那个搭工作流的那个效果我看了,他其实也是就是说基于那个模型的能力。他是...就是说他是把你的那个...先把你的图片也好,或者说是文字也好,他通过提示词,然后或者说先通过一些...一些那个比如说叫什么来着一些能提取什么人物结构脸部脸部信息或者打点的那些模型先提取出来。提取出来之后再给一个比如说开源的模型就像那个WAN那个2.2那个什么模型一样,对吧。你再给他,然后他再生成。其实你的源还是基于基于那些模型的能力。但是...就是我大概看了一下他们的测试效果,其实还不如这些收费的平台。只是定制化的程度很高,就是说比较精细的控制。但是你最终生成的那个效果其实差不太哆。
**发言者 A管理者** 呃你还没用到。你现在的这些需求还用不到那。你比如说大幅度的身体动作。
**发言者 B正浩** 啊对。
**发言者 A管理者** 就要用那个来控制了。
**发言者 B正浩** 对的。
**发言者 A管理者** 就是你要靠个或者一个视频来...比如你模仿一个视频。你让他自己生成是没戏的。生成不了那么好的。你比如说你把一个视频发上去给他,然后让对方...比如说迈克尔杰克逊跳舞的视频你发上去,然后你说让你也跳这个什么。你现在通过这种通用的视频你生成出来效果是很差的。知道吧?
**发言者 B正浩** 嗯。能理解。
**发言者 A管理者** 但是如果你通过那套工作流,把你的杰克...迈克尔杰克逊上面视频的每一帧的骨骼关节完全全部提取出来,把它骨骼关键点变化这个逻辑映射到你的身体上。这个生成的视频就比你那个要准的多得多。懂了吧?
**发言者 B正浩** 懂。
**发言者 A管理者** 对。所以我说你还没用上。所以你说他啊还不如这个平台那是因为你没用好。第一个你这现在的都过于简单,用不到这么...杀鸡不用牛刀。
**发言者 B正浩** 嗯。
**发言者 A管理者** 好吧。那那个...就是包括将来我觉得大...就是大规模的或者说这种精细的...人工AI电影的制作肯定是那个了。不然的话你出现的动作就...很难控制。你比如说你生成一个...比如未来能生成一分钟的视频。一分钟里面你出现三到五个这样的镜头。你怎么改我问你。你就很难改啊。嗯。
**发言者 B正浩** 嗯。行。我懂。
**发言者 A管理者** 对吧,这时候可能就要把这些镜头拆出来...把这些镜头拆出来之后,然后用精细化的方式去控制它了。
**发言者 B正浩** 嗯。明白。嗯。那就等于后面如果更精细的话就是拆到一帧一帧的图片,然后其实他是生成一帧一帧的图片之后,然后把这些图片再生成视频。这样就是最最准确嘛。最精确,最准确。
**发言者 A管理者** 对啊。对啊。
**发言者 B正浩** 明白。嗯。
**发言者 A管理者** 再者吧。你这个都后面那个什么内容多着的。但我们我估计我们可能用不到这么一个功能。到时候看吧。
**发言者 B正浩** 嗯。
**发言者 A管理者** 行吧。那这个就先这么着。那就先把那个...就是可灵的...额不先把那个百度希壤的和这个黑镜的尽快再做一个样本出来,好吧。
**发言者 B正浩** 好,知道了。嗯。
**发言者 A管理者** 就根据我上次给你的要求。就用自己的人训练一个出来。这周。好吧。
**发言者 B正浩** 可以。嗯。
**发言者 A管理者** 就花点钱就花点钱。赶快用自己的人训练一个出来。这周好吧。最好是这周周末就就就出来。训练出来之后,我们就确定到时候这个能不能用了。另外一个就是你现在那个呢?就是个人动画的制作呢?因为何所那个会不一用了。时间问题可能来不及了。或者他现在还不太想用这个技术。但是我们得我们得得把它做好放在那。就是生成这种动画视频怎么做。
**发言者 B正浩** 就是动作替换的那种呢?还是说是...是什么?就是...
**发言者 A管理者** 你比如说他可能不是上来做PPT的。他就是有大幅度的比如说要行走的动作对吧有这个这个打招呼的动作等等这些。大幅度的动作。
**发言者 B正浩** 行。我我知道了。那就是等于动作替换那块再研究研究。然后包括把我们那个真人的换成动作替换。
**发言者 A管理者** 不是动作替换,是动作生成。
**发言者 B正浩** 行。我考虑考虑。嗯。
**发言者 A管理者** 因为有两种方式嘛。就是一种是动作叫...你就像你之前跟我说的嘛,两种方式,一种是动作生成嘛,他因为要很长的时间。

View File

@ -0,0 +1,405 @@
根据您提供的视频会议内容,以下是按时间顺序提取的逐字发言与画面变化记录:
发言者 1或者可能也都有那种动作生成嘛。
发言者 2可以好。
发言者 1就是动作视频生成你就打招呼啊上来走啊跟你把整个的……你这样我给你个建议啊通过 Gemini 3 给你生成分镜头脚本。懂吗?
画面内容:屏幕显示 Word 文档标题为“6.3 使用频率”,下方有表格“数字人平台选型”,列出“平台”、“最高分辨率”、“单次视频时长”、“平台页 1080P 视频支持”、“是否支持去水印”等列。
发言者 1就你给它一段比如说谁谁谁我要上去上台之后什么样一个要求然后什么样的一个背景你就……比如你的镜头机位怎么运转对吧那这种情况下你给它一个分镜头脚本比如做一个两分钟的分镜头脚本出来然后你给到 V3 或者给到什么模型分段生成就好了。
发言者 2明白。
发言者 1或者甚至你都可以把分段的这个……分段的这个图片都先生成。懂吗你可以通过 Nano 什么的把分段的图片都生成,生成之后,再建利用首尾帧再生成图像。把它做成两、两分钟的这个合起来的视频。
发言者 2好。
发言者 1理解吗
发言者 2理解。
发言者 1好吧这个流程基本上你就可以拿这个但是我认为 V3 这个 Gemini 3 是可以做到的,而且做的会比其他的都好。它对镜头的理解和分镜脚本的生成是比一般的模型要做得好的,视觉现在没有能超过它的。
发言者 2我试试。
发言者 1你抓紧时间把这个测试一下就是 Gemini 3 生成分镜头脚本,加上分镜头的那个图片,然后再通过 V3 也好别的什么也好再生成视频。通过分镜头生成和图片来生成……通过分镜头的图片加脚本来生成视频的工作已经有很多模型可以完成了,对吧?
发言者 2明白好的。那我的大概理解你意思就是其实就是说你用、用 Gemini 3.0 就是把那个分镜头的提示词也让它生成,图片也让它生成,然后、然后再找个地方生成视频。
发言者 1你也可以找 V3 做,你也可以找这个、这个、这个其他模型做。
发言者 2好。
发言者 1我说你明白了你看你现在才明白刚才你说明白不是真的明白。
发言者 2啊。
发言者 1好吧不明白你就问不要到时候拿回去又走错。
发言者 2嗯。
发言者 1这是我看到目前可能最有效的路径了。
发言者 2好。
发言者 1好的。
发言者 2嗯。
发言者 1这个首尾帧生成这个其实工具已经很多了对吧首尾帧视频加上那个文字给它之后把首尾帧这个图片加上文字给它生成视频这种已经很多了对不对
发言者 2对。
发言者 1但是就看这个能力就那天我不给你测试过嘛你还记得我给它一张图片然后给它一个文……让它两张图片吧你还记得你给我中间切了一段科普的那个老头加上那个最后医生你还记得它自动给你生成一段视频还记得吧
发言者 2啊对我记得嗯。
发言者 1那效果不是已经很好了吗
发言者 2嗯。
发言者 1如果你那个图片很好的话它生成效果会比那个更好的你那个图片本身质量就不好。对吧
发言者 2行。知道了嗯。
发言者 1行吧先这样吧。
发言者 2嗯。
发言者 1这个就是根据这个两……就总结一下啊第一生成视频样本这周就把它做完好吧视频样本。训练拿我们自己真实人容貌训练出来的语音和视频好吧
发言者 2嗯。
发言者 1这是一个。第二那个工作流你自己抓紧时间再看一下用什么样的工作流来搭如果 API 需要用看看怎么用 API如果不要用直接操作网站怎么操作或者剪映这些自动化工具你怎么用好吧
发言者 2好。
发言者 1这个工作流你、你抓紧时间再研究一下。
发言者 2好。
发言者 1第三个就是刚才说的通过这个 Gemini 3.0 把整个的这个视频的分镜头的脚本和这个图片,包括这些提示都给它生成之后找两个平台试一试,生成的这个视频效果,合成的比如说规定是要两分钟了,合成一分钟的也行,或者 30 秒的都行。好不好?
发言者 2好的。
发言者 1行吧。先这样。
发言者 2嗯。
发言者 1你这里有什么问题吗
发言者 2目前数字人这块吗
发言者 1啊。
发言者 2呃没有还没、没有。
发言者 1那你回到那个什么吧你下一项工作了。
画面内容:屏幕变为全黑,中间显示白色文字“信通院云大所市场部-张媛媛”。
发言者 1你把那个前端重构那个再讲一下吧。
画面内容:屏幕切换,显示 Word 文档标题为“前端重构需求”。文档目录包括“一、目的”、“二、系统架构”、“三、API 接口规范”等。
发言者 2那个我还完成然后呢我只做了一半但是就是说我是……你要不先看一下我这个方向对不对了
发言者 1对对。
发言者 2嗯。就是、呃我前端重构的话就是说我只重构前端的展示部分和代码结构。就说保留现在前端的一些基础功能。这个首先这个目标是、是……我觉得是没问题的对吧
发言者 1应该流程不动是对的先、先不动后面再说。但是我建议你在重构的时候就考虑到下一个版本的交互逻辑的更改。
发言者 2嗯。
发言者 1好吗不要到时候又、又、又这个什么叫什么呃这个架构调整又过不了了对吧或者要重新修改了要增加好多组件了什么的。
发言者 2好。
发言者 1好吧你最好把下一个版本的功能的需求结合这一次重构一起把它考虑进去。
发言者 2行。行。嗯。
发言者 2然后、然后下面就是、下面就是这个当前的这个系统架构系统架构。然后主要就是改这个前端嘛后端其实就不动对吧但是就是前端现在就是……
发言者 1后端都不要动啊你后端不动但是你现在可以拿 Opus 4.5 或者拿那个 Codex 把你现在的后端代码审查一遍。
发言者 2行。
发言者 1好吧你先不动它然后先让他提意见看看审查出来有多少问题慢慢重构好吧
发言者 2嗯。
发言者 1嗯。但是现在不要急着动它先让 Opus 走一圈,比如说审查你这个代码有什么问题。
发言者 2明白。
发言者 1好吧最好你、你上去找一个 Agent 或者找一个那个 Skill呃网上很多这种后端的这个代码审查的好吧叫 Code Review 的。你找一个 Code Review 去做一次审查,好吧?审查出来的毛病记下来之后再说。到时候看看把这个毛病记录下来之后这就相当于需求文档了嘛,到下一次会议的时候我们看一眼是不是要修改。好吧?如果需要修改,我们就让他帮着修改,但是前、前端这些备份什么的做好就行了。
发言者 2行。行知道了。嗯。
发言者 2然后这块就、下面这块就是 API 的接口规范,就是然后包括就是输入输出流,这块是、这块我是确认过的,就是我之前拿那个、呃就是之前的测试文档,然后生成的内容,嗯。就是说先把这个接口肯定要固定好,接口不能错。嗯。
画面内容:屏幕滚动显示文档中的 JSON 代码片段涉及“认证模块”、“1. 发送验证码”、“2. 用户登录”、“3. 用户注册”等接口定义。
发言者 2接口、接口、接口那个规范文档嘛对吧
发言者 1接口规范文档就输入输出嘛等于说嗯。
发言者 2这个是务必要遵守的对吧
发言者 1就是必须要遵守的。嗯。
画面内容屏幕继续向下滚动显示“4. 用户登出”、“5. 获取当前用户信息”、“历史记录模块”等接口详情。
发言者 2然后第、这块那就接口就不太细讲了那就是……
发言者 1另外一个我建议你你不是这个都、你肯定也是用大模型做出来的这个方案对吧我建议你这样你呢让他用你用、你用那个 Cloud Deep Research 也好,或者用那个 GPT 的 Research 也好,你让他给你一版关于前端重构的方案以及注意事项。看看跟你现在思考的、跟你思考的还有多大的不同。
画面内容:屏幕滚动到文档底部,显示“四、功能清单”,包含“用户认证模块”、“聊天功能模块”、“历史记录模块”等表格。
发言者 2好的这个我一开始是让 GPT 给我写过一版的,对,嗯,我、我、我、嗯,行,知道了。
发言者 1或者把你这个方案给它让它研究你这个方案存在哪些就是有什么值得借鉴的或者有什么问题。好吧你再看看是不是值得思考。另外我跟大伙说一下Cloud 4.5、Cloud 的那个幻觉还是挺高的。就是在文字回答上的幻觉是相当高的。
发言者 2嗯。
发言者 1所以 GPT 5.1 可能比它靠谱,所以就你们日常的问答还是以 5.1 为主可能会比较好。这个 4.5 的幻觉还是蛮严重的。嗯。
发言者 2明白嗯。我觉得就是我这大概的一个思路就是先跟 GPT 对话完了之后,再做一些、再做的,嗯。
发言者 1GPT 稍微靠谱一点但现在……Gemini 也稍微好一点,你现在可以这样,你用这两个做、做一次校验试试看,好吧?下次。嗯。
发言者 2好。好的好的。嗯。
发言者 2然后接着往下讲就是第四分、第四部分的那个功能清单就是我要保留的哪些功能然后功能模块……
发言者 1另外一个你写的这些东西去对一下你之前的那些流程图。或者你得审核一下他给你的这些建议和你那个流程图是不是对应的。
发言者 2明白。就是我就是等于我其实现在还在对就是因为没对完我就没那个。接口对完了然后功能这块还没对完。就包括就是要对完流程图还要对前端的那个功能就是是不是这个功能就是像他说的有像这种。就都要对清楚了之后再往下做嗯。
发言者 1所以你就让他给你做一版。就是简单的对比对照之后然后看你再看看他说的有没有对然后再通过你人来审查他的输出的这个结果。好吧
发言者 2明白。
发言者 1这个其实人以后 90% 就是功能了,提要求,然后审查结果。对吧?要求提得越好,你审查得越轻、轻松。另外一个你经验越做越多,你审查得越、越准确,其实就这个。好吧?
发言者 2好。嗯。
发言者 2然后就是、对我还要后面就是可能还要涉及一些比如说我要不要提供他样例代码这些就是我这块的话我还没跟 GPT 沟通呢,所以说后面就还、还没做完,等于。
发言者 1我建议你如果想的话提供一下我的经验……或者示例代码还是给一下。
发言者 2行。因为我、我考虑到了这个但是我还没确定所以我……
发言者 1你前端重构的话你现在都重构了就我说逻辑代码这肯定都比较那啥。但你前端重构大部分都是视觉的东西你给它代码示例有用吗
发言者 2就是我就想提供比如说像、像跟后端交互的这种的逻辑代码。
发言者 1这个我建议你我建议你提供。
发言者 2好。
发言者 1好吧我建议你提供有时候他会自己……就是你提供他未见得都遵守。
发言者 2我明白嗯。
发言者 1他自己处理起来还是挺那个什么的。好吧
发言者 2好。好。嗯。
发言者 2那然后就切到下一个就是、呃上次你周末和我对的那个就是 Skill 调用那个 Sub-agent 的那个教学。
发言者 1可以给大家讲一下。
发言者 2好的。嗯。
画面内容:屏幕切换至另一份 Word 文档标题为“Skill 调用自定义 Sub-Agent 调研文档”。文档内容包括“背景说明”、“统一的测试配置”、“Sub-Agent 定义”、“任务说明”、“测试场景”等。
发言者 2这个主要就是针对那个 Skill 怎么,就是说调用全、呃调用自定义的那个 Sub-agent 到底是那个项目级、项目级的,全局的,这个是怎么、怎么和它就是叫交互工……就是怎么调用的这个效果的一个、的一个叫什么调研文档。
发言者 1等会。听到。
发言者 2嗯。首先就是说、呃主要就是为了搞清楚那个 Skill 它调研那个全局下的那个叫 Sub-agent 可用还是调研项目级别下的 Sub-agent 可用,然后最后的调研结果就是……
发言者 1是调用。
发言者 2啊。说吧。
发言者 1嗯。
发言者 2首先 Sub-agent 的定义是统一的,就是 Sub-agent 的定义就是这个。呃 Sub-agent 的提示词就是这个。这个是在……就是说本次测试的那个 prompt 就是、就是这个,没动。动的只是切换那个……
画面内容:文档显示代码块,内容为 `name: drawio work``description: 你是流程图绘制专家...``tools: Read, Write`。
发言者 1说不清楚算了我来说吧。你这个说的根本就重点都丢的一……就 90% 的重点全都给你说、说丢了知道吧?
发言者 2啊。
发言者 1首先首先第一Sub-agent 的作用是什么就是为了做上下文区分嘛对吧上下文的隔离。那我们要看就是究竟这个我们这次调用有没有起到这个作用。对吧两个第一Sub-agent 调用的时候我的上下文是不是真的减少了。那这个确实是我们测下来,只要你调用 Sub-agent 的确实上下文是、主窗口上下文是减少了。对吧?使用是减少了。但是第一,怎么验证?第二个,怎么能证明我们这个 Sub-agent 是被调用了?对吧?或者在全局下被调用了,或者在子项目里面或者项目下也被调用了。因为有的时候是什么呢?这个出现的问题是什么呢?就 Sub-agent 在子项目下调用的时候,会出现一个什么?它会去读那个 Sub-agent 的提示词。
发言者 1旁边有人插话主窗口去读。
发言者 1主窗口去读。它只是作为一个参考文档而不是自动的实现了一个……
发言者 1旁边有人插话没有用 Sub-agent 去调。
发言者 1独立没有用 Sub-agent 去调。而且有的时候很怪的就是你……它没有用 Sub……这个地方还有个问题点就是它没有用 task 调,它有时候也能够实现上下文的隔离。很怪啊,这怎么实现的我们到时候再说。首先第一个我们出现那发现第一个现现象是什么呢?就是它会去读 Sub-agent。它读完之后呢会把上下文里面加入这个 Sub-agent 这个、这个一些要求。但这个要求并不能完全实现。所以为什么会加入那个里面任务流程里面,那上面的那个定义没什么好说的对吧?我们会加了个 Read因为这个 Read 这个文件很大嘛。就只有这个我才能判断它是不是加入了主上下、主上下文。对吧?主窗口的上下文。如果你是读下来的,只是把我作为一个相当于 Skill 一样的把上下文全部读下来了,对吧?并没有按照 Sub-agent 的方式去调用,那这种情况下,你读的就是占的主窗口上下文。对吧?主窗口的上下文。那我现在就把这断了,因为这个逻辑很不合理嘛,为什么加个 Read 在里面对不对?那目的就是要测试这个。那这个就是整个项目测试的背景。你背景不交代,那张正大你又同样的问题又出现了,对吧?你背景不交代……
发言者 2我、我、我背景是没交代清楚也不是不交代我想了我想的就是这个背景。
发言者 1你交代的那个背景谁听……没有用啊对下面理解问题几乎没用了。对吧你没有交代它核心的诉求和问题点哪你要、你要通过这个文档解决什么问题对不对
发言者 2嗯。
发言者 1你的核心诉求点没有说、说清楚啊。所以我就是说你需求文档分析是问、问题很大的。因为你不站在其他人的角度去思考。你其他人听不懂你讲什么的。如果我不把这段补充上去我根本不知道你要干什么。懂了吧
发言者 2没说明白嗯。
发言者 1你、你去跟上下文、去跟大模型交互的时候它 90% 是听不懂你讲什么的。所以给你的答案就是很糟糕的。懂了吗?所以同样一个人来问解、解决同样一个问题,能够得到的答案是完全不同的。懂了吗?如果我没有刚才,我就举现在这个例子好了,就如果我没有刚才这段上下文的补充,你们其他几个同、同事,你们没有一个人能明白我接下来要说什么和干什么。即使我告诉你我干了什么,你也不理解。明白不?好吧?这就是表达能力,就是提问题表达能力的重要性。如果没个这个,你们跟大模型是没法打交道的。好吧?这个再三跟你们说清楚。
发言者 2那这就是其实以后就是这种背景说明可能要特别详细才可以。就是我是、我是想了我就是说不出来嘛。你像我这种说不出来的我可能就先写下来。
发言者 1你、你给大模型的时候你就必须得写下来。
发言者 2知道了。
发言者 1好吧所以你、你这种准备出来没、没人看得懂的明白吗你这种文档交接你没人看得懂的。
发言者 2嗯。
发言者 1好吧首先第一你、你弄个 Read 在里面谁听不懂啊,放个 Read 在里面干什么?对吧?第二个,你为什么要测试东西?都是已经现成的既定的一个规则了,你为什么要测试?好吧?所以就我们在测试当中发现的情况是什么?就是它可以去调用这个项目、子项目当中的 Sub-agent。对吧这个是很怪的。那么它怎么实现的等会儿那张正大你继续讲吧。我把这个给你补全了别人才知道你做的东西有没有价值。否则你是没价值的。好吧目的意义不清楚。好嗯。
发言者 2行吧。那就主要是分两个就是两大块一块是你 Sub-agent 在全局下的调用,还有一块是你 Sub-agent 在项目下的调用。然后、呃 Sub-agent 在项目下的调用的话要分两个场景。然后那个全局下的调用就分一个场景。然后一共是三个场景。
发言者 1能不能搞完
发言者 2嗯。然后我就先说那个在全局下的一个调、呃就是在、在全局下测试的场景这是第一个场景。第一个场景的话就是首先啊首先那个 Skill 都是项目级的。就是 Skill.md 都是项目、项目下的。然后呢,就是说第一个场景就是用项目下的 Skill然后调用全局下的 Sub-agent然后看那个、看这个 Skill 最终的一个调用效果。这个是 Skill.md 的一个就是呃叫 prompt。它的主要作用就、就是启动一个叫、一个这个生成流、流程图的一个 Sub-agent。就是它只有一个提示词只有一段提示词。然后、呃就是看那个用这个 Skill 调用、调用这个 Sub-agent 的、调用这个 Sub-agent这 Sub-agent 能不能按照就是这个全局下的这个 prompt 来执行任务。大概就是这么个意思。
发言者 1插话这肯定行。这个这个我也、我、我用就是。
发言者 2嗯。
发言者 1另外我给你建议一下就是那个视频上方那段用 task 启动这个,这个是很不标准的语言。它有专门的 Task 那个语、那个调用规范的。好吧?以后我建议你用这个规范来调用。
发言者 2好。
发言者 1这种用语言描述它能理解不是不能理解。Skill 里面反正主上下文太听到它确实就会去启动,但是不规范也有可能会造成歧义。
发言者 2好。嗯。那就先看第一个视频了。这个你们页面清晰吗这样展示的话。好。那首先就是这、呃 Sub-agent 是在全局的、全局的 Agent 目录下。然后项目下是、项目目录下是没有这个 Sub-agent 的。然后那个 Skill.md 是、是这个内容。是、是视频的这三块。然后就、然后就开始跑这个 Skill。呃不让这个 Skill 来执行任务。嗯。
画面内容:屏幕右侧播放视频。视频显示 VS Code 界面,左侧资源管理器显示 `.cursor` 文件夹结构。右侧编辑器显示 `skill.md` 文件内容。下方终端显示正在运行的命令。视频中用户输入 `run task 启动 drawiowork sub-agent...`。
发言者 3旁边提问这个 Cloud 窗口是在哪开的?
发言者 2Cloud 窗口就在这开的嘛。就是在做个项目下。行。
发言者 2然后那个让他执行的任务就是用、用那个生、呃用、用这个 Skill用这个 Skill 生成那个流、流程图。然后流程图的那个过程、呃流程图的流程就是这个。一睡觉二起床什么什么。然后再加上一句并总结文件。这个并总结文件就是要把、就是想对应刚才的那个 Sub-agent 的功能。就是你在你的、你的要执行的任务里面也加一个就是并总结文件,看他能不能按照那个、呃 Sub-agent 的、就是 Sub-agent 能不能收到了这个、这个、这个提示词之后,然后 Sub-agent 去生成一个就是读那个读需求文档、啊不、读那个会议纪要的一个就是功能呗。
发言者 2然后这个就是测试结果。首先它是生成了两个文件一个是那个总结的文档就是.md。
画面内容:屏幕显示生成的 Markdown 文件预览包含“会议纪要摘录及流程图说明”、“一、会议纪要1118 工程部分摘要”、“二、流程图文件说明”等内容。
发言者 1插话就那个就好。
发言者 2但它他这多了一块就是流程图的一个说明。他也把这块给总结了。
发言者 1因为你说了写并总结文件知道吧
发言者 2啊。
发言者 1那就是那及总结文件就是把你这两个任务全部总结了呀。因为你那写那个总结文件就是写的是不对的知道吧所以你看提示词给得不准确你、你测出来的结果就是不对的。所以提示词你们脑子思考能力不到就是容易出问题。但这个是对的啊就是人家执行的是对的是你提错了知道吧
发言者 2明白嗯。
发言者 2然后这个是他的就是结果的流程图。嗯。这是、这是在那个全、就是这是调用全局下的那个 Sub-agent。
画面内容屏幕显示生成的流程图drawio 格式),包含“睡觉”、“起床”等节点。
发言者 1你等会儿你等会儿你等会儿。你把视频拉到那个 Read 那块。Read 那块。我看那个 Context 那块。对,好。你看啊,它这个 Read 是出来的,啊,看到没有?它上来它就做 Read 了,就是它把这个第一步执行了。好再拉到 Context 那块。
发言者 2执行完了 Context 还是?
发言者 1结束的 Context 是吧?
发言者 2对。
发言者 12999229。所以它读的那个一定没进入上下文。对吧读的那个过程一定是在 Sub-agent 搞定的。但是你看到没有啊,它并没有写 Task。它并没有写 Task。知道吗往上。你、你看那个执行流程上来还照读呢。
发言者 2这个就是用 Task 启动的。
发言者 1没用。
发言者 2没用 Task。
发言者 1你你有一句话那个。它调的时候应该起一个 Task。应该有个 Task 的这个过程。对吧?
发言者 2没、没吧。
发言者 1我告诉你有的会起到的啊。
发言者 2我、我这录、我……
发言者 1你从来没遇到过 Task 吗?
发言者 2我从来没、是不是 windows 才有 Task
发言者 1我那儿会有 Task。
发言者 2我是从来没有 Task 这个字。
发言者 1啊我那儿会出现 Task但是不出现 Task 的时候也能调。Task 出了问题。所以这是我说出现问题的地方。对吧?它有的时候在这个地方会写一个 Task然后括号。
发言者 2哦。
发言者 1嗯。
发言者 2但它确实是调成功了。
发言者 1它确实是调了。嗯。但是我就有的时候就辨、辨别不清楚它怎么样才进入上下文什么不进入上下文。不管它。这个说明白了吧这个是主的。你们理解了吧就主放在我们全局 Agent 下面的,然后来来调用。再往下吧。嗯。
发言者 2第二个就是、就是这俩、就是场景二和场景三都是调用项目下的 Sub-agent。
发言者 1嗯明白了你别不要废那么多话了你说话太费劲了。
发言者 2那那就那就直接说吧。那场景二就是场景二的 Skill.md 和场景一的,就是刚才的 Skill.md 是一样的。就是我……
发言者 1位置不一样。
发言者 2啊对只有位置不一样。然后那个提示词是一样的。就是都是这一句。啊然后这个是它的就最后测试效果。
发言者 1直接要怎么调。
发言者 2嗯。
发言者 3这两个场景有啥区别
发言者 1好像你就是 Agent 的位置不同。
发言者 2不是。
发言者 3啊对啊。
发言者 2我是项目下分了两个场景嘛。
发言者 1项目下分两个场景是这样的提示词不同。
发言者 2提示词不同。一个是、一个是绝对路径一个是默认的路径。就是这。这有区别。就是在这加了一个绝对路径。
画面内容:屏幕显示 Word 文档中的“测试场景 2”部分Skill.md 代码块中可以看到路径被修改为绝对路径 `C:\Users\JJ...`。
发言者 2然后哪个调用成功了
发言者 2然后就是这调用真成功了嘛。就是绝对路径的调用成功了。
发言者 3直接指到项目下这个 Agent 是成功的。
发言者 2对。
发言者 1但是我觉得有必要看一眼什么呢看一眼它在这个非绝对目录下的调用就没指定目录下的调用的这个执行过程。就很怪。就非常怪。你看一眼。别跑呀你往前拉往、往前、往后。退、退。好。退到、退到它这读那。读是吧好。再、再退。你看啊好、好、好就这儿开始。下吧。那放吧。这是场景二吗
发言者 2对。
发言者 2这是场景二。

View File

@ -0,0 +1,555 @@
以下为对该会议视频的逐字信息提取,按照时间顺序排列:
发言者男1就读吗
发言者男2好像是会的我...我忘了,应该,我...我记得是读了没生成。
发言者男1对啊你...你...你这快一点吧,这个老看不动。
发言者男2你这个场景二项目下有 Agent然后那个就是...
发言者男1就是 Right你读那个...
发言者男2这个场景下是项目下有 Agent然后全局下没有 Agent。
画面内容:屏幕显示黑色背景的终端命令行界面,大量代码在滚动,正在运行 `swarms` 相关的程序。
发言者男2对啊。
发言者男1这个读的动作出现了吗还是放在后面了吗
发言者男2这到底读没读
画面内容:终端界面停止滚动,停留在某次执行的日志上。
发言者男2Context 呢?
发言者男1等一下啊先...先看一下这个流程。
发言者男1它就没读。
画面内容:屏幕短暂黑屏,随后切换显示一个流程图绘制软件的界面,正在加载。
发言者男1这次测试它就没读它读都没读。
发言者男2但是它也是启动成功了吧
发言者男1不是不是不是它启动成功和它就是最终执行的效果还是不一样的。就它启动成功我觉得是有两步...两个...两个就是方式,一个是它读...
发言者男2启动成功了但是它没有按照那个指令。
发言者男1那就很可能是把你的那个 Sub-agent 的那个 Prompt 读了,然后它带上那个提示词去启动了一个 Sub-agent但是它启动的不是你本来自己写好的那个 Sub-agent。
发言者男3就没启动 Sub-agent。它为什么要启动 Sub-agent
发言者男2关键它只有那些呀。
发言者男3对呀怎么可能自己...它...它怎么会自己启动呢?
发言者男2觉得...你这个逻辑上来说,你电脑自己怎么会判断说它自己启动一个 Sub-agent。
发言者男3那这个是...是你上下文看出来了吗?
发言者男1看了。呃...你这...你这...你这看那个...Context 吧。
发言者男3你这里面有 Context 吗?命令你敲了吗?
发言者男1有有有在后面在后面等一下。
画面内容:屏幕画面切换回黑色背景的终端命令行界面。
发言者男1就反正就是最后生...就它只生成了一个流程图。
画面内容:屏幕再次切换到流程图绘制软件,显示了一个垂直的流程图。
发言者男2那肯定是有结论嘛你直接看 Context就是它上下文占了主窗口还是没占。
发言者男1占了。
发言者男3你看它应该没读嘛。
发言者男2没读所以看不出来。
发言者男3所以看不出来所以我跟你说我们...啊你这个就没有复现出来,我们去读过。我们...它自己确实读过。
发言者男2嗯。
发言者男3对吧就是它会启动“读”但它最后没有知识。
发言者男2没有执行。
发言者男3它有读这个动作但它没有执行。读完之后呢也没进循环也没实...也没有去总结。所以就压根它只是...可能自己把这个动作给判断...
发言者男2不要了。
发言者男3不要了它一看哦这不需要顺着那个...它在判断的时候啊,它认为生成流程图这件事情不需要读。
发言者男2懂了。
发言者男3是不是提示词给...必须强制它读这个。
发言者男2你提示词就是这么要求的嘛但是...
发言者男3它肯定不是你提示词要求了之后如果调用 Sub-agent 它也会总结的。你 Sub-agent 你现在读完之后它发现你主题是字没有,它只把这个 Sub-agent 这个目前之后,它就忽略了你 Sub-agent 这个事情。就不相关的。它是有自动的去组合 Sub-agent 和主...主窗口的 Prompt 的。它智能的判断我这个 Prompt 到底最后是吧...
发言者男2反正这个研究我觉得挺有价值的对我们去理解 Agent 究竟怎么去组织很有意义。
发言者男3行吧再往下一个走吧。
画面内容:屏幕切换到一个 Word 文档,标题为“测试结果”,文档中包含表格和文字说明,显示了不同路径下的测试情况。
发言者男2原来是用绝对路径调用顺畅是不是
发言者男1这个就是绝对路径。这个就是改了那个 Skill 的...
发言者男3绝对路径我们测了大概七八次把你...我那天测了四五次,我知道他后面又测了几次。就我每次改了绝对路径。
发言者男2所以我们也担心它有时候能读有时候不能读。
发言者男1我后面测了两次都是正常的我就没再多测了。嗯。
发言者男3所以就意味着它放在绝对路径下可调用。
发言者男2相对路径我测了...
发言者男3相对路径测了也有七...五六次啊。
发言者男2几乎没有成功过。
发言者男3几乎没有成功过。但是有的时候会出现读这个动作然后没读懂。
画面内容:屏幕切换回终端命令行界面,显示多行警告信息和加载信息。
发言者男3这个问题是怎么出现的是因为待会儿我告诉你我在做我的那个 PPT 的时候...
发言者男2这个问题好奇怪啊那官方说那加载到主窗口上下文只有那些 Sub-agent 的数据?
发言者男1没有它 YAML 源也加载了,就是 Sub-agent 的 YAML 也加载了。
发言者男2就是说那个 YAML 源数据。
发言者男3对啊。
发言者男1对啊你看吧这不就是 YAML 的数据。
画面内容:屏幕上的终端界面显示加载了 prompt 相关的 yaml 文件。
发言者男3但是你指向的是相对路径啊。
发言者男2对按理来说没有路径啊有路径啊。官方没有指到了。按理来说相对路径跟绝对路径...
发言者男3对啊。
发言者男2按理来说没...
发言者男1就你的理...你的理解就是相对路径和绝对路径其实没有区别对吧?
发言者男2没有区别没有 Bug。
发言者男1对我说...我也这觉...我本来也是觉...我本来也是觉得没有太大的区别的。
发言者男3哎呀我们研究了好几遍没关系啊等会儿再说我的那...那个送完呀。你在干嘛呢?
发言者男1
发言者男3听到了。
发言者男1你说啥刚才
发言者男3放完把它放完赶快找原因为什么没放完
发言者男1你那听不到你...
发言者男2是不是离太远了
发言者男3跟远有关系吗
发言者男2可能有关系。
发言者男3这样呢
发言者男2可能有关系就是这个视频会卡。
发言者男3所以我本来都用我的这个...苹果电脑。噢,我想起来了。有一个最...最大的问题是,你的这个视频收音效果就不好,你的这个画质。
发言者男2噢那天用的我的电脑。
发言者男3啊你的这个电脑。
发言者男2纯电脑。
发言者男3这个还行。
发言者男2这个还行这个还行。
发言者男3它这个就 Read 了,看到没有?
发言者男2嗯。
画面内容终端界面显示白色的“Reading...”字样。
发言者男3它这个就 Read 了,它先 Read 了这么些行之后,你往下再走,最后你给结果就行了,它只要有这个动作出现就行了。
画面内容:终端快速滚动,最后输出了一些总结性的文字。
发言者男3好嘛最后生成了纪要。同时你再看一下 Context。
发言者男1那你先看 Context 吧。
画面内容:屏幕切换,展示 Context 相关的日志信息。
发言者男3我在开会啊。没有我上午发了吗群里有。嗯嗯。
画面内容:屏幕继续显示终端日志,可以看到关于 Agent 和 Skill 调用的详细信息。
发言者男3对就是这个再往上翻往上翻一下。噢嗯。好。嗯嗯。好啊。
发言者男3所以你看这个 Context 是旧了 Sub-agent 这个...没有去用主窗口的。对吧?
发言者男2嗯。
发言者男3我们就还试过一个就是直接在主窗口里读确实上下文占掉了。对吧
发言者男1嗯。
发言者男3所以就...也就意味着它统计是没毛病的。那...我的理解是什么啊,就是...它在给到决定目录的时候,它确实是能够...就如果不给绝对目录,它去搜的时候,它可能搜不到,觉得有这个 Sub-agent 叫...有一个这...这什么...全局的 Sub-agent 叫这个名字。搜不到嘛。它就认为你这个指令肯定是不正确的。但是呢它同时去读过这个 Sub-agent 这个 Prompt对吧读完了但它不执行。它就把这个 Prompt 拿出来看看跟我的主...主的有没有关系。对吧,跟我的主 Prompt 有没有关系,那么这种情况下它可能就觉得没关系,或者关系不大,我就放掉了,不理了。但是你去这个...指定目录的时候,它去这个主目录下读了,它确实在 Agent 目录下。在这个 Agent 目录下能找到。能找到以后,它就会去调用。我觉得应该就是这么个关系,就是它没有那么严格的说一定不能执行子目录下的 AgentSub-agent没有这个要求。但是它...如果你不给它发生冲突的时候,它会首先默认去找全局 Agent。
发言者男2知道吧默认去找全局 Agent 的时候它就没有。
发言者男3这个时候它可能就否定掉了就不执行了。但是很怪的是它上下文加载的时候啊它是把子项目的 Sub-agent 也加...也加载进去的。对吧它它刚开始装载的时候,它是装载进去了的,但是它去查,它上来优先去查的应该是查的全局的。它发现查到没有,它就忽略了。那你给定指定目录之后,它会到指定目录的 Agent 下面去查,它发现这个东西确实在 Agent 目录下,它应该就是个 Sub-agent它就执行了。我就是这么理解。
发言者男2对。好办。
发言者男3所以这个对后面应该是有很大的影响的。你们可以自己再测试一下这是我们测试出来的。如果是可以的话我们用什么样的指令怎么调用这对 Sub-agent 的架构组怎么组织,就不一样了。
发言者男2嗯。
发言者男3对不对
发言者男2行啊。
发言者男3这是一个 Skill另外一个啊反正今天时间差不多我...我个人感觉Skill 调用 Sub-agent 还不是一个非常好的方式。
画面内容屏幕上的文档滚动到“五、部分Skill修改及完善”部分。
发言者男3还不是一个非常好的方式。真的应该就是应该是 Agent 调用 Skill。最好的方法就是用 Agent 调用 Skill。Skill 里面装 Sub-agent 这个...这个方法呢确实是有点击问题。嗯。呃,因为这样的话第一组织会乱。组织会乱。就是...你最好用什么呢?你不要在 Skill 里面调用,在 Agent 里面调用 Agent。就是你不要把所有的 Sub-agent 全部放在全局,你可以放在子项目下,但由谁来调用呢?用 Agent 调 Agent。这是最容易的。
发言者男2能调吗
发言者男3Agent 能调 Agent。而且分分钟的事情。Agent 可以调 Agent。是没有问题的。嗯。好办。行。或者你可以做一个所以我一直这...这今天来的路上我就想,我在一个子项目下我怎么去调用不同的 Sub-agent 对吧?我怎么去设定一个主 Agent。很有意思的。嗯。我们现在默认的主窗口就是主 Agent 对吧?就是 Cloud 的那个点,你可以定义一个主 Agent。
发言者男2可以的。
发言者男3你可以定义一个主 Agent怎么定义怎么激活呢你直接在这个你 Agent 下面定义这个主创...主 Agent 之后你直接选定它,它就是主 Agent。
发言者男2对。
发言者男3这种 Agent 下你再去调用其他的 Agent就全部是 Sub-agent。
发言者男2嗯。
发言者男3子项目应该这么来组织。不然你会真的有点乱。就你一会儿 Skill 调 AgentAgent 调 Skill来回嵌套哇塞这逻辑关系能能...能搞死你,我们索性啊,就非必要情况下。就除非特别特别...这个这个 Skill 就...就是一个宏观的 Skill。懂吗我就是要用很多 subset sub-agent 来...来调用它。对吧?我其实用 Agent 来组织 Agent 会更好,不用 Skill 来组织 Agent。
发言者男2嗯。
画面内容:屏幕始终显示 Word 文档的内容,没有发生变化。
发言者男3好吧这个逻辑我觉得是...是我这两天思考一个非常重要的收获。
发言者男2其实不就是层级不一样嘛就是 Skill... Skill 调 Agent 的...其实本质就是主窗口这个 Agent 去调...调其他 Agent 嘛。
发言者男3对。
发言者男2然后您说就是单起在主窗口下面启动一个 Agent...
发言者男3Agent。
发言者男2它作为主 Agent 去调配各个 Sub-agent。
发言者男3在下一层。
发言者男2对。
发言者男3这个是比较容易调的。
发言者男2这行应该可以。
发言者男3而且鬼...那个语...语法上面没有没有大的问题,而且我们日后的组织上也不会特别复杂。就是你的这个 Skill 和 Agent 的组织啊不会特别复杂。
发言者男2串起来肯定是...
发言者男3对。
发言者男2因为有一个主窗口的空间。
发言者男3会协调。
发言者男2因为你 Skill 其实也在主窗口。
发言者男3对呀。
发言者男2对吧
发言者男3你 Skill 里面调 Agent 其实有点有点费劲的。
发言者男2嗯。
发言者男3除非是这个 Skill 没有办法,就这个...这个流程没有办法抽出来。就没有办法抽出来。懂吗?必须要在 Skill 里面共享上下文这种。它也不存在。
发言者男2也不存在那主...都是 Agent 嘛,主窗口谁 Agent新起一个也是 Agent 是一样的。
发言者男3所以我觉得先...用这种逻辑和这种规则吧。就我们虽然找到了这个 Bug 啊。呃因为我自己确实想用一下。但是我不建议大家都用。就我今天前两天在考虑这个 Agent 编排的时候,我觉得还是 Agent 调用比较好。Agent 来调 Agent 比较好。嗯。而且比较智能。嗯。而且 Skill 嘛... Skill 最大的问题是,就这个 Skill 的上下文其实也在主窗口里面。
发言者男2我觉得...其实可以作为一个分阶段。嗯。就是...用现在这种形式,写 Skill 用加载,用主窗口加载这种形式,可能调试更好调。
发言者男3嗯。
发言者男2因为...因为毕竟你输入的信息都是在主窗口的,如果一上来就用那种 Agent 调...调 Agent 的方式,就是 Sub-agentLevel 1 的 Sub-agent 调用 Level 2 的 Sub-agent 来组织的话,它那个上下文主窗口是没有的。
发言者男3嗯。
发言者男2就是如果你要调试的话你是...你...你输入是是定位不到那里面,主窗口不知道你想改什么。
发言者男3嗯。
发言者男2然后所以我理解就是调试的时候可以用...用现在这种方式,然后就调试整个流程调通了之后,就可以把 Skill.md 移植到...
发言者男3Agent 里面。
发言者男2然后这个时候再用主...主窗口去调,这下...这个应该也可以。
发言者男3嗯。嗯。
发言者男2加一个
发言者男3不用。没有。
发言者男2你一开始就把 Skill 的这个... Prompt 放...流程放到 Sub-agent 里面,放到...主 Agent 里面是一样的。是一样的,反正你 Skill... 它... 它 Skill 就很简单嘛。上来就是把这个所有的上下文,只要用到这个 Skill 的上下文全部都放到主...主的主窗口里面是吧。所以你定义一个主的 Agent里面上下文就等于把 Skill 都写好了。是一样的。调用过程是一模一样的。无非就是什么呢?无非是什么呢?里面有几个问题。就是除非用到这个 Skill 用到了 Scripts。啊用到了这些东西你这没法弄了。懂吗因为 Skill 里面是可以去调 Scripts 的。Agent 里面就...也能调,但是...语法上对不那么不那么清晰语法上。Skill 肯定这个语法是很清晰的,就是它是可以执行 Python 代码的。可以执行代码的,所以 Skill 里面对于这个的支持是好的。但 Agent 里面对于这些支持可能没那么清晰。
发言者男2可能跟 Cloud Code 底层的提示词有关系。
发言者男3提示词有关系。我一直在思考它的提示词。就包括那个全局 Agent 和子 Agent 里面那个...这个提示词它都可能有现定的,它上来找的就是全局。
发言者男2有可能。
发言者男3你知道吧但是你指定之后你这个就等于强迫它去做这个事情了。它也就认了。
发言者男2有可能。嗯。
发言者男3好嘛。嗯。行。把提示词搞懂那给它改改也行。
发言者男3但它提示词也是很长的。你看上次加载那个 System Message我操多少一万多好一万多个 Token。
发言者男2是。
发言者男3上来先给你灌一万字。
发言者男2看一下它 Skill 执行的提示词。
发言者男3对。
发言者男2怎么强执按这个流程执行的。
发言者男3它好像可以自己添加那个系统提示词。
发言者男3添加可以但你不能改。
发言者男2它内置了一些。
发言者男3懂吗你可以在上面添加可以。
发言者男2改不了。
发言者男3改不了了它的系统提示词不会让你改的。对。嗯。好。好吧。
发言者男2嗯行啊。
发言者男3行吧那就这么着吧。嗯。
发言者男2基本反正 P0 过完。
发言者(女):好。
发言者男3复制分身的那个需...还没明确是吧?
发言者(女):呃,他这有个最新的情况,然后跟您汇报一下,就是听那个娴霖说,就是他们有市场部内部的一个工作会,然后斗主任最新的一个信息就是说核所他...放缓...那个需求好像有点...变,就是他这个时间然后有点变,他用不用也不一定。
发言者男3放缓。对啊所以就我们现在先做好嘛刚才也说过了。
发言者(女):就是所以就是我目前我跟娴霖反正有反复沟通,但他那边多多少少的就有...就只有那点东西,更多的还是得去问斗主任,是得让斗主任去问核所他想做一个什么样的东西,但是...
发言者男3这个如果他现在不做就我们自己做需求了。就不以他的需求为核心了。但这个数字分身的这个需求肯定是再的。好吧
发言者(女):嗯。好。嗯。
发言者男3就是相当于咱们多做几个版本嘛然后之后让核所去选。
发言者男3或者是那个市场部这个我们...他给些需求,我们自己找一些市面上的对吧?我们看到的做得好的,我们把它做下来之后就行了。
发言者(女):行。嗯好的。
发言者男3行吧。嗯。
发言者男3好吧。嗯。那个招标那个要提到 P0 了。
发言者(女):好。就媛媛的那个也挺着急的,因为她说那个涉及到就是她想年末...
发言者男3Gartner 的那个是吧?
发言者(女):对,她想...
发言者男3Gartner 的那个倒不难。
发言者(女):那有个收入。
发言者男3对。行吧因为时间关系就不多说了啊这个就这样吧。然后回头每个人再把自己的补充一下。
发言者男2嗯。
发言者男3咱们要不要现在捋一下 P0
发言者男3你可以嘛你那边。就你你...就是...就是你这个还没出来嘛对吧?
发言者男2行啊就把刚才那个讲一下过一遍。
发言者男3过一遍。
发言者男2呃...我这个会议纪要 Skill我先...啊那今天的我先用现在这个版本生成一份。然后生成完之后,我再...就主窗口加载那个会议转写的上下文。然后那个呃...我...我这次转写上下文是用腾讯会议的还是说把视频喂给...
发言者男3用视频视频。
发言者男2视频 Gemini 是吧?
发言者男3对。用最好的那个。你反正先用你这个生成一版嘛。
发言者男2啊。
发言者男3先用你这个生成一版嘛然后再把 Gemini 那个做一版嘛。
发言者男2就用我这个生成的转写文本是...
发言者男3转写文本两边各生成一个。
发言者男2两边各生成一个。
发言者男3各生成一个。
发言者男2就我现在...现在先按...先按我之前的用腾讯会议的。
发言者男3对对对。OK OK。因为腾讯会议这个视频出来之后你还得上载传给那个什么给 Gemini。
发言者男2行。行。
发言者男3好不好
发言者男2这个肯定是 P0。
发言者男3嗯。
发言者男2啊然后用 Gemini... 用 Gemini 措施加上,就用 Gemini 转写文本套到我这是...是一个,还有另一个是直接用 Gemini 去喂给它视频让它直接生成会议纪要。这个是一个,然后这个也都归 P0。
发言者男3嗯。
发言者男2然后这个...呃然后就是许所成这个 Skill然后我去明...再看一下那个二阶段的专家的交叉回应那一块,再自担一个事,然后整理出来一个就可视化的一个...一个...一个效果的东西。
发言者男3对。
发言者男2这个也是 P0。
发言者男3对。然后...同时这个需求 Skill 我们可能到时候先看看你的结果吧,我觉得把这个需求 Skill 的流程啊也走一遍。就整个流程图也看一下。
发言者男2行。
发言者男3行。
发言者男2行。
发言者男3因为看看未来将来这个流程里面需要怎么修改完善。
发言者男2好。
发言者男3好吧。
发言者男2好的。那这些都...就都归...归到一个项目里。
发言者男3好 P0。
发言者男2嗯。那...那我这边 P1... 噢 P1 就上周留下那个招投标的 Skill 的架构设计,我设计了。噢然后还有那个...
发言者男3那个现在需求急吗
发言者(女):呃...
发言者男3招投标那个。
发言者(女):有点急。
发言者男3所以那个要提成 P0 了。
发言者男2噢那个 P0。
发言者男3对。
发言者男2行。
发言者男3好吧。
发言者男2行那我这周做。
发言者男3嗯。
发言者男2然后还有那个 Gartner 报告转写那个是...
发言者男3那个可以做 P1。
发言者男2那个可以做 P1。那个我...也是我先设计架构还是我直接实现?
发言者男3架构。
发言者男2架构。架构。
发言者男3行。
发言者男2那我先设计架构这个是 P1。
发言者男3嗯。OK。
发言者男2行那我这边应该没...噢我这边那先...先没了吧。
发言者男3行。你回头看一下你个人工作呗你周报的个人工作里面到时候再...再补充吧。
发言者男2行。
发言者男3如果看到的你可以根据会议纪要补充或者你自己跟他再转写都行。
发言者男2OK。
发言者男3江老师那边那个刚才也提过了嘛数字人的这个对吧这个 P0 你们这个 PPT 肯定是越快越好。好吧?就是刚才也说过了明确要求了。
发言者(女):嗯。
发言者男3就是这个是 P0 的,好吧?
发言者男2好。
发言者男3刚才说跟 P... 跟数字人相关的几个测试啊,根据你的选...包括需求啊,修改啊,好吧?然后包括这周给出这个视频示范的文档啊,包括你的数字分身的这个端到端的这个,比如说用 Gemini 生成视频脚本和那个文字那个...人嘛,这分镜脚本和这个分镜的镜头这个图片等等这些,好吧?
发言者男2好。
发言者男3好吧。问题答案重构基本上上刚才也讲了所以我觉你还得用第一个把现在这个叫什么让 Codex 或者是什么大模型帮你把后端先走一遍,好吧?看有什么问题。第二个就是把前端的逻辑用或者是这个方案用大模型再帮你做一遍,然后看看跟你现在的这个方案有什么差异。
发言者男2好的。
发言者男3好吧这是我记住的啊有些补充你们自己再补充。嗯。
发言者男2就是...好,知道了。嗯。还有把下个版本的那个可能修改的逻辑先考虑一下。嗯。
发言者男3对对对对。嗯。
发言者男2嗯。
发言者男3好吧。
发言者男1嗯。
画面内容:视频结束,屏幕黑屏。

View File

@ -0,0 +1,126 @@
发言者 1签合同反正他说那个如果你能做出来基本上就有30万。
发言者 2嗯。
发言者 2嗯。
画面内容:黑屏,显示白色文字“信通院云大所市场部-张媛媛”
发言者 1那个那就加进来吧。那就加进来吧好吧。那个倒不难。
发言者 2提到P0
发言者 1提到P0吧。大概跟那个报告那个提到P0吧。
发言者 2那我这周先设计个架构。
发言者 1对。那个确实不难但是就是优化比较难。但先有个样子不难。
发言者 2先有个样子。
发言者 1先有个样子不难好吧。
发言者 2嗯。
发言者 1行吧。
发言者 2我……都用Skill是吧
发言者 1你现在不快嘛都用Skill。因为他要看到的都是样子嘛后面这些东西但凡用得多了我们就开始转化嘛。就转化我想好有什么框架我也没还没研究呢Skill怎么转成那个整个基于到底基于哪个的比如基于Kimichat2啊还是基于Claude自己的API啊还是基于对吧这里面都有都要思考了。你Cloud Code Agent或者Cloud Agent其实可以能用的。对吧可能更容易最简单。因为它是自己的框架嘛。那怎么转到别人的Agent框架对吧。而且LangChain LangGraph都是非常。那如果Deep Agent那个架构能用的话也行对吧。LangChain封装那个Deep Agent架构。对吧但是它七脚手架呀比如说上下门啊这些东西。
发言者 2又得稍微比较麻烦。
发言者 1对。得得找一个小程序啊做一次研究或者做一次学习。做一个小功能怎么去映射过去。学习一下看它暴露出哪些问题。对。好吧。这作为P1或者P2吧就这个从Cloud Code Skill转移到LangChain LangGraph的Deep Agent架构。
发言者 2行。
发言者 1好不好作为P1或者P2的研究项目。
发言者 2嗯。
发言者 1行吧。
发言者 3然后正发徐龙你要是忙不过来那个Skill然后我都可以去写帮你。
发言者 1嗯。
发言者 3嗯。
发言者 2那你就先开始做一下。
发言者 3你写个demo我照着改改。
发言者 1你可以试一个做一个小的呢。
发言者 3行。
发言者 2先试着做那个挺简单的你试一次。
发言者 3行好。
发言者 2他好像他好像挺想学那个学Skill的。
发言者 1嗯。挺好的。好吧。但是这个你前期得把Skill这些整个的底层东西全部学一遍不然你出来的东西不好用。嗯。
发言者 2嗯。
发言者 1包括Skill Agent检索有什么关系我跟你说这东西得要学好久呢。
发言者 2可以先试试。
发言者 1先上手试一下。
发言者 2先上手做几个简单的任务看。
发言者 3嗯行。
发言者 1好吧。
发言者 3好。
发言者 1嗯。怎么着。然后你就是丁康那边后面可以协助那个有一个其实你们都一直忘了写了这会议纪要里面。关于整个项目驱动的就是那日报项目驱动你还记得吧
发言者 2啊。
发言者 1上面一直没写。那个后面可以所以确实P1或者P2去了吧。让丁康来负责因为他那个不着急嘛。啊他可以有空闲时间周六周日帮我们来写这个。好吧到时候姜正达
发言者 4远程姜正达
发言者 4远程听得到。
发言者 1哎。把那个Cloud Agent Cloud Code那个我们那个Max版本的那个到时候可以给丁康用一下然后这个这个他的主要任务就是做日报驱动的那个整个的项目管理系统那个Skill好吧或者开发。
发言者 1嗯。
发言者 4远程好。嗯。
发言者 1好吧。包括基于会议纪要做日报然后日报出来之后怎么驱动项目管理那个跟Asana这些MCP怎么对接。好吧。
发言者 4远程好。昨天也跟他沟通过了让他先先学一下那个Asana的那个架构然后模块什么的先先熟悉一下然后再设计一下。嗯。
发言者 1好的好的。嗯。
画面内容:屏幕中心出现一个白色光标点,随后切换到电脑桌面录屏界面
发言者 1行吧。那这个时间关系啊我就给简单大家讲一下我做的那个PPT的那个。我觉得那个对大家以后可能就是本机自动化是有很大的价值的。用Playwright或者说那个它其实出了一个Chrome Deck Dev的那个就是好像Cloud自己出了一个Chrome浏览器的控制。我们用那个。
发言者 2我们用那个。
发言者 1我用的是那个什么用的还是Playwright有个Extension。就是在Chrome上的Extension做的。嗯给大家看一下。
画面内容展示Mac电脑桌面打开了多个窗口包括终端命令行、浏览器和代码编辑器
发言者 1那这就是我做最简单的一个了。比如说上来生成PPT对吧
画面内容终端界面显示正在运行Playwright代码浏览器界面显示Claude对话框
发言者 1我现在不跟他说什么。然后他会启动这个Skill。等会儿给大家看这个Skill挺很流畅啊。这个就是他就会问我你要什么主题的你可以自己打一个目标进去。那你可以跟他聊我需要什么什么简单的粗的都行。那么第二个就是什么什么给一个文件路径对吧我就把以我这个这个照片我跟他说是生成因为测试嘛做的很少。两页你可以做二十页都没问题的。手写体风格对吧然后好的他来生成两页的这个PPT。首先创建这个PPT的工作目录。然后现在加下来就是调用Gemini图片生成器来创建细细图。关于PPT的新细图。然后Gemini这个就我后来直接把就是Skill嵌套Skill来做了。我最后直接放弃Sub Agent了。虽然上下文会比较长但是我在调用逻辑关系非常非常清晰。就Skill套用Skill反而比Sub Agent要清晰的多因为上下文是共享的。知道吧所以它逻辑控制上非常非常精确。到了Sub Agent里面啊因为不带上下文之后啊它的逻辑控制有很大问题。到时候我有空你们可以试试。我一开始做了好几个Sub Agent在这里面做包括用Sub Agent来调这个Skill。
画面内容:鼠标高亮显示终端中的代码行 "The 'gemini-image-generator' skill is running"
发言者 1本来我是用这个Skill来调用一个Sub Agent的。这个Sub Agent可以放在主窗口、主那个叫全局Agent也可以放在子项目Agent我都尝试去调过的。但是效果都不太好。它的上下文人家就是不太好。这是一个啊。第二个这个这个后来我就直接把这个Skill提取出来了我不用它去调了。我本来想用上下文隔离嘛。我就说我们都出现叫什么叫偏执狂对吧其实主上下文的窗口好用的。最好用的还是主上下文的窗口对吧但只怕多嘛但我们不是多轮对话了。其实没必要的。我后来直接把它就调拉到主窗口下来了所以这个用这个Skill来做。
发言者 2这个Skill是写到Skill.md里
发言者 1对对对。等会儿我给你看一下目录啊。先看这个流程。
画面内容终端显示Playwright代码正在执行
发言者 1然后开始用Playwright调了看到没有先打开Gemini。然后开始我要它激图激活这个生图模式。对吧用Playwright去找到生图的模式然后生图模式出来以后上传文件。对吧它用Playwright把这文件就上传了。上传之后那看到没有把这文件就拷过去了。拷过去之后它一开始出现很恶心的它要上来先读这个文件。我让它不要读了你主上下文窗口读完不很恶心了。你直接给Gemini就好了Gemini自动来那个。为什么我要用Gemini来那个Cloud无论你生成多好的提示词都不如Gemini自己读这份文档然后自己制定的方案好。所以给我一个很大的启示就是你不要规定它做什么。你不要规定它做什么。上下文给它越全。给它越全它其实做的效果越好。知道吧所以我现在对上下文是一个有另外一个考量了。就是上下文其实越全越好。嗯。好这给到它之后它就开始上传了。上传之后开始输入框。
画面内容终端显示Playwright正在输入文本浏览器界面显示文件已上传
发言者 1它这个是什么呢它有一个非常简单的我在Skill里面规定的。你根据用户上传的内容文件生成那这两页是它带进去的嘛。16比9是它规定好的。然后手写体风格。看到没有它把我的这个给带过去了。Skill给带过去了这就非常容易带了。然后开始那个然后等它那个产出。那这儿给大家并排看一下。噢应该是在这个。在这个里面。
发言者 2每一页就是一张图片吗
发言者 1每一页是张图片。你看我是让它先生成。
画面内容Gemini对话界面显示生成的规划方案随后开始生成图片
发言者 1看到没有这个是先生成规划。看到没有生成规划方案。看到没有手写体风格对不对这个上下文代入得很好。一开始不是这样的啊它有很多很多自己加工的好多东西进去。它给你把这个文件的理解什么全都给你加进去了。然后它生成了这么多细细图看到吗这是Gemini生成的啊。好Gemini生成之后我就我让它生成第一张。那生成第一张图片。
发言者 2这个就是都是通过API API发送
发言者 1不是API。直接通过Playwright。MCP来来调用的。
发言者 2噢。
发言者 2噢。
发言者 1对。MCP控制得非常非常精准。然后生成之后然后生成之后它开始点击下载。那这儿可以有一个下载按钮。
发言者 2自动化操作的浏览器是吧
发言者 1对对对对。
发言者 2所以这些话也都是Type进去的。
发言者 1都是Playwright传递过来的。它可以操控浏览器的。知道吧
画面内容浏览器界面显示图片生成完毕鼠标点击图片上的下载按钮弹出“Download full size”提示
发言者 1然后之后我这里面有个运行脚本我都会看给大家看一下我的这个脚本。就是我让它怎么因为它生成之后啊它已经脱离了这个浏览器了你知道吗它这个出来会弹出一个储存窗口存储窗口。
画面内容Gemini界面显示图片预览
发言者 1它已经脱出了这个浏览器Playwright已经操作不了了。这时候我要用用的是什么呢OS Scripts。我来做了一个Save Image的这个脚本。让它去调用脚本来操控这个。操控之后它就存下来了。存下来之后接着就是第二个了。看到没有我存下来之后到第二个了第二个继续生成。啊。然后生成之后继续存。存完之后因为我现在没有办法因为在这里面操作非常麻烦嘛。刚才那个非常麻烦我就没有让它直接去指定目录了。我就直接让它存。存到这个文稿里面了。
画面内容:终端显示文件移动操作,文件管理器中显示图片文件
发言者 1到文稿里面我就自己从文稿里面把它找到这个文件然后移动到我的当前目录下。看到没有找到这个图片。然后移动到我的工作目录下。然后在工作目录里面就有两张图片。这张图片我给你看一下。那就这两张图片在里面了。看到没有在这两张图片了。然后干嘛呢我又执行一个操作。它有一个叫PPT组装。实现组装PPT。也是一个Python脚本。
画面内容终端运行组装PPT的脚本随后自动打开PowerPoint软件显示生成的PPT
发言者 1一个Python脚本生成了PPT之后直接就然后开始自动打开了Open了。然后就给我弹出我这个PPT了。Boss就完成了。懂吗所以完全自动化。你只要给它一个目录就OK了。好吧。所以那这个里面大家再看一眼我的目录结构。
发言者 2这些可以通过API去调用吗
发言者 1呃不行。Gemini调用API我没有我没有试而且调用API很贵的。
发言者 2可以像那种CURL的那种REST API那种
发言者 1网页的那个也不太执行不太准确。
画面内容:展示项目文件夹结构,包括 "claude code app"、"skills" 等目录
发言者 1那在这里面在Claude里面你看Skill我一开始用Agents后来我给删掉了。我就把它转到Skill里面来了。这个Skill这里面后来定义这个Agents后来我也没用。啊。我把它直接放到我的Skill里面定义了个Agents。我都尝试这个了但其实效果都不好。那这个那这里面Scripts一个就是那个执行这个操作命令的。它其实核心就是一个了。操作命令了。等待等待它完成然后直接移动到目标。看到没有就找文件先是存下来然后找文件。然后找到文件把它移动到那个目录里面。这就是这是一个。第二个就是这个Assemble PPT的。PPT组装。其实也很简单。把每个图装进去就好了。然后这些脚本都是我让它自动生成的。简单的。这个Scripts这个是Skill。这是PPT Auto这是第一个。然后第二个它调用的Skill嵌套的Skill是什么呢是这个Skill。这个Skill就非常非常的那个我调了很长时间。为什么它总是不执这个逻辑它总是执行不好。就是Agent总有自己的想法。它不完全按照你的Skill来执行的。知道吧所以我给它一步一步一步一步最重要的是它那个提示词总是 不按照我的来。
画面内容:打开 "SKILL.md" 文件显示详细的Prompt编写规则、错误示例和正确示例
发言者 1然后你看这里面为什么我说示例正确的是示例和错误示例对它都很重要。输入这个之后后面它就开始很好了。就开始比较好的执行你的这个了。所以你看这里面有对吧要求必须怎么样。是吧必须怎么样不能错误的是什么正确的是什么。都是一样的。你看这里面也有提示词模板错误的是什么正确的是什么。然后怎么保存对吧不可省略等等这些。所以对Agent其实有很多的行为规范的限定才能保证它数据的质量。如果你要求操作非常精密的话。如果你说我不需要我就探索的比较比较灵活的那OK的。好吧。
画面内容打开生成的PowerPoint文件展示一张包含复杂流程图的幻灯片
发言者 1示例调用。我看看您那个关注的是它那个自动化流程。然后PPT生成呢生成呢为什么要用它来生成是因为我觉得这个Nano Banana那个效果太吓人了。它一份文档我是给它一张图片。
发言者 2可以点点点那个。
发言者 1对。铺满全页的图片。它自动的。然后我给你看一下它这是它生成的我测试的嘛。还有一个我生成了一张五页的我觉得做得相当相当好。
画面内容展示另一份名为“智能企业”的PPT包含精美的数据图表和排版
发言者 1这是这个。这是另外一个文档的。做得相当好了。知道吧就是我花了五分钟时间。给它一个文稿。自动给我做出了PPT。完全够用的。那非常好。主流的全部在里面。看。我就问你谁能用五分钟时间做出这么好一个质量的PPT。不太可能。对吧所以我这两天基本一直在研究这个。
发言者 2这个很系统。
发言者 1对呀。我就说分分钟就把他们全干死了。那比他做得还好。
发言者 2那您那个上传的文件内容是什么这个内容是这个。
发言者 1是这些信息的总结吗
发言者 1不是。是不是总结。是一份我自己写的文档。更全的。对更全的文档。真的总结得挺好的。非常棒。那这个是我我自己写的文档。那这也是用Gemini那这是之前啊我很久以前这个人在推特上我关注了他很久了。他写的文章还是挺好的。我根据他的一些理念和我自己理解然后我自己写了一份文档。用Gemini 2.5写的。这就是之前的。我就写得蛮好的。写好之后我就这个把这份文档给到这个谁了。给到这个3.0来画图了。
画面内容滚动展示源文档内容包括“RAG”、“MLOps”等章节并与生成的PPT图表对应
发言者 1这里面有非常非常多的关于这个智能体企业怎么来做智能体企业。基于智能体架构的企业。那看。这是我让它基于它的一些基础的思理念我重新写了一份东西。对吧。写出来之后你看这份文档再如果再加上这个。基本上非常清晰了。你的一套理念体系就可以非常好的展示出来了。知识工作就完全完蛋了。
发言者 2我有问题就是咱们信通院如果用的话可能跟咱们平常汇报还有点他们是那个模板的。
发言者 1那个模板很容易非常容易。你到时候告诉它我用采用这个图片的模板去上传上去给它就好了。或者你直接做一个那个刚才说那个Gem就是那个你上面里面有一些参考文档是什么就OK了。这个都简单。这个不容不难的。或者你把这个图缩小一点把那个上面做成多少多少比例的就行了。比例你调一下就OK了。
发言者 2就还有一个就是想跟您分享就是您这个不是图片嘛右下角还有那个图标。然后我看当时用的时候我做了一页就用那个Python PPT的那个代码它能直接做成又可以修改了。
发言者 1对。那我告诉你。不用这个。我说了另外一个方法。就我既然能够自动操作化这个我就可以操作化另外一个工具是什么。我看看啊。应该我有没把它导出来啊。这个我本来没打算讲的。我看。有个。这个都是我测试的。我告诉你还有一个什么方案啊直接用那个什么。直接用Canva来生成。做得很好。我看看啊日本深度游。我给放到哪了放文稿里了好像是。在下载里。噢这个。你看啊这是通过Canva自自动生成的。这是给它一个我说给它帮我做一个日本深度游的详细的这个方案嘛。它给我做了一个什么呢HTML文件出来。知道吗我把这HTML文件存下来之后我去作了一下确实还挺好的但是它里面的图片都没有。这些图片来源什么都没有知道吗这些链接都没有。啊这是一个HTML的。好我说根据这个HTML文件直接生成PPT用Canva生成的。知道吗在Canva里面生成的。大家看一眼。也非常吓人。它就生成这个了。
画面内容展示Canva生成的“探索日本”PPT文本框可编辑
发言者 1这是完全基于文字都可修改的。那。另外一个你我可以导导到这个Doc里面吧我看看。这个我已经把那个都删掉了我看看。Doc里面。修改。那。这就是直接导到这边来了。对吧而且最重要的是什么它还可以将来啊。别的再说吧。你们如果用这种我就说它真的非常好用。那直接在这里面可以修改的。你直接可以修改图。知道吧用Gemini来做的。这跟Copilot很像了。但是比如这张图我就原来分辨率很低我直接让它生成成2K分辨率的。
画面内容演示在幻灯片中选中图片使用Gemini功能进行替换或提升分辨率
发言者 1对吧这些图都是在Canva里面。在Canva里面它自动就找到了。懂吗好。另外一个可改怎么改我告诉你。直接修改图片。直接在这里面用那个我试过直接你比如说把这一块字我全部隐引掉。然后重新打一行字上去。没有问题的。我都干过的。这个可能更简单。更简单。因为它这些排约排版都不要动嘛。对吧你比如说哪些字不对了你想改你可以完全流程。那整体我不给你发了嘛。对吧我直接用那个改了一下嘛。用图片那个。那个是长信息图。还有一个就是一张长信息图。也很有价值就是你不用多我不用那么多页。我就一张图把我这个这份这次文档的要点给你总结出来一张图。做得非常非常好的。长信息图做得也非常好。对吧那个他知道他看过。就是我们给医院的那个。设计的也非常好。对。好吧。所以我就是说接下来视觉这块真的是已经超出我的想象很多了。嗯。怎么把这样的好的能力对吧包括你给它一个视视图片它的理解也很也很到位。嗯。包括视频。好吧所以我就是说Gemini真的很吓人。非常吓人。嗯。
发言者 1好吧。今天要么就分享这么多因为时间关系。
发言者 2行。
发言者 3好。
发言者 2我就做Skill的话需要用一下Cloud那个账号是吧
发言者 1Cloud我你找一下姜正达吧他手头有两个账号。
发言者 3噢好嘞。
发言者 3好。
发言者 1不行就再开一个。
画面内容:黑屏