Files
AIEC_Skills/会议转写测试/20251202会议转写/gemini清理前_2025-12-02.md
2025-12-11 14:19:36 +08:00

2510 lines
213 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

**会议日期**2025-12-08
**参会人员**:待识别
---
<!-- 来源文件:会议视频转写-1.txt -->
以下是该视频内容的逐字语音转写及画面内容提取:
**画面内容:** 视频开始,画面全黑。随后屏幕中央显示白色文字:“信通院云大所市场部-张媛媛”。
**发言者(闫旭隆):** 呃我看用媛姐正好开组会好像不太...不太方便。
**发言者(连云波):** 嗯。对。我记得好像...学号...或者是学号过去更好。
**发言者(闫旭隆):** 呃,可以啊。
**发言者(连云波):** 它这个叫什么专业版?尚未认证。
**发言者(闫旭隆):** 专业版。应该是个人的吧,感觉,个人的。
**发言者(连云波):** 如果是企业版,那就可以选好几个账户了。
**发言者(闫旭隆):** 嗯,嗯,对。
**画面内容:** 00:28 画面出现白色加载圆圈。
**发言者(连云波):** 我叫他了。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 听得到吧焦老师?
**发言者(焦老师):** 嗯听得到。
**发言者(连云波):** 喂?听得到吧焦老师?
**发言者(焦老师):** 喂?喂?听得到。
**发言者(连云波):** 喂?
**发言者(焦老师):** 你...你那没声音?
**发言者(连云波):** 没声音吗?
**发言者(焦老师):** 能听到,但是就是说...你那是不是没听到我声音?
**发言者(连云波):** 听到了呀。
**发言者(焦老师):** 昂。
**画面内容:** 01:05 屏幕变黑。01:09 屏幕显示“信通院云大所市场部-张媛媛”。01:14 屏幕变黑。01:20 画面切换显示 Windows 桌面,正在打开一份 Excel 表格标题显示“P0项目进展情况”。01:23 画面切换至微信电脑版界面。
**发言者(连云波):** 那个,关于这个会议纪要这个...基本上找到一条路径了。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 这条路径...我看一下啊,这里面应该能不能找到。
**画面内容:** 01:36 微信界面点击切换到与“江达”的聊天窗口显示发送过一个名为“20251201-问题摘录...md”的文件。
**发言者(连云波):** 这条路径...呃...我是发给过你是吧?
**发言者(闫旭隆):** 嗯,是不是...
**发言者(连云波):** 不行你你你来那个...分享那个。你把我发给你的那个对话...
**发言者(闫旭隆):** 不在这里啊,应该是个人的。
**发言者(连云波):** 好像是发给我的那个...但是你只截了个图。
**画面内容:** 02:07 微信界面点击切换到与“连云波”的聊天窗口。02:11 打开一张聊天记录截图。02:14 滚动浏览微信聊天记录,显示关于 Gemini 的讨论内容。
**发言者(闫旭隆):** 不知道你发没发截图...
**发言者(连云波):** 哎哟,我也我也...稍等啊...
**发言者(连云波):** 那我就描述一遍吧我这个。
**发言者(闫旭隆):** 行。
**画面内容:** 02:32 切换至 Google Chrome 浏览器,显示 Gemini 界面标题为“信息系统建设方案书工作指导”。02:37 点击浏览器插件栏。
**发言者(连云波):** 我一直认为那个...我们的语音现在识别是不是...因为会议纪要识别效率很低嘛。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 我一直认为纯粹的语音,它因为好多背景信息都是没有的。文字它不知道的,我们的文字稿它不知道。我们的这个视频,它也不知道,对吧,我们的切换它也不知道。
**发言者(连云波):** 所以从这个角度来说,多模态以后一定是做文字识别的最重要的一个...或者说最...最...最终的路径。
**发言者(连云波):** 后来呢...上周那个Gemini出来之后...我觉得是...非常好。然后我就拿那个...那个视频去测试了一下我和...正好我跟江南达开了大概半小时的会议。
**画面内容:** 02:58 浏览器中点击右侧历史记录打开名为“信息系统建设方案书工作指导”的对话记录。页面显示上传了一个名为“2025112618...的继续会议-视频.mp4”的文件。
**发言者(连云波):** 我记得我上传中国最多一个小时的。半个小时的会议我上传上去了。上传上去之后我让他原文转写我这所有视频里的...这个文字稿。你们大家往下看一下啊。
**画面内容:** 03:01 页面向下滚动,显示 Gemini 输出的“时间轴00:00-03:40”及其对应的文字描述内容。
**发言者(连云波):** 基本上...你看,它是...呃...可以看得到什么Lian正在操作电脑查找文件。
**发言者(闫旭隆):** 对吧。
**发言者(连云波):** 然后画面静止黑屏连接,往下可能还有吧。
**发言者(闫旭隆):** 对,开始讲解。
**发言者(连云波):** 它里面是什么呢?当然也有很多其实画面就没有没有...没有变化了。它现在...我特意对了一下,基本上...没有错误的那个单字了。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 没有了。更重要的是什么?这个模型...最厉害的是...它本身就是多模态的你可以什么你可以对这个视频需要提取的内容直接用prompt来进行调整。
**发言者(闫旭隆):** 知道吧?
**发言者(连云波):** 所以有可能...最厉害的做法,如果它具备这样的能力的话,原字能够写好的话,如果我们测试下来确实很好的话...直接给它一个会议模版...
**画面内容:** 04:42 页面继续向下滚动,显示更多文字转写内容。
**发言者(连云波):** 你就可以...就把视频给它,给它一个会议模版,它就有可能直接生成,就一步行之到位了。
**发言者(连云波):** 那方法有可能在Gemini上做也有可能...直接...我...或者...那个Gemini里面也有那种Gem...那种...
**画面内容:** 05:04 视频画面黑屏。05:07 视频画面恢复显示浏览器 Gemini 界面。05:15 点击浏览器左上角的 Gemini 图标回到主页。
**发言者(连云波):** 呃...要不我上回我先好像忘了好一点了,我上回把它共享吧。
**发言者(连云波):** 那,这里面有...有一个这个...Gem...就是在...就有点像什么呢?那比如说...
**画面内容:** 05:57 鼠标点击“Writing editor”图标。06:02 进入 Writing editor 界面。
**发言者(连云波):** 哦,稍微有点慢啊。那,它是可以...里面好多定义的你可以自定义自己的Gem就是在这里面你把会议纪要什么那个模版全部放进去。
**画面内容:** 06:14 点击输入框左侧的“+”号,显示上传文件选项。
**发言者(连云波):** 然后你把视频上传给它,在这里面你可以把视频上传给它,比如说在这把视频上传给它。上传给它之后根据你的这个会议纪要...呃那个模版,就自动给你生成。
**发言者(连云波):** 所以这个是我找到的目前最有效的路径。所以Gemini大家肯定要用了因为它的多模态能力是最强的而且它上下文是最长的。
**发言者(连云波):** 好吧?那这回我交给那个...旭隆,去白薅一个月的,你们先薅一个月试试看。对吧,那个通过上它那个...试用用户。
**发言者(闫旭隆):** 是。
**发言者(连云波):** 呃,那到时候你把那链接分享给大家就行了。
**发言者(连云波):** 其实...我用下来Gemini目前...就是...应该说...就是...能力是最全面的。不应该说不一定是最聪明的啊...就最聪明我现在觉得GPT...GPT那个5.1啊,还是聪明。
**发言者(连云波):** 但是最全面的...就是就是这个...Gemini。而且它最强最强的是它多模态尤其是视觉能力是超强超强的。强到你都不敢想象。
**发言者(连云波):** 呃,我这段时间用下来我看外网的...所有Gemini的这个介绍。我到时候告诉你们我用它来做PPT的过程。
**发言者(连云波):** 好吧。所以,这个...是我觉得大家一定要用好Gemini至少在接下来的这这这个一段时间里面可能除非有下一个模型超越它了。就这个用好主要就是赋能我们日常的工作。
**发言者(连云波):** 嗯...我先把它用来做会议纪要的这个转写。对吧,只要有了会议纪要转写之后,这些东西留下来之后,你看视频也留下来之后...后面能做很多很多很多加工的工作。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 知道吧?
**发言者(闫旭隆):** 嗯嗯。
**发言者(连云波):** 这就非常非常容易,就后面包括学习啊,包括研究啊,什么都可以再在这个...我们这个视频或者说这个转写的基础上面。
**发言者(连云波):** 所以我们下接下来会...看看第一,我们的那个视频怎么保存。它现在因为大量的重复静止的画面嘛,就其实压缩下来就效...那个叫什么...视频压缩的那个大小,或者说整个文件的这个...提...体积不会太大的。
**发言者(连云波):** 所以我觉得可以考虑一下把视频作为一个...作为我们以后素材留下来,因为它它是最全面的。文字也有了,对我如果转写的文字也有了。文字、图像、音频都在里面。好吧,所以把这个留下来。
**发言者(连云波):** 第二个呢...就是多模态一定是我看到的未来...最接近...就最...最...说呢,使用起来最方便的一个模型。它不用你专门去再思考怎么去转换。
**发言者(连云波):**到时候我再告诉大家。好吧所以这个从这个角度来说给大家的建议就是Gemini这个Pro...1.5 Pro这个模型一定要用起来了。而且我还没来得及使用它...外网是非常非常的火爆利用...我还没利...来得及使用它做那个...编程。大家认为编程它的前端...我自己试下来的前端...已经...不需要再有什么...任何模型什么其他复杂的造作了。那给他一句话,他一个前端就全部给你做好了。非常非常的好。而且做出来的效果比一般人做都好。
**发言者(连云波):** 好吧,所以...能用它来做非常多的开发工作。非常非常多。好吧,所以前...我现在给大家推荐什么就是前端用Gemini。对吧然后...中间逻辑...整个代码的构造部分就用那个...Cloud。然后整个项目的...如果可以的话...如果在有的话就是整个项目的那个...修复或者说整个的这个查找问题或者整个测试可以用Gemini...那个什么GPT的那个Codex。他们三个应该是这么来理解。但是如果说只有一个那也是能用的。好吧在最好的组合可能就是这样的。但是不管怎样你得首先把它每一个工具里面的擅长搞清楚。那主力我现在用下来还是Cloud Code。主力还是Cloud Code。
**发言者(连云波):** 所以我现在基本上Cloud Code...为什么主力是Cloud CodeCloud Code是因为它的工具调用能力目前无人能及。就它的工具调用和工具理解能力是没有人能赶过它的。所以我们做Agent的话...对于工具的理解肯定是第一位的。
**发言者(连云波):** 好吧。行吧,先先这么多。你先接着往下。所以会议纪要这个事情就是这样的。
**发言者(闫旭隆):** 嗯。那先会议纪要。
**发言者(连云波):** 嗯。
**画面内容:** 10:17 屏幕黑屏。10:24 屏幕恢复显示浏览器界面。10:39 切换至 Windows 桌面,显示文件夹内容。
**发言者(闫旭隆):** 呃...会议纪要Skill主要是...改了一下整体的架构。就之前是用那个索引...搜索。
**发言者(连云波):** 嗯。
**发言者(闫旭隆):** 然后我改成了就是全量的...
**发言者(连云波):** 全量读取。
**发言者(闫旭隆):** 确实确实可以。
**发言者(连云波):** 可以的是吧?
**发言者(闫旭隆):** 确实可以。
**发言者(闫旭隆):** 然后我...大概演示一下那个...
**画面内容:** 11:15 打开文件夹 `AA_Work` -> `skills合集` -> `.claude` -> `skills` -> `meeting-minutes-generator-v1`。11:32 打开文件夹内的 `Phase2执行流程图.drawio` 文件。
**画面内容:** 11:42 `draw.io` 软件正在加载。11:48 打开了流程图,标题为“工程类会议纪要 Skill 执行流程图”。
**发言者(闫旭隆):** 这个是那个映射逻辑。
**发言者(连云波):** 哦。
**发言者(闫旭隆):** 就是每...每一...每一个的...每一个字段...每一个字段的来源。
**发言者(连云波):** 嗯。
**发言者(闫旭隆):** 来源,就是画了一个映射逻辑的图。
**发言者(连云波):** 你在Skill里面会把它这样的逻辑写进去吗
**发言者(闫旭隆):** 对。
**发言者(连云波):** 我跟你说...你这个很重要。我自己在做Skill过程当中啊...我总有时候觉得Claude自己的逻辑...清晰。它容易瞎改。而且改完之后它...改前忘后,改后忘前。
**发言者(闫旭隆):** 对。
**发言者(连云波):** 好人。目前...我认为它现在最...最...最缺的就是逻辑的一致和前后的连贯性。
**发言者(闫旭隆):** 这个算是工程类的,就是每一个字段的来源。包括...一些就是上周都提到的...负责人要改为原负责人。
**发言者(连云波):** 哦。
**发言者(闫旭隆):** 就是第一个字段代表着这个项目原本交给谁了。然后...呃...
**发言者(闫旭隆):** 截止时间我也改为原截止时间,就是上周会议纪要定下的这个任务的截止时间。
**发言者(闫旭隆):** 然后改动还有...最核心就是那个Agent内部它是全量读取的。
**发言者(连云波):** 其实把这个做完。
**发言者(闫旭隆):** 然后...那个...哦对,还有这个。这个上周没提...没提到就是...不是没提到,就是上周发现它那个进展情况应该以会议转写为优先。
**发言者(连云波):** 啊改进去。
**发言者(闫旭隆):** 这个也改进去了。
**发言者(闫旭隆):** 然后下周逻辑我也顺了一下,也是应该优先,就是会议转写优先。
**发言者(闫旭隆):** 然后我...我测下来发现它可能最...最大的问题还是那个文字的语义识别...就交给谁了,交给谁了...
**发言者(连云波):** 目前...我我就觉得就是...目前会议纪要里面最头疼的一件事情就是文字转写的准确性和上下文的...这种叫约束能力。这两个是最核心的。你转写能力如果不清晰,然后没有又没有很好的约束,那它基本上...因为我们是在...已经非常清晰的上下文背景下来开这场会议的。
**发言者(闫旭隆):** 对。
**发言者(连云波):** 它是不知道的。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 所以这些上下文不给它它是很难处理的。
**发言者(连云波):** 所以从这个角度来说...后面...到底怎么...就是怎么来怎么怎么用什么样的工具。比如说到底还是继续用Claude这个来Skill来做这个Claude的这个这个来来处理会议纪要还是用Gemini。比如说文字出来之后用谁来...谁谁来处理。
**发言者(连云波):** 因为有可能不行就调Gemini那个API。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 然后在Cloud里面调Gemini的API来做。
**发言者(闫旭隆):** 对。我觉得这样自动化程度更高。
**发言者(连云波):** 对。然后API现在我看好像还行。我们这个...如果转写成文字了也没多少。
**发言者(闫旭隆):** 嗯。还行,还可以。
**发言者(连云波):** 我记得好像半小时6000多字嘛。一分钟200多字嘛。
**发言者(闫旭隆):** 对。差不多。
**发言者(连云波):** 6000多字你就算一个拥...5个小时不也才3万字嘛。3万字也就差不多2万多个token。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 2万多token对于它20万token来说...哦对于它100万token来说太小了。
**发言者(闫旭隆):** 对吧。
**发言者(连云波):** 嗯,所以我说这个都是可以考虑的。
**发言者(闫旭隆):** 呃实在不行就切开组。
**发言者(连云波):** 好吧所以这个没关系的按照这个Skill先往下走通过这个Skill来...来来...先把整体的那个识别...工作Gemini做完之后再用这个Skill来加工。
**发言者(闫旭隆):** 嗯,我觉得可以。
**发言者(连云波):** 我觉得那个就是有点高。
**发言者(闫旭隆):** 下周工作安排。
**发言者(连云波):** 你知道吧,整个会议最重要的,是下周的工作安排。以后你们一定要知道,开会的目的不是为了...首要目的是为了解决问题。其次才是为了分享知识。分享知识其实不完全一定需要工作里面讨论的。对吧,不一定是要周会的。有的时候就直接在...我们里面就直接分享了,讨论也避开。所以只有会议纪要是需要大家共同坐在一起的。
**发言者(连云波):** 尤其是未来以后我们如果人多了,项目分散以后就更是了。
**发言者(连云波):** 好吧,每人每个人都做一部分,那完全需要一个大项目,对吧,有人负责前有人负责后。就需要信息沟通。
**发言者(连云波):** 好吧,所以整个这个...会议里面最核心最核心的目的是为了得到下周的工作安排的合理安排。
**发言者(连云波):** 所以一切一切的逻辑都是往这儿聚的。能把这个写清楚,基本上大部分都问题不大了。因为你前面你想想,你信息...前面的信息得提取正确,你汇报的信息得提取正确,然后才能...逻辑理顺清楚,然后才能得出下周工作纪要。
**发言者(连云波):** 好吧。所以我说这个是非常非常重要。
**发言者(闫旭隆):** 嗯,然后...基本上...基本上这些其实都是要以那个文字转写...为为...最优先。
**发言者(连云波):** 对。下周工作安排一定是文字转写。
**发言者(闫旭隆):** 是的。
**发言者(闫旭隆):** 所以这些下周任务也基本上是...周报作为补充。
**发言者(连云波):** 补充嘛。对,基本上所有的都是...上下文,每一个都要给它一个上下文。
**发言者(闫旭隆):** 对。
**发言者(连云波):** 但是这里面有一个问题,你是每一次都是分...比如说...这些目标啊...是一次性的提取完成,还是说分次提取?一次性提取完成?
**发言者(闫旭隆):** 我是并行用搜索Agent。
**发言者(连云波):** 并行的。
**发言者(闫旭隆):**并行搜索Agent去搜然后把搜到的信息都反馈给主窗口然后主窗口负责读所有的信息然后写。
**发言者(连云波):** 哦。
**发言者(闫旭隆):** 那么再看那个整体的那个。
**发言者(连云波):** 我这...不,我的意思等会看那个结果。就啥意思呢,就这个方法,我觉得...呃...比较...就是清晰。但是...第一,我觉得它这个资源浪费太大了,每...每一个过程全部全量处理一遍。
**发言者(闫旭隆):** 对,这一个。
**发言者(连云波):** 这个肯定是太浪费了。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 第二个...会造成逻辑的割裂。因为你要在主窗口...主上下文窗口里面...我已经再去做一个...
**发言者(闫旭隆):** 我我我自己的改造啊,我试了。
**发言者(连云波):** 那个下周逻辑,就是大概这样。
**画面内容:** 18:03 闫旭隆在流程图中点击查看“三、会议总结...”部分。
**发言者(闫旭隆):** 呃,对,这个就是...映射逻辑。
**发言者(连云波):** 对。
**发言者(闫旭隆):** 然后可能...还有一个点是它识别...下周任务的时候...P0...它是根据语义来识别。
**发言者(连云波):** 比如领导说紧急...什么优先...
**发言者(闫旭隆):** 它就会识别为P0。
**发言者(连云波):** 对。就这个里面,这个是最难的。
**发言者(闫旭隆):** 对对对。
**发言者(连云波):** 就是...作为...我跟你说实话,如果它能做得到,比你们都强。
**发言者(闫旭隆):** 确实。
**发言者(连云波):** 因为因为人第一啊,我看你们现在的能力是低...目前...对于...就是整个项目里面的轻重缓急判的没那么清晰的。第二,我跟你说实话,你们都忘的。就说了这么多之后你们早就忘掉了。
**发言者(闫旭隆):** 对。
**发言者(连云波):** 会议当中内容你们早就忘掉了。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 你知道吧?有好度重要的就说到弄...所以你提取不出来的。
**发言者(连云波):** 所以它如果能提取出来,你可以这样...你可以让它给个建议。
**发言者(闫旭隆):** 明白吗?
**发言者(连云波):** 你让它先给出建议不要上来就生成P0。
**发言者(闫旭隆):** 建议优先级。
**发言者(连云波):** 哎建议排序是什么。然后人再给它一个反馈。
**发言者(闫旭隆):** 哦。
**发言者(连云波):** 这个里面是最重要的。就每个人,你看啊,每个人...其实都会得出一个你们下周工作的P0到P2的。
**发言者(闫旭隆):** 对吧。
**发言者(连云波):** 最好是让它发给你们。生成之后,每个人生成一个这个之后给你们确认一下。
**发言者(闫旭隆):** 对吧。
**发言者(连云波):** 给你们确认一下。这个是最好的。
**发言者(连云波):** 这样的话呢...把这个确认过程所有的材料你都保留下来。作为后续的强化学习也好啊,微调也好啊...
**发言者(闫旭隆):** 就知道,它就知道以后...
**发言者(连云波):** 知道了。不然的话它每次只能固定在这里。它每次就提取出来就是这么着,就是这样。它也没法优化。
**发言者(闫旭隆):** 明白。
**发言者(闫旭隆):** 嗯对,这个就是映射逻辑。
**发言者(连云波):** 嗯。
**发言者(闫旭隆):** 然后,你看所有的最后都是要到下周重点的。
**发言者(连云波):** 是。
**发言者(连云波):** 好吧。
**发言者(闫旭隆):** 嗯。
**发言者(闫旭隆):** 然后Skill的执行流程...
**画面内容:** 20:49 滚动查看 `draw.io` 文件中的“Phase 2: 工程类会议纪要生成 - 并行执行流程图”。
**发言者(闫旭隆):** 主要就分两步。
**发言者(连云波):** 哎,我告诉你们啊,现在已经有个新的...drawIO有一个开源项目有一个叫AI drawIO了我今天上午发给你们看啊。它这里面可以...就是你生成drawIO不是有有些错误啊什么的吗逻辑上有问题吗。你可以在这个里面直接...但是它要那个什么...它要API的。它要API它不要钱。但是API要用...就Gemini内个...我觉得它那个免费的API那个调用次数肯定是够用的。
**发言者(闫旭隆):** 嗯,那就行。
**发言者(连云波):** 对。所以你们用它可以直接在这里面修改。所以drawIO以后可能用起来更方便。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 另外一个到时候告诉你们可能有Gemini直接生成...现在不能修改啊,它直接生成可能...或者直接生成矢量图也是一种方案。
**发言者(闫旭隆):** 嗯。
**发言者(闫旭隆):** 这个就是工程类会议纪要的...流程...从上往下的。
**发言者(连云波):**Phase 1就是...
**发言者(闫旭隆):** 呃Phase 1就是一些输入数据...这个是都加载到了主窗口然后子Agent也都没加载。就是搜索Agent每次都会加载。
**发言者(连云波):** 加载这些所有数据是吧?
**发言者(闫旭隆):** 对,所有数据。
**发言者(连云波):** 嗯。
**发言者(闫旭隆):** 然后...呃...Phase 1是刚刚那个...输入数据的加载。
**发言者(连云波):** 啊。
**发言者(闫旭隆):** 然后...会议信息就是主窗口直接生成。因为主窗口已经有有这些了。就是已经足够生成。
**发言者(连云波):** 等会你这个P0任务列表是...是谁是上一个从会议转写里面出来的吗?
**发言者(闫旭隆):** 呃不是P0任务是...上周会议纪要...如果是有一个上周P0任务...
**发言者(连云波):** 你这两个P0任务列表我说了P0任务...
**发言者(闫旭隆):** P0任务列表是...它确定,就是它会整合...
**发言者(连云波):** 就是映射。
**发言者(闫旭隆):** 这个这个可能它是...呃...哦,我判断...啊整...重合...呃去重之后然后它给了子Agent。
**发言者(连云波):** 我是你意思。P0任务列表是指周报P0任务列表。那你写上。
**发言者(闫旭隆):** 就本周...
**发言者(连云波):** 周报,周报任务列表。这就不清晰了。周报。
**发言者(连云波):** 那个上周P0任务写...上周纪要的P0任务。对吧
**发言者(闫旭隆):** 对。
**发言者(连云波):** 嗯。
**发言者(闫旭隆):** 呃,这个...这个好像...这个任务列表...应该是它去重之后的。
**发言者(连云波):** 对。
**发言者(闫旭隆):** 它去重就是...呃...这两块去重之后形成了一个最终的P0任务列表。然后它就传递给子Agent的时候是会传递这个信息。就让子Agent知道我现在已经确认了...P0任务有哪些然后去搜索。交给子Agent去搜索。这也是给子Agent的一个上下文。
**发言者(连云波):** 那你给它那个上周P0任务...纪要里的P0任务是...周报的P0任务列表是指把所有人里面的P0任务列表全部提取出来了是吧
**发言者(闫旭隆):** 对。提取出来之后每个人生成一个...
**发言者(连云波):** 对,然后还有上周纪要的都整合起来,去重一下。
**发言者(闫旭隆):** 对。
**发言者(闫旭隆):** 然后就是并行提取。就是并行提取它会根据那个...会议纪要模版的字段...判断...就是哪些字段,刚刚那个映射表里需要涉及到...所有的字段。
**发言者(闫旭隆):** 呃...不是所有字段,主要是涉及到需要去文字转写里面去搜索。
**发言者(连云波):** 嗯。
**发言者(闫旭隆):** 就差不多是所有字段。有有很多字段都要去...都要依据那个文字转写去搜索。就是会议的转写文字。
**发言者(闫旭隆):** 它每次去搜的时候会调用这个Agent。所以这个Agent是通用的。只是...也不是通用,它里面是预设了很多种任务类型,然后...呃对,每一种任务类型它返回做了一个...Json的格式的约束。
**发言者(闫旭隆):** 所以它就...呃...能够并行执行。然后只要只需要主Agent交给它任务...输入是什么,输出是什么。
**发言者(连云波):** 嗯,懂了。呃...你是到里面去搜索是吗?
**发言者(闫旭隆):** 呃不是搜索。就是...就是全量加载嘛。全量加载,然后给它任务,自己去找,自己执行。不叫搜索。
**发言者(连云波):** 叫搜索是很容易出问题的。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 你知道为什么?就人的语言里面有大量的...
**发言者(闫旭隆):** 跳脱。
**发言者(连云波):** 对,就是...就就很多语言是不清晰的。所以我们会议当中很多语言没那么清晰,你直接搜索是搜索不出来的。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 但是...人只能上下文它通过上下文Attention的处理它是能够理解这个...能够把这东西可能能提取出来。
**发言者(连云波):** 如果你搜索你RAG你是绝对RAG不出来的。
**发言者(闫旭隆):** 嗯。对吧。对吧。
**发言者(闫旭隆):** 然后搜索并行完之后就每一步都会...项目进展都会...每一步把...这些都是我预设的Json就是每一个任务会对应不同类型然后它根据那个类型会反馈出这些我要的信息。
**发言者(连云波):** 那我问你一个问题。你把这几个问题同时合到一个问题...就传给它。就几个Agent并发的时候我把这几个全部合进到一个里面让它执行。
**发言者(闫旭隆):** 因为都是加载一次性全量的。
**发言者(连云波):** 嗯。
**发言者(闫旭隆):** 嗯...合并...行肯定是行。
**发言者(连云波):** 行肯定是行。
**发言者(闫旭隆):** 呃我现在...也行。但是...我现在就是靠主窗口,其实...我觉得每一个Agent...
**发言者(连云波):** 啊你现在是把所有的东西全加载到主窗口了?
**发言者(闫旭隆):** 呃对就就靠主窗口来进整合对。可能每一个Agent它只执行特定任务会找得更多一点。然后...意思它冗余重叠部分更多,它主窗口可能也更好给它整合出来。
**发言者(连云波):** 嗯,明白。
**发言者(连云波):** 那我问你,你主窗口里面...上下文其实也是,就是所有的上下文也都是加载的。
**发言者(闫旭隆):** 主窗口...包括...包括你...
**发言者(连云波):** 输入数据是给它了对吧?
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 然后你上周转写文本给它了吗?
**发言者(闫旭隆):** 也给...没给它。没给它。
**发言者(连云波):** 没给它...除了转写文本都给了。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 也就可能也能给。谁肯定能给。我听下什么意思...就是你接下来可能要讨论一个问题啊。这种方式是比较...可能是比较精准的。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 但是...逻辑会割裂的。就是你每个Agent提取出来东西...直接给到主Agent主Agent的时候...它没法建立起每个之间的相关关联性。
**发言者(闫旭隆):** 呃...相关关联性我是给它写了那个啥...
**发言者(连云波):** 嗯。
**发言者(闫旭隆):** 就是这些Agent...
**发言者(连云波):** 出来了。
**发言者(闫旭隆):** 出来之后我会给每一种返回的形式做一个映射的约束就是把我那个映射规则体现在这个Skill.md里。就是它主窗口接收到每一种类型的返回之后它会根据这每一种类型的返回去按照我给它的...给它的方法论去映射,然后...然后一起去合并整个主窗口。
**发言者(连云波):** 行。我我我...先看个结果啊。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 我这...不,我的意思等会看那个结果。就啥意思呢,就这个方法,我觉得...呃...比较...就是清晰。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 但是...第一,我觉得它这个资源浪费太大了,每...每一个过程全部全量处理一遍。
**发言者(闫旭隆):** 对,这一个。
**发言者(连云波):** 这个肯定是太浪费了。
**发言者(闫旭隆):** 嗯。
**发言者(连云波):** 第二个...会造成逻辑的割裂。因为你要在主窗口...主上下文窗口里面...我已经再去做一个...
**画面内容:** 视频结束。
<!-- ===== 文件合并边界 ===== -->
<!-- 注意:以下内容来自新文件,发言者编号可能与上文不对应 -->
<!-- 来源文件:会议视频转写-2.txt -->
发言者 1你一旦把上下文剥离之后……
画面内容:屏幕显示 ProcessOn 或类似的在线流程图工具标题为“Phase 2 并行执行流程图”,图表中包含多个 Agent 节点(如 User Proxy Agent、Agent C、Agent D1/Dn 等)。
发言者 1最全量的上下文剥离之后比如转写文本剥离之后它的效果一定是不如……我自己试下来的结果不如给它一个主窗口让它自己去处理的时候。但我不知道 Claude 的情况怎么样。就是你可以把一个一个单独的文本都给它提供,我举个最简单的例子啊,比如我给了它一篇文章,我让它文章生成一个 PPT对吧
发言者 1它可以读完这个文章之后给我两种方法一个是读完这个文章给我一个提示词对吧给我写一段很详细的提示词然后那个提示词去生成一张图。和我直接让它在主窗口生成一张图我看了这两个信息量差距是很大的。非常非常大的。
发言者 1就是什么意思……它真的是把这个上下文全部用在这个图形的……这个生成过程当中了。而且逻辑关系更清楚更明确。那么你现在相当于把提示词生成的结果给到主上下文你会丢失好多好多信息。
发言者 1嗯。
发言者 1这是我自己感觉到的到时候看看结果。而且可能会你自己会补好多逻辑你的主上下文里面会补好多逻辑的。
发言者 2嗯。
发言者 1所以我觉得最好是什么呢
发言者 2主窗口也加上它。
发言者 1不是。我建议你什么呢我先建议你把这个直接的转写文本Clean 一次。就把它那些脏的、那些重复的、什么全部都做一遍加工。
画面内容鼠标在流程图左侧的“Phase 1 基础信息提取”区域画圈示意。
发言者 2嗯。
发言者 1第一保证它尽可能的信息的全面的同时文章是这个……这个内容是紧凑的。没有太多太多重复的了。
发言者 2嗯。
发言者 1然后这个时候你把这主窗口直接加载给主上下文然后……对。
画面内容鼠标指向流程图中间的“主窗口全量Context全量Prompt”。
发言者 2那子 Agent 的上下文就是……子 Agent 的上下文也是这个。
发言者 1也是这个也是 Clean 后的。也是这个。Clean 后的。然后把子 Agent 的这个出去的东西,再给到……就提取出来的……就是相当于……其实某种程度上子 Agent 提取出来的就是一个 Prompt。就是你把这些所有子 Agent 提取出来的就是一个大的 Prompt。给到主上下文然后让主上下文结合那个 Clean 的文档,加上那个大的长的 Prompt因为你 Prompt 已经运算过一次了。
发言者 2加强了一次。
发言者 1加强了一次了。你懂吧
发言者 2明白了。
发言者 1我觉得这个可能会最准而且信息量损失最小。不要一次性上来就处理了。不然你每个人都喂垃圾进去。
发言者 2好的。
发言者 1好吧。我觉得这个可能是……另外还可以尝试一个更大胆的。你就把……你就把那个映射规则写在主上下文让它主上下文一次性处理看看结果。我不用子 Agent 了。
发言者 2嗯。
发言者 1我不用子 Agent 了。尤其是 Gemini 的情况下,你给 Gemini 调用一次试试看。好吧,那个……反正哪有 300 美金的 API 那个免费的。你不用都浪费了。
发言者 2行。
发言者 1好吧。你给调用一下试试看。然后我一次性就直接一次性处理。我把主上下文整个的这个 Prompt 给它非常好的……好吧,但是是最好是处理 Clean 之后的。
发言者 2嗯。
发言者 1嗯。
发言者 2行。
发言者 1反正也就是一个……差不多 3 万字吧Clean 之后差不多剩 2 万字左右。
发言者 2嗯。
发言者 1你这 2 万字一定是包含了大量大量信息的,都在里面的。还有你还有前面上……前面我们……上面之前之前的那些上下文。我相信这个上下文已经足够足够了。
发言者 2嗯。足够了。
发言者 1足够了。好吧。因为这个重复处理呢我觉得开销太大。这一个。第二个呢你处理的都是很多没有……被精加工过的就每个人都要精加一遍每个人都要加工一遍就是这个有点浪费。
发言者 2行。
发言者 1所以……这个逻辑行。这个先往下走完最后如果效果好先保留啊这个先保留。优化的方式就是我刚才说的。好不好
发言者 2行。那看看结果。
发言者 1看看结果吧。
画面内容:屏幕切换,打开一个文件夹窗口,然后打开一个 Markdown 编辑/预览工具VS Code 或类似编辑器)。
发言者 2这个是……用上周的资源生成的比较。这个是大家手动钉正过的。
发言者 1哦。
发言者 2对。
画面内容屏幕显示左右分栏的文档对比。标题为“工程类会议纪要2025-11-25”。左侧内容较少右侧内容较多。
发言者 1右边是你生成的左边是手动的
发言者 2右边是我生成的左边是手动的。对。
发言者 1右边是你生成的。那为什么请假人员刘艳红一直在……我也觉得很奇怪的。
发言者 2可能是上周……
画面内容:文档向下滚动,展示“参会人员”部分。
发言者 2因为应该是上周……
发言者 1是上上周上周的那个……就是上上周那个里面有。
发言者 2对对对。
发言者 1这事还挺那个的。
发言者 2是的。
发言者 1行吧。
发言者 2我是把那个……我删了之后再跑一遍应该就没事了。
发言者 1没事我就……我主要看到它逻辑是怎么生成的。
画面内容文档继续向下滚动对比“二、工作内容”和“1. 重点项目进展情况汇总”。
发言者 1右边是你生成的。
发言者 2对。
发言者 1发现存在逻辑映射不大。这个是它比较概括你这个你看没有你的就非常的具体。
发言者 2是的。
发言者 1为什么它那么具体它那么概括这可能就是……存在的差异了。
发言者 2是。
发言者 1另外就是我们选取……我们想要什么。我们想要的是概括性的呢还是想要具体的。我觉得具体性更好容易执行。
发言者 2是的。
发言者 1OK。
画面内容:文档向下滚动,浏览表格内容,包括“项目名称”、“负责人”、“截止时间”、“项目进展情况”等列。
发言者 1第一个还是不错。第二个呢
发言者 2公众号。
发言者 1都通已经不行了OK。需求方反弹……
发言者 2这就是上周的……
发言者 1上周的你这个任务是……
发言者 2你把它都标注你把它标注下来了。不要直接删。
发言者 1好好好。
画面内容:文档继续向下滚动。
发言者 1这个我觉得……领导建议和领导指示是这块啊。
发言者 2嗯。
发言者 1首先第一可能是大家共同商量的结果。对吧
发言者 2嗯。
发言者 1你感觉就是……最后这块感觉就是最后的……
发言者 2解决方案。
发言者 1领导建议那写成解决方案。
发言者 2好的。
画面内容文档滚动至“2. 重点项目问题及解决方案”。
发言者 1这块……
发言者 2问题 1。
发言者 1会议纪要 Skill 信息提取准确性问题。你看这里有一个没提取出来就是……你记得是要找……找加力去商量。
发言者 2这个你没做在里面。
发言者 1这里边有个要点没有提取出来。你把它对上……
发言者 3女声是不是你没做那个……
发言者 1为什么没提取出来是主……是你转写文本里就没有啊还是……
发言者 2呃……
发言者 1左边这手工加的吗
发言者 2手工加的吗我看……
画面内容:切换浏览器窗口,打开 Bing 搜索页面,然后点击收藏夹中的某个链接,进入 HackMD 页面。
发言者 2刚才有个……呃我找那个……线上的共同编辑 Markdown 的……
发言者 1对。
画面内容HackMD 页面加载中随后显示“工程类会议纪要2025-11-25”。
发言者 2能展现……或者不行以后那用什么
发言者 1但你不一定能……
发言者 2Google Doc 是可以多人编辑同时呈现的。
发言者 1有。
发言者 2噢对那这个应该是本来就有的。
发言者 1对。
画面内容:切换回 HackMD 页面,鼠标选中“项目组导致的事情主要由主理人承担后果不再推诿”这一行。
发言者 1这里……
发言者 2有。
画面内容:切换回 VS Code 的文档对比界面。
发言者 1这里没有。
发言者 2就是它本来就带的。
发言者 1本来就带的对吧
发言者 2本来就带的。
发言者 1这个你要看它为什么它没有提取出来。
发言者 2嗯。
画面内容:文档对比界面,查看“问题 3运营信息思维信息提取展示不明确”。
发言者 1再看看。
画面内容:文档向下滚动。
发言者 1下面那个……
发言者 2下面……
发言者 1差不多。
发言者 2也是差不多。
发言者 1反正我看觉得左边那个……归纳的好像更……
发言者 2更……
发言者 1也都对。
发言者 2嗯。
发言者 1也都对。两个都对。对吧两个都对。
发言者 2是。
发言者 1反正这个反正对的先放着后面再……再那个什么。然后……需求澄清 Skill完成多项……1.0 版本测试。哎这个 1.0 版本测试我觉得左边的更好。
发言者 2嗯。
发言者 1完成 1.0 版本测试。更细一点。
发言者 2更细一点。
发言者 1所以你可能要看一下你的这个里面……比如说……你完成动态优化里面写一个……你完成 1.0 版本测试,对吧?
发言者 2嗯。
发言者 1然后再往下。
画面内容:文档滚动至“问题 5数字人 PPT 需求文档存在产出问题”。
发言者 1效果……测试人员……
发言者 2问题描述。
发言者 1问题描述。
发言者 2嗯。
发言者 1问题描述。
发言者 2嗯。
发言者 1嗯……
发言者 2嗯……
发言者 1这里面都好一点。
发言者 2呃……
发言者 1问题描述。
发言者 2更好肯定……肯定是人改的更好。
发言者 1这是人改过的。
发言者 2这个是人改的天赋比较大。
发言者 1对。
发言者 2但是我觉得……比较接近。
发言者 1主要的要点是有了。
发言者 2主要的要点是有的。
发言者 1嗯。以前没有的上一版本没有的也有了。
发言者 2这句话是……是我加的。
发言者 1加的是吧
发言者 2对。这个是它自己写的。
发言者 1Opus 做专家评审……这个……我只建议做多轮博弈。
发言者 2嗯。
发言者 1嗯。
画面内容:文档继续向下滚动,查看“问题 6日报驱动系统架构设计不系统”。
发言者 1再往下。日报……日报驱动系统……这块全部丢掉了
发言者 2那个左边吗
发言者 1左边左边。日报驱动系统……
发言者 2这个是我……我不到。
发言者 1你不知道这个。
发言者 2那么换……比较……
发言者 1嗯。改为全量项目……
发言者 2嗯。
发言者 1再往下。
画面内容文档滚动至“4. 组内成员工作进展”。
发言者 1这个……
发言者 2这个可能也删了。嗯。
发言者 1天眼查需求明确……这个已经明确了吗
发言者 2那个……正好天眼查需求明确。
发言者 1现在的……现在的情况是我这边已经跟小鹏把这个接好了然后具体的技术实现然后您……前……前几次会议吧然后您也在会上提过就是说让江老师……就是出一个技术的一个方案一个时间方案然后可以帮助小鹏可以自动更新他那个……就是他那个……客户库。
发言者 2对。嗯。然后目前的话应该是江老师正在做吧。
发言者 1或者在做吧。好反正先对一下这个 Skill。逻辑思考整理……
发言者 2这个整理……
画面内容:文档滚动至“下周工作安排”。
发言者 1左边是改了吗
发言者 2左边应该是改了。
发言者 1左边这边是……
发言者 2这边。
发言者 1嗯。
发言者 2嗯。
发言者 1这个可能……
发言者 2这个可能也删了。嗯。
发言者 1天眼查需求……
发言者 2有。
发言者 1有。
发言者 2嗯。
发言者 1嗯。
发言者 2嗯。
发言者 1这个……这有个问题。这个错了到……
发言者 2对对对这个对原先版本也错了其实。这个错了那……
发言者 1反正……
发言者 2对。
发言者 1这个好像左边没有。
发言者 2因为我删了因为我写这个……的时候已经完成这个了。就完成了。
发言者 1对。
发言者 2嗯。
发言者 1嗯……
发言者 2嗯。
发言者 1这个……
发言者 2嗯。
发言者 1这个……
发言者 2嗯。
发言者 1这个……
发言者 2这个倒是有的都在再往下。
发言者 1那就没没没问题。
发言者 2对。
发言者 1有的。
发言者 2嗯。
发言者 1那基本……沟通耗费精力……没那么复杂。看看第四个第四个呢。
画面内容:文档滚动至“问题 4Skill 测试效率低下问题”。
发言者 1流程……嗯……
发言者 2嗯。
发言者 1重构……
发言者 2嗯。
发言者 1那个倒有一点你告诉大家再试试。
发言者 2嗯。
发言者 1嗯。
发言者 2这好像……左边没有。
发言者 1对。
发言者 2但是它本来就带的。
发言者 1本来就带的对吧
发言者 2本来就带的。
发言者 1这个你要看它为什么它没有提取出来。
发言者 2嗯。
发言者 1再看看。
发言者 2下面……
发言者 1差不多。
发言者 2也是差不多。
发言者 1反正我看觉得左边那个……归纳的好像更……
发言者 2更……
发言者 1也都对。
发言者 2嗯。
发言者 1也都对。两个都对。对吧两个都对。
发言者 2是。
发言者 1反正这个反正对的先放着后面再……再那个什么。然后……需求澄清 Skill完成多项……1.0 版本测试。哎这个 1.0 版本测试我觉得左边的更好。
发言者 2嗯。
发言者 1完成 1.0 版本测试。更细一点。
发言者 2更细一点。
发言者 1所以你可能要看一下你的这个里面……比如说……你完成动态优化里面写一个……你完成 1.0 版本测试,对吧?
发言者 2嗯。
发言者 1然后再往下。
发言者 1问题描述。
发言者 2问题描述。
发言者 1问题描述。
发言者 2嗯。
发言者 1嗯……
发言者 2嗯……
发言者 1这里面都好一点。
发言者 2呃……
发言者 1问题描述。
发言者 2更好肯定……肯定是人改的更好。
发言者 1这是人改过的。
发言者 2这个是人改的天赋比较大。
发言者 1对。
发言者 2但是我觉得……比较接近。
发言者 1主要的要点是有了。
发言者 2主要的要点是有的。
发言者 1嗯。以前没有的上一版本没有的也有了。
发言者 2这句话是……是我加的。
发言者 1加的是吧
发言者 2对。这个是它自己写的。
发言者 1Opus 做专家评审……这个……我只建议做多轮博弈。
发言者 2嗯。
发言者 1嗯。
发言者 1再往下。日报……日报驱动系统……这块全部丢掉了
发言者 2那个左边吗
发言者 1左边左边。日报驱动系统……
发言者 2这个是我……我不到。
发言者 1你不知道这个。
发言者 2那么换……比较……
发言者 1嗯。改为全量项目……
发言者 2嗯。
发言者 1再往下。
发言者 1那个好像……日报驱动系统……跟这个就不一样了。
发言者 1需求澄清……领域专家的问题……它其实是这个。
发言者 2嗯。
发言者 1但是左边提取出来的是日报驱动系统……
发言者 2系统问题。
发言者 1这块全部丢掉了。
发言者 2嗯。
发言者 1是录音的问题吗
发言者 2录音……
发言者 1日报驱动系统……
发言者 2这应该录音是肯定有的。
发言者 1有。
发言者 2有。
发言者 1有。
发言者 1可能你这 Skill 管理……那块……逻辑有点乱,对吧?
发言者 2嗯。
发言者 1日报驱动系统测试系统不系统。
发言者 2嗯。
发言者 1是不是录音的问题
发言者 2有……
发言者 1有。
发言者 2有。
发言者 1那个可能……
发言者 2我……我不……猜测可能是我右边这个……我写提示词的时候让他以……
发言者 1嗯。
发言者 2以项目……就是以上面这些项目……
发言者 1哦。
发言者 2为……叙述……汇总的……
发言者 1哦。
发言者 2逻辑。
发言者 1所以它可能……
发言者 2新的就没有了。
发言者 1新的就不要了。
发言者 2这个要有……有可能。
发言者 1你看……你看这个……他那个……
发言者 2它那个……
发言者 1我要……
发言者 2对。
发言者 1这个……
发言者 2嗯。
发言者 1那个……
发言者 2嗯。
发言者 1这个……
发言者 2这个倒是有的都在再往下。
发言者 1那就没没没问题。
发言者 2对。
发言者 1有的。
发言者 2嗯。
发言者 1那基本……沟通耗费精力……没那么复杂。看看第四个第四个呢。
发言者 1流程……嗯……
发言者 2嗯。
发言者 1重构……
发言者 2嗯。
发言者 1那个倒有一点你告诉大家再试试。
发言者 2嗯。
发言者 1嗯。
发言者 2这好像……左边没有。
发言者 1对。
发言者 2但是它本来就带的。
发言者 1本来就带的对吧
发言者 2本来就带的。
发言者 1这个你要看它为什么它没有提取出来。
发言者 2嗯。
发言者 1再看看。
发言者 1这功能……调用 TF Skill 功能。
发言者 2这个其实就是为了……做那个……Marketplace 那个。
发言者 1嗯。
发言者 1你看未记报告吧。
发言者 2嗯。
发言者 1看到没有
发言者 2是。
发言者 1未记报告。
发言者 2有点聪明。
发言者 1对吧
发言者 2嗯。
发言者 1所以我跟你说它比你们那个……记忆力好。
发言者 2是。
发言者 1所以……因为太长了之后你们确实……没有人有耐心把它读完。就是问题其实……
发言者 2对。
发言者 1这个将来看看啊就是可能前期还是人要把那个……就所以我建议你写一个精简版的是什么呢
发言者 2嗯。
发言者 1精简版就是一个很……易读的文本。不要那种……那么多……就我跟你说实话我读那个原……原文转写的时候特别耗脑子。
发言者 2嗯。
发言者 1你知道为什么吗
发言者 2嗯。
发言者 1就它逻辑老是中断了。因为你动不动错动不动就错。
发言者 2嗯。
发言者 1就是你思路完全被打断了你就根本没办法推进。所以我后来跟你……刚才我们 Share 的那个最大的好处是什么?
发言者 2嗯。
发言者 1它几乎每个都是我们说话时候的……原风不动的给你转述。哪怕有一些语气词啊有一些那个啊它……错误得少你……读能读得下去。
发言者 2嗯。
发言者 1你知道吧
发言者 2嗯。
发言者 1所以我……我……我就说那个你把它稍微改写……改写就能成为……大家能够……很快能够……读的东西。
发言者 2嗯。
发言者 1对吧
发言者 2嗯。
发言者 1而且我跟你说这是很关键的。我……我下面给你们建议是什么呢就是你要生成一个……每个人一份的……会议纪要。
发言者 2嗯。
发言者 1就是这很快了呀。你全量生成完每个人给它一份。就是跟你相关的发言。
发言者 2嗯。
发言者 1你全部拿过来。
发言者 2嗯。
发言者 1好吧这样的话有助于你去……当你回忆不清那个……纪要……回忆不清的时候你可以回到那个版本……去看一下或者就是……你也可以……全量的那个文档就放在上面。
发言者 2嗯。
发言者 1标注好每……每个人和每个段时间。这样的话你……会议纪要里面这段时间一点回去就能看到原文。
发言者 2嗯。
发言者 1知道吧一点回去就能看到原文。
发言者 2嗯。
发言者 1这个……叫……GPT 就是这么干的。GPT 里面每一条都有它对应的时间点,一点回去就能看到你当时发言。
发言者 2会议也有。
发言者 1对会议也有对吧嗯。
发言者 2嗯。
发言者 1这个我建议到时候做一个……反正后面优化了。
发言者 2嗯。
发言者 1再往下。
发言者 1CC Switch……
发言者 2就是……这个是……左边有但是后来就删了。
发言者 1哦。
发言者 2对。
发言者 1协同架构重做。
发言者 2嗯。
发言者 1这也你也知道。
发言者 2这个可能也删了。嗯。
发言者 1天眼查需求已明确……
发言者 2那个……正好天眼查需求明确。
发言者 1现在的……现在的情况是我这边已经跟小鹏把这个接好了然后具体的技术实现然后您……前……前几次会议吧然后您也在会上提过就是说让江老师……就是出一个技术的一个方案一个时间方案然后可以帮助小鹏可以自动更新他那个……就是他那个……客户库。
发言者 2对。嗯。然后目前的话应该是江老师正在做吧。
发言者 1或者在做吧。好反正先对一下这个 Skill。逻辑思考整理……
发言者 2这个整理……
发言者 1这周……这周五要完成。
发言者 2应用。
发言者 1对。
发言者 2嗯。
发言者 1这个……这有个问题。这个错了到……
发言者 2对对对这个对原先版本也错了其实。这个错了那……
发言者 1反正……
发言者 2对。
发言者 1这个好像左边没有。
发言者 2因为我删了因为我写这个……的时候已经完成这个了。就完成了。
发言者 1对。
发言者 2嗯。
发言者 1嗯……
发言者 2嗯。
发言者 1这个……
发言者 2嗯。
发言者 1这个……
发言者 2这个倒是有的都在再往下。
发言者 1那就没没没问题。
发言者 2对。
发言者 1有的。
发言者 2嗯。
发言者 1那基本……沟通耗费精力……没那么复杂。看看第四个第四个呢。
发言者 1这个提示……所谓邮件发送。这个我当时是提的反正左边可能……删掉了。
发言者 2删掉了。
发言者 1呵呵呵。
发言者 2嗯。
发言者 1但是说……我现在就……到时候告诉你就是……你啊你下次……你可以用全量的……主上下文窗口全量做一次。我觉得你还能找到漏洞。
发言者 2嗯。
发言者 1因为你这个其实肯定信息有遗漏的。
发言者 2嗯。
发言者 1好吧。
发言者 2嗯。
发言者 1基本上……如果不……不那么复杂。其实……第四个第四个呢。
发言者 1文稿……
发言者 2嗯。
发言者 1那个倒有一点你告诉大家再试试。
发言者 2嗯。
发言者 1嗯。
发言者 2这好像……左边没有。
发言者 1对。
发言者 2但是它本来就带的。
发言者 1本来就带的对吧
发言者 2本来就带的。
发言者 1这个你要看它为什么它没有提取出来。
发言者 2嗯。
发言者 1再看看。
发言者 1这么复杂的东西啊……就是你想让……会议纪要……当然……先看啊。以后有个什么……我觉得我们会议有一个什么……就是赋予内容里面……
发言者 2嗯。
发言者 1就是……最好是一个什么状态啊
发言者 2嗯。
发言者 1你这个……我们这个会议刚开完没多久……或者就在开的过程中……你把前面的全量整理了。对吧
发言者 2嗯。
发言者 1然后……会上直接做一个确认。最好。
发言者 2嗯。
发言者 1知道吧这是最好的。
发言者 1这样的话会议成果是最清晰的。
发言者 2可以。
发言者 1因为时间上肯定来得及的。
发言者 2可以。
发言者 1嗯。
发言者 2嗯。
发言者 1再搞一个。
发言者 2不……不用。
发言者 1我就说啊后面可以弄这么一个东西出来。为什么呢就是……第一它这么复杂它完全靠它……的判断虽然非常非常困难。尤其是再判断 P0、P1、P2 这些事。
发言者 2是。
发言者 1对吧这个是最难的。
发言者 2对。
发言者 1这个……还是靠人。
发言者 2人觉得……想想想……想什么什么……
发言者 1还有一个方案是什么傻的方案就是……我每次会议上……我把会议纪要请给……就是这些东西请给……以后……人写……我……我……我自己去……在会上直接确认掉它。
发言者 2嗯。那就……那就是……直接……给到文字信息呗。
发言者 1对。
发言者 2那样也可以。
发言者 1我听不懂或者在语音上给它……信息也行。就……我们认为这个是 P0还是这个是 P1。
发言者 2嗯。
发言者 1就给它一个确认。那这样的话……
发言者 2可以。
发言者 1对对对所以会上就要……你要辅助它。你让它自己判断太难了。
发言者 2是。
发言者 1嗯。
<!-- ===== 文件合并边界 ===== -->
<!-- 注意:以下内容来自新文件,发言者编号可能与上文不对应 -->
<!-- 来源文件:会议视频转写-3.txt -->
发言者 1就是为什么人给他的建议是这个你看能不能推导出来这个相关的逻辑。如果推不出来就给他用。
画面内容:屏幕显示 Typora 软件界面,打开的文件名为“工程类会议纪要 2025-11-25”右侧为 Markdown 预览模式。
发言者 1嗯……
发言者 1零点八一点二。
发言者 2对。
发言者 1就是国内那个原来通常是那个不然是不是去改一改。
发言者 2这需要往那改。
发言者 1那都可以自己调整嘛是吧。
发言者 1这个是对的。
发言者 1这个是对的。
发言者 1负责人他负责人和那个……你看投标……进行中的那个就不一样了。
发言者 1这个是你改过吗
画面内容鼠标滚动至文档“4. 组内成员工作进展”部分,对比“已完成”和“进行中”的任务描述。
发言者 2这个是我用的是一个更更加准确的一个名称。
画面内容:屏幕保持在“组内成员工作进展”的“邮储玉”部分。
发言者 1那是两个项目完成和进行中完成就……不一样了吗
发言者 1完全是一样的呀。
发言者 1就是你看比如说完成了然后进行中的。
画面内容:鼠标在“已完成”和“进行中”的条目间上下移动示意。
发言者 1你用的是技术实现方式。
发言者 1你刚才说那个需求文档是吧
发言者 2对。
发言者 1然后技术实现方式。
发言者 1这是你自己改的啊
发言者 2对。
发言者 1OK。
画面内容:鼠标选中“进行中”列表下的“数智人需求文档及技术实现方式”。
发言者 1然后运营商的信息真推靶许。
发言者 1这不就是总确认跟你那个...
发言者 1但是明显不细……不具体。
发言者 2嗯。
发言者 1这也是你改的吗
发言者 2是。
发言者 1原来也是不具体的。
画面内容:鼠标指向“运营商信息挖掘系统需求总确认沟通”。
发言者 1我都不知道这是怎么来的。
发言者 2那个……没问题。
发言者 1没有我怎么……我就说……所以我得看下原来是什么样的。
发言者 1但是你看原来的。
画面内容:屏幕切换至浏览器窗口,显示 HackMD 页面,标题为“我的工作空间 / 工程类会议纪要”。
发言者 1原来也不知道是谁。
发言者 12号……2号……江平达……
发言者 12号……嗯这个是原来的。
发言者 1下个设计。
发言者 1也许是自己……
画面内容:在 HackMD 页面中查看历史记录或相关条目,鼠标悬停在“江平达”名字附近。
发言者 1哎呀我那个没看。
发言者 1我这……我看太快了……都下个设计。
发言者 1我都错过了那个。
发言者 1这个是我的活。
画面内容网页弹出提示框“Coming soon / 敬请期待”,随后关闭。
发言者 2这个是我的活。
发言者 1对。这是我的活。
发言者 1上……没错啊。
发言者 1我这次没错对吧
发言者 2错是没错。
画面内容:屏幕切回 Typora 文档,查看“进行中”的任务列表。
发言者 1它好像也不太对。
发言者 1你再都看一下……
发言者 1呃……比如说信息……这不在这里。
画面内容:再次切换回 HackMD 浏览器页面,查看表格内容。
发言者 1下个……这个……收到那个对对对。
发言者 1改的都是让大家都会认领。
发言者 1负责人……啊对。负责人……
发言者 1左边那个是你改的吗
发言者 2对。
画面内容:并在 Typora左侧和 HackMD右侧之间进行内容比对。
发言者 1协助完善……没必要。OK。
发言者 1这倒对的。
发言者 1视频两个P0变成P1……两个变成P1这倒对的。
发言者 1不是那个答疑系统对。也没错。
画面内容:查看 Typora 文档下方的“下周工作任务”列表,关注 P0 和 P1 的任务分级。
发言者 1搜索Skill功能调研那个大纲报告整理其实也不对的。
发言者 1但是没有写那个细……就那个细……
发言者 1我看一下上一周的。
发言者 1我都没……没提出来啊
画面内容:在 HackMD 页面向上滚动,查看“上周完成”部分。
发言者 2应该是那个没提出来。
发言者 1那确实是没提。
发言者 1没提出来。
发言者 1那你放到了那个考核……好一些。
发言者 1所以我跟你说你那个分块搜索一定会丢好多东西所以全文一定是最有效的。
发言者 1而你现在的又……又做了一次这种……加工之后再给提示词我认为也会丢的很多。
画面内容:屏幕停留在 HackMD 页面,鼠标在文本区域移动。
发言者 1知道吧。所以我建议你就还是尝试做一次全量的主上下游窗口的那个搜索。
发言者 1对吧。
发言者 1因为你……你并行都已经处理那么多次了不在乎主窗口输入输出这一次了。
发言者 2主窗口也没耗多少那个token。
发言者 1对啊。主窗口耗的还没几个并行多呢。
发言者 2对呀。
画面内容:屏幕显示 Typora 文档,光标在文档底部闪烁。
发言者 1对。然后我插一句啊就刚才说的那个是什么小童的那边的需求然后给到我的。
发言者 1那个我……我不太了解。
画面内容:鼠标在屏幕右侧空白处点击。
发言者 2就是那个天眼查。
发言者 2就是上次呃开会的时候联通说让你然后后续的话可以做一个就是帮助小童自动更新她那个天眼查客户呃那个数据库的那个的一个技术实现的一个方式。
发言者 2然后当时联通也跟你说了。
发言者 1对对对。
画面内容:屏幕画面未发生显著变化,仍显示 Typora 文档。
发言者 1那个是这样了后来我记得是这样啊回头再说吧。
发言者 1这个是后来……后来是说……说她不需要嘛我记得。
发言者 1后来现在……对你再确认一下她这个自动更新她要不要。
发言者 1好吧因为她说她现在也不需要每天更新那么多次了我记得。
画面内容:打开 Windows 图片查看器,显示一张流程图,标题包含“工程类会议纪要 SKILL 执行流程图”。
发言者 2对。后续小童她反正她没有跟我反馈过。
发言者 1行。行啊。对。所以你……所以你再确认一下。
发言者 2好的。
发言者 1那我先走。
发言者 1看看你的……看看你的那个那个文档。
画面内容:关闭图片查看器,回到 Typora 界面。
发言者 1呃……不需要确认不需要……呃……呃……
发言者 1你看阅读……你看那个阅读……
发言者 1左边反而少了一个。
发言者 1是吧
发言者 2嗯。
发言者 1对。
画面内容:在 Typora 中对比左右两侧的文本列表。
发言者 1搜集……OK……看看……看那看那……那个……输入的数据。
发言者 1那个……嗯。
发言者 1那都改了。
发言者 1确认……Cosmos对。
画面内容滚动查看文档中的“Cosmos 文档翻译”相关条目。
发言者 1Cosmos那个……输出……那个……应该有的。
发言者 2嗯。
发言者 1你看那个分类那个看。
发言者 1负责人……进行中……啊他这个是按照你周报写的判断他完成了。
画面内容:查看“进行中”的任务状态。
发言者 1嗯。对吧其实根据会议纪要他没完成。
发言者 1是吧
发言者 2嗯……嗯……
发言者 1一九文档其实肯定改了。
发言者 1他后来没……真……他自己把它改成完了吧。
发言者 1是吧
发言者 2对。
发言者 2嗯。
发言者 1他的逻辑判断上……
画面内容:鼠标高亮显示相关文本行。
发言者 1有点矛盾。你得矛盾。
发言者 1输入日报日报汇总。
发言者 1这个倒是有。
发言者 1是吧
发言者 1日报的模……模板。
发言者 1日报驱动当时上面你看他没有总结出来日报驱动。
发言者 1就是你这一版里面上面没有日报驱动这个东西。
发言者 2嗯。对。下面有。
发言者 2这可能是日报里。
画面内容:对比文档上下的“日报”相关条目。
发言者 1有可能。
发言者 1对。所以这个逻辑可……可能还是不全的。
发言者 2嗯……嗯……
发言者 1公众号网站……以前的内容。
发言者 1没有。嗯应用那个没有。那个上面没有。
发言者 1是吧
发言者 2上面也没有。
发言者 1文档这种东西。
发言者 1负责人……只能调研报告有。
发言者 1他不太懂。
发言者 2嗯。
发言者 1所以公众号……这个需求没有。
发言者 1左边没有。
发言者 1左边没有。
画面内容:查看关于“公众号”的任务条目。
发言者 1调用思路……两步去调。
发言者 1不需要……这个法子不对。
发言者 1去调这个Skill……也调到第一了。
发言者 1是吧
发言者 2嗯。
发言者 2嗯。
发言者 1去调这个……去调Skill优化啊……当时是让他做……
画面内容滚动至文档下方的“P1 搜索 Skill 架构调研及优化设计”。
发言者 1这个您当时让我发给江老师了吧。
发言者 2啊……有可能。
发言者 1对。可能……直接为……直接……直接为P0了。
发言者 1但是那个变成他们的P0了。
发言者 2对。对。
发言者 1你想这逻辑多复杂。
发言者 2对对。
发言者 2他怎么判……怎么数啊。是吧
发言者 2对。
画面内容:鼠标指向 P0 任务列表。
发言者 1这里面……逻辑肯定是有冲突。或者是没有。
发言者 1你看左边提取出来了测试推动但是……神丹成动放到了P0他是放到了P1。
发言者 1是吧
发言者 2嗯。
发言者 1那以前……是没有了。
画面内容:对比左右两侧关于“测试”任务的优先级。
发言者 1嗯。下周任务完成批量删除功能……这个……没有……这个不对。
发言者 1反正有……当时是给了这个要求。但后来不需要了。
发言者 2嗯。
发言者 1那就先……先保留吧。大概理解他的逻辑。
发言者 2嗯。
发言者 1日报启动也没有。都没有。
发言者 1服务器采购方案肯定没有。
画面内容:查看文档下方的“服务器采购方案”。
发言者 1服务器采购方案你上面是有的。
发言者 1上面是有的。
发言者 1对的。
发言者 1啊没有正常。
发言者 1你看服务器采购方案是……是江平达……右边。
发言者 1是江平达负责。服务器采购方案。
画面内容:在文档右侧找到“服务器采购方案”,负责人显示为“江平达”。
发言者 1嗯。上面是有。
发言者 1是是他是负责吗
发言者 1对对对但是林……林一民。
发言者 1对吧
发言者 2对对对。
发言者 2林一民没错。
发言者 2嗯。没错。
发言者 1没给他。
发言者 2对。没给他。
发言者 2嗯。
发言者 2对。
画面内容:确认负责人的名字。
发言者 1嗯。看总结。看总结吧。哪怕能……嗯。
画面内容:滚动至文档底部的“三、会议总结”。
发言者 1这个第二个里面的那个逻辑还没写进去了。
发言者 1是吧
发言者 2嗯。
发言者 1你这必须参考会议转写。
发言者 2嗯。嗯。
发言者 1嗯。没写进去。
发言者 1就是那个……怎么对。
画面内容:阅读“会议总结”部分的文本。
发言者 1这种……嗯。
发言者 1数据库更新……嗯……嗯……那个不动了。
发言者 1基础数据库更新……Skill那个管理……管理那个没动了。
画面内容:查看关于数据库和 Skill 管理的总结条目。
发言者 1嗯……嗯……一……一一映射。
发言者 1投标文件……那个也没……没放进来。
发言者 1左边投标文件没放进来。
发言者 1是吧
发言者 2嗯。
发言者 1右边也没有。
画面内容:检查是否包含“投标文件”相关内容。
发言者 1嗯。那个那个……通常……那个。
发言者 1需求开发Skill。
发言者 1全部……不是全量的。
发言者 1那也是个……嗯。
发言者 1对吧总的来说你上面是有进步了啊。
发言者 2嗯。
画面内容:鼠标在屏幕上随意滑动。
发言者 1另外一个你自己最好再做一次跟上一次直接总结出来那个文档你原文那个对比。
发言者 2嗯。
发言者 1是吧
发言者 2嗯。
发言者 2行。
发言者 1基本差不多了那整个逻辑……呃可以先这么固化下来然后先这么用吧。
发言者 1好吧。先这么用。
发言者 1用的……但是……就我给你的建议就是刚才那些建议你去再修改一下。我觉得差不多就都是这样子。
画面内容:屏幕画面静止在 Typora 文档界面。
发言者 1那么最核心的几个都更改啊。
发言者 1第一整个的文字转写换成Gemini这个我们就拿这个试试。
发言者 1文字转写换成Gemini来做。
发言者 1第二个做了那个之后呢做一个……就你可以让Gemini直接生成那种叫……全量版的但是不是逐字转写的。
发言者 1就是把核心……主要的……就是语气连贯的、没有错误的那个文字稿把它拿出来。拿出来。
发言者 1这个是作为以后的所有的输入。
发言者 1好吧
画面内容:打开 Windows 资源管理器,进入 `AA_Work_DeepResearch` 文件夹。
发言者 1第二个就是在那个基础上做一次全量的主上下游那个。
发言者 1Prompt加上这个处理后的文档或者一次性按照你那个Prompt原则。
发言者 1你把Prompt就……其实把Skill全部写到那个……主Agent里面去就完了。
发言者 2嗯。
发言者 1就Skill全部写到主Agent里面。
画面内容:在 VS Code 中打开 `req_auto_consolidator.md` 文件。
发言者 1对吧就是把那个……你等于把Subagent里面的所有逻辑映射呀什么这些东西变成一个Skill文件。
发言者 1放到让主Agent去读这个Skill就完了。
发言者 2嗯。
画面内容:屏幕显示 VS Code 编辑器界面,显示 markdown 代码。
发言者 1对吧这样试一次。我觉得效果不一定会差。
发言者 2嗯。
发言者 1不一定会差。
发言者 1好吧
发言者 1呃……或者就拿这这……这次这个做一次对比看看。
发言者 1然后再拿我们这次生成的好的文字稿再做一次两边的对比。
发言者 1这俩个对比完了差不多就能够确定是主上下文来处理全量的还是要用Subagent来处理。
画面内容:切换至 `requirement-generator-v1` 文件夹下的 `开发文档.md`
发言者 1好吧。现在呢我们有个执念我有时候也有问题的。我对你们上下文要求太高。
发言者 1之后每个人……把主窗口……我都觉得得干干净净的。
发言者 1呵呵。这是个执念啊。
发言者 2强迫症。
发言者 1对吧。对不一定准确。
发言者 1就是……但凡能够在主上下文窗口里处理好的就全部放到主上下文窗口。
发言者 1因为我们不是一个长连续工作的上下文继续。
发言者 2嗯。
发言者 1那个这种或者叫工作继续。如果是连续工作的你这方法一定是对的。
发言者 1因为上下文要越来越……
画面内容:预览 Mermaid 流程图显示多个阶段Phase
发言者 1所以你看有个人前两天做了一个非常有意思的就是强制每个Subagent只能工作十五分钟。
发言者 1超过十五分钟的算全部中断然后把你的工作产出扔给下一个Agent。
发言者 1不允许超过十五分钟上下文。
画面内容:在流程图预览中查看详细的节点和连线。
发言者 1跑上下文人就乱了。
发言者 2嗯。
发言者 1就我们现在人能连续工作八个小时。我们的上下文系统基本还是连贯的啊。
发言者 1甚至还可以拖到第二天。它不行啊。
发言者 1嗯。是吧
发言者 2嗯。
发言者 1好啊。那这个就先这样。好吧
发言者 1所以整整体的这个处理方案呢大概总结一下就是这样。
发言者 1当然再去总结一下它们出现的宏观的那这些问题的共同点。
发言者 1比如说在这个地方哎逻辑没清楚啊什么。
画面内容:切换回 Typora 的编辑界面。
发言者 1其实总结的目的总结出现的问题的目的是为了第一看看用什么样的解决方案。
发言者 1就是让它自己修改靠Prompt能修改还是靠人来帮它帮助它。
发言者 1知道吧所以现在它……就我们一定要记住它现在想完全脱离人是不可能的。
画面内容:滚动查看文档内容。
发言者 1但是人在什么地方给到最关键的帮助给它最有效。是我们要做思考的。
发言者 1啊你比如说在会上强调一下P0 P1这件事情给它帮助就很大。
发言者 2对。
发言者 1为什么它这个逻辑是真的很难很难去分析的。
画面内容:再次查看 Mermaid 流程图的复杂结构。
发言者 1好吧。因为你看它不知道你们每个人的年龄。它不知道你们的级别工作时间长短。
发言者 1对吧等等都不知道情况下。
发言者 1这些都作为我们的潜意识的上下文。
发言者 2嗯。
发言者 1知道吧你工作时间长我给你分配的任务和你工作时间短分配的任务不一样。
发言者 1对不对而且工作这优先排级也不一样啊。
画面内容:屏幕停留在复杂流程图的概览上。
发言者 1好吧。所以这些潜上下文它是没有的。
发言者 2嗯。
发言者 1我们也没有办法给它。太多了。
发言者 2对。
发言者 1好吧。所以也可以尝试着慢慢去给它。把这些潜在上下文变成显性上下文把它显性化出来。
发言者 1但是这个……也不见得就都对。
发言者 2嗯。
发言者 1这只能进步。所以它是在不断不断进步的。
画面内容:鼠标在屏幕上画圈示意。
发言者 1好不好
发言者 2嗯。啊。
发言者 1所以就是说……就把这些问题提取出来看用什么样的方式帮助它。
发言者 1好吧我先走。
画面内容:关闭当前窗口,回到桌面。
发言者 1需求Skill……需求Skill……加入了这个……
画面内容:打开 Windows 资源管理器,进入 `AA_Work_DeepResearch` -> `req search skill-test-v3` 文件夹。
发言者 1好像……这个……这个之前好像比较多。
发言者 1你应该……
画面内容:打开 `requirement.md` 文件。
发言者 1没有。其实就直接一个大粗箭头所有产出的。
发言者 2啊对。
发言者 1你这样最清晰。
发言者 2确实。
画面内容:在 Typora 中查看 Mermaid 代码生成的流程图。
发言者 1只是没经过……它当时只想只想突出就是其他专家……其实自己的也在里面。
发言者 1对吧
发言者 1所以你弄啊一个大粗箭头下来也就最准确了。
发言者 2是。是是是。
发言者 1对。就是所有的都是全量的过来。
发言者 2对。
画面内容:指着流程图中的“开发专家评价”、“产品经理评价”等节点。
发言者 1对。下面的那个也是大粗箭头吗
发言者 1下面是一个……交叉的回忆。
发言者 2对。
发言者 1其他人是它自己的都过来了。
发言者 1也过来了。
发言者 1那就还是个大粗箭头啊。
发言者 1对吧
发言者 2是是是。
发言者 1就是所有的都是全量的过来。
发言者 2对对对。自己找自己的。
发言者 1就是根据提示词提示去找。
发言者 2OK。
画面内容:指着流程图中汇聚到“决策模式”的箭头。
发言者 1然后之后就评完之后它会……呃……在那个Json里面就是写明这个这条评价是针对于哪个专家的那条那条目的的评价。
发言者 2OK。
发言者 1然后嗯就方便第二轮就是交叉回应的时候那个专家能知道哪些意见是针对我的。
发言者 2对。然后再回应。
画面内容:解释 JSON 数据结构和交叉回应的逻辑。
发言者 1针对其他三个专假设啊那三个专家都回应了。
发言者 2嗯。
发言者 1我给这个专家评论那个专家评论1专家2专家3专家我都给了评论。
发言者 2嗯。
发言者 1这个时候你是把这个评论全部给到所有专家自己去选呢还是你把它单独已经摘出来给它
发言者 2没摘。没摘。现在没摘。
画面内容在流程图的“第2轮博弈 交叉回应”部分比划。
发言者 1OK。那这都还是全量的。
发言者 2对。
发言者 1都让它自己针对这个去读。
发言者 1对吧
发言者 2对对对。自己找自己的。
画面内容:确认数据流向是全量的。
发言者 1无发言
画面内容:打开 Windows 资源管理器,路径为 `Windows-SSD (C:) > Users > 10120 > .claude`
发言者 1无发言
画面内容:在 `.claude` 文件夹中寻找文件。
发言者 1无发言
画面内容:在 VS Code 中打开 `SKILL.md` 文件,随后切换到 `requirement-generator-v1` 目录下的 `开发文档.md`
发言者 1那个调用形式当时我觉得还是很……很怪的。
发言者 1或者是它的……么……这么复杂的。
发言者 2也不算死啊。就是箭头多。
画面内容:查看 Mermaid 流程图代码。
发言者 1之前是到到了这里……就是这是之前的。
发言者 2嗯。
发言者 1就用户把需求先访谈然后选择进入评审。
发言者 1这是进入多角色评审。
发言者 2嗯。
发言者 1然后之前是独立评审。
发言者 2嗯。
发言者 1就是每个人自己做一……对对对自己做。
发言者 1做完之后扔出来扔出来了。
发言者 2对。扔出来。
发言者 1扔出来之后就是就到这点。
发言者 2嗯。
发言者 1就是每一个呃专家会评价其他三位专家的评审意见。
发言者 1就给出一个Suggestion。
发言者 2对。
画面内容:指向“阶段 6: 多角色互评”部分。
发言者 1哦。因为因为子Agent它不太可能连贯的去读。
发言者 2嗯。
发言者 2对。
发言者 1所以它……就是它各自等各自的话。
发言者 2对。对。
发言者 1所以就就让它们都输出。
发言者 1都输出之后然后再……再再调用。
画面内容:解释子 Agent 的工作机制。
发言者 1再调用它会加载加载自己的定义然后加载自己原先的评价。
发言者 1就是自己原先的立场。
发言者 2原来的立场。对对。
发言者 1然后评……看三位专家的。
发言者 2对。
画面内容:指着流程图中的数据流向。
发言者 1然后之后就一样了。就是博弈之后就是决策。
发言者 2对。
发言者 1有有变化不是。我我录了个视频。也有结果。
发言者 1你可以看视频还是只看结果。
发言者 1看结果吧。
发言者 1大概明白我再看视频。
画面内容:打开 Windows 资源管理器,进入 `AA_Work_DeepResearch` 文件夹。
发言者 1这个是Final。这两个Final。
发言者 1这就之前那个Final和经过多轮的Final。
画面内容:选中 `requirement.md``requirement_final.md`
发言者 1呃……之前那个Final没有的。
发言者 1有是有但是它因为是两次执行过程。
发言者 1我给到它的判断和上下文可能不太一样。
发言者 1哦。
发言者 1那先看看。先参考。
发言者 2对对对。对那个。右边是新的。
发言者 2嗯。
画面内容:在 Typora 中左右对照打开两个 Markdown 文件。
发言者 1差不多。
发言者 1你看……加了一个能够生成……的工具参考。
画面内容:对比文档开头的“文件版本”和“功能描述”。
发言者 1嗯……太自动了。
发言者 1不我的意思是你这测试嘛。
发言者 2嗯。
发言者 1就使用的时候一定是他们……他们就。
发言者 1那你能测试的时候你给的这些……嗯……
发言者 1另外一个其实只为了我们开发非专业领域外的这个……第一版需求。
画面内容:阅读文档正文。
发言者 1你你通过专家给出第一版需求之后他能就像它左边有一个需求列表的这个对照。
发言者 1它自己可以改。
发言者 2第一版。
画面内容:查看文档左侧目录结构。
发言者 1它俩不一样的。
发言者 2对。
发言者 1这个倒是重复了。
发言者 2嗯。
发言者 1你看往上走我就给分那个目标和价值。怎么判断是吧
发言者 2嗯。
发言者 1目标和价值其实很难其实差不多的。
发言者 2嗯。
发言者 1但是左边最大的好处就是它给了一个量化。
画面内容:对比“目标与价值”部分,左侧文档包含量化指标。
发言者 1对吧给了一个量化。但这量化靠不靠谱不知道。
发言者 2嗯。是觉得。
发言者 1但是右边量化没有了但是给了目标客户了。
发言者 1对吧用户风险提示了。
发言者 2嗯。
发言者 1而且如果你看啊它里面它挺有挺有一些说法。这……你看它这全是一些断……
画面内容:对比文档右侧的“目标客户”和“风险提示”部分。
发言者 1结构化的报告。
发言者 1明确准确逻辑清晰回答清晰。
发言者 1现有不能支持这说明确实说明不能支持过内容。
发言者 1就是我我给它。你给它背景。
发言者 1你从哪里给它Add something。
发言者 1哦。
画面内容:查看文档中的具体条款和说明。
发言者 1你这个不是个精神疾病的那个吧。
发言者 2也是。
发言者 1你晚上那个。
发言者 2也是。也是。
发言者 1也是我给它。
发言者 2对也是我给它。
画面内容:确认项目背景。
发言者 1但就这就这边就不太参考了是吧。
发言者 2嗯。太自动了。
发言者 1它这边是……对。参考外部数据和依赖。
发言者 2对。
画面内容:查看“外部系统与数据依赖”章节。
发言者 1嗯……分析……现有知识库。
发言者 1是……
画面内容:查看“系统集成需求”章节。
发言者 1数据库……不动了。
发言者 1基础数据库更新……Skill那个管理……管理那个没动了。
发言者 1先做的是知识库的更新。
发言者 2外部的搜索没有。没有。
发言者 1就是先分析现有的知识库。就是之前增量更新好的那个世界模型。
发言者 1然后如果有的话就根据它然后去判断再去生成研究任务。
画面内容:在 Mermaid 流程图中查看数据处理顺序。
发言者 1这个并行多数据搜索是……就是那些Pubmed什么的。
发言者 2嗯。
画面内容:指向流程图中的“并行多数据源搜索”。
发言者 1这个增增加是……这个是……
发言者 2它增加是我在那个问题时候选择了提问就是交互。
发言者 2然后我问它哪哪种组合方式是最全的。
发言者 2然后我选了它给了最全的那个方式是不是行。
画面内容:查看“异常与分支处理”部分。
发言者 1你想过没有其实你完全可以模拟一个这样的Agent来回答它。
发言者 1因为你不是基……你不是这个专家。
发言者 1你就继续被模拟一个就是专家。去权。让它自动化下来。
发言者 2嗯。太自动了。
画面内容:滚动查看文档末尾,会议视频结束。
<!-- ===== 文件合并边界 ===== -->
<!-- 注意:以下内容来自新文件,发言者编号可能与上文不对应 -->
<!-- 来源文件:会议视频转写-4.txt -->
以下是根据视频内容提取的详细信息,包含逐字发言和画面变化记录:
### 00:00 - 04:54 文档评审阶段
**发言者 A**:就提出来了。
**发言者 B**:嗯提出来了。
**发言者 A**:它是给个选项。
**画面内容**:屏幕显示文档 `requirement_final.md`,界面为 Typora。当前展示 "6.3 Agent间协作关系" 流程图包含主协调Agent、检查Agent、分析Agent、知识图谱Agent及报告生成Agent的指向关系。
**发言者 B**:有选项了。
**发言者 A**:有选项。他给了四个选项。就是这四个都有。
**发言者 B**:我以前简单看了一下,记得这回重看录像啊。
**发言者 A**:可以。这个主协调 Agent 是我提出来的。
**画面内容**:屏幕向下滚动,显示 "7. 分阶段交付计划" 及 "7.1 阶段1MVP版本" 的内容。
**发言者 A**:分阶段交付,这是他问了一下。
**发言者 B**:问完了。分析完了,这变了。
**发言者 A**:就是主 Agent 来规划有没有错误任务,所以他也是给...
**发言者 B**:对吧。这是分...等一下,这两个都是主 Agent 吧?
**发言者 A**:不,分析... 呃... 对,都是主 Agent。
**发言者 B**:这两个啊?所以这两个都是主 Agent 的任务?
**发言者 A**:对。
**发言者 B**:那主 Agent 分析完之后给到它。
**发言者 A**:对。
**发言者 B**:然后,它反馈完,更新完之后,反馈给它。
**发言者 A**:先分析...
**发言者 B**:就直接给分析了?
**发言者 A**:对,先分析。
**发言者 B**:不反馈到主 Agent 了?
**发言者 A**:先不回。
**发言者 B**:也不回复了?
**发言者 A**:呃... 它更新完之后会回复。
**发言者 B**:这这都有问题。其实主... 这里面可能都需要主 Agent 的东西。
**发言者 A**:呃...
**发言者 B**:对吧?
**发言者 A**:分析 Agent 直接改成主 Agent。
**发言者 B**:对,都有可能。对。他要不要去更新知识图谱,谁来判断?这是一个很重要的分... 流程啊。
**发言者 A**:呃... 他做个分析就更新了。
**发言者 B**:是吧。所以我觉得主 Agent 它其实在每一个子 Agent 之后都要做个判断的。都要做下一步动作的判断。
**发言者 A**:只是... 分析 Agent 可能只是... 涵盖在主 Agent 里面。
**发言者 B**:对。所以说,这个 Agent 流程还得好好思考。
**发言者 A**:这是... 这是我的问题。
**发言者 B**:好。这是我们问题。
**发言者 A**:我的问题。
**发言者 B**:分析 Agent 没出来,这个是他... 特别指出的。
**发言者 A**:嗯... 是。这这都是我写的。
**画面内容**:屏幕继续向下滚动,显示 "7.2 阶段2完整版本" 及 "7.3 阶段划分说明"。
**发言者 B**:这个,知识图谱类型,他给我出了四个,我都选了。
**发言者 A**:这个咱得想想。这个你得想想,这个知识图谱,你得受累想想。他其实是属性。
**发言者 B**:嗯。
**发言者 A**:我觉得属性特别重要。
**发言者 B**:对,实体关系,他只跟属性给。
**发言者 A**:对,就是属性表。是吧。我现在觉得那个属性特别重要。
**发言者 B**:嗯。
**画面内容**:屏幕滚动至 "8. 技术约束与非功能性需求",鼠标在 "技术描述性要求" 部分划过。随后快速滚动经过 "8.2 性能要求"、"8.3 安全要求"、"8.4 其他非功能性要求" 及 "9. 验收标准"。
**发言者 A**:对,这是我的错。
**发言者 B**:看一下那个 Agent。
**发言者 A**:那个生成的。
**发言者 B**:还有把那个多专家那个评估的过程看一下。
**发言者 A**:在后面。
**发言者 B**:你那个... 刚才那个文档全部都是 Claude 生成的?
**发言者 A**:对。对。
---
### 04:55 - 11:39 观看 Agent 运行录屏
**画面内容**:关闭 Typora 文档,打开 EVPlayer录屏软件加载并播放一个视频文件。视频内容显示的是一个代码编辑器VS Code终端界面正在运行 Claude Code。
**发言者 A**:这是我问他的。
**发言者 B**:打字打得好快。
**发言者 A**:啊对,这个对对对。
**发言者 B**:你看他有这个 Thinking 是思考的过程。
**发言者 A**:对。
**发言者 B**:这是一个,你选... 选多 Agent 架构。
**发言者 A**:要多 Agent 协作。
**发言者 B**:对。
**发言者 A**:是。多 Agent 协作。
**发言者 B**:问题他去解答。回答,箭头后面说。
**发言者 B**:这个是他给你的。
**发言者 A**:对,他给你的。
**发言者 B**:绿的是他给你做的判断。
**发言者 A**:嗯。
**发言者 B**:对。你看。
**发言者 A**2。
**发言者 B**2。
**发言者 A**:我给他...
**发言者 B**2。我给他方法论。
**发言者 A**:方法论。指导他去...
**发言者 B**:对。
**发言者 A**:嗯,就是我给他的。
**发言者 B**:问他知不知道。
**发言者 A**:确实。所以...
**发言者 B**:确实。
**发言者 A**:然后这就是他提的那些知识图谱。我觉着... 我觉得还都挺有用的。而且会指出一些新的咱没想到的。
**发言者 B**:对。对。
**发言者 A**:是的。
**发言者 B**:这个确实我们...
**发言者 B**:那个,我这个你也发... 那个什么... 你看,如果有一个特别牛的...
**发言者 A**:嗯。
**发言者 B**:比我们经验丰富的人回答得肯定比我们要回答得好。
**发言者 A**:啊,确实。
**发言者 B**:对... 对。
**发言者 A**:所以在第一版的需求文档生成的时候可以尝试用 AI。
**发言者 B**:嗯。
**发言者 A**:行。你就知道你怎么来模拟这个人。
**发言者 B**:是吧。他其实完全可以...
**发言者 A**:甚至说明比我们还要...
**发言者 B**:比我们全面。
**发言者 A**:但这个人可能有点全面。
**发言者 B**:对。
**发言者 A**:呃...
**发言者 B**:你看... 你给他... 这个主 Agent 也就是它上来没有做任何的...
**发言者 A**:任何的规划也没有。
**发言者 B**:也没有做 Agent... 不是主 Agent。需求的只要的大框架。
**发言者 A**:没有。没有限制。就是 Claude 自己。
**发言者 B**:给的种... 呃...
**发言者 A**:有我的方法论。访谈的方法论。
**发言者 B**:你放在哪里?
**发言者 A**:我放在... 有窗口里啊。
**发言者 B**:在指令里一上来?
**发言者 A**:呃不是一上来,就是他会先判断项目类型嘛。判断项目类型完,确认之后,确认这个项目之后,他就会加载这个项目对应的方法论作为访谈的方法论。
**发言者 B**:那 skill 里面?
**发言者 A**:对,在 skill 里面。
**发言者 B**:嗯。
**画面内容**:视频中的终端界面显示 `Running`,然后出现 `User answered Claude's questions`
**发言者 A**:哦对,我才发现。这个 type something他需要输入完之后等一两秒钟再给... 去 next。
**发言者 B**:否则...
**发言者 A**:否则他就会丢失后面。
**发言者 B**:哦...
**发言者 A**:这是我新发现的。
**发言者 B**:你我点太快了...
**发言者 A**:装那个... Claude 的那个最新版本 G Mac 的,它是不... 不依赖 NPM 了。
**发言者 B**:不依赖那个...
**发言者 A**node 来装了。
**发言者 B**:嗯。现在我发现啥问题你知道吗?我第一轮对话总是不通的。但是我把那个 VPN 给他里一切...
**发言者 A**:对。
**发言者 B**:我那天你知道这个问题我找了多长时间吗?
**发言者 A**:我操。
**发言者 B**:只要第一轮总是卡在那。
**发言者 A**:哦。
**发言者 B**:然后我把网络真... 我那天查了一晚上。查了晚... 我那天一夜,大概有三个小时在搞这个问题,全部搞定。还有很奇怪。
**发言者 A**:嗯。这这...
**发言者 B**:反正我那个版本这就是... 比较好。
**发言者 A**:是。
---
### 11:40 - 26:34 JSON 文件评审阶段
**画面内容**:退出视频播放,打开 Windows 文件资源管理器,进入 `temp` 文件夹。选中 `evaluate_dev.json` 并在 VS Code 中打开。
**发言者 B**:呃... 要 evaluate。
**发言者 A**evaluate.
**发言者 B**:评估。你想看哪个?
**发言者 A**:看那个 dev。
**发言者 B**dev。
**发言者 A**dev.
**发言者 B**:嗯。对。这被开发专家提出来的。
**发言者 A**:对,对开发专家这条意见提出来的。
**发言者 B**:目标内容,这就是他... 开发专家这条意见原本是什么。然后他的 comment 是怎么... 不同意是吧。
**发言者 A**:嗯。
**发言者 B**:这个可能是,我给他的一个总体指导是... 是...
**发言者 A**:呃...
**发言者 B**:是是我给他一个总体指导,是要根据... 不能背离用户的原始需求。就是我给他的唯一的... 呃... 唯一的做方法论指导。对评审方法论指导。然后后面就是...
**发言者 B**:然后生成了上下文档。
**发言者 A**My comment 是你的...
**发言者 B**My... My comment 是他... 对这个 target content 的评价。
**发言者 A**:这个评价。
**发言者 B**:对。
**发言者 A**:我以为是你的评价。
**发言者 B**:他的评价。
**发言者 A**:这种方面你可以不问了。
**发言者 B**:嗯。
**发言者 A**:对比分析。
**发言者 B**:对比分析。
**发言者 A**:是吧。
**发言者 B**:对。
**发言者 A**:它是支持英文文献的中...
**发言者 B**:中英文混合报告。
**发言者 A**:中英文混合报告。
**发言者 B**:对,这个...
**发言者 A**:他的理由是...
**发言者 B**:对,对。他的理由。
**发言者 A**:这种方面你是 product。
**发言者 B**Product.
**发言者 A**:你看 product 没提这一条。
**发言者 B**:是吧。
**发言者 A**:对。
**发言者 B**Product.
**发言者 A**:咱们先看谁在 focus。
**发言者 B**:咱们想看谁在 focus。
**画面内容**:在 VS Code 中切换文件,查看 `review_domain.json` 等其他文件。最后切换到 `consolidation_report.json`(整合报告)。
**发言者 A**:嗯... 我看看... 那边那个 story。
**发言者 B**Story.
**发言者 A**Story.
**发言者 B**:呃... 最后一个。
**发言者 A**:这里的 story 是指 user story 吗?
**发言者 B**Story.
**发言者 A**Final issues.
**发言者 B**Final issues.
**发言者 A**:应该是别人给他提出来的那个 bug。
**发言者 B**:或者 suggestion。
**发言者 A**:这个没细看。
**发言者 B**:不... 我也没这格式看不懂啊。
**发言者 A**:嗯。
**发言者 B**:比较乱,格式是 json 串。
**发言者 A**:嗯。
**发言者 B**:你看 issues 1。
**发言者 A**Modified.
**发言者 B**Modified.
**发言者 A**Unanimous.
**发言者 B**Unanimous.
**发言者 A**:支持专家。
**发言者 B**:对,你看。
**发言者 A**:专家没区分。
**发言者 B**:这专家就是没区分。
**发言者 A**:没分。
**发言者 B**:对。
**发言者 A**:没分。
**发言者 B**:这就是我们家... 咱们那个...
**发言者 A**:嗯... 这个... 这个没分。
**发言者 B**:没分。
**发言者 A**:是吧,没分。
**发言者 B**:嗯。
**发言者 A**:也没分。
**发言者 B**:那么分项...
**发言者 A**:分项项目。
**发言者 B**:好了。
**发言者 A**:记得刚才,你看每个专家都提出了好多项目。
**发言者 B**:嗯。所以这个...
**发言者 A**:这是最后的一个...
**发言者 B**:这是一个综合。
**发言者 A**:嗯。
**发言者 B**4 个专家,每个人我看至少提了有三到四个,都不止。每个都不止,每个人都提了三到四个。
**发言者 A**:嗯。
**发言者 B**:也就是它乘出来是三个就是十个左右。
**发言者 A**:嗯。
**发言者 B**:乘上 4 应该 40 个左右。
**发言者 A**:嗯。这可能... 14 个。这才是... 主 Agent 读的可能不太全。
**发言者 B**:嗯。
**发言者 A**:嗯。
**发言者 B**:所以这可能就是要评估或者说... 必须... 判断一下... 它有这个过程和没这个过程... 到底... 带来了怎样的一个... 评... 评分质量的能力。所以要把那个什么... 以后要把那个所有的... 干脆直接...
**发言者 A**:嗯。
**发言者 B**:你下一次可以把它那个评估意见... 和最后的相应的那个打成一篇文档,把它整合的不要 json 文件了。你把所有的这些东西整合一问一答。
**发言者 A**:嗯。
**发言者 B**:就把它整合成...
**发言者 A**:啊,行。
**发言者 B**:对,这样的话你就知道它这个发生了什么。
**发言者 A**:哦,专家之间发生了什么。
**发言者 B**:你就看他这个水平够不够。如果评估的水平不够... 就不需要了。
**发言者 A**:对吧。因为你我们是没看到响应的。我只看到他提问了。
**发言者 B**:嗯。
**发言者 A**:对吧,我们看他提问和响应的水平到底对应不对应得了。如果对应对应不起来,那就没有必要增加这个。或者对应的不好也没有必要增加。
**发言者 B**:好吧。然后他如果对应响应的好,保留的保留,扔掉的扔掉,那最后我们看他保留下来的是什么,然后最后在需求文档里体现出来这去没。
**发言者 A**:嗯。
**发言者 B**:不然的话这过程没法... 没法确认。
**发言者 A**:好的。
**发言者 B**:所以说多专家博弈这个呢,我个人理解,将来是一定有... 有效果的,但是现在的 prompt 可能没写好。
**发言者 A**:嗯。这 prompt 可能是没写好。不大容易写。
**发言者 B**:这是基于专家经验的。
**发言者 A**:嗯。这个专家经验可能...
**发言者 B**:对。
**发言者 A**:好了。这个里面可能要最后要几个... 就是你每个领域的专家... 自己把自己找人去把这个 prompt 给写了。
**发言者 B**:或者去调查一下。
**发言者 A**:嗯。
**发言者 B**:去调查一下。嗯。对这个... 定义这个 Agent 实际上挺难的。
**发言者 A**:是的。
**发言者 B**:可是我觉得 Agent 里面最重要的... 首先第一个就是... 你看那 Agent ... 说不好听就还是 MD 文件。
**发言者 A**:对。
**发言者 B**:对不对,你这个 MD 文件写的好坏... 其实... 就证明决定了他的这个能力的边界了。
**发言者 A**:是的。是的。
**发言者 B**:对吧。嗯。
**发言者 A**:好吧。那这样吧。
**发言者 B**:嗯。
**发言者 A**:好像那个我这周就... 嗯... 没什么...
**发言者 B**:然后就是这俩事。那个... 那个那个那个什么... PDF 那个文件那个需求写... 这回分不到这儿来是吧?
**发言者 A**:啊那个都写完了,然后人家也都在确认了,现在已经发给旭龙了。你那边能看见吗?
---
### 26:35 - 视频结束 会议纪要回顾阶段
**画面内容**:切换到另一个 Typora 窗口,显示文档 "工程类会议纪要 (2025-11-25)"。内容包含 "1. 重点项目进展情况汇报" 和 "3. 下周工作安排" 表格。
**发言者 B**:等会儿,回到那个... 那个那个...
**发言者 A**:没有。
**发言者 B**:对照一下上... 啊对。上周的工作计划。
**发言者 A**:上周的工作计划... 就咱们刚才整理出来的。或者是就咱咱... 咱改一下。
**发言者 B**:不知道。上周都会议纪要。
**发言者 A**:上周的会议纪要...
**发言者 B**:就咱们刚才整理出来的。
**发言者 A**:对。
**发言者 B**:那个是... 自动生成工具那个整理。
**发言者 A**:对。但这个是等... 保留下来。
**发言者 B**:不能扔。
**发言者 A**:扔掉好多。以前都扔掉了。
**发言者 B**:知道吧。
**发言者 A**:嘿嘿。
**发言者 B**:所以这个是一个... 你这样的肯定话,你就会... 如果你这周会议纪要,我们开会是这样的话,你这个问题以后就永远会被扔掉。
**发言者 A**:对。
**发言者 B**:因为这再再里头体现不出来。因为讨论也没讨论。会议转写里面也没有。
**发言者 A**:嗯。
**发言者 B**:讨论也没讨论。这周的周报你的周报里面也没有。
**发言者 A**:嗯。
**发言者 B**:对吧,所以这个问题就会被扔掉。
**发言者 A**:嗯,周报可能是那个... 他没有。但是我有这个生成的下周... 下周的会议纪要可能有。
**发言者 B**:你下周为什么会有?
**发言者 A**:因为我下周的会议纪要生成的逻辑是并... 并集。
**发言者 B**:嗯。
**发言者 A**:就是这个和周报取了一个并集,所以应该有。
**发言者 B**:你周报里有吗?
**发言者 A**:我周报里没有。
**发言者 B**:对吧,你周报没有。
**发言者 A**:你看,你周报没有,这周的会议转写也没有。
**发言者 B**:对。但是是... 他有一个输入就是... 就是这个。
**发言者 A**:就是什么?
**发言者 B**:就是就是这个。就是上周的...
**发言者 A**:上周的会议纪要的下周工作安排。
**发言者 B**:那他取了并集。
**发言者 A**:就是避免... 都没提到就就扔了。
**发言者 B**:嗯。
**发言者 A**:行。
**发言者 B**:那...
**发言者 A**:没列表盘可能什么都没...
**发言者 B**:没表盘。
**发言者 A**:但是我用这个生成的下周的会议纪要可能有。
<!-- ===== 文件合并边界 ===== -->
<!-- 注意:以下内容来自新文件,发言者编号可能与上文不对应 -->
<!-- 来源文件:会议视频转写-5.txt -->
以下为您提取的会议视频信息,按照时间顺序排列,包含发言内容与画面变化:
**画面内容:** 屏幕显示文件资源管理器,显示文件夹 `D:\Documents\wechat_files\wxid_sukm...\FileStorage\File\2025-12`,文件夹内包含多个文件,包括“会议纪要及分工.docx”、“数字人PPT需求文档.docx”等。
**发言者 A管理者** Skill本身这个编排他...他他对你Skill...他对Skill的理解和我们人理解不一样。是。嗯。所以这个其实怎么去...未来Skill怎么...怎么去修改,怎么去优化,是一个很重要的一个...一个议题。嗯...对...好...好吧。行先这样。好。下一个。
**画面内容:** 鼠标移动双击打开了一个浏览器窗口或文档查看器显示标题为“专家数字人讲解PPT视频需求文档”的文件。
**发言者 A管理者** 真的啊?四个人。在吗正浩?
**发言者 B正浩** 啊,在的。
**发言者 A管理者** 你共享一下呗。讲一下。
**发言者 B正浩** 嗯。数字人那个就是...根据上周...连总的那个反馈就是...啊不对...就是连总的那个建议,就是把那些...有用的...保留,有用的需求保留,可能就是有一些...不提到就...就...也是能可能默认能做的那些功能,大概就是进行了一些删减...然后...然后生成的一个需求文档。嗯。首先就是那个项目背景和核心目标,大概还是上周那样。主要就是...下面基本都是进行了缩减啊。
**画面内容:** 屏幕向下滚动展示“项目分阶段规划”部分光标停留在“第一阶段PPT+数字人讲解”处。
**发言者 B正浩** 就是...这个分阶段,还是...上周一样,就是...第一阶段就是基础功能,第二阶段就是...高...高级点的功能,就比如说那个什么...高亮啊这些东西,嗯。然后...主要就是第一阶段...啊这个就是...
**发言者 A管理者** 等会...上面那个...就是你的这个分阶段啊...那些基础功能是什么,和什么后面的...你在后面有规划说明还是就没了。
**发言者 B正浩** 啊你说是是第二阶段是吧?
**发言者 A管理者** 第一和第二阶段。
**发言者 B正浩** 啊第一阶段我是有的,但是第二阶段我...这一篇文档里面没有。
**发言者 A管理者** 哦,我建议你都写啊。
**发言者 B正浩** 啊我我我是我有一个备份,但是就是...今天展示的就是第一阶段的。
**发言者 A管理者** 行,知道了。
**画面内容:** 屏幕向下滚动跳过“1. 产品定位”、“2. 视频结构”停留在“2.2 时长分配”部分。
**发言者 B正浩** 嗯。然后第一阶段需求就是我...整理了五个。就是第一个是...第一个...啊第一阶段核心需求整理了五个。
**发言者 A管理者** 上面那个我看...上面那个看完,别跳走。
**画面内容:** 屏幕向上滚动回“2.2 时长分配”和“3. 画面布局要求”部分。
**发言者 A管理者** 对啊,因为你这上面这些东西对你都是有要求的呗。
**发言者 B正浩** 嗯。
**发言者 A管理者** 三到五分钟是对的吗?
**发言者 B正浩** 喂?您那又卡住了。
**发言者 A管理者** 啊?这个是...我就说三到五分钟这个是富友他们提出来的吗?还是张媛提出来的?
**发言者 B正浩** 呃...这个是跟那个...贤林老师那边对了一下。就是大概是五分钟左右,真的。
**发言者 A管理者** 五分钟左右...那个是基于基于那说是吧?
**发言者 B正浩** 对。
**发言者 A管理者** 我建议这个地方要加一下。就...未来可能...你做一个PPT宣讲你宣讲的话一般需要二十分钟到半小时。
**发言者 B正浩** 二十分钟到半小时。
**发言者 A管理者** 对。这个可能是...
**发言者 B正浩** 嗯...那...
**发言者 A管理者** 对可对后续你得加进来,或者甚至你第一版能实现就最好。因为...这个可能从技术架构上难度并不高。
**发言者 B正浩** 对,从主要从开销上,就是花费,钱。
**发言者 A管理者** 对...开销啊。对对对。技术架构上...所以我觉你可以先试一试。那就是...一到三十你三到五分都肯定能做对吧,无非就是花销呗。所以这个需求没提...提的就不是特别准。
**发言者 B正浩** 啊,行我我因为我只做了一个后续可扩展,就是...这个时间是可以扩展,这个需求。
**发言者 A管理者** 其实...其实是错了。二十到三十分钟应该是主要需求。
**发言者 B正浩** 啊,行吧。那我就直接...
**发言者 A管理者** 对吧?行我知道了,嗯。不试一下二十分钟你...都含在里面。那第一阶段技术上...都没有难...分阶段一定要分阶段实现,对不对。
**发言者 B正浩** 嗯。
**发言者 A管理者** 对吧,所以你看...你以为...都很简单的需求其实都很多东西是值得讨论的。你比如说像数字人讲解PPT你看何所出去讲话对吧或者何所出去做做会议那个发言或者我出去做会议发言有时候就不用人我如果不不用我自己的话我有可能就要讲二十到三十分钟。而且这个需求还常存在的。不是只有云大说这一个需求。好吧。
**发言者 B正浩** 好。
**画面内容:** 屏幕向下滚动到“3. 画面布局要求”和“3.1 开场画面”。
**发言者 B正浩** 那这个开场可能...呃开场这些好像也不用不用调整。
**发言者 A管理者** 开场...我觉得都...这个应该不用调整。嗯,这个可以。
**发言者 B正浩** 那那个数字人的后面的时间可以改。
**发言者 A管理者** 好。
**画面内容:** 屏幕向下滚动到“3.2 讲解画面(画中画)”。
**发言者 B正浩** 嗯。然后这就是一些布局的需求然后那个主要就是这个数字人和PPT内容的占比这个需求然后还有数字人的位置。
**发言者 A管理者** 可以,这些就可以。
**发言者 B正浩** 对。然后第一阶段,第一阶段的核心需求...
**画面内容:** 屏幕向下滚动到“4. 第一阶段要求”展示“4.1.1 PPT宣讲的时间与PPT视频画面精准同步”和“4.1.2 数字人口型的视觉吻合以及智能避让”。
**发言者 A管理者** 这为什么是需求,我跟你说,因为这个东西,你不明确了之后就是容易出歧义的地方。
**发言者 B正浩** 呃...对,我觉得是的。就是说他比如说...数字人...主导还是那个PPT主导。
**发言者 A管理者** 对啊。这这个你不说清楚就是有人理解不同。对不对。你这么理解他那么理解,所以这个就是要需求来明确。
**发言者 B正浩** 嗯。
**发言者 A管理者** 好啊。
**发言者 B正浩** 嗯。然后就是第一阶段的核心...核心需求。核心需求第一个就是...讲解时间和PPT同步。
**发言者 A管理者** 其实我等会...视频最后你可以再出现一个数字人的...这个再见的一个...画画...画面。大概率能出来有始有终...那个...
**发言者 B正浩** 啊,我懂。就是参考参考开场画面。是吧?
**发言者 A管理者** 对对对。对。真人的。
**画面内容:** 屏幕滚动到“3.3 结尾画面(可以参考开场画面)”。
**发言者 B正浩** 呃就是等于再有一个真人直接说再见的那种画面,大概。嗯。
**发言者 A管理者** 对对对。就不是画中画了。可以是数字人独...独立的告白...呃告别。
**发言者 B正浩** 好。
**发言者 A管理者** 嗯。
**画面内容:** 屏幕滚回“4. 第一阶段核心需求”。
**发言者 B正浩** 那,然后第一阶段核心就是...第一个是...就主要是五个需求。第一个是那个PPT...那个...和数字人口型的那个同步,这是我我觉得是需要写上去的。
**发言者 A管理者** 嗯。
**发言者 B正浩** 嗯,然后第二个就是那个数字人的窗口...在那个...就是说在和PPT...就是结合的时候他是不能遮挡到内容的。这个。
**发言者 A管理者** 喂?
**发言者 B正浩** 喂?啊。
**发言者 A管理者** 他又延迟了?啊对能懂。嗯。延迟还不小呢。
**画面内容:** 屏幕画面没有变化停留在4.1章节。
**发言者 A管理者** 嗯,因为你那儿就是时而时的卡。有时候甚至就没声音了就。嗯。不行连那个,连他那个...换个网络连那个网...
**发言者 A管理者对旁边人** 这个...这还是用电话打...这个网络这那个问题...我切换我热点...等于是我热点...行吧,先这样。
**发言者 C旁边人** 那...我连就是你的...
**发言者 A管理者** 你自动连了...
**发言者 C旁边人** 行,那...那我给你说那个...那个精准是...现在是靠人来调的是吧?
**发言者 A管理者** 那个PPT这个这个就是说现在就是...一一段...就是...叫一页PPT的摘要然后生成...生成一一段口播视频。
**发言者 B正浩** 就比如说...就是像上次会上说的。就是一个PPT如果生成了五秒的摘要我就生成五秒的那个口播视频。
**发言者 A管理者** 对啊同步是怎么实现的呢?
**发言者 B正浩** 呃...你你说...你是指啥啥意思?同步是什么实现是啥意思?就是...现在是人工接的。
**发言者 A管理者** 这里面有几个问题啊,所以...嗯...我等...我妈的他这用电话打...这个网络是那个问题。
**发言者 C旁边人** 我...我切我热点。我连我热点。
**发言者 A管理者** 好。
**发言者 C旁边人** 那...首先第一个,你说什么五秒五秒,那那那那是没什么好说的,对吧?你...嗯。比如说一个PPT你让他生成了...五秒的那个文稿...
**发言者 B正浩** 哎又又又听不到了。哎听不到。嗯。
**发言者 A管理者** 太费劲。
**发言者 C旁边人** 这好吗?
**发言者 A管理者** 不行你这...连那个Guest看看。算了吧。
**发言者 C旁边人** 你洗澡嘛,四小时必断一次。
**发言者 A管理者** 四小时肯定够了。听得见吗?正浩?
**发言者 B正浩** 啊现在听得到,嗯。
**发言者 A管理者** 我说啊你比如说啊你这一段PPT生成了口播这个文字稿...怎么限定他是五秒?
**发言者 B正浩** 我...我不...我...我不限定他五秒。就是...我...生成了口播稿之后,我先生成口播视频,然后我根据口播视频的时间...然后生成那一页PPT的视频的时间。
**发言者 A管理者** 哦这就对了嘛。所以我就说...嗯。那你的这...这一页PPT因为他的时间可长可短嘛。反正就是...就放在上面好了,也不翻页,对不对,你把录屏录下来就行了,对吧?
**发言者 B正浩** 对,可以这么理解。
**发言者 A管理者** 就是...也就是说人要在那自动翻页还是人帮他翻页?就你录屏的时候。
**发言者 B正浩** 嗯...啊。人...现在是现在是人帮他翻页,等于。
**发言者 A管理者** 哦人帮他翻页是吧?
**发言者 B正浩** 对。
**发言者 A管理者** 还是说我干脆,我就定义好每一段视频的时长。比如口播视频生成之后,第一页...十秒,我就在那录十秒。第二页...反正...这个二十秒,我就录个二十秒。或者是这个意思吗?还是说...
**发言者 B正浩** 人再帮我录一下...现在现在就是那个比如说啊比如说我现在三页PPT三页PPT的话我...我...录口播的这三页我可能要录...三个口播视频,大概,对吧?
**发言者 A管理者** 懂了嘛。每一页每一页就固定好,他那个按照时长录好录屏,然后剪...就是把它联合联合在一起是吧?
**发言者 B正浩** 对。
**发言者 A管理者** 行吧。就那样。这个东西...这个感觉是要优化。对。是先这样吧。我觉得后面肯定是有...优化的空间的。因为在剪映里面好像是能自动拉长的。
**发言者 B正浩** 啊对对的。
**发言者 A管理者** 对,每一段...每一段都可以自动的调整他的时长的,我记得是。嗯。到时候再看吧,这你再试试。好吧。
**发言者 B正浩** 好。
**画面内容:** 屏幕向下滚动到“4.1.2 数字人口型的视觉吻合以及智能避让”。
**发言者 B正浩** 然后...第二个需求就是那个数字人的窗口他不能遮感道遮挡到那个PPT的主内容。就是有些的内容是可能会出现在比如说...右下角的主内容是不能被遮挡的。所以说有可能就是数字人要根据那个PPT的位置来做调整。
**发言者 A管理者** 这个你们得...这是人来处理的吧?
**发言者 B正浩** 啊,对目前是目前是人来处理。
**发言者 A管理者** OK。
**画面内容:** 屏幕向下滚动到“4.1.3 高质量数字人”。
**发言者 B正浩** 嗯。然后第三段就是...一个质量高的数字人的要求,然后也加上了你那天跟我说的就是...老外不能出现什么一口流利中文这种...
**发言者 A管理者** 对啊。这个就得典型问题就是...只看树木不看森林了。哦你是觉得老外生成老外生成的那个中文很流利,对吧,就就很好。不是这样的。因为就在人的印象当中,这是一个不真实的事情。嗯。一个老外说的中文比你还流利,那中是真实的吗?对吧,你一看那就我操这个首先质疑这人是真是假。你这上来就让人质疑你,你好不容易想把它做真,上来第一个就让人质疑你真假。你这不是...本末倒置了吗。你的所有目标都在追求真,最后来一个最假的表现出来。对吧,所以这个是不行的。
**发言者 B正浩** 嗯。
**发言者 A管理者** 啊接下来就是录成...录成人,然后录成自己...录成这个需要的这个这个人物形象之后用他的语音来训练...上面的一些动作模型什么这些东西。或者是来生成,看看他生成的质量。
**发言者 B正浩** 确实是有问题。嗯。
**发言者 A管理者** 你听不见了吗叫老师?
**发言者 B正浩** 我嗯了,但是你们那边可能就是有的时候嗯的时候不不那个...收不到。
**发言者 A管理者** 不是我那...我告诉你你这个嗯本身就有问题。对你看现在是好的。有手是...他那边一个是有说麦克风...没有回应的时候,懂吧。跟他谈话有...
**发言者 B正浩** 啊那个是腾讯视频有的时候可能对嗯这个词...他收的会比较那个感觉。就是收不进去的感觉那种。
**发言者 A管理者** 有可能。但是别人的嗯好像就不存在这个问题。
**发言者 B正浩** 你的因为在现场。
**发言者 A管理者** 不是你下回是是别人,对吧。
**发言者 B正浩** 好,这个反正...这些要求先这么定义,但说实话你这些定义...也只是给人看的嘛。你这些东西...也没...也只能是作为你选型的需求,你没有办法改进他对吧。你能改进他吗?你选型定了,你也改进不了。呃...如果后续作为...把这一块,就是现在这块视频不是基本上都是人工剪辑嘛,对吧?如果后面把这套做成一个工作流的话,那这个时候就有用了。
**发言者 A管理者** 我指的是...我指的是你上面数字人的要求。
**发言者 B正浩** 啊对,这个是只能可能是作为选型的要求了,这个。
**发言者 A管理者** 对,现在有没有出现那种可以微调啊,可以训练的数字人啊?
**发言者 B正浩** 呃...这块目前还没有研究。过多的研究。要要要研究。
**发言者 A管理者** 我不信这个地方你你你没有去...找一找。就是终极目标...肯定就是要么是他生成特别特别好,对吧,通用模型生成特别好。第二个...要么就是自己微调。
**发言者 B正浩** 嗯。行。
**发言者 A管理者** 好吧。所以我觉的那...另外一个你再试试那个Gemini那个VEO 3.1看看。嗯。但他现在生成比较短。他那是完全空...就是自主生成,他数字人还没用。好吧。
**发言者 B正浩** 啊,行吧。嗯。
**发言者 A管理者** 第四点就是那个...数字人和PPT的风格...就是一致性,还有一个是那个...模板化,就是可能要多次使用的。做为...
**画面内容:** 屏幕向下滚动到“4.1.4 数字人与PPT风格一致”和“4.1.5 模板化 一次定义,多次复用”。
**发言者 B正浩** 我是想后面做成一个工作流或者什么的。
**发言者 A管理者** 啊。对。然后这是第一阶段的...标准...验收标准。
**画面内容:** 屏幕向下滚动到“4.2 第一阶段质量标准”和“4.2.1 容错度”、“4.2.2 核心质量指标”。
**发言者 A管理者** 等一下,我问一下,现在...嗯。比如说啊,你你说的很对啊,但是能做到,比如说我的衣服,我给你一个一段我...我穿白衣服的拍的视频,对吧?
**发言者 B正浩** 嗯。
**发言者 A管理者** 但是比如说现在你要换成这个蓝颜色的。嗯。你是直接现在视频里能把它换成蓝颜色的,我记得是,对吧?
**发言者 B正浩** 对,这个这是在平台里面就能做嘛,就是那些软件平台里面能做。对。
**发言者 A管理者** 另外还有个方案是什么?还有一个方案是什么?就你...首先你看Nano Banana现在不是可以直接生成一个人的这个这个...衣服的这个合成嘛,对吧?
**发言者 B正浩** 嗯。
**发言者 A管理者** 就是你就是还是图片生视频。这个图片生视频你们看看,给他一段...给他一段文字稿。然后给他一个衣服...和给他一个人的头像或者是一个照片。看看他能不能生成一段口播的视频稿。
**发言者 B正浩** 行。就用那个VEO对吧试试。
**发言者 A管理者** 对VEOVEO。
**发言者 B正浩** 啊VEO对对对。好。
**发言者 A管理者** 对VEO 3.1,好吧。我感觉是有可能生成一段...
**发言者 B正浩** 啊VEO 3.1是不是...是不是升级了?就是在...我之前测试VEO 3.1的那个...无声视频的...效果中其实VEO的表现没有那几个图生视频的效果好的。
**发言者 A管理者** 他现在统统Nano Banana出来之后他视频问那个都都升级了3.0 Pro出来之后都升级了。
**发言者 B正浩** 啊。啊行,那我在试一下。嗯。
**发言者 A管理者** 那个我觉得你可以再试试。我觉得他现在的水平还挺高的。
**发言者 B正浩** 嗯。
**发言者 A管理者** 如果是这样的话那为什么我说Nano Banana现在就或者说那个3.0 Pro可能是一个...一统江湖了呢?就几乎所有事都能干了。知道吗?他几乎所有的事情都能干。
**发言者 B正浩** 嗯。明白。我试试后面。嗯。
**发言者 A管理者** 行吧。
**发言者 B正浩** 好。这个就...这个就是一个质量标准,验收标准。嗯。啊。说非功能性需求,非功能性需求我就写了一个,就是验收标准的。
**画面内容:** 屏幕向下滚动到“4.2.3 禁止缺陷”和“4.3 第一阶段验收标准”。之后滚动到“5. 非功能性通用需求”。
**发言者 A管理者** 你认为有一个很大的问题,你的人的动作,手是没有。
**发言者 B正浩** 呃...对。就是说我本来第一阶段就是不想要太多的那个手势动作的。这个我是想规划到第二阶段的。就是说你有一个那个...
**发言者 A管理者** 你前...你前十秒和后十秒没有动作是不行的。
**发言者 B正浩** 嗯...行。
**发言者 A管理者** 你前十秒人呆呆的站在那讲啊,是有问题的。
**发言者 B正浩** 嗯。
**发言者 A管理者** 好吧,你至少有个手势也行,没有躯体动作也可以,你手的动作得有。
**发言者 B正浩** 嗯。
**发言者 A管理者** 好吧,这个你看看怎么弄吧。嗯。我觉得你这个标准里面要把这个手势至少先加进去。
**发言者 B正浩** 行的。
**发言者 A管理者** 好吧。行吧。嗯。
**画面内容:** 屏幕滚动展示“5.1 输入素材需求”、“5.2 输出需求”、“5.3 使用范围与权限”。
**发言者 B正浩** 嗯。这个就是非功能性需求了。就是输入什么PPT文件这个然后导输出的是是一段MP4的文件这种。然后使用范围介绍一下。大概就是这么多。
**发言者 A管理者** 这个...嗯。
**画面内容:** 屏幕滚动到“5.4 制作灵活度需求”和“6. 约束条件”,包含预算、时间、使用率。
**发言者 B正浩** 嗯。然后约束条件就是...就是反正就是首先看效果,其次先不不做那个预算的上限。
**发言者 A管理者** 这个我觉得没没提到,非...算是半功能性需求。就使用界面是什么?就你们现在是自己在那倒吃倒倒吃半天生成这玩儿对吧?
**发言者 B正浩** 对。
**发言者 A管理者** 就以后怎么给...富友他们用呢?
**发言者 B正浩** 呃...我我懂了。嗯。就是...我明白了。这个这个这块的话我...我后面再整理整理。就是说现在目前其实我们也在调研阶段。调研完了之后就是...现在有两个方向嘛一个是通过工作流或者说是通过那个API调用。还有一种方式就是让他们在那个...比如说这些平台的网站上直接生成。这个方这两个方案我我们还要对比对比。因为那个现在API调用这块我们用的也不是很多。
**发言者 A管理者** 对啊。
**画面内容:** 屏幕显示“数字人平台选型”表格列出了HeyGen、百度希壤、即梦AI等平台的费用和参数。
**发言者 B正浩** 对。然后这块基本上就是我们的选...就是我...根据那个...西平给我的一份调研文档,然后我自己又确认过了的这个结果。大概就是这样的。就是视频生生成的费用。
**发言者 A管理者** 可灵这么贵啊?即梦...可灵即梦这么贵吗?数字人哎。
**发言者 B正浩** 数字人,对。
**发言者 A管理者** 这有问题了。
**发言者 B正浩** 嗯。因为我也我也去看了下,我也去看了下,他那个确实...积分确实挺贵的。就是他是按秒算的嘛。基本上是一百...
**发言者 A管理者** 数字人不应该...也不说生成那种...数字人其实没有那么多计算量的。
**发言者 B正浩** 但是我就是说这个就是数字人生成的那个费用。我去看了,确实还真是。嗯。
**发言者 A管理者** 你那个直直接就是文字生成视频还贵我觉得。差不多了就。
**发言者 B正浩** 差不多了。嗯。已经差不多了。
**发言者 A管理者** 百度希壤...所以我就让你去看看百度嘛。对吧。
**发言者 B正浩** 对。百度这个就是我们现在不确定他这个最高视视频是多长。只是投投放了一个就是四分钟的那个...那个音频给他,他就能生成四分钟的视频。但是具体他能生成多少,网站上说是...可以...给他录入90分钟的音频但这个我们没试过。所以这个先只能写成四分钟最少。嗯。
**发言者 A管理者** 这个...API好像比这个页面还便宜吗
**发言者 B正浩** 呃...贵...啊对你说百百度的。百度的是便宜的对。百度的是按那个叫分钟包的。就是说你40块钱可以买10分钟的那个...分钟,就是你...就是他是这样付费的。就是你40块钱买10分钟。然后你用。
**发言者 A管理者** 黑镜会员在平台上是免费的是吧?
**发言者 B正浩** 对。
**发言者 A管理者** 只要你要买两个那个什么数字人的那个授权对吧?
**发言者 B正浩** 呃对。但但这个这个跟那个...就是说...我现在做的这个调研是用公开数字人生成的。如果用定制数字人生成的话,呃...这百度希壤的这个我还没那个...就是说还没把那个文档呈现。就是百度希壤如果做定制数字人的话,好像一个定一个数字人要一千还是两千块钱。
**发言者 A管理者** 哦。
**发言者 B正浩** 然后然后再度生成那个视频。然后生成视频也是要要钱的。但是黑镜呢就是...呃他他就只收那个叫定制费。然后呢你后面用那个生成好的视频再呃生成好的数字人再生成视频的话他就不要钱了。
**发言者 A管理者** 哦。
**发言者 B正浩** 大概是这么个区别,对。
**发言者 A管理者** 看来目前的最佳可能就这两了。前面不可能。
**发言者 B正浩** 对对。是的。
**发言者 A管理者**知道了。另外一个VEO 3再看看好吧。
**发言者 B正浩**VEO 3我再看看。好的。
**发言者 A管理者** VEO 3.1你看看。好吧。其他也就差不多了,数字人这块。
**发言者 B正浩** 好。
**发言者 A管理者** 这个说实话啊,就我们能做的工作很少哎。基本上就是靠平台靠什么这些东西的。
**发言者 B正浩** 就是你要花那个大精力,就是说按照网上就是你上次不是给我推的那个...就是搭那个工作流嘛。但其实他那个搭工作流的那个效果我看了,他其实也是就是说基于那个模型的能力。他是...就是说他是把你的那个...先把你的图片也好,或者说是文字也好,他通过提示词,然后或者说先通过一些...一些那个比如说叫什么来着一些能提取什么人物结构脸部脸部信息或者打点的那些模型先提取出来。提取出来之后再给一个比如说开源的模型就像那个WAN那个2.2那个什么模型一样,对吧。你再给他,然后他再生成。其实你的源还是基于基于那些模型的能力。但是...就是我大概看了一下他们的测试效果,其实还不如这些收费的平台。只是定制化的程度很高,就是说比较精细的控制。但是你最终生成的那个效果其实差不太哆。
**发言者 A管理者** 呃你还没用到。你现在的这些需求还用不到那。你比如说大幅度的身体动作。
**发言者 B正浩** 啊对。
**发言者 A管理者** 就要用那个来控制了。
**发言者 B正浩** 对的。
**发言者 A管理者** 就是你要靠个或者一个视频来...比如你模仿一个视频。你让他自己生成是没戏的。生成不了那么好的。你比如说你把一个视频发上去给他,然后让对方...比如说迈克尔杰克逊跳舞的视频你发上去,然后你说让你也跳这个什么。你现在通过这种通用的视频你生成出来效果是很差的。知道吧?
**发言者 B正浩** 嗯。能理解。
**发言者 A管理者** 但是如果你通过那套工作流,把你的杰克...迈克尔杰克逊上面视频的每一帧的骨骼关节完全全部提取出来,把它骨骼关键点变化这个逻辑映射到你的身体上。这个生成的视频就比你那个要准的多得多。懂了吧?
**发言者 B正浩** 懂。
**发言者 A管理者** 对。所以我说你还没用上。所以你说他啊还不如这个平台那是因为你没用好。第一个你这现在的都过于简单,用不到这么...杀鸡不用牛刀。
**发言者 B正浩** 嗯。
**发言者 A管理者** 好吧。那那个...就是包括将来我觉得大...就是大规模的或者说这种精细的...人工AI电影的制作肯定是那个了。不然的话你出现的动作就...很难控制。你比如说你生成一个...比如未来能生成一分钟的视频。一分钟里面你出现三到五个这样的镜头。你怎么改我问你。你就很难改啊。嗯。
**发言者 B正浩** 嗯。行。我懂。
**发言者 A管理者** 对吧,这时候可能就要把这些镜头拆出来...把这些镜头拆出来之后,然后用精细化的方式去控制它了。
**发言者 B正浩** 嗯。明白。嗯。那就等于后面如果更精细的话就是拆到一帧一帧的图片,然后其实他是生成一帧一帧的图片之后,然后把这些图片再生成视频。这样就是最最准确嘛。最精确,最准确。
**发言者 A管理者** 对啊。对啊。
**发言者 B正浩** 明白。嗯。
**发言者 A管理者** 再者吧。你这个都后面那个什么内容多着的。但我们我估计我们可能用不到这么一个功能。到时候看吧。
**发言者 B正浩** 嗯。
**发言者 A管理者** 行吧。那这个就先这么着。那就先把那个...就是可灵的...额不先把那个百度希壤的和这个黑镜的尽快再做一个样本出来,好吧。
**发言者 B正浩** 好,知道了。嗯。
**发言者 A管理者** 就根据我上次给你的要求。就用自己的人训练一个出来。这周。好吧。
**发言者 B正浩** 可以。嗯。
**发言者 A管理者** 就花点钱就花点钱。赶快用自己的人训练一个出来。这周好吧。最好是这周周末就就就出来。训练出来之后,我们就确定到时候这个能不能用了。另外一个就是你现在那个呢?就是个人动画的制作呢?因为何所那个会不一用了。时间问题可能来不及了。或者他现在还不太想用这个技术。但是我们得我们得得把它做好放在那。就是生成这种动画视频怎么做。
**发言者 B正浩** 就是动作替换的那种呢?还是说是...是什么?就是...
**发言者 A管理者** 你比如说他可能不是上来做PPT的。他就是有大幅度的比如说要行走的动作对吧有这个这个打招呼的动作等等这些。大幅度的动作。
**发言者 B正浩** 行。我我知道了。那就是等于动作替换那块再研究研究。然后包括把我们那个真人的换成动作替换。
**发言者 A管理者** 不是动作替换,是动作生成。
**发言者 B正浩** 行。我考虑考虑。嗯。
**发言者 A管理者** 因为有两种方式嘛。就是一种是动作叫...你就像你之前跟我说的嘛,两种方式,一种是动作生成嘛,他因为要很长的时间。
<!-- ===== 文件合并边界 ===== -->
<!-- 注意:以下内容来自新文件,发言者编号可能与上文不对应 -->
<!-- 来源文件:会议视频转写-6.txt -->
根据您提供的视频会议内容,以下是按时间顺序提取的逐字发言与画面变化记录:
发言者 1或者可能也都有那种动作生成嘛。
发言者 2可以好。
发言者 1就是动作视频生成你就打招呼啊上来走啊跟你把整个的……你这样我给你个建议啊通过 Gemini 3 给你生成分镜头脚本。懂吗?
画面内容:屏幕显示 Word 文档标题为“6.3 使用频率”,下方有表格“数字人平台选型”,列出“平台”、“最高分辨率”、“单次视频时长”、“平台页 1080P 视频支持”、“是否支持去水印”等列。
发言者 1就你给它一段比如说谁谁谁我要上去上台之后什么样一个要求然后什么样的一个背景你就……比如你的镜头机位怎么运转对吧那这种情况下你给它一个分镜头脚本比如做一个两分钟的分镜头脚本出来然后你给到 V3 或者给到什么模型分段生成就好了。
发言者 2明白。
发言者 1或者甚至你都可以把分段的这个……分段的这个图片都先生成。懂吗你可以通过 Nano 什么的把分段的图片都生成,生成之后,再建利用首尾帧再生成图像。把它做成两、两分钟的这个合起来的视频。
发言者 2好。
发言者 1理解吗
发言者 2理解。
发言者 1好吧这个流程基本上你就可以拿这个但是我认为 V3 这个 Gemini 3 是可以做到的,而且做的会比其他的都好。它对镜头的理解和分镜脚本的生成是比一般的模型要做得好的,视觉现在没有能超过它的。
发言者 2我试试。
发言者 1你抓紧时间把这个测试一下就是 Gemini 3 生成分镜头脚本,加上分镜头的那个图片,然后再通过 V3 也好别的什么也好再生成视频。通过分镜头生成和图片来生成……通过分镜头的图片加脚本来生成视频的工作已经有很多模型可以完成了,对吧?
发言者 2明白好的。那我的大概理解你意思就是其实就是说你用、用 Gemini 3.0 就是把那个分镜头的提示词也让它生成,图片也让它生成,然后、然后再找个地方生成视频。
发言者 1你也可以找 V3 做,你也可以找这个、这个、这个其他模型做。
发言者 2好。
发言者 1我说你明白了你看你现在才明白刚才你说明白不是真的明白。
发言者 2啊。
发言者 1好吧不明白你就问不要到时候拿回去又走错。
发言者 2嗯。
发言者 1这是我看到目前可能最有效的路径了。
发言者 2好。
发言者 1好的。
发言者 2嗯。
发言者 1这个首尾帧生成这个其实工具已经很多了对吧首尾帧视频加上那个文字给它之后把首尾帧这个图片加上文字给它生成视频这种已经很多了对不对
发言者 2对。
发言者 1但是就看这个能力就那天我不给你测试过嘛你还记得我给它一张图片然后给它一个文……让它两张图片吧你还记得你给我中间切了一段科普的那个老头加上那个最后医生你还记得它自动给你生成一段视频还记得吧
发言者 2啊对我记得嗯。
发言者 1那效果不是已经很好了吗
发言者 2嗯。
发言者 1如果你那个图片很好的话它生成效果会比那个更好的你那个图片本身质量就不好。对吧
发言者 2行。知道了嗯。
发言者 1行吧先这样吧。
发言者 2嗯。
发言者 1这个就是根据这个两……就总结一下啊第一生成视频样本这周就把它做完好吧视频样本。训练拿我们自己真实人容貌训练出来的语音和视频好吧
发言者 2嗯。
发言者 1这是一个。第二那个工作流你自己抓紧时间再看一下用什么样的工作流来搭如果 API 需要用看看怎么用 API如果不要用直接操作网站怎么操作或者剪映这些自动化工具你怎么用好吧
发言者 2好。
发言者 1这个工作流你、你抓紧时间再研究一下。
发言者 2好。
发言者 1第三个就是刚才说的通过这个 Gemini 3.0 把整个的这个视频的分镜头的脚本和这个图片,包括这些提示都给它生成之后找两个平台试一试,生成的这个视频效果,合成的比如说规定是要两分钟了,合成一分钟的也行,或者 30 秒的都行。好不好?
发言者 2好的。
发言者 1行吧。先这样。
发言者 2嗯。
发言者 1你这里有什么问题吗
发言者 2目前数字人这块吗
发言者 1啊。
发言者 2呃没有还没、没有。
发言者 1那你回到那个什么吧你下一项工作了。
发言者 1你把那个前端重构那个再讲一下吧。
画面内容:屏幕切换,显示 Word 文档标题为“前端重构需求”。文档目录包括“一、目的”、“二、系统架构”、“三、API 接口规范”等。
发言者 2那个我还完成然后呢我只做了一半但是就是说我是……你要不先看一下我这个方向对不对了
发言者 1对对。
发言者 2嗯。就是、呃我前端重构的话就是说我只重构前端的展示部分和代码结构。就说保留现在前端的一些基础功能。这个首先这个目标是、是……我觉得是没问题的对吧
发言者 1应该流程不动是对的先、先不动后面再说。但是我建议你在重构的时候就考虑到下一个版本的交互逻辑的更改。
发言者 2嗯。
发言者 1好吗不要到时候又、又、又这个什么叫什么呃这个架构调整又过不了了对吧或者要重新修改了要增加好多组件了什么的。
发言者 2好。
发言者 1好吧你最好把下一个版本的功能的需求结合这一次重构一起把它考虑进去。
发言者 2行。行。嗯。
发言者 2然后、然后下面就是、下面就是这个当前的这个系统架构系统架构。然后主要就是改这个前端嘛后端其实就不动对吧但是就是前端现在就是……
发言者 1后端都不要动啊你后端不动但是你现在可以拿 Opus 4.5 或者拿那个 Codex 把你现在的后端代码审查一遍。
发言者 2行。
发言者 1好吧你先不动它然后先让他提意见看看审查出来有多少问题慢慢重构好吧
发言者 2嗯。
发言者 1嗯。但是现在不要急着动它先让 Opus 走一圈,比如说审查你这个代码有什么问题。
发言者 2明白。
发言者 1好吧最好你、你上去找一个 Agent 或者找一个那个 Skill呃网上很多这种后端的这个代码审查的好吧叫 Code Review 的。你找一个 Code Review 去做一次审查,好吧?审查出来的毛病记下来之后再说。到时候看看把这个毛病记录下来之后这就相当于需求文档了嘛,到下一次会议的时候我们看一眼是不是要修改。好吧?如果需要修改,我们就让他帮着修改,但是前、前端这些备份什么的做好就行了。
发言者 2行。行知道了。嗯。
发言者 2然后这块就、下面这块就是 API 的接口规范,就是然后包括就是输入输出流,这块是、这块我是确认过的,就是我之前拿那个、呃就是之前的测试文档,然后生成的内容,嗯。就是说先把这个接口肯定要固定好,接口不能错。嗯。
画面内容:屏幕滚动显示文档中的 JSON 代码片段涉及“认证模块”、“1. 发送验证码”、“2. 用户登录”、“3. 用户注册”等接口定义。
发言者 2接口、接口、接口那个规范文档嘛对吧
发言者 1接口规范文档就输入输出嘛等于说嗯。
发言者 2这个是务必要遵守的对吧
发言者 1就是必须要遵守的。嗯。
画面内容屏幕继续向下滚动显示“4. 用户登出”、“5. 获取当前用户信息”、“历史记录模块”等接口详情。
发言者 2然后第、这块那就接口就不太细讲了那就是……
发言者 1另外一个我建议你你不是这个都、你肯定也是用大模型做出来的这个方案对吧我建议你这样你呢让他用你用、你用那个 Cloud Deep Research 也好,或者用那个 GPT 的 Research 也好,你让他给你一版关于前端重构的方案以及注意事项。看看跟你现在思考的、跟你思考的还有多大的不同。
画面内容:屏幕滚动到文档底部,显示“四、功能清单”,包含“用户认证模块”、“聊天功能模块”、“历史记录模块”等表格。
发言者 2好的这个我一开始是让 GPT 给我写过一版的,对,嗯,我、我、我、嗯,行,知道了。
发言者 1或者把你这个方案给它让它研究你这个方案存在哪些就是有什么值得借鉴的或者有什么问题。好吧你再看看是不是值得思考。另外我跟大伙说一下Cloud 4.5、Cloud 的那个幻觉还是挺高的。就是在文字回答上的幻觉是相当高的。
发言者 2嗯。
发言者 1所以 GPT 5.1 可能比它靠谱,所以就你们日常的问答还是以 5.1 为主可能会比较好。这个 4.5 的幻觉还是蛮严重的。嗯。
发言者 2明白嗯。我觉得就是我这大概的一个思路就是先跟 GPT 对话完了之后,再做一些、再做的,嗯。
发言者 1GPT 稍微靠谱一点但现在……Gemini 也稍微好一点,你现在可以这样,你用这两个做、做一次校验试试看,好吧?下次。嗯。
发言者 2好。好的好的。嗯。
发言者 2然后接着往下讲就是第四分、第四部分的那个功能清单就是我要保留的哪些功能然后功能模块……
发言者 1另外一个你写的这些东西去对一下你之前的那些流程图。或者你得审核一下他给你的这些建议和你那个流程图是不是对应的。
发言者 2明白。就是我就是等于我其实现在还在对就是因为没对完我就没那个。接口对完了然后功能这块还没对完。就包括就是要对完流程图还要对前端的那个功能就是是不是这个功能就是像他说的有像这种。就都要对清楚了之后再往下做嗯。
发言者 1所以你就让他给你做一版。就是简单的对比对照之后然后看你再看看他说的有没有对然后再通过你人来审查他的输出的这个结果。好吧
发言者 2明白。
发言者 1这个其实人以后 90% 就是功能了,提要求,然后审查结果。对吧?要求提得越好,你审查得越轻、轻松。另外一个你经验越做越多,你审查得越、越准确,其实就这个。好吧?
发言者 2好。嗯。
发言者 2然后就是、对我还要后面就是可能还要涉及一些比如说我要不要提供他样例代码这些就是我这块的话我还没跟 GPT 沟通呢,所以说后面就还、还没做完,等于。
发言者 1我建议你如果想的话提供一下我的经验……或者示例代码还是给一下。
发言者 2行。因为我、我考虑到了这个但是我还没确定所以我……
发言者 1你前端重构的话你现在都重构了就我说逻辑代码这肯定都比较那啥。但你前端重构大部分都是视觉的东西你给它代码示例有用吗
发言者 2就是我就想提供比如说像、像跟后端交互的这种的逻辑代码。
发言者 1这个我建议你我建议你提供。
发言者 2好。
发言者 1好吧我建议你提供有时候他会自己……就是你提供他未见得都遵守。
发言者 2我明白嗯。
发言者 1他自己处理起来还是挺那个什么的。好吧
发言者 2好。好。嗯。
发言者 2那然后就切到下一个就是、呃上次你周末和我对的那个就是 Skill 调用那个 Sub-agent 的那个教学。
发言者 1可以给大家讲一下。
发言者 2好的。嗯。
画面内容:屏幕切换至另一份 Word 文档标题为“Skill 调用自定义 Sub-Agent 调研文档”。文档内容包括“背景说明”、“统一的测试配置”、“Sub-Agent 定义”、“任务说明”、“测试场景”等。
发言者 2这个主要就是针对那个 Skill 怎么,就是说调用全、呃调用自定义的那个 Sub-agent 到底是那个项目级、项目级的,全局的,这个是怎么、怎么和它就是叫交互工……就是怎么调用的这个效果的一个、的一个叫什么调研文档。
发言者 1等会。听到。
发言者 2嗯。首先就是说、呃主要就是为了搞清楚那个 Skill 它调研那个全局下的那个叫 Sub-agent 可用还是调研项目级别下的 Sub-agent 可用,然后最后的调研结果就是……
发言者 1是调用。
发言者 2啊。说吧。
发言者 1嗯。
发言者 2首先 Sub-agent 的定义是统一的,就是 Sub-agent 的定义就是这个。呃 Sub-agent 的提示词就是这个。这个是在……就是说本次测试的那个 prompt 就是、就是这个,没动。动的只是切换那个……
画面内容:文档显示代码块,内容为 `name: drawio work``description: 你是流程图绘制专家...``tools: Read, Write`
发言者 1说不清楚算了我来说吧。你这个说的根本就重点都丢的一……就 90% 的重点全都给你说、说丢了知道吧?
发言者 2啊。
发言者 1首先首先第一Sub-agent 的作用是什么就是为了做上下文区分嘛对吧上下文的隔离。那我们要看就是究竟这个我们这次调用有没有起到这个作用。对吧两个第一Sub-agent 调用的时候我的上下文是不是真的减少了。那这个确实是我们测下来,只要你调用 Sub-agent 的确实上下文是、主窗口上下文是减少了。对吧?使用是减少了。但是第一,怎么验证?第二个,怎么能证明我们这个 Sub-agent 是被调用了?对吧?或者在全局下被调用了,或者在子项目里面或者项目下也被调用了。因为有的时候是什么呢?这个出现的问题是什么呢?就 Sub-agent 在子项目下调用的时候,会出现一个什么?它会去读那个 Sub-agent 的提示词。
发言者 1旁边有人插话主窗口去读。
发言者 1主窗口去读。它只是作为一个参考文档而不是自动的实现了一个……
发言者 1旁边有人插话没有用 Sub-agent 去调。
发言者 1独立没有用 Sub-agent 去调。而且有的时候很怪的就是你……它没有用 Sub……这个地方还有个问题点就是它没有用 task 调,它有时候也能够实现上下文的隔离。很怪啊,这怎么实现的我们到时候再说。首先第一个我们出现那发现第一个现现象是什么呢?就是它会去读 Sub-agent。它读完之后呢会把上下文里面加入这个 Sub-agent 这个、这个一些要求。但这个要求并不能完全实现。所以为什么会加入那个里面任务流程里面,那上面的那个定义没什么好说的对吧?我们会加了个 Read因为这个 Read 这个文件很大嘛。就只有这个我才能判断它是不是加入了主上下、主上下文。对吧?主窗口的上下文。如果你是读下来的,只是把我作为一个相当于 Skill 一样的把上下文全部读下来了,对吧?并没有按照 Sub-agent 的方式去调用,那这种情况下,你读的就是占的主窗口上下文。对吧?主窗口的上下文。那我现在就把这断了,因为这个逻辑很不合理嘛,为什么加个 Read 在里面对不对?那目的就是要测试这个。那这个就是整个项目测试的背景。你背景不交代,那张正大你又同样的问题又出现了,对吧?你背景不交代……
发言者 2我、我、我背景是没交代清楚也不是不交代我想了我想的就是这个背景。
发言者 1你交代的那个背景谁听……没有用啊对下面理解问题几乎没用了。对吧你没有交代它核心的诉求和问题点哪你要、你要通过这个文档解决什么问题对不对
发言者 2嗯。
发言者 1你的核心诉求点没有说、说清楚啊。所以我就是说你需求文档分析是问、问题很大的。因为你不站在其他人的角度去思考。你其他人听不懂你讲什么的。如果我不把这段补充上去我根本不知道你要干什么。懂了吧
发言者 2没说明白嗯。
发言者 1你、你去跟上下文、去跟大模型交互的时候它 90% 是听不懂你讲什么的。所以给你的答案就是很糟糕的。懂了吗?所以同样一个人来问解、解决同样一个问题,能够得到的答案是完全不同的。懂了吗?如果我没有刚才,我就举现在这个例子好了,就如果我没有刚才这段上下文的补充,你们其他几个同、同事,你们没有一个人能明白我接下来要说什么和干什么。即使我告诉你我干了什么,你也不理解。明白不?好吧?这就是表达能力,就是提问题表达能力的重要性。如果没个这个,你们跟大模型是没法打交道的。好吧?这个再三跟你们说清楚。
发言者 2那这就是其实以后就是这种背景说明可能要特别详细才可以。就是我是、我是想了我就是说不出来嘛。你像我这种说不出来的我可能就先写下来。
发言者 1你、你给大模型的时候你就必须得写下来。
发言者 2知道了。
发言者 1好吧所以你、你这种准备出来没、没人看得懂的明白吗你这种文档交接你没人看得懂的。
发言者 2嗯。
发言者 1好吧首先第一你、你弄个 Read 在里面谁听不懂啊,放个 Read 在里面干什么?对吧?第二个,你为什么要测试东西?都是已经现成的既定的一个规则了,你为什么要测试?好吧?所以就我们在测试当中发现的情况是什么?就是它可以去调用这个项目、子项目当中的 Sub-agent。对吧这个是很怪的。那么它怎么实现的等会儿那张正大你继续讲吧。我把这个给你补全了别人才知道你做的东西有没有价值。否则你是没价值的。好吧目的意义不清楚。好嗯。
发言者 2行吧。那就主要是分两个就是两大块一块是你 Sub-agent 在全局下的调用,还有一块是你 Sub-agent 在项目下的调用。然后、呃 Sub-agent 在项目下的调用的话要分两个场景。然后那个全局下的调用就分一个场景。然后一共是三个场景。
发言者 1能不能搞完
发言者 2嗯。然后我就先说那个在全局下的一个调、呃就是在、在全局下测试的场景这是第一个场景。第一个场景的话就是首先啊首先那个 Skill 都是项目级的。就是 Skill.md 都是项目、项目下的。然后呢,就是说第一个场景就是用项目下的 Skill然后调用全局下的 Sub-agent然后看那个、看这个 Skill 最终的一个调用效果。这个是 Skill.md 的一个就是呃叫 prompt。它的主要作用就、就是启动一个叫、一个这个生成流、流程图的一个 Sub-agent。就是它只有一个提示词只有一段提示词。然后、呃就是看那个用这个 Skill 调用、调用这个 Sub-agent 的、调用这个 Sub-agent这 Sub-agent 能不能按照就是这个全局下的这个 prompt 来执行任务。大概就是这么个意思。
发言者 1插话这肯定行。这个这个我也、我、我用就是。
发言者 2嗯。
发言者 1另外我给你建议一下就是那个视频上方那段用 task 启动这个,这个是很不标准的语言。它有专门的 Task 那个语、那个调用规范的。好吧?以后我建议你用这个规范来调用。
发言者 2好。
发言者 1这种用语言描述它能理解不是不能理解。Skill 里面反正主上下文太听到它确实就会去启动,但是不规范也有可能会造成歧义。
发言者 2好。嗯。那就先看第一个视频了。这个你们页面清晰吗这样展示的话。好。那首先就是这、呃 Sub-agent 是在全局的、全局的 Agent 目录下。然后项目下是、项目目录下是没有这个 Sub-agent 的。然后那个 Skill.md 是、是这个内容。是、是视频的这三块。然后就、然后就开始跑这个 Skill。呃不让这个 Skill 来执行任务。嗯。
画面内容:屏幕右侧播放视频。视频显示 VS Code 界面,左侧资源管理器显示 `.cursor` 文件夹结构。右侧编辑器显示 `skill.md` 文件内容。下方终端显示正在运行的命令。视频中用户输入 `run task 启动 drawiowork sub-agent...`
发言者 3旁边提问这个 Cloud 窗口是在哪开的?
发言者 2Cloud 窗口就在这开的嘛。就是在做个项目下。行。
发言者 2然后那个让他执行的任务就是用、用那个生、呃用、用这个 Skill用这个 Skill 生成那个流、流程图。然后流程图的那个过程、呃流程图的流程就是这个。一睡觉二起床什么什么。然后再加上一句并总结文件。这个并总结文件就是要把、就是想对应刚才的那个 Sub-agent 的功能。就是你在你的、你的要执行的任务里面也加一个就是并总结文件,看他能不能按照那个、呃 Sub-agent 的、就是 Sub-agent 能不能收到了这个、这个、这个提示词之后,然后 Sub-agent 去生成一个就是读那个读需求文档、啊不、读那个会议纪要的一个就是功能呗。
发言者 2然后这个就是测试结果。首先它是生成了两个文件一个是那个总结的文档就是.md。
画面内容:屏幕显示生成的 Markdown 文件预览包含“会议纪要摘录及流程图说明”、“一、会议纪要1118 工程部分摘要”、“二、流程图文件说明”等内容。
发言者 1插话就那个就好。
发言者 2但它他这多了一块就是流程图的一个说明。他也把这块给总结了。
发言者 1因为你说了写并总结文件知道吧
发言者 2啊。
发言者 1那就是那及总结文件就是把你这两个任务全部总结了呀。因为你那写那个总结文件就是写的是不对的知道吧所以你看提示词给得不准确你、你测出来的结果就是不对的。所以提示词你们脑子思考能力不到就是容易出问题。但这个是对的啊就是人家执行的是对的是你提错了知道吧
发言者 2明白嗯。
发言者 2然后这个是他的就是结果的流程图。嗯。这是、这是在那个全、就是这是调用全局下的那个 Sub-agent。
画面内容屏幕显示生成的流程图drawio 格式),包含“睡觉”、“起床”等节点。
发言者 1你等会儿你等会儿你等会儿。你把视频拉到那个 Read 那块。Read 那块。我看那个 Context 那块。对,好。你看啊,它这个 Read 是出来的,啊,看到没有?它上来它就做 Read 了,就是它把这个第一步执行了。好再拉到 Context 那块。
发言者 2执行完了 Context 还是?
发言者 1结束的 Context 是吧?
发言者 2对。
发言者 12999229。所以它读的那个一定没进入上下文。对吧读的那个过程一定是在 Sub-agent 搞定的。但是你看到没有啊,它并没有写 Task。它并没有写 Task。知道吗往上。你、你看那个执行流程上来还照读呢。
发言者 2这个就是用 Task 启动的。
发言者 1没用。
发言者 2没用 Task。
发言者 1你你有一句话那个。它调的时候应该起一个 Task。应该有个 Task 的这个过程。对吧?
发言者 2没、没吧。
发言者 1我告诉你有的会起到的啊。
发言者 2我、我这录、我……
发言者 1你从来没遇到过 Task 吗?
发言者 2我从来没、是不是 windows 才有 Task
发言者 1我那儿会有 Task。
发言者 2我是从来没有 Task 这个字。
发言者 1啊我那儿会出现 Task但是不出现 Task 的时候也能调。Task 出了问题。所以这是我说出现问题的地方。对吧?它有的时候在这个地方会写一个 Task然后括号。
发言者 2哦。
发言者 1嗯。
发言者 2但它确实是调成功了。
发言者 1它确实是调了。嗯。但是我就有的时候就辨、辨别不清楚它怎么样才进入上下文什么不进入上下文。不管它。这个说明白了吧这个是主的。你们理解了吧就主放在我们全局 Agent 下面的,然后来来调用。再往下吧。嗯。
发言者 2第二个就是、就是这俩、就是场景二和场景三都是调用项目下的 Sub-agent。
发言者 1嗯明白了你别不要废那么多话了你说话太费劲了。
发言者 2那那就那就直接说吧。那场景二就是场景二的 Skill.md 和场景一的,就是刚才的 Skill.md 是一样的。就是我……
发言者 1位置不一样。
发言者 2啊对只有位置不一样。然后那个提示词是一样的。就是都是这一句。啊然后这个是它的就最后测试效果。
发言者 1直接要怎么调。
发言者 2嗯。
发言者 3这两个场景有啥区别
发言者 1好像你就是 Agent 的位置不同。
发言者 2不是。
发言者 3啊对啊。
发言者 2我是项目下分了两个场景嘛。
发言者 1项目下分两个场景是这样的提示词不同。
发言者 2提示词不同。一个是、一个是绝对路径一个是默认的路径。就是这。这有区别。就是在这加了一个绝对路径。
画面内容:屏幕显示 Word 文档中的“测试场景 2”部分Skill.md 代码块中可以看到路径被修改为绝对路径 `C:\Users\JJ...`
发言者 2然后哪个调用成功了
发言者 2然后就是这调用真成功了嘛。就是绝对路径的调用成功了。
发言者 3直接指到项目下这个 Agent 是成功的。
发言者 2对。
发言者 1但是我觉得有必要看一眼什么呢看一眼它在这个非绝对目录下的调用就没指定目录下的调用的这个执行过程。就很怪。就非常怪。你看一眼。别跑呀你往前拉往、往前、往后。退、退。好。退到、退到它这读那。读是吧好。再、再退。你看啊好、好、好就这儿开始。下吧。那放吧。这是场景二吗
发言者 2对。
发言者 2这是场景二。
<!-- ===== 文件合并边界 ===== -->
<!-- 注意:以下内容来自新文件,发言者编号可能与上文不对应 -->
<!-- 来源文件:会议视频转写-7.txt -->
以下为对该会议视频的逐字信息提取,按照时间顺序排列:
发言者男1就读吗
发言者男2好像是会的我...我忘了,应该,我...我记得是读了没生成。
发言者男1对啊你...你...你这快一点吧,这个老看不动。
发言者男2你这个场景二项目下有 Agent然后那个就是...
发言者男1就是 Right你读那个...
发言者男2这个场景下是项目下有 Agent然后全局下没有 Agent。
发言者男2对啊。
发言者男1这个读的动作出现了吗还是放在后面了吗
发言者男2这到底读没读
画面内容:终端界面停止滚动,停留在某次执行的日志上。
发言者男2Context 呢?
发言者男1等一下啊先...先看一下这个流程。
发言者男1它就没读。
发言者男1这次测试它就没读它读都没读。
发言者男2但是它也是启动成功了吧
发言者男1不是不是不是它启动成功和它就是最终执行的效果还是不一样的。就它启动成功我觉得是有两步...两个...两个就是方式,一个是它读...
发言者男2启动成功了但是它没有按照那个指令。
发言者男1那就很可能是把你的那个 Sub-agent 的那个 Prompt 读了,然后它带上那个提示词去启动了一个 Sub-agent但是它启动的不是你本来自己写好的那个 Sub-agent。
发言者男3就没启动 Sub-agent。它为什么要启动 Sub-agent
发言者男2关键它只有那些呀。
发言者男3对呀怎么可能自己...它...它怎么会自己启动呢?
发言者男2觉得...你这个逻辑上来说,你电脑自己怎么会判断说它自己启动一个 Sub-agent。
发言者男3那这个是...是你上下文看出来了吗?
发言者男1看了。呃...你这...你这...你这看那个...Context 吧。
发言者男3你这里面有 Context 吗?命令你敲了吗?
发言者男1有有有在后面在后面等一下。
发言者男1就反正就是最后生...就它只生成了一个流程图。
画面内容:屏幕再次切换到流程图绘制软件,显示了一个垂直的流程图。
发言者男2那肯定是有结论嘛你直接看 Context就是它上下文占了主窗口还是没占。
发言者男1占了。
发言者男3你看它应该没读嘛。
发言者男2没读所以看不出来。
发言者男3所以看不出来所以我跟你说我们...啊你这个就没有复现出来,我们去读过。我们...它自己确实读过。
发言者男2嗯。
发言者男3对吧就是它会启动“读”但它最后没有知识。
发言者男2没有执行。
发言者男3它有读这个动作但它没有执行。读完之后呢也没进循环也没实...也没有去总结。所以就压根它只是...可能自己把这个动作给判断...
发言者男2不要了。
发言者男3不要了它一看哦这不需要顺着那个...它在判断的时候啊,它认为生成流程图这件事情不需要读。
发言者男2懂了。
发言者男3是不是提示词给...必须强制它读这个。
发言者男2你提示词就是这么要求的嘛但是...
发言者男3它肯定不是你提示词要求了之后如果调用 Sub-agent 它也会总结的。你 Sub-agent 你现在读完之后它发现你主题是字没有,它只把这个 Sub-agent 这个目前之后,它就忽略了你 Sub-agent 这个事情。就不相关的。它是有自动的去组合 Sub-agent 和主...主窗口的 Prompt 的。它智能的判断我这个 Prompt 到底最后是吧...
发言者男2反正这个研究我觉得挺有价值的对我们去理解 Agent 究竟怎么去组织很有意义。
发言者男3行吧再往下一个走吧。
画面内容:屏幕切换到一个 Word 文档,标题为“测试结果”,文档中包含表格和文字说明,显示了不同路径下的测试情况。
发言者男2原来是用绝对路径调用顺畅是不是
发言者男1这个就是绝对路径。这个就是改了那个 Skill 的...
发言者男3绝对路径我们测了大概七八次把你...我那天测了四五次,我知道他后面又测了几次。就我每次改了绝对路径。
发言者男2所以我们也担心它有时候能读有时候不能读。
发言者男1我后面测了两次都是正常的我就没再多测了。嗯。
发言者男3所以就意味着它放在绝对路径下可调用。
发言者男2相对路径我测了...
发言者男3相对路径测了也有七...五六次啊。
发言者男2几乎没有成功过。
发言者男3几乎没有成功过。但是有的时候会出现读这个动作然后没读懂。
画面内容:屏幕切换回终端命令行界面,显示多行警告信息和加载信息。
发言者男3这个问题是怎么出现的是因为待会儿我告诉你我在做我的那个 PPT 的时候...
发言者男2这个问题好奇怪啊那官方说那加载到主窗口上下文只有那些 Sub-agent 的数据?
发言者男1没有它 YAML 源也加载了,就是 Sub-agent 的 YAML 也加载了。
发言者男2就是说那个 YAML 源数据。
发言者男3对啊。
发言者男1对啊你看吧这不就是 YAML 的数据。
画面内容:屏幕上的终端界面显示加载了 prompt 相关的 yaml 文件。
发言者男3但是你指向的是相对路径啊。
发言者男2对按理来说没有路径啊有路径啊。官方没有指到了。按理来说相对路径跟绝对路径...
发言者男3对啊。
发言者男2按理来说没...
发言者男1就你的理...你的理解就是相对路径和绝对路径其实没有区别对吧?
发言者男2没有区别没有 Bug。
发言者男1对我说...我也这觉...我本来也是觉...我本来也是觉得没有太大的区别的。
发言者男3哎呀我们研究了好几遍没关系啊等会儿再说我的那...那个送完呀。你在干嘛呢?
发言者男1
发言者男3听到了。
发言者男1你说啥刚才
发言者男3放完把它放完赶快找原因为什么没放完
发言者男1你那听不到你...
发言者男2是不是离太远了
发言者男3跟远有关系吗
发言者男2可能有关系。
发言者男3这样呢
发言者男2可能有关系就是这个视频会卡。
发言者男3所以我本来都用我的这个...苹果电脑。噢,我想起来了。有一个最...最大的问题是,你的这个视频收音效果就不好,你的这个画质。
发言者男2噢那天用的我的电脑。
发言者男3啊你的这个电脑。
发言者男2纯电脑。
发言者男3这个还行。
发言者男2这个还行这个还行。
发言者男3它这个就 Read 了,看到没有?
发言者男2嗯。
画面内容终端界面显示白色的“Reading...”字样。
发言者男3它这个就 Read 了,它先 Read 了这么些行之后,你往下再走,最后你给结果就行了,它只要有这个动作出现就行了。
画面内容:终端快速滚动,最后输出了一些总结性的文字。
发言者男3好嘛最后生成了纪要。同时你再看一下 Context。
发言者男1那你先看 Context 吧。
画面内容:屏幕切换,展示 Context 相关的日志信息。
发言者男3我在开会啊。没有我上午发了吗群里有。嗯嗯。
画面内容:屏幕继续显示终端日志,可以看到关于 Agent 和 Skill 调用的详细信息。
发言者男3对就是这个再往上翻往上翻一下。噢嗯。好。嗯嗯。好啊。
发言者男3所以你看这个 Context 是旧了 Sub-agent 这个...没有去用主窗口的。对吧?
发言者男2嗯。
发言者男3我们就还试过一个就是直接在主窗口里读确实上下文占掉了。对吧
发言者男1嗯。
发言者男3所以就...也就意味着它统计是没毛病的。那...我的理解是什么啊,就是...它在给到决定目录的时候,它确实是能够...就如果不给绝对目录,它去搜的时候,它可能搜不到,觉得有这个 Sub-agent 叫...有一个这...这什么...全局的 Sub-agent 叫这个名字。搜不到嘛。它就认为你这个指令肯定是不正确的。但是呢它同时去读过这个 Sub-agent 这个 Prompt对吧读完了但它不执行。它就把这个 Prompt 拿出来看看跟我的主...主的有没有关系。对吧,跟我的主 Prompt 有没有关系,那么这种情况下它可能就觉得没关系,或者关系不大,我就放掉了,不理了。但是你去这个...指定目录的时候,它去这个主目录下读了,它确实在 Agent 目录下。在这个 Agent 目录下能找到。能找到以后,它就会去调用。我觉得应该就是这么个关系,就是它没有那么严格的说一定不能执行子目录下的 AgentSub-agent没有这个要求。但是它...如果你不给它发生冲突的时候,它会首先默认去找全局 Agent。
发言者男2知道吧默认去找全局 Agent 的时候它就没有。
发言者男3这个时候它可能就否定掉了就不执行了。但是很怪的是它上下文加载的时候啊它是把子项目的 Sub-agent 也加...也加载进去的。对吧它它刚开始装载的时候,它是装载进去了的,但是它去查,它上来优先去查的应该是查的全局的。它发现查到没有,它就忽略了。那你给定指定目录之后,它会到指定目录的 Agent 下面去查,它发现这个东西确实在 Agent 目录下,它应该就是个 Sub-agent它就执行了。我就是这么理解。
发言者男2对。好办。
发言者男3所以这个对后面应该是有很大的影响的。你们可以自己再测试一下这是我们测试出来的。如果是可以的话我们用什么样的指令怎么调用这对 Sub-agent 的架构组怎么组织,就不一样了。
发言者男2嗯。
发言者男3对不对
发言者男2行啊。
发言者男3这是一个 Skill另外一个啊反正今天时间差不多我...我个人感觉Skill 调用 Sub-agent 还不是一个非常好的方式。
画面内容屏幕上的文档滚动到“五、部分Skill修改及完善”部分。
发言者男3还不是一个非常好的方式。真的应该就是应该是 Agent 调用 Skill。最好的方法就是用 Agent 调用 Skill。Skill 里面装 Sub-agent 这个...这个方法呢确实是有点击问题。嗯。呃,因为这样的话第一组织会乱。组织会乱。就是...你最好用什么呢?你不要在 Skill 里面调用,在 Agent 里面调用 Agent。就是你不要把所有的 Sub-agent 全部放在全局,你可以放在子项目下,但由谁来调用呢?用 Agent 调 Agent。这是最容易的。
发言者男2能调吗
发言者男3Agent 能调 Agent。而且分分钟的事情。Agent 可以调 Agent。是没有问题的。嗯。好办。行。或者你可以做一个所以我一直这...这今天来的路上我就想,我在一个子项目下我怎么去调用不同的 Sub-agent 对吧?我怎么去设定一个主 Agent。很有意思的。嗯。我们现在默认的主窗口就是主 Agent 对吧?就是 Cloud 的那个点,你可以定义一个主 Agent。
发言者男2可以的。
发言者男3你可以定义一个主 Agent怎么定义怎么激活呢你直接在这个你 Agent 下面定义这个主创...主 Agent 之后你直接选定它,它就是主 Agent。
发言者男2对。
发言者男3这种 Agent 下你再去调用其他的 Agent就全部是 Sub-agent。
发言者男2嗯。
发言者男3子项目应该这么来组织。不然你会真的有点乱。就你一会儿 Skill 调 AgentAgent 调 Skill来回嵌套哇塞这逻辑关系能能...能搞死你,我们索性啊,就非必要情况下。就除非特别特别...这个这个 Skill 就...就是一个宏观的 Skill。懂吗我就是要用很多 subset sub-agent 来...来调用它。对吧?我其实用 Agent 来组织 Agent 会更好,不用 Skill 来组织 Agent。
发言者男2嗯。
画面内容:屏幕始终显示 Word 文档的内容,没有发生变化。
发言者男3好吧这个逻辑我觉得是...是我这两天思考一个非常重要的收获。
发言者男2其实不就是层级不一样嘛就是 Skill... Skill 调 Agent 的...其实本质就是主窗口这个 Agent 去调...调其他 Agent 嘛。
发言者男3对。
发言者男2然后您说就是单起在主窗口下面启动一个 Agent...
发言者男3Agent。
发言者男2它作为主 Agent 去调配各个 Sub-agent。
发言者男3在下一层。
发言者男2对。
发言者男3这个是比较容易调的。
发言者男2这行应该可以。
发言者男3而且鬼...那个语...语法上面没有没有大的问题,而且我们日后的组织上也不会特别复杂。就是你的这个 Skill 和 Agent 的组织啊不会特别复杂。
发言者男2串起来肯定是...
发言者男3对。
发言者男2因为有一个主窗口的空间。
发言者男3会协调。
发言者男2因为你 Skill 其实也在主窗口。
发言者男3对呀。
发言者男2对吧
发言者男3你 Skill 里面调 Agent 其实有点有点费劲的。
发言者男2嗯。
发言者男3除非是这个 Skill 没有办法,就这个...这个流程没有办法抽出来。就没有办法抽出来。懂吗?必须要在 Skill 里面共享上下文这种。它也不存在。
发言者男2也不存在那主...都是 Agent 嘛,主窗口谁 Agent新起一个也是 Agent 是一样的。
发言者男3所以我觉得先...用这种逻辑和这种规则吧。就我们虽然找到了这个 Bug 啊。呃因为我自己确实想用一下。但是我不建议大家都用。就我今天前两天在考虑这个 Agent 编排的时候,我觉得还是 Agent 调用比较好。Agent 来调 Agent 比较好。嗯。而且比较智能。嗯。而且 Skill 嘛... Skill 最大的问题是,就这个 Skill 的上下文其实也在主窗口里面。
发言者男2我觉得...其实可以作为一个分阶段。嗯。就是...用现在这种形式,写 Skill 用加载,用主窗口加载这种形式,可能调试更好调。
发言者男3嗯。
发言者男2因为...因为毕竟你输入的信息都是在主窗口的,如果一上来就用那种 Agent 调...调 Agent 的方式,就是 Sub-agentLevel 1 的 Sub-agent 调用 Level 2 的 Sub-agent 来组织的话,它那个上下文主窗口是没有的。
发言者男3嗯。
发言者男2就是如果你要调试的话你是...你...你输入是是定位不到那里面,主窗口不知道你想改什么。
发言者男3嗯。
发言者男2然后所以我理解就是调试的时候可以用...用现在这种方式,然后就调试整个流程调通了之后,就可以把 Skill.md 移植到...
发言者男3Agent 里面。
发言者男2然后这个时候再用主...主窗口去调,这下...这个应该也可以。
发言者男3嗯。嗯。
发言者男2加一个
发言者男3不用。没有。
发言者男2你一开始就把 Skill 的这个... Prompt 放...流程放到 Sub-agent 里面,放到...主 Agent 里面是一样的。是一样的,反正你 Skill... 它... 它 Skill 就很简单嘛。上来就是把这个所有的上下文,只要用到这个 Skill 的上下文全部都放到主...主的主窗口里面是吧。所以你定义一个主的 Agent里面上下文就等于把 Skill 都写好了。是一样的。调用过程是一模一样的。无非就是什么呢?无非是什么呢?里面有几个问题。就是除非用到这个 Skill 用到了 Scripts。啊用到了这些东西你这没法弄了。懂吗因为 Skill 里面是可以去调 Scripts 的。Agent 里面就...也能调,但是...语法上对不那么不那么清晰语法上。Skill 肯定这个语法是很清晰的,就是它是可以执行 Python 代码的。可以执行代码的,所以 Skill 里面对于这个的支持是好的。但 Agent 里面对于这些支持可能没那么清晰。
发言者男2可能跟 Cloud Code 底层的提示词有关系。
发言者男3提示词有关系。我一直在思考它的提示词。就包括那个全局 Agent 和子 Agent 里面那个...这个提示词它都可能有现定的,它上来找的就是全局。
发言者男2有可能。
发言者男3你知道吧但是你指定之后你这个就等于强迫它去做这个事情了。它也就认了。
发言者男2有可能。嗯。
发言者男3好嘛。嗯。行。把提示词搞懂那给它改改也行。
发言者男3但它提示词也是很长的。你看上次加载那个 System Message我操多少一万多好一万多个 Token。
发言者男2是。
发言者男3上来先给你灌一万字。
发言者男2看一下它 Skill 执行的提示词。
发言者男3对。
发言者男2怎么强执按这个流程执行的。
发言者男3它好像可以自己添加那个系统提示词。
发言者男3添加可以但你不能改。
发言者男2它内置了一些。
发言者男3懂吗你可以在上面添加可以。
发言者男2改不了。
发言者男3改不了了它的系统提示词不会让你改的。对。嗯。好。好吧。
发言者男2嗯行啊。
发言者男3行吧那就这么着吧。嗯。
发言者男2基本反正 P0 过完。
发言者(女):好。
发言者男3复制分身的那个需...还没明确是吧?
发言者(女):呃,他这有个最新的情况,然后跟您汇报一下,就是听那个娴霖说,就是他们有市场部内部的一个工作会,然后斗主任最新的一个信息就是说核所他...放缓...那个需求好像有点...变,就是他这个时间然后有点变,他用不用也不一定。
发言者男3放缓。对啊所以就我们现在先做好嘛刚才也说过了。
发言者(女):就是所以就是我目前我跟娴霖反正有反复沟通,但他那边多多少少的就有...就只有那点东西,更多的还是得去问斗主任,是得让斗主任去问核所他想做一个什么样的东西,但是...
发言者男3这个如果他现在不做就我们自己做需求了。就不以他的需求为核心了。但这个数字分身的这个需求肯定是再的。好吧
发言者(女):嗯。好。嗯。
发言者男3就是相当于咱们多做几个版本嘛然后之后让核所去选。
发言者男3或者是那个市场部这个我们...他给些需求,我们自己找一些市面上的对吧?我们看到的做得好的,我们把它做下来之后就行了。
发言者(女):行。嗯好的。
发言者男3行吧。嗯。
发言者男3好吧。嗯。那个招标那个要提到 P0 了。
发言者(女):好。就媛媛的那个也挺着急的,因为她说那个涉及到就是她想年末...
发言者男3Gartner 的那个是吧?
发言者(女):对,她想...
发言者男3Gartner 的那个倒不难。
发言者(女):那有个收入。
发言者男3对。行吧因为时间关系就不多说了啊这个就这样吧。然后回头每个人再把自己的补充一下。
发言者男2嗯。
发言者男3咱们要不要现在捋一下 P0
发言者男3你可以嘛你那边。就你你...就是...就是你这个还没出来嘛对吧?
发言者男2行啊就把刚才那个讲一下过一遍。
发言者男3过一遍。
发言者男2呃...我这个会议纪要 Skill我先...啊那今天的我先用现在这个版本生成一份。然后生成完之后,我再...就主窗口加载那个会议转写的上下文。然后那个呃...我...我这次转写上下文是用腾讯会议的还是说把视频喂给...
发言者男3用视频视频。
发言者男2视频 Gemini 是吧?
发言者男3对。用最好的那个。你反正先用你这个生成一版嘛。
发言者男2啊。
发言者男3先用你这个生成一版嘛然后再把 Gemini 那个做一版嘛。
发言者男2就用我这个生成的转写文本是...
发言者男3转写文本两边各生成一个。
发言者男2两边各生成一个。
发言者男3各生成一个。
发言者男2就我现在...现在先按...先按我之前的用腾讯会议的。
发言者男3对对对。OK OK。因为腾讯会议这个视频出来之后你还得上载传给那个什么给 Gemini。
发言者男2行。行。
发言者男3好不好
发言者男2这个肯定是 P0。
发言者男3嗯。
发言者男2啊然后用 Gemini... 用 Gemini 措施加上,就用 Gemini 转写文本套到我这是...是一个,还有另一个是直接用 Gemini 去喂给它视频让它直接生成会议纪要。这个是一个,然后这个也都归 P0。
发言者男3嗯。
发言者男2然后这个...呃然后就是许所成这个 Skill然后我去明...再看一下那个二阶段的专家的交叉回应那一块,再自担一个事,然后整理出来一个就可视化的一个...一个...一个效果的东西。
发言者男3对。
发言者男2这个也是 P0。
发言者男3对。然后...同时这个需求 Skill 我们可能到时候先看看你的结果吧,我觉得把这个需求 Skill 的流程啊也走一遍。就整个流程图也看一下。
发言者男2行。
发言者男3行。
发言者男2行。
发言者男3因为看看未来将来这个流程里面需要怎么修改完善。
发言者男2好。
发言者男3好吧。
发言者男2好的。那这些都...就都归...归到一个项目里。
发言者男3好 P0。
发言者男2嗯。那...那我这边 P1... 噢 P1 就上周留下那个招投标的 Skill 的架构设计,我设计了。噢然后还有那个...
发言者男3那个现在需求急吗
发言者(女):呃...
发言者男3招投标那个。
发言者(女):有点急。
发言者男3所以那个要提成 P0 了。
发言者男2噢那个 P0。
发言者男3对。
发言者男2行。
发言者男3好吧。
发言者男2行那我这周做。
发言者男3嗯。
发言者男2然后还有那个 Gartner 报告转写那个是...
发言者男3那个可以做 P1。
发言者男2那个可以做 P1。那个我...也是我先设计架构还是我直接实现?
发言者男3架构。
发言者男2架构。架构。
发言者男3行。
发言者男2那我先设计架构这个是 P1。
发言者男3嗯。OK。
发言者男2行那我这边应该没...噢我这边那先...先没了吧。
发言者男3行。你回头看一下你个人工作呗你周报的个人工作里面到时候再...再补充吧。
发言者男2行。
发言者男3如果看到的你可以根据会议纪要补充或者你自己跟他再转写都行。
发言者男2OK。
发言者男3江老师那边那个刚才也提过了嘛数字人的这个对吧这个 P0 你们这个 PPT 肯定是越快越好。好吧?就是刚才也说过了明确要求了。
发言者(女):嗯。
发言者男3就是这个是 P0 的,好吧?
发言者男2好。
发言者男3刚才说跟 P... 跟数字人相关的几个测试啊,根据你的选...包括需求啊,修改啊,好吧?然后包括这周给出这个视频示范的文档啊,包括你的数字分身的这个端到端的这个,比如说用 Gemini 生成视频脚本和那个文字那个...人嘛,这分镜脚本和这个分镜的镜头这个图片等等这些,好吧?
发言者男2好。
发言者男3好吧。问题答案重构基本上上刚才也讲了所以我觉你还得用第一个把现在这个叫什么让 Codex 或者是什么大模型帮你把后端先走一遍,好吧?看有什么问题。第二个就是把前端的逻辑用或者是这个方案用大模型再帮你做一遍,然后看看跟你现在的这个方案有什么差异。
发言者男2好的。
发言者男3好吧这是我记住的啊有些补充你们自己再补充。嗯。
发言者男2就是...好,知道了。嗯。还有把下个版本的那个可能修改的逻辑先考虑一下。嗯。
发言者男3对对对对。嗯。
发言者男2嗯。
发言者男3好吧。
发言者男1嗯。
<!-- ===== 文件合并边界 ===== -->
<!-- 注意:以下内容来自新文件,发言者编号可能与上文不对应 -->
<!-- 来源文件:会议视频转写-8.txt -->
发言者 1签合同反正他说那个如果你能做出来基本上就有30万。
发言者 2嗯。
发言者 2嗯。
发言者 1那个那就加进来吧。那就加进来吧好吧。那个倒不难。
发言者 2提到P0
发言者 1提到P0吧。大概跟那个报告那个提到P0吧。
发言者 2那我这周先设计个架构。
发言者 1对。那个确实不难但是就是优化比较难。但先有个样子不难。
发言者 2先有个样子。
发言者 1先有个样子不难好吧。
发言者 2嗯。
发言者 1行吧。
发言者 2我……都用Skill是吧
发言者 1你现在不快嘛都用Skill。因为他要看到的都是样子嘛后面这些东西但凡用得多了我们就开始转化嘛。就转化我想好有什么框架我也没还没研究呢Skill怎么转成那个整个基于到底基于哪个的比如基于Kimichat2啊还是基于Claude自己的API啊还是基于对吧这里面都有都要思考了。你Cloud Code Agent或者Cloud Agent其实可以能用的。对吧可能更容易最简单。因为它是自己的框架嘛。那怎么转到别人的Agent框架对吧。而且LangChain LangGraph都是非常。那如果Deep Agent那个架构能用的话也行对吧。LangChain封装那个Deep Agent架构。对吧但是它七脚手架呀比如说上下门啊这些东西。
发言者 2又得稍微比较麻烦。
发言者 1对。得得找一个小程序啊做一次研究或者做一次学习。做一个小功能怎么去映射过去。学习一下看它暴露出哪些问题。对。好吧。这作为P1或者P2吧就这个从Cloud Code Skill转移到LangChain LangGraph的Deep Agent架构。
发言者 2行。
发言者 1好不好作为P1或者P2的研究项目。
发言者 2嗯。
发言者 1行吧。
发言者 3然后正发徐龙你要是忙不过来那个Skill然后我都可以去写帮你。
发言者 1嗯。
发言者 3嗯。
发言者 2那你就先开始做一下。
发言者 3你写个demo我照着改改。
发言者 1你可以试一个做一个小的呢。
发言者 3行。
发言者 2先试着做那个挺简单的你试一次。
发言者 3行好。
发言者 2他好像他好像挺想学那个学Skill的。
发言者 1嗯。挺好的。好吧。但是这个你前期得把Skill这些整个的底层东西全部学一遍不然你出来的东西不好用。嗯。
发言者 2嗯。
发言者 1包括Skill Agent检索有什么关系我跟你说这东西得要学好久呢。
发言者 2可以先试试。
发言者 1先上手试一下。
发言者 2先上手做几个简单的任务看。
发言者 3嗯行。
发言者 1好吧。
发言者 3好。
发言者 1嗯。怎么着。然后你就是丁康那边后面可以协助那个有一个其实你们都一直忘了写了这会议纪要里面。关于整个项目驱动的就是那日报项目驱动你还记得吧
发言者 2啊。
发言者 1上面一直没写。那个后面可以所以确实P1或者P2去了吧。让丁康来负责因为他那个不着急嘛。啊他可以有空闲时间周六周日帮我们来写这个。好吧到时候姜正达
发言者 4远程姜正达
发言者 4远程听得到。
发言者 1哎。把那个Cloud Agent Cloud Code那个我们那个Max版本的那个到时候可以给丁康用一下然后这个这个他的主要任务就是做日报驱动的那个整个的项目管理系统那个Skill好吧或者开发。
发言者 1嗯。
发言者 4远程好。嗯。
发言者 1好吧。包括基于会议纪要做日报然后日报出来之后怎么驱动项目管理那个跟Asana这些MCP怎么对接。好吧。
发言者 4远程好。昨天也跟他沟通过了让他先先学一下那个Asana的那个架构然后模块什么的先先熟悉一下然后再设计一下。嗯。
发言者 1好的好的。嗯。
画面内容:屏幕中心出现一个白色光标点,随后切换到电脑桌面录屏界面
发言者 1行吧。那这个时间关系啊我就给简单大家讲一下我做的那个PPT的那个。我觉得那个对大家以后可能就是本机自动化是有很大的价值的。用Playwright或者说那个它其实出了一个Chrome Deck Dev的那个就是好像Cloud自己出了一个Chrome浏览器的控制。我们用那个。
发言者 2我们用那个。
发言者 1我用的是那个什么用的还是Playwright有个Extension。就是在Chrome上的Extension做的。嗯给大家看一下。
画面内容展示Mac电脑桌面打开了多个窗口包括终端命令行、浏览器和代码编辑器
发言者 1那这就是我做最简单的一个了。比如说上来生成PPT对吧
画面内容终端界面显示正在运行Playwright代码浏览器界面显示Claude对话框
发言者 1我现在不跟他说什么。然后他会启动这个Skill。等会儿给大家看这个Skill挺很流畅啊。这个就是他就会问我你要什么主题的你可以自己打一个目标进去。那你可以跟他聊我需要什么什么简单的粗的都行。那么第二个就是什么什么给一个文件路径对吧我就把以我这个这个照片我跟他说是生成因为测试嘛做的很少。两页你可以做二十页都没问题的。手写体风格对吧然后好的他来生成两页的这个PPT。首先创建这个PPT的工作目录。然后现在加下来就是调用Gemini图片生成器来创建细细图。关于PPT的新细图。然后Gemini这个就我后来直接把就是Skill嵌套Skill来做了。我最后直接放弃Sub Agent了。虽然上下文会比较长但是我在调用逻辑关系非常非常清晰。就Skill套用Skill反而比Sub Agent要清晰的多因为上下文是共享的。知道吧所以它逻辑控制上非常非常精确。到了Sub Agent里面啊因为不带上下文之后啊它的逻辑控制有很大问题。到时候我有空你们可以试试。我一开始做了好几个Sub Agent在这里面做包括用Sub Agent来调这个Skill。
画面内容:鼠标高亮显示终端中的代码行 "The 'gemini-image-generator' skill is running"
发言者 1本来我是用这个Skill来调用一个Sub Agent的。这个Sub Agent可以放在主窗口、主那个叫全局Agent也可以放在子项目Agent我都尝试去调过的。但是效果都不太好。它的上下文人家就是不太好。这是一个啊。第二个这个这个后来我就直接把这个Skill提取出来了我不用它去调了。我本来想用上下文隔离嘛。我就说我们都出现叫什么叫偏执狂对吧其实主上下文的窗口好用的。最好用的还是主上下文的窗口对吧但只怕多嘛但我们不是多轮对话了。其实没必要的。我后来直接把它就调拉到主窗口下来了所以这个用这个Skill来做。
发言者 2这个Skill是写到Skill.md里
发言者 1对对对。等会儿我给你看一下目录啊。先看这个流程。
画面内容终端显示Playwright代码正在执行
发言者 1然后开始用Playwright调了看到没有先打开Gemini。然后开始我要它激图激活这个生图模式。对吧用Playwright去找到生图的模式然后生图模式出来以后上传文件。对吧它用Playwright把这文件就上传了。上传之后那看到没有把这文件就拷过去了。拷过去之后它一开始出现很恶心的它要上来先读这个文件。我让它不要读了你主上下文窗口读完不很恶心了。你直接给Gemini就好了Gemini自动来那个。为什么我要用Gemini来那个Cloud无论你生成多好的提示词都不如Gemini自己读这份文档然后自己制定的方案好。所以给我一个很大的启示就是你不要规定它做什么。你不要规定它做什么。上下文给它越全。给它越全它其实做的效果越好。知道吧所以我现在对上下文是一个有另外一个考量了。就是上下文其实越全越好。嗯。好这给到它之后它就开始上传了。上传之后开始输入框。
画面内容终端显示Playwright正在输入文本浏览器界面显示文件已上传
发言者 1它这个是什么呢它有一个非常简单的我在Skill里面规定的。你根据用户上传的内容文件生成那这两页是它带进去的嘛。16比9是它规定好的。然后手写体风格。看到没有它把我的这个给带过去了。Skill给带过去了这就非常容易带了。然后开始那个然后等它那个产出。那这儿给大家并排看一下。噢应该是在这个。在这个里面。
发言者 2每一页就是一张图片吗
发言者 1每一页是张图片。你看我是让它先生成。
画面内容Gemini对话界面显示生成的规划方案随后开始生成图片
发言者 1看到没有这个是先生成规划。看到没有生成规划方案。看到没有手写体风格对不对这个上下文代入得很好。一开始不是这样的啊它有很多很多自己加工的好多东西进去。它给你把这个文件的理解什么全都给你加进去了。然后它生成了这么多细细图看到吗这是Gemini生成的啊。好Gemini生成之后我就我让它生成第一张。那生成第一张图片。
发言者 2这个就是都是通过API API发送
发言者 1不是API。直接通过Playwright。MCP来来调用的。
发言者 2噢。
发言者 2噢。
发言者 1对。MCP控制得非常非常精准。然后生成之后然后生成之后它开始点击下载。那这儿可以有一个下载按钮。
发言者 2自动化操作的浏览器是吧
发言者 1对对对对。
发言者 2所以这些话也都是Type进去的。
发言者 1都是Playwright传递过来的。它可以操控浏览器的。知道吧
画面内容浏览器界面显示图片生成完毕鼠标点击图片上的下载按钮弹出“Download full size”提示
发言者 1然后之后我这里面有个运行脚本我都会看给大家看一下我的这个脚本。就是我让它怎么因为它生成之后啊它已经脱离了这个浏览器了你知道吗它这个出来会弹出一个储存窗口存储窗口。
画面内容Gemini界面显示图片预览
发言者 1它已经脱出了这个浏览器Playwright已经操作不了了。这时候我要用用的是什么呢OS Scripts。我来做了一个Save Image的这个脚本。让它去调用脚本来操控这个。操控之后它就存下来了。存下来之后接着就是第二个了。看到没有我存下来之后到第二个了第二个继续生成。啊。然后生成之后继续存。存完之后因为我现在没有办法因为在这里面操作非常麻烦嘛。刚才那个非常麻烦我就没有让它直接去指定目录了。我就直接让它存。存到这个文稿里面了。
画面内容:终端显示文件移动操作,文件管理器中显示图片文件
发言者 1到文稿里面我就自己从文稿里面把它找到这个文件然后移动到我的当前目录下。看到没有找到这个图片。然后移动到我的工作目录下。然后在工作目录里面就有两张图片。这张图片我给你看一下。那就这两张图片在里面了。看到没有在这两张图片了。然后干嘛呢我又执行一个操作。它有一个叫PPT组装。实现组装PPT。也是一个Python脚本。
画面内容终端运行组装PPT的脚本随后自动打开PowerPoint软件显示生成的PPT
发言者 1一个Python脚本生成了PPT之后直接就然后开始自动打开了Open了。然后就给我弹出我这个PPT了。Boss就完成了。懂吗所以完全自动化。你只要给它一个目录就OK了。好吧。所以那这个里面大家再看一眼我的目录结构。
发言者 2这些可以通过API去调用吗
发言者 1呃不行。Gemini调用API我没有我没有试而且调用API很贵的。
发言者 2可以像那种CURL的那种REST API那种
发言者 1网页的那个也不太执行不太准确。
画面内容:展示项目文件夹结构,包括 "claude code app"、"skills" 等目录
发言者 1那在这里面在Claude里面你看Skill我一开始用Agents后来我给删掉了。我就把它转到Skill里面来了。这个Skill这里面后来定义这个Agents后来我也没用。啊。我把它直接放到我的Skill里面定义了个Agents。我都尝试这个了但其实效果都不好。那这个那这里面Scripts一个就是那个执行这个操作命令的。它其实核心就是一个了。操作命令了。等待等待它完成然后直接移动到目标。看到没有就找文件先是存下来然后找文件。然后找到文件把它移动到那个目录里面。这就是这是一个。第二个就是这个Assemble PPT的。PPT组装。其实也很简单。把每个图装进去就好了。然后这些脚本都是我让它自动生成的。简单的。这个Scripts这个是Skill。这是PPT Auto这是第一个。然后第二个它调用的Skill嵌套的Skill是什么呢是这个Skill。这个Skill就非常非常的那个我调了很长时间。为什么它总是不执这个逻辑它总是执行不好。就是Agent总有自己的想法。它不完全按照你的Skill来执行的。知道吧所以我给它一步一步一步一步最重要的是它那个提示词总是 不按照我的来。
画面内容:打开 "SKILL.md" 文件显示详细的Prompt编写规则、错误示例和正确示例
发言者 1然后你看这里面为什么我说示例正确的是示例和错误示例对它都很重要。输入这个之后后面它就开始很好了。就开始比较好的执行你的这个了。所以你看这里面有对吧要求必须怎么样。是吧必须怎么样不能错误的是什么正确的是什么。都是一样的。你看这里面也有提示词模板错误的是什么正确的是什么。然后怎么保存对吧不可省略等等这些。所以对Agent其实有很多的行为规范的限定才能保证它数据的质量。如果你要求操作非常精密的话。如果你说我不需要我就探索的比较比较灵活的那OK的。好吧。
画面内容打开生成的PowerPoint文件展示一张包含复杂流程图的幻灯片
发言者 1示例调用。我看看您那个关注的是它那个自动化流程。然后PPT生成呢生成呢为什么要用它来生成是因为我觉得这个Nano Banana那个效果太吓人了。它一份文档我是给它一张图片。
发言者 2可以点点点那个。
发言者 1对。铺满全页的图片。它自动的。然后我给你看一下它这是它生成的我测试的嘛。还有一个我生成了一张五页的我觉得做得相当相当好。
画面内容展示另一份名为“智能企业”的PPT包含精美的数据图表和排版
发言者 1这是这个。这是另外一个文档的。做得相当好了。知道吧就是我花了五分钟时间。给它一个文稿。自动给我做出了PPT。完全够用的。那非常好。主流的全部在里面。看。我就问你谁能用五分钟时间做出这么好一个质量的PPT。不太可能。对吧所以我这两天基本一直在研究这个。
发言者 2这个很系统。
发言者 1对呀。我就说分分钟就把他们全干死了。那比他做得还好。
发言者 2那您那个上传的文件内容是什么这个内容是这个。
发言者 1是这些信息的总结吗
发言者 1不是。是不是总结。是一份我自己写的文档。更全的。对更全的文档。真的总结得挺好的。非常棒。那这个是我我自己写的文档。那这也是用Gemini那这是之前啊我很久以前这个人在推特上我关注了他很久了。他写的文章还是挺好的。我根据他的一些理念和我自己理解然后我自己写了一份文档。用Gemini 2.5写的。这就是之前的。我就写得蛮好的。写好之后我就这个把这份文档给到这个谁了。给到这个3.0来画图了。
画面内容滚动展示源文档内容包括“RAG”、“MLOps”等章节并与生成的PPT图表对应
发言者 1这里面有非常非常多的关于这个智能体企业怎么来做智能体企业。基于智能体架构的企业。那看。这是我让它基于它的一些基础的思理念我重新写了一份东西。对吧。写出来之后你看这份文档再如果再加上这个。基本上非常清晰了。你的一套理念体系就可以非常好的展示出来了。知识工作就完全完蛋了。
发言者 2我有问题就是咱们信通院如果用的话可能跟咱们平常汇报还有点他们是那个模板的。
发言者 1那个模板很容易非常容易。你到时候告诉它我用采用这个图片的模板去上传上去给它就好了。或者你直接做一个那个刚才说那个Gem就是那个你上面里面有一些参考文档是什么就OK了。这个都简单。这个不容不难的。或者你把这个图缩小一点把那个上面做成多少多少比例的就行了。比例你调一下就OK了。
发言者 2就还有一个就是想跟您分享就是您这个不是图片嘛右下角还有那个图标。然后我看当时用的时候我做了一页就用那个Python PPT的那个代码它能直接做成又可以修改了。
发言者 1对。那我告诉你。不用这个。我说了另外一个方法。就我既然能够自动操作化这个我就可以操作化另外一个工具是什么。我看看啊。应该我有没把它导出来啊。这个我本来没打算讲的。我看。有个。这个都是我测试的。我告诉你还有一个什么方案啊直接用那个什么。直接用Canva来生成。做得很好。我看看啊日本深度游。我给放到哪了放文稿里了好像是。在下载里。噢这个。你看啊这是通过Canva自自动生成的。这是给它一个我说给它帮我做一个日本深度游的详细的这个方案嘛。它给我做了一个什么呢HTML文件出来。知道吗我把这HTML文件存下来之后我去作了一下确实还挺好的但是它里面的图片都没有。这些图片来源什么都没有知道吗这些链接都没有。啊这是一个HTML的。好我说根据这个HTML文件直接生成PPT用Canva生成的。知道吗在Canva里面生成的。大家看一眼。也非常吓人。它就生成这个了。
画面内容展示Canva生成的“探索日本”PPT文本框可编辑
发言者 1这是完全基于文字都可修改的。那。另外一个你我可以导导到这个Doc里面吧我看看。这个我已经把那个都删掉了我看看。Doc里面。修改。那。这就是直接导到这边来了。对吧而且最重要的是什么它还可以将来啊。别的再说吧。你们如果用这种我就说它真的非常好用。那直接在这里面可以修改的。你直接可以修改图。知道吧用Gemini来做的。这跟Copilot很像了。但是比如这张图我就原来分辨率很低我直接让它生成成2K分辨率的。
画面内容演示在幻灯片中选中图片使用Gemini功能进行替换或提升分辨率
发言者 1对吧这些图都是在Canva里面。在Canva里面它自动就找到了。懂吗好。另外一个可改怎么改我告诉你。直接修改图片。直接在这里面用那个我试过直接你比如说把这一块字我全部隐引掉。然后重新打一行字上去。没有问题的。我都干过的。这个可能更简单。更简单。因为它这些排约排版都不要动嘛。对吧你比如说哪些字不对了你想改你可以完全流程。那整体我不给你发了嘛。对吧我直接用那个改了一下嘛。用图片那个。那个是长信息图。还有一个就是一张长信息图。也很有价值就是你不用多我不用那么多页。我就一张图把我这个这份这次文档的要点给你总结出来一张图。做得非常非常好的。长信息图做得也非常好。对吧那个他知道他看过。就是我们给医院的那个。设计的也非常好。对。好吧。所以我就是说接下来视觉这块真的是已经超出我的想象很多了。嗯。怎么把这样的好的能力对吧包括你给它一个视视图片它的理解也很也很到位。嗯。包括视频。好吧所以我就是说Gemini真的很吓人。非常吓人。嗯。
发言者 1好吧。今天要么就分享这么多因为时间关系。
发言者 2行。
发言者 3好。
发言者 2我就做Skill的话需要用一下Cloud那个账号是吧
发言者 1Cloud我你找一下姜正达吧他手头有两个账号。
发言者 3噢好嘞。
发言者 3好。
发言者 1不行就再开一个。