Files
AIEC_Skills/会议转写测试/会议视频转写-gemini/会议视频转写-7.txt
2025-12-11 14:19:36 +08:00

555 lines
26 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

以下为对该会议视频的逐字信息提取,按照时间顺序排列:
发言者男1就读吗
发言者男2好像是会的我...我忘了,应该,我...我记得是读了没生成。
发言者男1对啊你...你...你这快一点吧,这个老看不动。
发言者男2你这个场景二项目下有 Agent然后那个就是...
发言者男1就是 Right你读那个...
发言者男2这个场景下是项目下有 Agent然后全局下没有 Agent。
画面内容:屏幕显示黑色背景的终端命令行界面,大量代码在滚动,正在运行 `swarms` 相关的程序。
发言者男2对啊。
发言者男1这个读的动作出现了吗还是放在后面了吗
发言者男2这到底读没读
画面内容:终端界面停止滚动,停留在某次执行的日志上。
发言者男2Context 呢?
发言者男1等一下啊先...先看一下这个流程。
发言者男1它就没读。
画面内容:屏幕短暂黑屏,随后切换显示一个流程图绘制软件的界面,正在加载。
发言者男1这次测试它就没读它读都没读。
发言者男2但是它也是启动成功了吧
发言者男1不是不是不是它启动成功和它就是最终执行的效果还是不一样的。就它启动成功我觉得是有两步...两个...两个就是方式,一个是它读...
发言者男2启动成功了但是它没有按照那个指令。
发言者男1那就很可能是把你的那个 Sub-agent 的那个 Prompt 读了,然后它带上那个提示词去启动了一个 Sub-agent但是它启动的不是你本来自己写好的那个 Sub-agent。
发言者男3就没启动 Sub-agent。它为什么要启动 Sub-agent
发言者男2关键它只有那些呀。
发言者男3对呀怎么可能自己...它...它怎么会自己启动呢?
发言者男2觉得...你这个逻辑上来说,你电脑自己怎么会判断说它自己启动一个 Sub-agent。
发言者男3那这个是...是你上下文看出来了吗?
发言者男1看了。呃...你这...你这...你这看那个...Context 吧。
发言者男3你这里面有 Context 吗?命令你敲了吗?
发言者男1有有有在后面在后面等一下。
画面内容:屏幕画面切换回黑色背景的终端命令行界面。
发言者男1就反正就是最后生...就它只生成了一个流程图。
画面内容:屏幕再次切换到流程图绘制软件,显示了一个垂直的流程图。
发言者男2那肯定是有结论嘛你直接看 Context就是它上下文占了主窗口还是没占。
发言者男1占了。
发言者男3你看它应该没读嘛。
发言者男2没读所以看不出来。
发言者男3所以看不出来所以我跟你说我们...啊你这个就没有复现出来,我们去读过。我们...它自己确实读过。
发言者男2嗯。
发言者男3对吧就是它会启动“读”但它最后没有知识。
发言者男2没有执行。
发言者男3它有读这个动作但它没有执行。读完之后呢也没进循环也没实...也没有去总结。所以就压根它只是...可能自己把这个动作给判断...
发言者男2不要了。
发言者男3不要了它一看哦这不需要顺着那个...它在判断的时候啊,它认为生成流程图这件事情不需要读。
发言者男2懂了。
发言者男3是不是提示词给...必须强制它读这个。
发言者男2你提示词就是这么要求的嘛但是...
发言者男3它肯定不是你提示词要求了之后如果调用 Sub-agent 它也会总结的。你 Sub-agent 你现在读完之后它发现你主题是字没有,它只把这个 Sub-agent 这个目前之后,它就忽略了你 Sub-agent 这个事情。就不相关的。它是有自动的去组合 Sub-agent 和主...主窗口的 Prompt 的。它智能的判断我这个 Prompt 到底最后是吧...
发言者男2反正这个研究我觉得挺有价值的对我们去理解 Agent 究竟怎么去组织很有意义。
发言者男3行吧再往下一个走吧。
画面内容:屏幕切换到一个 Word 文档,标题为“测试结果”,文档中包含表格和文字说明,显示了不同路径下的测试情况。
发言者男2原来是用绝对路径调用顺畅是不是
发言者男1这个就是绝对路径。这个就是改了那个 Skill 的...
发言者男3绝对路径我们测了大概七八次把你...我那天测了四五次,我知道他后面又测了几次。就我每次改了绝对路径。
发言者男2所以我们也担心它有时候能读有时候不能读。
发言者男1我后面测了两次都是正常的我就没再多测了。嗯。
发言者男3所以就意味着它放在绝对路径下可调用。
发言者男2相对路径我测了...
发言者男3相对路径测了也有七...五六次啊。
发言者男2几乎没有成功过。
发言者男3几乎没有成功过。但是有的时候会出现读这个动作然后没读懂。
画面内容:屏幕切换回终端命令行界面,显示多行警告信息和加载信息。
发言者男3这个问题是怎么出现的是因为待会儿我告诉你我在做我的那个 PPT 的时候...
发言者男2这个问题好奇怪啊那官方说那加载到主窗口上下文只有那些 Sub-agent 的数据?
发言者男1没有它 YAML 源也加载了,就是 Sub-agent 的 YAML 也加载了。
发言者男2就是说那个 YAML 源数据。
发言者男3对啊。
发言者男1对啊你看吧这不就是 YAML 的数据。
画面内容:屏幕上的终端界面显示加载了 prompt 相关的 yaml 文件。
发言者男3但是你指向的是相对路径啊。
发言者男2对按理来说没有路径啊有路径啊。官方没有指到了。按理来说相对路径跟绝对路径...
发言者男3对啊。
发言者男2按理来说没...
发言者男1就你的理...你的理解就是相对路径和绝对路径其实没有区别对吧?
发言者男2没有区别没有 Bug。
发言者男1对我说...我也这觉...我本来也是觉...我本来也是觉得没有太大的区别的。
发言者男3哎呀我们研究了好几遍没关系啊等会儿再说我的那...那个送完呀。你在干嘛呢?
发言者男1
发言者男3听到了。
发言者男1你说啥刚才
发言者男3放完把它放完赶快找原因为什么没放完
发言者男1你那听不到你...
发言者男2是不是离太远了
发言者男3跟远有关系吗
发言者男2可能有关系。
发言者男3这样呢
发言者男2可能有关系就是这个视频会卡。
发言者男3所以我本来都用我的这个...苹果电脑。噢,我想起来了。有一个最...最大的问题是,你的这个视频收音效果就不好,你的这个画质。
发言者男2噢那天用的我的电脑。
发言者男3啊你的这个电脑。
发言者男2纯电脑。
发言者男3这个还行。
发言者男2这个还行这个还行。
发言者男3它这个就 Read 了,看到没有?
发言者男2嗯。
画面内容终端界面显示白色的“Reading...”字样。
发言者男3它这个就 Read 了,它先 Read 了这么些行之后,你往下再走,最后你给结果就行了,它只要有这个动作出现就行了。
画面内容:终端快速滚动,最后输出了一些总结性的文字。
发言者男3好嘛最后生成了纪要。同时你再看一下 Context。
发言者男1那你先看 Context 吧。
画面内容:屏幕切换,展示 Context 相关的日志信息。
发言者男3我在开会啊。没有我上午发了吗群里有。嗯嗯。
画面内容:屏幕继续显示终端日志,可以看到关于 Agent 和 Skill 调用的详细信息。
发言者男3对就是这个再往上翻往上翻一下。噢嗯。好。嗯嗯。好啊。
发言者男3所以你看这个 Context 是旧了 Sub-agent 这个...没有去用主窗口的。对吧?
发言者男2嗯。
发言者男3我们就还试过一个就是直接在主窗口里读确实上下文占掉了。对吧
发言者男1嗯。
发言者男3所以就...也就意味着它统计是没毛病的。那...我的理解是什么啊,就是...它在给到决定目录的时候,它确实是能够...就如果不给绝对目录,它去搜的时候,它可能搜不到,觉得有这个 Sub-agent 叫...有一个这...这什么...全局的 Sub-agent 叫这个名字。搜不到嘛。它就认为你这个指令肯定是不正确的。但是呢它同时去读过这个 Sub-agent 这个 Prompt对吧读完了但它不执行。它就把这个 Prompt 拿出来看看跟我的主...主的有没有关系。对吧,跟我的主 Prompt 有没有关系,那么这种情况下它可能就觉得没关系,或者关系不大,我就放掉了,不理了。但是你去这个...指定目录的时候,它去这个主目录下读了,它确实在 Agent 目录下。在这个 Agent 目录下能找到。能找到以后,它就会去调用。我觉得应该就是这么个关系,就是它没有那么严格的说一定不能执行子目录下的 AgentSub-agent没有这个要求。但是它...如果你不给它发生冲突的时候,它会首先默认去找全局 Agent。
发言者男2知道吧默认去找全局 Agent 的时候它就没有。
发言者男3这个时候它可能就否定掉了就不执行了。但是很怪的是它上下文加载的时候啊它是把子项目的 Sub-agent 也加...也加载进去的。对吧它它刚开始装载的时候,它是装载进去了的,但是它去查,它上来优先去查的应该是查的全局的。它发现查到没有,它就忽略了。那你给定指定目录之后,它会到指定目录的 Agent 下面去查,它发现这个东西确实在 Agent 目录下,它应该就是个 Sub-agent它就执行了。我就是这么理解。
发言者男2对。好办。
发言者男3所以这个对后面应该是有很大的影响的。你们可以自己再测试一下这是我们测试出来的。如果是可以的话我们用什么样的指令怎么调用这对 Sub-agent 的架构组怎么组织,就不一样了。
发言者男2嗯。
发言者男3对不对
发言者男2行啊。
发言者男3这是一个 Skill另外一个啊反正今天时间差不多我...我个人感觉Skill 调用 Sub-agent 还不是一个非常好的方式。
画面内容屏幕上的文档滚动到“五、部分Skill修改及完善”部分。
发言者男3还不是一个非常好的方式。真的应该就是应该是 Agent 调用 Skill。最好的方法就是用 Agent 调用 Skill。Skill 里面装 Sub-agent 这个...这个方法呢确实是有点击问题。嗯。呃,因为这样的话第一组织会乱。组织会乱。就是...你最好用什么呢?你不要在 Skill 里面调用,在 Agent 里面调用 Agent。就是你不要把所有的 Sub-agent 全部放在全局,你可以放在子项目下,但由谁来调用呢?用 Agent 调 Agent。这是最容易的。
发言者男2能调吗
发言者男3Agent 能调 Agent。而且分分钟的事情。Agent 可以调 Agent。是没有问题的。嗯。好办。行。或者你可以做一个所以我一直这...这今天来的路上我就想,我在一个子项目下我怎么去调用不同的 Sub-agent 对吧?我怎么去设定一个主 Agent。很有意思的。嗯。我们现在默认的主窗口就是主 Agent 对吧?就是 Cloud 的那个点,你可以定义一个主 Agent。
发言者男2可以的。
发言者男3你可以定义一个主 Agent怎么定义怎么激活呢你直接在这个你 Agent 下面定义这个主创...主 Agent 之后你直接选定它,它就是主 Agent。
发言者男2对。
发言者男3这种 Agent 下你再去调用其他的 Agent就全部是 Sub-agent。
发言者男2嗯。
发言者男3子项目应该这么来组织。不然你会真的有点乱。就你一会儿 Skill 调 AgentAgent 调 Skill来回嵌套哇塞这逻辑关系能能...能搞死你,我们索性啊,就非必要情况下。就除非特别特别...这个这个 Skill 就...就是一个宏观的 Skill。懂吗我就是要用很多 subset sub-agent 来...来调用它。对吧?我其实用 Agent 来组织 Agent 会更好,不用 Skill 来组织 Agent。
发言者男2嗯。
画面内容:屏幕始终显示 Word 文档的内容,没有发生变化。
发言者男3好吧这个逻辑我觉得是...是我这两天思考一个非常重要的收获。
发言者男2其实不就是层级不一样嘛就是 Skill... Skill 调 Agent 的...其实本质就是主窗口这个 Agent 去调...调其他 Agent 嘛。
发言者男3对。
发言者男2然后您说就是单起在主窗口下面启动一个 Agent...
发言者男3Agent。
发言者男2它作为主 Agent 去调配各个 Sub-agent。
发言者男3在下一层。
发言者男2对。
发言者男3这个是比较容易调的。
发言者男2这行应该可以。
发言者男3而且鬼...那个语...语法上面没有没有大的问题,而且我们日后的组织上也不会特别复杂。就是你的这个 Skill 和 Agent 的组织啊不会特别复杂。
发言者男2串起来肯定是...
发言者男3对。
发言者男2因为有一个主窗口的空间。
发言者男3会协调。
发言者男2因为你 Skill 其实也在主窗口。
发言者男3对呀。
发言者男2对吧
发言者男3你 Skill 里面调 Agent 其实有点有点费劲的。
发言者男2嗯。
发言者男3除非是这个 Skill 没有办法,就这个...这个流程没有办法抽出来。就没有办法抽出来。懂吗?必须要在 Skill 里面共享上下文这种。它也不存在。
发言者男2也不存在那主...都是 Agent 嘛,主窗口谁 Agent新起一个也是 Agent 是一样的。
发言者男3所以我觉得先...用这种逻辑和这种规则吧。就我们虽然找到了这个 Bug 啊。呃因为我自己确实想用一下。但是我不建议大家都用。就我今天前两天在考虑这个 Agent 编排的时候,我觉得还是 Agent 调用比较好。Agent 来调 Agent 比较好。嗯。而且比较智能。嗯。而且 Skill 嘛... Skill 最大的问题是,就这个 Skill 的上下文其实也在主窗口里面。
发言者男2我觉得...其实可以作为一个分阶段。嗯。就是...用现在这种形式,写 Skill 用加载,用主窗口加载这种形式,可能调试更好调。
发言者男3嗯。
发言者男2因为...因为毕竟你输入的信息都是在主窗口的,如果一上来就用那种 Agent 调...调 Agent 的方式,就是 Sub-agentLevel 1 的 Sub-agent 调用 Level 2 的 Sub-agent 来组织的话,它那个上下文主窗口是没有的。
发言者男3嗯。
发言者男2就是如果你要调试的话你是...你...你输入是是定位不到那里面,主窗口不知道你想改什么。
发言者男3嗯。
发言者男2然后所以我理解就是调试的时候可以用...用现在这种方式,然后就调试整个流程调通了之后,就可以把 Skill.md 移植到...
发言者男3Agent 里面。
发言者男2然后这个时候再用主...主窗口去调,这下...这个应该也可以。
发言者男3嗯。嗯。
发言者男2加一个
发言者男3不用。没有。
发言者男2你一开始就把 Skill 的这个... Prompt 放...流程放到 Sub-agent 里面,放到...主 Agent 里面是一样的。是一样的,反正你 Skill... 它... 它 Skill 就很简单嘛。上来就是把这个所有的上下文,只要用到这个 Skill 的上下文全部都放到主...主的主窗口里面是吧。所以你定义一个主的 Agent里面上下文就等于把 Skill 都写好了。是一样的。调用过程是一模一样的。无非就是什么呢?无非是什么呢?里面有几个问题。就是除非用到这个 Skill 用到了 Scripts。啊用到了这些东西你这没法弄了。懂吗因为 Skill 里面是可以去调 Scripts 的。Agent 里面就...也能调,但是...语法上对不那么不那么清晰语法上。Skill 肯定这个语法是很清晰的,就是它是可以执行 Python 代码的。可以执行代码的,所以 Skill 里面对于这个的支持是好的。但 Agent 里面对于这些支持可能没那么清晰。
发言者男2可能跟 Cloud Code 底层的提示词有关系。
发言者男3提示词有关系。我一直在思考它的提示词。就包括那个全局 Agent 和子 Agent 里面那个...这个提示词它都可能有现定的,它上来找的就是全局。
发言者男2有可能。
发言者男3你知道吧但是你指定之后你这个就等于强迫它去做这个事情了。它也就认了。
发言者男2有可能。嗯。
发言者男3好嘛。嗯。行。把提示词搞懂那给它改改也行。
发言者男3但它提示词也是很长的。你看上次加载那个 System Message我操多少一万多好一万多个 Token。
发言者男2是。
发言者男3上来先给你灌一万字。
发言者男2看一下它 Skill 执行的提示词。
发言者男3对。
发言者男2怎么强执按这个流程执行的。
发言者男3它好像可以自己添加那个系统提示词。
发言者男3添加可以但你不能改。
发言者男2它内置了一些。
发言者男3懂吗你可以在上面添加可以。
发言者男2改不了。
发言者男3改不了了它的系统提示词不会让你改的。对。嗯。好。好吧。
发言者男2嗯行啊。
发言者男3行吧那就这么着吧。嗯。
发言者男2基本反正 P0 过完。
发言者(女):好。
发言者男3复制分身的那个需...还没明确是吧?
发言者(女):呃,他这有个最新的情况,然后跟您汇报一下,就是听那个娴霖说,就是他们有市场部内部的一个工作会,然后斗主任最新的一个信息就是说核所他...放缓...那个需求好像有点...变,就是他这个时间然后有点变,他用不用也不一定。
发言者男3放缓。对啊所以就我们现在先做好嘛刚才也说过了。
发言者(女):就是所以就是我目前我跟娴霖反正有反复沟通,但他那边多多少少的就有...就只有那点东西,更多的还是得去问斗主任,是得让斗主任去问核所他想做一个什么样的东西,但是...
发言者男3这个如果他现在不做就我们自己做需求了。就不以他的需求为核心了。但这个数字分身的这个需求肯定是再的。好吧
发言者(女):嗯。好。嗯。
发言者男3就是相当于咱们多做几个版本嘛然后之后让核所去选。
发言者男3或者是那个市场部这个我们...他给些需求,我们自己找一些市面上的对吧?我们看到的做得好的,我们把它做下来之后就行了。
发言者(女):行。嗯好的。
发言者男3行吧。嗯。
发言者男3好吧。嗯。那个招标那个要提到 P0 了。
发言者(女):好。就媛媛的那个也挺着急的,因为她说那个涉及到就是她想年末...
发言者男3Gartner 的那个是吧?
发言者(女):对,她想...
发言者男3Gartner 的那个倒不难。
发言者(女):那有个收入。
发言者男3对。行吧因为时间关系就不多说了啊这个就这样吧。然后回头每个人再把自己的补充一下。
发言者男2嗯。
发言者男3咱们要不要现在捋一下 P0
发言者男3你可以嘛你那边。就你你...就是...就是你这个还没出来嘛对吧?
发言者男2行啊就把刚才那个讲一下过一遍。
发言者男3过一遍。
发言者男2呃...我这个会议纪要 Skill我先...啊那今天的我先用现在这个版本生成一份。然后生成完之后,我再...就主窗口加载那个会议转写的上下文。然后那个呃...我...我这次转写上下文是用腾讯会议的还是说把视频喂给...
发言者男3用视频视频。
发言者男2视频 Gemini 是吧?
发言者男3对。用最好的那个。你反正先用你这个生成一版嘛。
发言者男2啊。
发言者男3先用你这个生成一版嘛然后再把 Gemini 那个做一版嘛。
发言者男2就用我这个生成的转写文本是...
发言者男3转写文本两边各生成一个。
发言者男2两边各生成一个。
发言者男3各生成一个。
发言者男2就我现在...现在先按...先按我之前的用腾讯会议的。
发言者男3对对对。OK OK。因为腾讯会议这个视频出来之后你还得上载传给那个什么给 Gemini。
发言者男2行。行。
发言者男3好不好
发言者男2这个肯定是 P0。
发言者男3嗯。
发言者男2啊然后用 Gemini... 用 Gemini 措施加上,就用 Gemini 转写文本套到我这是...是一个,还有另一个是直接用 Gemini 去喂给它视频让它直接生成会议纪要。这个是一个,然后这个也都归 P0。
发言者男3嗯。
发言者男2然后这个...呃然后就是许所成这个 Skill然后我去明...再看一下那个二阶段的专家的交叉回应那一块,再自担一个事,然后整理出来一个就可视化的一个...一个...一个效果的东西。
发言者男3对。
发言者男2这个也是 P0。
发言者男3对。然后...同时这个需求 Skill 我们可能到时候先看看你的结果吧,我觉得把这个需求 Skill 的流程啊也走一遍。就整个流程图也看一下。
发言者男2行。
发言者男3行。
发言者男2行。
发言者男3因为看看未来将来这个流程里面需要怎么修改完善。
发言者男2好。
发言者男3好吧。
发言者男2好的。那这些都...就都归...归到一个项目里。
发言者男3好 P0。
发言者男2嗯。那...那我这边 P1... 噢 P1 就上周留下那个招投标的 Skill 的架构设计,我设计了。噢然后还有那个...
发言者男3那个现在需求急吗
发言者(女):呃...
发言者男3招投标那个。
发言者(女):有点急。
发言者男3所以那个要提成 P0 了。
发言者男2噢那个 P0。
发言者男3对。
发言者男2行。
发言者男3好吧。
发言者男2行那我这周做。
发言者男3嗯。
发言者男2然后还有那个 Gartner 报告转写那个是...
发言者男3那个可以做 P1。
发言者男2那个可以做 P1。那个我...也是我先设计架构还是我直接实现?
发言者男3架构。
发言者男2架构。架构。
发言者男3行。
发言者男2那我先设计架构这个是 P1。
发言者男3嗯。OK。
发言者男2行那我这边应该没...噢我这边那先...先没了吧。
发言者男3行。你回头看一下你个人工作呗你周报的个人工作里面到时候再...再补充吧。
发言者男2行。
发言者男3如果看到的你可以根据会议纪要补充或者你自己跟他再转写都行。
发言者男2OK。
发言者男3江老师那边那个刚才也提过了嘛数字人的这个对吧这个 P0 你们这个 PPT 肯定是越快越好。好吧?就是刚才也说过了明确要求了。
发言者(女):嗯。
发言者男3就是这个是 P0 的,好吧?
发言者男2好。
发言者男3刚才说跟 P... 跟数字人相关的几个测试啊,根据你的选...包括需求啊,修改啊,好吧?然后包括这周给出这个视频示范的文档啊,包括你的数字分身的这个端到端的这个,比如说用 Gemini 生成视频脚本和那个文字那个...人嘛,这分镜脚本和这个分镜的镜头这个图片等等这些,好吧?
发言者男2好。
发言者男3好吧。问题答案重构基本上上刚才也讲了所以我觉你还得用第一个把现在这个叫什么让 Codex 或者是什么大模型帮你把后端先走一遍,好吧?看有什么问题。第二个就是把前端的逻辑用或者是这个方案用大模型再帮你做一遍,然后看看跟你现在的这个方案有什么差异。
发言者男2好的。
发言者男3好吧这是我记住的啊有些补充你们自己再补充。嗯。
发言者男2就是...好,知道了。嗯。还有把下个版本的那个可能修改的逻辑先考虑一下。嗯。
发言者男3对对对对。嗯。
发言者男2嗯。
发言者男3好吧。
发言者男1嗯。
画面内容:视频结束,屏幕黑屏。