Files
AIEC_Skills/会议转写测试/会议视频转写-gemini/会议视频转写-6.txt

405 lines
27 KiB
Plaintext
Raw Normal View History

根据您提供的视频会议内容,以下是按时间顺序提取的逐字发言与画面变化记录:
发言者 1或者可能也都有那种动作生成嘛。
发言者 2可以好。
发言者 1就是动作视频生成你就打招呼啊上来走啊跟你把整个的……你这样我给你个建议啊通过 Gemini 3 给你生成分镜头脚本。懂吗?
画面内容:屏幕显示 Word 文档标题为“6.3 使用频率”,下方有表格“数字人平台选型”,列出“平台”、“最高分辨率”、“单次视频时长”、“平台页 1080P 视频支持”、“是否支持去水印”等列。
发言者 1就你给它一段比如说谁谁谁我要上去上台之后什么样一个要求然后什么样的一个背景你就……比如你的镜头机位怎么运转对吧那这种情况下你给它一个分镜头脚本比如做一个两分钟的分镜头脚本出来然后你给到 V3 或者给到什么模型分段生成就好了。
发言者 2明白。
发言者 1或者甚至你都可以把分段的这个……分段的这个图片都先生成。懂吗你可以通过 Nano 什么的把分段的图片都生成,生成之后,再建利用首尾帧再生成图像。把它做成两、两分钟的这个合起来的视频。
发言者 2好。
发言者 1理解吗
发言者 2理解。
发言者 1好吧这个流程基本上你就可以拿这个但是我认为 V3 这个 Gemini 3 是可以做到的,而且做的会比其他的都好。它对镜头的理解和分镜脚本的生成是比一般的模型要做得好的,视觉现在没有能超过它的。
发言者 2我试试。
发言者 1你抓紧时间把这个测试一下就是 Gemini 3 生成分镜头脚本,加上分镜头的那个图片,然后再通过 V3 也好别的什么也好再生成视频。通过分镜头生成和图片来生成……通过分镜头的图片加脚本来生成视频的工作已经有很多模型可以完成了,对吧?
发言者 2明白好的。那我的大概理解你意思就是其实就是说你用、用 Gemini 3.0 就是把那个分镜头的提示词也让它生成,图片也让它生成,然后、然后再找个地方生成视频。
发言者 1你也可以找 V3 做,你也可以找这个、这个、这个其他模型做。
发言者 2好。
发言者 1我说你明白了你看你现在才明白刚才你说明白不是真的明白。
发言者 2啊。
发言者 1好吧不明白你就问不要到时候拿回去又走错。
发言者 2嗯。
发言者 1这是我看到目前可能最有效的路径了。
发言者 2好。
发言者 1好的。
发言者 2嗯。
发言者 1这个首尾帧生成这个其实工具已经很多了对吧首尾帧视频加上那个文字给它之后把首尾帧这个图片加上文字给它生成视频这种已经很多了对不对
发言者 2对。
发言者 1但是就看这个能力就那天我不给你测试过嘛你还记得我给它一张图片然后给它一个文……让它两张图片吧你还记得你给我中间切了一段科普的那个老头加上那个最后医生你还记得它自动给你生成一段视频还记得吧
发言者 2啊对我记得嗯。
发言者 1那效果不是已经很好了吗
发言者 2嗯。
发言者 1如果你那个图片很好的话它生成效果会比那个更好的你那个图片本身质量就不好。对吧
发言者 2行。知道了嗯。
发言者 1行吧先这样吧。
发言者 2嗯。
发言者 1这个就是根据这个两……就总结一下啊第一生成视频样本这周就把它做完好吧视频样本。训练拿我们自己真实人容貌训练出来的语音和视频好吧
发言者 2嗯。
发言者 1这是一个。第二那个工作流你自己抓紧时间再看一下用什么样的工作流来搭如果 API 需要用看看怎么用 API如果不要用直接操作网站怎么操作或者剪映这些自动化工具你怎么用好吧
发言者 2好。
发言者 1这个工作流你、你抓紧时间再研究一下。
发言者 2好。
发言者 1第三个就是刚才说的通过这个 Gemini 3.0 把整个的这个视频的分镜头的脚本和这个图片,包括这些提示都给它生成之后找两个平台试一试,生成的这个视频效果,合成的比如说规定是要两分钟了,合成一分钟的也行,或者 30 秒的都行。好不好?
发言者 2好的。
发言者 1行吧。先这样。
发言者 2嗯。
发言者 1你这里有什么问题吗
发言者 2目前数字人这块吗
发言者 1啊。
发言者 2呃没有还没、没有。
发言者 1那你回到那个什么吧你下一项工作了。
画面内容:屏幕变为全黑,中间显示白色文字“信通院云大所市场部-张媛媛”。
发言者 1你把那个前端重构那个再讲一下吧。
画面内容:屏幕切换,显示 Word 文档标题为“前端重构需求”。文档目录包括“一、目的”、“二、系统架构”、“三、API 接口规范”等。
发言者 2那个我还完成然后呢我只做了一半但是就是说我是……你要不先看一下我这个方向对不对了
发言者 1对对。
发言者 2嗯。就是、呃我前端重构的话就是说我只重构前端的展示部分和代码结构。就说保留现在前端的一些基础功能。这个首先这个目标是、是……我觉得是没问题的对吧
发言者 1应该流程不动是对的先、先不动后面再说。但是我建议你在重构的时候就考虑到下一个版本的交互逻辑的更改。
发言者 2嗯。
发言者 1好吗不要到时候又、又、又这个什么叫什么呃这个架构调整又过不了了对吧或者要重新修改了要增加好多组件了什么的。
发言者 2好。
发言者 1好吧你最好把下一个版本的功能的需求结合这一次重构一起把它考虑进去。
发言者 2行。行。嗯。
发言者 2然后、然后下面就是、下面就是这个当前的这个系统架构系统架构。然后主要就是改这个前端嘛后端其实就不动对吧但是就是前端现在就是……
发言者 1后端都不要动啊你后端不动但是你现在可以拿 Opus 4.5 或者拿那个 Codex 把你现在的后端代码审查一遍。
发言者 2行。
发言者 1好吧你先不动它然后先让他提意见看看审查出来有多少问题慢慢重构好吧
发言者 2嗯。
发言者 1嗯。但是现在不要急着动它先让 Opus 走一圈,比如说审查你这个代码有什么问题。
发言者 2明白。
发言者 1好吧最好你、你上去找一个 Agent 或者找一个那个 Skill呃网上很多这种后端的这个代码审查的好吧叫 Code Review 的。你找一个 Code Review 去做一次审查,好吧?审查出来的毛病记下来之后再说。到时候看看把这个毛病记录下来之后这就相当于需求文档了嘛,到下一次会议的时候我们看一眼是不是要修改。好吧?如果需要修改,我们就让他帮着修改,但是前、前端这些备份什么的做好就行了。
发言者 2行。行知道了。嗯。
发言者 2然后这块就、下面这块就是 API 的接口规范,就是然后包括就是输入输出流,这块是、这块我是确认过的,就是我之前拿那个、呃就是之前的测试文档,然后生成的内容,嗯。就是说先把这个接口肯定要固定好,接口不能错。嗯。
画面内容:屏幕滚动显示文档中的 JSON 代码片段涉及“认证模块”、“1. 发送验证码”、“2. 用户登录”、“3. 用户注册”等接口定义。
发言者 2接口、接口、接口那个规范文档嘛对吧
发言者 1接口规范文档就输入输出嘛等于说嗯。
发言者 2这个是务必要遵守的对吧
发言者 1就是必须要遵守的。嗯。
画面内容屏幕继续向下滚动显示“4. 用户登出”、“5. 获取当前用户信息”、“历史记录模块”等接口详情。
发言者 2然后第、这块那就接口就不太细讲了那就是……
发言者 1另外一个我建议你你不是这个都、你肯定也是用大模型做出来的这个方案对吧我建议你这样你呢让他用你用、你用那个 Cloud Deep Research 也好,或者用那个 GPT 的 Research 也好,你让他给你一版关于前端重构的方案以及注意事项。看看跟你现在思考的、跟你思考的还有多大的不同。
画面内容:屏幕滚动到文档底部,显示“四、功能清单”,包含“用户认证模块”、“聊天功能模块”、“历史记录模块”等表格。
发言者 2好的这个我一开始是让 GPT 给我写过一版的,对,嗯,我、我、我、嗯,行,知道了。
发言者 1或者把你这个方案给它让它研究你这个方案存在哪些就是有什么值得借鉴的或者有什么问题。好吧你再看看是不是值得思考。另外我跟大伙说一下Cloud 4.5、Cloud 的那个幻觉还是挺高的。就是在文字回答上的幻觉是相当高的。
发言者 2嗯。
发言者 1所以 GPT 5.1 可能比它靠谱,所以就你们日常的问答还是以 5.1 为主可能会比较好。这个 4.5 的幻觉还是蛮严重的。嗯。
发言者 2明白嗯。我觉得就是我这大概的一个思路就是先跟 GPT 对话完了之后,再做一些、再做的,嗯。
发言者 1GPT 稍微靠谱一点但现在……Gemini 也稍微好一点,你现在可以这样,你用这两个做、做一次校验试试看,好吧?下次。嗯。
发言者 2好。好的好的。嗯。
发言者 2然后接着往下讲就是第四分、第四部分的那个功能清单就是我要保留的哪些功能然后功能模块……
发言者 1另外一个你写的这些东西去对一下你之前的那些流程图。或者你得审核一下他给你的这些建议和你那个流程图是不是对应的。
发言者 2明白。就是我就是等于我其实现在还在对就是因为没对完我就没那个。接口对完了然后功能这块还没对完。就包括就是要对完流程图还要对前端的那个功能就是是不是这个功能就是像他说的有像这种。就都要对清楚了之后再往下做嗯。
发言者 1所以你就让他给你做一版。就是简单的对比对照之后然后看你再看看他说的有没有对然后再通过你人来审查他的输出的这个结果。好吧
发言者 2明白。
发言者 1这个其实人以后 90% 就是功能了,提要求,然后审查结果。对吧?要求提得越好,你审查得越轻、轻松。另外一个你经验越做越多,你审查得越、越准确,其实就这个。好吧?
发言者 2好。嗯。
发言者 2然后就是、对我还要后面就是可能还要涉及一些比如说我要不要提供他样例代码这些就是我这块的话我还没跟 GPT 沟通呢,所以说后面就还、还没做完,等于。
发言者 1我建议你如果想的话提供一下我的经验……或者示例代码还是给一下。
发言者 2行。因为我、我考虑到了这个但是我还没确定所以我……
发言者 1你前端重构的话你现在都重构了就我说逻辑代码这肯定都比较那啥。但你前端重构大部分都是视觉的东西你给它代码示例有用吗
发言者 2就是我就想提供比如说像、像跟后端交互的这种的逻辑代码。
发言者 1这个我建议你我建议你提供。
发言者 2好。
发言者 1好吧我建议你提供有时候他会自己……就是你提供他未见得都遵守。
发言者 2我明白嗯。
发言者 1他自己处理起来还是挺那个什么的。好吧
发言者 2好。好。嗯。
发言者 2那然后就切到下一个就是、呃上次你周末和我对的那个就是 Skill 调用那个 Sub-agent 的那个教学。
发言者 1可以给大家讲一下。
发言者 2好的。嗯。
画面内容:屏幕切换至另一份 Word 文档标题为“Skill 调用自定义 Sub-Agent 调研文档”。文档内容包括“背景说明”、“统一的测试配置”、“Sub-Agent 定义”、“任务说明”、“测试场景”等。
发言者 2这个主要就是针对那个 Skill 怎么,就是说调用全、呃调用自定义的那个 Sub-agent 到底是那个项目级、项目级的,全局的,这个是怎么、怎么和它就是叫交互工……就是怎么调用的这个效果的一个、的一个叫什么调研文档。
发言者 1等会。听到。
发言者 2嗯。首先就是说、呃主要就是为了搞清楚那个 Skill 它调研那个全局下的那个叫 Sub-agent 可用还是调研项目级别下的 Sub-agent 可用,然后最后的调研结果就是……
发言者 1是调用。
发言者 2啊。说吧。
发言者 1嗯。
发言者 2首先 Sub-agent 的定义是统一的,就是 Sub-agent 的定义就是这个。呃 Sub-agent 的提示词就是这个。这个是在……就是说本次测试的那个 prompt 就是、就是这个,没动。动的只是切换那个……
画面内容:文档显示代码块,内容为 `name: drawio work``description: 你是流程图绘制专家...``tools: Read, Write`。
发言者 1说不清楚算了我来说吧。你这个说的根本就重点都丢的一……就 90% 的重点全都给你说、说丢了知道吧?
发言者 2啊。
发言者 1首先首先第一Sub-agent 的作用是什么就是为了做上下文区分嘛对吧上下文的隔离。那我们要看就是究竟这个我们这次调用有没有起到这个作用。对吧两个第一Sub-agent 调用的时候我的上下文是不是真的减少了。那这个确实是我们测下来,只要你调用 Sub-agent 的确实上下文是、主窗口上下文是减少了。对吧?使用是减少了。但是第一,怎么验证?第二个,怎么能证明我们这个 Sub-agent 是被调用了?对吧?或者在全局下被调用了,或者在子项目里面或者项目下也被调用了。因为有的时候是什么呢?这个出现的问题是什么呢?就 Sub-agent 在子项目下调用的时候,会出现一个什么?它会去读那个 Sub-agent 的提示词。
发言者 1旁边有人插话主窗口去读。
发言者 1主窗口去读。它只是作为一个参考文档而不是自动的实现了一个……
发言者 1旁边有人插话没有用 Sub-agent 去调。
发言者 1独立没有用 Sub-agent 去调。而且有的时候很怪的就是你……它没有用 Sub……这个地方还有个问题点就是它没有用 task 调,它有时候也能够实现上下文的隔离。很怪啊,这怎么实现的我们到时候再说。首先第一个我们出现那发现第一个现现象是什么呢?就是它会去读 Sub-agent。它读完之后呢会把上下文里面加入这个 Sub-agent 这个、这个一些要求。但这个要求并不能完全实现。所以为什么会加入那个里面任务流程里面,那上面的那个定义没什么好说的对吧?我们会加了个 Read因为这个 Read 这个文件很大嘛。就只有这个我才能判断它是不是加入了主上下、主上下文。对吧?主窗口的上下文。如果你是读下来的,只是把我作为一个相当于 Skill 一样的把上下文全部读下来了,对吧?并没有按照 Sub-agent 的方式去调用,那这种情况下,你读的就是占的主窗口上下文。对吧?主窗口的上下文。那我现在就把这断了,因为这个逻辑很不合理嘛,为什么加个 Read 在里面对不对?那目的就是要测试这个。那这个就是整个项目测试的背景。你背景不交代,那张正大你又同样的问题又出现了,对吧?你背景不交代……
发言者 2我、我、我背景是没交代清楚也不是不交代我想了我想的就是这个背景。
发言者 1你交代的那个背景谁听……没有用啊对下面理解问题几乎没用了。对吧你没有交代它核心的诉求和问题点哪你要、你要通过这个文档解决什么问题对不对
发言者 2嗯。
发言者 1你的核心诉求点没有说、说清楚啊。所以我就是说你需求文档分析是问、问题很大的。因为你不站在其他人的角度去思考。你其他人听不懂你讲什么的。如果我不把这段补充上去我根本不知道你要干什么。懂了吧
发言者 2没说明白嗯。
发言者 1你、你去跟上下文、去跟大模型交互的时候它 90% 是听不懂你讲什么的。所以给你的答案就是很糟糕的。懂了吗?所以同样一个人来问解、解决同样一个问题,能够得到的答案是完全不同的。懂了吗?如果我没有刚才,我就举现在这个例子好了,就如果我没有刚才这段上下文的补充,你们其他几个同、同事,你们没有一个人能明白我接下来要说什么和干什么。即使我告诉你我干了什么,你也不理解。明白不?好吧?这就是表达能力,就是提问题表达能力的重要性。如果没个这个,你们跟大模型是没法打交道的。好吧?这个再三跟你们说清楚。
发言者 2那这就是其实以后就是这种背景说明可能要特别详细才可以。就是我是、我是想了我就是说不出来嘛。你像我这种说不出来的我可能就先写下来。
发言者 1你、你给大模型的时候你就必须得写下来。
发言者 2知道了。
发言者 1好吧所以你、你这种准备出来没、没人看得懂的明白吗你这种文档交接你没人看得懂的。
发言者 2嗯。
发言者 1好吧首先第一你、你弄个 Read 在里面谁听不懂啊,放个 Read 在里面干什么?对吧?第二个,你为什么要测试东西?都是已经现成的既定的一个规则了,你为什么要测试?好吧?所以就我们在测试当中发现的情况是什么?就是它可以去调用这个项目、子项目当中的 Sub-agent。对吧这个是很怪的。那么它怎么实现的等会儿那张正大你继续讲吧。我把这个给你补全了别人才知道你做的东西有没有价值。否则你是没价值的。好吧目的意义不清楚。好嗯。
发言者 2行吧。那就主要是分两个就是两大块一块是你 Sub-agent 在全局下的调用,还有一块是你 Sub-agent 在项目下的调用。然后、呃 Sub-agent 在项目下的调用的话要分两个场景。然后那个全局下的调用就分一个场景。然后一共是三个场景。
发言者 1能不能搞完
发言者 2嗯。然后我就先说那个在全局下的一个调、呃就是在、在全局下测试的场景这是第一个场景。第一个场景的话就是首先啊首先那个 Skill 都是项目级的。就是 Skill.md 都是项目、项目下的。然后呢,就是说第一个场景就是用项目下的 Skill然后调用全局下的 Sub-agent然后看那个、看这个 Skill 最终的一个调用效果。这个是 Skill.md 的一个就是呃叫 prompt。它的主要作用就、就是启动一个叫、一个这个生成流、流程图的一个 Sub-agent。就是它只有一个提示词只有一段提示词。然后、呃就是看那个用这个 Skill 调用、调用这个 Sub-agent 的、调用这个 Sub-agent这 Sub-agent 能不能按照就是这个全局下的这个 prompt 来执行任务。大概就是这么个意思。
发言者 1插话这肯定行。这个这个我也、我、我用就是。
发言者 2嗯。
发言者 1另外我给你建议一下就是那个视频上方那段用 task 启动这个,这个是很不标准的语言。它有专门的 Task 那个语、那个调用规范的。好吧?以后我建议你用这个规范来调用。
发言者 2好。
发言者 1这种用语言描述它能理解不是不能理解。Skill 里面反正主上下文太听到它确实就会去启动,但是不规范也有可能会造成歧义。
发言者 2好。嗯。那就先看第一个视频了。这个你们页面清晰吗这样展示的话。好。那首先就是这、呃 Sub-agent 是在全局的、全局的 Agent 目录下。然后项目下是、项目目录下是没有这个 Sub-agent 的。然后那个 Skill.md 是、是这个内容。是、是视频的这三块。然后就、然后就开始跑这个 Skill。呃不让这个 Skill 来执行任务。嗯。
画面内容:屏幕右侧播放视频。视频显示 VS Code 界面,左侧资源管理器显示 `.cursor` 文件夹结构。右侧编辑器显示 `skill.md` 文件内容。下方终端显示正在运行的命令。视频中用户输入 `run task 启动 drawiowork sub-agent...`。
发言者 3旁边提问这个 Cloud 窗口是在哪开的?
发言者 2Cloud 窗口就在这开的嘛。就是在做个项目下。行。
发言者 2然后那个让他执行的任务就是用、用那个生、呃用、用这个 Skill用这个 Skill 生成那个流、流程图。然后流程图的那个过程、呃流程图的流程就是这个。一睡觉二起床什么什么。然后再加上一句并总结文件。这个并总结文件就是要把、就是想对应刚才的那个 Sub-agent 的功能。就是你在你的、你的要执行的任务里面也加一个就是并总结文件,看他能不能按照那个、呃 Sub-agent 的、就是 Sub-agent 能不能收到了这个、这个、这个提示词之后,然后 Sub-agent 去生成一个就是读那个读需求文档、啊不、读那个会议纪要的一个就是功能呗。
发言者 2然后这个就是测试结果。首先它是生成了两个文件一个是那个总结的文档就是.md。
画面内容:屏幕显示生成的 Markdown 文件预览包含“会议纪要摘录及流程图说明”、“一、会议纪要1118 工程部分摘要”、“二、流程图文件说明”等内容。
发言者 1插话就那个就好。
发言者 2但它他这多了一块就是流程图的一个说明。他也把这块给总结了。
发言者 1因为你说了写并总结文件知道吧
发言者 2啊。
发言者 1那就是那及总结文件就是把你这两个任务全部总结了呀。因为你那写那个总结文件就是写的是不对的知道吧所以你看提示词给得不准确你、你测出来的结果就是不对的。所以提示词你们脑子思考能力不到就是容易出问题。但这个是对的啊就是人家执行的是对的是你提错了知道吧
发言者 2明白嗯。
发言者 2然后这个是他的就是结果的流程图。嗯。这是、这是在那个全、就是这是调用全局下的那个 Sub-agent。
画面内容屏幕显示生成的流程图drawio 格式),包含“睡觉”、“起床”等节点。
发言者 1你等会儿你等会儿你等会儿。你把视频拉到那个 Read 那块。Read 那块。我看那个 Context 那块。对,好。你看啊,它这个 Read 是出来的,啊,看到没有?它上来它就做 Read 了,就是它把这个第一步执行了。好再拉到 Context 那块。
发言者 2执行完了 Context 还是?
发言者 1结束的 Context 是吧?
发言者 2对。
发言者 12999229。所以它读的那个一定没进入上下文。对吧读的那个过程一定是在 Sub-agent 搞定的。但是你看到没有啊,它并没有写 Task。它并没有写 Task。知道吗往上。你、你看那个执行流程上来还照读呢。
发言者 2这个就是用 Task 启动的。
发言者 1没用。
发言者 2没用 Task。
发言者 1你你有一句话那个。它调的时候应该起一个 Task。应该有个 Task 的这个过程。对吧?
发言者 2没、没吧。
发言者 1我告诉你有的会起到的啊。
发言者 2我、我这录、我……
发言者 1你从来没遇到过 Task 吗?
发言者 2我从来没、是不是 windows 才有 Task
发言者 1我那儿会有 Task。
发言者 2我是从来没有 Task 这个字。
发言者 1啊我那儿会出现 Task但是不出现 Task 的时候也能调。Task 出了问题。所以这是我说出现问题的地方。对吧?它有的时候在这个地方会写一个 Task然后括号。
发言者 2哦。
发言者 1嗯。
发言者 2但它确实是调成功了。
发言者 1它确实是调了。嗯。但是我就有的时候就辨、辨别不清楚它怎么样才进入上下文什么不进入上下文。不管它。这个说明白了吧这个是主的。你们理解了吧就主放在我们全局 Agent 下面的,然后来来调用。再往下吧。嗯。
发言者 2第二个就是、就是这俩、就是场景二和场景三都是调用项目下的 Sub-agent。
发言者 1嗯明白了你别不要废那么多话了你说话太费劲了。
发言者 2那那就那就直接说吧。那场景二就是场景二的 Skill.md 和场景一的,就是刚才的 Skill.md 是一样的。就是我……
发言者 1位置不一样。
发言者 2啊对只有位置不一样。然后那个提示词是一样的。就是都是这一句。啊然后这个是它的就最后测试效果。
发言者 1直接要怎么调。
发言者 2嗯。
发言者 3这两个场景有啥区别
发言者 1好像你就是 Agent 的位置不同。
发言者 2不是。
发言者 3啊对啊。
发言者 2我是项目下分了两个场景嘛。
发言者 1项目下分两个场景是这样的提示词不同。
发言者 2提示词不同。一个是、一个是绝对路径一个是默认的路径。就是这。这有区别。就是在这加了一个绝对路径。
画面内容:屏幕显示 Word 文档中的“测试场景 2”部分Skill.md 代码块中可以看到路径被修改为绝对路径 `C:\Users\JJ...`。
发言者 2然后哪个调用成功了
发言者 2然后就是这调用真成功了嘛。就是绝对路径的调用成功了。
发言者 3直接指到项目下这个 Agent 是成功的。
发言者 2对。
发言者 1但是我觉得有必要看一眼什么呢看一眼它在这个非绝对目录下的调用就没指定目录下的调用的这个执行过程。就很怪。就非常怪。你看一眼。别跑呀你往前拉往、往前、往后。退、退。好。退到、退到它这读那。读是吧好。再、再退。你看啊好、好、好就这儿开始。下吧。那放吧。这是场景二吗
发言者 2对。
发言者 2这是场景二。