Files
AIEC_Skills/会议转写测试/会议视频转写-gemini/会议视频转写-8.txt
2025-12-11 14:19:36 +08:00

126 lines
22 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

发言者 1签合同反正他说那个如果你能做出来基本上就有30万。
发言者 2嗯。
发言者 2嗯。
画面内容:黑屏,显示白色文字“信通院云大所市场部-张媛媛”
发言者 1那个那就加进来吧。那就加进来吧好吧。那个倒不难。
发言者 2提到P0
发言者 1提到P0吧。大概跟那个报告那个提到P0吧。
发言者 2那我这周先设计个架构。
发言者 1对。那个确实不难但是就是优化比较难。但先有个样子不难。
发言者 2先有个样子。
发言者 1先有个样子不难好吧。
发言者 2嗯。
发言者 1行吧。
发言者 2我……都用Skill是吧
发言者 1你现在不快嘛都用Skill。因为他要看到的都是样子嘛后面这些东西但凡用得多了我们就开始转化嘛。就转化我想好有什么框架我也没还没研究呢Skill怎么转成那个整个基于到底基于哪个的比如基于Kimichat2啊还是基于Claude自己的API啊还是基于对吧这里面都有都要思考了。你Cloud Code Agent或者Cloud Agent其实可以能用的。对吧可能更容易最简单。因为它是自己的框架嘛。那怎么转到别人的Agent框架对吧。而且LangChain LangGraph都是非常。那如果Deep Agent那个架构能用的话也行对吧。LangChain封装那个Deep Agent架构。对吧但是它七脚手架呀比如说上下门啊这些东西。
发言者 2又得稍微比较麻烦。
发言者 1对。得得找一个小程序啊做一次研究或者做一次学习。做一个小功能怎么去映射过去。学习一下看它暴露出哪些问题。对。好吧。这作为P1或者P2吧就这个从Cloud Code Skill转移到LangChain LangGraph的Deep Agent架构。
发言者 2行。
发言者 1好不好作为P1或者P2的研究项目。
发言者 2嗯。
发言者 1行吧。
发言者 3然后正发徐龙你要是忙不过来那个Skill然后我都可以去写帮你。
发言者 1嗯。
发言者 3嗯。
发言者 2那你就先开始做一下。
发言者 3你写个demo我照着改改。
发言者 1你可以试一个做一个小的呢。
发言者 3行。
发言者 2先试着做那个挺简单的你试一次。
发言者 3行好。
发言者 2他好像他好像挺想学那个学Skill的。
发言者 1嗯。挺好的。好吧。但是这个你前期得把Skill这些整个的底层东西全部学一遍不然你出来的东西不好用。嗯。
发言者 2嗯。
发言者 1包括Skill Agent检索有什么关系我跟你说这东西得要学好久呢。
发言者 2可以先试试。
发言者 1先上手试一下。
发言者 2先上手做几个简单的任务看。
发言者 3嗯行。
发言者 1好吧。
发言者 3好。
发言者 1嗯。怎么着。然后你就是丁康那边后面可以协助那个有一个其实你们都一直忘了写了这会议纪要里面。关于整个项目驱动的就是那日报项目驱动你还记得吧
发言者 2啊。
发言者 1上面一直没写。那个后面可以所以确实P1或者P2去了吧。让丁康来负责因为他那个不着急嘛。啊他可以有空闲时间周六周日帮我们来写这个。好吧到时候姜正达
发言者 4远程姜正达
发言者 4远程听得到。
发言者 1哎。把那个Cloud Agent Cloud Code那个我们那个Max版本的那个到时候可以给丁康用一下然后这个这个他的主要任务就是做日报驱动的那个整个的项目管理系统那个Skill好吧或者开发。
发言者 1嗯。
发言者 4远程好。嗯。
发言者 1好吧。包括基于会议纪要做日报然后日报出来之后怎么驱动项目管理那个跟Asana这些MCP怎么对接。好吧。
发言者 4远程好。昨天也跟他沟通过了让他先先学一下那个Asana的那个架构然后模块什么的先先熟悉一下然后再设计一下。嗯。
发言者 1好的好的。嗯。
画面内容:屏幕中心出现一个白色光标点,随后切换到电脑桌面录屏界面
发言者 1行吧。那这个时间关系啊我就给简单大家讲一下我做的那个PPT的那个。我觉得那个对大家以后可能就是本机自动化是有很大的价值的。用Playwright或者说那个它其实出了一个Chrome Deck Dev的那个就是好像Cloud自己出了一个Chrome浏览器的控制。我们用那个。
发言者 2我们用那个。
发言者 1我用的是那个什么用的还是Playwright有个Extension。就是在Chrome上的Extension做的。嗯给大家看一下。
画面内容展示Mac电脑桌面打开了多个窗口包括终端命令行、浏览器和代码编辑器
发言者 1那这就是我做最简单的一个了。比如说上来生成PPT对吧
画面内容终端界面显示正在运行Playwright代码浏览器界面显示Claude对话框
发言者 1我现在不跟他说什么。然后他会启动这个Skill。等会儿给大家看这个Skill挺很流畅啊。这个就是他就会问我你要什么主题的你可以自己打一个目标进去。那你可以跟他聊我需要什么什么简单的粗的都行。那么第二个就是什么什么给一个文件路径对吧我就把以我这个这个照片我跟他说是生成因为测试嘛做的很少。两页你可以做二十页都没问题的。手写体风格对吧然后好的他来生成两页的这个PPT。首先创建这个PPT的工作目录。然后现在加下来就是调用Gemini图片生成器来创建细细图。关于PPT的新细图。然后Gemini这个就我后来直接把就是Skill嵌套Skill来做了。我最后直接放弃Sub Agent了。虽然上下文会比较长但是我在调用逻辑关系非常非常清晰。就Skill套用Skill反而比Sub Agent要清晰的多因为上下文是共享的。知道吧所以它逻辑控制上非常非常精确。到了Sub Agent里面啊因为不带上下文之后啊它的逻辑控制有很大问题。到时候我有空你们可以试试。我一开始做了好几个Sub Agent在这里面做包括用Sub Agent来调这个Skill。
画面内容:鼠标高亮显示终端中的代码行 "The 'gemini-image-generator' skill is running"
发言者 1本来我是用这个Skill来调用一个Sub Agent的。这个Sub Agent可以放在主窗口、主那个叫全局Agent也可以放在子项目Agent我都尝试去调过的。但是效果都不太好。它的上下文人家就是不太好。这是一个啊。第二个这个这个后来我就直接把这个Skill提取出来了我不用它去调了。我本来想用上下文隔离嘛。我就说我们都出现叫什么叫偏执狂对吧其实主上下文的窗口好用的。最好用的还是主上下文的窗口对吧但只怕多嘛但我们不是多轮对话了。其实没必要的。我后来直接把它就调拉到主窗口下来了所以这个用这个Skill来做。
发言者 2这个Skill是写到Skill.md里
发言者 1对对对。等会儿我给你看一下目录啊。先看这个流程。
画面内容终端显示Playwright代码正在执行
发言者 1然后开始用Playwright调了看到没有先打开Gemini。然后开始我要它激图激活这个生图模式。对吧用Playwright去找到生图的模式然后生图模式出来以后上传文件。对吧它用Playwright把这文件就上传了。上传之后那看到没有把这文件就拷过去了。拷过去之后它一开始出现很恶心的它要上来先读这个文件。我让它不要读了你主上下文窗口读完不很恶心了。你直接给Gemini就好了Gemini自动来那个。为什么我要用Gemini来那个Cloud无论你生成多好的提示词都不如Gemini自己读这份文档然后自己制定的方案好。所以给我一个很大的启示就是你不要规定它做什么。你不要规定它做什么。上下文给它越全。给它越全它其实做的效果越好。知道吧所以我现在对上下文是一个有另外一个考量了。就是上下文其实越全越好。嗯。好这给到它之后它就开始上传了。上传之后开始输入框。
画面内容终端显示Playwright正在输入文本浏览器界面显示文件已上传
发言者 1它这个是什么呢它有一个非常简单的我在Skill里面规定的。你根据用户上传的内容文件生成那这两页是它带进去的嘛。16比9是它规定好的。然后手写体风格。看到没有它把我的这个给带过去了。Skill给带过去了这就非常容易带了。然后开始那个然后等它那个产出。那这儿给大家并排看一下。噢应该是在这个。在这个里面。
发言者 2每一页就是一张图片吗
发言者 1每一页是张图片。你看我是让它先生成。
画面内容Gemini对话界面显示生成的规划方案随后开始生成图片
发言者 1看到没有这个是先生成规划。看到没有生成规划方案。看到没有手写体风格对不对这个上下文代入得很好。一开始不是这样的啊它有很多很多自己加工的好多东西进去。它给你把这个文件的理解什么全都给你加进去了。然后它生成了这么多细细图看到吗这是Gemini生成的啊。好Gemini生成之后我就我让它生成第一张。那生成第一张图片。
发言者 2这个就是都是通过API API发送
发言者 1不是API。直接通过Playwright。MCP来来调用的。
发言者 2噢。
发言者 2噢。
发言者 1对。MCP控制得非常非常精准。然后生成之后然后生成之后它开始点击下载。那这儿可以有一个下载按钮。
发言者 2自动化操作的浏览器是吧
发言者 1对对对对。
发言者 2所以这些话也都是Type进去的。
发言者 1都是Playwright传递过来的。它可以操控浏览器的。知道吧
画面内容浏览器界面显示图片生成完毕鼠标点击图片上的下载按钮弹出“Download full size”提示
发言者 1然后之后我这里面有个运行脚本我都会看给大家看一下我的这个脚本。就是我让它怎么因为它生成之后啊它已经脱离了这个浏览器了你知道吗它这个出来会弹出一个储存窗口存储窗口。
画面内容Gemini界面显示图片预览
发言者 1它已经脱出了这个浏览器Playwright已经操作不了了。这时候我要用用的是什么呢OS Scripts。我来做了一个Save Image的这个脚本。让它去调用脚本来操控这个。操控之后它就存下来了。存下来之后接着就是第二个了。看到没有我存下来之后到第二个了第二个继续生成。啊。然后生成之后继续存。存完之后因为我现在没有办法因为在这里面操作非常麻烦嘛。刚才那个非常麻烦我就没有让它直接去指定目录了。我就直接让它存。存到这个文稿里面了。
画面内容:终端显示文件移动操作,文件管理器中显示图片文件
发言者 1到文稿里面我就自己从文稿里面把它找到这个文件然后移动到我的当前目录下。看到没有找到这个图片。然后移动到我的工作目录下。然后在工作目录里面就有两张图片。这张图片我给你看一下。那就这两张图片在里面了。看到没有在这两张图片了。然后干嘛呢我又执行一个操作。它有一个叫PPT组装。实现组装PPT。也是一个Python脚本。
画面内容终端运行组装PPT的脚本随后自动打开PowerPoint软件显示生成的PPT
发言者 1一个Python脚本生成了PPT之后直接就然后开始自动打开了Open了。然后就给我弹出我这个PPT了。Boss就完成了。懂吗所以完全自动化。你只要给它一个目录就OK了。好吧。所以那这个里面大家再看一眼我的目录结构。
发言者 2这些可以通过API去调用吗
发言者 1呃不行。Gemini调用API我没有我没有试而且调用API很贵的。
发言者 2可以像那种CURL的那种REST API那种
发言者 1网页的那个也不太执行不太准确。
画面内容:展示项目文件夹结构,包括 "claude code app"、"skills" 等目录
发言者 1那在这里面在Claude里面你看Skill我一开始用Agents后来我给删掉了。我就把它转到Skill里面来了。这个Skill这里面后来定义这个Agents后来我也没用。啊。我把它直接放到我的Skill里面定义了个Agents。我都尝试这个了但其实效果都不好。那这个那这里面Scripts一个就是那个执行这个操作命令的。它其实核心就是一个了。操作命令了。等待等待它完成然后直接移动到目标。看到没有就找文件先是存下来然后找文件。然后找到文件把它移动到那个目录里面。这就是这是一个。第二个就是这个Assemble PPT的。PPT组装。其实也很简单。把每个图装进去就好了。然后这些脚本都是我让它自动生成的。简单的。这个Scripts这个是Skill。这是PPT Auto这是第一个。然后第二个它调用的Skill嵌套的Skill是什么呢是这个Skill。这个Skill就非常非常的那个我调了很长时间。为什么它总是不执这个逻辑它总是执行不好。就是Agent总有自己的想法。它不完全按照你的Skill来执行的。知道吧所以我给它一步一步一步一步最重要的是它那个提示词总是 不按照我的来。
画面内容:打开 "SKILL.md" 文件显示详细的Prompt编写规则、错误示例和正确示例
发言者 1然后你看这里面为什么我说示例正确的是示例和错误示例对它都很重要。输入这个之后后面它就开始很好了。就开始比较好的执行你的这个了。所以你看这里面有对吧要求必须怎么样。是吧必须怎么样不能错误的是什么正确的是什么。都是一样的。你看这里面也有提示词模板错误的是什么正确的是什么。然后怎么保存对吧不可省略等等这些。所以对Agent其实有很多的行为规范的限定才能保证它数据的质量。如果你要求操作非常精密的话。如果你说我不需要我就探索的比较比较灵活的那OK的。好吧。
画面内容打开生成的PowerPoint文件展示一张包含复杂流程图的幻灯片
发言者 1示例调用。我看看您那个关注的是它那个自动化流程。然后PPT生成呢生成呢为什么要用它来生成是因为我觉得这个Nano Banana那个效果太吓人了。它一份文档我是给它一张图片。
发言者 2可以点点点那个。
发言者 1对。铺满全页的图片。它自动的。然后我给你看一下它这是它生成的我测试的嘛。还有一个我生成了一张五页的我觉得做得相当相当好。
画面内容展示另一份名为“智能企业”的PPT包含精美的数据图表和排版
发言者 1这是这个。这是另外一个文档的。做得相当好了。知道吧就是我花了五分钟时间。给它一个文稿。自动给我做出了PPT。完全够用的。那非常好。主流的全部在里面。看。我就问你谁能用五分钟时间做出这么好一个质量的PPT。不太可能。对吧所以我这两天基本一直在研究这个。
发言者 2这个很系统。
发言者 1对呀。我就说分分钟就把他们全干死了。那比他做得还好。
发言者 2那您那个上传的文件内容是什么这个内容是这个。
发言者 1是这些信息的总结吗
发言者 1不是。是不是总结。是一份我自己写的文档。更全的。对更全的文档。真的总结得挺好的。非常棒。那这个是我我自己写的文档。那这也是用Gemini那这是之前啊我很久以前这个人在推特上我关注了他很久了。他写的文章还是挺好的。我根据他的一些理念和我自己理解然后我自己写了一份文档。用Gemini 2.5写的。这就是之前的。我就写得蛮好的。写好之后我就这个把这份文档给到这个谁了。给到这个3.0来画图了。
画面内容滚动展示源文档内容包括“RAG”、“MLOps”等章节并与生成的PPT图表对应
发言者 1这里面有非常非常多的关于这个智能体企业怎么来做智能体企业。基于智能体架构的企业。那看。这是我让它基于它的一些基础的思理念我重新写了一份东西。对吧。写出来之后你看这份文档再如果再加上这个。基本上非常清晰了。你的一套理念体系就可以非常好的展示出来了。知识工作就完全完蛋了。
发言者 2我有问题就是咱们信通院如果用的话可能跟咱们平常汇报还有点他们是那个模板的。
发言者 1那个模板很容易非常容易。你到时候告诉它我用采用这个图片的模板去上传上去给它就好了。或者你直接做一个那个刚才说那个Gem就是那个你上面里面有一些参考文档是什么就OK了。这个都简单。这个不容不难的。或者你把这个图缩小一点把那个上面做成多少多少比例的就行了。比例你调一下就OK了。
发言者 2就还有一个就是想跟您分享就是您这个不是图片嘛右下角还有那个图标。然后我看当时用的时候我做了一页就用那个Python PPT的那个代码它能直接做成又可以修改了。
发言者 1对。那我告诉你。不用这个。我说了另外一个方法。就我既然能够自动操作化这个我就可以操作化另外一个工具是什么。我看看啊。应该我有没把它导出来啊。这个我本来没打算讲的。我看。有个。这个都是我测试的。我告诉你还有一个什么方案啊直接用那个什么。直接用Canva来生成。做得很好。我看看啊日本深度游。我给放到哪了放文稿里了好像是。在下载里。噢这个。你看啊这是通过Canva自自动生成的。这是给它一个我说给它帮我做一个日本深度游的详细的这个方案嘛。它给我做了一个什么呢HTML文件出来。知道吗我把这HTML文件存下来之后我去作了一下确实还挺好的但是它里面的图片都没有。这些图片来源什么都没有知道吗这些链接都没有。啊这是一个HTML的。好我说根据这个HTML文件直接生成PPT用Canva生成的。知道吗在Canva里面生成的。大家看一眼。也非常吓人。它就生成这个了。
画面内容展示Canva生成的“探索日本”PPT文本框可编辑
发言者 1这是完全基于文字都可修改的。那。另外一个你我可以导导到这个Doc里面吧我看看。这个我已经把那个都删掉了我看看。Doc里面。修改。那。这就是直接导到这边来了。对吧而且最重要的是什么它还可以将来啊。别的再说吧。你们如果用这种我就说它真的非常好用。那直接在这里面可以修改的。你直接可以修改图。知道吧用Gemini来做的。这跟Copilot很像了。但是比如这张图我就原来分辨率很低我直接让它生成成2K分辨率的。
画面内容演示在幻灯片中选中图片使用Gemini功能进行替换或提升分辨率
发言者 1对吧这些图都是在Canva里面。在Canva里面它自动就找到了。懂吗好。另外一个可改怎么改我告诉你。直接修改图片。直接在这里面用那个我试过直接你比如说把这一块字我全部隐引掉。然后重新打一行字上去。没有问题的。我都干过的。这个可能更简单。更简单。因为它这些排约排版都不要动嘛。对吧你比如说哪些字不对了你想改你可以完全流程。那整体我不给你发了嘛。对吧我直接用那个改了一下嘛。用图片那个。那个是长信息图。还有一个就是一张长信息图。也很有价值就是你不用多我不用那么多页。我就一张图把我这个这份这次文档的要点给你总结出来一张图。做得非常非常好的。长信息图做得也非常好。对吧那个他知道他看过。就是我们给医院的那个。设计的也非常好。对。好吧。所以我就是说接下来视觉这块真的是已经超出我的想象很多了。嗯。怎么把这样的好的能力对吧包括你给它一个视视图片它的理解也很也很到位。嗯。包括视频。好吧所以我就是说Gemini真的很吓人。非常吓人。嗯。
发言者 1好吧。今天要么就分享这么多因为时间关系。
发言者 2行。
发言者 3好。
发言者 2我就做Skill的话需要用一下Cloud那个账号是吧
发言者 1Cloud我你找一下姜正达吧他手头有两个账号。
发言者 3噢好嘞。
发言者 3好。
发言者 1不行就再开一个。
画面内容:黑屏