需求文档skill回溯专家博弈之前
This commit is contained in:
126
会议转写测试/会议视频转写-gemini/会议视频转写-8.txt
Normal file
126
会议转写测试/会议视频转写-gemini/会议视频转写-8.txt
Normal file
@ -0,0 +1,126 @@
|
||||
发言者 1(男):对,签合同,反正他说那个如果你能做出来,基本上就有30万。
|
||||
发言者 2(男):嗯。
|
||||
发言者 2(男):嗯。
|
||||
画面内容:黑屏,显示白色文字“信通院云大所市场部-张媛媛”
|
||||
发言者 1(男):那个,那就加进来吧。那就加进来吧,好吧。那个倒不难。
|
||||
发言者 2(男):提到P0?
|
||||
发言者 1(男):嗯,提到P0吧。大概跟那个报告那个提到P0吧。
|
||||
发言者 2(男):那我这周先设计个架构。
|
||||
发言者 1(男):对。那个确实不难,但是就是优化比较难。但先有个样子不难。
|
||||
发言者 2(男):先有个样子。
|
||||
发言者 1(男):先有个样子不难,好吧。
|
||||
发言者 2(男):嗯。
|
||||
发言者 1(男):行吧。
|
||||
发言者 2(男):我……都用Skill是吧?
|
||||
发言者 1(男):你现在不快嘛,都用Skill。因为他要看到的都是样子嘛,后面这些东西但凡用得多了,我们就开始转化嘛。就转化我想好有什么框架,我也没还没研究呢,Skill怎么转成那个整个基于到底基于哪个的,比如基于Kimichat2啊,还是基于Claude自己的API啊,还是基于,对吧,这里面都有都要思考了。你Cloud Code Agent,或者Cloud Agent其实可以能用的。对吧,可能更容易,最简单。因为它是自己的框架嘛。那怎么转到别人的Agent框架?对吧。而且LangChain LangGraph都是非常。那如果Deep Agent那个架构能用的话也行,对吧。LangChain封装那个Deep Agent架构。对吧,但是它七脚手架呀,比如说上下门啊,这些东西。
|
||||
发言者 2(男):又得稍微比较麻烦。
|
||||
发言者 1(男):对。得得找一个小程序啊,做一次研究,或者做一次学习。做一个小功能,怎么去映射过去。学习一下看它暴露出哪些问题。对。好吧。这作为P1或者P2吧,就这个从Cloud Code Skill转移到LangChain LangGraph的Deep Agent架构。
|
||||
发言者 2(男):行。
|
||||
发言者 1(男):好不好,作为P1或者P2的研究项目。
|
||||
发言者 2(男):嗯。
|
||||
发言者 1(男):行吧。
|
||||
发言者 3(女):然后正发徐龙你要是忙不过来那个Skill,然后我都可以去写帮你。
|
||||
发言者 1(男):嗯。
|
||||
发言者 3(女):嗯。
|
||||
发言者 2(男):那你就先开始做一下。
|
||||
发言者 3(女):你写个demo我照着改改。
|
||||
发言者 1(男):对,你可以试一个做一个小的呢。
|
||||
发言者 3(女):行。
|
||||
发言者 2(男):先试着做,那个挺简单的,你试一次。
|
||||
发言者 3(女):行好。
|
||||
发言者 2(男):他好像,他好像挺想学那个,学Skill的。
|
||||
发言者 1(男):嗯。挺好的。好吧。但是这个你前期得把Skill这些整个的底层东西全部学一遍,不然你出来的东西不好用。嗯。
|
||||
发言者 2(男):嗯。
|
||||
发言者 1(男):包括Skill Agent检索有什么关系,我跟你说,这东西得要学好久呢。
|
||||
发言者 2(男):可以先试试。
|
||||
发言者 1(男):先上手试一下。
|
||||
发言者 2(男):先上手做几个简单的任务看。
|
||||
发言者 3(女):嗯行。
|
||||
发言者 1(男):好吧。
|
||||
发言者 3(女):好。
|
||||
发言者 1(男):嗯。怎么着。然后你,就是丁康那边后面可以协助那个,有一个其实你们都一直忘了写了这会议纪要里面。关于整个项目驱动的,就是那日报项目驱动,你还记得吧?
|
||||
发言者 2(男):啊。
|
||||
发言者 1(男):上面一直没写。那个后面可以,所以确实P1或者P2去了吧。让丁康来负责,因为他那个不着急嘛。啊他可以有空闲时间周六周日帮我们来写这个。好吧,到时候姜正达?
|
||||
发言者 4(男,远程):姜正达?
|
||||
发言者 4(男,远程):听得到。
|
||||
发言者 1(男):哎。把那个Cloud Agent Cloud Code那个我们那个Max版本的那个到时候可以给丁康用一下,然后这个这个他的主要任务就是做日报驱动的那个整个的项目管理系统那个Skill,好吧,或者开发。
|
||||
发言者 1(男):嗯。
|
||||
发言者 4(男,远程):好。嗯。
|
||||
发言者 1(男):好吧。包括基于会议纪要做日报,然后日报出来之后怎么驱动项目管理那个跟Asana这些MCP怎么对接。好吧。
|
||||
发言者 4(男,远程):好。昨天也跟他沟通过了,让他先先学一下那个Asana的那个架构,然后模块什么的,先先熟悉一下,然后再设计一下。嗯。
|
||||
发言者 1(男):好的好的。嗯。
|
||||
画面内容:屏幕中心出现一个白色光标点,随后切换到电脑桌面录屏界面
|
||||
发言者 1(男):行吧。那这个时间关系啊,我就给简单大家讲一下我做的那个PPT的那个。我觉得那个对大家以后可能,就是本机自动化是有很大的价值的。用Playwright或者说那个,它其实出了一个Chrome Deck Dev的那个,就是好像Cloud自己出了一个Chrome浏览器的控制。我们用那个。
|
||||
发言者 2(男):我们用那个。
|
||||
发言者 1(男):我用的是那个什么,用的还是Playwright有个Extension。就是在Chrome上的Extension做的。嗯,给大家看一下。
|
||||
画面内容:展示Mac电脑桌面,打开了多个窗口,包括终端命令行、浏览器和代码编辑器
|
||||
发言者 1(男):那这就是我做最简单的一个了。比如说上来,生成PPT,对吧?
|
||||
画面内容:终端界面显示正在运行Playwright代码,浏览器界面显示Claude对话框
|
||||
发言者 1(男):我现在不跟他说什么。然后他会启动这个Skill。等会儿给大家看这个Skill,挺很流畅啊。这个就是他就会问我,你要什么主题的?你可以自己打一个目标进去。那你可以跟他聊,我需要什么什么,简单的粗的都行。那么第二个就是什么什么给一个文件路径,对吧?我就把以我这个这个照片,我跟他说是生成,因为测试嘛,做的很少。两页你可以做二十页都没问题的。手写体风格,对吧?然后,好的,他来生成两页的这个PPT。首先创建这个PPT的工作目录。然后现在加下来就是调用Gemini图片生成器,来创建细细图。关于PPT的新细图。然后Gemini这个就,我后来直接把就是Skill嵌套Skill来做了。我最后直接放弃Sub Agent了。虽然上下文会比较长,但是我在调用逻辑关系非常非常清晰。就Skill套用Skill反而比Sub Agent要清晰的多,因为上下文是共享的。知道吧?所以它逻辑控制上非常非常精确。到了Sub Agent里面啊,因为不带上下文之后啊,它的逻辑控制有很大问题。到时候我有空你们可以试试。我一开始做了好几个Sub Agent在这里面做,包括用Sub Agent来调这个Skill。
|
||||
画面内容:鼠标高亮显示终端中的代码行 "The 'gemini-image-generator' skill is running"
|
||||
发言者 1(男):本来我是用这个Skill来调用一个Sub Agent的。这个Sub Agent可以放在主窗口、主那个叫全局Agent也可以放在子项目Agent,我都尝试去调过的。但是效果都不太好。它的上下文人家就是不太好。这是一个啊。第二个,这个这个后来我就直接把这个Skill提取出来了,我不用它去调了。我本来想用上下文隔离嘛。我就说我们都出现叫什么?叫偏执狂,对吧?其实主上下文的窗口好用的。最好用的还是主上下文的窗口,对吧?但只怕多嘛,但我们不是多轮对话了。其实没必要的。我后来直接把它就调拉到主窗口下来了,所以这个用这个Skill来做。
|
||||
发言者 2(男):这个Skill是写到Skill.md里?
|
||||
发言者 1(男):对对对。等会儿我给你看一下目录啊。先看这个流程。
|
||||
画面内容:终端显示Playwright代码正在执行
|
||||
发言者 1(男):然后开始用Playwright调了,看到没有?先打开Gemini。然后开始,我要它激图,激活这个生图模式。对吧,用Playwright去找到生图的模式,然后生图模式出来以后上传文件。对吧,它用Playwright把这文件就上传了。上传之后,那看到没有?把这文件就拷过去了。拷过去之后,它一开始出现很恶心的,它要上来先读这个文件。我让它不要读了,你主上下文窗口读完不很恶心了。你直接给Gemini就好了,Gemini自动来那个。为什么我要用Gemini来那个?Cloud无论你生成多好的提示词,都不如Gemini自己读这份文档,然后自己制定的方案好。所以给我一个很大的启示就是你不要规定它做什么。你不要规定它做什么。上下文给它越全。给它越全,它其实做的效果越好。知道吧?所以我现在对上下文是一个有另外一个考量了。就是上下文其实越全越好。嗯。好,这给到它之后,它就开始上传了。上传之后,开始输入框。
|
||||
画面内容:终端显示Playwright正在输入文本,浏览器界面显示文件已上传
|
||||
发言者 1(男):它这个是什么呢?它有一个非常简单的,我在Skill里面规定的。你根据用户上传的内容文件生成,那这两页是它带进去的嘛。16比9是它规定好的。然后手写体风格。看到没有?它把我的这个给带过去了。Skill给带过去了,这就非常容易带了。然后开始那个,然后等它那个产出。那这儿,给大家并排看一下。噢,应该是在这个。在这个里面。
|
||||
发言者 2(男):每一页就是一张图片吗?
|
||||
发言者 1(男):对,每一页是张图片。你看,我是让它先生成。
|
||||
画面内容:Gemini对话界面显示生成的规划方案,随后开始生成图片
|
||||
发言者 1(男):看到没有?这个是先生成规划。看到没有?生成规划方案。看到没有?手写体风格,对不对?这个上下文代入得很好。一开始不是这样的啊,它有很多很多自己加工的好多东西进去。它给你把这个文件的理解什么全都给你加进去了。然后它生成了这么多细细图,看到吗?这是Gemini生成的啊。好,Gemini生成之后,我就我让它生成第一张。那,生成第一张图片。
|
||||
发言者 2(男):这个就是都是通过API API发送?
|
||||
发言者 1(男):不是API。直接通过Playwright。MCP来来调用的。
|
||||
发言者 2(男):噢。
|
||||
发言者 2(男):噢。
|
||||
发言者 1(男):对。MCP控制得非常非常精准。然后生成之后,然后生成之后它开始点击下载。那这儿可以有一个下载按钮。
|
||||
发言者 2(男):自动化操作的浏览器是吧?
|
||||
发言者 1(男):对对对对。
|
||||
发言者 2(男):所以这些话也都是Type进去的。
|
||||
发言者 1(男):都是Playwright传递过来的。它可以操控浏览器的。知道吧?
|
||||
画面内容:浏览器界面显示图片生成完毕,鼠标点击图片上的下载按钮,弹出“Download full size”提示
|
||||
发言者 1(男):然后之后我这里面有个运行脚本,我都会看给大家看一下我的这个脚本。就是我让它怎么,因为它生成之后啊,它已经脱离了这个浏览器了你知道吗?它这个出来会弹出一个储存窗口,存储窗口。
|
||||
画面内容:Gemini界面显示图片预览
|
||||
发言者 1(男):它已经脱出了这个浏览器,Playwright已经操作不了了。这时候我要用用的是什么呢?OS Scripts。我来做了一个Save Image的这个脚本。让它去调用脚本来操控这个。操控之后,它就存下来了。存下来之后,接着就是第二个了。看到没有?好,我存下来之后到第二个了,第二个继续生成。啊。然后生成之后继续存。存完之后,因为我现在没有办法,因为在这里面操作非常麻烦嘛。刚才那个非常麻烦,我就没有让它直接去指定目录了。我就直接让它存。存到这个文稿里面了。
|
||||
画面内容:终端显示文件移动操作,文件管理器中显示图片文件
|
||||
发言者 1(男):到文稿里面我就自己从文稿里面把它找到这个文件,然后移动到我的当前目录下。看到没有?找到这个图片。然后移动到我的工作目录下。然后在工作目录里面就有两张图片。这张图片我给你看一下。那,就这两张图片在里面了。看到没有?在这两张图片了。然后干嘛呢?我又执行一个操作。它有一个叫PPT组装。实现组装PPT。也是一个Python脚本。
|
||||
画面内容:终端运行组装PPT的脚本,随后自动打开PowerPoint软件显示生成的PPT
|
||||
发言者 1(男):一个Python脚本生成了PPT之后,直接就,然后开始自动打开了,Open了。然后就给我弹出我这个PPT了。Boss就完成了。懂吗?所以完全自动化。你只要给它一个目录就OK了。好吧。所以那这个里面大家再看一眼我的目录结构。
|
||||
发言者 2(男):这些可以通过API去调用吗?
|
||||
发言者 1(男):呃不行。Gemini调用API我没有我没有试,而且调用API很贵的。
|
||||
发言者 2(男):可以像那种CURL的那种REST API那种?
|
||||
发言者 1(男):网页的那个也不太执行不太准确。
|
||||
画面内容:展示项目文件夹结构,包括 "claude code app"、"skills" 等目录
|
||||
发言者 1(男):那在这里面,在Claude里面,你看Skill,我一开始用Agents后来我给删掉了。我就把它转到Skill里面来了。这个Skill这里面后来定义这个Agents,后来我也没用。啊。我把它直接放到我的Skill里面定义了个Agents。我都尝试这个了,但其实效果都不好。那这个那这里面Scripts一个就是那个执行这个操作命令的。它其实核心就是一个了。操作命令了。等待等待它完成然后直接移动到目标。看到没有?就找文件,先是存下来,然后找文件。然后找到文件把它移动到那个目录里面。这就是这是一个。第二个就是这个Assemble PPT的。PPT组装。其实也很简单。把每个图装进去就好了。然后这些脚本都是我让它自动生成的。简单的。这个Scripts,这个是Skill。这是PPT Auto这是第一个。然后第二个它调用的Skill,嵌套的Skill是什么呢?是这个Skill。这个Skill就非常非常的那个,我调了很长时间。为什么?它总是不执,这个逻辑它总是执行不好。就是Agent总有自己的想法。它不完全按照你的Skill来执行的。知道吧?所以我给它一步一步一步一步,最重要的是它那个提示词总是 不按照我的来。
|
||||
画面内容:打开 "SKILL.md" 文件,显示详细的Prompt编写规则、错误示例和正确示例
|
||||
发言者 1(男):然后你看这里面为什么我说示例,正确的是示例和错误示例对它都很重要。输入这个之后,后面它就开始很好了。就开始比较好的执行你的这个了。所以你看这里面有对吧?要求必须怎么样。是吧?必须怎么样,不能错误的是什么,正确的是什么。都是一样的。你看这里面也有,提示词模板错误的是什么,正确的是什么。然后怎么保存,对吧?不可省略等等这些。所以对Agent其实有很多的行为规范的限定才能保证它数据的质量。如果你要求操作非常精密的话。如果你说我不需要我就探索的比较比较灵活的,那OK的。好吧。
|
||||
画面内容:打开生成的PowerPoint文件,展示一张包含复杂流程图的幻灯片
|
||||
发言者 1(男):示例调用。我看看您那个关注的是它那个自动化流程。然后PPT生成呢?生成呢为什么要用它来生成?是因为我觉得这个Nano Banana那个效果太吓人了。它一份文档,我是给它一张图片。
|
||||
发言者 2(男):可以点点点那个。
|
||||
发言者 1(男):对。铺满全页的图片。它自动的。然后我给你看一下它这是它生成的我测试的嘛。还有一个我生成了一张五页的,我觉得做得相当相当好。
|
||||
画面内容:展示另一份名为“智能企业”的PPT,包含精美的数据图表和排版
|
||||
发言者 1(男):这是这个。这是另外一个文档的。做得相当好了。知道吧?就是我花了五分钟时间。给它一个文稿。自动给我做出了PPT。完全够用的。那,非常好。主流的全部在里面。看。我就问你谁能用五分钟时间做出这么好一个质量的PPT。不太可能。对吧?所以我这两天基本一直在研究这个。
|
||||
发言者 2(男):这个很系统。
|
||||
发言者 1(男):对呀。我就说分分钟就把他们全干死了。那,比他做得还好。
|
||||
发言者 2(男):那您那个上传的文件内容是什么?这个内容是这个。
|
||||
发言者 1(男):是这些信息的总结吗?
|
||||
发言者 1(男):不是。是,不是总结。是一份我自己写的文档。更全的。对,更全的文档。真的总结得挺好的。非常棒。那这个是我我自己写的文档。那这也是用Gemini,那这是之前啊,我很久以前,这个人在推特上我关注了他很久了。他写的文章还是挺好的。我根据他的一些理念和我自己理解,然后我自己写了一份文档。用Gemini 2.5写的。这就是之前的。我就写得蛮好的。写好之后,我就这个把这份文档给到这个谁了。给到这个3.0来画图了。
|
||||
画面内容:滚动展示源文档内容,包括“RAG”、“MLOps”等章节,并与生成的PPT图表对应
|
||||
发言者 1(男):这里面有非常非常多的关于这个智能体企业,怎么来做智能体企业。基于智能体架构的企业。那看。这是我让它基于它的一些基础的思理念,我重新写了一份东西。对吧。写出来之后,你看这份文档再如果再加上这个。基本上非常清晰了。你的一套理念体系就可以非常好的展示出来了。知识工作就完全完蛋了。
|
||||
发言者 2(男):我有问题就是咱们信通院如果用的话可能跟咱们平常汇报还有点,他们是那个模板的。
|
||||
发言者 1(男):那个模板很容易,非常容易。你到时候告诉它我用采用这个图片的模板去上传上去给它就好了。或者你直接做一个那个刚才说那个Gem,就是那个你上面里面有一些参考文档是什么就OK了。这个都简单。这个不容不难的。或者你把这个图缩小一点,把那个上面做成多少多少比例的就行了。比例你调一下就OK了。
|
||||
发言者 2(男):就还有一个就是想跟您分享,就是您这个不是图片嘛,右下角还有那个图标。然后我看当时用的时候,我做了一页就用那个Python PPT的那个代码,它能直接做成又可以修改了。
|
||||
发言者 1(男):对。那,我告诉你。不用这个。我说了另外一个方法。就我既然能够自动操作化这个,我就可以操作化另外一个工具是什么。我看看啊。应该我有没把它导出来啊。这个我本来没打算讲的。我看。有个。这个都是我测试的。我告诉你,还有一个什么方案啊?直接用那个什么。直接用Canva来生成。做得很好。我看看啊,日本深度游。我给放到哪了?放文稿里了好像是。在下载里。噢这个。你看啊,这是通过Canva自自动生成的。这是给它一个,我说给它帮我做一个日本深度游的,详细的这个方案嘛。它给我做了一个什么呢?HTML文件出来。知道吗?我把这HTML文件存下来之后我去作了一下,确实还挺好的,但是它里面的图片都没有。这些图片来源什么都没有,知道吗?这些链接都没有。啊这是一个HTML的。好,我说根据这个HTML文件直接生成PPT,用Canva生成的。知道吗?在Canva里面生成的。大家看一眼。也非常吓人。它就生成这个了。
|
||||
画面内容:展示Canva生成的“探索日本”PPT,文本框可编辑
|
||||
发言者 1(男):那,这是完全基于文字都可修改的。那。另外一个你我可以导导到这个Doc里面吧我看看。这个我已经把那个都删掉了我看看。Doc里面。修改。那。这就是直接导到这边来了。对吧?而且最重要的是什么?它还可以将来啊。别的再说吧。你们如果用这种,我就说它真的非常好用。那直接在这里面可以修改的。你直接可以修改图。知道吧?用Gemini来做的。这跟Copilot很像了。但是,比如这张图我就原来分辨率很低,我直接让它生成成2K分辨率的。
|
||||
画面内容:演示在幻灯片中选中图片,使用Gemini功能进行替换或提升分辨率
|
||||
发言者 1(男):对吧?这些图都是在Canva里面。在Canva里面它自动就找到了。懂吗?好。另外一个可改怎么改我告诉你。直接修改图片。直接在这里面用那个我试过,直接你比如说把这一块字我全部隐引掉。然后重新打一行字上去。没有问题的。我都干过的。这个可能更简单。更简单。因为它这些排约排版都不要动嘛。对吧?你比如说哪些字不对了你想改,你可以完全流程。那整体我不给你发了嘛。对吧?我直接用那个改了一下嘛。用图片那个。那个是长信息图。还有一个就是一张长信息图。也很有价值,就是你不用多,我不用那么多页。我就一张图把我这个这份这次文档的要点给你总结出来,一张图。做得非常非常好的。长信息图做得也非常好。对吧?那个他知道,他看过。就是我们给医院的那个。设计的也非常好。对。好吧。所以我就是说接下来视觉这块真的是已经超出我的想象很多了。嗯。怎么把这样的好的能力,对吧?包括你给它一个视视图片,它的理解也很也很到位。嗯。包括视频。好吧?所以我就是说Gemini真的很吓人。非常吓人。嗯。
|
||||
发言者 1(男):好吧。今天要么就分享这么多,因为时间关系。
|
||||
发言者 2(男):行。
|
||||
发言者 3(女):好。
|
||||
发言者 2(男):我就做Skill的话,需要用一下Cloud那个账号是吧?
|
||||
发言者 1(男):Cloud我你找一下姜正达吧,他手头有两个账号。
|
||||
发言者 3(女):噢好嘞。
|
||||
发言者 3(女):好。
|
||||
发言者 1(男):不行就再开一个。
|
||||
画面内容:黑屏
|
||||
Reference in New Issue
Block a user