AIEC_Skills/会议转写测试/会议视频转写-gemini/会议视频转写-5.txt

以下为您提取的会议视频信息，按照时间顺序排列，包含发言内容与画面变化：

**画面内容：** 屏幕显示文件资源管理器，显示文件夹 `D:\Documents\wechat_files\wxid_sukm...\FileStorage\File\2025-12`，文件夹内包含多个文件，包括“会议纪要及分工.docx”、“数字人PPT需求文档.docx”等。

**发言者 A（管理者）：** Skill本身这个编排他...他他对你Skill...他对Skill的理解，和我们人理解不一样。是。嗯。所以这个其实怎么去...未来Skill怎么...怎么去修改，怎么去优化，是一个很重要的一个...一个议题。嗯...对...好...好吧。行先这样。好。下一个。

**画面内容：** 鼠标移动，双击打开了一个浏览器窗口或文档查看器，显示标题为“专家数字人讲解PPT视频需求文档”的文件。

**发言者 A（管理者）：** 真的啊？四个人。在吗正浩？

**发言者 B（正浩）：** 啊，在的。

**发言者 A（管理者）：** 你共享一下呗。讲一下。

**发言者 B（正浩）：** 嗯。数字人那个就是...根据上周...连总的那个反馈就是...啊不对...就是连总的那个建议，就是把那些...有用的...保留，有用的需求保留，可能就是有一些...不提到就...就...也是能可能默认能做的那些功能，大概就是进行了一些删减...然后...然后生成的一个需求文档。嗯。首先就是那个项目背景和核心目标，大概还是上周那样。主要就是...下面基本都是进行了缩减啊。

**画面内容：** 屏幕向下滚动，展示“项目分阶段规划”部分，光标停留在“第一阶段：PPT+数字人讲解”处。

**发言者 B（正浩）：** 就是...这个分阶段，还是...上周一样，就是...第一阶段就是基础功能，第二阶段就是...高...高级点的功能，就比如说那个什么...高亮啊这些东西，嗯。然后...主要就是第一阶段...啊这个就是...

**发言者 A（管理者）：** 等会...上面那个...就是你的这个分阶段啊...那些基础功能是什么，和什么后面的...你在后面有规划说明还是就没了。

**发言者 B（正浩）：** 啊你说是是第二阶段是吧？

**发言者 A（管理者）：** 第一和第二阶段。

**发言者 B（正浩）：** 啊第一阶段我是有的，但是第二阶段我...这一篇文档里面没有。

**发言者 A（管理者）：** 哦，我建议你都写啊。

**发言者 B（正浩）：** 啊我我我是我有一个备份，但是就是...今天展示的就是第一阶段的。

**发言者 A（管理者）：** 行，知道了。

**画面内容：** 屏幕向下滚动，跳过“1. 产品定位”、“2. 视频结构”，停留在“2.2 时长分配”部分。

**发言者 B（正浩）：** 嗯。然后第一阶段需求就是我...整理了五个。就是第一个是...第一个...啊第一阶段核心需求整理了五个。

**发言者 A（管理者）：** 上面那个我看...上面那个看完，别跳走。

**画面内容：** 屏幕向上滚动回“2.2 时长分配”和“3. 画面布局要求”部分。

**发言者 A（管理者）：** 对啊，因为你这上面这些东西对你都是有要求的呗。

**发言者 B（正浩）：** 嗯。

**发言者 A（管理者）：** 三到五分钟是对的吗？

**发言者 B（正浩）：** 喂？您那又卡住了。

**发言者 A（管理者）：** 啊？这个是...我就说三到五分钟这个是富友他们提出来的吗？还是张媛提出来的？

**发言者 B（正浩）：** 呃...这个是跟那个...贤林老师那边对了一下。就是大概是五分钟左右，真的。

**发言者 A（管理者）：** 五分钟左右...那个是基于基于那说是吧？

**发言者 B（正浩）：** 对。

**发言者 A（管理者）：** 我建议这个地方要加一下。就...未来可能...你做一个PPT宣讲，你宣讲的话一般需要二十分钟到半小时。

**发言者 B（正浩）：** 二十分钟到半小时。

**发言者 A（管理者）：** 对。这个可能是...

**发言者 B（正浩）：** 嗯...那...

**发言者 A（管理者）：** 对可对后续你得加进来，或者甚至你第一版能实现就最好。因为...这个可能从技术架构上难度并不高。

**发言者 B（正浩）：** 对，从主要从开销上，就是花费，钱。

**发言者 A（管理者）：** 对...开销啊。对对对。技术架构上...所以我觉你可以先试一试。那就是...一到三十你三到五分都肯定能做对吧，无非就是花销呗。所以这个需求没提...提的就不是特别准。

**发言者 B（正浩）：** 啊，行我我因为我只做了一个后续可扩展，就是...这个时间是可以扩展，这个需求。

**发言者 A（管理者）：** 其实...其实是错了。二十到三十分钟应该是主要需求。

**发言者 B（正浩）：** 啊，行吧。那我就直接...

**发言者 A（管理者）：** 对吧？行我知道了，嗯。不试一下二十分钟你...都含在里面。那第一阶段技术上...都没有难...分阶段一定要分阶段实现，对不对。

**发言者 B（正浩）：** 嗯。

**发言者 A（管理者）：** 对吧，所以你看...你以为...都很简单的需求，其实都很多东西是值得讨论的。你比如说像数字人讲解PPT，你看，何所出去讲话，对吧，或者何所出去做做会议那个发言，或者我出去做会议发言，有时候就不用人我如果不不用我自己的话，我有可能就要讲二十到三十分钟。而且这个需求还常存在的。不是只有云大说这一个需求。好吧。

**发言者 B（正浩）：** 好。

**画面内容：** 屏幕向下滚动到“3. 画面布局要求”和“3.1 开场画面”。

**发言者 B（正浩）：** 那这个开场可能...呃开场这些好像也不用不用调整。

**发言者 A（管理者）：** 开场...我觉得都...这个应该不用调整。嗯，这个可以。

**发言者 B（正浩）：** 那那个数字人的后面的时间可以改。

**发言者 A（管理者）：** 好。

**画面内容：** 屏幕向下滚动到“3.2 讲解画面（画中画）”。

**发言者 B（正浩）：** 嗯。然后这就是一些布局的需求，然后那个主要就是这个数字人和PPT内容的占比，这个需求，然后还有数字人的位置。

**发言者 A（管理者）：** 可以，这些就可以。

**发言者 B（正浩）：** 对。然后第一阶段，第一阶段的核心需求...

**画面内容：** 屏幕向下滚动到“4. 第一阶段要求”，展示“4.1.1 PPT宣讲的时间与PPT视频画面精准同步”和“4.1.2 数字人口型的视觉吻合以及智能避让”。

**发言者 A（管理者）：** 这为什么是需求，我跟你说，因为这个东西，你不明确了之后就是容易出歧义的地方。

**发言者 B（正浩）：** 呃...对，我觉得是的。就是说他比如说...数字人...主导还是那个PPT主导。

**发言者 A（管理者）：** 对啊。这这个你不说清楚就是有人理解不同。对不对。你这么理解他那么理解，所以这个就是要需求来明确。

**发言者 B（正浩）：** 嗯。

**发言者 A（管理者）：** 好啊。

**发言者 B（正浩）：** 嗯。然后就是第一阶段的核心...核心需求。核心需求第一个就是...讲解时间和PPT同步。

**发言者 A（管理者）：** 其实我等会...视频最后你可以再出现一个数字人的...这个再见的一个...画画...画面。大概率能出来有始有终...那个...

**发言者 B（正浩）：** 啊，我懂。就是参考参考开场画面。是吧？

**发言者 A（管理者）：** 对对对。对。真人的。

**画面内容：** 屏幕滚动到“3.3 结尾画面（可以参考开场画面）”。

**发言者 B（正浩）：** 呃就是等于再有一个真人直接说再见的那种画面，大概。嗯。

**发言者 A（管理者）：** 对对对。就不是画中画了。可以是数字人独...独立的告白...呃告别。

**发言者 B（正浩）：** 好。

**发言者 A（管理者）：** 嗯。

**画面内容：** 屏幕滚回“4. 第一阶段核心需求”。

**发言者 B（正浩）：** 那，然后第一阶段核心就是...第一个是...就主要是五个需求。第一个是那个PPT...那个...和数字人口型的那个同步，这是我我觉得是需要写上去的。

**发言者 A（管理者）：** 嗯。

**发言者 B（正浩）：** 嗯，然后第二个就是那个数字人的窗口...在那个...就是说在和PPT...就是结合的时候他是不能遮挡到内容的。这个。

**发言者 A（管理者）：** 喂？

**发言者 B（正浩）：** 喂？啊。

**发言者 A（管理者）：** 他又延迟了？啊对能懂。嗯。延迟还不小呢。

**画面内容：** 屏幕画面没有变化，停留在4.1章节。

**发言者 A（管理者）：** 嗯，因为你那儿就是时而时的卡。有时候甚至就没声音了就。嗯。不行连那个，连他那个...换个网络连那个网...

**发言者 A（管理者）（对旁边人）：** 这个...这还是用电话打...这个网络这那个问题...我切换我热点...等于是我热点...行吧，先这样。

**发言者 C（旁边人）：** 那...我连就是你的...

**发言者 A（管理者）：** 你自动连了...

**发言者 C（旁边人）：** 行，那...那我给你说那个...那个精准是...现在是靠人来调的是吧？

**发言者 A（管理者）：** 那个PPT这个，这个就是说现在就是...一一段...就是...叫一页PPT的摘要，然后生成...生成一一段口播视频。

**发言者 B（正浩）：** 就比如说...就是像上次会上说的。就是一个PPT如果生成了五秒的摘要，我就生成五秒的那个口播视频。

**发言者 A（管理者）：** 对啊同步是怎么实现的呢？

**发言者 B（正浩）：** 呃...你你说...你是指啥啥意思？同步是什么实现是啥意思？就是...现在是人工接的。

**发言者 A（管理者）：** 这里面有几个问题啊，所以...嗯...我等...我妈的他这用电话打...这个网络是那个问题。

**发言者 C（旁边人）：** 我...我切我热点。我连我热点。

**发言者 A（管理者）：** 好。

**发言者 C（旁边人）：** 那...首先第一个，你说什么五秒五秒，那那那那是没什么好说的，对吧？你...嗯。比如说一个PPT你让他生成了...五秒的那个文稿...

**发言者 B（正浩）：** 哎又又又听不到了。哎听不到。嗯。

**发言者 A（管理者）：** 太费劲。

**发言者 C（旁边人）：** 这好吗？

**发言者 A（管理者）：** 不行你这...连那个Guest看看。算了吧。

**发言者 C（旁边人）：** 你洗澡嘛，四小时必断一次。

**发言者 A（管理者）：** 四小时肯定够了。听得见吗？正浩？

**发言者 B（正浩）：** 啊现在听得到，嗯。

**发言者 A（管理者）：** 我说啊，你比如说啊，你这一段PPT生成了口播这个文字稿...怎么限定他是五秒？

**发言者 B（正浩）：** 我...我不...我...我不限定他五秒。就是...我...生成了口播稿之后，我先生成口播视频，然后我根据口播视频的时间...然后生成那一页PPT的视频的时间。

**发言者 A（管理者）：** 哦这就对了嘛。所以我就说...嗯。那你的这...这一页PPT因为他的时间可长可短嘛。反正就是...就放在上面好了，也不翻页，对不对，你把录屏录下来就行了，对吧？

**发言者 B（正浩）：** 对，可以这么理解。

**发言者 A（管理者）：** 就是...也就是说人要在那自动翻页还是人帮他翻页？就你录屏的时候。

**发言者 B（正浩）：** 嗯...啊。人...现在是现在是人帮他翻页，等于。

**发言者 A（管理者）：** 哦人帮他翻页是吧？

**发言者 B（正浩）：** 对。

**发言者 A（管理者）：** 还是说我干脆，我就定义好每一段视频的时长。比如口播视频生成之后，第一页...十秒，我就在那录十秒。第二页...反正...这个二十秒，我就录个二十秒。或者是这个意思吗？还是说...

**发言者 B（正浩）：** 人再帮我录一下...现在现在就是那个，比如说啊，比如说我现在三页PPT，三页PPT的话我...我...录口播的这三页我可能要录...三个口播视频，大概，对吧？

**发言者 A（管理者）：** 懂了嘛。每一页每一页就固定好，他那个按照时长录好录屏，然后剪...就是把它联合联合在一起是吧？

**发言者 B（正浩）：** 对。

**发言者 A（管理者）：** 行吧。就那样。这个东西...这个感觉是要优化。对。是先这样吧。我觉得后面肯定是有...优化的空间的。因为在剪映里面好像是能自动拉长的。

**发言者 B（正浩）：** 啊对对的。

**发言者 A（管理者）：** 对，每一段...每一段都可以自动的调整他的时长的，我记得是。嗯。到时候再看吧，这你再试试。好吧。

**发言者 B（正浩）：** 好。

**画面内容：** 屏幕向下滚动到“4.1.2 数字人口型的视觉吻合以及智能避让”。

**发言者 B（正浩）：** 然后...第二个需求就是那个数字人的窗口他不能遮感道遮挡到那个PPT的主内容。就是有些的内容是可能会出现在比如说...右下角的主内容是不能被遮挡的。所以说有可能就是数字人要根据那个PPT的位置来做调整。

**发言者 A（管理者）：** 这个你们得...这是人来处理的吧？

**发言者 B（正浩）：** 啊，对目前是目前是人来处理。

**发言者 A（管理者）：** OK。

**画面内容：** 屏幕向下滚动到“4.1.3 高质量数字人”。

**发言者 B（正浩）：** 嗯。然后第三段就是...一个质量高的数字人的要求，然后也加上了你那天跟我说的就是...老外不能出现什么一口流利中文这种...

**发言者 A（管理者）：** 对啊。这个就得典型问题就是...只看树木不看森林了。哦你是觉得老外生成老外生成的那个中文很流利，对吧，就就很好。不是这样的。因为就在人的印象当中，这是一个不真实的事情。嗯。一个老外说的中文比你还流利，那中是真实的吗？对吧，你一看那就我操这个首先质疑这人是真是假。你这上来就让人质疑你，你好不容易想把它做真，上来第一个就让人质疑你真假。你这不是...本末倒置了吗。你的所有目标都在追求真，最后来一个最假的表现出来。对吧，所以这个是不行的。

**发言者 B（正浩）：** 嗯。

**发言者 A（管理者）：** 啊接下来就是录成...录成人，然后录成自己...录成这个需要的这个这个人物形象之后用他的语音来训练...上面的一些动作模型什么这些东西。或者是来生成，看看他生成的质量。

**发言者 B（正浩）：** 确实是有问题。嗯。

**发言者 A（管理者）：** 你听不见了吗叫老师？

**发言者 B（正浩）：** 我嗯了，但是你们那边可能就是有的时候嗯的时候不不那个...收不到。

**发言者 A（管理者）：** 不是我那...我告诉你你这个嗯本身就有问题。对你看现在是好的。有手是...他那边一个是有说麦克风...没有回应的时候，懂吧。跟他谈话有...

**发言者 B（正浩）：** 啊那个是腾讯视频有的时候可能对嗯这个词...他收的会比较那个感觉。就是收不进去的感觉那种。

**发言者 A（管理者）：** 有可能。但是别人的嗯好像就不存在这个问题。

**发言者 B（正浩）：** 你的因为在现场。

**发言者 A（管理者）：** 不是你下回是是别人，对吧。

**发言者 B（正浩）：** 好，这个反正...这些要求先这么定义，但说实话你这些定义...也只是给人看的嘛。你这些东西...也没...也只能是作为你选型的需求，你没有办法改进他对吧。你能改进他吗？你选型定了，你也改进不了。呃...如果后续作为...把这一块，就是现在这块视频不是基本上都是人工剪辑嘛，对吧？如果后面把这套做成一个工作流的话，那这个时候就有用了。

**发言者 A（管理者）：** 我指的是...我指的是你上面数字人的要求。

**发言者 B（正浩）：** 啊对，这个是只能可能是作为选型的要求了，这个。

**发言者 A（管理者）：** 对，现在有没有出现那种可以微调啊，可以训练的数字人啊？

**发言者 B（正浩）：** 呃...这块目前还没有研究。过多的研究。要要要研究。

**发言者 A（管理者）：** 我不信这个地方你你你没有去...找一找。就是终极目标...肯定就是要么是他生成特别特别好，对吧，通用模型生成特别好。第二个...要么就是自己微调。

**发言者 B（正浩）：** 嗯。行。

**发言者 A（管理者）：** 好吧。所以我觉的那...另外一个，你再试试那个Gemini那个VEO 3.1看看。嗯。但他现在生成比较短。他那是完全空...就是自主生成，他数字人还没用。好吧。

**发言者 B（正浩）：** 啊，行吧。嗯。

**发言者 A（管理者）：** 第四点就是那个...数字人和PPT的风格...就是一致性，还有一个是那个...模板化，就是可能要多次使用的。做为...

**画面内容：** 屏幕向下滚动到“4.1.4 数字人与PPT风格一致”和“4.1.5 模板化 一次定义，多次复用”。

**发言者 B（正浩）：** 我是想后面做成一个工作流或者什么的。

**发言者 A（管理者）：** 啊。对。然后这是第一阶段的...标准...验收标准。

**画面内容：** 屏幕向下滚动到“4.2 第一阶段质量标准”和“4.2.1 容错度”、“4.2.2 核心质量指标”。

**发言者 A（管理者）：** 等一下，我问一下，现在...嗯。比如说啊，你你说的很对啊，但是能做到，比如说我的衣服，我给你一个一段我...我穿白衣服的拍的视频，对吧？

**发言者 B（正浩）：** 嗯。

**发言者 A（管理者）：** 但是比如说现在你要换成这个蓝颜色的。嗯。你是直接现在视频里能把它换成蓝颜色的，我记得是，对吧？

**发言者 B（正浩）：** 对，这个这是在平台里面就能做嘛，就是那些软件平台里面能做。对。

**发言者 A（管理者）：** 另外还有个方案是什么？还有一个方案是什么？就你...首先你看Nano Banana现在不是可以直接生成一个人的这个这个...衣服的这个合成嘛，对吧？

**发言者 B（正浩）：** 嗯。

**发言者 A（管理者）：** 就是你就是还是图片生视频。这个图片生视频你们看看，给他一段...给他一段文字稿。然后给他一个衣服...和给他一个人的头像或者是一个照片。看看他能不能生成一段口播的视频稿。

**发言者 B（正浩）：** 行。就用那个VEO对吧，试试。

**发言者 A（管理者）：** 对VEO，VEO。

**发言者 B（正浩）：** 啊VEO对对对。好。

**发言者 A（管理者）：** 对VEO 3.1，好吧。我感觉是有可能生成一段...

**发言者 B（正浩）：** 啊VEO 3.1是不是...是不是升级了？就是在...我之前测试VEO 3.1的那个...无声视频的...效果中，其实VEO的表现没有那几个图生视频的效果好的。

**发言者 A（管理者）：** 他现在统统Nano Banana出来之后他视频问那个都都升级了，3.0 Pro出来之后都升级了。

**发言者 B（正浩）：** 啊。啊行，那我在试一下。嗯。

**发言者 A（管理者）：** 那个我觉得你可以再试试。我觉得他现在的水平还挺高的。

**发言者 B（正浩）：** 嗯。

**发言者 A（管理者）：** 如果是这样的话，那为什么我说Nano Banana现在就或者说那个3.0 Pro可能是一个...一统江湖了呢？就几乎所有事都能干了。知道吗？他几乎所有的事情都能干。

**发言者 B（正浩）：** 嗯。明白。我试试后面。嗯。

**发言者 A（管理者）：** 行吧。

**发言者 B（正浩）：** 好。这个就...这个就是一个质量标准，验收标准。嗯。啊。说非功能性需求，非功能性需求我就写了一个，就是验收标准的。

**画面内容：** 屏幕向下滚动到“4.2.3 禁止缺陷”和“4.3 第一阶段验收标准”。之后滚动到“5. 非功能性通用需求”。

**发言者 A（管理者）：** 你认为有一个很大的问题，你的人的动作，手是没有。

**发言者 B（正浩）：** 呃...对。就是说我本来第一阶段就是不想要太多的那个手势动作的。这个我是想规划到第二阶段的。就是说你有一个那个...

**发言者 A（管理者）：** 你前...你前十秒和后十秒没有动作是不行的。

**发言者 B（正浩）：** 嗯...行。

**发言者 A（管理者）：** 你前十秒人呆呆的站在那讲啊，是有问题的。

**发言者 B（正浩）：** 嗯。

**发言者 A（管理者）：** 好吧，你至少有个手势也行，没有躯体动作也可以，你手的动作得有。

**发言者 B（正浩）：** 嗯。

**发言者 A（管理者）：** 好吧，这个你看看怎么弄吧。嗯。我觉得你这个标准里面要把这个手势至少先加进去。

**发言者 B（正浩）：** 行的。

**发言者 A（管理者）：** 好吧。行吧。嗯。

**画面内容：** 屏幕滚动展示“5.1 输入素材需求”、“5.2 输出需求”、“5.3 使用范围与权限”。

**发言者 B（正浩）：** 嗯。这个就是非功能性需求了。就是输入什么PPT文件这个，然后导输出的是是一段MP4的文件这种。然后使用范围，介绍一下。大概就是这么多。

**发言者 A（管理者）：** 这个...嗯。

**画面内容：** 屏幕滚动到“5.4 制作灵活度需求”和“6. 约束条件”，包含预算、时间、使用率。

**发言者 B（正浩）：** 嗯。然后约束条件就是...就是反正就是首先看效果，其次先不不做那个预算的上限。

**发言者 A（管理者）：** 这个我觉得没没提到，非...算是半功能性需求。就使用界面是什么？就你们现在是自己在那倒吃倒倒吃半天生成这玩儿对吧？

**发言者 B（正浩）：** 对。

**发言者 A（管理者）：** 就以后怎么给...富友他们用呢？

**发言者 B（正浩）：** 呃...我我懂了。嗯。就是...我明白了。这个这个这块的话我...我后面再整理整理。就是说现在目前其实我们也在调研阶段。调研完了之后就是...现在有两个方向嘛，一个是通过工作流，或者说是通过那个API调用。还有一种方式就是让他们在那个...比如说这些平台的网站上直接生成。这个方这两个方案我我们还要对比对比。因为那个现在API调用这块我们用的也不是很多。

**发言者 A（管理者）：** 对啊。

**画面内容：** 屏幕显示“数字人平台选型”表格，列出了HeyGen、百度希壤、即梦AI等平台的费用和参数。

**发言者 B（正浩）：** 对。然后这块基本上就是我们的选...就是我...根据那个...西平给我的一份调研文档，然后我自己又确认过了的这个结果。大概就是这样的。就是视频生生成的费用。

**发言者 A（管理者）：** 可灵这么贵啊？即梦...可灵即梦这么贵吗？数字人哎。

**发言者 B（正浩）：** 数字人，对。

**发言者 A（管理者）：** 这有问题了。

**发言者 B（正浩）：** 嗯。因为我也我也去看了下，我也去看了下，他那个确实...积分确实挺贵的。就是他是按秒算的嘛。基本上是一百...

**发言者 A（管理者）：** 数字人不应该...也不说生成那种...数字人其实没有那么多计算量的。

**发言者 B（正浩）：** 但是我就是说这个就是数字人生成的那个费用。我去看了，确实还真是。嗯。

**发言者 A（管理者）：** 你那个直直接就是文字生成视频还贵我觉得。差不多了就。

**发言者 B（正浩）：** 差不多了。嗯。已经差不多了。

**发言者 A（管理者）：** 百度希壤...所以我就让你去看看百度嘛。对吧。

**发言者 B（正浩）：** 对。百度这个就是我们现在不确定他这个最高视视频是多长。只是投投放了一个就是四分钟的那个...那个音频给他，他就能生成四分钟的视频。但是具体他能生成多少，网站上说是...可以...给他录入90分钟的音频，但这个我们没试过。所以这个先只能写成四分钟最少。嗯。

**发言者 A（管理者）：** 这个...API好像比这个页面还便宜吗？

**发言者 B（正浩）：** 呃...贵...啊对，你说百百度的。百度的是便宜的，对。百度的是按那个叫分钟包的。就是说你40块钱可以买10分钟的那个...分钟，就是你...就是他是这样付费的。就是你40块钱买10分钟。然后你用。

**发言者 A（管理者）：** 黑镜会员在平台上是免费的是吧？

**发言者 B（正浩）：** 对。

**发言者 A（管理者）：** 只要你要买两个那个什么数字人的那个授权对吧？

**发言者 B（正浩）：** 呃对。但但这个这个跟那个...就是说...我现在做的这个调研是用公开数字人生成的。如果用定制数字人生成的话，呃...这百度希壤的这个我还没那个...就是说还没把那个文档呈现。就是百度希壤如果做定制数字人的话，好像一个定一个数字人要一千还是两千块钱。

**发言者 A（管理者）：** 哦。

**发言者 B（正浩）：** 然后然后再度生成那个视频。然后生成视频也是要要钱的。但是黑镜呢就是...呃他他就只收那个叫定制费。然后呢你后面用那个生成好的视频再呃生成好的数字人再生成视频的话他就不要钱了。

**发言者 A（管理者）：** 哦。

**发言者 B（正浩）：** 大概是这么个区别，对。

**发言者 A（管理者）：** 看来目前的最佳可能就这两了。前面不可能。

**发言者 B（正浩）：** 对对。是的。

**发言者 A（管理者）：** 好，知道了。另外一个VEO 3再看看，好吧。

**发言者 B（正浩）：** 好，VEO 3我再看看。好的。

**发言者 A（管理者）：** VEO 3.1你看看。好吧。其他也就差不多了，数字人这块。

**发言者 B（正浩）：** 好。

**发言者 A（管理者）：** 这个说实话啊，就我们能做的工作很少哎。基本上就是靠平台靠什么这些东西的。

**发言者 B（正浩）：** 就是你要花那个大精力，就是说按照网上就是你上次不是给我推的那个...就是搭那个工作流嘛。但其实他那个搭工作流的那个效果我看了，他其实也是就是说基于那个模型的能力。他是...就是说他是把你的那个...先把你的图片也好，或者说是文字也好，他通过提示词，然后或者说先通过一些...一些那个比如说叫什么来着，一些能提取什么人物结构脸部脸部信息或者打点的那些模型先提取出来。提取出来之后再给一个比如说开源的模型，就像那个WAN那个2.2那个什么模型一样，对吧。你再给他，然后他再生成。其实你的源还是基于基于那些模型的能力。但是...就是我大概看了一下他们的测试效果，其实还不如这些收费的平台。只是定制化的程度很高，就是说比较精细的控制。但是你最终生成的那个效果其实差不太哆。

**发言者 A（管理者）：** 呃你还没用到。你现在的这些需求还用不到那。你比如说大幅度的身体动作。

**发言者 B（正浩）：** 啊对。

**发言者 A（管理者）：** 就要用那个来控制了。

**发言者 B（正浩）：** 对的。

**发言者 A（管理者）：** 就是你要靠个或者一个视频来...比如你模仿一个视频。你让他自己生成是没戏的。生成不了那么好的。你比如说你把一个视频发上去给他，然后让对方...比如说迈克尔杰克逊跳舞的视频你发上去，然后你说让你也跳这个什么。你现在通过这种通用的视频你生成出来效果是很差的。知道吧？

**发言者 B（正浩）：** 嗯。能理解。

**发言者 A（管理者）：** 但是如果你通过那套工作流，把你的杰克...迈克尔杰克逊上面视频的每一帧的骨骼关节完全全部提取出来，把它骨骼关键点变化这个逻辑映射到你的身体上。这个生成的视频就比你那个要准的多得多。懂了吧？

**发言者 B（正浩）：** 懂。

**发言者 A（管理者）：** 对。所以我说你还没用上。所以你说他啊还不如这个平台那是因为你没用好。第一个你这现在的都过于简单，用不到这么...杀鸡不用牛刀。

**发言者 B（正浩）：** 嗯。

**发言者 A（管理者）：** 好吧。那那个...就是包括将来我觉得大...就是大规模的或者说这种精细的...人工AI电影的制作肯定是那个了。不然的话你出现的动作就...很难控制。你比如说你生成一个...比如未来能生成一分钟的视频。一分钟里面你出现三到五个这样的镜头。你怎么改我问你。你就很难改啊。嗯。

**发言者 B（正浩）：** 嗯。行。我懂。

**发言者 A（管理者）：** 对吧，这时候可能就要把这些镜头拆出来...把这些镜头拆出来之后，然后用精细化的方式去控制它了。

**发言者 B（正浩）：** 嗯。明白。嗯。那就等于后面如果更精细的话就是拆到一帧一帧的图片，然后其实他是生成一帧一帧的图片之后，然后把这些图片再生成视频。这样就是最最准确嘛。最精确，最准确。

**发言者 A（管理者）：** 对啊。对啊。

**发言者 B（正浩）：** 明白。嗯。

**发言者 A（管理者）：** 再者吧。你这个都后面那个什么内容多着的。但我们我估计我们可能用不到这么一个功能。到时候看吧。

**发言者 B（正浩）：** 嗯。

**发言者 A（管理者）：** 行吧。那这个就先这么着。那就先把那个...就是可灵的...额不先把那个百度希壤的和这个黑镜的尽快再做一个样本出来，好吧。

**发言者 B（正浩）：** 好，知道了。嗯。

**发言者 A（管理者）：** 就根据我上次给你的要求。就用自己的人训练一个出来。这周。好吧。

**发言者 B（正浩）：** 可以。嗯。

**发言者 A（管理者）：** 就花点钱就花点钱。赶快用自己的人训练一个出来。这周好吧。最好是这周周末就就就出来。训练出来之后，我们就确定到时候这个能不能用了。另外一个就是你现在那个呢？就是个人动画的制作呢？因为何所那个会不一用了。时间问题可能来不及了。或者他现在还不太想用这个技术。但是我们得我们得得把它做好放在那。就是生成这种动画视频怎么做。

**发言者 B（正浩）：** 就是动作替换的那种呢？还是说是...是什么？就是...

**发言者 A（管理者）：** 你比如说他可能不是上来做PPT的。他就是有大幅度的比如说要行走的动作，对吧？有这个这个打招呼的动作，等等这些。大幅度的动作。

**发言者 B（正浩）：** 行。我我知道了。那就是等于动作替换那块再研究研究。然后包括把我们那个真人的换成动作替换。

**发言者 A（管理者）：** 不是动作替换，是动作生成。

**发言者 B（正浩）：** 行。我考虑考虑。嗯。

**发言者 A（管理者）：** 因为有两种方式嘛。就是一种是动作叫...你就像你之前跟我说的嘛，两种方式，一种是动作生成嘛，他因为要很长的时间。