This commit is contained in:
闫旭隆
2026-01-09 11:22:42 +08:00
parent f4314c3ede
commit 202d1cb5ba
1066 changed files with 179639 additions and 7618 deletions

View File

@ -1,281 +0,0 @@
# 工程类会议纪要 (2025-12-02)
## 一、会议信息
- **会议时间:** 2025-12-02
- **参会人员:** 连云波(主持)、江争达、闫旭隆、陶西平、郝倩玉、丁康
- **记录整理:** Claude
---
## 二、工作内容
### 1. 重点项目进展情况汇总
| 项目名称 | 原负责人 | 原截止时间 | 项目进展情况 |
| ------------------------ | -------------- | ---------- | ------------------------------------------------------------ |
| 会议纪要Skill架构优化 | 闫旭隆、郝倩玉 | 2025-12-02 | 已完成架构优化改为全量读取会议转写文本不采用索引搜索整理了字段映射逻辑图整个流程已固化。领导评价比上一版有进步整体逻辑可以先固化使用。存在问题文字转写准确性和上下文约束能力是核心瓶颈P0/P1/P2优先级判断难以自动化 |
| 需求澄清Skill测试与推广 | 闫旭隆 | 2025-12-02 | 已完成优化,加入多轮专家博弈机制(独立评审→交叉评价→交叉回应→最终整合),并录制了演示视频。领导建议:验证专家博弈环节的实际效果,将评估意见和响应打成一篇文档进行对照分析 |
| 数字人PPT需求文档 | 江争达 | 2025-12-02 | 已完成需求文档整理包含五个第一阶段核心需求。下周行动计划1)时长从3-5分钟改为20-30分钟2)必须加入手势动作要求3)不能使用老外形象说流利中文4)本周尽快用真人训练数字人样本 |
| 数字分身需求文档 | 郝倩玉 | 2025-12-02 | 相关领导处的需求尚未明确。下一步建议:自己调研市面上做得好的几个版本,分别出方案让需求方选择 |
| 问答系统V1.1前端重构方案 | 江争达、陶西平 | 2025-12-02 | 进行中已完成接口规范文档确认功能模块清单正在对照核实中。领导建议后端代码不要动先用Claude 4.5或Codex做代码审查重构时必须考虑下一版本功能需求 |
### 2. 重点项目问题及解决方案
#### 问题1: 会议纪要文字转写准确性问题
**问题描述:**
会议纪要Skill的最大问题是文字转写的准确性和上下文约束能力不足。语音识别不清晰加上没有很好的上下文约束导致在已经非常清晰的上下文背景下开会时AI无法准确理解和提取信息。
**解决方案:**
1. 考虑使用Gemini进行多模态转写视频+音频+文字利用其100万token的超长上下文能力
2. 将转写文本先进行清洗加工,保证信息全面的同时内容紧凑,去除重复内容,在主窗口+子Agent中加载清洗后的会议转写文本
3. 调用Gemini API在Claude中处理转写后的文本
4. 尝试使用Gemini进行一次性生成会议纪要
**责任人:** 闫旭隆
**截止时间:** 2025-12-09
#### 问题2: 会议纪要P0/P1/P2优先级判断困难
**问题描述:**
AI难以准确判断任务的优先级P0/P1/P2因为缺少关键的潜在上下文信息如成员的年龄、级别、工作时间长短等这些都是分配工作时的潜意识上下文。
**解决方案:**
1. 在会议上直接确认P0/P1/P2优先级给AI一个明确的信号
2. 让AI先给出优先级建议人再给反馈确认
3. 每个人生成一份个人相关的优先级列表后确认
4. 保留确认过程的所有材料作为后续调优或微调的素材
5. 将潜在上下文成员背景信息显性化后提供给AI
**责任人:** 闫旭隆
**截止时间:** 2025-12-09
#### 问题3: Sub Agent在项目目录下调用的路径问题
**问题描述:**
测试发现Sub Agent在项目子目录下调用时存在问题不使用绝对路径时Agent会读取prompt但不执行使用绝对路径指定时才能正常调用。系统似乎默认优先查找全局Agent目录找不到就忽略。
**解决方案:**
1. 在Skill中调用Sub Agent时使用绝对路径指定Agent位置
2. 改用Agent调Agent的方式而非Skill调Agent
3. 定义一个主Agent来调用其他Agent保持逻辑清晰
4. 调试时使用Skill方式便于观察上下文调通后再迁移到Agent调Agent的架构
**责任人:** 江争达
**截止时间:** 2025-12-09
#### 问题4: 问答系统前端重构方案需完善
**问题描述:**
前端重构工作尚未完成,只做了一半。需要确保重构时考虑下一个版本的交互逻辑更改,避免架构调整后又需要重新修改或增加组件。
**解决方案:**
1. 用Opus 4.5或Codex对后端代码进行审查找出问题后记录下来
2. 找一个Code Review的Agent或Skill对代码进行审查
3. 让大模型生成一版前端重构方案,与现有方案对比差异
4. 把下一个版本的功能需求结合这次重构一起考虑
5. 提供示例代码(特别是与后端交互的逻辑代码)给大模型参考
**责任人:** 江争达
**截止时间:** 2025-12-09
#### 问题5: 数字人PPT讲解视频手势动作缺失
**问题描述:**
数字人PPT讲解视频中开场和结尾没有手势动作人物呆呆站着讲解效果不真实。
**解决方案:**
1. 在验收标准中加入手势动作要求
2. 修改数字人在PPT讲解视频中展现形式
3. 测试Veo 3.1的动作生成能力
**责任人:** 陶西平
**截止时间:** 2025-12-09
#### 问题6: 需求表达和背景说明不清晰
**问题描述:**
团队成员在汇报和文档中,需求表达和背景说明不够清晰,不交代核心诉求和问题点,导致其他人或大模型无法理解要解决什么问题。
**解决方案:**
1. 汇报时必须交代核心诉求和问题点
2. 给人可以口头补充,给大模型必须写下来
3. 站在其他人的角度思考,确保表达能被理解
4. 背景说明要特别详细
**责任人:** 全体成员
**截止时间:** 2025-12-09
### 3. 下周工作安排
| 项目名称 | 负责人 | 下周会前目标 | 优先级 | 截止时间 |
| ----------------------------------------- | -------------- | ------------------------------------------------------------ | ------ | ---------- |
| 🔴 会议纪要Skill全量处理优化 | 闫旭隆、郝倩玉 | 用现版本、Gemini视频生成转写文本+主窗口清洗后加载、Gemini视频直接生成三种方式各生成一版会议纪要进行对比测试 | P0 | 2025-12-09 |
| 🔴 数字人PPT视频样本生成 | 江争达、陶西平 | 用百度曦灵和heygen平台训练自己真人的语音和视频生成数字人PPT讲解视频样本需包含手势动作视频时长支持20-30分钟 | P0 | 2025-12-08 |
| 🔴 Gemini分镜脚本生成测试 | 江争达、陶西平 | 使用Gemini 3.0 Pro生成视频分镜脚本和分镜图片再用VEO 3.1或其他模型生成视频,测试端到端数字人视频生成工作流 | P0 | 2025-12-09 |
| 🔴 问答系统V1.1前端重构 | 江争达、陶西平 | 重构前端展示和代码结构保留基础功能和后端不变需结合下一版本交互逻辑变更一起考虑先用大模型对后端代码进行code review | P0 | 2025-12-09 |
| 🔴 需求澄清Skill专家博弈优化 | 闫旭隆 | 查看专家交叉回应的字段映射,整理可视化效果,评估专家博弈环节对需求文档质量的提升效果 | P0 | 2025-12-09 |
| 🔴 投标商务应答自动生成系统Skill架构设计 | 郝倩玉、闫旭隆 | 设计投标商务应答自动生成系统Skill的架构方案 | P0 | 2025-12-09 |
| 🔴 Gartner报告解读转写Skill架构设计 | 郝倩玉、闫旭隆 | 设计Gartner报告转写Skill的架构涉及后续合同签约需求要求最晚12月中旬必须交付 | P0 | 2025-12-09 |
| 🔴 数字分身方案调研及方案撰写 | 郝倩玉 | 先调研市面上做得好的版本,分别出几个方案让需求方选择 | P0 | 2025-12-09 |
| 日报驱动项目管理系统Skill开发 | 丁康 | 开发基于会议纪要的日报生成系统Skill | P1 | 待定 |
| 完成问答系统前端重构需求文档 | 陶西平 | 完成问答系统前端重构需求文档 | P1 | 2025-12-09 |
| 服务器采购 | 江争达 | 尽快采购,先确认好需要部署哪些软件 | P1 | 2025-12-09 |
| Skill Plugin管理系统搭建 | 江争达 | 学习并搭建内部Skill Marketplace管理团队开发的所有Skill | P2 | 待定 |
| Claude Skill转Langchain/Langgraph架构研究 | 闫旭隆 | 研究如何将Claude Code Skill转移到Langchain/Langgraph的低代码架构做一个小功能进行学习验证 | P2 | 待定 |
### 4. 组内成员工作进展
#### 江争达
**上周完成:**
- ✅ 数字人PPT需求文档
**进行中:**
- 🔄 完成问答系统v1.1前端重构方案
- 🔄 PDF Skill技术调研待开始
- 🔄 Skill Plugin管理系统搭建待开始
- 🔄 服务器采购(待开始)
- 🔄 招投标文件Skill架构调试待开始
- 🔄 日报驱动系统需求研究(待开始)
**收到的反馈/学习建议:**
- **批评:** 需求文档分析存在很大问题,不站在其他人的角度去思考,其他人听不懂你讲什么。核心诉求点没有说清楚,背景不交代清楚导致没人看得懂文档
- **批评:** 表达能力需要提升,没有表达能力就没法跟大模型打交道
- **建议:** 问答系统前端重构方案需要把下个版本可能修改的逻辑先考虑进去
- **建议:** 后端代码先不要动先用Opus 4.5或Codex做一遍代码审查
- **建议:** 前端重构方案需要用大模型重新生成一版,与现有方案对比差异
- **建议:** 提供示例代码,特别是与后端交互的逻辑代码应该提供给大模型参考
- **建议:** Claude 4.5幻觉还是很高的日常问答以GPT o1为主可能会比较好
**下周任务:**
- [ ] 🔴 P0问答系统V1.1前端重构
- [ ] 🔴 P0数字人PPT视频样本生成
- [ ] 🔴 P0Gemini分镜脚本生成测试
- [ ] P1PDF Skill技术调研
- [ ] P1服务器采购
- [ ] P2Skill Plugin管理系统搭建
#### 闫旭隆
**上周完成:**
- ✅ 需求澄清-需求文档skill优化-增加多轮博弈机制,录制视频
- ✅ 会议纪要Skill优化-变为Read全量读取文字转写上下文录制视频
**进行中:**
- 🔄 招投标文件Skill架构设计
**收到的反馈/学习建议:**
- **表扬:** 会议纪要Skill架构改进获得认可改用全量读取替代索引搜索的方案是正确的字段映射逻辑图也得到肯定
- **表扬:** 会议纪要Skill的测试结果与人工订正版本相比"比上面是有进步了""该有的要点是有"
- **建议:** 尝试使用主窗口全量处理替代分块agent搜索可能效果更好同时建议用Gemini做会议转写测试
- **建议:** 招投标Skill架构设计作为P0任务需要本周完成同时Gartner报告转写也需要先设计架构
- **建议:** 会议纪要的下周工作安排提取是最核心的功能需要重点优化P0/P1优先级判断的准确性
**下周任务:**
- [ ] 🔴 P0会议纪要Skill全量处理优化及gemini方案对比测试
- [ ] 🔴 P0需求澄清多专家博弈阶段效果可视化展示
- [ ] 🔴 P0招投标Skill架构设计
- [ ] 🔴 P0Gartner报告转写Skill架构设计
#### 郝倩玉
**上周完成:**
- ✅ 会议纪要Skill架构优化协助旭隆优化学习类+Q&A类会议纪要Skill逻辑
- ✅ Gartner 报告解读转写系统需求对接及文档撰写,确定版需求文档已发旭隆。
- ✅ 问答系统V1.0测试推动(多次与媛媛沟通)
- ✅数字分身需求对接
**进行中:**
- 🔄 招投标文件Skill架构设计投标商务响应文件自动生成系统需求文档已完成
**收到的反馈/学习建议:**
- **建议:** 招投标Skill架构设计后续需要针对需求部分再次讨论确认因为有些需求不一定合理
- **建议:** Gartner报告转写系统架构设计需要尽快完成因为涉及年末签合同可能有30万的业务机会优先级提升为P0
- **建议:** 数字分身需求方面,由于合作方需求不明确,需要自己先调研市面上比较好的版本,做出多个方案供选择
**下周任务:**
- [ ] 🔴 P0参与优化会议纪要Skill
- [ ] 🔴 P0参与设计招投标Skill架构
- [ ] 🔴 P0参与设计Gartner报告转写Skill架构
- [ ] 🔴 P0数字分身方案调研
#### 陶西平
**上周完成:**
- ✅ 数字人PPT需求文档协助江老师修改需求文档
- ✅ 学习使用Claude Code的document skill使用pdf skill的表单填写功能
- ✅ 调研数字人平台的公共数字人能力,收集总结相关目标数字人平台价格信息
**进行中:**
- 🔄 数字人与ppt结合生成一个基于指定PPT的数字人视频
- 🔄 前端框架重构(对问答系统前端功能进行分析)
**收到的反馈/学习建议:**
- **肯定:** 陶西平提供的数字人调研文档被团队成员引用,作为数字人平台费用对比的基础参考资料
**下周任务:**
- [ ] 🔴 P0数字人PPT视频样本生成
- [ ] 🔴 P0Gemini分镜脚本生成测试
- [ ] P1完成问答系统前端重构需求文档
---
## 三、会议总结
**核心议题:** 会议纪要Skill优化、数字人PPT视频生成、问答系统前端重构、招投标/Gartner报告Skill架构设计
**关键决策:**
1. **会议纪要转写采用Gemini多模态视频处理方案:** 领导测试发现Gemini 3.0 Pro可以直接上传会议视频生成转写文本多模态能力最强上下文最长效果优于纯语音转写
2. . **进展情况以会议转写为优先,周报作为补充:** 会议中发现转写文本更能反映实际进展情况
3. **P0/P1/P2优先级判断需要人工确认:** AI缺乏隐性上下文如成员资历、工作时长等建议先让AI给出优先级建议然后由人工确认
4. **数字人PPT视频主需求调整为支持20-30分钟时长:** 实际使用场景如PPT宣讲、会议发言需要20-30分钟
5. **数字人形象必须使用中国人,不能用老外说流利中文:** 确保形象和语言匹配,追求真实性
6. **数字人视频第一阶段必须包含手势动作:** 开场和结尾的手势动作是必须的,不能呆板站立讲解
7. **本周完成数字人真人训练视频样本:** 要求本周末前用自己真人训练出语音和视频样本
8. **使用Gemini 3.0生成分镜头脚本和图片,再用其他平台生成视频:** 这是目前最有效的动画视频制作路径
9. **前端重构只改展示部分,后端不动但需做代码审查:** 用Codex或大模型做一遍代码审查找出问题记录下来
10. **Sub Agent调用必须使用绝对路径指定:** 项目下的sub agent不指定绝对路径时调用不稳定
11. **推荐使用Agent调用Agent的方式而非Skill调用Sub Agent:** 这样调用更清晰,上下文共享更好
12. **招投标Skill架构设计提升为P0任务:** 因为涉及年末演示和签合同可能有30万收入
13. **Gartner报告转写Skill提升为P0任务:** 同样因为紧急需求
**下周工作重点:**
1. 🔴 会议纪要Skill全量处理优化对比Gemini转写与腾讯会议转写效果
2. 🔴 数字人PPT视频样本生成本周末前完成真人训练
3. 🔴 招投标Skill和Gartner报告转写Skill架构设计
4. 🔴 问答系统V1.1前端重构,需先做代码审查
5. 🔴 需求澄清Skill专家博弈效果验证和流程图梳理
6. 🔴 数字分身方案调研,主动出多个版本供选择
---
**纪要整理人:** Claude
**纪要时间:** 2025-12-02
**下次会议:** 2025-12-09

View File

@ -0,0 +1,327 @@
# 工程类会议纪要 (2025-12-30)
## 一、会议信息
- **会议时间:** 2025-12-30
- **参会人员:** 连云波(主持)、闫旭隆、江争达、郝倩玉
- **记录整理:** Claude
---
## 二、工作内容
### 1. 重点项目进展情况汇总
| 项目名称 | 原负责人 | 原截止时间 | 项目进展情况 |
| -------------------------------------------- | -------- | ---------- | ------------------------------------------------------------ |
| 问答系统前端重构 | 江争达 | 2025-12-30 | 基本页面展示和基础功能已完成,但细节优化未做,异常处理模块未完成,用户设置功能未开发。存在问题:工程管理维护不足,数据库无备份、代码无版本管理,存在重大安全风险;开发思路问题,总是等待他人反馈而不主动推进;测试环境与生产环境未分离。**解决方案:** 1建立备份机制每天对数据库和代码进行备份2开发测试服务器新开docker服务分离测试和生产环境3不要等待反馈按自己方案先推进有问题再调整4下周必须拿出可测试版本基本完善达到商用初期版本水平5参考ChatGPT等产品设计用户设置功能6引用链接改为先展示摘要再提供下载而非直接下载 |
| 素材解析与预处理Skill开发 | 郝倩玉 | 2025-12-30 | Skill已完成并迭代3次可稳定输出结构化文档。存在问题流程设计过于复杂拆分了不必要的多个阶段(文字理解、素材分析、智能匹配等);图片生成用代码处理创意性内容是错误方向;未调研最先进工具(如可灵、Voe等),采用了过时的技术路线。**解决方案:** 1简化流程合并无必要分开的步骤一步到位生成最终结果2以结果为导向重新设计直接定义最终需要什么而非定义中间过程3使用Gemini生成图片、可灵或Voe生成视频等先进工具替代代码生成4调研并使用最先进的多模态生成工具。 |
| Gartner报告转写 | 闫旭隆 | 2025-12-30 | 完成human in the loop设计允许用户决策标题和框架生成图片描述+Gemini生图整体效果可评75-80分。存在问题部分章节缺少配图(3、4、5章没有图);图片生成有时逻辑不够严密;行文结构和常见报告格式不太一样;图片存在褶皱/凹凸纹理问题。**解决方案:** 1图的生成要再次精细打磨每章节都应配图2先把文字打磨好再打磨图片3使用SVG或屏幕截图(screenshot)格式减轻纹理问题4文字润色需要调整用词习惯达到85分水平5工程自动化准备 |
| 基于Claude Code的Deep Research智能体编排方案 | 闫旭隆 | 2025-12-30 | 研究了KOSMOS开源项目的编排机制理解了多周期研究、世界模型状态管理的核心架构初步规划了脚本-主窗口-Sub-agent-Skill的自动化工作架构。存在问题Kosmos知识图谱如何构建尚未明确科研知识图谱与普通知识图谱不同属性定义和关系提取需要专门研究知识图谱的自进化机制(建立过程和使用过程)需要设计。**解决方案:** 1尽快定义知识图谱的结构方案2研究科研知识图谱的属性定义明确每一步需要提取什么信息反向定义知识图谱结构3研究自进化知识图谱建立过程自进化(搜索新内容自动入库)和使用过程自进化(使用时建立直接连接) |
| 数字人视频生成多模态工作流需求文档完善 | 郝倩玉 | 2025-12-30 | 技术可行性方案讨论测试中。存在问题沿用传统视频制作流程的思维未实现AI原生设计对AI能力边界认知不足不知道先进工具能做到什么程度流程设计过于复杂人为添加了不必要的环节。**解决方案:** 1推翻现有方案以结果为导向重新设计告诉AI需要什么元素的视频让其自动生成2使用Gemini生图+可灵/Voe/Heygen等工具生成视频3调研最先进的视频生成工具做技术可行性测试。 |
| 服务器软硬件配置报告 | 江争达 | - | 已完成服务器采购方案PPT。存在问题执行摘要只强调成本而非价值痛点描述重复冗余表达不够精炼架构图有冗余元素资源分配方案不够动态灵活。**解决方案:** 1重新组织PPT逻辑突出问题和解决方案而非成本2研究服务器资源动态分配方案而非静态分配虚拟机3考虑用Docker容器替代每人一个虚拟机的方案4将VPN功能从服务器分离到独立路由器5写一份完整的系统架构说明文档和使用规范手册 |
### 2. 重点项目问题及解决方案
#### 问题1: 问答系统前端重构相关问题
**问题描述:**
1. **前端开发进度滞后**:前端功能未完善,用户设置、异常处理等细节模块未开发完成。开发人员存在'等待他人反馈'的被动心态,导致项目已做半年仍无成型产品。前端部署在本地测试环境,未上云,其他人无法测试。
**解决方案:**
1. 下周必须拿出一个可供大家测试的基本完善版本
2. 不要等待反馈,主动推进,按自己的理解先完成
3. 实在无法判断的问题再与领导商量
4. 部署测试服务器供他人测试,与生产环境分离
5. 使用自动化测试工具进行连续测试
**责任人:** 江争达
**截止时间:** 2026-01-06
#### 问题2: 服务器软硬件配置报告相关问题
**问题描述:**
1. **服务器采购方案PPT质量问题**PPT存在多处问题执行摘要只强调成本而非价值、痛点描述重复冗余、表达不够精炼、'128G+96G'的表述容易引起误解实际96G是128G中可分配的部分、架构图有冗余元素如重复的clash、资源分配方案不够动态灵活。
2. **云端数据库无备份,存在数据安全风险**:问答系统的云端数据库没有备份机制,代码镜像虽有本地备份但数据没有。一旦数据丢失将造成严重损失,目前处于'裸奔'状态,工程管理维护体系不完善。
**解决方案:**
1. 重新组织PPT逻辑突出问题和解决方案而非成本
2. 删除重复冗余的表述(如多余的'痛点'、'业务影响'标签)
3. 修正容易引起误解的表达
4. 研究服务器资源动态分配方案(而非静态分配虚拟机)
5. 考虑用Docker容器替代每人一个虚拟机的方案
6. 将VPN功能从服务器分离到独立路由器
7. 写一份完整的系统架构说明文档和使用规范手册
8. 建立每天或每次操作后的数据库备份机制
2. 使用NAS进行本地备份结合云端备份
3. 先买一台服务器测试稳定性后,再决定是否需要购买第二台做备份
**责任人:** 江争达
**截止时间:** 2026-01-06
#### 问题3: 素材解析与预处理Skill开发相关问题
**问题描述:**
**Skill设计过于复杂**素材解析与预处理Skill的流程设计过于复杂人为将任务拆分成多个串行的子agent文字理解、素材分析、标签提取等产生不必要的中间产物。应该以结果为导向充分利用大模型的能力一步到位生成结果而不是按传统流程逐步处理。
**解决方案:**
1. 简化流程,将串行的子任务合并
2. 以结果为导向重新设计,直接告诉模型最终要什么
3. 使用Gemini等先进工具直接生成图片和视频合成
4. 参考可灵(Kling)、Voe等视频生成工具的能力
5. 不要用代码解决创意性问题让AI发挥其创造力
**责任人:** 郝倩玉
**截止时间:** 2026-01-06
#### 问题4: 数字人视频生成多模态工作流相关问题
**问题描述:**
**视频生成技术方案选型落后**数字人视频生成的技术方案仍基于传统视频制作流程思维使用代码如FFmpeg、Python来处理图片和视频合成没有充分调研和使用最先进的AI视频生成工具导致效率低下且效果不佳。
**解决方案:**
1. 调研并使用最新的视频生成工具如Gemini生图、可灵Kling、Voe等
2. 使用Gemini先生成脚本图片再用视频工具合成
3. 测试首尾帧连接的连贯性
4. 不要从传统流程出发而是从AI能力边界出发思考方案
**责任人:** 郝倩玉
**截止时间:** 2026-01-06
#### 问题5: Deep Research智能体编排相关问题
**问题描述:**
**知识图谱设计问题**Kosmos研究智能体系统的世界模型知识图谱设计不够完善。需要研究科研知识图谱的特殊属性定义以及如何实现知识图谱的自进化包括建立过程的自进化和使用过程的自进化
**解决方案:**
1. 研究科研知识图谱的属性定义,明确每一步需要从知识图谱获取什么信息
2. 与牛刚等有经验的同事进行学术探讨
3. 实现知识图谱的自进化:搜索新内容时自动添加,使用过程中自动建立新关系
4. 先做摘要和元数据级别的知识图谱,再扩展到全文
5. 用大模型逆向推演Kosmos的世界模型结构
**责任人:** 闫旭隆
**截止时间:** 2026-01-06
#### 问题6: Gartner报告转写相关问题
**问题描述:**
**图片生成质量问题**使用Gemini生成的报告插图存在问题部分章节没有配图、图片描述太简短导致生成的图逻辑不够严密、生成的图片有纸面褶皱/不平整的视觉瑕疵。
**解决方案:**
1. 确保每个重要章节都配图
2. 在提示词中加入'screenshot'或'SVG'等关键词减少图片瑕疵
3. 文字润色需要进一步调整以符合咨询报告的行文规范
**责任人:** 闫旭隆
**截止时间:** 2026-01-06
#### 问题7: 科普视频生成任务时间紧迫
**问题描述:**
市场部需要在下周一或下周二提交科普视频的初步方案,但目前还没有开始制作,且需求文档不完整(缺少口播文本等素材)。与问答系统前端开发任务存在时间冲突。
**解决方案:**
1. 优先完成科普视频初步方案
2. 使用Gemini生成脚本图片再用VU3或可灵合成视频
3. 先做30秒的试验片段验证技术可行性
4. 如果时间不够,可以请郝倩玉协助或由领导帮助完成
**责任人:** 江争达
**截止时间:** 2026-01-02
#### 问题8: 团队工具使用意识和调研能力不足
**问题描述:**
团队成员在开发时没有充分调研最先进的工具,习惯性地按传统思维方式工作,导致效率低下。存在'拍脑袋'定方案、过度关注过程而非结果、不会质疑自己方案的问题。
**解决方案:**
1. 任何任务开始前先做一轮技术调研,了解最先进的方法
2. 多使用Deep Research进行调研
3. 学会质疑自己的方案让AI帮助分析方案的优缺点
4. 以结果为导向,不要人为复杂化流程
5. 多看好的作品和案例提升品位
6. 学习并实践浏览器自动化技术
**责任人:** 江争达、郝倩玉、闫旭隆
**截止时间:** 2026-01-06
### 3. 下周工作安排
| 项目名称 | 负责人 | 下周会前目标 | 优先级 | 截止时间 |
| ------------------------------------- | -------------- | ------------------------------------------------------------ | ------ | ---------- |
| 🔴 科普视频生成初版方案 | 江争达 | 市场部科普视频生成任务需要下周一或周二提交初版方案。用Gemini生成图片再用VU或可灵生成首尾帧视频测试图片衔接效果。先做30秒的验证可行性。 | P0 | 2026-01-02 |
| 🔴 Gartner报告转写-图片生成优化 | 闫旭隆 | 报告转写已基本可用(75-80分)需要1)把每个章节都配上图片达到80分2)文字润色调整达到85分3)优化图片生成的精细度解决图片褶皱问题尝试SVG或screenshot格式。 | P0 | 2026-01-06 |
| 🔴 Deep Research智能体知识图谱方案设计 | 闫旭隆 | 尽快把知识图谱方案定下来即Kosmos的world model的知识图谱底座。研究科研知识图谱与普通知识图谱不同和自进化知策略包括建立过程的自进化和使用过程的自进化。可与牛刚做学术探讨。 | P0 | 2026-01-06 |
| 🔴 Vibe Engineering学习 | 闫旭隆、江争达 | 抓紧学习Vibe engineering相关资料和AI软件工程这是未来重要方向。搭建一套体系保证AI agent能自动长时间运行并保证质量不再是一对一对话式coding。 | P0 | 2026-01-06 |
| 🔴 数字人视频生成技术调研 | 郝倩玉 | 调研最先进的视频生成工具Voe、可灵、Gemini等以结果为导向重新设计方案不要基于传统视频制作流程。 | P0 | 2026-01-06 |
| 铭凡服务器采购 | 江争达 | 尽快购买明盘服务器价格在涨已从16999涨到18999。先买一台测试整体框架稳定性。 | P0 | 2026-01-06 |
| 服务器采购方案优化/测试服务器环境搭建 | 江争达 | 优化服务器采购PPT方案包括1)资源动态分配方案研究2)VPN服务器与主服务器分离用旁路由方案3)负载均衡方案4)系统架构说明文档和结构图。不再改PPT直接写架构说明文档。 | P1 | 2026-01-06 |
| 服务器使用说明和规范手册编写 | 江争达 | 准备一套使用说明,包括软件的、硬件的使用说明,还要准备使用规范手册,用于生产环境接入。 | P1 | 2026-01-06 |
| 数字人视频生成方案总结与操作文档 | 江争达 | 基于已完成的方案调研,输出可操作的最终方案文档 | P1 | 2026-01-06 |
| 问答系统前端上线测试版本 | 江争达 | 下周必须上线一个能够给大家测试的版本,基本完善,包含用户设置、客户功能等,看上去跟商用初期版本没什么区别。不要缺胳膊少腿,自己先做自动化测试。 | P1 | 2026-01-06 |
| 基于Claude Code的智能问答系统重构规划 | 闫旭隆、江争达 | 基于Cloud Code通用Agent能力规划下一代智能问答助手的架构利用通用智能体底层构建扩展更多能力,如上下文管理 | P1 | 2026-01-06 |
### 4. 组内成员工作进展
#### 闫旭隆
**上周完成:**
- ✅ Gartner报告转写完成human in the loop设计允许用户决策标题和框架生成图片描述+Gemini生图
- ✅ 基于Claude Code的类Kosmos的研究智能体系统编排思考学习类KOSMOS的开源项目编排中
- ✅ 基于Claude Code的智能问答系统重构规划设计主窗口——Sub-agent——Skill三层架构的重构规划
- ✅ 视频压缩、分割、Gemini测试
**进行中:**
- 🔄 基于Claude Code的类Kosmos的研究智能体系统编排思考学习类KOSMOS的开源项目编排中
**收到的反馈/学习建议:**
- **建议:** 需要开始思考并学习如何搭建智能体编排体系(类KOSMOS体系)与江争达一起研究vibe engineer架构尽快进入一边学一边干的阶段
- **建议:** 需要购买一个GPT共享账号(20美金)供团队(包括窦主任、媛媛等)使用
**下周任务:**
- [ ] 🔴 P0Gartner报告转写-图片生成与文字细节优化
- [ ] 🔴 P0Vibe Engineering学习
- [ ] P1基于Claude Code的智能问答系统重构规划
#### 江争达
**上周完成:**
- ✅ 问答系统前端重构(一周内固定页面):意见收集需元旦节后进行
- ✅ 服务器软硬件配置报告:已完成
- ✅ nyrag/RAG-Anything开源RAG项目测试
**进行中:**
- 🔄 问答系统前端重构:意见收集需元旦节后进行
**收到的反馈/学习建议:**
- **批评:** 前端开发一直在等别人反馈,思考方式有问题。不应该等别人,自己能做的事情要先做完。做了半年还没有拿出一个成形的东西出来。
- **批评:** 数据库没有备份,代码没有备份,整个工程管理维护都是在裸奔,这非常危险。一旦出问题什么都没有了。
- **批评:** 做事不够细致,输出的东西有很多低级错误。应该拿出代表自己最高水平的东西,经得起检验的东西,而不是一测一大堆问题。
- **批评:** PPT制作问题很大信息重复冗余痛点、具体表现、业务影响等重复词汇、逻辑不连贯、表达不清晰。用加号表示内存分配容易引起误解128G+96G被理解为224G
- **批评:** AI工具使用方式不对。用Claude Code逐页生成PPT束缚了AI的思维结果比直接让NotebookLM或Gemini整体生成的效果差很多。自己的思想影响了AI的输出质量。
- **批评:** 学习速度慢,表达混乱,技术方案研究不充分。包括网络架构、服务器架构、资源调配等很多没有深入思考。
- **批评:** 做事喜欢往前冲,但基础没有打牢。底子都没打好就往上加,一旦动了就全塌。需要先把自己后面的事情弄干净打牢。
- **批评:** 虚拟机架构设计有冗余每个虚拟机都装clash上层又有clash资源浪费。应该把VPN放到路由器上架构更简洁。
- **建议:** 前端下周必须拿出一个能给大家测试的版本,基本完善,看上去跟商用初期版本没什么区别,不要缺胳膊少腿。
- **建议:** 工作环境和测试环境要分开最好搞一个测试服务器。可以新开一个端口或docker服务。
- **建议:** 数据库需要做备份,至少每天备份一次,甚至操作结束就备份一次。
- **建议:** 不要用Claude Code生成PPT应该用NotebookLM或Gemini把完整文档放进去让它自己规划越少干预效果越好。
- **建议:** 产品设计需要主动推进,跟媛媛商量设置项(用户级别、是否收费、记忆功能等),参考其他产品的设计。
- **建议:** 服务器资源分配需要研究动态分配方案不要静态分配。可以考虑在docker里装环境而不是给每人开虚拟机。
- **建议:** VPN应该从服务器分离出来做成旁路由或单独的VPN路由器这样更稳定也方便进机房部署。
- **建议:** 需要准备一套使用说明和使用规范手册,包括软件硬件的使用说明,为将来生产环境接入做准备。
- **建议:** 先买一台服务器测试整个框架的稳定性用NAS做备份是最便宜的方案将来NAS也可以扩展。
- **建议:** 做事要学会质疑自己先质疑自己再质疑AI质疑几遍之后才能得出靠谱的答案。每句话都要想别人能不能理解。
**下周任务:**
- [ ] 🔴 P0科普视频生成初版方案
- [ ] 🔴 P0铭凡服务器采购
- [ ] P1问答系统前端上线测试版本
- [ ] P1服务器使用说明和规范手册编写、服务器采购方案优化、测试服务器环境搭建、数据库备份机制建立
- [ ] P1数字人视频生成方案总结与操作文档
- [ ] P1基于Claude Code的智能问答系统重构规划
- [ ] P1Vibe Engineering学习
#### 郝倩玉
**上周完成:**
- ✅ 素材解析与预处理 Skill开发完成素材解析与预处理 Skill的开发并先后开展二次、三次优化工作保障功能稳定性与实用性
- ✅ 数字人视频生成多模态工作流需求文档完善:参与视频自动化生成技术可行性方案的讨论,并启动技术测试
- ✅ 数字人视频生成多模态工作流需求文档完善:与市场部同事开会,沟通下年度视频生成工作规划,明确跨部门协作方向
- ✅ 数字人视频生成多模态工作流需求文档完善:对接科普视频制作需求,完成需求文档的撰写
**进行中:**
- 🔄 数字人视频生成多模态工作流需求文档完善:可行性方案讨论测试中
**收到的反馈/学习建议:**
- **批评:** Skill设计过于复杂流程拆分过细。建议以结果导向从后倒推不要过于关注过程。
- **批评:** 沿用传统思维未做到AI原生思考。
- **建议:** 应该使用gemini、Voe等先进工具直接生成而非用代码拆分流程。
- **建议:** 需要多看好东西提升品位多用好工具了解AI能力边界。
- **建议:** 需要转变思维方式,学习'忘我'的理念把AI当成一个人来交互。
- **肯定:** 逻辑清晰,但逻辑过于复杂,在工程实现上没必要,需要简化。
- **任务安排:** 给一个市场部视频生成任务作为实践练习端到端走一遍流程把AI工具尝试一遍。
**下周任务:**
- [ ] 🔴 P0数字人视频生成技术调研
- [ ] P2对接市场部关于咨询信息库搭建、分析报告生成等需求
- [ ] P2AI合规提醒工具需求对接
- [ ] P2知识库整理与管理
---
## 三、会议总结
**核心议题:** 问答系统前端重构、素材解析Skill简化、数字人视频生成、Deep Research知识图谱、Gartner报告转写优化、Vibe Engineering学习
**关键决策:**
1. **前端下周必须拿出一个能够给大家测试的版本,至少大家能用的东西** - 关于问答系统前端开发进度的讨论,领导要求不能再等待反馈,必须主动推进
2. **数据库必须做备份,甚至每天都要做一次备份,操作结束后也得备份** - 发现云上数据库没有备份,属于'裸奔'状态,存在巨大风险
3. **测试环境与生产环境必须分开,建议搭建测试服务器** - 关于前端开发测试流程的规范化要求
4. **VPN功能从服务器中分离出来做成旁路由或独立路由器** - 服务器架构设计讨论,为了便于进入机房和提高稳定性
5. **先买一台明矾服务器进行测试用NAS方式做备份而非购买两台服务器** - 服务器采购方案讨论,考虑到业务量和未来扩展需求
6. **服务器先放家里测试,如果远程不方便再考虑放办公室机房** - 关于服务器物理位置的安全性和便利性讨论
7. **素材处理Skill不要拆分太细应该一步到位或尽量简化流程** - 关于素材解析Skill的设计讨论批评过度复杂的流程设计
8. **采用最先进的工具如Gemini、VU3、可灵等来生成视频和图片而不是用代码程序生成** - 关于视频制作流程的讨论,强调要以结果为导向,利用成熟工具而非自己从头开发
9. **Gartner报告转写先把图片打磨好达到80分再做文字润色到85分** - 关于报告转写Skill输出质量的优化目标和优先级
10. **要搭建Vibe Engineering软件工程自动化体系架构下周讨论方案** - 关于未来开发模式的战略决策让AI Agent能够长时间自动运行开发任务
11. **kosmos知识图谱结构下周讨论确定先做摘要和数据的小型试用版** - 关于Deep Research与知识图谱融合项目的推进计划
12. **科普视频生成任务优先于前端开发,下周一或二给出初版方案** - 任务优先级调整因为市场部有紧急需求1月4日数智会需要
13. **购买一个GPT Plus共享账号20美金供团队成员使用** - 工具采购决策,以支持日常研发工作
14. **Skill设计不要过度复杂可以参考前端美学设计类Skill的写法给AI判断空间而非事无巨细规定** - 关于Skill设计方法论的指导强调以结果为导向、相信AI能力
**下周工作重点:**
1. 🔴 科普视频生成初版方案2026-01-06
2. 🔴 问答系统前端上线测试版本
3. 🔴 数据库备份机制建立
4. 🔴 测试服务器环境搭建
5. 🔴 Gartner报告转写Skill图片生成优化
6. 🔴 Deep Research智能体知识图谱方案设计
7. 🔴 Vibe Engineering学习
8. 🔴 数字人视频生成技术调研
---
**纪要整理人:** Claude
**纪要时间:** 2025-12-30
**下次会议:** 2026-01-06

View File

@ -1,47 +0,0 @@
# 周报 - 2025年11月第5周11月25日-12月2日
## 一、P0任务完成情况
| 任务 | 状态 | 备注 |
|------|------|------|
| 问答系统V1.1前端重构 | 已完成 | - |
| 数字人PPT视频样本生成 | 已完成 | - |
| Gemini分镜脚本生成测试 | 已完成 | - |
## 二、遇到的问题
## 三、详细工作内容
- ✅ P0问答系统V1.1前端重构
前端采用麦肯锡风格进行重构,测试登录,对话,历史记录等模块功能正常
- [x] ✅ P0数字人PPT视频样本生成
完成样本生成,完成制作步骤和费用分析
- [x] ✅ P0Gemini分镜脚本生成测试
指导西平完成测试,整理
- [ ] P1PDF Skill技术调研未完成
- [x] P1服务器采购
学习集成显卡/独显区别,以及对模型推理的支持能力
- [ ] P2Skill Plugin管理系统搭建未完成
- [x] 额外:
学习旭隆知识图谱/向量构建,整理并使用,完成新文档检索和前端的对接测试
- [x] 额外:
邮件自动处理转发系统(功能优化),新版本投入使用
### 下周计划
- 问答系统V1.1当前系统问题梳理
- 对接旭隆pdf/招标需求
- 服务器采购

View File

@ -1,81 +0,0 @@
# 周报 - 2025年12月第1周12月02日-12月09日
## 一、P0任务完成情况
| 任务 | 状态 | 备注 |
| ------------------------------------------------------------ | -------------------------------------- | ------------------------------------------------------------ |
| 会议纪要Skill1.生成市场部需求相关会议纪要2.主窗口加载转写文本优化3.腾讯会议与Gemini视频生成转写文本+主窗口加载清洗前后、Gemini直接生成三种方式各生成一版会议纪要进行对比测试 | 已完成初步对比,发现较多问题 | ✅Gemini画面效果带来了一些提升<br />❗但测试遇到的问题较多 |
| 需求澄清Skill专家博弈优化查看专家交叉回应的字段映射整理可视化效果评估专家博弈环节对需求文档质量的提升效果 | 已完成 | ✅可视化结果及录制视频 |
| Gartner报告解读转写Skill架构设计 | 已完成 | ✅Skill开发文档生成skill开发完毕<br />✅架构设计及可行性单元测试完毕 |
| 投标商务应答自动生成系统Skill架构设计 | 已完成架构设计,企业信息库建设有待帮助 | ✅架构设计完毕<br />❗有待进行企业信息库的构建 |
## 二、遇到的问题
1. 会议纪要Skill测试中出现的问题
- gemini视频上传问题视频限制不能上传超过1小时且不能超过200MB实测需要避免高峰期(晚上上传失败率极高)只能切成30分钟的视频上传出错需要重试的概率大时间成本高。
- 清洗问题:方案+实施问题
当前方案:主窗口交互清理+compact控制上下文
- 清理方案问题:
- 使用Skill清洗难以控制清洗力度要么作用不明显要么清洗力度过大
- 尝试过的清洗Skill方案及失败原因
主窗口直接清洗(清洗无意义画面+发言人识别)
- 主窗口(读取+写入上下文不够用一个200KB的md文件需要占用90kTokens左右一半上下文窗口。
- 写入的时候会报超出Claude最大输出Tokens的错误导致输出失败(可通过设置环境变量解决)
主窗口调用Sub-agent分段清洗后返回
- 并行启动同一个Sub-agent(清洗Agent)尝试写入文件时Sub-agent内部写文件会提示“没有权限”未知错误。
- 各个Sub-agent返回主窗口由主窗口拼接时上下文不够用无论如何需要读取+写入一个200KB的md文件需要占用90kTokens左右一半上下文窗口。
## 三、详细工作内容
### -[✅]会议纪要skill开发
- 生成市场部需求相关会议纪要;
- 主窗口加载转写文本优化;
- 腾讯会议与Gemini视频生成转写文本+主窗口加载清洗前后、Gemini直接生成三种方式各生成一版会议纪要进行对比测试
### -[✅]需求澄清-需求文档skill多专家博弈机制
- 整理博弈二阶段-回应字段逻辑,过程可视化整理,录制视频
### -[✅]Skill-designer-v1开发
- 整体架构:收集需求 → 需求确认 → 架构设计(核心) → 生成文档 → 设计校验 → 输出总结
- 核心判据范围边界前置分析渐进式披露机制Sub-agent 收益成本决策;有限矫正循环;**路径传递双保险;**模板驱动输出;
### -[✅]Gartner报告解读转写
- 细致需求确认
- 使用Skill-designer-v1进行Skill架构设计设计兼容单/多PDF输入的流程
- 调试反馈Skill-designer-v1的设计细节
### -[✅]招投标Skill架构设计
- 细致需求确认
- 使用Skill-designer-v1进行Skill架构设计设计Pandoc解析招标文件字段+提取关键信息、xml复制响应文件word模板**json索引构建企业信息库**--统一填充xml,打包word输出
## 下周计划
- Claude Code 需求文档-Skill套壳Web前端交互测试测试非Agent项目
- 清洗用gemini
- 压缩视频再上传gemini

View File

@ -0,0 +1,65 @@
# 周报 - 2025年12月第1周12月02日-12月09日
## 一、P0任务完成情况
| 任务 | 状态 | 备注 |
| -------------------- | -------------------------------------------- | ---- |
| 科普视频生成初版 | ⌛完成3分钟视频制作预计完整视频10分钟左右 | |
| Vibe Engineering学习 | ⌛待启动 | |
| 铭凡服务器采购 | ✅已购买 | |
## 二、遇到的问题
AI视频提示词生成质量不足无法"一次成型",在追求高质量视频效果的前提下,当前通过提示词生成的内容无法直接使用,每次都需要人工修改和调整,具体体现在:
| 维度 | 期望 | 现状 |
| -------- | -------------------------- | -------------------------- |
| 画面层 | 首尾帧prompt生成后直接可用 | 需人工逐条修改打磨 |
| 叙事层 | 故事文案连贯完整 | 逻辑断层,需人工补充衔接 |
| 技术层 | 运镜效果自然合理 | 镜头语言不专业,需人工调整 |
| 效率层 | 模板可复用,快速产出 | 每次重新调试,经验难沉淀 |
| 音视频层 | 音频与视频节奏自动匹配 | 音画不同步,需人工对齐剪辑 |
**核心痛点**
生成→修改→使用 的流程无法简化为 生成→使用
- 画面、叙事、运镜各自生成质量不达标
- 音频与视频时长、节奏、情绪无法自动对齐
- 修改成本高,效率提升有限
- 难以形成可复用的标准化模板,无法支撑未来批量提效
**影响**
1. 当前:单个视频项目耗时长,人工成本高
2. 未来:无法规模化生产,提效目标难以实现
**解决方向**
| 方向 | 目标 |
| --------------- | -------------------------------- |
| 优化prompt结构 | 提升一次生成的可用率 |
| 音视频联合生成 | 在生成阶段考虑时长与节奏匹配 |
| 建立模板库 | 沉淀可复用资产,减少重复劳动 |
| 分层拆解+自动化 | 各环节独立优化,串联成稳定工作流 |
## 三、详细工作内容
### [✅]科普视频生成初版
### [✅]铭凡服务器采购
## 下周计划
- 科普视频完整版生成
- 问答系统前端上线测试版本
- 服务器环境搭建

View File

@ -0,0 +1,47 @@
# 周报 - 2025年12月第1周12月02日-12月09日
## 一、P0任务完成情况
| 任务 | 状态 | 备注 |
| ------------------------------------------------- | ------------------------------------------------------------ | ---- |
| Vibe Engineering学习 | ✅完成Continuous-Claude开源项目学习学习自动上下文接续机制+自学习进化系统+Rules规则+Hook-Skill推荐 | |
| 基于Claude Code的类Kosmos的研究智能体系统编排思考 | ⌛完成初步科研类知识图谱项目调研 | |
| Gartner报告转写-图片生成与文字细节优化 | ⌛媛姐反馈专家,等待完整反馈,时间原因尚未作出改动 | |
## 二、遇到的问题
## 三、详细工作内容
### -[✅]Vibe Engineering学习
- 完成Continuous-Claude开源项目学习学习自动上下文接续机制+自学习进化系统+Rules规则+Hook-Skill推荐
### -[✅]基于Claude Code的类Kosmos的研究智能体系统编排思考
- 完成初步科研类知识图谱项目调研接下来准备精读iKragh
### -[✅]基于Claude Code的智能问答系统重构规划
- 设计 主窗口——Sub-agent——Skill三层架构的重构规划
## 下周计划
- Vibe Engineering学习基于AI的代码开发架构研究与最小测试ClaudeCode双代理+拉尔夫+Superpower
- 基于Claude Code的类Kosmos的研究智能体系统编排思考精读iKragh、MDKG等知识图谱论文、自进化知识图谱调研
- Gartner报告转写跟进反馈
- 基于Claude Code的智能问答系统重构

View File

@ -1,23 +0,0 @@
# 周报 - 2025年12月1周11月02日-12月08日
## 一、任务完成情况
| 任务 | 状态 | 备注 |
|------|------|------|
| 数字人PPT视频样本生成 | 进行中 | 完成数字人阶段一的样本视频 |
| 数字人与ppt结合 | 进行中 | 完成数字人讲解PPT视频生成步骤文档 |
| Gemini分镜脚本生成测试 | 进行中 | 完成veo3.1调研结果文档 |
## 二、遇到的问题
## 三、详细工作内容
- 生成了基本满足阶段一需求的数字人讲解ppt视频的样本
- 根据生成视频样本过程完成数字人讲解PPT视频生成步骤文档
- 学习使用veo3.1生成视频,调研其生成视频效果
## 下周计划
- 继续推进数字人讲解ppt视频

View File

@ -0,0 +1,30 @@
# 郝倩玉周报 - 2026年1月第1周2025年12月31日-2026年1月5日
## 一、P0任务完成情况
| 任务 | 状态 | 备注 |
| ---------------------- | ------ | -------------------- |
| 数字人视频生成技术调研 | 进行中 | 可行性方案重新调研中 |
## 二、遇到的问题
新增“咨询信息库搭建、分析报告生成需求对接”窦主任很重视为本周投入时间最多的工作建议纳入P0。
## 三、详细工作内容
### -[✅] 咨询信息库搭建、分析报告生成需求对接
-[✅] 需求方案可行性方案与市场部负责同事沟通中
-[✅] PRD文档撰写中
### -[✅] 数字人视频生成技术调研
-[✅] 技术可行性方案调研中
## 下周计划
- 咨询信息库搭建、分析报告生成需求对接及PRD文档撰写
- 数字人视频生成技术调研

View File

@ -1,46 +0,0 @@
# 郝倩玉周报 - 2025年12月第1周12月2日-12月8日
## 一、P0任务完成情况
| 任务 | 状态 | 备注 |
| ------------------------------------- | ------ | ---------------------------------- |
| 会议纪要Skill全量处理优化 | 进行中 | |
| 投标商务应答自动生成系统Skill架构设计 | 进行中 | 市场部反馈未来需求可能会变,待明确 |
| Gartner报告解读转写Skill架构设计 | 已完成 | |
| 数字分身方案调研及方案撰写 | 进行中 | |
## 二、遇到的问题
解决方法:
## 三、详细工作内容
### -[✅] 会议纪要Skill架构优化
-[✅] 协助旭隆优化学习类+Q&A类会议纪要Skill逻辑。
### -[✅] 投标商务应答自动生成系统Skill架构设计
-[✅] 和开发人员讨论需求细节,深入细化开发流程
### -[✅] Gartner报告解读转写Skill架构设计
-[✅] 和开发人员讨论需求细节,深入细化开发流程
### -[✅] 数字分身方案调研及方案撰写
-[✅] 调研学习相关产品,发现目前市场上数字分身应用已经比较成熟,从投入产出比角度,我们是否需要自己开发或如何进行个性化定位,仍需研究。
## 下周计划
- 跟进市场部关于投标商务应答自动生成系统的最新需求
- 数字分身方案调研和撰写
- 系统学习AI开发相关知识

View File

@ -1,785 +0,0 @@
线下人员集体讨论: 先把上周的 p0过一遍会议纪要的 skill。上传就是一小时吗我反正上次最多传的是45分钟的一小时一小时并且我上传一小时传不上去我只有把它切成30分钟才能上传还是得在。上午不能在晚上有个全球的高峰期。你把你切好的东西发给大家。我们各自传一下看看要么是 VP要么这个账号问题都不好说你是见面的 pro 吗?我充个学生会员,你和那个 enterprise 你试过吗?购买?行,我知道了,你就把这样发给我们,或者你放到那个服务器上放个直接我们去下载下来就行,总共多少四个小时,四个五个小时就是一个 G你我们先做到时候先做一个试试吧或者是每个人做一段儿我把这个就先发了先不让你发你先记住就好它那个原视频还是最多大
线下人员集体讨论: 里面另外一个你可以做压缩的视频可以压缩的因为大量的全都是禁止的编码静止的图片。500 M 500兆一共才500兆你可以拆成三个我把他劝的好半个小时一千八一千多每个人多少30分钟你这样你找一个视频先你把它切完之后反正都是发点我建议你们找一个视频压缩一下行你找一个视频压缩一下。因为像我估计能压缩一半下去因为的编码你现在只需26.7的编码,包括分辨率都可以调的那个分辨率要求。不高的是,所以我觉得你这个可能压缩到非常小,压缩完了之后到时候看你先上传一个,如果说很好,很方便。那就你自己处理还不行,那就发给大家,你压缩之后,上传还是很慢,你就发给大家,到时候分个工往上传就完了。
线下人员集体讨论: 另外这次的叫卖其他的就是你用的讯飞或者什么其他的语音转码效果怎么样?讯飞之前。讯飞具体就你我上次试过用这个我没试过用 mac 就是上次就是腾讯的你直接用了腾讯的这次是1100节单在就带入然后之前。就上一次会议用的是什么上一次没有会没有信用的腾讯会议唯一的专业你觉得腾讯会议的转写它主要的特点是它有很多大段的文字就是它不是按人来。他不是按人人来人的人格发言来的整理过了这个是我整理做那你那么家有空吗
线下人员集体讨论: 完了,我是自动离开的会议不开的数据,因为我刚点了一下,我发现他只有主持人才能对他在路口。就是他这种全都是大段的,比较一大段,就是他对人和人交互的对话拆的没有那么细,这个是他和周转写的一个区别,就这来拆就比较细,就是一个人基本上就是一行一行的对。
线下人员集体讨论: 确实准确率来讲是真的要好一点,它有一些画面的信息。比如说之前上次有叫什么零?就是我用这四个甩进去做了个会议价,然后看了一下正的画面体确实有一定优势,比如说他这个黑他这个是画面提取出来的画面提出来,因为那个正面的文字识别也是一个错的,叫什么黑镜,它识别为黑镜,然后包括腾讯会议也都是文。
线下人员集体讨论: 这个识别是错,但是正面的画面是有打开这个界面的这个画面信息的,所以最终识别出来的是。正确的识别出来,还给和手工认证是一样的,然后剩下内容就。真不难,大面积到海边,剩下的内容说实话,差不多了,是确实是差不多。虽然它不太准,你比如说腾讯会议我记得对,就是这个 G。在那我发了当时的对话咱们是先把它列为 p1先明确把它列为 p1然后后来又跟倩玉姐说那个什么30万的事然后把它提为 p0然后他们虽然都没有识别。不都有这个文字但是后面我看了下都没有识别到的这个名字有题为 p0这么一句话但是没有这杆这个名字。可能就没识别出来对你如果没有这个 G 这个名字,他当然不知道是把什么放到 P但是我看了一下就是。只是 p1这一段腾讯会议因为它是一大段的。这是一句话一句话的确实是比较准而且它识别为是 PE然后腾讯会议这块叫 PE 也是这么点区别。
线下人员集体讨论: 后面其实就都差不多了,其实其他的都差不太多,关键点都差不太多,然后有几个问题。遇到的比较严重的问题首先上传问题就是刚刚说的,它还经常出错。甚至有时候上传,然后它在生成是一直生成到一半的时候闪退。这是平台的问题,还有清洗的问题,就是你上次说要 clean 然后放在主窗口,这个我试一下,在清理方案。我给清理也专门做了一个 skill但是它比较我发现它比较难控制清洗力度就是比较难用提示词规定它对要么太狠了要么就跟没洗一样这个是 skill 的问题。然后我就我刚刚试的那四种的对比是我直接用主窗口来读的对而且还有一个主要问题是他上下文也不太够用就是它其实挺大的他真感转写出来200 kb 200多 KB然后 token 读完整的读一遍就已经一半一半窗口没了。
线下人员集体讨论: 我就对还发现一个问题,就是我尝尝试过用萨维这次去洗,然后我创建了一个清洗的倾斜一阵的。然后我并行启动尝试写入不同的文件的时候,这个 suv 内部会提示没有写入权限,这个是比较之前没见过的一个错,就是并行调用同一个大。他是纹身过大以后了,是不是就没有办法就超出他写的权利,就写了剧团文件,那就不让写了。
线下人员集体讨论: 是另一个问题,这个确实是我在第一个尝试,也就试过了,就是主窗口只让主窗口完整写中的话,它会报就是最大输出 token 超过限制它会有一个错误对你你定义它是可以改的对它是有环境变量可以改对一个是3万 tok。一个是6万4000对6万4然后但是我用的当时的逻辑是每一个只洗一块只洗主窗口的一块当然每一个里边每个里面就读那些上下文就有周报会记然后这些上下文注给他然后他去把这一段的转写文本给他。
线下人员集体讨论: 清洗加加强我们把它设计的一个识别发言人和识别话题的一个作用,但是它就是我在并行调用的时候,它就是写写不进去。指定用一个它就可以,也感觉是个 bug 或者是怎么着,或者是我这边工具的问题可能。没太也没太定位到,反正就是萨维内部就会提示他想写文件,但是他写不了,你是在同一个里面同一个进程里面?同一个主窗口,下面你试过开另外一个窗口,还有另外一个窗口没有你看看这两个冲怎么冲?如果要冲突的话,那就是进程调用,只能调写这个文件,可能只有干净也可能是冲突,对可能是什么进程占用有写文件那个文件操作的可能就肯定是要有什么有一些锁。对他只允许你同时操作一个有可能你同时并行操作那么多文件,到时候一次性操作那么多一下影响太大,有可能或者这个是不是也是一个写变量的一个控制不知道了。
线下人员集体讨论: 然后我又试了,就是各个赛维什么只返回文字给主窗口不写了,这个也是上学的问题就是它确实太大了,那肯定太大了。所以主任说我要读一遍,还要写一遍就干掉了,删掉了。所以我就说为什么要用 jm gemini 的上,下面是巨大的。对剩下的是挺大的,所以在这个之前我认为清理什么工作都交给节目那处理小麦,你最后做会议纪要,你用 cloud 来做,你这个上海文太有限了,你用来做这种大的原材料炒锅那么大,你原材料那么多,你在锅里怎么也倒腾不过来,明白了吧,你现在得找个大锅。前面是个大国,它准确性还可以。
线下人员集体讨论: 行,我试一下,这个是另外一个,实在不行,调一下前面那个 API 处理一下,看看行,你不行就调个 java 的 API 处理一下,然后那个他那。叫什么张东达那有个这边的免费账号,他可以多少,每天用多少 token 300美金了现在 API 和网页端区别大吗?其实不大,但是我认为界面调用不会出现太太大的那种,就是不给你响应什么,那个不太可能。稳定性会高,有可能同时请求的人太多了,他后台对于这个 APP 应用是不是有一些等级限制,另外一个你是学生会员?对我看看我这个 pro 的这个会员能不能做得出来,所以你把这些东西发给我来试一下,有可能好不好,因为学生会员他有时候会降低你的处理的级别都有可能,我感觉还是有都有可能,所以从这个角度来说,我建议就是把腾讯这个弄完之后?
线下人员集体讨论: 还有一种方案就直接放在 gmail 里面做上下文处理,还有一种两个吧,是腾讯出来了,把文字转出来了?通过电波的来清洗,这是一种方式,第二个就是直接识别出文字,然后再一次见面那里做清洗。这都是可能的,确实把这条路走通之后了,到时候尽可能压缩处理的步骤就行了。你比如说现在你要先拆成八个,未来可能拆成三个到两个,那你把视频先压缩 ok但是你算过没有我们总共的五个小时下来的 token 数有多大或者字符数有多少你一直会议转写的会议转写你大概做出了多少那还你看那上面对还有你对上面有一个显示的字数显示6万。整个的整个会这么大清洗切出来了包括你清洗之前对就是之前就清理的就自己出来的对而且我在其实也要求他就是。给画面内容也重点画面明白所以6万 token 对他来说不是大问题。
线下人员集体讨论: 也就意味着什么,你就算压缩,因为它其实处理视频的内容,我认为处理视频内容最核心的是他的。代表就是你上传内容的文件大小超出它文件大小了,如果你把它压缩到它文件允许范围内。他的 token 数其实并没有超它的时长是可以处理的,所以跟时长的关系我感觉不大的,你明白吗?因为他是。进去之后它就变成 token 了!你的字符数提出来多少可能跟相关的,那就可以对。对加压缩,你试一下压缩,我觉得压缩可能中间非常干净,这音频的你也可以这样一道菜要。
线下人员集体讨论: 音频也可以降一档采样视频你就可以码率降的很低都可以我估计能缩小一半都不止你现在总共500多兆吧腾讯盈利也是压缩过的。腾讯也是压缩过的到时候看一下能压缩多少好所以 Don't measure. 上周看起来还是可用的。上周你第一次转写那个是用腾讯那个直接做的就基本上我觉得还是可用,那接下来就是优化了优化我觉得就这个方向就基本上再优化个两三次就差不多了。就把界面那这条路在走通之后,我觉得就这件事情底层的塑造就或者说技术选型就差不多结束了,下面就是上面再附加一些原则性的东西,出现什么错误了,再通过提示词来校正就行了,所以这个。我觉得后面就可以转交出去,让他们使用会议纪要的企业会议纪要去自己去修改就好了,把 CU 给他们,让他们自己改给千羽就行了。也是给咱们左右吗?给咱们左右,这回头我们用的差不多了,我们改的差不多了,再给市场部用市场部他们也需要跟我说了。他们的会议内容是真的多了,那他们可能咱们毕竟咱们这个 skill 是根据咱们来开发的,对咱们没有什么周报,还有什么,最后就帮他们自己帮他们定制化,对把他们定制一个周报格式就行了。
线下人员集体讨论: 行对,然后还有一个就是你等会从从技术上来说,这个 skill 还需要修改的地方,是不是基本上可以定型了,对没什么可以修改的 skill 我看你基本上没动,是在做底层的对接下来就是这样,就是。这个工作就是分两个,一个是成熟的产品,我还 release 了1.0版本我们可以称之为会议或者叫这个智能纪要叫智能转写或者智能纪要的1.0版本或者智能上下文1.0版本某种上这是我们工作的上下文。智能会议或者智能机1.0版本出来了。管理,现在大家听到了吗?
江争达: 喂你那刚才什么1.0管理之前听不到。就刚才那句话断了。
线下人员集体讨论: 你那好像听不到?网络确实是比较问题比较大。也是可以的,就挑着听,那就这个 skill 会议智能转写的或者叫智能上下。
线下人员集体讨论: 系统或者叫这一套软件 APP 就定了的就是 skill 的1.0版本和现在用的这个转写的这个程序或者转。写的这个方法形成一个流程,形成代码,把它固定下来。
江争达: 明白了,就是 plugin 管理等于知道了。
线下人员集体讨论: 就智能这个叫或者智能会议吧就智能会议纪要的这个1.0版本,把相关的流程需求,这些东西统统管理起来?
江争达: 好。
线下人员集体讨论: 把到目前为止,我们的技术方案,我们的需求,我们的开发过开发的什么需求,或者这开发文档这些东西管理起来,最后包括 skill 那个1.0的那个 plugin。
江争达: 那好,我会后和徐龙再沟通。
线下人员集体讨论: 都可以。把这个关起来作为一个我们就作为工具1.0发布了,然后接下来 skill 的优化使用优化就交给好了。你就把 skill 上面自己。不整就好了。第二个结合他们市场部的会议纪要,你也可以在这个基础上去用出来,那么第三个技术上的继续的这个优化底层的一个是最终继续研究那个谷歌这个另外一个就是我们再找一找有没有更好的。底层的技术解决方案这就行了,但是不作为顶了技术发展是个长期的事情。不是一个短期,我立刻就要攻克,一定要怎么怎么样,好不好,行吧,这个事情就这样,那个豆。我会把它融入到 B 的,这个是有可能对把提出来就对我是把现在现有的所有需求。给他提取就是写了一个清单,然后让他去匹配到就展示出来,前面的条目,我们要是手工维护。是这样,所以你有些错误还没调那么黑了,你看还有这个只是又跑了一把,这种你的做法就是这样,对做法是对。
线下人员集体讨论: 这可能得先看一下模板有没有对我的意思,先看一下模板这个会议信息,然后就是需求项目进展。也是仿照咱们工程类会议纪要来的客负责人本周进行承担问题,销售计划和对身体好。我问题与风险。可以我觉得没问题,那我加入重点,对提取出来之后,有好像由你来负责修改和最终的那个生成之后,基本上你看一下这个你你看一下你是不是能满足不满足,你要把模板要让他调,我感觉是基本上信息有了你再看看就是他们想要了解的信息有哪些你进来。
线下人员集体讨论: 市场没有来没进了那个这个就我找的那个在线编辑挖上周就是用那个就很快在线编辑对他有提要求,你有需要求改就行,所以我说对,那有他有那谁改的。这个记倒是记不下来可以记,但是就有点复杂,对可是就每个人打每个人的就比较快,其实你会议纪要其实也可以这样。你每次生成会议纪要之后,上完了之后谁愿意改让他改对我就是这样,上周那个就那个。
线下人员集体讨论: 行 OK 能会叫就这样,然后是不到仪表盘下一个。这些肯定下去年中间,我对一下就发在这里。我先引了。都是我的感觉就是因为它的上下文可能比较多,然后它。提的问题并不是严格按照自己的该有的专业角度来对,是我的一个直观感觉。我觉得这个是比较案例吧,这个倒还行,你每次专家重新提意见的时候,都是起了一个还是所有专家在一个 sap 里面。对。看一下刘金国。
线下人员集体讨论: 对大电脑还是没好,那在一个里面在里面,每不也不是一个就是每一个阶段起一个就是评价阶段,我新起一个。然后这个专家会读自己之前的评审的自己之前的评审就是去,我就问你,比如说领域专家评你是专门起了个三倍镜的还是说。评价阶段是?也就是主窗口,比如说我的是我要有四个专家共同评价,还是说 was 这个时候我的领域专家就是一个撒贝然后那边又写一个310的就是其次的其四个各自平其他的。每一个专家都起一个那你就等于我知道了你这个评价阶段还是主上下文窗口不是的就评价这边也是三倍镜的然后在上面又起了三倍的。媒体设备就是用 prompt 来做的对。
线下人员集体讨论: 你这个领域专家没有单独定一个大背景的有,那你调用三背景是叫三辈子。你评审阶段是也是啥背景的,就是从头捋一遍,从头捋吧。你阶段六对阶段六独立评审吧。独立评审你是每一个企业,那我问你,你阶段六是一个主上主的背景的窗口是吗?也是紫的,对,这只是主窗口起的紫的窗口,只在上面的就是上面,那你相当于你。不是这个意思,没有白板,你比如说现在进行到阶段六了,你是在主上下文窗口里面进行接待。还是我单独起一个窗口,主窗口,因为这个完全不一样的,你可以把阶段定义成也是可能的,可能因为你代表是这么一个,那我觉得你没有单独起,没有。
线下人员集体讨论: 每个专家是一个三维一个专家,这设计是对的是合理,那我知道了,然后就可能是这个评价阶段,说他又起了一个这个技能跟上面的领域专家不是一个技能?是一套提示词,同一套提示词,同一套提示词。那就是会有问题。
线下人员集体讨论: 你再评价的时候,你用这个提示词,尤其到博弈阶段,我给他设计了不同模式,我不知道。
线下人员集体讨论: 比如说这个 AI 专家我给他设计三个模式然后模式我会在主窗口进行到哪个阶段的时候给它传一个字段然后去他去匹配自己的模式是在哪个模式里面不要来做我说的上下文多可能是我在评价阶段一个专家会对另外三个专家的。评选一件东西然后我在想是不是这个上下文可能影响它比较多这个是一方面我觉得更重要的可能是对你想你你想到的工作原理吧。他不能上来之后它是先全量加载的我知道他把里面所有全量加载了你的提示词都会在里面他可能会去寻找模式。比如说第二阶段的时候再找到第二阶段也有可能没找到加载对其他也加载进来了这个是它的统一输入你没有说。单独输入这么一段给他对没有你试试看如果你把单独输给他我觉得肯定是不一样的。可能是会不一样但是这个时候但是他你你得看他输出就是你模模模式一模式23的要求还有沟通我就看看。
线下人员集体讨论: 我是一不缺是否不是否适合能那智能化能力要求质量标准复杂度这是你给的,我给的。到时候再商量这些东西,为什么要给这个问题,第二阶段回应有冲突或不合理的吗?你还能需要不你看?你看你这里面给的就是你你是这样的吧,你你的那个专业背景这一块,当你你在那个提取字段的时候,你要求他怎么来?你只提取模式二的字段加不加写问题加你,你确定是加上了吗?加肯定加上了,我不知道它读读怎么样。那我不知道他现在权重有多少,对,不光是权重问题,你想你现在要的是只加载模块二和上面那一段不加载模块一和模块三?对我是这么规定的工作模式。在背景下面?
线下人员集体讨论: 我也想分开但是分开了真的太多了。33次12个要写12个词 a。有点感觉也可以先看一下最终结果。有提升肯定是有提升但是。
线下人员集体讨论: 用的是苹果的,我感觉是没有直接就是咱们的第一版的区别多,我是这么觉得对第一版调整挺大的,所以第一版调整很大。都对基本没变,前面基本没变,这是不对,你肯定弄错了,不会这样的。对是这样,不可能你连连顺序都不调,确实是这样,你每个字都是一样的,这肯定是我个人认为你文件有错,有一个增加了一点,后面不一样比较多,很多不一样比较。
线下人员集体讨论: 实力会不会算话?它更多的是增加,而不是修改你,它基本不修改,它只增加对他,我包括之前那个。
线下人员集体讨论: 他最终多半都是接受每个专家多半都是接受,看完成采纳基本上都是采纳,要不就不分采纳。所以就相当于就没怎么动。所以就加了一些不多加的去的不多,这个也是假的就不一样了,对可能加个半句话一句话这样。
线下人员集体讨论: 用户也挺模糊的,但是也有了你有的是就是加的没有那么细,没有之前的这个小,但是他问题在于说他所有的都接纳了,就被接纳,只有两条,基本上都接纳了,对是这样。给他家里的授权方式。接着来做,有的是星期天,对不多,因为我没有那么多。属于格式。
线下人员集体讨论: 对这样的话,也就基本上我译出来的东西很少,对他们立场还是没有那么坚定。
线下人员集体讨论: 你可以做销售时间,把回应那条去掉一些,然后跟他确认,可能你你看他们那个回应的过程。炸很多,就是可视化,我把每个专家都可视化对,比如说这个 AI 专家原本的初始建议。增加研究开发专家评价的是不需要,现在人家就接受了。最后就没有了,这机会就是这样,基本上都是这样,那跟你的回应的精子甚至有关系。对你,你可能得仔细的去调了包括。了解他可能不是有的,那个问题,专业的背景没有那么坚定,赌的可能比较多。
线下人员集体讨论: 这就接受了,记住。
线下人员集体讨论: 我当时他这个审评意见大家看看怎么调,我倒觉得审评意见这个其实挺重要的,这个意见您说初始的还是就这个?不就是这些评审给出来的回应就是首先他给的要求给的意见的这些回应,其实可以看一看。你要想修还好 prompt 其实关键就是看到了回应这个指标是对。我建议你不行的话,因为这个也不会太多,你你建议你调一下 java 或者是做。就把专家可以用不同的模型来定,这样 deep seek 也可以写你,你用一个 deep seek 定义的,我觉得 deep seek 有时候给出来的建议还挺有价值,虽然他有点幻觉高。你你把这 picture 对,因为我觉得同质化的思考有问题,同一个模型,他同志的话思考确实会有问题。你看看哪一个评审环节用?那就这样用 deep seek 评价一个 cloud然后最后回应的用 deep seek 或者然后生成又到回应在那个分析用 deep然后回应再用 cloud。两个来个教练看一下。
线下人员集体讨论: 行,那我实现是 J API。Api. 好你 cloud 现在这个是可以不用 J API 的,这个是不用你那个 AI 专家你比如说你专家。DC KPI 还是很好接的,可能得写脚本,对就写个脚本吧,行,这个我 cloud 给你写就完了是可以的。可以。把等于在设备调脚本来评估因为我感觉他上下文并不大不小你需求文档有多少就是我让他读了很多不光读的需求很大就每个专家在评其他专家的时候要把其他专家所有初始评审也都读一遍。jason 也挺也不小的。主要是对我每个专家要。需求很大。你可以看看适当可以减少,是不是一定要给这么多的上下?
线下人员集体讨论: 行好,我觉得重点是验证不同的模型,给大家这个建议。这块,我觉得做完这个探索就差不多了,啥意思,因为你看能够改进的也并不是非常大,能够改进也并不是大,但是这里面我们看一下。把你里面的 prompt 就是这些回应你,你直接回应你把我建议你把这些回应和你文档让。谷歌的 deep thinking 也好,或者接 GPT 那个 thinking 也好,你扔给他们看看这些回应合不合理,让他们来帮你做一次评判 ok 好不好好的对,所以就这个很重要,这个可视化的过程你可以给他之后你让他去读一下这个合不合理?但是如果建议你不要这么多,我越多,他其实后面回应越差,你可以给几个问题的回应就行了,你测试一下他婚姻的质量好?不好可以对我觉得这可能给从我的理解,可能需要有一些算法的介入。
线下人员集体讨论: 高考语言描述可能有问题,感觉需要算法思想的指导,有可能对这种博弈需要用什么样的算法思想来指导这个 prompt 或者这个博弈的方向不是。主要是大白人之间的通话也比较难实现,所以就只能用这种方式,你现在都是用 json 直接穿的就只能用 jason所以比如我之前猜测可能 jason 给的太多了。或者你看看文件,不行就用文件就是文件,这次文件对这一路都是来的,都是这次文件都是这么传的。全煮面,不然你全部吐到主上下门窗口里也不行,对那就只能是这个体系一下这个目前没想到更好的方式。
线下人员集体讨论: 对用读本机文件的读法好卖笛子笛子的。刚过74川东西一大可能是这样的让他转到自己。弄个变量全一下你可以这么做拼接的脚本拼接。另外一个就是你通过一个变量定义把这个 read 出来的东西读到保存到里面来。也行,你这样的好看多了,你不然的话你重复看的**你那 pro 怎么写的太长了,它也不好看,你定一个变量用 read 把这个电量传进去。可以的,把这个变量传 prompt 传到那里面,然后你 prompt 等于这个变量就好。可以的,不然你在一场上写我天你的文件看不过来了都那就回到一个班了。
线下人员集体讨论: 那就您这样,那接下来我们可能要开始拿这个做一些什么了,做一些真正的需求的使用。你现在经过一阶段两阶段之后,你增加的时间长度你算过。大概就原来是一阶段结束了,现在增加了二阶段,三阶段时间长度增加的多,你基本是入过视频。
线下人员集体讨论: 分了多少另外一个就是后面我就记得有一段时间有一个选择不是人交互还是机器之间直接选机器。现在就是直接选机器5656分钟也没有后面好像是我看了一段文档。到这儿就行程50分钟差不多自动化的过程对你前面交互到多长时间交互要多长时间收货这就没了。就是25分钟交互后面就是全自动化那就25分钟交互20分钟自动化我建议先把自动化的 skill 部分,因为现在还没有起到很大作用,先把去掉。
线下人员集体讨论: 做1.0版本就不做那个评估,不做专家博弈的不做博弈对,但是要做评价,对做评价就是之前咱们就按医院演示的那个版本。行 OK 评价之后,人是否接受,还是他要自动接受了。再说这个选项还是留着对行。然后剩下的优化部分我们再想办法再重新修改行,那我把这个 skill 先存到另一个项目,对你这个 skill 保留这个 skill 是作为优化的这个 skill 的基础。然后实用的 skill 就直接放成那就完了那没有博弈的这样的话时间能够缩到很多的是很多半小时半个小时那这样的话我们就可以快速。不能100100的这个需求然后在这个基础上人再稍微调整因为现在专家博弈的效果明显没有人的好所以我们在这个之前那就不如让人上的时间不会太长。人一般就这个选择顶多还不放心这是给谁用这个你看。
线下人员集体讨论: 接下来的用,所以接下来就有一个大问题就出现了,就我那天给你看的就是把它封装成为 APP 的明白吧!就得研究一下,我们把这个需求 skill 怎么封装成一个 APP然后慢慢慢往上加。
线下人员集体讨论: 我们这个优化工作可以慢慢的就现在接下来就是很多开始实现和优化两个要并行了一部分人做实现一部分人做优化,所以那现在就是优化这个工长期工作了。这个实现 APP 使用我们要开始把它赶快推动起来,现在等于验证到这种使用了,就得这样,袁姐那边说那个市场过量需求就是尤其是刚的报告和那个招标好像都是年底。对我倒觉得就这个月底对那个倒是好办在哪的那个不需要封装的 APP 给他,只要结果那个不用封装或者不着急封装,未来都要封装,是不用着急封装,但是你需求的东西。你是一定要在 cloud 上用的因为他不是要那个结果就完了的他要自己交付的对这个交互过程你不能给他一个命令行界面的。看一下什么字段了什么结构所以我说这个需求的过程我们需要把它包装起来对包装起来封装一下封装成可调用的东西然后这个。cloud code 是在本地运行还是在云端我们都在想了在本地都没这个条件的是大部分可能我们弄不好要在云端运行。cloud 是应该的吧,所以这个框架上我们待会儿要商量一下。
线下人员集体讨论: 行 OK。那我就先直接用这就把这个需求的东西封装成一个 Ok. 因为要谁来用,你看市场部要用那个谁,你看他要用,然后用安定医院也要用。行安宁医院也要没有行,还有最开始有一个。多项目匹配的过程,然后就咱们测试基本上都是选择 a 键的开发,然后咱们就刚刚给他们用的那个版本,那可能不完全,你比如说他要做研究,你要做研究的话,更多的是帮他做一个研究的需求分析出来,他都不是做 agent 的了,他是个研究选题。一直说我要做论文,我怎么来做,最后得出来的就是给他一个结果,那你怎么来做?行,那我可能还是再测试一下,对所以就是以 pod skill 你封装出来之后,你反正就 skill 能改出好多版本,所以这个就是一个需求配置。就我们封装成一个一个的 agent 给他们用,那将来就是这一个窗口里面有好几个 A。专门给他们每个人的入口。
线下人员集体讨论: Ok. 那个肥皂。是我的这两个对那对比较我这个比较兴奋的苹果。你要投标吗?我是 skill 的开发对的,你先把你能讲一遍。他对他整个流程就是先收集,这是郝监狱给你的需求不错不这个就是我自己设计的,你现在这个是你是 skill 的,这个生成的,对 skill 开发的,我知道了 skill。对行知道了首先是收集需求你看比如说我们把刚才那个封装成了他只要把这个需求给我提出来然后我直接在那里就可以干了所以其实用户只要面对的就是一个需求就是这样。
线下人员集体讨论: 然后首先是收集需求输入需求可以是你对话可以是一段文字也可以是一个文档然后也可以是一然后也可以如果有一些示例文件的话也可以给他。ok 就是一些示例输入数据输出示例的中间结果都可以检查,然后它会进行一个短期的确认,然后第三阶段就是核心,你这个问题,就你看现在。主要的 code 是自己可以识别那个图片的对你现在这个也是一样的了,你给他文档里面,你这个需求输入。是在什么界面下,在 cloud code 这个界面下,你可以给他文档给他图片,那需要一次性输入吗?一次性输入是,比如说我只能在一个回车之前把所有都给你。就像我们那个对话框一样,我用上传文件,我要上传 prompt 我要上传图片,假设都有的话,那这种情况下,我是一次性都要给你们输入界面这个地方现在。
线下人员集体讨论: 可以有两种用法,就是在调这个 skill 之前,这个窗口里是可以,当然随便对话的。对这个窗口它对话过程中的上下文我测了就是先对话一段,然后。上下上面对话的信息,这个是一个,但是它 skill 吊起来之后我现在测试都是把他我能给他的就都给他就包括文件路径我写文档然后数据输入这个。然后有一些什么需要注意的点我就跟他说了然后对我现在用是怎么用的OK。就是在没有调 skill 之前,对就没有发出命令之前,对你对,然后确认了一个版本,就是确认一个大米的实验思路之后再调那样效率会高很多。再看。然后就是需求分析确认这个,这是自动完成这个自动完成,就是他会简单确认一下你的需求是这些,然后有企业化成新,然后第三阶段是核心的。
线下人员集体讨论: 是涌出了我调试了这么久的经验,比如说我先给他有一个详细。就这里就是计算三的,首先它会去进行一个范围和依赖的分析,因为有些需求就很超明显超出所有范围的,比如说他想要一个 web 前端,那现在就接受不了。然后我现在就是先判断是否高考是否有原生支持,然后是否有 MCP 或者46然后是否可以通过脚本实现然后是否有一些外部的服务或者 API 比如说那个 OCR。然后这些就都会这些都是他内部执行的内部判断然后这些我都是基本上提词给他规定的一些然后它就会输出一个范围语音接待数据。
线下人员集体讨论: 然后第二阶段就是当然也会不确定,比如说这个地方既可以用脚本,也可以用 web 服务,提前的就是这个时候,然后第二个是 sub agent 的设计决策。因为有些需求文档过来,等会这里面有一个非常有意思的,现在有的很多时候就 a 的非常智能的情况下。有的时候会发现一个就是你不用提示他 skill 就是它,比如说有脚本,他自己编的脚本帮你实现,有的对,但是这就是重复编码,今天需求来了,明天来宝宝,但是这里面就带来哪些脚本。是要固化的,哪些脚本是让它自然生成的,这也是个问题,是个说我每只要用脚本的我都固化。是不是一定能过可重复性高的固化一般,但是 skill 我理解 skill 里可能。应该要固化的比较多,因为 skill 毕竟它就是一个固化的流程,对的设计就是为了固化这个对,那就说我就不让 a 级的自己。创作了对我就把这个脚本,我需要用到脚本地方,我全部把它激发了对写好调整好。我现在是怎么设计的?等等等再说,反正有这么一个点,就是给不给定能保留他自由去创作脚本的空间。
线下人员集体讨论: 第二阶段是 suv 的设计决策,然后我写了一段比较长的比较清晰的提示词就是让他去权衡它的设计的收益和成本就是它的收益就是它一个是它有独立的上涨空间。就比如说咱们专家评审专家背景就是需要一个独立的商业空间的,所以它是也比较好用三贝论坛,然后。它还可以并行执行,就比如说有什么搜索任务就会用三倍可以并发执行,这个也是一个收益。我跟你说现在像这种情况。我一直说就是你到底枚举它能判断多少,还是让他先判断修正,比如说你能判断出多少,这个收益是一个极其模糊的概念。你现在就是像这种情况下。你比如说的设计决策就是个 agent。也行对不是也行就是说这里面太模糊了你没法用那么多的显性规则把它描述出来的非常难的对我现在没有用太多就是用这种比较模糊的。看下来结果还可以吃下来就还可以然后成本就是上下文传递天下然后第二个杂度也会加一点然后他就会自己是我给他决策数收益大于成本就。这个他自己判断收益大于成本这个他自己判断 ok 这个内部执行 ok然后是否有任务有没有创新依赖如果有的话就并发对如果有就不并发。没有你这里是 total 的 skill 就要。
线下人员集体讨论: 对你这个 skill 里面一定要就是一定要有个设备的设计环节,我现在还没设计,因为是。这个环节你是一定要有的,你就一定要判断我要不要三倍基金,对一定是一定会去判断,所以就是逻辑一定是 skill 掉300的逻辑的现在是这样的。
线下人员集体讨论: 现在也凉了,这只能是比较符合咱们之前的测试的行大概理解没关系,你先照大家往前走,我们看看效果,那我们。然后这个是目录结构,这个会问一下用户是他项目的还是在学习目录,这个也是之前的就是你说绝对路径是项项目就是用绝对路径的方式去调那个 task然后目录矩阵我都给他你指的这个项目目录。是生成的 skill 放在空下的对和分的对。供你以后来生成文件的时候来参考的,来使用的你你生成了各种文件,你要放在这个相应的目录下来。然后还有目录判断的矩阵就是不需要的职能职报告东西都告诉他了,然后就是执行流程,我让他就是把每个阶段的。
线下人员集体讨论: A skill. 每个阶段执行的,你指的单一职责指的是什么的,单一职责就是每一个阶段的职责是单一就是他划分阶段的时候,因为这是一个比较大的任务,肯定要划分阶段。然后这个也要设计,然后也建议是披露设计也是要的,我最终让他说是这个流程图我。你你这个模块为什么放在这里,而不是放在前面?因为我觉得那我切的时候我要我先按照他的智能化的判断,让我看看。对在这,你等于范围和依赖分析之后立刻进入设计决策要不要了。
线下人员集体讨论: 这个流程你这是模块流程是模块,它是流程,其实也是流程,其实是对我写到一个 reference 里面,我写到这个是哪里?按顺序写下来,按顺序写的。你不写的,他不一定要是去执行,因为 reference 对可能这都参考,这是从我的理解是先设计这个流程。因为你的流程判断完了才能给充足的山药判断是不是需要有可能,因为你这里面的阶段划分理论单一职责,你的职责决定了,是不是?某种上是不是执行的,有可能。不是我理解,因为你上来判断三倍镜,你前面目录结构也不清楚,流程也不清楚,你让他上来就判断,我觉得确保上下文。我感觉他三位确实上了,有可能我当时这块儿也看着不顺眼,但是效果还行,我也没管你那边就没设计出的?你的这个 skill 里面有很多行,到时候回头再说,反正我这是我的一个建议,我感觉流程上可能在这个有冲突。
线下人员集体讨论: 好意思然后设计1个校验机制。ok 这个校验机制是针对一些任务,比如说 agent 一次完成的。一次可能完成会有纰漏的,然后我设计了一个校验,我会自动校验,它就是执行任务校验指的是你去测试一下这个 C。不是比如说刚刚的报告转写涉及到一个通篇中我设计有一个通篇翻译的过程它可能就由于长上下文比较长可能有一些就没翻译到漏掉了。然后这个问题怎么判断就执行完之后就起一个校正位置。那你什你的说它自动去判断什么时候起什么时候不起了对。对那你的原则是什么这是我给了他一些就比如说需要复杂与理解然后长上下问题然后返工成本就是影响比较大的。给他一些原则性指导行我知道了。然后就设计对如果满足这些就会自动设计这么一个流程自动执行这个流程自动设计就在流程里面加一个交易环节。我也给他一个是小于三有限循环的那我问你你为什么会每次都做教研为什么要做一个判断什么意思就是你这是对于不同任务判断之后决定要不要有个校验流程对我为什么要增加这个判断我为什么不所有的流程都做一次校验
线下人员集体讨论: 所有的结果我都做一次校验 skill 所有的结果你是指在最终输出的,对,因为你校验流程。不是你看这 skill 执行到了最后一步的时候,你现在说有的我很确定他没问题,有的我不能确定没问题,所以不能确定的,你给我加个校验?是这个理解!或者做返工的,反正各种原则,对那这个时候你你重启这些才能出现的场需要校验的场景吗?那我现在不穷举了我就知道你。
线下人员集体讨论: 勾调研会带来成本增加,都叫你是指每个中间环节不是每个中间环节就是最后结果,但是他一产生结果,我就发现你确实没完成我初级的目标的我就。为什么你确定有些就一定能完成我的考量是只在最终可能不够,就是比如说刚才那个例子,你指的是在。
线下人员集体讨论: 每一个阶段的对出现了这样要求的阶段,对都做一个校验,对是这样的是,就比如说那个中式翻译的时候,我。不可能就等他说完了,我写完了,这个是紧跟着每个阶段,对紧跟着每个阶段,你都要去做这样的一个判断,完了之后再加不加校验是的。
线下人员集体讨论: 对有的时候其实我校验出来就是我明确知道这个地方肯定会肯定要校验,然后我就跟他说这个地方要加加一个校验,然后他就会自动把这个轮次小于三的逻辑。给他加上这个轮次是指哪个轮次的,这是校对校验的他不光是校验校正,就是发现错,他决定在内部就改了。然后那你对于长沙厦门自动校验三次。就是他每次校正一次之后会输出他是对,然后再校验那样有没有校验,如果校验没通过的话就再调一次,如果通过了对通过就不用。不过也。这个有限循环,我知道了,就是你,你觉得比如说翻译一遍没好,然后我再来一遍。如果翻译好了就过了。对,那怎么叫通过公路这个就准则就把上一个阶段应该要有效果给他写写上。就比如说翻译全文完全重视翻译,那你这些东西去写死在里面,急死了,这个你要写死的教研。那就意味着每一个流程对应的校验机制都是不一样的,对的知道了。
线下人员集体讨论: 然后最后是比较是主要调试的时候比较头疼的就是编辑小米的传递,然后我把它每一个就是都把它说出来,就都把它写好在里面。就比如说这个路径传递,比如说主窗口要调调,然后有各种情况吧,用 prompt 的还有用用那个数据。看这个可能比比比较抽象,可以直接看一个结果。就是生活动作,不是那种什么,最终的我会给他一个边界消息传递的。
线下人员集体讨论: 设计就是主窗口,比如说主窗口到,就是我会告诉他依赖,一旦九点地去引导。主窗口给下辈子要在一个 prompt 对要在 SKILL MD 的 prompt 里面写明,然后比如说撒贝宁返回主窗口的。这个就是在 saas 的定义里面写明的对,然后到的就是也是在上面说的对依赖的去里面固化,然后我也设计了一个主窗口。
线下人员集体讨论: 要传递它的路径输出路径,我理解,这是一个双保险,比如说我们一个执行的固化它的输出文件。写在这里,然后我还要让他把这个输出的文件路径返回给主窗口,然后主窗口要返回给下一个 agent但是下一个 a 里面也是应该写好。对,但是我主要我还是要来看,我明白了,对就是一个双保险的机制,增加一些乳房,这个能理解,但是就是他写到那个文件里头之后。其实是可以直接去读的了,对是可以,但是你主持了对万一他写错了或者怎么怎么着的,那主窗口就通过 prompt 给他了,对主窗口通过 prompt 就传一条文件路径吧,这个是我测下来的。
线下人员集体讨论: skill 他让他自己写的话是他比较容易出错的几个点就比较设计,写起来比较暗的几个点。然后我就给它固化下来,你现在返回的上下文。在主窗口里他怎么去处理你比如说返回了一端一堆,我如果不用 js 数组保存的,不用 js 保存,我就返回一个监测数据,这个监测数据是包含在上下文里的,那这个时候我怎么把这个监测数组能够?通过主上下文直接传给三下一个三倍可以你就,所以你去规定还可以,你就读吗?不是你怎么用,你用变量的形式传?用语言描述,还是用在我的设计里面,我是不建议这样做的,在这个 skill 设计里面你都是文件的吧?
线下人员集体讨论: 对我就是下辈子给三辈子就只要目的就是为了让下一个三辈子读到的话那现在的具体内容我最后在主窗这很简单这里面这是你现在六块如果我主窗口需要上下来我用来做处理的话文字。直接返回每次可以的。他是在山城宠物那就定义它被一个输出对还是默认的你想要去上面的输出什么输出这个提示词是要固定在内部的。你比如说我想要正在返回一个建设数组对或者我想要什么是返回的文字对它其实可以在提示词里面固定好对甚至格式化要求好对。然后它就会按格式输出到出窗口主窗口对是显示输出运行的时候cgl 能打开看,看到它有一个 response。传递是 prompt然后他返回就是 response 可以看到。
线下人员集体讨论: 这个是核心的阶段三然后后面就是生成,然后就填写,按照我给他的模板去填写,然后生成流程图。这个模板是经过上面各个阶段生成的,不这个模板是我写好了,我写给他的一个就是什么类型的。
线下人员集体讨论: 三 D 我指的就是你是规定的,这是 skill 的设计的,他们的对 skill ed skill ed。就是我生成这个 skill 的设计开发文档的,他们用你最容易输出的,等会儿看一眼,到时候你打开我看一眼,你是看模板对 design 的模板。要不你先给我灌水?
线下人员集体讨论: 是我设定?
线下人员集体讨论: 路径配置这个就是也让自己写的也比较容易出错,有时候真的会送 skill 写在哪,然后配合。对应的写在哪,我就一定要提前把它写好,这样就调试一下什么更方便和青工头发场地,然后输入输出。
线下人员集体讨论: 依赖与范围说明这些基本上都是配合我那个流程写的,那你出来的跟那个标准 skill 不是同一个模板,你这个模板不是这样的。
线下人员集体讨论: 这个是开发模板,这是开发模板就是开发模板,对我是想让 cloud 从这个进行开发的。ok 好知道了,然后这个是上一代,就是刚刚说的那些对。目录设计这个的,那你前面几个环节输出的最终的东西是什么?前面几个,现在我还没有做这个 skill 的优化因为我测下来效果其实还喜欢你不回答你一下。他就是返回我知道返回你看这是文字对你这前面里面123都出来了出来之后文字。你这个都是最后都保存在主主窗口就所有输出都在主窗口甚至他都没有我因我现在还没来就是我没有下北。这些全都是直接给他对我就说就是111层一层再到主窗口的这个都接到最后你这样也就是主窗口输出的文字对文字最后你通过这个来对。
线下人员集体讨论: 这个上下文能扛得住吗?冷还不多,上海还不堵,那如果你要是给他一些,比如说。开发文档,比如说是比较多的情况下,那确实就可以考虑一下后期怎么优化。你这个 skill 相当于就是一个就主要是 reference 明白了对现在设计比较简单,那你你得写老长了。
线下人员集体讨论: 还好 skill 点其实还好这个倒是6.1这个倒还好。一个点击1700多次不是以前做死不可能吧1700多那真是不多确实不多有点力不多然后还有一个 reference 就一个人。没有问题,这个 reference 也还好其实不多7000所以你看有的时候他们的自然语言有时候嗦有时候挺紧的简单对它其实比你代码执行起来你这个流程其实你写那么多流程你看就是自然语言那么几段话对。
线下人员集体讨论: 行回头再看,知道了,往往下走吧,你回到开门。那他们这一次刚刚说到,没事就回到有时候图的,然后回头咱们再说行。对输出这个是输出,用完第一版之后,我给他设置了一个校验,就是我校验这个 skill 对我再读一下这个它生成的开放文档是不是符合我的 template 对。然后你符合哪个符合你的分配,哪个符合你的符合我的 G 对他的,他不会对遵循还是挺好的,主要是去读这个 G 的,比如说他每个边界传递的对不对?然后还有对各个各就各个的东西,就我测下来的各个东西有错的,因为我测试直接拿那个。你为什么要在这里写形成这么大?这个是我输出的,你输出的这个是什么模板,就是刚刚那个东西就是输出的结果,他叫什么区别?哪个 skill design skill 因为 skill 点 D 是在这里面的。我在他里面特地直接让他写的最终是有六点 B 的完整内容,我让它写在里面。因为我希望直接看到,因为我觉得 skill md skill design md 我看看就点点赞点点。
线下人员集体讨论: 这个就是 skill 第三点我觉得你想说的是想做的是一个设计的文档开发文档,对开放的 ok 明白了,对我觉得那不对,再回来回到你。知道我的流程图对你这个地方不在这个时候生成在校验的时候你就业不好了,你再回来,它流程图画的可能不太好,它要作为它的输入。那他哪来的,他们这个阶段是对所以有是对,所以这就他好多就不知道从哪来的是。我以为是从这生成的,因为按照这个逻辑就是你从后阶段生成的,我说你这样觉得不好了,你重新写个就是修改原生的人生都不是原生,就是这个所有的可能对是从整体上对整体。但是这样模面流程图。这三个都是其他的一部分都是他的一部分。那是这样包起来,对这样的框起来是,然后叫 skill design md 对生成这么一个东西,能做到对。
线下人员集体讨论: 然后校验我是单独设计了一个推荐的,因为它还有一个好处就是如果我在生成这个之后,我要改它的话,我改完之后可以直接用自然语言再去调它。干掉他校验我改后的合不合理,优不优雅,这就是循环了,这个地方箭头已经说的很清楚了。你出来之后你校验不成功,你符合来改的是改了之后你再去生成新的 MD 所以你看这还有循环没有?或者说就是一个大号就有对那这种情况下,你重新校验 SQMD 之后,觉得好就通过了,对,如果这样不好再改,再没有。就是和我刚刚说的是两回事,就是您说的,他这个没有,他只有一次校验一次校验一次校验一次校验通过就通过了,这个我发现他改的不多,如果没通过。如果没通过就一直改,一直改改完了之后再去检查,再不是一次的,你这不是一次,就是我交的,这个是一次。他内部可能改了很多次,就是他这个三校验是我只掉了他一次。我只调了他一次去修改 skill skill design 他基本上改的不多,你有问题。
线下人员集体讨论: 校验是在这里面的?对你,你不是在差不多的外面的是你不是稍微执行完之后让主主窗口来判断的不是。所以我跟你说以后很绕的,这里面以后都得这个逻辑,这个是生成比较很难理解的就是人工智能很难把主页的上下文搞得那么清楚,确实是因为你所有在 task 外面的情况,它都是主上下文。按照设计原则是这么理解的,你包括阶段四你都在主上海问题,因为你没有单独的 touch 对,也是这样对。
线下人员集体讨论: 知道,然后校验就通过之后就输出,然后用户交互循环是什么,就用户来告诉你怎么改对!你用户告诉你怎么改,那你这个地方怎么去教练,你还没有修改的动作,你用户比如说你要求他改。是到这来,就是可以这么画吧,他的意思就是用户交互循环修改点 D然后修改之后就再去校验了再去调用对所以你去调用上来调用 validator。你还没修改你怎么是我修改了修改完是到这里修改也跟他一样一个是你这个是自动的 value data 对这个是用户的手动的 value data 对这个 value data 过来同样的修改。继续进行对是理解,是意思理解没错。可以这么以后可以这样就是你出一个。出版的大的逻辑框架出来,这样的话,先把大逻辑做对你懂吗?
线下人员集体讨论: 你先把大逻辑做你设计的时候,你可以先做一个大逻辑出来,因为你适应的时候不是说我都生成以后倒回来生成,有时候你自己会乱。你先生成一个大逻辑框架图,你是说调用这个 skill 之前对这个设计这个 skill 之前你这不是 skill 整个的设计吗?对,就整个的设计,对你现在一个一个模块,在那看,对你可以先弄一个大的框架。大国框架出来之后,你就在里面,就是关键叫做就是大的框架结构出来,这时候你去看这些流程是并排的并一点的还是串联的。你把大的模块的架构先理解清楚。你知道吧,不然的话你你你这个逻辑联系就是容易乱。因为你这个细节的东西多了之后,你组线条就被掩盖掉了,那个主线条有时候会画错的是这个,我只要它一次性生成,对,这就是容易这样。也可以先画一个主线,一层一层往下好的,***。
线下人员集体讨论: 那你自己开发的过程当中你自己实际的过程是怎么样的去跟他交互不断的交互你跟考的不断的交互不断交通。是我给他最开始的。然后给到错的给到第一个命。我给大家第一名。然后我第一命运先是给他111群问号然后之后就跟他交互确认这些问号我看他哪里就是和我不一样的然后我就纠正他。所以这是一个不断交互出来的这过程对就是这个文字逻辑是好的。
线下人员集体讨论: 对大概理解好,然后就是报告转写的对,那就可以直接看。是往上走第一步,所有版本路径配置是用的概述定位,我觉得是不是应该把这两个放到下面看我的模板?你要把这个 skill 的定位跟那不对它有个你上来这是设计文档我们开发设计的好。ok 我懂了这个很大的路径。ok 给这些参数带进来,目标是核心的功能是这个三阶段转写是这个报告整合来源。马克版 word 输出保护,触发转写到风格缓解,然后输入是这个。这个跟袁姐他们确认过了 ok 好像 the skill 覆盖范围是 OCR 转换。这样吧。你 PDF 全部做成图片了?我 PDF 先进一个 OC 突出马,那就是默认是什么了图片?你是用的代码的那个调用代码写了个代码,对那基本上就是按照你的 money monkey ocr 是一样的,差不多 ok 是有 API 发现就是有用的,不是 monkey 是那个 P 的 OCR百度那个也还行好像现在效果也还好。
线下人员集体讨论: 挺好,对,所以你看到进展很快的,我跟你说就这种东西就是你工具得我跟你说,你隔俩礼拜就扫描一圈,就你用到的所有工具。我们以后两个礼拜都要去扫描一圈,在人工智能赋能一下,每两个礼拜可能都有新的东西出现,是的,他妈的真是吓人,马克拉和平修改。那你处理之后你不校验一下吗?你是说 OCR 就这就是 OCR 输出的 lockdown 后处理之后清。你说你和原来的 PDF 里面做个对比!不然你怎么保证它后 CR 识别的正确率等等这些?这个倒是真没有,我建议 OCR 准确率肯定没问题。OCR 准确率没问题,我不知道包括图片版没问题,到时候试一下,如果不需要就算了,我现在感觉这个地方。是有瑕疵的,我看着效果还是都 OCR 是比较稳定的。往上都没看完。
线下人员集体讨论: 对高端多报告有一整出,我们现在有这个要求吗?这个要求多个报告,对也希望多个干部的报告进行出发,一个整的。当然,他说是看客户需求,如果人家发明的插入位置标准对,然后直接表格进行提取。超出本范围就是他判断的,所以这里边你看这个地方,完全可以用 cloud code 的自己带的 PDF 那个 skill。所以你里面可以这样你增加一个判断一些常用的 skill 的库我。有吗?我流程里写了就是我会你好。
江争达: 效果我。就 PDF 的 skill 我看了一下,效果好像没有 OCR 直接提的效果好。我大概做了一次对比。
线下人员集体讨论: 第一,你的网络很不好,你现在说话有时候就是忽快忽慢的,这也不知道是我们的问题还是回头要解决一下。这是一个第二个。
江争达: 西平你听得清楚吗?我这边说话。
线下人员集体讨论: 没声了,不管他,这是一个第二个就是你们做的 OCR。
线下人员集体讨论: 是对 PDF 的转写知道吗cloud code 看到没有表格的今天提取 PDF 能做到?
线下人员集体讨论: 所以我认为你们还没研究透你去看看他那个 PDF 的 skill 里面有哪些功能,那个功能挺多的,它是可以直接把 PDF 里面表格打开直接填的,你说他能不能提取吧,我问你。
江争达: 好,那我把这块再研究一下。
线下人员集体讨论: 对你们没有研究透它的 PDF它不是用来就是 pdf skill 不是用来 OCR 转的。它的 pdf skill 是用来处理 PDF 文档的知道吧,所以你们看一下 pdf skill 里面的这些代码也好,或者功能说明也好,你就知道他能干什么了,然后再试一下怎么操作怎么执行,它是可以直接操作表格的。
线下人员集体讨论: 你说表格提取这块可能确实不是他的成像是有可能的,你看图表内容翻译。不需要是袁姐说他不需要图表,他直接复制就行,只要在下面标注好来源就可以,图片不用改。
江争达: 那我还有一个问题,就是之前我在做调研的时候,我发现他就是要转写的文档里边,它有外部的引用来源。还有是他自己,比如说他的 PDF 里面内容是有他自己公司的那些内部成员的,比如说一些总结成员名加总结的经验,那你这一块的内容,我们后面是准备怎么做?
线下人员集体讨论: 我记得他说是只要在报告的最后加一个,他说直接括号。
线下人员集体讨论: 来源该是哪,他就不用那种像。
江争达: 就 G 里面就是它的 PDF 里面它自己就有引用的文章的链接,这个就是完全保留。
线下人员集体讨论: 他好像是说不用管,对,就直接引到那个 gardner 报告就可以对,没有必要像咱们之前写论文一样,那么逐条引用,只需要写一个大概就是只要指向这个 gardner 报告。
江争达: 那我大概。
线下人员集体讨论: 对。他好像是说不用每句去判断引用他只要在文档最后写一个来源。
江争达: 不是我可能好像你们没理解我意思,戛纳 PDF 里面本身它自己就有它自己调用戛纳别的 PDF 的一个链接,那些链接要保留不?
线下人员集体讨论: 我知道,我知道。不用。
江争达: 不用好的。
线下人员集体讨论: 我下了,然后你做个逼的就低一些。结构设计。我选的这几个。四点 MB 我就全了,我感觉最全基本都全都用到,除了个 reference 没有对还行 requirement 原来有吗?这个是你新增的 python因为我要用这个脚本然后我还写了一个点 ENV 点 VENV还有放一点。那我。保护。
线下人员集体讨论: 木设计说明比较是图。输入就是扫描说确定是第一个报告还是报告,然后就先处理对并发脚用脚本并发处理,然后出去之后不出对。然后翻译,然后翻译。你这个风格转写是每个文档都转写一遍,还是总体转写?分两个模式就是单报告和多报告模式会多个多报的情况下你每个 PDF。都自己重新转写一遍还是说我为了铲除一份报告统一转写一次这个我是先让他直译之后我直接拼接起来就是直译好了我就拼接起来然后。这个报告对形成一个报告对一个报告就整体转写就整体转型对整体就相当于是一份报告的转型对。我建议你中间加一步分别撰写分别转写为什么你将来你分别转写这个东西。是可以作为以后的知识库的甚至你翻译这个你翻译就是可以做二次的加工你是直译的肯定是很难看的就把它翻译为一个中文可用的读起来非常。
线下人员集体讨论: 顺畅的报告作为以后的报告,你这一次你处理完了,就有一些你的知识库了,你中文知识库还是说我们中文不要了,我就直接用英文那英文将来就是。能不能直接引用是个问题,或者说他,我连翻译这个我都不保留了,我直接转转型转写完了,这就是我们自己的一份理解报告了。这将来我可以直接赢,就我觉得它可能效果没那么好,就是直接从英文到西亚风格的报告,我感觉它。你担保过这种情况。单报告就能去,我现在是我现在这个设计是都把它直译对,然后旨意中文字去转写风格。对说,你现在多报告的情况下,你只是写产出一份报告,对多报告情况下应该产出。每一份的转写报告加一个总报告。对。以后作为你的支付,你这里面有遇到这个文章可以用这样的话。
线下人员集体讨论: 崩溃,你翻译要做三轮校验,至少不就是最最最多三轮。
线下人员集体讨论: 工作你现在转写就翻译过程中他一次性能翻译那么多你要切开吗这个还没试你还没试我还没试就是不是说我先设计架构可能后面调要调一点我感觉这里面是有问题的有可能对其实有对上下文不够它输出一次性达不了那么多。那可能就要7月份对翻译倒好职业企业都是好企业倒不影响。
线下人员集体讨论: 包括你的风格转写都会存在这个问题,你上下文是怎么处理,是这是一个问题,所以这里面他没替你考虑,就是这个 skill 里面没替你考虑这个上下文超长上下文怎么处理的问题?是没考虑,但是你是要求他考虑的吗?我好像没要求他考虑,我们要也在考虑这个?因为这个文档其实是我改过一版的哪个文档就文档对我改过一版,我改的时候一就是不断在要求他重新回馈我那个 skill。不懂就差不多就是反馈吧相当于反馈回馈一下。
线下人员集体讨论: 我知道那现在的问题就在于他我个人感觉你想一份报告那个60多页是他翻译不完的对大部分人不给你翻译的不给你质疑的。是不会也是给你输出这么多的对可能是得测试的时候看一下你有可能是这样我个人理解你单独做一个 skill。就是上海那个报告翻译的 skill然后在里面去引用它把这个 skill 抽出来,因为这里面我估计这个 skill 甚至你也可以要求他将来可以设计成嵌套 skill。
线下人员集体讨论: 你别单独是这个 skill 过长的话,这个 skill 过于复杂的话,你因为 skill 基本上是面向单一功能,你就是这个 skill 就是做一个是可以对你单单独的职能单个职能然后再调过来就好了。可以所以我觉得里面翻译是一个挺困难的事情就是翻译完了你拼接之后。肯定是个超长生效。对那你怎么处理这可能也要。你要测试的时候你要切了或者切回就有确实问题了你转写这个你的上下文怎么拼接的问题你看你你们现在拿到的那一份报告现在多少也有转成。我有短的但是它是分页的还没有核的高三返回的输出就是可以了。一共23个一个两 KB 的话46他们2000币肯定就是不准的他这个不是。你看它是2k3k这个是一页的对我知道但是你看它总是整数的你看看下面的你这才181个词。对但是一是两 K那肯定是不合理这260个词也是两 K 知道了,你不能那么看的,还有前面有一大量的文件的前面后面的封装的那个格式封装的。前缀后缀。
线下人员集体讨论: Ok. 大概可能会丑,这是一份文档,对这是一份多份的时候,对抄的时候。那我再写个 CPU但是这个倒不一定能看我的意思首先得找到技术解决方案你现在技术上都没法解决。你超长的怎么转你你说我切开一段一段的转吧所以我就说可能还得回到单文档转写不知道怎么喂给他不会就是它就乱了不是乱的问题他处理不了反正的话锅太小了你原材料这么多它都溢出来了。好多东西他处理了。用 cloud 做,你就 cloud 的其实可用的上下文空间有多少就100多 K大概120k 左右,他那个 reserve 了40多 K 作为那个 buffer 你知道吧。很多作为上下文那个压缩那个 buffer然后再系统的再干掉10k 左右78k 到10k10k 好像是。50多 K 就没了,那加上你工具什么这些东西加进去是能用的,只有大概十万 token 左右?十万多根左右,把这年代还要一轮输入下一轮输出还有这么多,那就肯定没了,等等的,它主要是。主要是他希望整合为一个报告,对所以他最终那这种情况下你就弄不好就得用。
线下人员集体讨论: 这里那个输出是多少钱来着,到时候不行掉的话用 GM 要输出,看一看它,因为我觉得它最大的可能你可以试一下,你看看切分的效果好,还是直接用 jm 整体专业效果好,但 gemma 一个问题过长的,它也输出问题。是他现在基本上也不会输出那么长。他主要难点就是他原则,也是希望把多个报告的逻辑都整合起来,整合为一个,所以他那个倒还好,你输入这么长的他能做什么,你输出现在需要多少?
线下人员集体讨论: 是个大问题你比如说我输入的三份报告加起来200页我输出是不是200页的还是输出我只要20页还是怎么样对他每个月对所以这就是问题。如果你输出太长肯定输出不了。他可能语言这想的就是能把它的逻辑给它这个解除报告。对那我估计压缩到三分之一就不错了三分之一到一半就不错了对差不多。所以要看你输入的这个量了对单份报告要求的几乎就是一段一段一段对一段段对转写还有一种可能性是什么我告诉你。把每一份文档静压缩惊讶说如果就压缩成一半字数每份文档我都要做成一半字数。每一章我都压缩成一半字数先压缩都是包装的模式对我就把每份报告都压缩。压缩之后再处理吧你反正只要逻辑保留就行了但是肯定会损失好多信息那没办法压缩也不太。
线下人员集体讨论: 不太可控来守护这个力度。某的还是通用的?你得试试你调试一下这个套装处理一直是个大难题。我这几天反正那天天看到那个 L 那肯定的所以你看到前面来为我们觉得为什么厉害100万好像有一款是到了200万所以你像那种压缩可以用他那个200万桶肯定压压制了一个一有100万 token 的,或者压成几十万头坑的,然后再拿过来精处理,这个可以收录的时候做个规定,如果这个 skill 输就比如说只能是。输入大小不超过多少 MB 的文档可以,毕竟都是这么做的,肯定可以问题在于能不能满足需求,另外尽量满足对你不能处理的,所以我觉得不行。
线下人员集体讨论: 先全部变成单份的,我们不要那么着急,就先全部变成单份。当然你可以先试一下,比如两三篇能不能走得通就 ok但我现在逻辑简单判断一下我就走不通。因为太大了从我看下来不行的你就先用单份的行单份处理完了以后再看看多份怎么整合单份转写我觉得还是能搞得懂的。还差不多对单份转写我觉得还是能搞得懂翻译也是个问题翻译反正好在。翻译可以拆开翻你知道是什么最好是拆开一段一段之后把上一段的翻译压缩作为下一段和英文一起。然后再去翻这样上下文不间断你不压缩你上面不知道你在说啥而且有一些翻译不好做的英文术语怎么翻这里面但是现在已经很智能已经比原来好很多。
线下人员集体讨论: 行吧,那这个就你们再思考一下,尝试一下我个人觉得多文档一次性高,难度很大。对自己需要再帮我试一下。所以你看人的作用你看到了在里面是不可或缺的。如果有经验的人来理解就更清晰,再往下走我看。
线下人员集体讨论: 阶段的说明 OCR 的处理,这个基本就跟 SKILL MD 的差不多了看看16我看看怎么写就是点。
线下人员集体讨论: 因为你看他没有把出发条件给你写进去。description 对它那里面只是描述一个功能。但是没有外对这个你可以想一想怎么去强强强行让它加上 us one 来出发。因为你的前面的设计文档里面是有的,但是他没有条件对。很重要的。
线下人员集体讨论: 这是脚本的这些初始环境正在有配置文件开始安装?你这应该都不算虚拟环境。你这个环境是建在哪的,就建在这个项目目录下来对行知道了。准备我不要检查。对。对风格参考咱们是怎么做,让他提前学很多东西总结出来一份。
线下人员集体讨论: 智能用于 skill 的参考。这样可以吗?
江争达: 你说的提前取是指取什么,是取之前云所里边的那些报告的风格?
线下人员集体讨论: 也可以白皮书,蓝皮书什么的,那可以的,袁姐给的参考就是参考哪些白皮书来记录,但是你关键提取的。
线下人员集体讨论: 维度有哪些,想怎么就有哪些维度了,有排版的,有图像的,有配色的,有用文行文风格的,有表格,什么设计的,这里面你给老大。不少,只有参考。对写维度要想清楚。生成这个 report name 每一份都会有把主要就是 MD 文件了,因为它需要把返回的每一页的那个 MD 表格,对它需要那个原始的名字去标识。那是最后你会把它转换成一个文件的,你看每每份 PDF 对生成 report name 标志。你是把这个 PDF 直接改名了吗?不是,就比如说我现在收入有两个 PDF然后这两个应用开发出去之后它接收分别。分类接收就是这个文件接受文件接触这不在代码里完成是在代码里完成但是他每一份就是意思就是说。
江争达: 你有试过,比如说午夜五页 pd f1起发给他回五页的就是直接回一份整的。
线下人员集体讨论: 现在加了。所以这里面不清晰,你是不是帮他们是个文件夹标志还是文件的标志,我理解的这个是文件夹,但你这看下来是文件。行,我再看一下,你这是把每一张每一页都存到这个文件夹里面,你的这样的,可是你这写的是个生成的标志。这就不知道到底是基于文件名的标志。那这个这里有 ok ok ok 下面有调用,那叫文件名,文件夹对文件夹的名字 ok。Going honestly. 就这样,然后每一份报告要调用 a 进行后处理,就把它合并去页面什么的。多报告就定型好,我知道。
江争达: 你一个 PDF 如果直接给他不给 OCR 的话,它不能直接给你返回一个大文件吗?比如说你实验现在是它返回十个 MD 文件那。
线下人员集体讨论: 我是。我的措施是挺好的。
江争达: 你比如说那你要10月给他不能直接给你反馈一个。
线下人员集体讨论: 我现在测试是他分别返回的。
江争达: 你可以试试,我记得是可以返回,一起给他可以一起返回的。
线下人员集体讨论: 问问看参数调用里面可能有参数设置。
线下人员集体讨论: 那排除设置一样的页眉页脚如果还保留的话也是问题,这样你最后还得合成一个,还得清晰,把这个里面的页眉页脚去掉。对。还是不去不有和 OCR 它自动去页面 monkey 好像就自动去了。
江争达: 可以。
线下人员集体讨论: 页眉页脚一些重复,它就会自动去掉 ok 你请自己,反正还是得去对就得去完了之后因为你要转写,对里面老是出现这种干扰。好翻译对,然后翻译你这个是用的什么做的,谢先生 A 级的你是直接用?用的到了自己所发的就是你给他提示词,让他翻译,对我现在是设计的。
线下人员集体讨论: 你 for paths 是啥意思?目录你怎么还带着文件名?对确实,你那自动生成的肯定是要。一定是没有办法的,因为 skill 这个过程它完全是个严格的逻辑上的变白他像之前那么准一定没那么大的。按照这个逻辑能走下来已经不错了但是细节还是有很多问题的好往下走。ask 是要用这个。这就是相当于校验对等会,这是你就是硬调用的那个!这个地方不能这么写,应该直接写个 task然后有一个调用的你当着那个鱼这个快就这个上面要有 task 这个。当然,他可以理解,最最好是用强制性的 task 语言把它标注一下,把它描述一下这样的话它会一定会掉的。
线下人员集体讨论: 02我交正喜欢然后做报告也是并行注意调研。然后风格赚钱三包我得调用我之前设计是先整合了先整合再调用他们也是用的三背景对然后包括那个完整保存到这里。你先把它整合在一起做报告模式。我的导演。
线下人员集体讨论: 最后我试一下这个 pandoc 就是它可以用 markdown 转一下,但是这个排版确实就没看到。排版确实你这种情况下你的风格你怎么迁移过来的,哪个风格?新能源风格你怎么看到可能迁移的过来吗?就是你这里面 panel 是要带一系列的参数的,没我跟玉媛姐确认最终的排版,他没什么要求,那你风格这件事情就没有意义了。
线下人员集体讨论: 风格是指新龙苑的风格对是转写文字的时候,文字的风格对文字的风格,他主要那你文字的风格,你怎么提取,就是学吧学那些总结出来就刚刚说的那些事完全没有。格式上的事情。对原先说格式不重要,我问他有什么标题层级的要求,他说没有。
江争达: 不是那比如说图片表格都可以保留原来的。
线下人员集体讨论: 对都可以然后在下面标注一行来源对他原理说的转写之后到时就可以了。对然后就没了这个逻辑是整个大逻辑是保持下来了大的逻辑保持下来但中间我觉得会存在蛮多问题。你让过吗我还没开始run 我主要觉得编辑消息的传递,我觉得是有必要规定。这样就能一次就少调很多,对,不然就每一个都得一个去看调起来很费劲。你看起来还是会很费劲,你这个词你拆掉保证还是有很多比较调的地方。你们可能就是上下文了,不光上下文,你看着吧,我感觉代码什么这些东西都还要调代码,我调过了,我单元测试已经测过。这样的,但这里面我觉得就是最大的问题,也是风格的问题,就这里面就是那些那上下那个就不说了,那可能是技术上的难点。这里面最最不可量化的部分是风格,你怎么叫信通院的风格,这里面是非常难量化的。最好的肯定是那个小模型,对现在确实效果不保证那个线性转写就是这种强令强行转写这种风格。得想个办法怎么去规定转写的 prompt你现在这个 problem 还没写吧,撰写,我看你撰写的。
线下人员集体讨论: A 进的还没写,我没去看,这是它自己生成的 Butcher gardens and style. 这就是他在一定的你这一技能是保存在这个下面了,你看一下它还没生成过,那是什么意思,就是你这个 skill 还没有生成这些相关还没生成。你现在 SKILL MD 生成的,但是那些参考目录还没生成那些资源目录都还没生成有对不对你这些文件在了吗?文件在了,看到这些方案,对没有这些都还没在没开发还没开发,所以就还没有是吧,对没有 ok。你回到刚才关于调用三对你你看这个句子已经定义了你是不是把这个考过去就行了不是我这个 skill这是框架。这个 agent 的知识框架选 D 我是教他完整写的就是 skill 点 MD 不是让他完成,这只是框架 skill design 这个 MD 文档只是一个框架的是。然后 skill 点 MD 是整整整体的对。agent 需要的是要重新做的目录就是包括什么?一些参数对一些比较容易出错的规定下来了,这种框架规定下来了,就是返回主窗口什么。保存什么这些都是有的,输入参数也应该输入什么也都是有的,有钱可能就是这些比较设计的。
线下人员集体讨论: 这个流程可能得设计一下,但是 AD 的最大好处,确实就是它比较自由,你只是告诉他一个结果。就够了,你不用详细设计那么多,给他一个结果就够了,你就告诉我,输入这个我要的结果是这个也就够了,不断展现。为什么要逐段转写,这个是我给他提词,袁姐说的就是阻断的去没有意义,专业你主断专业的目的是什么?他的意思就是不要说原本有两页的内容经过转眼之后只有一句话大。
线下人员集体讨论: 保证好了字数这个就行了,你你给他一个字数的话,那有时候是能够去,你看至少 GPT 现在是对字数比较了,他能够稍微控制点。那我不知道 cloud 能不能控制好,但是对找个事情行,我知道了,那这个 pdf skill 差不多了?对或者说专业线上,那就抓紧时间测试,然后把这个 agent 的现在你代码做完了 SKILL MD 做完了,对现在参考目录里面需要或者是你的资源目录里就是个需要开发。
线下人员集体讨论: 对还有什么吗还有调测就上下文的问题对改那可能要改一下的右边的多多长。有点利吗1000325就在7000多词里面明白了1300多个词大概。是不到一个还行不多100行两一两百行差不多。那还行那我知道了那就继续完善大概时间进度要求是什么就是12月中旬完成。工具了。
线下人员集体讨论: 中旬吗中中旬20多对五楼20不管等会再说反正他这个要求的还有一个我告诉你。你们现在直接用 gemma 试一次,直接用 java 来试一次,你就把一份报告扔进去,把你这些提示词给他。前面试一次,看他能不能生成多少长的报告,我试了一个会议纪要,就是上次不是说直接对一下结果?他说明结果比较偷懒,肯定偷懒,是比较偷懒,他现在基本都会限制他的输出,对因为就在前面,那就 APP 里面,但是在 API 里面就不一定了。API 才是按输出 token 收费的,然后明白了,那我还没事,他肯定有系统,其实只约束了结果的输出的有可能,比如说就是现在情况就很简单了。
线下人员集体讨论: 听到了,从这个角度来说,长文本的输出目前对大模型都是考验,尤其在这个。叫啥 APP 里面成本书,所以可以试一下前面的那个 API这个有 API 吗?那有 API 你现在是扣费了吗?你那个用 ai studio扣掉你免费额度了吗
江争达: 今扣扣掉了可以确定扣掉了但是有个不好的消息就是明天要到期了就今晚要直接抓紧试吧他就给了个十天就是十天要让你15天让你花300美金。
线下人员集体讨论: 你现在花了多少了,你这不完全浪费吗?
江争达: 我花了九美金吧!
线下人员集体讨论: 那你今天掉吧,今天那怎么办,行对你现在用 API 赶快让他写一个,赶快把你那个大报告给你转写,看看能转写多少行。另外一个就是他现在手头有多少份报告先拿过来先转写再说行,我试一下吧,先不用 skill 了,直接用节目直接干了,行,我先试一下。那交完钱你回头给我一下,或者就直接在你你这里面直接用来翻译来那个什么好了,我感觉你先试一次。
江争达: 外号就给你。
线下人员集体讨论: 它的翻译能不能一次性输出。现在我感觉一次性翻译输出不了那么多的卧槽,那你你想这得翻译多长时间,一份报告蹭蹭不停的翻不他能。但是现在如果它是智能的话,是有可能的。你就看原文翻译,你是一场最长的原文翻译能翻译多少对了 API 它也有 max token 限制好像是有的。对有的。确实但是收入可能是上下文是100万但是输出他们有个 max token 的上下文献,你试试看吧,好不好,那就这样,这个抓紧时间,如果他要的急,如果 J 能顶上,先给他顶上吧。或者像他是不是说对它主要结果交给结果先看就行了,他不管你这怎么完成的,他希望别人不知道这是什么做的就是他说是千万不能让客户知道咱们是这样子搞出来的,我告诉你这个搞出来的比人搞出来的质量高。
江争达: 只要结果他们应该都找结果。
线下人员集体讨论: 专家费肯定。是好,今天那总的来说,你就是这是在自动化角角度或者自动化前。曾经路上的一些尝试还是值得鼓励的,但是现在这是一步一步完善。不要一步到位的可能性是比较小的。从目前看,人工智能还没到这个水平就是这么智能,把人的逻辑,什么上下文都能搞得那么清晰,而且上下文处理那么好。目前难度还是比较大的,对直接能用肯定是不太对,所以脚手架还是要帮他大,然后出来的结果还是得审,这个时以后我们大量的时间。就是神你包括像这个 Got an another skill. 你就是你前期的整个逻辑,你大概让他做完了,但是你得自己去。一步一步去看哪个可能出现问题,然后再去做对行,那先抓紧给我还有招投标的是?
江争达: 我刚才看了还有三天。还可以。三天把所有报告拿过来跑一遍。
线下人员集体讨论: 是这样,就是咱们现在上周起来的,咱们跟他们对了一下,就是跟网页,然后说是当天那个窦主任带着媛媛对化工什么的集团的对中化集团对,然后就是回来之后会对这个咱们到投标的这个系统。可能会有一些需求上的一些变化,但是我今天又问了一下媛媛,他说是变化做准备,那边还没有定下来,他说周四约了人过来跟我们交流对。
线下人员集体讨论: 这个是我大约涉及到100需求开发就是 skill 的模板qq 的模板我。我聊的需求模板是响应文件的模板,是从招标文件里提取。然后这个是一个,然后另外一个是它填充的内容有两部分,一部分是招标文件里自身自带的那些信息,还有一部分是企业信息库就是咱们的提取的信息,对咱们自己的信息库。然后我现在看下来我可见的一个问题就是它的那个信息库有点乱,就是它有各种格式的 excel 有 word 有 PF我觉得不用的你不用那么傻。你把原来的招投标的最新的一个招投标文件里面应答的信息提取出来就行了。你最近的一个到达标文件里面大部分信息都有了有吗你肯定要你你想你每天投比如说十个表你关于公司这些模板你肯定不可能天天变。你只要拿最近的一个过来做一次提取是但是他我这么问很多范围来说他模板你今天回了一份音标文件你这些音标文件里面的所有信息都是不是应该都是最准确最最先最及时的了吧是我下一步再做文档的时候是不是从这边拷过来就够了。我为什么还要再去原来的所有的信息网站去搜一遍
线下人员集体讨论: 你已经收集好的东西,为什么不用,但是我那天听到的他有一个逻辑是它有很多的,它那个库里有很多的,比如说图片之类的,然后它的模板就是每一个招标文件的模给响应文件的那个回应的模板,它是不太一样。意思有的是要甜的,有的是没有你填的地方,你还是要去企业库里去找?不需要你填,没有填的地方你为什么要去找,不是有的是没有的,就比如说今天我填的这一个,我需要这张图片我拉过去了。然后但是我不需要这个,我就没填,但是我可能之后填的时候我又需要那个了,我又需要我原先没需要的那个了,对就他。
江争达: 那旭龙的意思就是你用最新的那个招投标文件的提取到的信息不一定能满足于下一份的文件是这个意思,对,就是不够的,再去找,先把最新的那个。
线下人员集体讨论: 不够还不够,对不够的,我再去找。都要再去找,那肯定是不够再去找,那肯定我不可能上来全部先所有东西都找一遍,所以不够的再去找,对的是给他建一个索引。
线下人员集体讨论: 给企业信息库建一个索引,一些基础信息,比如说这些我就固化下来,这也是我发。就直接固定下来就不用再去,不会变化的东西就是结构化入库吧,相当于一个数据库,这可以对文字要小心就是你多长时间去更新一次。对有些东西更新,比如说银行账户这个事情都写错了,就完蛋了,你看一下你会省吧,你看人会生吧,反正我这个出来你肯定也要填生阳气。反正就是文字可以这样,现在问题有些图片我也分不清它到底是什么场景,该填到哪。这个图片描述我肯定也没有那么清楚,对就需要他们懂行的人去配合我去描述一下这些文件。这些图尤其是这些图片文件,因为图片我肯定不可能每次对你就是还没法把之前的招标文件对意思就是,但是我觉得我干这个事有可能有点费劲,对不,你这样不用你干。你用人工智能把过去的文件里面出现的图片和对应的位置全部读出来,然后交给李晨,让他审对。然后你就把这个库建起来了,行的话一样是间隔库,我们可能那我得多找他要一些对你就把他那个招投标不同的类型文件。
线下人员集体讨论: 拿过来读一下这里面出现的图片,相同的图片就是怎么去归类,怎么去标注之后往哪填就清楚了,就是逻辑其实挺复杂,然后他有的,他给的肯定是最终的写好的响应文件,但是他这些响应文件里,他说有很多东西是不会给我用的。他有很多东西需要保密,它有很多图片需要保密,就不能给我用。
江争达: 那它是需要保密的啥就不能给大模型用?
线下人员集体讨论: 我只能填那些非保密的,没有保密要求的是我来去填的,只能我只能填这些问你怎么填,我怎么填,你怎么填。你都不给你用,你怎么填,我只能填那些非保密的,所以保密他自己填保密他自己那不就是了,对,所以他给我的是完整的。
江争达: 要不。
线下人员集体讨论: 他给是完整的,有保密,有非保密的,那不是不给你用吗?他怎么又把非保密的也给你了,到时候人家都不会给你,他就相当于他就不会把那些东西传那他那可能就要他那边给我之前先筛一遍。先删一遍非网络,它直接就删掉就不要给不要在那里面给我对,因为我毕竟我肯定也要用 AI 读,就是他们给你的就是咱们那天下午一起做的那些东西填好的模板里的。对填好了各种各样的响应文件里的。
江争达: 等一下我想问我们的需求就是我们只填非保密的,他们都手工填。
线下人员集体讨论: 是这样的对,所以那天下午对了一下,发现能填的也没对,还有一个方案,那是后面的就布一个小模型,现在图像识别模型很厉害。就直接布一个小模型,把这个逻辑写死就行了也行或者。
线下人员集体讨论: 手工让他标注图片就行了,我最开始我招呼就是这么跟大家说,手工让它标注这个图片是什么?然后我把它存到里面的时候,通过一个代码。让他的本机执行代码去把他让他们就可以让他们判断一下,我问他是想他把那些原有的响应文件,把那些非保密的抠出去发给我,然后我做好了给他审核,他觉得省事还是说我直接把他认为非保密的就是可以让我用这些图片,他自己去敲这些描述。他这两个国觉得哪个想干哪个对就让他选吧,最好的还是就是拿那个小模型做一个读,读完之后做个标注。然后让他告诉我们可以填在哪里就行,对最终目的肯定就是就让就怎么实现的问题。对把所有第一个最重要的是什么?就是现在图片的库的来源是哪里,除了咱原来的文件还有什么地方?就是在散落在各个地方名单所 CRP然后有一个产捷键的一个招投标的一个库然后反正目前现有能提取的全部都是来自于那个地方。那不就行了他都已经自己建了一个库了他只要把这个库里面的文字怎么表述一下就完了。对是这样是他那个谁包子姐给我的。
线下人员集体讨论: 现在就这三种高科技,也有 excel就是获奖信息这些文字都好说文字我建库都能建就是图片因为哪个粘贴到哪就是这种需要他们的辅助一下。
线下人员集体讨论: 其实文字蚊子也不好说,文字写填到那儿也不好说,最好如果能找个。映射的逻辑也是最好,那这个事情这样吧,今天就不讨论了,你这个回头你们把这个明天清楚,然后礼拜四他们聊完再说吧,但我感觉他们做的。知道做了多少规则映射那种规则映射根本不可能移植出来的,你像这东西完全都是定制化的你这个图片对应这个哪个能帮你把这个事情做好,所以。我们想这里面将来人工智能可能就是他如果能够智能识别,我就是给他一份参考文件,它能自动的从图片里面找到我。把之前的文件和第一他能读,或者说我们给他建个索引也好,就是他自己能够通过之前的文件和这个库自动判断,在这个文件里传什么这个文章这个。填什么那是最智能的,那是最高目标是就是有举一反三个,你有自己理解,有自己的理解能力的,我觉得不是不可能。
线下人员集体讨论: A G 是有这个可能性的,就是根据那份文档来判断现有的该怎么处理,也就是现在确实他们响应文件没有一个最全的。我停下来就是每个模板和模板之间也不一样,每个要填的要填也不一样,就没有一个最全要有最全的,那就好好说对。现在我感觉现在现阶段靠纯靠当去理解,可能效果不是不会很好,我们现在咱们现在我觉得。对所以需要人去辅助写一些,所以写一些表述去帮助他去映射行,那这个事就先这样。哪天你们把这周四开会以后你们再讨论一下之后。评估一下这个问题的解决方案,然后单独的意思,因为我觉得我当时就说这个是最复杂的,对,因为它这个逻辑根本就没有逻辑。
线下人员集体讨论: 是的,好好看投资人金币私人 PPT 这个看过了,基本上可用了,那就是接下来让那个谁?
线下人员集体讨论: 让富有跟合所申请一下,让他做合所的认证。
江争达: 行我约他们一个时间讨论一下。
线下人员集体讨论: 要合作的认证到底是拍不拍绿幕,如果不用绿幕用原来的视频抠出来也是可用的,你们找找看,我记得不用绿幕也能做的。
江争达: 对我现在也发现就是不用绿幕,就是 P 图就是 P 人拖出来,然后背景跟衣服什么换掉,就现在基本上都是这样。
线下人员集体讨论: 对不是 P 图,是从里面把人抠出来,我觉得视频里面推荐我,你把视频给他自己能不能扣掉背景不知道,但你不行,他你就自己先事先扣掉背景。
江争达: 然后。
线下人员集体讨论: 就是人的尸体,那你是视频还是本本图像,你现在通过图像生视频是吗?
江争达: 我们现在就是用 jm 来先把背景抠掉然后再用黑镜做数字人大概就是这么个过程图像对但是我们在图像生成完了之后会做一步叫动态就是动作参考视频的生成就是等于用那个。新的图像再生成100就是专家负责人的参考视频有那么一个步骤这一块的话技术。
线下人员集体讨论: 那这个视频也是不参考具体真人的?
江争达: 底层不清楚,但是我通过图片生成了那个动作参考视频的话,效果还不错,不有那个就是这样做的,用新的就是 P 完了图片之后做一个动作参考视频生成一个动作参考视频,用那个动作参考视频再生成最终的那个数字人的口播视频,这个效果就不错。
线下人员集体讨论: 我问你富有是怎么做的?
线下人员集体讨论: 你别可不是不错的逻辑都不清晰的情况下,你出来的东西能不能根本就经不住推敲,有可能你这个怼上去了,怼好了,这一次下一次就完蛋了。
线下人员集体讨论: 知道吗?首先第一,当时为什么要用视频声视频,因为视频里面的口型语音什么这些东西它都是比较有参考样本的懂吧,所以他。
江争达: 我有个报告你,你这样吧,你先等一下说吧,你我共享一下吧,这一份就是基于黑镜的那个报告,就是我们在实践过程中发现用它。
江争达: 上传好的视频存在两个问题,第一个它的替换就是背景替换的效果差。第二个就是它的动作也是基于原视频在重复。这是两个问题,然后后面我们做了一些尝试,先更换,我看一下。第一阶段就是我们先更换背景,然后再对这个造型进行叫动作视频的生成。为什么要做这一步,像严总你说的就是这一款。我们也试了,直接用图片宣传口播视频的话,它就等于说是纯纯图片生产,但是我们如果做了图片,然后再加上动作。叫动作视频生成后再生成口播视频,它的效果就基本上和有的。
线下人员集体讨论: 你生成的参考视频里面有语音,有口播吗?有口型吗?
江争达: 因为这个问题,当时我也疑惑,那我如果说是我还要通过图片生成的话,我为什么之前上传那一段数字人视频,我有这段疑惑。
线下人员集体讨论: 不是有这种疑惑,你现在逻辑全变了,我根本不要拍视频了。
江争达: 我现在不确定的是,我拍摄的那个视频是就是等于是任是在这儿。我拍摄的视频。
线下人员集体讨论: 那你逻辑清楚点说话,你现在不要在那脑子不清楚就开始瞎答答错了,你要承担后果的。
江争达: 我拍摄的视频是用于训练数数字人的就是我调查的结果是。我们上传那个视频是用于创建他的专家负责人的模型,等于说是黑镜上面有一个这叫这个专家的模型。
线下人员集体讨论: 那你先停下你的思维,你的脑子就是乱的,我告诉你东一下西一下的,我问你你最终生成的,你用到这个参这个视频这个数数字人了吗?你现在生成的是?
线下人员集体讨论: 图片。
江争达: 是这样的连总我说一下,我用餐上传真人视频生成了一个专家数字人的角色?
线下人员集体讨论: 你先说。
江争达: 这一步等于我在黑镜上创建了一个数字人的模型。然后我上传图片之后,它我只要选中了这个数字人,它会根据这个模型,然后根据图片来重新训练一个。动作视频生成出来?
线下人员集体讨论: 你能听懂吗?
江争达: 这有啥听不懂的,我上传真人视频是为了什么,是为了创建一个数字人在黑镜平台上创建一个我本人的数字人对不?
线下人员集体讨论: 你演示一遍,在那叨叨叨说半天说不清楚,我的个妈对,那我问你,你用图片生成的视频和你用数字人生成的视频和你用真人上传生成的数字人是什么关系?
江争达: 这还说不清楚吗?这有啥理解困难吗?你问图片上传生生成的视频是基于这个参考视频生成的数字人的模型训练出来的一个视频。
线下人员集体讨论: 请问你们哪个听懂了,来回答一下你们哪个人能听得懂你再说一遍,你把你刚才回答再重复一遍,你要能说出来一样的话,我就佩服你。
江争达: 我现在上传的图片是根据我已经训练好的数字视频,用图片加数字人的这个视频生成的一个视频。我已经在我上传的你你你一步一步来,第一步上传真人参考视频好,我一步一步来,第一步上传证人参考视频,这句话能听懂吧?
线下人员集体讨论: 不是我一步步来,是你一步一步来。你先说听不懂,我会让你停下的。
江争达: 这一步是在黑镜上传了一个真人视频,它会生成一个数字人的模型,就是在黑镜平台上,你就有一个这个数字专家的模型。
线下人员集体讨论: 那这个模型代表的是什么模型,如果我不用任何的参考文件。
江争达: 他是在自己底层训练的代表的就是你这个人。
线下人员集体讨论: 我直接让它生成数字人视频是不是也可以,我指的是用文本直接让他这个数字人生成视频是可以的?
江争达: 不用任何的参考文件,你指的是啥?文本直接生成视频是可以的,没有这个效果好。
线下人员集体讨论: 给我说完!你就回答我就行了。你跟我说的,你数字人,视频数字人,先说这个数字人专家数字人是通过你上传的。视频训练出来的?
江争达: 是通过上传图片加我之前上传的参考视频训练出来的。
线下人员集体讨论: 就是你先上传了真人的参考视频,然后去学习学放一个模型的,相当于对,然后你先你你又把你又丢了一张图片给我都知道,我现在不跟他切开,跟你说他就是乱了,我跟你说根本就说不清。
江争达: 它生成了一个模型。我没有乱,我一点都不乱。
线下人员集体讨论: 现在你是不乱,我一问你,你就知道你乱了,你现在根本就不知道自己是乱的。第一,你现在上传了一段视频真人视频。你刚才说的,然后生成了你别,我问你的时候你回答我,然后上传一段真人视频之后,你说你训练了一个数字人出来?
线下人员集体讨论: 好,你就不要再多说了,生成了一个数字人出来这个数字人在文本的驱动下是不是可以产生视频?
江争达: 对的好。
线下人员集体讨论: ok 好这个文本生成的视频,你说的问题是背景不清晰,背景什么抠不掉什么,这个不能变?
线下人员集体讨论: 这你你说的,那我告诉你。现在我就说技术上根本就完全是矛盾的,知道吗?所以我觉得你底层技术搞不清楚,你现在就在表象上给我描述就是乱的。首先第一。
江争达: 哪里是矛盾?
线下人员集体讨论: 你听我说完,我告诉你,首先第一,你这个视频生成的数字人是学习了这个视频里面的人的动作和人的相关的所有结构信息的。
线下人员集体讨论: 所以用文本驱动它,这里面他为什么会带有视频背景的这个内容,我搞不懂这个人数字人完全是独立出来的。为什么会有背景?
江争达: 是在于它本身黑镜这个平台本身他在把这个柱子上抠出来的时候有一层。很浅的阴影。就是我上次给你发的他,我说了。
线下人员集体讨论: 那这个能理解,那你说的就是我知道你包括绿幕也有?先问题先表述在这里,你认为生成的背景有很浅的颜色的背景没抠干净?
江争达: 对的。
线下人员集体讨论: 你还说了口型动作不协调,如果你放在这第二个你的方法是上传了一张用 gemini 生成的新的。
江争达: 对的。
线下人员集体讨论: 真人的照片,你不要给我补充,什么叫第一部分什么叫?
江争达: 对的,比如说先解决第一部分就是背景替换效果差的。
线下人员集体讨论: 这叫第一部分前面那么多工作不就不算了,这是你理解的第一部分,所以你补充的根本就不是我们。
线下人员集体讨论: 就都是你自己想的懂了吗?这不是第一部分好吗?你就听我一步步来就行了,那不是第一部分在前面,我已经录那么多步骤都已经走完了,你跟我说这个叫第一部分。
江争达: 那不是就比如说我要。
线下人员集体讨论: 这个逻辑就是不对的,你就完全站在自己的逻辑。也不是需求。
江争达: 我表达错了,第一个需求是这个对不,这是我的需求好我是这样理解的。
线下人员集体讨论: 这是你的步骤之一。这是需求吗?你上传一个图片是需求吗?
江争达: 我的背景替换效果差,这是我的需求,我要做的事情是把背景替换效果差,这个弄好我能这样理解不好好的。
线下人员集体讨论: 不是我是什么?
江争达: 那我就理解错了。
线下人员集体讨论: 你因为你你你上来定义这是问题,这是不是问题,这是一个伪问题,知道吗?就有可能你没找到根本的问题。
线下人员集体讨论: 所以你把它定义为你的需求这不是这么定义的,我要重新寻找问题,所以你说你上传了一张真人图片?
线下人员集体讨论: 这里面图片的人物的衣服和背景,你重新做了一个自己认为满意的衣服和满意的背景?
江争达: 对的。
线下人员集体讨论: 所以我就跟你说是跟你说的真的很累的,你自己理不清楚,全靠别人帮你理,然后在这个基础上你说我在这上面。
线下人员集体讨论: 结合了刚才的数字人视频数字人模型生成了一段简短的参考视频。我没理解错吧,你认为靠一张图片?
江争达: 对。
线下人员集体讨论: 去让这个数字人模型生成一段参考视频就是可用的。参考视频你认为是能够满足你的需求的?
江争达: 对的。
线下人员集体讨论: 然后又用这段参考视频生成了一段长视频,那我问你为什么会出现这样的效果,你考虑过吗?
江争达: 对。你是指什么效果?
线下人员集体讨论: 可用你刚才说不可用文本直接驱动数字人实模型就生成的,不可用图像生成的模型就可用。
江争达: 不是文本生成的,我不换背景的话,我文本直接驱动可不可行?
线下人员集体讨论: 为什么。
江争达: 我如果换背景文本直接驱动可不可行。目前我看来不可信。
线下人员集体讨论: 我告诉你,这里面根本就不是这个问题,懂吗?这里面所以我觉得你们对黑镜根本没有了解清楚文本。
线下人员集体讨论: 文本驱动那你我问你,如果我用 java 生成九张图片,然后让九张图片来生成这个参考视频的是不是更好?
江争达: 我再更清楚地秒了表达一下它文本生成的视频,它不是你生成视频的 prompt它的文本只是作为你的口播的 prom。
江争达: 就是它生成的视频里面你输入的内容只是他的口播内容就是他在读什么,而不是说你的 prompt 是让它来生成一个视频,不是这样的。
线下人员集体讨论: 我知道了。那我问你你黑镜同时的输入有哪些?
江争达: 我和你目前输入有两个,第一个就是只基于参考视频生成口播是指录口播的 pr。是唯一的输入。你想要再加上动作指导的话这是第二个输入一共两个输入。
线下人员集体讨论: 你就告诉我,在那个加号里面,你可以输入什么一个是 prompt这个 prompt 是就这两个,那我问你你的图片是怎么输入上去的?
江争达: 是口播的内容,还有一个是定义动作的 prompt 没了我的图片是在生成视频之前。做我的图片是在这两个就不是一个东西,我这个阶段跟第二个阶段根本就没有关系,我图片上传的时候,我跟第二个阶段生成,我就没有关系。
线下人员集体讨论: 那你你图片上传的时候是干用的,能够输入什么?
江争达: 图片上传的时候我能够输入的我来定义生成视频的动作的 prompt。
线下人员集体讨论: 图片是 prompt
江争达: 图片加定义动作的 prompt 最后生成的视频就是你你上传一张图片,然后你再上传一张。
线下人员集体讨论: 你的数字人模型在哪里?你选中了一个是吗?
江争达: 数字人模型在。对我选中了他。
线下人员集体讨论: 你上传了一个视频,他上传了一个图片,上传了一个动作的 prompt
江争达: 当成一个图片。
线下人员集体讨论: 这个时候生成的视频。就不再是口播视频了?
江争达: 它其实只能生成一个18秒到十秒的参考视频它是视频生成。其生成的是你的嘴型合理的动作肢体动作它这个视频生成的就是主要就是这两块没有口播内容。
线下人员集体讨论: 没有口播内容。那他怎么没有口播内容,哪来的嘴型?
江争达: 你这里上传的那个 promata它是门就是说它是随便读字的不是说你在这上传一个比如说就是你你指定的一个口播内容它是不读的它没有这个上传的这个界面。
线下人员集体讨论: 那他读的是什么?这是随意定义的吗?
江争达: 他自己定义了一段话。对的黑镜上自己定义的。他默认的一段话。
线下人员集体讨论: 他目的是什么?
江争达: 你你你说的是啥,他要十到八秒的目的,就是因为我想了一下,因为他是收钱的收钱他是收钱的。
线下人员集体讨论: 他生成18秒的视频的目的是什么
江争达: 不是大城是在这你上传图片,然后训练出来的,你的动作参考视频。
线下人员集体讨论: 我没听懂。
江争达: 它是收费的,我觉得目的就在这,他要钱做作用就是根据你这张图片生成一个去训练出来。
线下人员集体讨论: 没有作用你会给他钱吗?作用是什么?你说是收钱,就是他拉个屎给你吃,你也给他钱。作用是什么?他为什么要?
江争达: 可用的参考视频。它的动作用是。
线下人员集体讨论: 行,我知道了,你回到生成页面,我看一眼。
江争达: 等一下,我登录一下。
江争达: 看得到吗。
江争达: 首先我先展示一下,就是我上传图片之后,然后生成的就是添加动作的阶段就是阶段,是你只能来定义它的。就是生成的动作的风格提示词。没有别的出路。
线下人员集体讨论: 等会你看它有不同的动作风格动作,然后有自己的用户的 prompt 是什么?
江争达: 对。你说的是哪是标准模板还是自定义模板?
线下人员集体讨论: 自定义。
江争达: 自定义模板其实也是你可以自定义它的一个动作风格,你可以自己写,但是我测试了一下效果,其实还没有他官方的那个模板好,也有可能是我 prompt 写的不太好。
线下人员集体讨论: Ok. 那肯定。你看他用的是可?
江争达: 对它下面有四个选项,我也测试了效果可能还是最好的,就是效果我感觉是最最优的。
线下人员集体讨论: 行吧。你等加入动作,看见一段视频。
江争达: 然后他就会创建一段视频。大概创建一个55秒到十秒的参考视频。然后我们再根据这个视频就是参考视频去创建我们最终要的口播视频这是输入你的口播内容的。然后这里是你定义它的动作就是其他的地方就没有可以自定义输入的地方。数字人就富有这个数字人。
线下人员集体讨论: 知道。明白,那不对你用的数字人是谁的,等于你回到刚才那一步回到刚才对,就是这个生成加入添加动动作之前你添你你你。
江争达: 你看所有在我这我哪一部。
线下人员集体讨论: 这个胃的等会就刚才你添加动作的界面再点一下好对我问你的是你左边这个是一个图片。
江争达: 这个是图片。
线下人员集体讨论: 还是一个数字人模型,那我问你,你在这里面哪里面用到了你训练的数字人模型?
江争达: 是这样的,你看见没就是我的数字人,其实它的图片已经归结到了,它回到了这首先我再一步一步说。
线下人员集体讨论: 我问你到底是图片还是模型?
江争达: 我们的绿幕视频,这个是我们最原始的视频,我是基于这个来训练出来了,我的数字人模型,它底层。
线下人员集体讨论: 你训练的模型在哪什么。
江争达: 这个模型是不可见的。我只能通过推断出来的。
线下人员集体讨论: 那你右边是什么,上传了一个照片?
江争达: 右边这个对上传了一个照片,但是这个照片是就等于说是你上传的时候就绑定到了你这个专家负责人下面。
线下人员集体讨论: 我知道。
江争达: 我当时的问题是为什么通过照片。你说在哪这个数字?
线下人员集体讨论: 那我问你,如果我在这个数字任上面直接添加模型添加动作不行吗?
江争达: 是没有页面,你看它是个视频。
线下人员集体讨论: 它是一个视频。知道吗。
线下人员集体讨论: 也就意味着你这所有的视频都必须带背景,你抠不出单独的背景?
江争达: 你说的是可不单独的,你可以这么理解,但是就是我们接受那种有绿色的就是那个底子在下面,我大概演示一下吧。
线下人员集体讨论: 就抠不出单独的人,你必须所有的人都得跟你的背景在一起?
江争达: 他如果是让他自己抠的话,他是。
江争达: 后厨在哪儿?你我放大一点,你看如果让它自己抠的话,它就会有一个浅蓝色的背景就浅浅绿色的,我尝试了好多方法。
线下人员集体讨论: 是边缘,我告诉你,你不要在这里抠。你再用其他的软件直接扣?
线下人员集体讨论: 在软件直接看效果会比他好很多,你再把它抠过的视频拿过来。剪映里面好像就有这功能。对你把背景去除过的视频。
江争达: 你把他抠过的视频拿过来,我大概我懂了,我知道了,我试试这个效果。
江争达: 有一个方就是还是有个问题,如果我不这样做的话,其实我用黑镜它自己本身的更换。更换那个背景的功能的话,它其实更换的背景不是很好,你能大概理解的意思的,但是你用那个,比如说 nana banana 或者。
线下人员集体讨论: 因为你本人不是在同一光线下拍摄的。
江争达: 或者啥的,你就是整体的,让它重新生成一个效果还是比他直接在黑镜里面替换要好得多的。
线下人员集体讨论: 那如果我用那个 vu three 我自动生成一个我自动生成几秒的18秒的视频给他们不比他的更好吗
江争达: 那个 vu three 我们测试过他好像一共一共一个月,好像只能有个六分钟的额度,而且还有一个是什么,还有是。
线下人员集体讨论: 那你六分钟八秒一个你11你八秒你60分钟可以升。
江争达: 那个 view three 它生成出来的动作比较好,但是口型不好,因为它是用手针尾针生成出来的东西,你连不是它只能支持守针尾针。
线下人员集体讨论: 你为什么要守针伪针,你连续用九针不就完了吗?
江争达: 就它只能支持两张图片,你支持不了九张图片,这是西平反馈给我的结果,西平如果有我有那个的话,你补充西平吗?
线下人员集体讨论: 不是。让你试试看,我觉得不是这样的。你可以在中间增加的。
江争达: 西平你能不能确定,只有守真伪针,后面要添加的都是叫扩展。批评他。听不到你你你的麦克风说不了话。
线下人员集体讨论: 我就没参加。
江争达: 贷了。他麦也开了,就是没有声音。
江争达: 听得到你说。听得到,听得到。
陶西平(03:45:44): 我现在就是使用了首帧加尾帧,因为我用的是 flow 平台,我没有不能。
江争达: 不是你你直接回答问题九张图片能不能还是没试过不难。
线下人员集体讨论: 等会我来看一。没关系我,我自己做过一遍!回头我看看。
线下人员集体讨论: 这就是你们摸索出来这个流程要加那先录一个绿幕,然后再生成一张背景图片。
江争达: 对。
线下人员集体讨论: 然后再生成一个动作参考视频,然后用动作参考视频结合这个动作人才能生成是这样吗?那我问你,我如果不要生成。
江争达: 不是这样的,一开始我们也没有试过,就是用用人抠出来之后让黑镜直接生成。效果我们在测试之前是没有试过的?
线下人员集体讨论: 那我等一下,我告诉你,我始终觉得这是一个浪费,你知道吧。首先第一,我如果能够通过图片生成了动作视频了,我为什么还要?
线下人员集体讨论: 用前面的视频在训练一个数字人,你不扯淡吗?脱钩的方。
江争达: 这个我也想过它,你比如说上传本人的视频,它其实就是为了你训练,就是训练出你的那个专家数字人的模型,然后你后面上传图片,它就用这个模型。
线下人员集体讨论: 你问题是你没有用到它,你在哪里用到它了,你的说他的?
江争达: 你你看我演示一遍。你看我上传了图片之后。
江争达: 你看我比如说我上传的这张图片。他是要让我选中一个专家数字人的我这图片其实就等于说已经跟这个专家数字人绑定了。
线下人员集体讨论: 你增加的是很简单,在新建对我重新建一个我上传这图到家了。
线下人员集体讨论: 我把生成的动作当做我的数字人,视频上传不是一样吗?我为什么要在拍这个绿幕?
江争达: 你的你是说再新建一个这个是吧,就新建再新建专家,但是这。
线下人员集体讨论: 不是对我不是在线,我说我现在是一个新的专家来了,我这时候我不拍绿幕了,我就给一张图片,然后我加上动作之后生成了这个八秒的视频,十到八秒十秒。
江争达: 这个我现在非常明确的说我没我现在我们现在没试过,但是没试过的原因是因为啥我们现在就是我们的账号,现在只支持一个专家,我生成不了第二个,所以我没法试。
线下人员集体讨论: 你可以把它删掉,把专家删掉。
江争达: 你删掉那到时候我就是怕富友那边要重新认证什么的麻烦好,但是你这个效果我试试。
线下人员集体讨论: 我告诉你那不管你就这个逻辑是不合理的。没理由。没理由说非得要这样的,你这样的话,你其实生成那个视频,他已经模拟出来的那些动作了。懂吧。我无非在。
江争达: 那行,那我的判断标准就是啥,我上传一个,比如说我把这个到时候删掉,我用上传一张图片,直接让它生成那个动作视频,看看它能不能生成的效果和我们现在一样。
线下人员集体讨论: 对的,然后如果是差不多的。然后你再生成一个口播视频,如果效果也差不多,那证明前面这个绿幕你们就是脱裤子。
江争达: 答案。可以。
线下人员集体讨论: 因为从逻辑上来说是不需要的。行吧,我这有个电话了,我一会要开会议。
江争达: 那我就那你们就抓紧过,大概过一下那个叫什么来着,会仪表盘看看还有哪些。
线下人员集体讨论: 不是45吗好知道了好好好还有周密的申请脚本宣传
江争达: DM 的分析脚本生成其实就在和那个黑金的这个调研里面一起做了,等于那个西平那边把那个结果视频发一下。
线下人员集体讨论: 根据脚本,你看一下结果。
江争达: 发在群里面。
线下人员集体讨论: 那同时你你看一下那个什么,你的前端有什么要说的吗?
江争达: 我基本上都是一步一步往往往里面抠的了。
线下人员集体讨论: 我觉得你们的最大的问题就是重新从来不思考这底层到底是?那你往一股股抠完之后你返回头来不看了吗?这两个里面完全是重叠的两个视频去同时训练一个东西可能吗?
江争达: 我不是我觉得是有道理的你你等我后面测试完了之后我再告诉你结果,我觉得是有道理的。
线下人员集体讨论: 你这是。好,但我认为他没这个本事,它大概率就是通过一个视频学会了。
江争达: 对大概我对我们前端重构大概就是现在,首先我展示的是我们看得到就是新的一个前端的效果。
线下人员集体讨论: 对。
江争达: 然后我已经登录好了,就是这是登录后的一个状态,然后也参考了麦肯锡的风格。
线下人员集体讨论: 那你这个是啥,你这是一个云大哥的网页还是我们问答的网页?
江争达: 我们是对我们是问答的网页,但是我是想着是把到时候把云大哥的那个网页兼容进来,好好好。
线下人员集体讨论: 所以你上来就得说明白,我没时间了。
江争达: 然后入口就是我们的问答入口,就目前的知识库,我现在换掉了,我换成了一个别的一个 PDF大概现在是这么一个效果。
江争达: 就是我后面做了一就是优化了什么,就是加量,就是这块引用的这块做了一块这个优化,还有一块就是复制粘贴和,比如说的优化。
线下人员集体讨论: 这个时间问题今天参加不了你这么多了,你这样你整整合整合,明天是找再找,比如说找个一个小时,把你之前的这个数字人视频的这个和后面那个前端的,我觉得前端你上这个弄这么个大杂烩有问题的。
江争达: 对。二楼好的调用。
线下人员集体讨论: 你两你现在你你给我问你你用不用你的网页用不用你前段成功完了我要不要用?用不了它,你云大哥我能用吗?你这网页我能用吗?我现在肯定用不了,那我入口在哪?
线下人员集体讨论: 你做实验可以,你这没法用。
线下人员集体讨论: 那你就把云大哥那个韵问答的单独抽出来吧,同时在现有的网页上嵌入上你的这个弹框说那个什么?飘那个悬浮窗,你现在能把网页直接替了吗?你做不到吧?
江争达: 我做不到,就是我这个目目的就是把我们现在的问答网页直接贴来,就是,比如我这首页只是一块展示悬浮窗就是悬浮在我们的问答,这不是这样的。
线下人员集体讨论: 对,那你这悬浮窗你悬浮窗悬浮在哪?
江争达: 我想的是这个就是以后我现在展示的这个网页就是我们以后的首页,我们以后问答系统的首页可以这样做吗?
线下人员集体讨论: 这就是问题,我认为不行,到时候再说,知道了。
江争达: 行吧。
线下人员集体讨论: 谁张娜在线吗?从昨天开始吧!干啥在吗?那你继续吧,后来我们也讨论了一下关于那个数字人视频,你们再进一步的完善一下整个流程测试吧!
线下人员集体讨论: 现在是可用,我们不代表是最优的明显我们也商量过了,是有逻辑上的这些不自洽的地方?
线下人员集体讨论: 你们继续优化,但是前提是先接下来不是让你就我们给何所看了一眼合所认为还是可以的。那这样的话,我们可能就把这个合作的视频先生成一个另外一个,我这可能也需要我这接下来就有这个演讲,我有可能去不了,我就拿这个数字视频先用起来,他说你说我给你们一张图片。和声音,到时候你们看看怎么来生成,到时候那个演讲稿的演讲的文字稿,我可以给你们主页的文字。
线下人员集体讨论: 看看终于走到这一天了。行了,那你接着说。
江争达: 昨天就是我现在展示的是那个我们的问答系统的,我写的一个 PPT 就是主要内容就是说一下前因后果吧,就是第一部分是重构的背景就是为什么要重构?
江争达: 第二部分是重构,就是需求前的一些确认问题,第三部分就是需求生成。第四部分就是前端实施的步骤,然后第五部分就是那个结果,测试结果的预览,一共这五个部分,第一部分就是。
线下人员集体讨论: 基本上清晰。
江争达: 第一部分就是前端重构的背景,然后首先我们的问答系统就是这四个模块一共是 rag 模块前端展示模块用户管理模块和健全。然后因为我们前端不是因为我们前期在代码的编写过程中,就是我们经验也不足,然后因为开发规范什么的也不足,然后导致现在就是那个。四个模块可能代码都是比较混乱的。然后也不清晰。所以说我们准备。
线下人员集体讨论: 建议你我这个地方,我建议你把它整合出几个案例就是到底代码有哪些典型问题。要后来的人都要学习的,都要作为借鉴。
江争达: 可以行。
江争达: 对于这四个模块来说的话,我们首先关注的就是前端的这个模块,因为前端首先它的前端现在外部表现不太理想,还有前端的那个代码,冗余部分太多,然后嵌套太多,对后续的修改。也难度比较大。第一个需要重构的就是前端的这个部分。
线下人员集体讨论: 另外一个反思一下就是什么会造成这样的问题就是前期虽然说 AI 经验不足什么的,就把这些问题点把它暴露出来,你比如说。当时是因为边干边开发,然后边有功能边加等等这些问题,所以后来就延伸到了为什么需求规范的制度很重要,为什么这个分分模块开发可能很重要等等这些就是从之前的问题里面吸取经验教训。
江争达: 我记录上。
线下人员集体讨论: 不要说我重构完了就完了,下一次我再做的时候还是这样,然后还得重构,那就是愚蠢,知道吧,来回犯错误。
江争达: 行,就等于说,其实这个也是缺少背景的就是 AI 代码开发不规范,这些也是缺少背景是怎么怎么来证明它是一开始我们做的是不规范的好。
线下人员集体讨论: 并不是说要证明,而是要吸取经验,对为什么会出现不规范的这些现象,结果是因为之前什么原因造成的,未来还会不会在线,如果在线怎么办?
江争达: 明白就总结之前的那些问题。明白,那这一部分你比如说监狱还有什么不懂的吗?你可以问一问。
线下人员集体讨论: 好。
线下人员集体讨论: 这个方向,你有什么你能听懂吗?
江争达: 就这一块,就比如说我展示的内容,你能听懂不?
线下人员集体讨论: Activity. 您问我的意图是什么?
江争达: 我就想看一下我现在这个上下文给别人给的全不全,就是你这个问题,你你你吸收到了吗?就是你能你你能知道我想说什么不?
线下人员集体讨论: 因为前期我没有就是了解过这个问答系统,但是就目前的话就是刚刚连总也有说就是可能就是目前咱们的代码有些问题吧,但是至于说是怎么有问题,我也是感觉。
江争达: 对因为你没参与对。那我就换一句话问你吧,就是说那你比如说从这一页 PPT 里边来看的话,那你你不需要知道前因就是说我们为什么重构你大概能理解了不?
线下人员集体讨论: 也不是很离奇,比方说出现了什么问题吗?或者说哪里走不通了,导致我们现在必须要进行一个重构。
江争达: 还是有不足,我想明白行。
线下人员集体讨论: 缺乏案例展示知道吗?懂了吧,所以我让你把那些问题找出来,就这个道理。因为你缺乏案例展示别人是没有直观感觉的。
江争达: 行的,我知道了。然后这第二部分就是在需求文档生成前,也就是跟需求文档也差不多吧,它就是一个相互交互的过程,就是我需求文档里面我要确定哪些东西,然后我要考虑哪些东西,然后这一步就是。
江争达: 现在这一页 PPT 就是对这一块的展示,就首先你重构的话,你你有几个关键项,第一个你重构的技术站是什么?我们之前是没有技术站的就是纯纯硬性。
线下人员集体讨论: 这个名字我没看懂。
江争达: 需求文档前提前确认了关键问题。
线下人员集体讨论: 你读一遍那个名字这一页的名字。什么叫需求文档前提前关键谁有问题来解释一下。
江争达: 在生成需求文档之前。需要确认的东西。
线下人员集体讨论: 你生成两个字为什么不写,那是阅读需求文档还是思考需求文档修改需求文档?
江争达: 是思考需求文档我知道行我自己,我自己总结一下。
线下人员集体讨论: 对那什么叫需求文档前,什么钱就表达上的严重的问题。对。
江争达: 因为我描述不清楚,我还让人家改了一下,改像也就这样,还是我自己的问题。
线下人员集体讨论: 这你来提问你就会改成这样,老板。
江争达: 好!对那先接着往下说吧!
线下人员集体讨论: 说吧。
江争达: 然后第一部分第一块是那个前端的技术,我就技术站后面怎么选,我是让他先读我们的前端的那个模块,然后让 cloud code 推荐了一个统一的技术站。第二部分就是确定哪些功能是保留的哪些功能是不保留的最终的结果就是保留前后端交互还有前端的一些就是。I D 规范和前端的本地存储规范,因为也是用于与后端交互的,所以这些部分都保留不保留的就是前端自己的那些 AI 的交互页面的那些代码模板什么的,那些东西都不保留。
江争达: 我们重构的第一阶段,最开始做一个初步的图形是有哪些?要做的就是这个,第三个就是构建一套新的前端代码,根据什么那麦麦肯锡的风格,然后保留现在的 API 接口规范和前端 ID 或者。本地存储规范这些东西,然后不提供前端的就是不做的,是不提供前端的源代码和不强调是重构。因为你如果强调重构了的话,它你你你要在代码示例里面,或者说你给它的生成的需求文档里面有很多东西是重构的内容,但重构它就涉及到以前是怎么样的,后面你想改成怎么样,那这个部分内容其实对上下文影响还是挺大的。
线下人员集体讨论: 我觉得以后这样吧,你自己先不要你先不要给人工智能任何提示词,让它生成一遍,你这个东西我跟你说实话。
线下人员集体讨论: 都是你自己强力的逻辑推动下产生的东西是不具备整体性的啥意思,我告诉你,你这个都已经到积累了最后的东西拿出来给我们说这个不能做,那个能做?
江争达: 对这里我是少一步,我知道我少一步为什么保留,为什么不保留或者为为什么只做不做就是少了一步内部。
线下人员集体讨论: 首先是前面有哪些大的功能模块是有问题的。你前面讲的只是代码这个那是一个宏观的认知?
江争达: 对对的。
线下人员集体讨论: 那你具体的你具体到你的代码里面,你的代码现在目前比如说你说功能不保留什么功能都不要了。
线下人员集体讨论: 那我保留哪些功能不保留哪些功能?你前端的代码里面所有都没有了重构,我问你重构的功能又是什么,你重新写的功能又包含哪些?
江争达: 是这样的,首先前端的纯前端的功能模块都不保留。
线下人员集体讨论: 你不得不?那你做什么,你那等于说我写张白纸,那你就不用开发了一张白纸就不要开发了你开发来干?
江争达: 对写一张白纸。然后后面一个加?
线下人员集体讨论: 所以你这个逻辑就存在严重的问题。就是之前所有思考的东西,通通白费是吗?
江争达: 不是我是分了两个阶段,我要不先给你看,第一个阶段,你可以把它理解成一张白纸。理解成一张白纸,你先把 API 的接口让前端先写下来,然后后续如果前端没有的,比如说 UI 的交互页面或者 UI 的模块。
江争达: 你在第二阶段通过?
线下人员集体讨论: 你这边写的就还是有问题的,怎么你的逻辑还是不清晰的,什么意思?第一章可以这么写,第二章很清楚。我想要达到什么,明白,你第二张就写的是我想要达到什么,然后才说为什么现在的不行,所以我要重新写。那我说难听一点,那要是过去不能用人工智能编的时候,你要重新写他们所有人把打死我告诉你,你现在是因为一句嘴,人工智能帮你写,写完了,那过去能这样吗?开玩笑。
线下人员集体讨论: 你这逻辑根本不符合任何决策需求,你必须说明白为什么要重构,为什么要改改哪些,如果说全部都不能用。
江争达: 我在这篇文档之前再加一篇?
线下人员集体讨论: 你明确你想要什么,明确指出现在的前端里面存在的就是除了刚才说的整个的大问题之外,你前端里面存在哪些问题?
线下人员集体讨论: 那否则没有问题,你为什么要改你前端的问题是啥?你说清楚了吗?
江争达: 还是缺少第一部分的案例。
线下人员集体讨论: 不是案例,这是分析,就是你要统代码扫描完了,你自己看完了,你把现在的使用的和代码扫描出来的,你们认为的问题。汇总归类,然后把它说到了,现在前端都有哪些问题,然后你说我想要什么,他现在达不到,那我才要重构吧,否则我有吃饱了撑的,我去重构它。
江争达: 这里。
线下人员集体讨论: 我就是问你一句,你不饿的时候我塞给你吃,你愿意吃吗?你不会吃的,你说我吃饱了撑的我还要吃你不闲着没事干吗?你做这个?所以前端。
江争达: 但是对但是好像我的思路和你就是我,好像走偏了,你看我的衍生问题的第一点是,如果我在现在。整理前不是 API现在就比如说第一点问题是什么意思现在我。
线下人员集体讨论: 你上来具体问题了,现在还没轮到谈什么 API 的时候?你上来就跟我说的是我怎么比如说我吃一顿饭,我上来什么吃甜点还是吃他妈的这个汤,我现在饿不饿你都没告诉我你让我吃汤还是吃甜点,这不扯淡吗?
线下人员集体讨论: 你得先告诉我饿没饿。明白了吗。
江争达: 那我再想我。
线下人员集体讨论: 你没有前提,你为什么要去吃饭?
江争达: 首先我要重构的前提是我现在的代码领域,或者说是对未来改动的,你知道吗?
线下人员集体讨论: 那是你全部的四个模块,你上面说的是四个模块,你现在前端具体暴露出哪些问题和代码扫描之后,用人工智能读完之后暴露出哪些问题以及你未来想要什么?
江争达: 对不是。
线下人员集体讨论: 你不得把它整合起来吗?告诉我现在不能满足我的需求。
江争达: 就是现在主要问题就是组件冗余和那个嵌套太多了,所以说你改那个前端的那个页面功能的时候,你有的时候那个渲染加不上去,或者 UI 那个模块加不上去。
线下人员集体讨论: 这个地方我告诉你,你不能用这么简单几句话就把它概括出去的,不光是案例是一个分析。
江争达: 行,我因为我那我知道了,那这一块其实等于也少一个案例分行。
线下人员集体讨论: 你前端去代码,你比如说很简单,你想要的表现形式是什么样子的,那你就告诉我,那你我跟你说,你如果不把你想要的东西告诉我,你身上下下下面生成的,你怎么保证还是我想要的?
江争达: 好。
线下人员集体讨论: 如果要又要重构,你告诉我前端又不理想,外观展示又不理想,你再重构,你得把明确目标表示出来吧,大家得讨论吧,你现在问题在说你不讨论上来就干了,当然了,现在快。
线下人员集体讨论: 我就说你这个做法通通都是落后的。我告诉你大概率你又得重构一遍。
线下人员集体讨论: 那你需求不明确,你说外文我就第一句话展示效果不理想,什么是理想效果。你告诉我来,你告诉我什么是理想效果?
线下人员集体讨论: 麦肯锡那个风格,麦肯锡什么风格,你得他妈的把那个这个叫什么设计图先画一张出来给我看看,你得有吧,所以你的需求文档上是不是得写,我要达成这样的一个目标,这样目标对不对,大家还讨论吧。
江争达: 那我知道了,就是我这个整体的是缺少一个需求到目标的一个映**现在可能只有一个需求,但是没有一个目标,明白了。
线下人员集体讨论: 对你没有目标,你往哪儿走,不目标也是需求的一个主要的推动,你没有目标,哪来的需求对你没有目标,你说组逐渐冗余,那怎么叫冗余,怎么定义冗余?
江争达: 我理解,只是我没展现出目标。行我明白了。
线下人员集体讨论: 你得把它理想,这不是一个规划文档知道吗?这已经是个操作文档了。
江争达: 不明白行。
线下人员集体讨论: 行吧,你这上来就给我诠释这些具体的我根本不知道怎么决策,懂吗?我不知道怎么决策,我也不知道你未来的目标是不是对的。
江争达: 行,我这个我行我下次再写我是我的初中这个 PPT 其实主要是就用于就等于结果汇报的一个。
线下人员集体讨论: 你结果对你说的很对你上来就把结果给我了,你就跟我说你要喝吃甜品,你要吃什么汤,我现在饿了什么,我的营养缺乏是什么我都不知道,你说让我喝汤吃甜品。
江争达: 对。
线下人员集体讨论: 逻辑完全混乱。
江争达: 这个是我重构前可能就是右边这一块的话,延伸问题,结论的话是我。
线下人员集体讨论: 走吧。
线下人员集体讨论: 这都不是我要看的,如果半截走错了,你这些东西我都不要懂吗?你前面逻辑如果不合理,这些东西我怎么可能认?
线下人员集体讨论: 比如我决定最后说我不想吃饭了,你跟我说汤好喝,他们甜品好吃有用吗?有没有用,我问你前面都被否定了,你还跟我说这些东西不浪费我时间吗?
江争达: 这个也是相辅相成的,这两边对不就是缺少一个最终的目标?
线下人员集体讨论: 那是后面要讨论的事情,你先告诉我饿不饿,不光是目标和原因。
线下人员集体讨论: 你这上来就是怎么做你,所以你以后学习逻辑思维就不行了吗?你上来就是 how 不是这样的,是 why 明白吗?上来是先 why。
江争达: 这一篇的时候我知道我是少了一层,就是前边为什么做这个决策我知道我 PPT 对。
线下人员集体讨论: 对你这个 Y 根本就没有展开,上来就是号都不是号了,已经是做成这样了,走了不是 how to do 行了。
江争达: Y 确实我是想写没写出来。
线下人员集体讨论: 往下走吧。往下走。
江争达: 这就是需求文档,然后要按你说的,其实你比如说核心目标的话,它优化成一个什么效果,交互优化成什么效果代码结构?
线下人员集体讨论: 当然了,对你这么空洞的描述我怎么批,你干完之后告诉我不满意他妈又得重来,你我怎么批?
江争达: 我知道了。
线下人员集体讨论: 我再说一遍需求文档不批准的时候不准开发你们再这样干以后就给我滚蛋需求文档明确了你这个需求文档根本就没过你跟我说重构完了你还得美滋滋的。90%是不可能不用不可用的,我告诉你,你探索一下技术原型可以。你不能拿这玩意儿用来开发的懂吗?
线下人员集体讨论: 你什么这叫需求文档吗?你这不叫学文档,你这叫开发动机知道吗?
线下人员集体讨论: 行往下走,你说你展示效果优化,怎么展示你效果做成什么样,你交互体验优化你准备做成什么样,现在的问题是什么?你缺什么?那你想要做成什么样都没有。
线下人员集体讨论: 代码结构可维护性,那怎么提升怎么优化也没有?
线下人员集体讨论: 往下走。你把所有的重心在于前后端对接你的核心重点是这个吗?
江争达: 那我就跳一下别的那个文档,我问一下,比如说后续我的需求文档是不是就是比如说我要给他一个,就是像这种的一个目标。等于我的需求里面其实也要有目标。
线下人员集体讨论: 追求一步步梳理的从粗到细,一步一步一步一步梳理的为什么要交互过程!
线下人员集体讨论: 不是上来到最后结果的,你要一步一步把你的流把你的思想逻辑去完善的,你很简单,你前端的设计你没有画的草图,我怎么可能批准你设计?
线下人员集体讨论: 怎么能批准你去开发,你得有草图吧,现在生活也容易,你总得生成几个草图吧,你这样的话你才能知道往下走,你交互逻辑你总得画几个交互逻辑吧。
线下人员集体讨论: 现在的问题是什么?你将来要做成什么样的逻辑,你清楚吧,你你没有这个逻辑,我问你你怎么开发?
线下人员集体讨论: 我不管杰米那给我生成了,我觉得挺好,该怎么改?别人怎么接,重新让他代码再读一遍,用人工智能再读一遍,每次都读一遍是吗?所以。
江争达: 那就换你比如说前端的交互的话,这个逻辑是我全部先定好给他说让他自己生成,然后我再。出最终的文档,这也是一个问题。
线下人员集体讨论: 这问题你脑子是坏掉了才会问的是个问题,还是那句话,我今天想吃什么是饭店给我做完之后我端上来说我不想吃,你再端下去是吗?是这个逻辑吗?没想好就不要去吃,没想好进,你说我他妈清真的,你进他妈的这个猪肉馆,你有病吧?
线下人员集体讨论: 你是那样是挺偷懒的,很快做完一个了,你看美渣渣的后续该怎么改?别人怎么接,说了多少遍了,又来这个问题。
线下人员集体讨论: 又是这个问题,死改不了。
江争达: 哪里的问题,这个问题。
线下人员集体讨论: 哪里问题没有需求,不准开发,还哪里的问题,你需求根本没有描述清楚。
江争达: 我是需求,那是对,所以我这不是我自以为描述清楚了,所以白了就是缺少一个目标或者验收的标准。没有。
线下人员集体讨论: 所以你你刚才提那个问题是让它生成之后再生成文档,我简直我都快疯了,你知道吗?代码生成了倒回来写文档,这是你的想法是吗?
江争达: 目前来说也是只能这样。你在一开始?
线下人员集体讨论: 你就别干这个事情前端开发你干不了就不要干了因为你根本没经验所以你提不出东西来所以你只能让人家生成100然后再回来自己怎么补你所以你脑子里面是空的。
江争达: 那不是你你你要从实际的角度出发的话,你如果把前端的所有的交互逻辑全部在一开始规划好的话,那它生成出来一定是不行的。这个是 AI 线状,我就拿这个比方!
线下人员集体讨论: 谁告诉你的,你做不到不代表 AI 现状这样,你们用那个视频生成也是一个道理,你不会用。你不要说怪人家人工智能 AI 怪你们不会用,还说我规定好逻辑了,他一定是不对的,你简直说这话是我的震惊!
江争达: 那你就这样,我写了一个接口规范给他,我就一句话,严格按照接口规范给我生成前端的代码。就是 API 的规范的代码它最终就是生成不到我一开始要的十17个接口它就只生成了九个。这是我遇到的问题这是我是让他严格按照我的接口。一个都不生产
线下人员集体讨论: 你什么都不说它就能生成17个那我问你你什么都不说它能生成几个不就完了吗不就完了吗说明什么说明你一次生成17个是错的你工具不会使用。
江争达: 按照他的量给他行,知道了。
线下人员集体讨论: 你基础的规划都没有,你就脚脚踩西瓜皮滑到哪算哪,然后生成完了倒着写,我问你这将来。
线下人员集体讨论: 我能交代你去做我想要的事情吗?那我说难听点,我还要你干啥,我直接一句话跟人工智能说完不就完了吗?我要你干啥?
线下人员集体讨论: 想过吗。你写了那么多,还不如人工智能不写的好,我问你我要你干啥?这脑子都不知道怎么想的。行了再说一句。如果没有需求文档去开发以后就不要干了!
江争达: 对所以这个就叫有需求文档,但需求不明确,需求文档没写好,那没有需求文档怎么能没有需求文档那个东西哪来的?
线下人员集体讨论: 你不是你刚才已经彻底暴露了,你就是一句话,生存完了之后你回头再补的,也许就会讲,你需求文档,你不是说了吗?我需求文档写完了之后,它还不如还没有达到我的要求,所以我不要了。
江争达: 首先我这个问题我要说一遍,就是你的需求文档是给谁看的,一个是给自己看的,一个是给 AI 看的。你你在跟 AI 交互的过程中,就是你需求明确的过程,也是你自己的需求文档,就你脑子里边是你自己要有一个需求文档的你如果说你把你你自己脑子里边是你是要把你自己脑子里边的需求文档给 AI还是说要给 AI 他想要的需求文档?
线下人员集体讨论: 你有吗。
江争达: 这是两个问题,对我现在就是把我脑子里边的,就比如说这块是我想让第一阶段,我给他的是我脑子里边想要让他知道的,别的我都不给。
线下人员集体讨论: 把你脑子里面的转换成它能识别的?
江争达: 但是你说的那一句是对的,我没有给他明确的目标,但是你要说是没有基于没有什么需求文档来开发的话,那我前期这些想法什么的,都是我需求确认的过程。你不可能说是没有需求文档的,那你你换句话说,我的需求文档我都已经明确到什么需求是我自己要明确的什么需求是要 AI 来明确的,我已经需已经细化到这一步了。
线下人员集体讨论: 那你生成的需求?
江争达: 需求。
线下人员集体讨论: 那你把需求文档拿出来,你是你从你的表述来看,我认为你没有,你说你有那你表述的一塌糊涂。
线下人员集体讨论: 甚至跟我说先生成代码再回头补文档,这也是你说出来的 Thank. 对,所以我就告诉你我是不可能被不可能接受的。
江争达: 对都这都是我说出来的,我都认这些我都做。这是我的第一版需求文档,这是第一版好。
线下人员集体讨论: 如果你这么做那是绝对不可能的。如果你说我生成完了,倒回来生成需求文档。那你在糊弄鬼?
江争达: 这是我第一版需求文档。
线下人员集体讨论: 上来就是错的,你要给的需求文档是我要生成一个什么东西,目标就没有上来就是怎么干,保留当前功能。你搭的框架就是没有的,你上来说我想要一个什么什么,我不要,你看第一版,你给我最终的给人工智能看的。
江争达: 首先这是我的第一版需求文档,我根据它。
线下人员集体讨论: 我不要你看第一版了,你也别给我看你的第一版垃圾,你给我最终的有吗没有是不是没有?
江争达: 有等一下。
线下人员集体讨论: 你没有一个明确的目标,你说我要做个需求文档出来,不是不滑天下之大稽吗?你连目标都不清楚,你能做出个需求文档出来,你往哪儿去需求?天天给你弄这种地方浪费那么多时间以后你不要汇报了,太浪费时间了,每次给你调整逻辑,毫无意义,耽误大家时间以后这种东西不要你再做了。你也别再汇报这些什么逻辑上是你你你自己先去学习去吧,学习什么好了,什么时候再汇报,别浪费大家时间明白了,太浪费时间了,以后你就直接拿结果出来,结果能用就用,不能用算了,你自己慢慢去理解去吧。
线下人员集体讨论: 回到那个仪表盘,你说你找不到最终的需求就没有,不要在那硬撑。
江争达: 对。
线下人员集体讨论: 你分进脚本,上次分镜脚本还没说完,直接跳到问答了你分镜脚本,对上次没说。
江争达: 就 jma 那个分镜脚本西平展示一下视频就直接看视频就行了,不要过多汇报了。
线下人员集体讨论: 对你们汇报不清楚看结果吧,不行就让别人来带你别扯淡了。
陶西平: 这个是我用手针加尾针的方式生成的视频。
线下人员集体讨论: 你分定脚本?
陶西平: 是稳定脚本等一下。
陶西平: 左侧的是到第一个分镜脚本。
线下人员集体讨论: 你你你先说一下。你现在的整个的流程是什么?简单说一下。
陶西平: 整个流程的话,首先是第一步,我是使用了那素材的一个绿幕,然后根根据绿幕去生成。使用 banana 去生成一下我视频后面需要用到的图片素材。然后生成了图片素材以后我就是和使用,让下面来帮我生成分镜脚本。
线下人员集体讨论: 就是四个八秒32秒的一个交代什么。
陶西平: 然后。对的,然后我就使用首帧第一步第一个方法是使用首帧加尾帧的方式生成这个视频。
陶西平: 第二种方式是使用视频扩展功能,就是在一个视频上拓展生成视频?
线下人员集体讨论: 我知道那你是什么意思,你是首位生成四个八秒之后再扩展,说在第一个视频之后就扩展?
陶西平: 我是两个部分第一个也是32秒的但是我用的是同一个第一个视频用的是同样的。
线下人员集体讨论: 两个部分第一个生成了32秒的然后后面又用视频扩展生成了多少你先说我也没听懂待会说吧等他说吧往下走。
江争达: 听不懂你说的是啥?
陶西平: 我这个视频扩展功能,因为它是要从第一个视频开始扩展,我第一个八秒。
线下人员集体讨论: 就是从后面的32秒生成第一个32秒之后继续扩展第一个八秒对我就跟你说你到底是第一个生成手手尾针还是第一个开始扩展你是从第一个就开始扩展了是吧扩展生成多少秒
江争达: 对。
陶西平: 包括第一个生成的话?
江争达: 他的这样的你的第一个八秒视频是通过首尾帧然后加上第一个分镜脚本生成的后面的。24秒的视频都是直接通过脚本二到脚本四然后扩展生成的是这样的
陶西平: 对的是视频扩展的这部分。
江争达: 我这文档我看过了。我才能把它表述出来,不然我也表述不清楚。
线下人员集体讨论: 真不容易你能理解清楚。是你看一句话的事情就是一句话的事情流程你说完了就已利用首尾帧生成前八秒视频后面应用延迟延长视频的生成剩下生生成剩下的24秒。利用脚本来生成结束了。你们回去好好学练习语文吧行吧往下走吧
陶西平: 就是第一个分镜脚本。然后就对应的现在是第一个视频。
线下人员集体讨论: 没有声音?
江争达: 共享好像没有声音吧,共享能放声音吗?
陶西平: 等一下。我看一下可以吗?
线下人员集体讨论: 你把那个打开不对,它是从那可以出来的,好像你那视频有声音吗?你自己放出来的有声音吗?
陶西平: 有声音的。我自己放出来有声音。
江争达: 你发群里面的是29秒不是八秒你把八秒的也发群
江争达: 不你先别动你别发那么多你你就发一个八秒的和你最终的那个44个分镜结合的视频就行了你你你发这些干。
陶西平: 四个分界我没有结合,我就是每个分进一个每个分解一个。然后扩展的话是在一起的。
线下人员集体讨论: 所以你看刚才理解也是不对的知道吧我刚才理解第一个是对的生成了四个八秒的然后他用第一个脚本视频又生成了后续的24个24秒的。
江争达: 对我那你就是啥意思?
线下人员集体讨论: 生成了后续的24秒的它有两个32秒的。这样理解他也不知道。
陶西平: 你是指说的是哪一个?
江争达: 爱吃的不是,首先你脚本?
线下人员集体讨论: 不用管了,你放吧,你让他先放吧,不要再总结了。我先放吧,放完了之后就知道。
陶西平: 这个是第一个使用首帧加尾帧的第一个分镜脚本。
线下人员集体讨论: 你动作节奏完全没有。
陶西平: 对的我就是我的提示词里面是有让他包括脚步对的。
线下人员集体讨论: 你这是用 veo three 做的,你的里面所有的词都是这个,就这是你输入的所有的东西,我脚本一。
陶西平: 后面还有新的脚本。对的第一个视频动作是这边。
线下人员集体讨论: 第一个视频做的行了我知道我告诉你你一个致命的错误你知道吗vu three 根本不认中文 prompt 至少有八个单词是英文的才能启动,所以你压根没可能就没这个 problem 根本就没用。
陶西平: 是这样的,我,他那边会变成英文的,会变成这个英文的提示词。
江争达: 你翻译过来了?
线下人员集体讨论: 你打开我看看你这里面,我看你根本没有任何一个 problem 是起作用的,那就很怪,你看江泽南你看到我发的那个没有?
线下人员集体讨论: 视频的手势,完全按照我指令行动的,为什么到你这连动都不动?你你你到底下点开你就根本没有动作。你对淘宝肯定根本就没有动作。
陶西平: The pickle? Staggering. reshaping in the school 巨大的力量We are on the verge of.
江争达: 那你也不是你给我们展示的封禁脚本。
线下人员集体讨论: 放了不要晃了,刚才回到刚才生成第一个富有的视频,你打开底下的。
陶西平: 对打不过。
线下人员集体讨论: 你看你自己看了吗?提示词。
陶西平: 等一下好像不是我。
江争达: 才是你的分析脚本,你是用中文写的,没有英文。
陶西平: 对才是我在提示词。
线下人员集体讨论: 有英文吗。
陶西平: 我们没有。
线下人员集体讨论: 你有英文吗?有没有你张部长,你把我发给他看看就给你共享一下,和我那个提示。
江争达: 会以前发过了,对陶一明发过给他看。
线下人员集体讨论: 发给谁那也行,你你打开我发那个和提示词,你给大家看一眼就是很所以我就说你们说这个工具不是我现在都严重怀疑。
线下人员集体讨论: 你们根本就不会用工具就刚才江总长你说的也是什么17个生成不了生成九个你上下文管理根本没到位。所以你们对工具的理解很差就往里扔就把人家当成个**一样往里扔人家其实认为你们是**你根本都不知道我是谁,你就让我做那。
江争达: 徐龙我发你你你展示一下。我因为我这边放也没声音。8.4。
线下人员集体讨论: 185。我这还不是首尾针我这就是一单针做一下话筒
线下人员集体讨论: 一斌你看到了吗?你潘一斌听得到吗?我就说你看到这段提示词和这个手势了吗?
陶西平: 我听不。我们没有。
江争达: 我中午发你的?
线下人员集体讨论: 不,你屏幕上刚才没有看,刚才没有共享,没共享,你中午发的江南发给你的,你看到吗?看了吗?没看。
陶西平: 我看到了。
线下人员集体讨论: 对你提示词你看了吗?
江争达: 这次我给了。
线下人员集体讨论: 所以我就说为什么同样的工具生不出来的东西完全不一样,你看你这个 prompt 压根就没动。另外你爷爷没让他做手势,他的手势就出来,我记得这个手势基本上完全是绿幕视频的手势。
线下人员集体讨论: 你是不是上传了一个你你这个手势生成是怎么生成的?我看看你有什么 problem 让它生成手势了吗?
陶西平: 我的 prompt 就只有。
江争达: 你就直接切到你 VOE 的生成页面就行。放那儿看着吧!
线下人员集体讨论: 对你到 VOE 是在这写一个根本看不出来以后跟你交流真的很辛苦,前因后果都说不清楚。
线下人员集体讨论: 这是第几个,你第一个是哪,这是第还是第几个?
陶西平: 是第一个?
线下人员集体讨论: 没有停下脚步往前走就停下脚步,他轻微手势是有一些的,但这个轻微手势我怎么觉得和这个手势是绿幕视频上面带出来他自己生成的?
江争达: 那肯定是自己生成的,因为你上传的是图片。
陶西平: 我没有上传录,我没有对的。
线下人员集体讨论: 那就是自己生成的,所以你看没有你的 problem 压根没用,第一,你让他走,他没走,你让他手势他不清楚他自己生成的?
线下人员集体讨论: 所以你的 prompt 的执行完全就很弱,你的控制能力,但是你看我给你的 prompt 里面,他就完全遵循指令遵循的非常好。
线下人员集体讨论: 明白了吗?所以怎么办?
陶西平: 我使用英文?
江争达: 对重新做你这个就跟黑镜的那个平台用完是一样,就所有的功能都不知道。
线下人员集体讨论: 行吧。那你看一下最终生成的吧!最终生成延长的,我再看一眼。
陶西平: 好。
线下人员集体讨论: 这是32秒的是吗29秒知道了
陶西平: 每一次的探索都是我29秒都是。每一次的探索都是我们重新定居的开始去相信去行动让微小的感愿交竟成巨大的力量因为真正推动变化的。从来不是技术本身而是使用技术的你当我们真正开始理解技术的解放我们也就开始掌握了改变的方向。
陶西平: 未来不会等到任何人,而真正走在前面的人是敢于选出下一步的你。
线下人员集体讨论: 你 problem 我看一眼你生成那个延长视频的 problem 我看一眼。一个 problem
陶西平: 延长视频和是一个 prompt。是脚本二的
线下人员集体讨论: 你把那个脚本是独立的,八秒我看一眼。
陶西平: 脚本是独立的八秒。
陶西平: 因为未来不会等到任何。因为未来不会等到任何人,而真正走在前面的人是展于见出下一步的你。谢谢大家。
线下人员集体讨论: 你的手尾针的图片,你每一个都用这两个图片?
陶西平: 首尾针的图片是对的,每个都用这一个图片就是首尾帧图片是一样的。
线下人员集体讨论: 首帧也是一个图片,尾帧也是一个图片。
线下人员集体讨论: 是可以的。
线下人员集体讨论: 你好歹也生成一个往前走两步的视频的图片生成个图片完全一样的那他那视频默认他就是不动的。行吧知道了大概弄成就这样了但是我告诉你们就你们这个尝试那水平太差了同样一个东西在你们手里用出来那就是完全达不到大家的想象的效果。如果是这样的话你整个先进工具你们都没有对你们来说就没有什么价值人家能做出一个什么90分的你可能连50分都做不出来这没法干了这个。那你自己好好想去不行的这水平能力。
江争达: VOE 就 VOE 这个就是你今晚或者明早你最起码你自己说的清楚,也是我不帮你汇报这个 VOE 的原因,为你这东西我都看不明白,你拿什么来汇报。知道吧,你看黑镜那个我是自己又摸了一遍我才敢来汇报的,那我都被怼你这个你你这你拿什么来汇报,怎么汇报?
线下人员集体讨论: 所以生成质量也不行,整个逻辑也没有,我就没法听了,但是我自己你看我就自己试了十分钟都不到,那天跟将来我随时。拿出来大概用了五分钟,我就生成这么一个视频,我用单帧生成的还不是首尾帧,所以就不太一样,你你你们花了那么长时间,你说这个效率怎么弄?然后说还说不清楚。这浪费不起的时间,你们也浪费不起,我也浪费不起。
线下人员集体讨论: 没那么困难的,我记得非常清楚的,那 vo three 它我不知道你的 lab 里面有没有这个要求。v three 里面要求非常清楚,要用英文的 prompt 是最好的效果你你没有接收到效果没有接收到这个提示。view three 现在他对英文的遵守是好的中文,它目前好像是不行的。你看看刚才我发那几个 problem 你就知道了,它的指令执行能力有多强。非常强,这个视频我觉得如果按照这个指令就非常吓人了,你知道吗?这让我大开眼界,知道吧,但是你这个视频出来让我大跌眼镜。
线下人员集体讨论: 就完全不同的就 VEO 如果是你来汇报就大跌眼镜,啥玩意儿,拿我去汇报**大开眼界能做到这种程度。知道了吧,就完全不同,这效果就汇报的效果完全不同,我还没有完,但是时间关系我没有继续往下生成,如果我继续往下生用非常好的这种指令跟随。用非常好的想象力来做一段视频,那是不得了的,所以我看了网上那么多好的视频 VU 所以生成的你们生成这玩意这么困难,我实在是不能理解的。所以不如果自己没有这个能力,多学习到网上看看你没有 VPN 上 youtube 上像 twitter 上 reddit 上好好看看人家在用 video three 做啥。怎么做的,我一直跟你们说 ar first你先从别人那学不行跟人工智能学不学闷着头干干完之后不行再来时间反正不是自己的生命也不是自己的浪费。
线下人员集体讨论: 你这都啥想法,年纪轻轻的不要这样叫什么?就是没有这个活跃的思维,多学习,从各种网站知识上面去寻找别人的先进经验,然后寻内化为自己的能力。不然的话你就在原地踏步给你,我就跟你说。我给你一个轰轰轰隐形轰炸机你都会被别人步枪干死,就这么简单!你这个 VU 所以在你们手里会用成个啥了都是能力没发挥出来我就说给你个轰炸机你都打不过人家狙击步枪一枪把你干死。懂了吧所以当时为什么我就不多说了人的能力是差别大的朝鲜战争啥都没有最后跟美国能打成那样不容易的。那人更何况你们现在手头都是最先进的工具你怎么怎么懒成这样脑子不动就这些第一张视频第二张视频一样的这逻辑我都觉得。用我以前很少用这种英文单词的知道吧。ridiculous 荒唐很荒唐,就是完全不动脑子的人在干活,哪能这么干事?
线下人员集体讨论: 手尾针你看你哪怕我没时间没找到我让加拿大只给我一张图片,那我就一张图片做我回头再完善后面那张,比如说走走两步或者怎么样,你这个简直是把偷懒发挥到极致了,两张一视频做手尾针视频。一直图片做,我是没法接受的,只能说你把让我认识到了。
线下人员集体讨论: 不动脑子工作的是最新最高境界就是完全不动脑子。
江争达: 还有就是这个效率太低了我跟你说你你你微微你基本上这一周一个数字人周末我接过来。We you. 你11个星期都在搞这个你搞成这样
线下人员集体讨论: 你们回去好好想吧我不多说了这个效率太低了行吧先往下走吧但是告诉大家是什么就是我演示这个视频的核心那第一个是给大家工作方式讨论就我提出批评更重要的是大家知道现在已经发展到什么水准。VU 整个基于 gemma pro 的多模态的模型的能力已经非常吓人,就是下一步。
线下人员集体讨论: 所有的公司都会往上追往这追,但是翻过头来让我们想的一个问题是什么?你知道吗?我们要把多模态能力集成到我们的工作里面来了。就过去我们大量是以语言模型为核心的知道吧,所以未来一定是多模态的输入输出为核心。
线下人员集体讨论: 那多模态的工作流怎么组织,我觉得是要思考的多模态的工作流组织对于我们产生更好的输出。是非常有价值的,这是我这两天一直在思考的事情,怎么把多模态融合在一起来说能我们更好地来产出。
线下人员集体讨论: 这个产品无论是视频,文字图片怎么融合在一起,是非常有价值,而且就从我看下来,就 PPT 是一个比较集中的就 PPT 现在已经。就超出我想象了使用的能力那天对了张娜你把那个拉修改的视频发出来听见了吗All right.
江争达: 听得到。
线下人员集体讨论: 我就恨不得我现在有十个脑子来帮你们,我一看到东西我就能感觉到这真的很有价值,但是你们就怎么就用不好。太怪发了吗?你共享北京你共享也行。
江争达: 发了,但是还没那么快。人口工厂。
线下人员集体讨论: 现在 PPT 生成里面不是有文字有变形。这种他喜欢玩的游戏,他就开始生成了一个图片设置图片之后。他就改字是自动可以,现在可以自动提取文字了,而且字形可以直接变成跟图片上的文字的字形是完全字体一致的。这就很吓人,所以这个 lavas 很厉害,接下来我觉得他基本把图文那些工作就包揽了,你看它这可以直接写,看到了直接修改文字。所有文字都能修改,这是你想要的吧,不知道。
江争达: 我还要测,我测评,因为我发现了有些不行,我得确认我刚才。
线下人员集体讨论: 行,现在就主要是文文字,现在你看大部分就像你看这个 PPT。
江争达: 对。
线下人员集体讨论: 我们原来生成视频里面文字如果修改是现在原来图片不是困难吗?有了之后其实就很容易修改了,那这样的话,你的 PPT 几乎几就几乎就是完全不用改,对,就简单改一下就好了。那你想过没有这种多模态输出能力多吓人。另外一个我建议你们在 notebook 里面最大的问题是他那个字体对它是低分辨率的高分辨率做的不好。所以,如果未来诺那个 pro 版本如果能够直接生成高分辨率的但是需要很长时间成本也高估计但是他现在马上能的。Nano Banana. 叫 nano 版叫 flash 版要出来了,是快速生成的,所以就是估计是蒸馏过的。蒸馏了一个模型出来,如果这个出来之后,效率会很快,也就意味着这个多模态会成为我们非常重要的一种手段,那我们怎么把它融合到我们的工作里面去?
线下人员集体讨论: 你现在我们要来什么叫什么证书识别了,我相信都很容易,我相信非常容易了,就不再用做单独的 OCR 模型来做了,我告诉你。可能直接就比那个 T它有 thinking 能力,比如 CI 模型能力强多了,它有 thinking 的能力。所以你你想到的所有原来的那些工作流里面可能。都会有改善甚至都有大幅度的提升。那我们的叫什么reg 有没有可能 rag 有没有可能?以前基于图像的 rank 是不好做的,这些问题都会改善,所以我就说这个多模态能力的提升,它不是一个现在网上在做那画画图什么这种东西。他对我来说,那是小儿科,那是应用的小儿科真正的应用是怎么融合在我们日常工作里面的这些日常的。
线下人员集体讨论: 输入输出的处理上这个非常吓人,我要给你包括视频,我们现在还没有以视频为主的这样的一个。产出方式,但是现在开始生成了开始做了视频我们要开始着手视频是最容易信息浓度是最高的,图片和视频的信息浓度是最高的。比文字高多了,文字以后有可能只是一个概述性的东西,刚引进东西,文字,比方说剩下细节全部看图。因为人对于视觉识别是非常适应的,所以我就说。这样的一个能力,未来马上 GPT 可能要发布新的模型,这个模型估计也是多模态能力极大提升的,也就意味着所有的模型都会忘了。多模态上转,这是必然的,而且核心的是他们会相辅相成,就是文字,视频和图片,他们三或者语音,他们几个是相互印证的。所以会互相促进他的能力越多模态它智能会越高,对这个世界的理解,对思维的理解,因为原来人家只有模型,你有的时候就是觉得他。
线下人员集体讨论: 在某些方面缺里边说到一个视频上怎么描述都描述不好,怎么图片描述都描述不好,现在不用了一幅图什么都解决了。知道吧,所以这个角度来说,我觉得对整个人工智能推动应用,包括他自身的能力发展和推动整个应用的发展。
线下人员集体讨论: 是个巨大的进步,就之前没有人能把多模态能力做的这么好,没有感觉是文字,大家都玩一玩腻了,对一直一直都在攻克文字,对现在转转向多模态了,对!文字的包括一些抽象的推理什么这些东西还是强项,但是我认为随着图像的或者说对于多模态能力的处理也会对。那个推理能力也会有极大提升的,这些都是你们不会思考的问题,我来帮你们抽象出来思考,这其实是我经常要做的事情,而不是天天给你们要理那些破玩意,你知道吧,底层的这些东西什么这个文文 prompt 该怎么写什么,这些东西我是要教你们,你们这东西应该自己学习的网上天天都在那么多人在使用,你不学吗?你你学的十分之一都不至于做成这样,我得有时间腾出来替你们考虑这些方向性的问题。则落地,就这些方向性的东西怎么落地,所以就是这种多模态的,我现在思考我们未来这种动态能力能用在哪里?你现在很清楚 PPT 就不用再写了。我跟你说实话,我自己根本不会再去写 PPT 了。基本上我把我的思路告诉他对整个我思路的理解形成的 PPT 比我自己写的还好。
线下人员集体讨论: 你这就像过去的文字一就文字,你产出一段,你可能没他写的好的,现在 PPT 到这个时候了,你可能没他写的好了,然后再加上一些简单的修改,原来文字是可修改的,原来图片不好修改,现在图片的编辑修改文字。全都可以了,所以 PPT 没了视频马上要开始,那我们在我们的工作当中,怎么去把这种东西整合在一起,能干什么?大家要思考的,我现在推出来就整个知识的产生完全变掉了整个知识的生产流程生产底座都变掉了。会对整个产业产生巨大冲击,尤其对我们咨询的会产生巨大冲击,包括未来。
线下人员集体讨论: 你包括以科研领域你论文,我告诉你现在写那篇论文那么写那么复杂,两张图结束了,知道吗?就有可能以后的论文就要求强行配上这种配图对图,没有现在论文就是期刊要求提交,在提交的时候要提交一个图片摘要,对,就是以图片的形式展示自己的功能对。那你想这多方便,有什么需要查的时候再通过人工智能对话两轮结束了。所以那个 notebook 就是这样的。你把这篇好几篇论文放过去,它生成一个 PPT 你在视频,然后你还可以问答我这以后这个工作就完全。完全不一样了,明白了吧,所以你看 note5已经把这个事情做出来了那我们在工作当中怎么做当然也有现在有 open 的就是相当于是开源的,我们要不要部署过来?但不说过来,你没有这样好的模型支撑也不行,所以这都是问题,我们是可以考虑去部署这样的一个知识平台的多模态的去多模态的。那不行,就要把 DM 怎么怎么怎么套个壳过来给大家用还是怎么样的,我觉得对大家的知识产生学习力帮助太大了。
线下人员集体讨论: 不开二维码就挺好的,非常好用,我很早就用了,上周我还要去南翔!所以但是我们要思考的就是这都是比较快的,就是及时能够使用的就更重要,怎么赋能我们自己的业务。你看,比如说我们未来的知识管理,就我们自己做知识管理做代码,我觉得代码的都有可能形成图片的流程图什么都完全都可以用这个来做了。他思考的非常清晰,你们可以试着用它来生成整个代码的流程图,代码的模块图。这以后我需求文档都完全都可以用这种图片化的方式来交流了?就不用像他这样了,叨叨叨半天,说不清楚。你们要思考这种能力怎么迅速被你们内化到你们的工作当中去。不能说看着人家做的都挺好,我们就学学做 PPT 就完了,要把它结合自己的工作怎么能够形成。更高的这个输出的成果,更高级的输出成果或者更有效的输出成果,这个是很重要的,工作流里面怎么来的,所以可以重新审视一下,我们做过这些工作里面哪些是可以重新?重构一下的,用新的模型重构的以后等有好的适合的这个模型拿过来一接就行了,但是工作流也可能要重构一下。
线下人员集体讨论: 刚才江振达面临的问题就是啥?这边十亿的这个 pro 的这个多模态能力的巨大提升,给他产生一种依赖和幻觉,就是真的可以就一句话就可以生成一个网站。做得非常好,他就认为他解放了,知道吧,他就可以躺着躺平了。我告诉你那是最低级的应用。对于 gma 随着最低级的应用。懂吗?你如果不能在上面去驾驭他,你迟早就是要么被被淘汰,要么就沦为奴隶,你你一个新技术,如果你不能找到它的应用边界,在上面提升的话,你迟早就成为它的奴隶。他就躺平了,我写完了之后倒着写文本,你觉得他就是最最省劲。你现在越省力气,你将来死的越快,这就是一个哲学的问题。
线下人员集体讨论: 你能不能驾驭工是让工具驾驭你,你驾驭工具就是这个道理。他能力再强,你要比他还强,才能驾驭他。所以他就变成不会写需求文档了,因为一句话都生成了我还有啥需求,你说有没有道理,有一定道理,但是我不能认可的思维方式和工作方法,这样你会越来越懒,你们会越来越依赖他。最后你变得没有办法去监督,没有办法去查,就是去调错,甚至没有办法。
江争达: 不是我是这样想的,因为它的前端自己构建的能力强强了之后,我的需求文档是其实我后面核心是啥,它的前端其实我不想过多参与它的前端的跟后端之间的交互,比如说。他点什么,然后影响到后端或者是跟后端交互,这个是在后面一层一层加上去的就是我为什么是这样考虑的,就是因为我一开始都给它写好,我觉得它没办法,一步都给我生成我后面还是要调,我甚至。我在调的过程中我还要改他原来写的东西行。
线下人员集体讨论: 你现在就是一个半截货,你就不要拿出来讲,你不就是半截吗?那半截你需求文档没有说出来之前你为什么要开发,又回到这个问题了?那你后面的需求文档有了吗?你说没有,我走一步看一步,那不又回到这个问题了吗?那你前端如果生成不好了,我再去重构一遍是吗?
江争达: 我的第一阶段就是生成一个前端,然后我后面所有的就比如说我加一个功能,我一个需求文档是基本上是这样。
线下人员集体讨论: 是你有多少时间值得浪费。你比陶西平好在哪里我问你你比他两个图片用一生成11个一个首尾帧视频你比它好在哪里你扪心自问。
线下人员集体讨论: 思想的懒惰吗?你为什么不一开始多思考一点,一步到尽可能的做到位,你不是思想的懒惰吗?你跟陶一斌有啥区别,在这点上?
江争达: 对。我是一开始试过你直接把复杂的逻辑加上你让他做的前端都给他不行。我就。
线下人员集体讨论: 那是因为你没学会怎么用,像你这么简单的,你像陶一斌那种挂机中文写上去了之后最后动都不动。
江争达: 行那行吧30。
线下人员集体讨论: 我问你是人家 VEO 的问题你的问题?你还看不明白吗?你这么咕噜一堆堆上去是 java 的问题是你的问题是靠精简的吗?
江争达: 那所以就是我后面精简了,现在就是精简的,可能精简的。
线下人员集体讨论: 所以我说你动脑子动不了,不是这么个用法,你好好想怎么分阶段需求开发,我们一直说多少遍了,需求可以分阶段开发,不代表需求,没有阶段设计。
江争达: 好好。
线下人员集体讨论: 也不代表我现在只能设计第一阶段,我可以把所有都设计出来,我可以分段开发,这点他们都不懂,还他妈开发个屁开发说了多少遍了,分阶段的需求开发听不懂吗?我想到多少算多少,后面我再想。这么长时间了吗?思维不建立,你还能干啥?我是不是跟你们分析过多少次需求分阶段开发?
江争达: 对,但是你分阶段也是考验自己能力,你现在就是等于能力不够的话,就先尝试不行了,再分阶段就是因为我现在比如说我现在判断不了他一个阶段,他能做多少事。你不能把全部的给他,你也不能太就是你不能只让它生成一个功能,那你最起码有一个这个平衡点吧,但这个平衡点目前来说。
线下人员集体讨论: 如果你判断不了,那你就去问你就往上学,不要自己在那瞎猜自己这么说,我不要分阶段,这都是最愚蠢的做法。刚才跟西平一样的我让他到。
江争达: 对判断不了。我分了阶段。好好。
线下人员集体讨论: 推的人你好好想去看看别人咋干的多少个多少遍了还是不会学习还是遇到问题那么就知道按照自己的干法干。你的脑子没有我再说一遍你们脑子不好使多学习遇到自己怕把握不了的问题时候多问问多学学然后决定方案不我就按自己的来我就直接切断了我也不知道我上来先给你17个。完不成我就变成什么都不给了不扯淡吗你们这个你们这种解决方案能做出啥玩意来反思去吧
江争达: 好的你问题 cloud code 你让他自己给你分阶段,他分的也不好你然后。
线下人员集体讨论: 那你分三个是你,你手头有几个工具,我问你给你开了几个账号,前面大家没有吗?没看见 ai studio 有没有?
江争达: GDP 跟 cloud 节目我们没开R 幺行,我拿他们给我分的阶段,我再去试试,我从我试的效果来看。
线下人员集体讨论: 有 deep seek 有没有。那你推特账号有没有能不能去浏览,能不能问问问题能不能做 deep research你用了没有
江争达: 好 GM GDP 跟 cloud code 分阶段的尝试,我试了。然后也测了这些,我做过,但是可能是我能力不够,我没做好,我再去学,但是你要说我没做,我不认可。
线下人员集体讨论: 那你把他说的。那你把做的结果呈现出来?
江争达: 分阶段,我为什么最后 PPT 展示的是第一阶段,我的目标就是生成一个前端,我可能都不要那么复杂的逻辑首先他给我。
线下人员集体讨论: 那是你想要的,那不是要的,也不是我们大家想要的,那是你自己在这玩好吗?你不要把你玩的中间过程给我们很垃圾,我要的是一个大家可以来决策的东西。
江争达: 好好好。
线下人员集体讨论: 懂吗。
江争达: 懂的 PPT 的方案也是,就是我 PPT 本来想是想法是展示结果也确实没有考虑到要把这个决策的过程全部释放出来,下次我就专门去写就行了。
线下人员集体讨论: 你结果不我跟你说,你如果结果不好,你就得把那就说明遇到问题了,然后你问题你解决了,你又没解决得了,就说明已经超出你个人能力了。
线下人员集体讨论: 懂了吗?没能力就学习,还学习,不会学习的过程也告诉大家我怎么学的,大家来帮你说**学错了,懂了学习都不会学,你还能怎么做事?
江争达: 可以,那我下次就是主要还是针对学习这块的沟通多一点会好一点,因为我身上结果很多是错的好的。
线下人员集体讨论: 不需要大家没有时间跟你这个你这东西私下也行,不要在会上搞会上是公共时间,不是公共,你在那什么玩耍的。学习是你个人的事情。
线下人员集体讨论: 实在过不了的坎,再跟大家提私底下能解决全私底下解决了,明白了大家没有义务教你。
线下人员集体讨论: 回到?考虑到视频可能是接下来市场部一个非常重要的方向,郝建宇你也参与这个视频的学习和制作。然后把 G 或者 API 那个账号,到时候你让他们给你开一把账号给你,如果没有就自己开一个界面的那个 pro 的账号,加拿大。
线下人员集体讨论: 你们几个都可以用他的额度还没还挺多的一天,你去看看这个视频。通过谷歌这个视频也好,通过这个黑金融也好,怎么来融合,能够产生对市场部工作最有效率提升这个质量更高的这个视频工作方式,我能想到的第一就是刚才这个 PPT大量的 PPT 制作。视频就不需要人参与了,这是第一步。那么第二个就是什么,生成一堆科普的视频这些。比如说我们在做的各个方面,像生物医药的金融的等等这些科普的视频,我就完全可以用这种方式来做,非常简单了,看来,那有可能有好的引流的效果,就可能带来业务收入带来影响力等等这一些。
线下人员集体讨论: 怎么去做,跟到时候跟福友他们再商量整个互联网的传播方案,但是前提是先把内容制作出一个相对成熟的流程工作流,如果你把整个工具用完差不多之后。人工调用这些工具生成的过程,花多长时间做一个视频。接下来就要交到这个石龙和我们这边来帮你怎么做一个自动化的工作,把这个 skill 能不能写好,但这个 skill 我觉得现在视频调用的 skill。接下来可能要用 API 什么等等,这些可能还有一些困难,但是我觉得这是一个方向,整个视频生产的流水线怎么来搭,怎么怎么来搭建。又或者说多模态的生产流水线怎么来搭建行吧,这事情就视频这个事情就放到这里,因为视频也越来越成为接下来这个工作的重要性。
线下人员集体讨论: 这个重要工工作领域,市场部的明白了,这个是这样之后的话,类似于像语音大说那种会直接被咱们这种形式替代你那说会被替代,然后我们好多老师出去讲讲座也会被这个替代,我们有可能最后每个人做一个数字分身,就我们主要的那些这个老师每个人做的是需要讲座的时候,让他的 PPT 和他一做就可以。就不用天天出差了吗?昨天他们给我带来一个新的问题,主管科研的那个杨建你知道吧,就那这样我怎么给你们专家费。他说这个管理上没有他说你说没有智力输出,有这都是你们这个讲讲稿,这个方案都是你们,我的方案都是你们要审的,要写的?但是你现在如果你不住宿不参会不签字,我都没法给你加专家费我说这就是新问题,我说到时候再说,看到了,所以你看技术的各方面都在产生影响。
线下人员集体讨论: 你的管理还没有跟上,咱们绝对可能包括未来生物医药也是一样,生物制药到底到时候怎么算,怎么认证,怎么算临床这个数据的认证。都不好说,这都是一系列的监管问题,就我们也会面临将来工作上的很多挑战,所以类似这种的,比如说分布视频,云大说这些讲演讲,我们可能都会用这种方式来做。
线下人员集体讨论: 因为成熟了,这个技术已经开始初步成熟了,接下来就是我们怎么组合它用我们这个 skill 的框架 a 的框架来形成一个既灵活又可以保证工作质量的这么一套生产流程。就会先聊聊,那你先学习,你先自己试着做一些,比如像刚才那种 PPT 的视频,你可以跟陶西平问问他之前怎么做的就是简单就是生成视频之后,然后用剪映一页一页去对,所以这就是一个人工的操作过程。到时候加在哪里也可以,你们探讨一下,然后在这个基础上怎么变成人工智能的操作流程。这种剪辑过程怎么能自动化,因为我们并不要求那不那么精确。不是那种好莱坞大片的眼神,一个眉毛都不能错。没到这种程度。这个数字的视频做的视频可能或者说多模态的内容两部可能未来会很重要。
线下人员集体讨论: 就这样!这里没了,我还简单看一下对未完成的 p0危机刚才说过了这个上昨天也跟你说过了目标这个周四这个我感觉不是那么想那么简单你们想的已经挺复杂的但是。没那么简单他们想其他我觉得不太好借鉴其他人的经历。大量都是自己的内部的规则。
线下人员集体讨论: 那你刚才 skill 出来不是昨天提了一些意见吗?尽快测一下,我用已经测了,感觉如何?你我感觉直接 skill 我还没测,不是你 skill 里面那些 prompt 提出来之后给他我直接用平台和 API 测一测,我发现。
线下人员集体讨论: 从英文直接转写 B 从 B 中间加个翻译的过程要好好好一点,这就是多模态,这种能力很强,知道吧,他其实。人工智能不分语言的对他其实在下载空间里面语言映射的是同一个下载空间,所以你要把它区别出来,他要把你翻译出来。知道他不需要的,对他其实英文语,中文,法语对他来说都是一个意思,然后我试试他的 API API 输出最大输出是64k 头感。差不多我估摸着大概是45个报告可以到不了。到不了他一个报告你转写报告时不长就是我第一个报告你那天看了一下大概多少次一万多的。四4800次加起来也不过就5000个 token 对他转写出来是不多的,他原报告英文比较多。输入的 token 很多,那你你能够限定它输出次数,字数,这个我现在没限制,我跟你说,我说下来好像限定不了。那好像就没法限定它的只能什么分段去做可能更好一点,有可能那回去再先回到你刚才说的前面那个。
线下人员集体讨论: 你给了他几个报告我是这样的,我没有给他报告,我给了他一份我总结提炼好的风格参考文档。这个风格参考文档是我写了一个 skill就是用之前袁姐给我发过的那1.100篇报告里的40篇是就是我们自己的对 CPP T 类型的,就是说的是。然后我写了 be skill 就是提取风格,对起起了很多个 agent然后就读读那些报告然后提炼我给他规定几个维度然后那些 agent 就会提取然后最终汇总一次相当于一个40天的一个汇总的风格 ok然后可以看一下。
线下人员集体讨论: 是提取的?
线下人员集体讨论: 欢迎低调的奥,这都可以,但是肯定是不全面。这种风格是不是表面风格内在的某种程度上,我们该怎么写那个逻辑也可以看看。这也不是逻辑。这个算逻辑,这个三个逻辑第一关系可以你你等会等等等。
线下人员集体讨论: 听到吗?看到没有这个逻辑看到了,这就是你们要学习的是什么?为什么怎么做成什么样,你上来就给我做成什么样了,知道吧!
江争达: 听得到没展示。没展示。
线下人员集体讨论: 不是没展示没有 Y我不管你有没有。
江争达: 不是你们共享没展示?
线下人员集体讨论: 这样子我没共享,稍等一下,我共享一下。能看到吧。
江争达: 看得到。
线下人员集体讨论: 这是我们在用那刚才的转写报告之前,先用 skill 提取了我们那个几十篇报告里面信通院的行文的一些规则。风格那其中有一个就是逻辑关系,你看到了认知维度,你知道你缺什么了吗?你没有告诉我是什么,为什么怎么做就直接告诉我做成什么样,怎么做,讲了一部分直接告诉我做成什么样,这是巨大的逻辑漏洞,你前面都没有。
江争达: 对。
线下人员集体讨论: 前面都不细,就完全不足以进入了下一步就逻辑就根本不充分,说明你现在为什么做。不为什么做完全不充分,对的。
江争达: 就是怎么做,他每一步他都要对应是为什么做,我只是现在就是没有把每一步为什么这么做,然后全部给理出来,我后面就是这一块的话,我就是尽量把这个都理出来。
线下人员集体讨论: 我让你们谁的啥意思,你们去学习人家这个逻辑结构知道了时间维度怎么弄,空间怎么弄层次怎么办?认知怎么办?看到了。
江争达: 对明白。
线下人员集体讨论: 这你这是人工智能提取出来的,谢谢,看到了比你们不知道强多少倍吧,你们不懂怎么用,人工智能就会。
线下人员集体讨论: 就会落得很惨的好,往下走。行大概理解了往下走段落图表文中解图标解读。觉得都是有可能会限制他,你等会吧,往下走我感觉会限制他的转写,因为肝的报告跟我们还不太一样。有些时候还不完全一样,好知道了,我来看你给杰本来撰写的报告是哪几篇,我现在只转了一篇一篇 ok 可以买一篇 ok这个是他的直译。看直播然后再看那个方便一点。你把桌边上大纲给它关掉我不是唯一的。左边是原文的之一右边是它的转型。那他还真是去理解是基于理解第一章就是他自己写的。这个里面英文单词翻译稍显生哪个 to the architecture architecture 构建者什么综合者没有综合者的说法。是他原文里有这个对就是英文的但是英文的翻译就很生硬知道吧就很生硬所以。转写之后得有一个检查这种优化的流程因为你只有4000多字还行是优化一次 token 消耗不大。就是光,我感觉还是 AI 的话还是挺明显的,感觉没有什么观点。
线下人员集体讨论: 给了几个趋势,就是总结,是有的总结三大特征吧,一和最后也有个总结,就你得看这我你得基于左边的理解才能看它这个是不是对首先看对还是错,首先你比如说像这个构建者,这种翻译肯定就是不能就青铜,也不会用这个词。那绝对不会有这个词。底层逻辑是清楚的,叫不叫综合者,还有大纲可以,这是你直译出来的,是对直译出来它有这么三个,我问你,你你右边那个是通过直译的生成的,还是右边是直接原文生成的原文那边情况?架构师你看它叫架构师都比好整合者。中文观者都不太懂。
线下人员集体讨论: 你三叫安全专家,上面叫融合专家再往上叫这个架构专家,这可能架构融合安全不叫者的专家,所以还是需要想办法调整的。没事大概理解往下做,看它的架构它那先锋你看它是 pion它叫先锋安全治理或者叫前沿都不叫 frontier是我认为。他这个先锋应该叫 front 能轻通院的专家来写的话,可能他那个构建者就会叫做什么趋势分析,然后综合者就叫做技术新观察,然后走位置就会叫做什么。什么对策建议就是他可能会到时候看看这种关系没关系,所以我就说转写规则提取那个规则不太好提的,我一直觉得这个挺难提的,才是专家应该写的东西。
线下人员集体讨论: 我挺烦,这种东西我写不来这种东西,那你就提供工具的,我们就是提供,不要指望自己什么都能干我跟你什么时候认怂,申论我是真的烦。该认怂,然后发展态势这个有点像那核心特征的印象,不像新同学的用词发展态势上的核心特征与影响力要也不这么说。基本上不会用那种点儿连那种格式来写就是什么,一他那边一般前面没对,一般没。那个倒是可以好改格式稍微改一点吧,好,主要是专家知识那块没事,这个我们可以到时候请人再买票吧,所以这个规则那块我们再。规则不好写,写多了约束的可能偏了,其实少了吧,表现不好,所以这个挺难的。我一直看,再看看往下它总体能不能抓得到推进建议,那一般会先有一个矛盾,然后再分点介绍,这个就没有感觉没有断。对他一看人工智能是对点点点的东西多就是自然语言,你所以要加一下这种语言风格。
线下人员集体讨论: AI 痕迹目前感觉?高级技术的平台发展态势和特征,整体的十大战略技术趋势,对原 AI 原生开发平台AI 超级计算平台。机密计算你知道吗?不算是那叫 privacy 机密计算就保密计算会更好一些,就是每一个里面包含了哪几个,所以这个报告写的。
线下人员集体讨论: 执意也不好转写其实也不太好,还是很费解,就是没有达到意义的那种感觉。就通过你的理解之后的意思来重新改造成为行业通用的一个术语。所以我觉得你得把这个限定加上去,就既然是转写,已经没有必要完全忠于原原词了。就是可能要加上,比如说不忠于原原英文可以进行意义转写意思的意义的转写,你这个明显感觉到还是比较忠实于原文的。比较重视原文的用词的但不重要,更重要的是整个的逻辑框架和一些数据。引用会比较重要,逻辑框架书引用至于怎么表达,我认为不重要,只要你能表达出合理的框架和大家能理解的认可的东西就行。
线下人员集体讨论: 领域专用语言上领域专用语言模型就是一直行。或者垂直专家模型对,但是还是翻译的很别扭些。可以用咱们专家的方法论,对哪个领域的报告宣传专家。你,你看都复用上了。物理人工智能是对的翻译。这叫物也可以叫非的。很耐心,网络 physical ai 是它的原文对是原文,国际上也是这么提的,但是翻直接翻译成物理人工智能的就有点怪,但是你说对不对?就现在还没有一个更好的翻译,就是大家具象化的翻译,你知道是什么,就是具身智能,这叫具象化的翻译。但是其实物理人工智能含义远大于具身智能。物理人工智能这个词说出来的怪。叫物理世界智能也是可以的。那咱们也没有人为一个参考,就是人家说这刚上来的转写之后的是没有参考,那当然没有参考,所以就是看我们自己对这个判断的我们熟悉,我们肯定要找一个我们熟悉的领域来做转写的这个判评判这个领域还算可以的吧,人工智能我们算你不算了解一下吧。
线下人员集体讨论: 另外一个就还有可能性不完全忠实于原文,可以在这上做一些 deep research然后再融合进来。可能你得问一下那边客户的需求就是希望他们也不清楚。他们也不清楚如果我们能得出更好的不说比这个更好我们比撰写的报告还要好的报告不是对他们更好。反正他已经是转写了到时候可以提问一问他们是不是去另外一个这个逻辑已经在哪用上了在 notebook 已经用上了,你把这份文档给他会基于你的文档做一个 deep research。然后把相关的全部成为你的来源在这个来源基础上再写一篇文章其实是一模一样。懂了吗懂了所以你可以用 notebook M 直接做开。甚至他可以多篇文章,但是它的输出字数是没有要求,你可以看到,如果对行,那不是直接可以这么做的。确实可以,它也可以产生那个文稿,你也可以写 prompt。我记得写那个这个 doc 的时候,它输出 doc 的时候你也可以加 prompt。所以这个有可能就更方便一些都不用掉那个 API 了。
线下人员集体讨论: 是 API 然后我还看来得要再完善的,它一次性生成的。总的来说,逻辑价格是保留了,在这个里边,你看它是基本上是还是对应的。你看基本上对的还不是完全打乱了重写对重写的不是重构的,你可以先做一遍什么,这个工作流将来当然 note 不另外一个是工作流,我设计成你可以先。做每一段要点的总结,把每一段要点总结完了之后再重新生成一篇文章行知道吧,这样子就他就不会。这么僵硬了,我就是基本上把你的要点总结就完了,我每一段的要点都总结出来,这样的话我再重新生成,基本上已经。就不再保留,原来那些就相当于剩下的都是骨头了,我把骨架子给你抽出来了,骨架出来之后,我重新换个人肉上去,人皮上去,那完全不同一个人。现在你是照着它瞄对难度还是挺高的,你让他瞄的不像一个人,还有分骨都一样,挺难的,索性不如把骨架子抽出来。
线下人员集体讨论: OK 行。感觉严总您刚刚说的,如果限定的,他们就是按照新换的那个模式,现金,如果太多的话,相当于还是没有办法把股价抽出来,他就算不按这个写,他也会按照新出来那个模板来写,那可以,最后是可以的,就按照新的股价写就很简单,新通业基本上不是不完全是骨架子了。它很多时候是外在表现,刚才说规则的规则,外在表现那个表现覆盖在骨架上是可以的看,所以。一个是信通院的自身里面有逻辑股价,一个是这个报告的股价,这两个股价要做一定重整的,要做一定融合,那个融合肯定是在 prompt 里面完成的。
线下人员集体讨论: 你首先得把它的骨架子,现在你看你们完全不按照我们的规则走的,基本上还是按照那个框架走,那是因为你没办法,他就完那个书文件对他的影响大,你的参考文风格反而不大,如果这个时候你让他重写一篇。可能他反而参考的意义就大了,好不好,行吧,这是一种方式,另外就是不行通过 skill。
线下人员集体讨论: 开通过 note 不开再开,反正政府给他一个能用的就这里面图片没处理,是图片我还没处理不了,能直接把图片提取出来。这个 API 好像是能发图片 API 是好像是支持发图片的。我试试吧,你再看看是吧,看看吧,我想的是可能后边匹配的插在合适的地方,那可以用那个直接用 skill 来做就完了,做完这个之后直接用 skill 来提取图片插入就行。匹配插入运行。
线下人员集体讨论: 原来你 skill 的你要建起来了?
线下人员集体讨论: 开始做那个东西我觉得将来非常有用的,我今天上午给大家发了,你们看了吗?有空看吗?关于那个 cloud 采访的。其实是一个视频,就是关于他们对 skill 就两个 skill 的开发人员,我前两天给你发了一个是 cloud code 开发人员,今天这个是 skill 的开发。你去看看人家的理解,他们的 skill 的设计理念,思想和他们对未来的是。有什么未来的期待,或者未来的这个路标,其实跟我们理解的非常像我觉得我真是很理解他们这些 skill 的开发人员对于这个问题的认知的。虽然我没有开发,我觉得它的开发的意图我是很理解我们现在就是这么做。我刚才在发现这个东西,我那只是工厂里面我总结的就是,就比如说写什么类型的,然后又给总结出来,我觉得。这个概括的会更有可能就可以试试,可以把提出来发给他,您好,所以这个为什么我说 skill plugin skill plugin 将来就是我们。
线下人员集体讨论: 一个持续不断学习的非常重要的基础。设施或者基础结构,就我们的知识以后可能都会沉淀在这里,甚至维纳斯的知识,未来信通院的知识可能都会存在沉淀在这里。包括我们以后做安定医院这个项目安定医院的很多就是也可能会,所以我们要把这个东西想到底怎么非常高效的持续不断的进化学习,你看他自己也说了,考了可以自己学习。就随着你每天的学习就使用它会自动净化这个 skill 你还记得我在前两天给你们发的吧,把我的对话记录发给你,你帮我改 skill所以你看已经开始用这样的东西了这是非常。
线下人员集体讨论: 机器是个叫什么有想法的一些应用方法及其超前创新的一些应用方法,这些方法是非常有价值的。我们日常当中遇到这些问题之后,我们可以让 skill 帮我们去总结,帮我们去学习,然后提醒我们怎么去注入,然后注入到这个 skill 里?这是很有价值的,我说。整个 plugin 或者 skill 的体系。不断的完善,现在你看 codex 也接入 skill 了,后来有个我跟你说了一个 open skill 好多那个 ID 也都可以接入 skill 了,他用 python 代码做转化,对 AMD 对他也在做,包括 open 这个 skill 是啥意思?所有的 id cursor。Client 什么这些他都可以用 skill 我知道就是用对办法调用,对他怎么去读取 skill 怎么去执行 skill。相当于我觉得是开了个虚拟环境差不多就模仿了一下底层的环境所以我就说你看到没有说明什么今天早上把 MCP 捐给 linux 基金会了 MCP 这个协议它全部公开了,全部以后维护也不维护了。
线下人员集体讨论: 全球共同维护,一方面认为什么一方面确实对全球 MCP 这个发展是有贡献的。另外一方面。Pal skill. 知道吧 MCP 已经不是他们的重要发展方向,因为 MCB 确实有很多问题。最后有可能我觉得 MC 的发展大概率还是用不是自动调取是用 code 代码执行 MC。通过代码来执行 MCP 的可能性是大的,因为上下文减少了很多,不然 MCP 无论是前期对上下文的占用,还是在执行过程中的上下文占用都是巨大的。那我认为是会已经认为不太成熟了,或者不太可持续发展,只有个别的时候有一些成熟的 MCP 的服务器。有很少的代码就可以很少的上下文就可以完成一个工作了,是有可能的,你比如说很简单,我们用的 PMC P 不是你首先上下文占用很多。第二,你去执行一个网页操作的时候,他把这个上下文注入到上对,把网页读入到上下文两下就完了。对所以整个 MCP 的设计上可能还需要有一些全球的这些智慧去改造的,但是 skill 目前看下来是他们。
线下人员集体讨论: 我觉得是智慧的结晶是,而且全球现在都比较认,另外一个我还有个什么想法你知道吗?就是克拉克,你看他上来说的就是通用智能体。就 cloud code 自他们自己也认为这是个通用智能体,所以我早就跟你们说这是个通用智能体的不是一个编代码的,所以我使用完了我就知道它肯定是个通用智能体,而且这个地方可以演化出很多。
线下人员集体讨论: 定制智能体,我现在想下来就前两天那个豆包发了一个豆包,手机里面那个北京不是被禁了,大家都觉得太可怕了,如果他这么做的话,那完了各家生态全部死光光就全部被他打通。所以各位网友都不敢让他介入,但是我告诉你一定会你不介入,我自己干,为什么人类对于这种便捷的需求是第一位的。
线下人员集体讨论: 我现在当打开那么多视频打开那么多 APP 点点,他不需要了,以后人机界面就会退化成语音,大概率就会退化成语音。那这种情况下,你你可以你不接入这个你像苹果他,你不介入我自己,他妈生产这些我自己做后台的这种服务。不就完了吗?我干需要你不需要你了,微信我也可不要你了,我跟别人发联系的时候,我自己用语音调出来,我也不用微信去设置什么这些东西,只要你。在 apple那个 apple message 上也可以做那个 IM S 的发送等等的,你如果不开放,我就把你替代掉,因为人已经他可以在一句话里面让你执行八个操作,你就可以让他去干起来,我人在一边干别的事情去了。
线下人员集体讨论: 你现在不像这样我微信我自己在超半天就为了发个信息所以换回来。我们以后的开发。包括我有种感觉。cloud code 有可能会成为一个操作系统。你知道吧,可能会成为操作,因为它是所有操作的入口,它是个通用智能体,所以以后根本不是那个 APP。那个 APP 不是最重要的,这个 APP 现在大家觉得它重要,可以问问题,做 agent 的时候,做一部分 agent 的功能,但是它缺乏了一个很好的那天我跟你说吧,你看后来他们重构为什么要重构 cloud code。做这么个东西是因为图形化的那个 ID 界面,把 cloud code 的能力 cloud 这种大模型能力严重限制在那个虚拟环境里,我不需要那个环境。就直接搬出来,直接,如果他将来我觉得是完全有可能直接变成操作系统的?是等到时候都评选,看看咱们的价值在哪里思考,所以在这个操作系统上仍然会有很多工作要做。
线下人员集体讨论: 为了语音交互理解的最好,谁对后台的那个服务器交就是后台那些平台交互的更好,等等一系列的问题,比如说你也可以同时获取到这么多数据,这些数据处理谁处理的好?那不都是你包括 clock 是个通用智能体,但是你为什么要用 skill为什么不让他把所有事情都做了为什么还要的 skill 编?以后很可能就是 cloud code 是个操作系统上面是一个的 skill一个一个的 agent然后这些 agent 形成互相操作,因为底层是一样的,它就可以整个就是一个生态。基于 skill 的生态,这个有可能是我看到这段时间发展就是非常重要,一个多模态能力的,第二个是整个基于这种通用智能体的这个发展,因为手机端侧的这两个都是单侧的,也是单侧的软件。豆包也是单词软件,这两个世界你看得到可以颠覆以后整个是 IT就是目前的人机界面的生态系统的。
线下人员集体讨论: 不是搜索绝对不是搜索,因为你想搜索值它其中一个非常简单的功能?所以我看到的是像这种 cloud code 这种东西太可怕,而不是什么做浏览器什么搜索,那还是基于人的思考,你再往下思考,继续扔 a ai native 的思考,然后这个。
线下人员集体讨论: 界面上不需要那么多图形界面,它可以自动展示一个图形给你把结果以图形化的界面展示给你,而不是上来操作,也用图形化展操作,因为你不需要操作了。它只需要结果展示出来的一个图形给你就行了,多个模态生成,实时生成。多模态的能力作为结果的展示,内部的操作都是他自己完成,我觉得以后你语音作为交互界面,然后你给他一个图形的展现展出,然后你语音跟这个图形的交互。但是有时候手还能有点用竖屏,你基本上不会输入它那种游戏的脑机接口。好游戏原来一定是脑机接口。
线下人员集体讨论: 怎么想的,非常心看一下,所以这个我预言放在这里,咱们的我对很多事情其实预测都很多的,我相信 clock 可能用一年时间,大家可能都知道他。非常恐怖,因为是大家都往这走,可能形式不再是那个黑框框,那它一定是一个非常好的人机交互的入口。既不是浏览器,也不是搜索。也不是购物网站。而是 agent 接管了你所有的人,大部分的对于操作和外部的。接口由他来完成,然后在上面你可以构建一个你自己的 skill 对生成一个 skill skill它自动给你生成一个 skill完成一个任务然后每天都可以生成无数的 skill这些 skill 有些能用得上的就留下来了。用不上的慢慢就遗忘掉了,要是我来设计,我就设计,然后你的各个 skill 之间还可以协同进化。
线下人员集体讨论: We have. 是多么有效的一个体系,我们已经差不多了,我们现在只不过还是没办法摆脱图形界面,在那,因为有些软件的限制,其实我现在看下来 cloud code 能够完成很多想法,只不过慢。很慢,如果端侧模型再加上会很快的,因为有些那么不那么复杂的,它可以小模型,大模型协同就好了,我们未来岂不就是?当这种公司一家通吃了,那很可能,那么原来不就微软一家通吃,后来出来一个苹果,微软当年所有操作系统都是微软的 unix 占很少的企业市场个人市场全是微软。后来才被安卓慢慢慢赶上了,后来这苹果出来自己的一个移动端,一个桌面端 MAC OS。
线下人员集体讨论: 当然,以后也会有新的 cloud code又不是只有他一家现在 code 也在做,我相信 G 一定不会放弃这个市场,这边的 CR 也有的,只不过他现在没还没有精力管到这块,因为它有庞大的生态,所以他不愿意往那转。转了之后就意味着它的生态就没有优势,他的护城河就被他自己打破,但是 cloud 购 P AI 这些不管的我他们尽全大全力抢你的客户。怎么方便怎么来用户怎么方便我怎么怎么给咱们就得跟你看现在这不他也跟上来了吗所以我就说。有可能就是未来的还就结合我之前给你在发那个赛博永生那你一天24小时天天带了一个语音助理它可以做事就已经不简单的。就所以那个里面如果内置的一个 cl。
线下人员集体讨论: 你想能做多少事?就是你可以记录你的所有的言行!所有的你的交互带摄像头的!所以你想它会自动的思考你每天的东西,然后帮助你一起来规划。或者提升调整你的工作行为或者那种工作的 skill 说个人。基本上就是 AD 完全以 AD 为为核心的这么一个就你人机协作那才是就是最紧密的协作。这就非常恐怖了a 键的基本上就能非常了解你能帮你就是你一旦失去这个 A。就跟你是比失去手机还要恐怖所以人以后不是手机要备份是你的 agent1定要有很好的备份。
线下人员集体讨论: 所以你看以后 a 你的围绕你所有的 a 技能的安全是一个巨大的市场,你看如果你不自己不做这块,你可以做的安全。个人 a 级的安全,你不能被别人黑了,别人被黑了,你会给我下吃药的,你在我 skill 里面注入一个毒药我就完了。懂了这个市场对,所以你多恐怖,这些才是未来可能的非常有想象力的东西,但是比较超前。但是我觉得也就三年,你看着吧,也就三年时间,豆包手机都做出来了,也会很快乐,你想个人的。
线下人员集体讨论: A 技能的安全都可他对你了解太多了,它如果让你失这个 agent 让你失能了,让你变毒了,有毒了,那完蛋了。林总要这样的话,政府就可以和这些像这种掌控所有个人信息中 a 公司联合,那岂不是可以控制每个人,你以为微信现在没控制你吗?你发每一条信息别人都是知道的。懂了吧,那在中国没什么隐私,那大嫂他们不是结构性直接变了,当然这些大厂他们现在正在做互联网后面。没转到就是很简单,是想起来真的很快。知道吧,这东西太快了。
线下人员集体讨论: 所以大家就是这些才是去思考的问题,这些才是要长远思考的问题,但是也不能天天思考这些东西,因为对你们来说负担太重,有的时候会迷茫。所以思考完了之后,你再看看自己的路是不是跟它的吻合了,你做好眼前每一步就够了,你天天看远方,你会迷茫。但我也不是说就都对的,你们也有时候也得发挥你们的作用,我脑力毕竟有限,这是第二个年龄也大,我也考虑不动。经验还是比我们多得多,所以这些是大家要思考长远的一些路径之后再看看方向,眼下的每一步迈的是不是和这个契合就够了,如果契合你跟你走下去,基本上。技术发展趋势不会大的方向变化,只不过就是它在于每个行业的演变不太一样,行吧,那就这样把今天的再整合。
线下人员集体讨论: 然后另外一个我想就是知识库这件事情,张张就是以前不是让你在做知识库的整理,就我们内部的。
江争达: 知不知道。
线下人员集体讨论: 就是包括我发的微信群发给你的发给什么的,以后这样好了,这个活我觉得你也不擅长就统一交给那个谁,这个包括把市场的独立市场部是市场部的那些知识,那些东西,包括他的这个什么那些文档包括我们云大哥的那些知识,这都是独立的,现在不要合并,另外就是我们整个 ai 卓越中心里面。
线下人员集体讨论: 这是从成立到现在开始有各种各样的文档,文章,有视频,这些我们平时发的东西会议纪要都是我们的知识,把这些知识怎么整合好?整合好以后,那未来我们也可能用这边的那个知识图谱来构建我们自己的知识,然后在这个基础上怎么进行演化,但是这个知识得保留好。现在这个知识没有系统化的整理,加拿大我估计也没有做系,就之前有一个一个阶段的系统化整理已经有了第一阶段的给你们做培训用的那些知识链接都给你们了。
线下人员集体讨论: 接下来就是把我们日常在工作当中积累的这些知识,把它系统化的管理起来以后你们就会发现以后就会发现这些东西,其实对于你们再去做很多学习工作都是很有帮助的。包括我们今天谈的这些东西,我就一直说我们的会议就是我们的智慧的结晶,把这个管理起来,我们过往是在哪里,在服务器上那个几方面都有一个现在整理过的,在服务器上站到那有。还有就是在那个微信里面从开始到现在发了那么多东西,还有我个人曾经发给过江南和钱玉龙一些,他们这个当时开发需要的东西,这些都可以作为整合起来。
线下人员集体讨论: 其实,腾讯是有一个很好的叫 im a 腾讯有一个知识库的管理。基于知识库管理的这么一个助手,但是也不是非常的满满足我们的使用,它都在它系统内部,它也导不出来,那就我们如果想加工就很难。你先看看那个就行了,我看到像还有这个回头再说吧,有一个开源程序,我今天刚看到一个开源的专门来做,我有没有发给你们。对发了 vancora 我发给他俩了,你可以共享一下谁?玉龙你看你共享一下,我这个视频没给你,你知识会不会拿系统那个视频没给你?最后一个好的我们就点你点一下看。
线下人员集体讨论: 现在回头看看我们要做的。在底层不一定,但是我们整个的组织形式已经好久没有进化。那继续指出,那跟我们的一模一样。
线下人员集体讨论: 这是。
线下人员集体讨论: 听得到吗?我就说你看了吗?所以你看到了你在那瞎重构知道了吧?
江争达: 现在听得到看了。
线下人员集体讨论: 不去搜索,不去学习,你就是在瞎重构好了一个人的智慧是很有限的,尤其是你们目前没有经验的话。
线下人员集体讨论: 多学习,多去搜,多去学都去看别人怎么做,不要自以为是一直说了 ai first 你们我你看我天天那么多事情,我还要找你们去搜这些东西。我天天看,为什么就是吸收大量别人的最先进的使用成果,然后来看我们究竟能做什么,你们在那闭门造车,然后就一个界面上生成的网页信息的不得了。那么这。
线下人员集体讨论: 要放开你们的思考方式,要往世界最顶尖的方向,经验去看,不要自己在那。自己闷头想好不好,那像这些都是你说都是开源的,这是腾讯做出来的,对腾讯的对。这个是开源了,我记得我把开源的代码发给那个程序库也发给你们了,那这些东西我们怎么用?那现在有了 gemini 我估计有了这些什么cloud 以后重构是很容易的知道吧很容易的。然后测试也不难的现在看到了不是做什么很难而是要做什么很难知道其实目标确定是最难的。现在。不是做什么很难而是要做什么很难那么所以从目标再产生需求然后再去做就很快了。Valuable. 你们现在就要思考这个问题就越来越怎么做不重要。

View File

@ -0,0 +1,40 @@
@echo off
chcp 65001 >nul
setlocal enabledelayedexpansion
echo ========================================
echo 会议转写文本发言人替换工具
echo ========================================
echo.
REM 检查是否有参数
if "%~1"=="" (
echo 请将txt文件拖拽到此批处理文件上或使用命令行:
echo replace_speaker.bat 文件名.txt
echo.
pause
exit /b 1
)
REM 获取脚本所在目录
set "SCRIPT_DIR=%~dp0"
REM 处理输入文件
set "INPUT_FILE=%~1"
echo 正在处理: %INPUT_FILE%
echo.
REM 调用Python脚本
python "%SCRIPT_DIR%replace_speaker.py" "%INPUT_FILE%"
if %ERRORLEVEL% EQU 0 (
echo.
echo 处理成功!
) else (
echo.
echo 处理失败!
)
echo.
pause

View File

@ -0,0 +1,57 @@
# -*- coding: utf-8 -*-
"""
会议转写文本发言人替换脚本
用法: python replace_speaker.py <输入文件> [输出文件]
如果不指定输出文件,将覆盖原文件
"""
import sys
import re
import os
def replace_speakers(input_file, output_file=None):
"""
替换发言人名称并删除时间戳
- 郝倩玉 -> 线下人员
- . -> 江争达
- 删除所有发言人后的时间戳 (HH:MM:SS)
"""
if output_file is None:
output_file = input_file
# 读取文件
with open(input_file, 'r', encoding='utf-8') as f:
content = f.read()
# 替换发言人(匹配行首的发言人格式)
# 格式: 发言人(时间戳): -> 发言人:
content = re.sub(r'^郝倩玉\(\d{2}:\d{2}:\d{2}\):', r'线下人员:', content, flags=re.MULTILINE)
content = re.sub(r'^\.\(\d{2}:\d{2}:\d{2}\):', r'江争达:', content, flags=re.MULTILINE)
# 删除其他所有发言人后的时间戳
content = re.sub(r'^([^\n\(]+)\(\d{2}:\d{2}:\d{2}\):', r'\1:', content, flags=re.MULTILINE)
# 写入文件
with open(output_file, 'w', encoding='utf-8') as f:
f.write(content)
print(f"替换完成: {output_file}")
return output_file
def main():
if len(sys.argv) < 2:
print("用法: python replace_speaker.py <输入文件> [输出文件]")
print("示例: python replace_speaker.py transcript.txt")
print(" python replace_speaker.py transcript.txt output.txt")
sys.exit(1)
input_file = sys.argv[1]
output_file = sys.argv[2] if len(sys.argv) > 2 else None
if not os.path.exists(input_file):
print(f"错误: 文件不存在 - {input_file}")
sys.exit(1)
replace_speakers(input_file, output_file)
if __name__ == '__main__':
main()

View File

@ -1,199 +0,0 @@
# Q&A资源库类会议纪要 (2025-12-09)
## 一、会议信息
- **会议时间:** 2025-12-09
- **参会人员:** 连云波(主持)、闫旭隆、郝倩玉、陶西平、江争达
- **记录整理:** Claude
---
## 二、工作问题 Q&A
### 1. 项目名称:数字人视频生成相关问题
**问题1数字人视频生成流程存在逻辑不自洽**
- **问题描述:** 当前数字人视频生成流程需要先录制绿幕视频训练数字人模型,再上传图片生成动作参考视频,最后生成口播视频。如果可以通过图片直接生成动作视频,为什么还需要先上传真人视频训练模型?两个视频同时训练一个东西在逻辑上存在矛盾。
- **解决方案:**
1. 测试直接用图片创建数字人专家,不拍摄绿幕视频,对比效果是否一致
2. 使用剪映等外部软件先抠背景再导入黑镜平台
3. 删除现有专家账号重新测试流程,验证是否必须上传真人视频
- **责任人:** 江争达、陶西平
- **截止时间:** 2025-12-16
**问题2数字人视频背景抠不干净**
- **问题描述:** 生成的数字人视频存在背景抠不干净的问题,有浅蓝/浅绿色阴影残留。
- **解决方案:**
1. 不要依赖平台自身的抠图功能
2. 使用剪映等外部软件先进行背景去除
3. 将处理后的视频再导入平台使用
- **责任人:** 江争达、陶西平
- **截止时间:** 2025-12-16
### 2. 项目名称VEO视频生成相关问题
**问题1VEO视频生成工具使用不当导致效果差**
- **问题描述:** 使用VEO Three生成分镜脚本视频时使用中文prompt且首尾帧图片完全相同导致生成的视频人物几乎不动动作指令完全没有执行。VEO Three对英文prompt的遵循效果远好于中文。
- **解决方案:**
1. 必须使用英文promptVEO Three对英文指令遵循效果最好
2. 首尾帧应使用不同的图片(如尾帧是往前走两步后的状态)
3. 多学习网上其他人的使用经验YouTube、Twitter、Reddit
4. 重新用英文prompt制作视频
- **责任人:** 陶西平
- **截止时间:** 2025-12-16
### 3. 项目名称:问答系统前端重构相关问题
**问题1前端重构缺乏明确目标和需求文档**
- **问题描述:** 汇报前端重构工作时PPT直接展示做成什么样缺乏"为什么要重构"(Why)的分析。没有说明前端具体存在哪些问题、想要达成的目标是什么、理想的展示效果是什么样的。"没有需求文档就开发"、"先生成代码再倒回来补文档"是错误做法。
- **解决方案:**
1. 先明确目标,说清楚想要什么样的效果,画出设计草图
2. 整理前端代码存在的具体问题案例
3. 按照"Why-How-What"的逻辑结构重新组织汇报材料
4. 需求文档必须先批准才能开发,不准先开发再补文档
5. 需求可以分阶段开发,但必须有整体的阶段设计
- **责任人:** 江争达
- **截止时间:** 2025-12-16
### 4. 项目名称Gartner报告转写相关问题
**问题1报告转写规则和风格提取困难**
- **问题描述:** 转写后的英文翻译生硬(如"构建者"、"综合者"等不符合信通院用语习惯AI痕迹明显缺乏观点风格规则难以精确提取写多了约束可能偏写少了表现不好。
- **解决方案:**
1. 先提取每段要点总结,再重新生成文章(骨架提取法)
2. 不必完全忠实于原文英文词汇,可以进行意义转写
3. 使用NotebookLM做Deep Research融合相关资料后再写
4. 请信通院专家来审核和调整专业术语
5. 转写后需要有检查优化的流程
- **责任人:** 闫旭隆
- **截止时间:** 2025-12-16
### 5. 项目名称:工具使用能力相关问题
**问题1工具使用能力不足不会学习**
- **问题描述:** 团队成员对AI工具黑镜、VEO、Claude Code等的使用能力不足不会主动学习。同样的工具在不同人手里效果完全不同90分的工具用出50分都不到的效果。遇到问题不去网上搜索学习而是闷头自己试。
- **解决方案:**
1. 多上网学习看YouTube、Twitter、Reddit上别人的使用经验和案例
2. 遇到问题先用Deep Research等工具搜索解决方案
3. 利用多个AI工具GPT、Claude、DeepSeek等交叉验证和获取建议
4. 不要自以为是要AI First从别人那里学习
- **责任人:** 江争达、陶西平
- **截止时间:** 2025-12-16
### 6. 项目名称:汇报表述相关问题
**问题1汇报表述不清晰、逻辑混乱**
- **问题描述:** 多名成员在汇报时存在表述不清、逻辑混乱的问题。解释技术流程时反复说不清楚,无法用简洁明了的语言描述工作内容和技术流程。
- **解决方案:**
1. 汇报前先理清思路,用一句话概括核心流程
2. 练习表达能力,学会用简洁语言描述复杂流程
3. 汇报时按照步骤一二三清晰说明,不要东一下西一下
- **责任人:** 江争达、陶西平
- **截止时间:** 2025-12-16
---
## 三、重点工作方法
### 方法 1需求文档先行原则
- **方法描述:** 在开发之前必须先完成需求文档的撰写和批准。需求文档必须包含三个核心要素Why为什么要做、What要做成什么样、How怎么做。不能先生成代码再倒回来补文档需求不明确时不准开发。需求可以分阶段开发但必须有完整的阶段设计不能走一步看一步。
- **适用场景:** 前端重构、问答系统开发、任何需要开发的项目
- **关键要点:**
- 需求文档必须先批准才能开发
- 包含Why-What-How三要素
- 分阶段开发也要有整体设计
### 方法 2问题驱动的重构方法
- **方法描述:** 重构前必须先明确1现有系统存在哪些具体问题需要案例展示2想要达到的目标是什么理想效果3为什么现有方案达不到目标。不能简单说"代码冗余"就重构,必须有具体的问题分析和目标定义。
- **适用场景:** 代码重构、系统优化、架构调整
- **关键要点:**
- 用案例展示具体问题
- 明确目标和理想效果
- 分析现有方案的不足
### 方法 3AI工具使用的英文优先原则
- **方法描述:** 使用VEO等AI视频生成工具时必须使用英文Prompt才能获得最佳效果。中文Prompt的指令遵循能力很弱可能导致生成的视频完全不符合要求。需要先学习工具的使用规范不能想当然地使用。
- **适用场景:** VEO视频生成、AI图像生成、大模型调用
- **关键要点:**
- 英文Prompt效果远好于中文
- 先学习工具使用规范
- 参考网上优秀案例
### 方法 4外部工具增强法
- **方法描述:** 当平台内置功能效果不好时,不要依赖平台自身功能,应该使用外部专业工具先进行预处理,再将处理后的素材导入平台使用。例如使用剪映先进行视频背景去除,再导入黑镜平台。
- **适用场景:** 数字人视频制作、视频后期处理、图片编辑
- **关键要点:**
- 识别平台功能的不足
- 选择合适的外部工具
- 预处理后再导入使用
### 方法 5AI First学习方法
- **方法描述:** 遇到不会的问题时要主动到网上学习YouTube、Twitter、Reddit等搜索别人的先进经验而不是闭门造车自己摸索。使用AI工具前要先学习官方文档和最佳实践内化为自己的能力。不会学习的时候把学习过程也告诉大家让大家帮助纠正。
- **适用场景:** 新工具学习、问题解决、技能提升
- **关键要点:**
- 主动搜索别人的经验
- 学习官方文档和最佳实践
- 利用AI工具交叉验证
### 方法 6逻辑结构四维度框架
- **方法描述:** 文档和汇报应遵循清晰的逻辑结构包含四个维度1时间维度发展历程2空间维度范围边界3层次维度从粗到细4认知维度是什么-为什么-怎么做。从Why开始不能上来就是How。
- **适用场景:** 需求文档编写、PPT汇报、方案设计
- **关键要点:**
- 时间、空间、层次、认知四维度
- 从Why开始不是从How开始
- 由粗到细逐层展开
### 方法 7首尾帧差异化设计原则
- **方法描述:** 使用VEO等工具生成视频时首帧和尾帧图片不能用同一张。如果两张图片完全一样视频默认就是静止不动的。应该生成一张有动作变化的尾帧图片如往前走两步这样生成的视频才会有动态效果。
- **适用场景:** VEO视频生成、AI视频制作
- **关键要点:**
- 首尾帧必须不同
- 尾帧应体现动作变化
- 避免静止画面输出
### 方法 8报告转写的骨架提取法
- **方法描述:** 转写报告时,可以先提取每一段的要点总结,形成骨架结构,然后再基于骨架重新生成文章。这样可以避免生硬地照着原文翻译,产生更自然的转写效果。原文只保留骨架逻辑和关键数据,表达方式可以完全重写。
- **适用场景:** 报告转写、文档翻译、内容改写
- **关键要点:**
- 先提取要点形成骨架
- 基于骨架重新生成
- 保留逻辑和数据,重写表达
### 方法 9多模态融合工作流设计
- **方法描述:** 未来工作应该把多模态能力文字、图片、视频、语音融合到日常工作中。PPT制作可以用AI直接生成图片中的文字可以直接编辑修改。要思考如何将多模态能力集成到自己的业务流程中形成更高效的输出。
- **适用场景:** PPT制作、视频生成、内容生产
- **关键要点:**
- 多模态能力融合
- 思考业务流程集成方式
- 形成高效的生产工作流
### 方法 10Skill持续进化学习机制
- **方法描述:** Skill应该设计成可以自我学习和进化的。方法是在使用过程中遇到问题后把对话记录发给AI让它帮助总结问题并改进Skill。随着每天的使用Skill会自动进化。这种方式可以让知识持续沉淀在Skill中。
- **适用场景:** Skill开发、知识管理、自动化流程优化
- **关键要点:**
- 设计自我学习机制
- 对话记录用于改进
- 知识持续沉淀进化
---
**纪要整理人:** Claude
**纪要时间:** 2025-12-09
**下次会议:** 2025-12-16

View File

@ -0,0 +1,195 @@
# Q&A资源库类会议纪要 (2026-01-06)
## 一、会议信息
- **会议时间:** 2026-01-06
- **参会人员:** 连云波(主持)、闫旭隆、江争达、郝倩玉
- **记录整理:** Claude
---
## 二、工作问题 Q&A
### 1. 项目名称:科普视频生成
**问题描述:**
- AI视频提示词生成质量不足无法"一次成型"
- prompt质量不高需反复调整
- 工具选型调研不充分未对比ChatGPT与其他工具
- 错误删除高质量AI生成图片alpha蛋白质折叠图
- 流程未自动化,仍需大量人工介入
**解决方案:**
1. 使用ChatGPT生成文本类prompt文本能力最强Gemini生成图片
2. 全文案一次性给AI处理让AI自动拆分关键帧减少人工干预
3. 不要主观判断AI生成的图片好坏应交给专业人员审查
4. 先做调研再动手让AI推荐各环节最佳工具组合
5. 尽快完成端到端自动化工作流:图片生成→可灵视频生成→代码拼接→音频对齐
6. 使用浏览器自动化操作方案实现批量生成
### 2. 项目名称:服务器部署
**问题描述:**
- 服务器已到货但上来就动手装系统,没有先做规划方案和文档
- 缺乏工程化思维,未考虑文档记录和未来维护需求
**解决方案:**
1. 先做服务器框架规划方案(需求文档),再做实施方案
2. 使用ask you the question工具让AI帮助规划进行40轮问答
3. 参考领导分享的服务器配置相关资料
4. 考虑泛化:单机部署→大型机房规划→运维管理
5. 做好文档工作,为未来自己和他人留下参考
### 3. 项目名称:咨询信息库
**问题描述:**
- 咨询信息库项目核心需求不清晰
- 具体要给所领导什么报告、达成什么目的都未明确
- 目前是"有什么就给什么"的思维,而非从目标出发
**解决方案:**
1. 明确目标:给谁看(所领导/业务部门主任)、看什么、达成什么目的
2. 不要做庞大的全面规划,先做一个最小版本的报告给窦主任看
3. 先做一个点(如技术动态追踪),验证可行性后再扩展
4. 不要纠结于信息源问题,有什么就分析什么
5. 尽快落地一个skill跑通一次流程不要停留在纸面
### 4. 项目名称Vibe Engineering框架
**问题描述:**
- 框架实现细节不完善,有些设计没有真正使用
- 框架选型众多Cloud官方双代理、Super Power、Continuous Claude等需要确定使用哪个
**解决方案:**
1. 优先采用Cloud官方的双代理长时间运行方案简单有效
2. 结合rough rag做迭代验证
3. 由简入繁,不要上来就加太多功能
4. 研究hooks的使用这是流程自动化的重要手段
5. 做虚拟验证先让AI模拟方案可行性再实际执行
---
## 三、重点工作方法
- **方法 1先调研后动手原则**
- 做任何事情之前先做调研不要上来就动手。先调研学习内化成自己的知识结构之后提出新一轮的问题和目标让AI再做一次方案验证方案可行性后再开始操作。
- 适用场景:服务器部署、工具选型、任何新任务开始前
- 关键要点:
- 先做调研完出来之后赶快学习
- 内化成自己的知识结构之后提出新一轮的问题
- 让AI做方案后验证可行性再操作
- 脑子里的东西基本都是过时的,不要按照自己的脑子想到的去做
- **方法 2工程化文档规范**
- 做事情要有章法,先做规划方案(需求)再做实施方案。服务器部署等工程操作必须有文档记录,既为现在所用,又能为未来所用,还能为别人所用。
- 适用场景:服务器部署、系统开发、任何工程类项目
- 关键要点:
- 先做规划方案(需求),再做实施方案
- 一定要有很好的文档工作
- 既为现在所用,又为未来所用,还为别人所用
- 就像README一样每个人上来都能快速理解
- **方法 3Ask You The Question访谈法**
- 使用AI持续提问的方式来完成需求澄清和规划。让AI不断问你问题约40轮你听不懂的问题到网上查查完学习后回答回答完就形成了很好的部署开发文档。
- 适用场景:需求文档生成、服务器规划、缺乏规划能力时
- 关键要点:
- 让AI持续用问题来帮你澄清需求
- 大概能问40轮问题
- 听不懂的问题到网上查,查完学习后回答
- 问答完毕就形成了很好的开发文档
- **方法 4提问必须有完整上下文**
- 提出问题时必须提供完整的背景信息和操作路径。别人不知道你怎么来的,就没办法帮你解决问题。清晰的组织你的思路和问题比直接问问题带来巨大的时间节省。
- 适用场景:团队沟通、问题反馈、求助他人
- 关键要点:
- 提问前先整理好背景信息
- 说明你的操作路径(走了什么路走过来的)
- 让别人听懂比你的问题还重要
- 语言组织不好,别人听到的时间都浪费掉了
- **方法 5泛化思维**
- 做一件事情时一定要想将来它的泛化怎么做,不只做点上的问题解决。把这次做的事情能够推广到更多场景,形成可复用的能力。
- 适用场景:服务器部署、知识图谱、任何技术项目
- 关键要点:
- 不只做点上的问题,要考虑泛化
- 把服务器部署方法泛化到大型机房
- 能力泛化出来才有商业价值
- 花时间解决一个点上的问题是巨大的浪费
- **方法 6双代理长时间运行架构**
- Claude官方的双代理架构一个Starter代理负责初始化和规划一个Builder代理负责逐步推进编码。通过progress.md文件记录完成的工作利用git历史实现增量扩展。
- 适用场景长时间自动化开发、Vibe Engineering框架
- 关键要点:
- 前台对话代理+后台任务代理
- 通过progress.md记录工作进度
- 利用git历史实现增量扩展
- 功能裂变:一次只处理一个功能
- **方法 7账本+Handoff持续工作机制**
- Continuous Cloud框架的核心机制通过账本Ledger记录工作状态和决策通过Handoff在上下文压缩前保存关键信息。
- 适用场景:跨窗口持续性工作、长时间任务
- 关键要点:
- 账本记录工作状态、关键决策、进度
- Handoff在压缩前保存对话记录
- 支持跨会话的工作连续性
- 自动从日志提取关键信息
- **方法 8错误回滚学习法**
- 在Claude Code中当发现错误时先总结错误然后按两下ESC回到上一个prompt操作点把错误信息告诉它不要这么操作。这样大量的错误上下文就去掉了保留有效信息。
- 适用场景Claude Code使用、AI对话纠错
- 关键要点:
- 发现错误后先总结错误原因
- 按两下ESC回到上一个操作点
- 告诉AI不要这么操作
- 保留有效信息,去掉错误上下文
- **方法 9信任AI生成结果原则**
- 在自己不具备专业判断能力的领域要信任AI生成的结果不要凭主观臆断删除或修改。Gemini在专业领域的理解已经超过大部分人。
- 适用场景:视频生成、图片生成、专业领域判断
- 关键要点:
- 不具备专业判断能力时信任AI
- 你看不懂不代表它错了
- 质疑之前先问"这是什么"
- 没有证据不要轻易否定AI结果
- **方法 10端到端自动化优先**
- 开发工作流时,先做一个端到端的自动化流程跑通,不要一开始就追求完美和优化。先把流程走通,再做第二期的修改优化。
- 适用场景:视频生成工作流、任何新流程开发
- 关键要点:
- 先做端到端流程跑通
- 不要一开始追求完美
- 先解决能解决的快速解决的问题
- 质量优化无止境,可以后续迭代
- **方法 11自进化知识图谱架构**
- 设计一个自动化知识图谱系统:通过查询反馈驱动图谱重建,经过多跳找到的路径自动压缩成新边,长期不用的边自动退化,成功多次的边提高权重。
- 适用场景科研知识图谱、Deep Research智能体
- 关键要点:
- 查询反馈驱动图谱自动重建
- 多跳路径自动压缩成直接边
- 长期不用的边自动退化
- 强化学习模拟进化图谱
- **方法 12Hooks流程编排**
- 使用Claude Code的Hooks机制进行流程自动化编排。Hooks有六类情况pre/post tool use等真正的高手都在用Hooks而不是完全用Skill。
- 适用场景Claude Code自动化、流程编排
- 关键要点:
- Hooks有六类触发情况
- Skill是知识Hooks是流程控制
- 高手都在用Hooks做自动化
- 研究每类Hook的使用场景
- **方法 13测试驱动开发(TDD)**
- 在写代码之前先写测试代码。先编写一个失败的测试,然后按照测试来编写代码,确保代码是可测试的。
- 适用场景Vibe Engineering框架、质量控制
- 关键要点:
- 先写失败的测试
- 根据测试来写代码
- 产出可测试的代码
- 质量保证内置于流程中
---
**纪要整理人:** Claude
**纪要时间:** 2026-01-06
**下次会议:** 2026-01-13

View File

@ -1,91 +0,0 @@
# 云大所需求相关进度会议纪要 (2025-12-09)
## 一、会议信息
- **会议时间:** 2025-12-09
- **参会人员:** 连云波(主持)、闫旭隆、郝倩玉、陶西平、江争达
- **记录整理:** Claude
---
## 二、需求项目进展
| 项目名称 | 负责人 | 本周进展 | 存在问题 | 下周计划 | 优先级 |
| -------- | ------ | -------- | -------- | -------- | ------ |
| 投标商务应答自动生成系统 | 郝倩玉、闫旭隆 | 架构设计已完成,企业信息库建设存在困难 | 企业信息库格式混乱Excel、Word、PDF混杂图片库来源分散缺少描述保密信息处理问题响应文件模板不统一 | 周四客户交流后确定最终方案,从最新招投标响应文件提取企业信息作为基础库 | P0 |
| 数字人项目 | 江争达、陶西平、郝倩玉 | 基本可用已完成阶段一样本视频VEO3分镜脚本测试效果不理想 | 黑镜平台背景抠图有浅色阴影残留数字人生成流程存在逻辑不自洽VEO3使用中文prompt效果极差 | 测试直接用图片生成数字人模型VEO3用英文prompt重新测试为领导制作数字人演讲视频郝倩玉参与视频学习 | P0 |
| Gartner报告解读转写系统 | 郝倩玉、闫旭隆 | 架构设计和可行性单元测试已完成 | 翻译生硬不符合信通院风格AI痕迹明显缺乏专家观点输出字数难以控制图片处理尚未完成 | 抓紧测试API额度快到期先提取每段要点总结再重新生成文章使用NotebookLM做deep research后融合生成 | P0 |
| 邮件自动处理转发系统 | 江争达 | 新版本已投入使用(功能优化) | 无 | 持续优化 | P1 |
> **备注:** 市场部需求清单中的其他项目(运营商信息精准爬取系统、客户风险推送自动化系统、证书信息提取系统、云大阁新报告自动推送)本次会议未涉及讨论。
---
## 三、问题与风险
### 1. 投标商务应答自动生成系统
**问题描述:**
- 企业信息库格式混乱Excel、Word、PDF混杂
- 图片库来源分散,缺少描述和映射关系
- 保密信息处理问题部分内容不能给AI读取
- 响应文件模板不统一,每个招标文件要求不同
- 逻辑映射规则复杂,难以移植
**解决方案:**
1. 从最新招投标响应文件提取企业信息作为基础库
2. 使用AI读取历史文件中的图片和位置生成索引后让市场部审核标注
3. 保密内容由市场部先筛选删除后再提供
4. 不够的信息再去原有库补充
5. 周四客户交流后再确定最终方案
**责任人:** 郝倩玉、闫旭隆
**截止时间:** 2025-12-16
### 2. 数字人项目
**问题描述:**
- 数字人视频生成流程存在逻辑不自洽(先录绿幕训练+再用图片生成动作可能冗余)
- 黑镜平台背景抠图效果不理想
- VEO3使用中文prompt效果极差首尾帧相同导致视频无动作
- 工具使用方法需要学习提升
**解决方案:**
1. 测试直接用图片生成数字人模型,验证是否需要先录制绿幕视频
2. 使用剪映等外部软件先抠背景再导入黑镜平台
3. VEO3必须使用英文prompt首尾帧需使用不同图片
4. 多学习网上优秀案例YouTube、Twitter、Reddit
**责任人:** 江争达、陶西平
**截止时间:** 2025-12-16
### 3. Gartner报告解读转写系统
**问题描述:**
- 转写后的英文翻译生硬,不符合信通院用语习惯
- AI痕迹明显缺乏专家观点
- 风格规则难以精确提取
- Gemini API额度快到期还剩一天
**解决方案:**
1. 允许意义转写而非忠实于原词
2. 先提取每段要点总结再重新生成文章(骨架提取法)
3. 使用NotebookLM做Deep Research后融合生成
4. 抓紧时间测试API在额度到期前跑完报告
**责任人:** 闫旭隆
**截止时间:** 2025-12-16
---
## 四、下周重点
1. 🔴 **投标商务应答自动生成系统**:周四客户交流后确定最终方案,从最新招投标响应文件提取企业信息作为基础库
2. 🔴 **数字人项目**测试直接用图片生成数字人模型VEO3用英文prompt重新测试为领导制作数字人演讲视频
3. 🔴 **Gartner报告解读转写系统**抓紧测试API额度快到期使用骨架提取法优化转写效果
---
**纪要整理人:** Claude
**纪要时间:** 2025-12-09
**下次会议:** 2025-12-16

View File

@ -0,0 +1,57 @@
# 云大所需求相关进度会议纪要 (2026-01-06)
## 一、会议信息
- **会议时间:** 2026-01-06
- **参会人员:** 连云波(主持)、闫旭隆、江争达、郝倩玉
- **记录整理:** Claude
---
## 二、需求项目进展
| 项目名称 | 负责人 | 本周进展 | 存在问题 | 下周计划 | 优先级 |
| -------- | ------ | -------- | -------- | -------- | ------ |
| Gartner报告解读转写系统 | 闫旭隆 | 等待专家反馈中,图片修改工作暂未进行,计划等全部反馈汇总后一起修改 | 专家反馈尚未完成 | 等待专家反馈后汇总修改图片生成相关内容 | P1 |
| 数字人项目 | 郝倩玉 | 仍在可行性调研中,本周主要精力在咨询信息库项目 | 调研未完成就需要尽快落地skill | 抓紧时间把调研完成并做出实际可用的skill | P0 |
---
## 三、问题与风险
### Gartner报告解读转写系统
**问题描述:** 专家反馈尚未完成,图片修改工作暂时搁置
**解决方案:** 等待全部反馈汇总后一起修改
**责任人:** 闫旭隆
**截止时间:** 待定
---
### 数字人项目
**问题描述:** 调研工作推进缓慢,主要精力被咨询信息库项目占用
**解决方案:**
1. 抓紧时间把数字人技术调研完成并做出实际可用的skill
2. 不能一直停留在需求调研层面
**责任人:** 郝倩玉
**截止时间:** 2026-01-13
---
## 四、下周重点
1. 🔴 数字人视频生成技术调研完成并落地skill郝倩玉
2. Gartner报告图片生成优化等待专家反馈
---
**纪要整理人:** Claude
**纪要时间:** 2026-01-06
**下次会议:** 2026-01-13

View File

@ -1,291 +0,0 @@
# 工程类会议纪要 (2025-12-09)
## 一、会议信息
- **会议时间:** 2025-12-09
- **参会人员:** 连云波(主持)、闫旭隆、郝倩玉、陶西平、江争达
- **记录整理:** Claude
---
## 二、工作内容
### 1. 重点项目进展情况汇总
| 项目名称 | 原负责人 | 原截止时间 | 项目进展情况 |
| -------- | -------- | ---------- | ------------ |
| 会议纪要Skill全量处理优化 | 闫旭隆、郝倩玉 | 2025-12-09 | 已完成初步对比测试Gemini画面效果带来一些提升。存在问题gemini视频上传限制不能超过1小时、200MB、清洗力度难以控制、主窗口上下文不够用200KB文件需90kTokens、Sub-agent并行写文件权限问题。**解决方案:** 1使用Gemini进行清洗Gemini上下文更大2压缩视频后再上传Gemini3尝试Gemini API直接生成4清洗后再用Claude做会议纪要 |
| 数字人PPT视频样本生成 | 江争达、陶西平 | 2025-12-08 | 基本可用,已完成阶段一样本视频。存在问题:黑镜平台背景抠图有浅色阴影残留;数字人生成流程存在逻辑不自洽(上传真人视频训练+上传图片生成动作可能存在冗余);汇报表述不清。**解决方案:** 1使用剪映等软件先抠背景再导入黑镜2测试直接用图片生成数字人模型验证是否需要先录制绿幕视频3郝倩玉参与视频学习和制作 |
| Gemini分镜脚本生成测试 | 江争达、陶西平 | 2025-12-09 | 已完成测试但效果不理想。存在问题VEO3使用中文prompt效果极差模型不遵循指令首尾帧使用相同图片导致视频无动作对工具理解不够。**解决方案:** 1必须使用英文promptVEO3对英文指令遵循度高2首尾帧需使用不同图片如走动前后的姿态3学习网上优秀案例YouTube、Twitter、Reddit |
| 问答系统V1.1前端重构 | 江争达、陶西平 | 2025-12-09 | 已完成前端代码重构,采用麦肯锡风格。存在问题:缺少需求文档、缺少目标定义、缺少问题分析;汇报逻辑混乱,直接展示"怎么做"而非"为什么做";代码生成后倒着补文档。**解决方案:** 1补充完整需求文档问题分析、目标定义、验收标准2遵循"Why-How-What"逻辑结构3需求文档不批准不准开发 |
| 需求澄清Skill专家博弈优化 | 闫旭隆 | 2025-12-09 | 已完成。可视化结果及录制视频已完成,专家交叉回应的字段映射整理完毕 |
| 投标商务应答自动生成系统Skill架构设计 | 郝倩玉、闫旭隆 | 2025-12-09 | 架构设计已完成企业信息库建设存在困难。存在问题企业信息库格式混乱Excel、Word、PDF混杂图片库来源分散缺少描述保密信息处理问题响应文件模板不统一。**解决方案:** 1从最新招投标响应文件提取企业信息作为基础库2AI读取历史文件图片生成索引后让市场部审核标注3保密内容由市场部先筛选删除4周四客户交流后确定最终方案 |
| Gartner报告解读转写Skill架构设计 | 郝倩玉、闫旭隆 | 2025-12-09 | 架构设计和可行性单元测试已完成。存在问题:翻译生硬(如"构建者"、"综合者"不符合信通院风格AI痕迹明显缺乏专家观点输出字数难以控制图片处理尚未完成。**解决方案:** 1允许意义转写而非忠实于原词2先提取每段要点总结再重新生成文章抽骨架换血肉3使用NotebookLM做deep research后融合生成4抓紧测试API额度快到期 |
| 数字分身方案调研及方案撰写 | 郝倩玉 | 2025-12-09 | 进行中。发现市场上数字分身应用已比较成熟,需研究自研还是定制化定位。**解决方案:** 1郝倩玉参与视频生成学习2探索黑镜、VEO3等工具的融合使用 |
### 2. 重点项目问题及解决方案
#### 问题1: 数字人视频生成流程存在逻辑不自洽问题
**问题描述:**
当前数字人视频生成流程需要先录制绿幕视频训练数字人模型,再上传图片生成动作参考视频,最后生成口播视频。领导质疑这个流程的必要性,认为如果可以通过图片直接生成动作视频,为什么还需要先上传真人视频训练数字人模型,两个视频同时训练一个东西在逻辑上存在矛盾。另外,生成的视频存在背景抠不干净(有浅蓝/浅绿色阴影)的问题。
**解决方案:**
1. 测试直接用图片创建数字人专家,不拍摄绿幕视频,对比效果是否一致
2. 使用剪映等外部软件先抠背景再导入黑镜平台,效果可能比黑镜自带抠图更好
3. 删除现有专家账号重新测试流程,验证是否必须上传真人视频
**责任人:** 江争达、陶西平
**截止时间:** 2025-12-16
#### 问题2: VEO视频生成工具使用不当导致效果差
**问题描述:**
陶西平使用VEO Three生成分镜脚本视频时使用中文prompt且首尾帧图片完全相同导致生成的视频人物几乎不动动作指令完全没有执行。对比领导用英文prompt生成的视频手势动作完全按照指令执行。问题核心是1)VEO Three对英文prompt的遵循效果远好于中文2)首尾帧使用相同图片会导致视频没有动作变化3)花了一周多时间但产出质量很差。
**解决方案:**
1. 必须使用英文promptVEO Three对英文指令遵循效果最好
2. 首尾帧应使用不同的图片,比如尾帧图片应该是往前走两步后的状态
3. 多学习网上其他人的使用经验如YouTube、Twitter、Reddit上的VEO使用案例
4. 重新用英文prompt制作视频
**责任人:** 陶西平
**截止时间:** 2025-12-16
#### 问题3: 前端重构缺乏明确目标和需求文档
**问题描述:**
江争达汇报前端重构工作时PPT直接展示做成什么样缺乏"为什么要重构"(Why)的分析。没有说明1)前端具体存在哪些问题和案例2)想要达成的目标是什么3)理想的展示效果、交互体验是什么样的。领导严厉批评这种"没有需求文档就开发"、"先生成代码再倒回来补文档"的做法,认为这是思想懒惰的表现。
**解决方案:**
1. 先明确目标,说清楚想要什么样的效果,画出设计草图
2. 整理前端代码存在的具体问题案例,分析代码扫描和人工智能读取后暴露的问题
3. 按照"Why-How-What"的逻辑结构重新组织汇报材料
4. 需求文档必须先批准才能开发,不准先开发再补文档
5. 需求可以分阶段开发,但必须有整体的阶段设计,不能走一步看一步
**责任人:** 江争达
**截止时间:** 2025-12-16
#### 问题4: 汇报表述不清晰、逻辑混乱
**问题描述:**
多名成员在汇报时存在表述不清、逻辑混乱的问题。江争达解释数字人视频生成流程时反复说不清楚陶西平解释VEO视频生成流程时也无法清晰表达是用首尾帧还是视频扩展。领导多次要求"你们回去好好学练习语文"。核心问题是无法用简洁明了的语言描述工作内容和技术流程。
**解决方案:**
1. 汇报前先理清思路,用一句话概括核心流程
2. 练习表达能力,学会用简洁语言描述复杂流程
3. 汇报时按照步骤一二三清晰说明,不要东一下西一下
**责任人:** 江争达、陶西平
**截止时间:** 2025-12-16
#### 问题5: 工具使用能力不足,不会学习
**问题描述:**
团队成员对AI工具黑镜、VEO、Claude Code等的使用能力不足不会主动学习。领导指出1)同样的工具在不同人手里效果完全不同90分的工具用出50分都不到的效果2)遇到问题不去网上搜索学习而是闷头自己试3)没有AI First的思维不懂得利用AI来帮助分阶段、规划需求。
**解决方案:**
1. 多上网学习看YouTube、Twitter、Reddit上别人的使用经验和案例
2. 遇到问题先用Deep Research等工具搜索解决方案
3. 利用多个AI工具GPT、Claude、DeepSeek等交叉验证和获取建议
4. 不要自以为是要AI First从别人那里学习
**责任人:** 江争达、陶西平
**截止时间:** 2025-12-16
#### 问题6: 报告转写规则和风格提取困难
**问题描述:**
在做Gartner报告转写工作中发现1)转写后的英文翻译生硬(如"构建者"、"综合者"等不符合信通院用语习惯2)AI痕迹明显缺乏观点3)风格规则难以精确提取写多了约束可能偏写少了表现不好4)转写较忠实于原文用词,但信通院的专业术语和表达方式不同。
**解决方案:**
1. 先提取每段要点总结,再重新生成文章,相当于把骨架抽出来重新填充
2. 不必完全忠实于原文英文词汇,可以进行意义转写
3. 使用NotebookLM做Deep Research融合相关资料后再写
4. 请信通院专家来审核和调整专业术语
5. 转写后需要有检查优化的流程
**责任人:** 闫旭隆
**截止时间:** 2025-12-16
### 3. 下周工作安排
| 项目名称 | 负责人 | 下周会前目标 | 优先级 | 截止时间 |
| -------- | ------ | ------------ | ------ | -------- |
| 🔴 数字人视频生成流程优化测试 | 江争达 | 测试不使用绿幕视频直接用图片生成数字人的效果:删除现有专家数字人,直接上传图片生成动作视频,验证是否可以省略绿幕拍摄步骤。同时尝试用剪映等外部软件先抠图再导入黑镜平台 | P0 | 2025-12-16 |
| 🔴 VEO3视频生成重新测试 | 陶西平 | 使用英文prompt重新测试VEO3视频生成功能参考领导发送的英文prompt示例确保指令执行效果。首尾帧需使用不同图片如人物走动两步的图片 | P0 | 2025-12-16 |
| 🔴 问答系统前端重构需求文档完善 | 江争达 | 需求文档必须包含1明确的目标和期望效果包括UI草图/设计图2现有问题的具体案例分析代码扫描结果、组件冗余示例3为什么要重构的充分论证4分阶段的需求规划设计。需求文档未批准前不准开发 | P0 | 2025-12-16 |
| 🔴 视频制作学习与多模态工作流探索 | 郝倩玉 | 参与数字人视频的学习和制作开通Gemini/API账号探索如何将多模态能力PPT生成、视频生成、图片编辑融合到市场部工作中形成高效的视频生产工作流 | P0 | 2025-12-16 |
| 🔴 数字人演讲视频制作 | 江争达、陶西平 | 为领导制作数字人演讲视频用于即将到来的演讲场合。需要:领导提供一张图片和声音,以及演讲稿文字内容,团队负责生成完整的数字人演讲视频 | P0 | 2025-12-16 |
| 🔴 会议纪要Skill全量处理优化 | 闫旭隆、郝倩玉 | 使用Gemini进行转写清洗清洗后再用Claude做会议纪要尝试压缩视频后上传Gemini测试Gemini API直接生成 | P0 | 2025-12-16 |
| 🔴 投标商务应答自动生成系统Skill架构设计 | 郝倩玉、闫旭隆 | 周四客户交流后确定最终方案,从最新招投标响应文件提取企业信息作为基础库 | P0 | 2025-12-16 |
| 🔴 Gartner报告解读转写Skill架构设计 | 郝倩玉、闫旭隆 | 抓紧测试API额度快到期先提取每段要点总结再重新生成文章使用NotebookLM做deep research后融合生成 | P0 | 2025-12-16 |
| Gartner报告转写优化 | 郝倩玉 | 继续优化报告转写效果1考虑分段提取要点后重新生成文章2调整prompt允许意译而非直译3处理图片提取和匹配插入4优化英文术语的中文表达 | P1 | 2025-12-16 |
| 知识库整理与管理 | 郝倩玉 | 接手知识库整理工作从江争达处转交系统化整理1市场部知识文档2云大哥相关知识3AIEC团队从成立至今的各类文档、文章、视频、会议纪要等 | P1 | 2025-12-16 |
| 前端重构问题反思总结 | 江争达 | 整理并总结代码问题的典型案例1记录哪些具体问题导致需要重构2分析问题成因3形成经验教训文档供后续学习借鉴 | P1 | 2025-12-16 |
| 数字分身方案调研及方案撰写 | 郝倩玉 | 继续调研市面上做得好的版本,研究自研还是定制化定位 | P1 | 2025-12-16 |
### 4. 组内成员工作进展
#### 闫旭隆
**上周完成:**
- ✅ 会议纪要Skill开发生成市场部需求相关会议纪要、主窗口加载转写文本优化、三种方式对比测试
- ✅ 需求澄清Skill专家博弈优化可视化结果整理及录制视频
- ✅ Skill-designer-v1开发完成
- ✅ Gartner报告解读转写Skill架构设计及可行性单元测试
- ✅ 投标商务应答自动生成系统Skill架构设计
**进行中:**
- 🔄 会议纪要Skill全量处理优化Gemini清洗方案测试
- 🔄 Gartner报告转写优化API测试
**收到的反馈/学习建议:**
- **建议:** 会议纪要skill技术选型基本确定接下来是优化工作。建议把相关流程、需求、开发文档管理起来形成1.0版本发布
- **建议:** gemini视频上传问题建议尝试视频压缩因为大量静止画面编码可以压缩另外可以调用API而非界面端稳定性会更高
- **建议:** 清洗工作交给gemini处理更合适因为gemini上下文更大清洗后再用Claude做会议纪要
- **建议:** skill开发设计时建议先画一个大逻辑框架图把大的模块架构先理清楚
- **表扬:** 在自动化方向上的探索尝试是值得鼓励的,但现在是一步一步完善,不要期望一步到位
- **建议:** Gartner报告转写skill需要考虑长上下文处理问题单份报告可以拆开一段一段翻把上一段翻译压缩后作为下一段的上下文
**下周任务:**
- [ ] 🔴 P0会议纪要Skill全量处理优化
- [ ] 🔴 P0Gartner报告解读转写Skill架构设计API测试
- [ ] 🔴 P0投标商务应答自动生成系统Skill架构设计
- [ ] P1Claude Code需求文档-Skill套壳Web前端交互测试
#### 郝倩玉
**上周完成:**
- ✅ 会议纪要Skill架构优化协助旭隆优化学习类+Q&A类会议纪要Skill逻辑
- ✅ Gartner报告解读转写Skill架构设计
- ✅ 投标商务应答自动生成系统Skill架构设计和开发人员讨论需求细节
- ✅ 数字分身方案调研
**进行中:**
- 🔄 投标商务应答自动生成系统需求待明确(市场部反馈需求可能会变)
- 🔄 数字分身方案撰写
**收到的反馈/学习建议:**
-
**下周任务:**
- [ ] 🔴 P0视频制作学习与多模态工作流探索
- [ ] 🔴 P0会议纪要Skill全量处理优化
- [ ] 🔴 P0投标商务应答自动生成系统Skill架构设计
- [ ] 🔴 P0Gartner报告解读转写Skill架构设计
- [ ] P1Gartner报告转写优化
- [ ] P1知识库整理与管理
- [ ] P1数字分身方案调研及方案撰写
#### 陶西平
**上周完成:**
- ✅ 数字人PPT视频样本生成完成数字人阶段一的样本视频
- ✅ 数字人与ppt结合完成数字人讲解PPT视频生成步骤文档
- ✅ Gemini分镜脚本生成测试完成veo3.1调研结果文档
**进行中:**
- 🔄 VEO3视频生成优化需用英文prompt重新测试
**收到的反馈/学习建议:**
- **批评:** VEO Three工具使用错误使用中文prompt而VEO Three根本不认中文prompt至少需要八个英文单词才能启动导致prompt完全没有起作用生成的视频动作和节奏完全没有执行指令
- **批评:** 汇报表述不清:无法用简洁的语言说清楚工作流程,领导多次追问才能理解其工作内容,被批评"回去好好学练习语文"
- **批评:** 工作方式偷懒:使用同一张图片同时作为首帧和尾帧生成视频,被批评为"把偷懒发挥到极致"、"完全不动脑子工作的最新最高境界"
- **批评:** 工作效率低下:一整周时间都在做数字人视频,结果却不理想,被批评"效率太低了"
- **建议:** 使用英文promptVEO Three需要英文prompt才能正常工作应参考领导发送的示例提示词进行学习和改进
**下周任务:**
- [ ] 🔴 P0VEO3视频生成重新测试英文prompt
- [ ] 🔴 P0数字人演讲视频制作
- [ ] P1继续推进数字人讲解ppt视频
#### 江争达
**上周完成:**
- ✅ 问答系统V1.1前端重构:前端采用麦肯锡风格进行重构
- ✅ 数字人PPT视频样本生成完成样本生成完成制作步骤和费用分析
- ✅ Gemini分镜脚本生成测试指导西平完成测试
**进行中:**
- 🔄 问答系统前端重构需求文档完善缺少Why和目标定义
- 🔄 服务器采购
**收到的反馈/学习建议:**
- **批评:** 逻辑表达不清晰,思维混乱。在汇报数字人视频技术方案时,领导多次指出"你脑子就是乱的"、"东一下西一下的"、"逻辑全变了",要求其先理清思路再表达
- **批评:** 对底层技术理解不透彻。关于黑镜数字人生成流程,领导指出"你们对黑镜根本没有了解清楚",质疑为什么需要先拍绿幕视频训练模型再用图片生成参考视频的必要性
- **批评:** Cloud Code的PDF Skill功能没有研究透。领导明确指出"你们还没研究透它的PDF"要求深入研究PDF处理能力
- **批评:** 前端重构缺乏明确目标和需求文档。领导严厉批评"你这不叫需求文档,你这叫开发动机"、"你连目标都不清楚,你能做出个需求文档出来"、"需求文档不批准的时候不准开发"
- **批评:** 汇报缺乏案例支撑,只有空洞描述。领导指出"你缺乏案例展示别人是没有直观感觉的",要求展示具体的代码问题案例
- **批评:** 先开发后补文档的做法错误。领导强烈反对"先生成代码再回头补文档"的做法,认为这是"糊弄鬼",明确表示"如果没有需求文档去开发以后就不要干了"
- **批评:** 工具使用方法有问题。当说让AI严格按接口规范生成17个接口结果只生成9个时领导指出"说明你一次生成17个是错的你工具不会使用"
- **批评:** 问答系统前端重构的PPT汇报逻辑混乱。领导评价"上来就是HOW不是这样的是WHY",批评缺少为什么要做这个决策的分析
- **建议:** 需要从问题中吸取经验教训。领导建议"把这些问题找出来",分析为什么会出现不规范的现象,结果是因为之前什么原因造成的
- **建议:** 汇报应该有完整的逻辑链条。需要先说明"饿不饿"(为什么要做),再说"吃什么"(怎么做),而不是上来就讲具体操作
- **建议:** 前端设计需要先画草图和交互逻辑图
- **建议:** 数字人视频流程需要验证是否真正需要拍摄绿幕。领导建议测试直接用图片生成动作视频,如果效果差不多,"那证明前面这个绿幕你们就是脱裤子放屁"
- **建议:** Gemini API额度快到期还剩一天需要抓紧时间测试报告转写功能
**下周任务:**
- [ ] 🔴 P0数字人视频生成流程优化测试
- [ ] 🔴 P0问答系统前端重构需求文档完善
- [ ] 🔴 P0数字人演讲视频制作
- [ ] P1前端重构问题反思总结
- [ ] P1服务器采购
---
## 三、会议总结
**核心议题:** 数字人视频生成、VEO3视频测试、问答系统前端重构、Gartner报告转写
**关键决策:**
1. **需求文档不批准时不准开发:** 针对江争达前端重构项目,领导明确指出在需求文档没有明确目标、没有经过批准之前,不允许进行开发工作
2. **数字人视频工作流需要重新测试优化:** 针对黑镜平台数字人视频生成流程,要求测试直接用图片生成数字人模型是否可行,如果效果相同则绿幕录制步骤是多余的
3. **VEO视频生成必须使用英文prompt:** VEO对中文prompt执行效果很差必须使用英文prompt才能获得好的指令遵循效果
4. **视频生成工作由郝倩玉参与学习和制作:** 考虑到视频将成为市场部重要方向,决定让郝倩玉加入视频学习和制作工作
5. **知识库整理工作从江争达转交给郝倩玉统一负责:** 系统化整理市场部知识、云大哥知识、AIEC团队各类文档
6. **需求可以分阶段开发,但不代表需求没有阶段设计:** 可以把所有需求都设计出来,然后分段开发,而不是想到多少算多少
7. **转写报告风格规则需要调整,不完全忠于原文:** 可以进行意义转写,更重要的是保持逻辑框架和数据引用的准确性
8. **采用先提取每段要点再重新生成的工作流:** 针对报告转写的优化方案,先做每一段要点的总结,把骨架抽出来,然后基于骨架重新生成文章
**下周工作重点:**
1. 🔴 数字人视频生成流程优化测试,验证是否需要拍摄绿幕视频
2. 🔴 VEO3视频生成重新测试使用英文prompt
3. 🔴 问答系统前端重构需求文档完善补充Why和目标定义
4. 🔴 视频制作学习与多模态工作流探索(郝倩玉)
5. 🔴 数字人演讲视频制作
6. 🔴 会议纪要Skill全量处理优化使用Gemini进行清洗
7. 🔴 投标商务应答自动生成系统Skill架构设计周四客户交流后确定方案
8. 🔴 Gartner报告解读转写Skill架构设计抓紧测试API
---
**纪要整理人:** Claude
**纪要时间:** 2025-12-09
**下次会议:** 2025-12-16

View File

@ -0,0 +1,255 @@
# 工程类会议纪要 (2026-01-06)
## 一、会议信息
- **会议时间:** 2026-01-06
- **参会人员:** 连云波(主持)、闫旭隆、江争达、郝倩玉
- **记录整理:** Claude
---
## 二、工作内容
### 1. 重点项目进展情况汇总
| 项目名称 | 原负责人 | 原截止时间 | 项目进展情况 |
| ------------------------------------ | -------------- | ---------- | ------------------------------------------------------------ |
| 科普视频生成初版方案 | 江争达 | 2026-01-02 | 已完成3分钟演示demo并提交给富友和窦主任审核正在制作算力科普主题完整视频。技术路径Nana Banana Pro生成图片→可灵生成视频→heygen复刻声音→剪映拼接。存在问题prompt优化不足、工具选型调研不充分、错误删除AI生成的高质量图片alpha蛋白质折叠图、工作流程未自动化。**解决方案:** 1端到端自动化工作流全文案交给Gemini自动拆分生成关键帧2使用ChatGPT生成文本prompt、Gemini生成图片3浏览器自动化批量生成4代码实现视频拼接和音频对齐5先做10-20秒短视频验证流程 |
| Gartner报告转写-图片生成优化 | 闫旭隆 | 2026-01-06 | 等待专家反馈中,图片修改工作暂未进行,计划等全部反馈汇总后一起修改。**解决方案**:先对已知的待改进点(图片相关)进行改进,边等待完整反馈 |
| Deep Research智能体知识图谱方案设计 | 闫旭隆 | 2026-01-06 | 完成初步科研类知识图谱调研1基础覆盖类2021年元老级知识库2成果关系类聚焦文献引用关系3逻辑推理类I-CRAFT2025年Nature Machine Intelligence4精神疾病领域知识图谱云南大学Nature Communication。存在问题现有知识图谱都是静态的缺乏自进化机制。**解决方案:** 1研究自进化知识图谱方案可以基于开源知识图谱做MVP验证2重点研究iKragh、MDKG知识图谱的结构 |
| Vibe Engineering学习 | 闫旭隆、江争达 | 2026-01-06 | 闫旭隆完成Continuous-Claude项目学习并分享核心是账本(Ledger)+Handoff实现跨窗口持续性工作、hooks机制在session start和pre-compact时触发、BringTrust平台用于学习自进化。江争达待启动。存在问题框架实现不够完善、交接处保留信息是难点。**解决方案:** 1采用Claude官方双代理方案Starter+Builder+拉尔夫自动化+SuperPower组合框架2研究hooks的6种生命周期 |
| 数字人视频生成技术调研 | 郝倩玉 | 2026-01-06 | 仍在可行性调研中,本周主要精力在咨询信息库项目。**解决方案:** 抓紧时间把调研完成并做出实际可用的skill |
| 铭凡服务器采购 | 江争达 | 2026-01-06 | 已购买并到货体积很小像桌面机出厂自带Windows系统。存在问题缺乏规划方案和实施文档。**解决方案:** 1先做服务器框架规划方案再做执行路径实施方案2使用"ask you the question" skill进行40轮问答完善规划3把所有配置和操作记录成文档 |
| 问答系统前端上线测试版本 | 江争达 | 2026-01-06 | 还没做,还没测试。服务器到了但软件部署工作未启动。存在问题:所有时间都耗在视频生成项目上,问答系统被跟丢了。**解决方案:** 一周至少同时开展两个项目 |
| 咨询信息库搭建、分析报告生成需求对接 | 郝倩玉 | 2026-01-13 | 本周主要工作,与窦主任持续沟通中,目标一季度做出成型系统。信息库包括公开信息源抓取和所内现有合同数据整合。存在问题:核心需求不明确(给领导什么报告?目的是什么?)、信息源获取困难、讨论容易跑偏。**解决方案:** 1必须先明确目的服务对象是谁、要让他们知道什么、达成什么效果2先做最简版本的分析报告给领导看3尽快跑通一个最小MVP版本 |
### 2. 重点项目问题及解决方案
#### 问题1: 科普视频生成相关问题
**问题描述:**
1. **AI视频提示词生成质量不足**prompt质量不高需反复调整工具选型不充分未对比ChatGPT文本能力更强判断能力不足错误删除高质量AI生成图片alpha蛋白质折叠+神经网络融合图,代表诺贝尔奖级别科学成就);流程未自动化,仍需大量人工介入
2. **工作思维惯性问题**上来就试不做调研规划提出问题时缺乏背景上下文自以为是地判断AI生成内容好坏过于依赖直觉而非理性分析
**解决方案:**
1. 使用ChatGPT生成文本类prompt文本能力最强Gemini生成图片
2. 全文案一次性给AI处理让AI自动拆分关键帧减少人工干预
3. 不要主观判断AI生成的图片好坏应交给专业人员审查
4. 先做调研再动手让AI推荐各环节最佳工具组合
5. 尽快完成端到端自动化工作流:图片生成→可灵视频生成→代码拼接→音频对齐
6. 使用浏览器自动化操作方案实现批量生成
7. 做任何事情之前先做调研,内化知识后再提出问题和目标
**责任人:** 江争达
**截止时间:** 2026-01-13
#### 问题2: 服务器部署相关问题
**问题描述:**
服务器已到货,还没有做规划方案和文档。
**解决方案:**
1. 先做服务器框架规划方案(需求文档),再做实施方案
2. 使用AskUserQuestionTool让AI帮助规划进行40轮问答
3. 参考领导分享的服务器配置相关资料
4. 考虑泛化:单机部署→大型机房规划→运维管理
5. 做好文档工作,为未来自己和他人留下参考
**责任人:** 江争达
**截止时间:** 2026-01-13
#### 问题3: 咨询信息库需求不明确
**问题描述:**
咨询信息库项目核心需求不清晰。窦主任虽然重视此项目,但具体要给所领导什么报告、达成什么目的都未明确。目前是"有什么就给什么"的思维,而非从目标出发确定需要什么信息。
**解决方案:**
1. 明确目标:给谁看(所领导/业务部门主任)、看什么、达成什么目的
2. 不要做庞大的全面规划,先做一个最小版本的报告给窦主任看
3. 先做一个点(如技术动态追踪),验证可行性后再扩展
4. 尽快落地一个skill跑通一次流程不要停留在纸面
**责任人:** 郝倩玉
**截止时间:** 2026-01-13
#### 问题4: 问答系统前端未推进
**问题描述:**
问答系统前端还没做、没测试。把所有精力都耗在视频项目上。
**解决方案:**
1. 尽快测试问答系统前端
2. 合理分配时间,一周至少开展两个项目
**责任人:** 江争达
**截止时间:** 2026-01-13
#### 问题5: Vibe Engineering框架选型
**问题描述:**
Continuous Claude开源项目的学习成果包括账本机制、hand off、自学习进化系统等。但存在问题框架实现细节不完善有些设计没有真正使用框架选型众多Cloud官方双代理、Super Power、Continuous Claude等需要确定使用哪个。
**解决方案:**
1. 采用Claude官方的双代理长时间运行方案简单有效+尔夫+Superpower框架方案
2. 由简入繁,不要上来就加太多功能
3. 研究hooks的使用这是流程自动化的重要手段
4. 做虚拟验证先让AI模拟方案可行性再实际执行
**责任人:** 闫旭隆
**截止时间:** 2026-01-13
### 3. 下周工作安排
| 项目名称 | 负责人 | 下周会前目标 | 优先级 | 截止时间 |
| -------------------------------- | ---------------------- | ------------------------------------------------------------ | ------ | ---------- |
| 🔴 科普视频生成端到端自动化流程 | 江争达 | 完成端到端自动化工作流全文案输入让AI自动拆分生成关键帧prompt使用浏览器自动化操作可灵生成视频代码实现视频拼接和音频对齐。先做10-20秒短视频验证流程 | P0 | 2026-01-13 |
| 🔴 问答系统前端测试 | 江争达 | 问答系统前端测试,一周至少同时开展两个项目 | P0 | 2026-01-13 |
| 🔴 梳理最近一个月的会议纪要 | 闫旭隆,江争达 | 看看有什么工作被遗漏并对现有会议生成skill进行这部分优化 | P0 | 2026-01-13 |
| 🔴 Vibe Engineering框架研究与搭建 | 闫旭隆 | 研究Claude双代理长时间运行架构结合拉尔夫、superpower框架搭建质量可控的AI自动化开发框架。目标质量可控、成本时间可控、架构简单研究hooks的生命周期及重要实现融入架构 | P0 | 2026-01-13 |
| 🔴 知识图谱相关调研 | 闫旭隆 | 重点研究iKragh、MDKG知识图谱静态结构研究知识图谱自进化机制 | P0 | 2026-01-13 |
| 🔴 客户信息库分析系统需求文档撰写 | 郝倩玉 | 尽快完成需求调研及需求文档撰写,之后先做一个最小版本的客户分析报告先给窦主任看,迅速把需求实现出来 | P0 | 2026-01-13 |
| 🔴 Gartner报告图片生成优化 | 闫旭隆 | 先改图片相关的已知待改进点,等待专家反馈后汇总,先修改图片生成相关内容 | P0 | |
| 🔴 铭凡服务器部署方案设计 | 江争达 | 先做服务器框架规划方案(需求);再写实施方案(执行路径)使用AI辅助的AskUserQuestionTool方法进行40轮问答学习做好文档记录。后续考虑大型机房规划方案 | P1 | |
| 🔴 数字人视频生成多模态工作流方案 | 郝倩玉 | 尽快完成技术调研方案 | P0 | 2026-01-13 |
| 培训资料库建设方案 | 郝倩玉 | 做调研出方案:群里发的学习资源如何整合,培训知识库和培训体系怎么建。这个可泛化,将来非常有价值 | P1 | 2026-01-13 |
| Claude Code教程学习 | 郝倩玉、江争达、闫旭隆 | 学习领导发的Claude Code系统教程 | P1 | 2026-01-13 |
| 开源视频生成模型调研 | 江争达 | 调研开源视频生成模型(如可灵开源版等),评估是否可部署到自有服务器降低成本 | P2 | 2026-01-13 |
### 4. 组内成员工作进展
#### 闫旭隆
**上周完成:**
- ✅ Vibe Engineering学习完成Continuous-Claude项目学习学习自动上下文接续机制+自学习进化系统+Rules规则+Hook-Skill推荐
- ✅ 基于Claude Code的类Kosmos的研究智能体系统编排思考完成初步系统科研类知识图谱项目调研
- ✅ 基于Claude Code的智能问答系统重构规划设计主窗口——Sub-agent——Skill三层架构的重构规划
**进行中:**
- 🔄 基于Claude Code的类Kosmos的研究智能体系统编排思考准备精读iKragh、MDKG知识图谱结构
- 🔄 Gartner报告转写-图片生成与文字细节优化:等待专家反馈
**收到的反馈/学习建议:**
- **表扬:** 在团队中相对稳定,学习状态较好。领导评价"除了旭龙可能稍微稳定一点,你们其他人都还处于一个学习阶段"
- **表扬:** Continuous-Claude项目的学习汇报得到认可"账本机制和自动学习经验总结"的思想值得借鉴
- **建议:** 要研究hooks的使用这是未来自动化流程编排非常重要的组成部分
- **建议:** 知识图谱研究方向结合Kosmos机制+自进化机制,基于开源知识图谱做评测验证,如果可行可以发表论文
**下周任务:**
- [ ] 🔴 P0Vibe Engineering框架研究与搭建测试
- [ ] 🔴 P0iKragh+MDKG知识图谱结构研究+自进化知识图谱研究
- [ ] 🔴 P0Gartner报告图片生成优化先行不要死等专家反馈
- [ ] P1测试GLM-API在Claude Code体系下的表现准备后续接入SDK进行本地化部署
- [ ] P1基于Claude code的RAG后端系统重构规划
#### 江争达
**上周完成:**
- ✅ 科普视频生成初版完成3分钟视频制作
- ✅ 铭凡服务器采购:已购买并到货
**进行中:**
- 🔄 科普视频生成:正在制作算力科普主题完整视频
- 🔄 Vibe Engineering学习待启动
**收到的反馈/学习建议:**
- **表扬:** 这次视频是可用的视频生成项目产出的结果得到表扬。但这是建立在AI能力普遍提升的情况下Gemini和可灵救了你
- **建议:** 关于服务器部署任务不要闷头搞要先做方案规划要有工程化思维做好文档工作可以先用GPT的访谈skill来帮助规划
- **批评:** 汇报问题时缺乏上下文和背景信息,别人无法帮助解决问题。只聚焦自己感兴趣的点,不管别人能不能理解
- **批评:** 不去思考就开始试,浅尝辄止性思维。工具选型时没有理论支撑,凭直觉选择
- **批评:** 追求快而不是追求优。手很快但是原地踏步,效率很低
- **批评:** 把Gemini生成的专业图片alpha蛋白质折叠+神经网络融合图)判定为"抽象不好"并删除,暴露了知识局限性。这张图代表诺贝尔奖级别的科学成就
- **批评:** 思维惯性非常明显在AI原生时代思维惯性是最大的障碍
- **建议:** 做任何事情之前先做调研,不要上来就试。先调研学习,内化知识后再操作
- **建议:** 服务器部署要先做规划方案和实施方案,做事情要有章法,工程化思维
- **建议:** 尽快把视频生成端到端流程跑通,先做最简版本。问答系统前端也要推进,一周至少同时开展两个项目
**下周任务:**
- [ ] 🔴 P0科普视频生成端到端自动化流程
- [ ] P0问答系统前端测试
- [ ] P1铭凡服务器部署方案设计
- [ ] P2开源视频生成模型调研
#### 郝倩玉
**上周完成:**
- ✅ 咨询信息库搭建、分析报告生成需求对接与窦主任持续沟通中PRD文档撰写中
- ✅ 数字人视频生成技术调研:技术可行性方案调研中
**进行中:**
- 🔄 咨询信息库搭建、分析报告生成需求对接:进行中
- 🔄 数字人视频生成技术调研:可行性方案重新调研中
**收到的反馈/学习建议:**
- **批评:** 咨询信息库项目需求不明确,核心问题在于信息源到底获取什么信息没有想清楚。不要以自己有什么东西就给领导看什么,而是要先明确领导想看什么
- **建议:** 数字人视频生成项目要抓紧时间自己上手做出来。不要停留在需求调研层面,迅速把需求实现出来
- **建议:** 学习Claude Code教程这是领导看到的最系统的一个教程
- **建议:** 做咨询信息库项目时,先做调研,先做一个点(如技术动态追踪),一个模块一个模块来。同时要考虑泛化
**下周任务:**
- [ ] 🔴 P0客户信息库分析需求调研及需求文档撰写
- [ ] P0数字人视频生成多模态工作流方案
- [ ] P1培训资料库建设方案
---
## 三、会议总结
**核心议题:** 科普视频生成端到端自动化、Vibe Engineering框架研究、自进化知识图谱、咨询信息库分析报告、服务器部署方案
**关键决策:**
1. **需求文档生成流程确定**先用人工智能做需求澄清快速产出高质量需求文档AI产出质量超过90%的人
2. **服务器部署必须先做规划方案再执行**:需要有完整的文档记录,工程化思维
3. **采用"AskUserQuestionTool"提示词方法进行需求澄清和规划**通过AI持续提问40轮的方式完成需求澄清和规划
4. **知识图谱研究方向确定**:在传统知识图谱基础上增加自进化机制(查询路径压缩、边压缩、反馈学习、动态演化)
5. **Vibe Engineering框架采用Claude官方双代理模式为基础**:逐步增加功能,由简入繁
6. **视频生成工作流采用端到端自动化流程**不需要人工审查每一帧信任AI生成能力
7. **视频生成技术栈确定**ChatGPT生成prompt、Gemini生成图片、可灵生成视频、代码自动化拼接
8. **客户信息库项目先做一个最简版本给领导看**:不纠结信息源和流程问题,快速产出验证
9. **团队工作流程确定**:任何任务开始前必须先做调研研究
10. **Skill开发必须考虑泛化复用**:不为单一功能开发,只有可复用的工程化项目才值得投入
11. **hooks机制研究作为重要任务**用于流程编排自动化真正的高手都在用hooks
12. **培训资料库和培训体系建设需要尽快启动调研**:把群里分享的学习资源整合,这个可以泛化
13. **江争达需同时开展两个项目**:视频生成工作流和问答系统前端测试,一周至少开展两个项目
14. **采用开源视频生成模型作为备选方案进行调研**:如果视频需求量大,考虑部署开源模型自建算力
**下周工作重点:**
1. 🔴 科普视频生成端到端自动化流程(江争达)
2. 🔴 铭凡服务器部署方案设计(江争达)
3. 🔴 前端页面重构(江争达)
4. 🔴 Vibe Engineering框架研究与搭建闫旭隆
6. 🔴 iKragh+MDKG知识图谱结构研究+自进化知识图谱研究(闫旭隆)
7. 🔴 客户信息库分析需求调研及需求文档撰写(郝倩玉)
---
**纪要整理人:** Claude
**纪要时间:** 2026-01-06
**下次会议:** 2026-01-13

View File

@ -31,7 +31,7 @@ Phase 1: 准备阶段(读取输入、区分项目类型)
├─ 1.1 初始化目录output/
├─ 1.2 读取所有成员周报 → members_data
├─ 1.3 读取上周会议纪要 → last_week_p0_tasks
├─ 1.4 提取会议日期 + 记录转写文件路径 → meeting_date, default_deadline, transcript_path
├─ 1.4 提取会议日期(仅获取文件名)→ meeting_date, default_deadline, transcript_path
└─ 1.5 项目类型区分
├─ 扫描资料库(轻量读取,仅标题+前100行
├─ 遍历周报项目 + 语义判断
@ -121,22 +121,29 @@ Phase 6: 云大所需求相关进度会议纪要生成(二次提取,在 Phas
**构建数据**保存上周P0任务列表供后续追踪
### 步骤 1.4: 提取会议日期与转写文件路径
### 步骤 1.4: 提取会议日期(仅获取文件名)
**操作**
1. Glob查找会议转写文件`D:\AA_Work\skills合集\AIEC-团队开发规范Skills\.claude\skills\meeting-minutes-generator-v1\input\本周会议转写文本\*.txt`
2. 从文件名提取日期并格式化:
1. **使用Glob查找会议转写文件**
- 路径:`D:\AA_Work\skills合集\AIEC-团队开发规范Skills\.claude\skills\meeting-minutes-generator-v1\input\本周会议转写文本\*`(支持 .txt 或 .md
- 应只有一个文件
2. **从文件名提取日期并格式化**
-`20251118134948-转写...txt` → "2025-11-18"
3. 计算默认截止时间:会议日期 + 7天假设周会频率
4. **记录转写文件路径**:仅保存文件路径,不在主窗口读取转写内容
-`20251217会议转写_合并版.md` → "2025-12-17"
3. **计算默认截止时间**:会议日期 + 7天假设周会频率
⚠️ **主窗口不读取转写文本内容**转写文本由子Agent内部自行读取避免主窗口上下文过大
**构建数据**(保留在主窗口上下文中):
- 会议日期
- 默认截止时间
- 会议转写文件路径(传递给 Agent由 Agent 自行读取)
> ⚠️ **重要**:主窗口不读取转写文件内容,转写文件由各 Agent 自行读取处理,避免主窗口上下文膨胀
### 步骤 1.5: 项目类型区分
**操作**
@ -281,6 +288,12 @@ Phase 6: 云大所需求相关进度会议纪要生成(二次提取,在 Phas
- P2探索性任务、长期优化、低优先级
- 截止时间无明确时间则为null
**提取要点**
- 每个独立任务单独列出,不要将多个任务合并到一个条目中
- 即使任务之间有关联(如"Cosmos智能体"和"Deep Research"),只要是不同的交付物就分开列
- 会议结束前的段落通常是领导布置任务的重点区域,需完整扫描
- 如果description中提到了多个子任务或关联项目应拆分为独立条目
**Agent返回示例**
```json
{
@ -288,11 +301,25 @@ Phase 6: 云大所需求相关进度会议纪要生成(二次提取,在 Phas
"data": {
"tasks": [
{
"task_name": "Deepresearch Skill开发",
"task_name": "Deep Research智能体编排方案",
"assignees": ["闫旭隆"],
"description": "实现知识图谱增量更新",
"description": "出具智能体编排方案短期先套壳ChatGPT的Deep Research功能",
"priority": "P0",
"deadline": null
"deadline": "2025-12-30"
},
{
"task_name": "Cosmos类智能体流程编排方案",
"assignees": ["闫旭隆"],
"description": "出具类似Cosmos的智能体编排方案把通用智能体能力整合只做流程编排层",
"priority": "P0",
"deadline": "2025-12-30"
},
{
"task_name": "安定医院Talk项目部署方案",
"assignees": ["闫旭隆"],
"description": "完成Talk功能开发研究部署方案",
"priority": "P0",
"deadline": "2025-12-30"
}
]
}
@ -369,7 +396,8 @@ Phase 6: 云大所需求相关进度会议纪要生成(二次提取,在 Phas
- **语义判断由Claude自主完成**:根据任务描述、上下文关系判断是否为同一项目的不同阶段/子任务
- 不属于上周任何项目的新任务单独列出
**2. 合并进展情况** ⭐⭐⭐
**2. 合并进展情况**
- ⭐⭐ **核心原则:会议讨论内容优先级 > 周报自述**
- 会议中的实际反馈更能反映真实进展(如周报写"已完成"但会议说"需要重写"
- Agent返回有进展 → **必须使用会议中的实际进展**
@ -377,6 +405,7 @@ Phase 6: 云大所需求相关进度会议纪要生成(二次提取,在 Phas
- 都无 → 标记"未完成(上周计划本周未在周报中体现)"
**合并规则**
| 情况 | 进展情况填写 |
|------|-------------|
| 会议有反馈 + 周报有状态 | ⭐ **会议反馈为准**(如会议说"需要重写"则写"需要重写",会议说"需要优化"则写"需要优化" |
@ -441,7 +470,13 @@ Phase 6: 云大所需求相关进度会议纪要生成(二次提取,在 Phas
**处理逻辑**
**1. 按项目维度整合任务列表**
**1. 解析Agent返回数据**
- 遍历Agent C返回的`data.tasks`列表
- 检查每个任务的`description``context`字段,识别其中是否包含隐含的独立任务
- 如发现隐含任务如description中提到"安定医院项目需要此能力"),应拆分为独立条目
- 拆分后的任务继承原任务的负责人和优先级
**2. 按项目维度整合任务列表** ⭐:
- ⭐ **以上周纪要"下周工作安排"中的项目为基准**进行语义去重
- 会议任务直接添加保留Agent判断的优先级和截止时间
- 周报任务:与上周项目进行语义匹配:
@ -449,16 +484,16 @@ Phase 6: 云大所需求相关进度会议纪要生成(二次提取,在 Phas
- **语义判断由Claude自主完成**:根据任务描述、上下文关系判断是否属于同一项目
- 会议未提及的任务默认优先级P1默认截止时间
**2. 冲突处理**
**3. 冲突处理**
- 同一任务的负责人冲突 → 以会议为准
- 同一任务的优先级冲突 → 以会议为准
- 同一任务的截止时间冲突 → 以会议为准
**3. 保存数据**
**4. 保存数据**
- 保存合并后的任务列表 `next_week_tasks`
- ⭐ 重要步骤2.6和2.7会使用这个列表
**4. 优先级排序**
**5. 优先级排序**
**核心规则**P0任务在前P1居中P2在后
@ -961,6 +996,12 @@ Phase 6: 云大所需求相关进度会议纪要生成(二次提取,在 Phas
- 所有transcript_searcher返回的JSON结构为`{search_intent, data}`
- 实际业务数据在`data`字段内,需通过`result.data.xxx`访问
- 示例:`result.data.problems``result.data.tasks``result.data.decisions`
- 检查`description``context`字段中是否包含隐含的独立任务,如有则拆分为独立条目
11. **会议末端任务布置**
- 会议结束前的段落通常是领导布置下周任务的重点区域
- 主窗口合并时需确认Agent是否完整提取了会议末端的任务
- 如发现遗漏,应补充提取
---