--- name: transcript-cleaner description: 会议转写文本清洗工具。合并分段转写文件,识别发言人,添加话题标注。采用保守策略:只删除时间戳和黑屏描述,保留所有发言内容。 --- # 转写文本清洗 Skill 将多个分段转写文件合并为发言人明确、话题清晰的会议文本。 ## 核心原则 **宁可保留冗余,不可丢失信息** - 只删除:时间戳、黑屏/加载描述、文件边界重复 - 全部保留:所有发言(包括 `嗯`、`对`、`好的`)、网络问题对话 - 轻微精简:画面操作描述(删除鼠标/点击/滚动,保留展示内容) ## 固定路径 | 资源 | 路径 | |------|------| | 合并脚本 | `scripts/merge_transcripts.py` | | 周报文件夹 | `D:\AA_Work\AIEC-团队开发规范Skills\.claude\skills\meeting-minutes-generator-v1\input\成员本周周报` | | 上周会议纪要 | `D:\AA_Work\AIEC-团队开发规范Skills\.claude\skills\meeting-minutes-generator-v1\input\上周会议纪要` | | 输出目录 | `output/` | | 子 Agent | `D:\AA_Work\AIEC-团队开发规范Skills\.claude\agents\transcript_cleaner.md` | ## 执行流程 ### Phase 1: 收集输入 向用户确认:**转写文件夹路径**(包含多个 txt 文件) ### Phase 2: 文件合并 ```bash export PYTHONIOENCODING=utf-8 && python scripts/merge_transcripts.py "<转写文件夹路径>" "output/merged_transcript_YYYY-MM-DD.md" ``` ### Phase 3: 并行分块清洗 按 400 行分块,无重叠,使用 Task 工具并行启动 `transcript_cleaner`: ```python # 只传递文件路径、行范围、分块编号,不传递知识内容 Task(subagent_type="transcript_cleaner", prompt="转写文件路径, chunk_1, 行1-400") Task(subagent_type="transcript_cleaner", prompt="转写文件路径, chunk_2, 行401-800") # 在同一条消息中并行启动所有 chunk # 子 Agent 自行读取周报和上周会议纪要构建知识 ``` ### Phase 4: 分段写入文件 **重要**:为避免输出超过 Token 限制,必须分段写入文件,禁止一次性输出全部内容。 ```python output_file = "output/cleaned_transcript_YYYY-MM-DD.md" # 1. 等待所有子 Agent 完成,收集结果 # 2. 按 chunk 编号排序(chunk_1, chunk_2, ...) # 3. 分段写入文件: # 先写入文件头(覆盖模式) Write(output_file, "**会议日期**:...\n**参会人员**:...\n\n---\n\n") # 按顺序逐个 chunk 追加写入 for chunk_id in sorted_chunk_ids: # chunk_1, chunk_2, chunk_3, ... cleaned_text = parse_cleaned_text(results[chunk_id]) current_content = Read(output_file) Write(output_file, current_content + cleaned_text) ``` **执行要点**: 1. 等待所有子 Agent 完成,解析 `===CLEANED_TEXT_START===...===CLEANED_TEXT_END===` 2. **按 chunk 编号排序后,逐个写入文件**(不要一次性拼接所有内容) 3. **原封不动保留子 Agent 输出**,不做二次修改 4. 最终输出:`output/cleaned_transcript_YYYY-MM-DD.md` ## 输出格式 ```markdown **会议日期**:YYYY-MM-DD **参会人员**:连云波、闫旭隆、... --- ---【话题:xxx】--- 【连云波】:我一直认为多模态以后一定是做文字识别的最重要的路径。 【闫旭隆】:确实可以。 【画面】展示文档 xxx.md ``` ### Phase 5: 完成报告 ``` ✅ 转写清洗完成 输入:8 个转写文件,共 3580 行 输出:output/cleaned_transcript_2024-12-06.md 识别发言:连云波(156)、闫旭隆(89)、江争达(67)、... 未识别发言:12 条 ```