AIEC_Skills/.claude/skills/transcript-cleaner-v1/skill.md

---
name: transcript-cleaner
description: 会议转写文本清洗工具。合并分段转写文件，识别发言人，添加话题标注。采用保守策略：只删除时间戳和黑屏描述，保留所有发言内容。
---

# 转写文本清洗 Skill

将多个分段转写文件合并为发言人明确、话题清晰的会议文本。

## 核心原则

**宁可保留冗余，不可丢失信息**

- 只删除：时间戳、黑屏/加载描述、文件边界重复
- 全部保留：所有发言（包括 `嗯`、`对`、`好的`）、网络问题对话
- 轻微精简：画面操作描述（删除鼠标/点击/滚动，保留展示内容）

## 固定路径

| 资源 | 路径 |
|------|------|
| 合并脚本 | `scripts/merge_transcripts.py` |
| 周报文件夹 | `D:\AA_Work\AIEC-团队开发规范Skills\.claude\skills\meeting-minutes-generator-v1\input\成员本周周报` |
| 上周会议纪要 | `D:\AA_Work\AIEC-团队开发规范Skills\.claude\skills\meeting-minutes-generator-v1\input\上周会议纪要` |
| 输出目录 | `output/` |
| 子 Agent | `D:\AA_Work\AIEC-团队开发规范Skills\.claude\agents\transcript_cleaner.md` |

## 执行流程

### Phase 1: 收集输入

向用户确认：**转写文件夹路径**（包含多个 txt 文件）

### Phase 2: 文件合并

```bash
export PYTHONIOENCODING=utf-8 && python scripts/merge_transcripts.py "<转写文件夹路径>" "output/merged_transcript_YYYY-MM-DD.md"
```

### Phase 3: 并行分块清洗

按 400 行分块，无重叠，使用 Task 工具并行启动 `transcript_cleaner`：

```python
# 只传递文件路径、行范围、分块编号，不传递知识内容
Task(subagent_type="transcript_cleaner", prompt="转写文件路径, chunk_1, 行1-400")
Task(subagent_type="transcript_cleaner", prompt="转写文件路径, chunk_2, 行401-800")
# 在同一条消息中并行启动所有 chunk
# 子 Agent 自行读取周报和上周会议纪要构建知识
```

### Phase 4: 分段写入文件

**重要**：为避免输出超过 Token 限制，必须分段写入文件，禁止一次性输出全部内容。

```python
output_file = "output/cleaned_transcript_YYYY-MM-DD.md"

# 1. 等待所有子 Agent 完成，收集结果
# 2. 按 chunk 编号排序（chunk_1, chunk_2, ...）
# 3. 分段写入文件：

# 先写入文件头（覆盖模式）
Write(output_file, "**会议日期**：...\n**参会人员**：...\n\n---\n\n")

# 按顺序逐个 chunk 追加写入
for chunk_id in sorted_chunk_ids:  # chunk_1, chunk_2, chunk_3, ...
    cleaned_text = parse_cleaned_text(results[chunk_id])
    current_content = Read(output_file)
    Write(output_file, current_content + cleaned_text)
```

**执行要点**：
1. 等待所有子 Agent 完成，解析 `===CLEANED_TEXT_START===...===CLEANED_TEXT_END===`
2. **按 chunk 编号排序后，逐个写入文件**（不要一次性拼接所有内容）
3. **原封不动保留子 Agent 输出**，不做二次修改
4. 最终输出：`output/cleaned_transcript_YYYY-MM-DD.md`

## 输出格式

```markdown
**会议日期**：YYYY-MM-DD
**参会人员**：连云波、闫旭隆、...
---
---【话题：xxx】---
【连云波】：我一直认为多模态以后一定是做文字识别的最重要的路径。
【闫旭隆】：确实可以。
【画面】展示文档 xxx.md
```

### Phase 5: 完成报告

```
✅ 转写清洗完成
输入：8 个转写文件，共 3580 行
输出：output/cleaned_transcript_2024-12-06.md
识别发言：连云波(156)、闫旭隆(89)、江争达(67)、...
未识别发言：12 条
```