Files
AIEC_Skills/.claude/skills/transcript-cleaner-v1/skill.md

100 lines
3.5 KiB
Markdown
Raw Normal View History

---
name: transcript-cleaner
description: 会议转写文本清洗工具。合并分段转写文件,识别发言人,添加话题标注。采用保守策略:只删除时间戳和黑屏描述,保留所有发言内容。
---
# 转写文本清洗 Skill
将多个分段转写文件合并为发言人明确、话题清晰的会议文本。
## 核心原则
**宁可保留冗余,不可丢失信息**
- 只删除:时间戳、黑屏/加载描述、文件边界重复
- 全部保留:所有发言(包括 `嗯``对``好的`)、网络问题对话
- 轻微精简:画面操作描述(删除鼠标/点击/滚动,保留展示内容)
## 固定路径
| 资源 | 路径 |
|------|------|
| 合并脚本 | `scripts/merge_transcripts.py` |
| 周报文件夹 | `D:\AA_Work\AIEC-团队开发规范Skills\.claude\skills\meeting-minutes-generator-v1\input\成员本周周报` |
| 上周会议纪要 | `D:\AA_Work\AIEC-团队开发规范Skills\.claude\skills\meeting-minutes-generator-v1\input\上周会议纪要` |
| 输出目录 | `output/` |
| 子 Agent | `D:\AA_Work\AIEC-团队开发规范Skills\.claude\agents\transcript_cleaner.md` |
## 执行流程
### Phase 1: 收集输入
向用户确认:**转写文件夹路径**(包含多个 txt 文件)
### Phase 2: 文件合并
```bash
export PYTHONIOENCODING=utf-8 && python scripts/merge_transcripts.py "<转写文件夹路径>" "output/merged_transcript_YYYY-MM-DD.md"
```
### Phase 3: 并行分块清洗
按 400 行分块,无重叠,使用 Task 工具并行启动 `transcript_cleaner`
```python
# 只传递文件路径、行范围、分块编号,不传递知识内容
Task(subagent_type="transcript_cleaner", prompt="转写文件路径, chunk_1, 行1-400")
Task(subagent_type="transcript_cleaner", prompt="转写文件路径, chunk_2, 行401-800")
# 在同一条消息中并行启动所有 chunk
# 子 Agent 自行读取周报和上周会议纪要构建知识
```
### Phase 4: 分段写入文件
**重要**:为避免输出超过 Token 限制,必须分段写入文件,禁止一次性输出全部内容。
```python
output_file = "output/cleaned_transcript_YYYY-MM-DD.md"
# 1. 等待所有子 Agent 完成,收集结果
# 2. 按 chunk 编号排序chunk_1, chunk_2, ...
# 3. 分段写入文件:
# 先写入文件头(覆盖模式)
Write(output_file, "**会议日期**...\n**参会人员**...\n\n---\n\n")
# 按顺序逐个 chunk 追加写入
for chunk_id in sorted_chunk_ids: # chunk_1, chunk_2, chunk_3, ...
cleaned_text = parse_cleaned_text(results[chunk_id])
current_content = Read(output_file)
Write(output_file, current_content + cleaned_text)
```
**执行要点**
1. 等待所有子 Agent 完成,解析 `===CLEANED_TEXT_START===...===CLEANED_TEXT_END===`
2. **按 chunk 编号排序后,逐个写入文件**(不要一次性拼接所有内容)
3. **原封不动保留子 Agent 输出**,不做二次修改
4. 最终输出:`output/cleaned_transcript_YYYY-MM-DD.md`
## 输出格式
```markdown
**会议日期**YYYY-MM-DD
**参会人员**:连云波、闫旭隆、...
---
---【话题xxx】---
【连云波】:我一直认为多模态以后一定是做文字识别的最重要的路径。
【闫旭隆】:确实可以。
【画面】展示文档 xxx.md
```
### Phase 5: 完成报告
```
✅ 转写清洗完成
输入8 个转写文件,共 3580 行
输出output/cleaned_transcript_2024-12-06.md
识别发言:连云波(156)、闫旭隆(89)、江争达(67)、...
未识别发言12 条
```