Files
AIEC_Skills/.claude/skills/transcript-cleaner-v1/skill.md
2025-12-11 14:19:36 +08:00

100 lines
3.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
name: transcript-cleaner
description: 会议转写文本清洗工具。合并分段转写文件,识别发言人,添加话题标注。采用保守策略:只删除时间戳和黑屏描述,保留所有发言内容。
---
# 转写文本清洗 Skill
将多个分段转写文件合并为发言人明确、话题清晰的会议文本。
## 核心原则
**宁可保留冗余,不可丢失信息**
- 只删除:时间戳、黑屏/加载描述、文件边界重复
- 全部保留:所有发言(包括 `嗯``对``好的`)、网络问题对话
- 轻微精简:画面操作描述(删除鼠标/点击/滚动,保留展示内容)
## 固定路径
| 资源 | 路径 |
|------|------|
| 合并脚本 | `scripts/merge_transcripts.py` |
| 周报文件夹 | `D:\AA_Work\AIEC-团队开发规范Skills\.claude\skills\meeting-minutes-generator-v1\input\成员本周周报` |
| 上周会议纪要 | `D:\AA_Work\AIEC-团队开发规范Skills\.claude\skills\meeting-minutes-generator-v1\input\上周会议纪要` |
| 输出目录 | `output/` |
| 子 Agent | `D:\AA_Work\AIEC-团队开发规范Skills\.claude\agents\transcript_cleaner.md` |
## 执行流程
### Phase 1: 收集输入
向用户确认:**转写文件夹路径**(包含多个 txt 文件)
### Phase 2: 文件合并
```bash
export PYTHONIOENCODING=utf-8 && python scripts/merge_transcripts.py "<转写文件夹路径>" "output/merged_transcript_YYYY-MM-DD.md"
```
### Phase 3: 并行分块清洗
按 400 行分块,无重叠,使用 Task 工具并行启动 `transcript_cleaner`
```python
# 只传递文件路径、行范围、分块编号,不传递知识内容
Task(subagent_type="transcript_cleaner", prompt="转写文件路径, chunk_1, 行1-400")
Task(subagent_type="transcript_cleaner", prompt="转写文件路径, chunk_2, 行401-800")
# 在同一条消息中并行启动所有 chunk
# 子 Agent 自行读取周报和上周会议纪要构建知识
```
### Phase 4: 分段写入文件
**重要**:为避免输出超过 Token 限制,必须分段写入文件,禁止一次性输出全部内容。
```python
output_file = "output/cleaned_transcript_YYYY-MM-DD.md"
# 1. 等待所有子 Agent 完成,收集结果
# 2. 按 chunk 编号排序chunk_1, chunk_2, ...
# 3. 分段写入文件:
# 先写入文件头(覆盖模式)
Write(output_file, "**会议日期**...\n**参会人员**...\n\n---\n\n")
# 按顺序逐个 chunk 追加写入
for chunk_id in sorted_chunk_ids: # chunk_1, chunk_2, chunk_3, ...
cleaned_text = parse_cleaned_text(results[chunk_id])
current_content = Read(output_file)
Write(output_file, current_content + cleaned_text)
```
**执行要点**
1. 等待所有子 Agent 完成,解析 `===CLEANED_TEXT_START===...===CLEANED_TEXT_END===`
2. **按 chunk 编号排序后,逐个写入文件**(不要一次性拼接所有内容)
3. **原封不动保留子 Agent 输出**,不做二次修改
4. 最终输出:`output/cleaned_transcript_YYYY-MM-DD.md`
## 输出格式
```markdown
**会议日期**YYYY-MM-DD
**参会人员**:连云波、闫旭隆、...
---
---【话题xxx】---
【连云波】:我一直认为多模态以后一定是做文字识别的最重要的路径。
【闫旭隆】:确实可以。
【画面】展示文档 xxx.md
```
### Phase 5: 完成报告
```
✅ 转写清洗完成
输入8 个转写文件,共 3580 行
输出output/cleaned_transcript_2024-12-06.md
识别发言:连云波(156)、闫旭隆(89)、江争达(67)、...
未识别发言12 条
```