Files
AIEC_Skills/.claude/skills/transcript-cleaner-v1/skill.md
2025-12-11 14:19:36 +08:00

3.5 KiB
Raw Blame History

name, description
name description
transcript-cleaner 会议转写文本清洗工具。合并分段转写文件,识别发言人,添加话题标注。采用保守策略:只删除时间戳和黑屏描述,保留所有发言内容。

转写文本清洗 Skill

将多个分段转写文件合并为发言人明确、话题清晰的会议文本。

核心原则

宁可保留冗余,不可丢失信息

  • 只删除:时间戳、黑屏/加载描述、文件边界重复
  • 全部保留:所有发言(包括 好的)、网络问题对话
  • 轻微精简:画面操作描述(删除鼠标/点击/滚动,保留展示内容)

固定路径

资源 路径
合并脚本 scripts/merge_transcripts.py
周报文件夹 D:\AA_Work\AIEC-团队开发规范Skills\.claude\skills\meeting-minutes-generator-v1\input\成员本周周报
上周会议纪要 D:\AA_Work\AIEC-团队开发规范Skills\.claude\skills\meeting-minutes-generator-v1\input\上周会议纪要
输出目录 output/
子 Agent D:\AA_Work\AIEC-团队开发规范Skills\.claude\agents\transcript_cleaner.md

执行流程

Phase 1: 收集输入

向用户确认:转写文件夹路径(包含多个 txt 文件)

Phase 2: 文件合并

export PYTHONIOENCODING=utf-8 && python scripts/merge_transcripts.py "<转写文件夹路径>" "output/merged_transcript_YYYY-MM-DD.md"

Phase 3: 并行分块清洗

按 400 行分块,无重叠,使用 Task 工具并行启动 transcript_cleaner

# 只传递文件路径、行范围、分块编号,不传递知识内容
Task(subagent_type="transcript_cleaner", prompt="转写文件路径, chunk_1, 行1-400")
Task(subagent_type="transcript_cleaner", prompt="转写文件路径, chunk_2, 行401-800")
# 在同一条消息中并行启动所有 chunk
# 子 Agent 自行读取周报和上周会议纪要构建知识

Phase 4: 分段写入文件

重要:为避免输出超过 Token 限制,必须分段写入文件,禁止一次性输出全部内容。

output_file = "output/cleaned_transcript_YYYY-MM-DD.md"

# 1. 等待所有子 Agent 完成,收集结果
# 2. 按 chunk 编号排序chunk_1, chunk_2, ...
# 3. 分段写入文件:

# 先写入文件头(覆盖模式)
Write(output_file, "**会议日期**...\n**参会人员**...\n\n---\n\n")

# 按顺序逐个 chunk 追加写入
for chunk_id in sorted_chunk_ids:  # chunk_1, chunk_2, chunk_3, ...
    cleaned_text = parse_cleaned_text(results[chunk_id])
    current_content = Read(output_file)
    Write(output_file, current_content + cleaned_text)

执行要点

  1. 等待所有子 Agent 完成,解析 ===CLEANED_TEXT_START===...===CLEANED_TEXT_END===
  2. 按 chunk 编号排序后,逐个写入文件(不要一次性拼接所有内容)
  3. 原封不动保留子 Agent 输出,不做二次修改
  4. 最终输出:output/cleaned_transcript_YYYY-MM-DD.md

输出格式

**会议日期**YYYY-MM-DD
**参会人员**:连云波、闫旭隆、...
---
---【话题xxx】---
【连云波】:我一直认为多模态以后一定是做文字识别的最重要的路径。
【闫旭隆】:确实可以。
【画面】展示文档 xxx.md

Phase 5: 完成报告

✅ 转写清洗完成
输入8 个转写文件,共 3580 行
输出output/cleaned_transcript_2024-12-06.md
识别发言:连云波(156)、闫旭隆(89)、江争达(67)、...
未识别发言12 条