Files

2025-12-11 14:19:36 +08:00

3.5 KiB

Raw Blame History

name, description

name	description
transcript-cleaner	会议转写文本清洗工具。合并分段转写文件，识别发言人，添加话题标注。采用保守策略：只删除时间戳和黑屏描述，保留所有发言内容。

转写文本清洗 Skill

将多个分段转写文件合并为发言人明确、话题清晰的会议文本。

核心原则

宁可保留冗余，不可丢失信息

只删除：时间戳、黑屏/加载描述、文件边界重复
全部保留：所有发言（包括 嗯、对、好的）、网络问题对话
轻微精简：画面操作描述（删除鼠标/点击/滚动，保留展示内容）

固定路径

资源	路径
合并脚本	`scripts/merge_transcripts.py`
周报文件夹	`D:\AA_Work\AIEC-团队开发规范Skills\.claude\skills\meeting-minutes-generator-v1\input\成员本周周报`
上周会议纪要	`D:\AA_Work\AIEC-团队开发规范Skills\.claude\skills\meeting-minutes-generator-v1\input\上周会议纪要`
输出目录	`output/`
子 Agent	`D:\AA_Work\AIEC-团队开发规范Skills\.claude\agents\transcript_cleaner.md`

执行流程

Phase 1: 收集输入

向用户确认：转写文件夹路径（包含多个 txt 文件）

Phase 2: 文件合并

export PYTHONIOENCODING=utf-8 && python scripts/merge_transcripts.py "<转写文件夹路径>" "output/merged_transcript_YYYY-MM-DD.md"

Phase 3: 并行分块清洗

按 400 行分块，无重叠，使用 Task 工具并行启动 transcript_cleaner：

# 只传递文件路径、行范围、分块编号，不传递知识内容
Task(subagent_type="transcript_cleaner", prompt="转写文件路径, chunk_1, 行1-400")
Task(subagent_type="transcript_cleaner", prompt="转写文件路径, chunk_2, 行401-800")
# 在同一条消息中并行启动所有 chunk
# 子 Agent 自行读取周报和上周会议纪要构建知识

Phase 4: 分段写入文件

重要：为避免输出超过 Token 限制，必须分段写入文件，禁止一次性输出全部内容。

output_file = "output/cleaned_transcript_YYYY-MM-DD.md"

# 1. 等待所有子 Agent 完成，收集结果
# 2. 按 chunk 编号排序（chunk_1, chunk_2, ...）
# 3. 分段写入文件：

# 先写入文件头（覆盖模式）
Write(output_file, "**会议日期**：...\n**参会人员**：...\n\n---\n\n")

# 按顺序逐个 chunk 追加写入
for chunk_id in sorted_chunk_ids:  # chunk_1, chunk_2, chunk_3, ...
    cleaned_text = parse_cleaned_text(results[chunk_id])
    current_content = Read(output_file)
    Write(output_file, current_content + cleaned_text)

执行要点：

等待所有子 Agent 完成，解析 ===CLEANED_TEXT_START===...===CLEANED_TEXT_END===
按 chunk 编号排序后，逐个写入文件（不要一次性拼接所有内容）
原封不动保留子 Agent 输出，不做二次修改
最终输出：output/cleaned_transcript_YYYY-MM-DD.md

输出格式

**会议日期**：YYYY-MM-DD
**参会人员**：连云波、闫旭隆、...
---
---【话题：xxx】---
【连云波】：我一直认为多模态以后一定是做文字识别的最重要的路径。
【闫旭隆】：确实可以。
【画面】展示文档 xxx.md

Phase 5: 完成报告

✅ 转写清洗完成
输入：8 个转写文件，共 3580 行
输出：output/cleaned_transcript_2024-12-06.md
识别发言：连云波(156)、闫旭隆(89)、江争达(67)、...
未识别发言：12 条

3.5 KiB Raw Blame History Unescape Escape