AIEC_Skills/会议转写测试/会议纪要生成效果对比/会议纪要生成效果对比报告.md

# 会议纪要生成效果对比报告

## 核心结论

| 排名 | 版本 | 得分 | 说明 |
|------|------|------|------|
| 1 | **Gemini清洗后** | **88.10分** | 最佳方案,但是时间成本高 |
| 2 | 腾讯清洗后 | 86.65分 | |
| 3 | Gemini清洗前 | 82.05分 | 时间成本高 |
| 4 | 腾讯清洗前 | 79.35分 |  |

### 关键发现

| 结论 | 数据支撑 |
|------|---------|
| **Gemini优于腾讯会议** | 清洗后领先1.45分，清洗前领先2.7分 |
| **Gemini画面提取是关键优势** | 可识别屏幕文字（如HeyGen），腾讯无此能力 |
| **Gemini分段识别更准确** | 按发言人分段，上下文更清晰；腾讯一大段混在一起，"P0"与"PE"混淆 |
| **85%差异源于执行波动** | 转写有正确内容但LLM未正确提取 |
| **15%差异源于转写质量** | 专有名词错误、优先级误判等 |

---

## 转写来源对比

| 转写来源 | 特点 | 版本 |
|---------|------|------|
| **Gemini** | 多模态（视频+音频），含画面内容提取 | 清洗前、清洗后(窗口交互对话) |
| **腾讯会议** | 纯语音转写 | 清洗前、清洗后（Skill基础清洗+话题识别+发言人识别） |
| **手工修订版** | 人工校验基准 | - |

### 关键差异：画面内容提取

| 指标 | Gemini清洗前 | Gemini清洗后 | 腾讯会议 |
|------|-------------|-------------|---------|
| 画面内容标注数量 | 189处 | 70处 | **0处** |
| 能否识别屏幕上的文字 | ✅ 是 | ✅ 是 | ❌ 否 |

---

## 一、转写质量直接影响的差异（📝）

这些差异**直接由转写文本质量导致**，Skill无法弥补：

### 1.1 专有名词识别

| 正确写法 | Gemini转写 | 腾讯转写 | 影响 |
|----------|-----------|---------|------|
| 百度**曦灵** | 希壤 | 西林 | 产品名称错误 |
| **HeyGen** | 黑镜（但画面提取到HeyGen） | 黑镜 | Gemini清洗后正确，其他错误 |

**结论**:

- Gemini画面内容提取可补充语音识别错误（HeyGen案例）
- 专有名词错误需后期词典校正

### 1.2 优先级记录差异

| 任务 | 正确优先级 | Gemini转写记录 | 腾讯转写记录 | 影响 |
|------|-----------|---------------|-------------|------|
| Gartner报告Skill | **P0** | ⚠️ P1 | ⚠️ P1 | 均误判为P1 |

**结论**: Gemini转写记录为"可以做P1"，腾讯转写为"PE"（误识别），由于是后续说的“提升为P0”，导致未识别理解到，两者均导致会议纪要输出P1。这是转写质量+执行波动共同影响的案例。

### 1.3 内容覆盖差异

| 内容 | Gemini清洗前 | Gemini清洗后 | 腾讯清洗前 | 腾讯清洗后 |
|------|-------------|-------------|-----------|-----------|
| 服务器采购 | ✅ 有记录 | ❌ 无 | ❌ 无 | ❌ 无 |

**结论**: 部分内容仅在特定转写版本中存在。

---

## 二、转写来源对会议纪要各维度的影响

### 2.1 下周工作安排（权重25%，最核心）

#### P0任务优先级准确性

| 任务 | 手工版 | Gemini清洗前 | 腾讯清洗前 | 腾讯清洗后 | Gemini清洗后 | 差异来源 |
|------|-------|-------------|-----------|-----------|-------------|----------|
| 招投标Skill架构设计 | P0 | ✅ P0 | ⚠️ **P1** | ✅ P0 | ✅ P0 | 🎲 执行波动 |
| Gartner报告Skill | **P0** | ⚠️ **P1** | ⚠️ **P1** | ⚠️ **P1** | ❌ 未列 | 📝 Gemini/腾讯转写均记录为P1 |
| 数字分身方案调研 | P0 | ⚠️ **P1** | ⚠️ **P1** | ✅ P0 | ⚠️ **P1** | 🎲 执行波动 |

#### 负责人识别准确性

| 任务 | 手工版 | Gemini清洗前 | 腾讯清洗前 | 腾讯清洗后 | Gemini清洗后 |
|------|-------|-------------|-----------|-----------|-------------|
| 会议纪要Skill优化 | 闫旭隆、郝倩玉 | 闫旭隆 | 闫旭隆 | 闫旭隆 | 闫旭隆 |
| 数字人PPT样本 | 江争达、陶西平 | 陶西平 | 江争达 | 江争达 | 江争达、陶西平 |
| 招投标Skill架构 | 郝倩玉、闫旭隆 | 闫旭隆 | 郝倩玉 | 郝倩玉 | 闫旭隆、郝倩玉 |

**结论**: Gemini清洗后负责人识别最完整，其他版本普遍简化为单人。

### 2.2 问题拆分粒度

| 问题 | 手工版 | Gemini清洗前 | 腾讯清洗前 | 腾讯清洗后 | Gemini清洗后 |
|------|-------|-------------|-----------|-----------|-------------|
| P0/P1/P2优先级判断困难 | ✅ 独立 | ❌ 未列 | ❌ 未列 | ⚠️ 合并 | ✅ 独立 |
| 前端重构方案需完善 | ✅ 独立 | ❌ 合并 | ✅ 独立 | ❌ 未列 | ✅ 独立 |

**结论**: Gemini清洗后问题拆分最细致。

---

## 三、综合评分对比

### 3.1 各维度得分

| 评估维度 | 权重 | 手工版 | Gemini清洗前 | 腾讯清洗前 | 腾讯清洗后 | Gemini清洗后 |
|----------|------|-------|-------------|-----------|-----------|-------------|
| 会议信息 | 5% | 100 | 80 | 80 | 85 | 90 |
| 项目进展汇总 | 15% | 100 | 90 | 85 | 90 | 92 |
| 问题及解决方案 | 20% | 100 | 75 | 70 | 82 | 88 |
| **下周工作安排** | **25%** | 100 | 80 | 82 | 88 | 85 |
| 成员工作进展 | 15% | 100 | 85 | 80 | 85 | 88 |
| 会议总结 | 20% | 100 | 78 | 82 | 88 | 90 |
| **加权总分** | 100% | **100** | **82.05** | **79.35** | **86.65** | **88.10** |

### 3.2 转写来源效果对比

| 转写来源 | 清洗前 | 清洗后 | 清洗提升 |
|---------|--------|--------|----------|
| **Gemini** | 82.05分 | **88.10分** | +6.05分 |
| **腾讯会议** | 79.35分 | 86.65分 | +7.30分 |
| **来源差距** | Gemini领先2.7分 | Gemini领先1.45分 | - |

---

**报告生成时间:** 2025-12-09