Files
AIEC_Skills/会议转写测试/会议纪要生成效果对比/会议纪要生成效果对比报告.md
2025-12-11 14:19:36 +08:00

133 lines
5.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 会议纪要生成效果对比报告
## 核心结论
| 排名 | 版本 | 得分 | 说明 |
|------|------|------|------|
| 1 | **Gemini清洗后** | **88.10分** | 最佳方案,但是时间成本高 |
| 2 | 腾讯清洗后 | 86.65分 | |
| 3 | Gemini清洗前 | 82.05分 | 时间成本高 |
| 4 | 腾讯清洗前 | 79.35分 | |
### 关键发现
| 结论 | 数据支撑 |
|------|---------|
| **Gemini优于腾讯会议** | 清洗后领先1.45分清洗前领先2.7分 |
| **Gemini画面提取是关键优势** | 可识别屏幕文字如HeyGen腾讯无此能力 |
| **Gemini分段识别更准确** | 按发言人分段,上下文更清晰;腾讯一大段混在一起,"P0"与"PE"混淆 |
| **85%差异源于执行波动** | 转写有正确内容但LLM未正确提取 |
| **15%差异源于转写质量** | 专有名词错误、优先级误判等 |
---
## 转写来源对比
| 转写来源 | 特点 | 版本 |
|---------|------|------|
| **Gemini** | 多模态(视频+音频),含画面内容提取 | 清洗前、清洗后(窗口交互对话) |
| **腾讯会议** | 纯语音转写 | 清洗前、清洗后Skill基础清洗+话题识别+发言人识别) |
| **手工修订版** | 人工校验基准 | - |
### 关键差异:画面内容提取
| 指标 | Gemini清洗前 | Gemini清洗后 | 腾讯会议 |
|------|-------------|-------------|---------|
| 画面内容标注数量 | 189处 | 70处 | **0处** |
| 能否识别屏幕上的文字 | ✅ 是 | ✅ 是 | ❌ 否 |
---
## 一、转写质量直接影响的差异(📝)
这些差异**直接由转写文本质量导致**Skill无法弥补
### 1.1 专有名词识别
| 正确写法 | Gemini转写 | 腾讯转写 | 影响 |
|----------|-----------|---------|------|
| 百度**曦灵** | 希壤 | 西林 | 产品名称错误 |
| **HeyGen** | 黑镜但画面提取到HeyGen | 黑镜 | Gemini清洗后正确其他错误 |
**结论**:
- Gemini画面内容提取可补充语音识别错误HeyGen案例
- 专有名词错误需后期词典校正
### 1.2 优先级记录差异
| 任务 | 正确优先级 | Gemini转写记录 | 腾讯转写记录 | 影响 |
|------|-----------|---------------|-------------|------|
| Gartner报告Skill | **P0** | ⚠️ P1 | ⚠️ P1 | 均误判为P1 |
**结论**: Gemini转写记录为"可以做P1",腾讯转写为"PE"误识别由于是后续说的“提升为P0”导致未识别理解到两者均导致会议纪要输出P1。这是转写质量+执行波动共同影响的案例。
### 1.3 内容覆盖差异
| 内容 | Gemini清洗前 | Gemini清洗后 | 腾讯清洗前 | 腾讯清洗后 |
|------|-------------|-------------|-----------|-----------|
| 服务器采购 | ✅ 有记录 | ❌ 无 | ❌ 无 | ❌ 无 |
**结论**: 部分内容仅在特定转写版本中存在。
---
## 二、转写来源对会议纪要各维度的影响
### 2.1 下周工作安排权重25%,最核心)
#### P0任务优先级准确性
| 任务 | 手工版 | Gemini清洗前 | 腾讯清洗前 | 腾讯清洗后 | Gemini清洗后 | 差异来源 |
|------|-------|-------------|-----------|-----------|-------------|----------|
| 招投标Skill架构设计 | P0 | ✅ P0 | ⚠️ **P1** | ✅ P0 | ✅ P0 | 🎲 执行波动 |
| Gartner报告Skill | **P0** | ⚠️ **P1** | ⚠️ **P1** | ⚠️ **P1** | ❌ 未列 | 📝 Gemini/腾讯转写均记录为P1 |
| 数字分身方案调研 | P0 | ⚠️ **P1** | ⚠️ **P1** | ✅ P0 | ⚠️ **P1** | 🎲 执行波动 |
#### 负责人识别准确性
| 任务 | 手工版 | Gemini清洗前 | 腾讯清洗前 | 腾讯清洗后 | Gemini清洗后 |
|------|-------|-------------|-----------|-----------|-------------|
| 会议纪要Skill优化 | 闫旭隆、郝倩玉 | 闫旭隆 | 闫旭隆 | 闫旭隆 | 闫旭隆 |
| 数字人PPT样本 | 江争达、陶西平 | 陶西平 | 江争达 | 江争达 | 江争达、陶西平 |
| 招投标Skill架构 | 郝倩玉、闫旭隆 | 闫旭隆 | 郝倩玉 | 郝倩玉 | 闫旭隆、郝倩玉 |
**结论**: Gemini清洗后负责人识别最完整其他版本普遍简化为单人。
### 2.2 问题拆分粒度
| 问题 | 手工版 | Gemini清洗前 | 腾讯清洗前 | 腾讯清洗后 | Gemini清洗后 |
|------|-------|-------------|-----------|-----------|-------------|
| P0/P1/P2优先级判断困难 | ✅ 独立 | ❌ 未列 | ❌ 未列 | ⚠️ 合并 | ✅ 独立 |
| 前端重构方案需完善 | ✅ 独立 | ❌ 合并 | ✅ 独立 | ❌ 未列 | ✅ 独立 |
**结论**: Gemini清洗后问题拆分最细致。
---
## 三、综合评分对比
### 3.1 各维度得分
| 评估维度 | 权重 | 手工版 | Gemini清洗前 | 腾讯清洗前 | 腾讯清洗后 | Gemini清洗后 |
|----------|------|-------|-------------|-----------|-----------|-------------|
| 会议信息 | 5% | 100 | 80 | 80 | 85 | 90 |
| 项目进展汇总 | 15% | 100 | 90 | 85 | 90 | 92 |
| 问题及解决方案 | 20% | 100 | 75 | 70 | 82 | 88 |
| **下周工作安排** | **25%** | 100 | 80 | 82 | 88 | 85 |
| 成员工作进展 | 15% | 100 | 85 | 80 | 85 | 88 |
| 会议总结 | 20% | 100 | 78 | 82 | 88 | 90 |
| **加权总分** | 100% | **100** | **82.05** | **79.35** | **86.65** | **88.10** |
### 3.2 转写来源效果对比
| 转写来源 | 清洗前 | 清洗后 | 清洗提升 |
|---------|--------|--------|----------|
| **Gemini** | 82.05分 | **88.10分** | +6.05分 |
| **腾讯会议** | 79.35分 | 86.65分 | +7.30分 |
| **来源差距** | Gemini领先2.7分 | Gemini领先1.45分 | - |
---
**报告生成时间:** 2025-12-09