个人信息Personal Information
教师英文名称:Wei-Qiang Zhang
教师拼音名称:Zhang Wei Qiang
电子邮箱:
办公地点:电子工程馆5-111
联系方式:010-62781847
学位:博士学位
毕业院校:清华大学
学科:信号与信息处理
GigaSpeech:10000小时多领域英语开源数据集发布
点击次数:
语音识别的性能,很大程度上取决于训练数据集的规模和覆盖性。现有的语音开源数据集适用领域狭窄,缺少难度挑战,准确率接近饱和。学术界和工业界研究开始分道扬镳,碎片化严重。作为目前全球最大的多领域英语开源数据集,GigaSpeech致力于推动学术界和产业界的共同进步。
概述
GigaSpeech是一个不断发展的、多领域英语语音识别语料库。它拥有10000小时的高质量标注音频,适用于有监督训练任务;以及33000小时的总音频,适用于半监督和无监督训练任务。
数据来源及质量控制
从发音风格和覆盖主题入手,GigaSpeech从有声读物、播客和YouTube上收集了约33000小时的转录音频,以及对应的人工转录文本、人工字幕等,涵盖诵读和自发口语等一系列不同风格,以及艺术、科学、体育等多种主题。
音频来源 | 标注小时数 | 总小时数 |
声学条件 |
有声读物 | 2,655 | 11,982 | 朗读;不同性别、年龄、口音 |
播客 | 3,498 | 9,254 | 干净或带背景音乐;室内;近场;自发口语;不同性别、年龄、口音 |
Youtube | 3,845 | 11,768 | 干净或带噪;室内、室外;近场、远场;朗读、口语;不同性别、年龄、口音 |
总计 |
10,000 | 33,005 |
在质量控制上,GigaSpeech提供一种新的强制对齐和分段处理pipeline工具,以创建适合ASR训练的句子段,并滤除低质量转录片段。对于有监督训练任务,GigaSpeech提供了5个不同规模的子集。在过滤验证环节,最大训练子集的词错误率控制在4%以下;其它较小规模的子集的词错误率控制在0%。
适用于有监督训练任务的数据子集详情
GigaSpeech提供了10小时、250小时、1000小时、2500小时和10000小时等5个不同规模的子集,以适用于有监督训练任务。详情如下表所示:
数据子集 | 小时数 | 适用任务类型 |
XS | 10 |
System building and debugging |
S | 250 | Quick research experiments |
M | 1,000 | Large-scale research experiments |
L | 2,500 | Medium-scale industrial experiments |
XL | 10,000 | Large-scale industrial experiments |
开发集和测试集
数据子集 | 小时数 | 说明 |
Dev | 12 | Randomly selected from the crawled Podcast and YouTube Data |
Test | 40 | Part of the subset was randomly selected from the crawled Podcast and YouTube data; part of it was manually collected through other channels to have better coverage. |
排行榜
为方便使用,GIgaSpeech为主流的ASR框架提供了baseline的训练脚本,并开放leaderboard排行榜,目前提供的系统包括Athena、Espnet、Kaldi、Pika、WeNet,后续还将继续更新与完善。
工具集 | 系统 | 链接地址 | Dev/Test WER |
Athena | Transformer-AED + RNNLM | https://github.com/athena-team/athena/tree/master/examples/asr/gigaspeech | 13.60 / 12.70 |
Espnet | Conformer/Transformer-AED | https://github.com/espnet/espnet/tree/master/egs2/gigaspeech/asr1 | 10.90 / 10.80 |
Kaldi | Chain + RNNLM | https://github.com/kaldi-asr/kaldi/tree/master/egs/gigaspeech/s5 | 14.78 / 14.84 |
Pika | RNN-T | https://github.com/tencent-ailab/pika/tree/ | 12.30 / 12.30 |
WeNet | Conformer-AED | https://github.com/wenet-e2e/wenet/tree/main/examples/gigaspeech/s0 | 11.00 / 10.90 |
使用申请入口
- GigaSpeech数据集其他下载地址:https://forms.gle/UuGQAPyscGRrUMLq6
- Hugging Face下载地址:https://huggingface.co/datasets/speechcolab/gigaspeech
- 更多细节,请访问github链接:https://github.com/SpeechColab/GigaSpeech
- 论文引用:G. Chen, S. Chai, G. Wang, J. Du, W.-Q. Zhang, C. Weng, D. Su, D. Povey, J. Trmal, J. Zhang, M. Jin, S. Khudanpur, S. Watanabe, S. Zhao, W. Zou, X. Li, X. Yao, Y. Wang, Y. Wang, Z. You, and Z. Yan, “GigaSpeech: An evolving, multi-domain ASR corpus with 10,000 hours of transcribed audio,” in Proc. Interspeech, 2021, pp. 3670-3674. doi: 10.21437/Interspeech.2021-1965.
- 不同预训练模型的推理架构
- 增加多样化的数据来源
- 对语音算法/服务进行基准测试
- 构建和发布预训练模型
- 支持更多语言
- 支持更多任务(例如说话人识别等)
- 制作新数据集
进一步合作
我们是一群试图让语音技术更易于使用的志愿者,欢迎各种形式的合作与贡献。目前我们正在探索以下方向,如果您对某些方向感兴趣,并且认为自己能够提供帮助,请联系 gigaspeech@speechcolab.org。