张卫强

个人信息Personal Information

教师英文名称：Wei-Qiang Zhang

教师拼音名称：Zhang Wei Qiang

电子邮箱：wqzhang@tsinghua.edu.cn

办公地点：电子工程馆5-111

联系方式：010-62781847

学位：博士学位

毕业院校：清华大学

学科：信号与信息处理

教师博客

当前位置：中文主页 >> 教师博客

点击次数：

语音识别的性能，很大程度上取决于训练数据集的规模和覆盖性。现有的语音开源数据集适用领域狭窄，缺少难度挑战，准确率接近饱和。学术界和工业界研究开始分道扬镳，碎片化严重。作为目前全球最大的多领域英语开源数据集，GigaSpeech致力于推动学术界和产业界的共同进步。

GigaSpeech是一个不断发展的、多领域英语语音识别语料库。它拥有10000小时的高质量标注音频，适用于有监督训练任务；以及33000小时的总音频，适用于半监督和无监督训练任务。

从发音风格和覆盖主题入手，GigaSpeech从有声读物、播客和YouTube上收集了约33000小时的转录音频，以及对应的人工转录文本、人工字幕等，涵盖诵读和自发口语等一系列不同风格，以及艺术、科学、体育等多种主题。

GigaSpeech拼图大字.png

音频来源	标注小时数	总小时数	声学条件
有声读物	2,655	11,982	朗读；不同性别、年龄、口音
播客	3,498	9,254	干净或带背景音乐；室内；近场；自发口语；不同性别、年龄、口音
Youtube	3,845	11,768	干净或带噪；室内、室外；近场、远场；朗读、口语；不同性别、年龄、口音
总计	10,000	33,005

在质量控制上，GigaSpeech提供一种新的强制对齐和分段处理pipeline工具，以创建适合ASR训练的句子段，并滤除低质量转录片段。对于有监督训练任务，GigaSpeech提供了5个不同规模的子集。在过滤验证环节，最大训练子集的词错误率控制在4%以下；其它较小规模的子集的词错误率控制在0%。

GigaSpeech提供了10小时、250小时、1000小时、2500小时和10000小时等5个不同规模的子集，以适用于有监督训练任务。详情如下表所示：

数据子集	小时数	适用任务类型
XS	10	System building and debugging
S	250	Quick research experiments
M	1,000	Large-scale research experiments
L	2,500	Medium-scale industrial experiments
XL	10,000	Large-scale industrial experiments

数据子集	小时数	说明
Dev	12	Randomly selected from the crawled Podcast and YouTube Data
Test	40	Part of the subset was randomly selected from the crawled Podcast and YouTube data; part of it was manually collected through other channels to have better coverage.

为方便使用，GIgaSpeech为主流的ASR框架提供了baseline的训练脚本，并开放leaderboard排行榜，目前提供的系统包括Athena、Espnet、Kaldi、Pika、WeNet，后续还将继续更新与完善。

工具集	系统	链接地址	Dev/Test WER
Athena	Transformer-AED + RNNLM	https://github.com/athena-team/athena/tree/master/examples/asr/gigaspeech	13.60 / 12.70
Espnet	Conformer/Transformer-AED	https://github.com/espnet/espnet/tree/master/egs2/gigaspeech/asr1	10.90 / 10.80
Kaldi	Chain + RNNLM	https://github.com/kaldi-asr/kaldi/tree/master/egs/gigaspeech/s5	14.78 / 14.84
Pika	RNN-T	https://github.com/tencent-ailab/pika/tree/	12.30 / 12.30
WeNet	Conformer-AED	https://github.com/wenet-e2e/wenet/tree/main/examples/gigaspeech/s0	11.00 / 10.90

- GigaSpeech数据集其他下载地址：https://forms.gle/UuGQAPyscGRrUMLq6
- Hugging Face下载地址：https://huggingface.co/datasets/speechcolab/gigaspeech
- 更多细节，请访问github链接：https://github.com/SpeechColab/GigaSpeech
- 论文引用：G. Chen, S. Chai, G. Wang, J. Du, W.-Q. Zhang, C. Weng, D. Su, D. Povey, J. Trmal, J. Zhang, M. Jin, S. Khudanpur, S. Watanabe, S. Zhao, W. Zou, X. Li, X. Yao, Y. Wang, Y. Wang, Z. You, and Z. Yan, “GigaSpeech: An evolving, multi-domain ASR corpus with 10,000 hours of transcribed audio,” in Proc. Interspeech, 2021, pp. 3670-3674. doi: 10.21437/Interspeech.2021-1965.

我们是一群试图让语音技术更易于使用的志愿者，欢迎各种形式的合作与贡献。目前我们正在探索以下方向，如果您对某些方向感兴趣，并且认为自己能够提供帮助，请联系 gigaspeech@speechcolab.org。

三人大头照.png

上一条：基于注意力机制的低资源关键词检索技术超越传统方法

下一条：语音与音频技术实验室毕业生何珂鑫喜获清华大学优秀硕士论文和优秀硕士毕业生