张卫强

个人信息Personal Information

教师英文名称:Wei-Qiang Zhang

教师拼音名称:Zhang Wei Qiang

电子邮箱:

办公地点:电子工程馆5-111

联系方式:010-62781847

学位:博士学位

毕业院校:清华大学

学科:信号与信息处理

教师博客

当前位置: 中文主页 >> 教师博客

GigaSpeech:10000小时多领域英语开源数据集发布

点击次数:

语音识别的性能,很大程度上取决于训练数据集的规模和覆盖性。现有的语音开源数据集适用领域狭窄,缺少难度挑战,准确率接近饱和。学术界和工业界研究开始分道扬镳,碎片化严重。作为目前全球最大的多领域英语开源数据集,GigaSpeech致力于推动学术界和产业界的共同进步。

概述

GigaSpeech是一个不断发展的、多领域英语语音识别语料库。它拥有10000小时的高质量标注音频,适用于有监督训练任务;以及33000小时的总音频,适用于半监督和无监督训练任务。

数据来源及质量控制

从发音风格和覆盖主题入手,GigaSpeech从有声读物、播客和YouTube上收集了约33000小时的转录音频,以及对应的人工转录文本、人工字幕等,涵盖诵读和自发口语等一系列不同风格,以及艺术、科学、体育等多种主题。

GigaSpeech拼图大字.png

音频来源 标注小时数 总小时数
声学条件
有声读物 2,655 11,982 朗读;不同性别、年龄、口音
播客 3,498 9,254 干净或带背景音乐;室内;近场;自发口语;不同性别、年龄、口音
Youtube 3,845 11,768 干净或带噪;室内、室外;近场、远场;朗读、口语;不同性别、年龄、口音
总计
10,000 33,005

在质量控制上,GigaSpeech提供一种新的强制对齐和分段处理pipeline工具,以创建适合ASR训练的句子段,并滤除低质量转录片段。对于有监督训练任务,GigaSpeech提供了5个不同规模的子集。在过滤验证环节,最大训练子集的词错误率控制在4%以下;其它较小规模的子集的词错误率控制在0%。

适用于有监督训练任务的数据子集详情

GigaSpeech提供了10小时、250小时、1000小时、2500小时和10000小时等5个不同规模的子集,以适用于有监督训练任务。详情如下表所示:

数据子集 小时数 适用任务类型
XS 10
System building and debugging
S 250 Quick research experiments
M 1,000 Large-scale research experiments
L 2,500 Medium-scale industrial experiments
XL 10,000 Large-scale industrial experiments

开发集和测试集

数据子集 小时数 说明
Dev 12 Randomly selected from the crawled Podcast and YouTube Data
Test 40 Part of the subset was randomly selected from the crawled Podcast and YouTube data; part of it was manually collected through other channels to have better coverage.

排行榜

为方便使用,GIgaSpeech为主流的ASR框架提供了baseline的训练脚本,并开放leaderboard排行榜,目前提供的系统包括Athena、Espnet、Kaldi、Pika、WeNet,后续还将继续更新与完善。

工具集 系统 链接地址 Dev/Test WER
Athena Transformer-AED + RNNLM https://github.com/athena-team/athena/tree/master/examples/asr/gigaspeech 13.60 / 12.70
Espnet Conformer/Transformer-AED https://github.com/espnet/espnet/tree/master/egs2/gigaspeech/asr1 10.90 / 10.80
Kaldi Chain + RNNLM https://github.com/kaldi-asr/kaldi/tree/master/egs/gigaspeech/s5 14.78 / 14.84
Pika RNN-T https://github.com/tencent-ailab/pika/tree/ 12.30 / 12.30
WeNet Conformer-AED https://github.com/wenet-e2e/wenet/tree/main/examples/gigaspeech/s0 11.00 / 10.90

使用申请入口

  • - GigaSpeech数据集其他下载地址:https://forms.gle/UuGQAPyscGRrUMLq6

  • - Hugging Face下载地址:https://huggingface.co/datasets/speechcolab/gigaspeech

  • - 更多细节,请访问github链接:https://github.com/SpeechColab/GigaSpeech

  • - 论文引用:G. Chen, S. Chai, G. Wang, J. Du, W.-Q. Zhang, C. Weng, D. Su, D. Povey, J. Trmal, J. Zhang, M. Jin, S. Khudanpur, S. Watanabe, S. Zhao, W. Zou, X. Li, X. Yao, Y. Wang, Y. Wang, Z. You, and Z. Yan, “GigaSpeech: An evolving, multi-domain ASR corpus with 10,000 hours of transcribed audio,” in Proc. Interspeech, 2021, pp. 3670-3674. doi: 10.21437/Interspeech.2021-1965.

  • 进一步合作

    我们是一群试图让语音技术更易于使用的志愿者,欢迎各种形式的合作与贡献。目前我们正在探索以下方向,如果您对某些方向感兴趣,并且认为自己能够提供帮助,请联系 gigaspeech@speechcolab.org

    • - 不同预训练模型的推理架构

    • - 增加多样化的数据来源

    • - 对语音算法/服务进行基准测试

    • - 构建和发布预训练模型

    • - 支持更多语言

    • - 支持更多任务(例如说话人识别等)

    • - 制作新数据集

    发起人

    三人大头照.png