张卫强

个人信息Personal Information

副研究员

教师英文名称:Wei-Qiang ZHANG

教师拼音名称:zhangweiqiang

电子邮箱:

办公地点:电子工程馆5-111

联系方式:010-62781847

学位:博士学位

毕业院校:清华大学

学科:信号与信息处理

教师博客

当前位置: 中文主页 >> 教师博客

GigaSpeech:10000小时多领域英语开源数据集发布

点击次数:

语音识别的性能,很大程度上取决于训练数据集的规模和覆盖性。现有的语音开源数据集适用领域狭窄,缺少难度挑战,准确率接近饱和。学术界和工业界研究开始分道扬镳,碎片化严重。作为目前全球最大的多领域英语开源数据集,GigaSpeech致力于推动学术界和产业界的共同进步。


01 概述


GigaSpeech是一个不断发展的、多领域英语语音识别语料库。它拥有10000小时的高质量标注音频,适用于有监督训练任务;以及33000小时的总音频,适用于半监督无监督训练任务。

02 数据来源及质量控制


从发音风格和覆盖主题入手,GigaSpeech从有声读物、播客和YouTube上收集了约33000小时的转录音频,以及对应的人工转录文本、人工字幕等,涵盖诵读和自发口语等一系列不同风格,以及艺术、科学、体育等多种主题。

GigaSpeech拼图大字.png

音频来源 标注小时数
总小时数
声学条件
有声读物 2,655
11,982 朗读;不同性别、年龄、口音
播客
3,498
9,254

干净或带背景音乐;室内近场;自发口语;不同性别、年龄、口音

Youtube
3,845
11,768 干净或带噪;室内、室外;近场、远场;朗读、口语;不同性别、年龄、口音
总计
10,000 33,005


在质量控制上,GigaSpeech提供一种新的强制对齐和分段处理pipeline工具,以创建适合ASR训练的句子段,并滤除低质量转录片段。对于有监督训练任务,GigaSpeech提供了5个不同规模的子集。在过滤验证环节,最大训练子集的词错误率控制在4%以下;其它较小规模的子集的词错误率控制在0%。


03 适用于有监督训练任务的数据子集详情


GigaSpeech提供了10小时、250小时、1000小时、2500小时和10000小时等5个不同规模的子集,以适用于有监督训练任务。详情如下表所示:

数据子集 小时数
适用任务类型
XS
10

System building and debugging

S 250 Quick research experiments
M
1,000
Large-scale research experiments
L
2,500
Medium-scale industrial experiments
XL
10,000 Large-scale industrial experiments


04 开发集和测试集


数据子集 小时数
说明
Dev
12

Randomly selected from the crawled Podcast and YouTube Data

Test 40 Part of the subset was randomly selected from the crawled Podcast and YouTube data; part of it was manually collected through other channels to have better coverage.


05 排行榜


为方便使用,GIgaSpeech为主流的ASR框架提供了baseline的训练脚本,并开放leaderboard排行榜,目前提供的系统包括Athena、Espnet、Kaldi、Pika、WeNet,后续还将继续更新与完善。


工具集
系统
链接地址
Dev/Test WER
Athena
Transformer-AED + RNNLM https://github.com/athena-team/athena/tree/master/examples/asr/gigaspeech 13.60 / 12.70
Espnet Conformer/Transformer-AED https://github.com/espnet/espnet/tree/master/egs2/gigaspeech/asr1 10.90 / 10.80
Kaldi Chain + RNNLM https://github.com/kaldi-asr/kaldi/tree/master/egs/gigaspeech/s5 14.78 / 14.84
Pika
RNN-T https://github.com/tencent-ailab/pika/tree/ 12.30 / 12.30
WeNet
Conformer-AED https://github.com/wenet-e2e/wenet/tree/main/examples/gigaspeech/s0 11.00 / 10.90


06 使用申请入口


GigaSpeech数据集已开放,欢迎大家使用。 

申请入口

https://forms.gle/UuGQAPyscGRrUMLq6

更多细节,请访问github链接

https://github.com/SpeechColab/GigaSpeech

预印版论文地址(已被InterSpeech 2021接收)  

https://arxiv.org/abs/2106.06909




07 进一步合作


我们是一群试图让语音技术更易于使用的志愿者,欢迎各种形式的合作与贡献。目前我们正在探索以下方向,如果您对某些方向感兴趣,并且认为自己能够提供帮助,请联系 gigaspeech@speechcolab.org。

  • 不同预训练模型的推理架构

  • 增加多样化的数据来源

  • 对语音算法/服务进行基准测试

  • 构建和发布预训练模型

  • 支持更多语言

  • 支持更多任务(例如说话人识别等)

  • 制作新数据集


08 发起人



三人大头照.png