张卫强

个人信息Personal Information

教师英文名称：Wei-Qiang Zhang

教师拼音名称：Zhang Wei Qiang

电子邮箱：

办公地点：电子工程馆5-111

联系方式：010-62781847

学位：博士学位

毕业院校：清华大学

学科：信号与信息处理

教师博客

当前位置：中文主页 >> 教师博客

低资源语音识别进展：基于通用音素识别器的低资源语言发音词典生成探索

点击次数：

在智能语音识别的征途中，如何为那些资源稀缺的语言构建高质量的发音词典，一直是横亘在科研人员面前的一道难题。近期，来自清华大学电子工程系语音与音频技术实验室(THUsatlab)与上海交通大学计算机科学与工程系的研究团队，提出了一种创新方法，利用通用音素识别器为低资源语言自动生成发音词典，为这一领域带来了新的探索。

J. Li, X. Chen, and W.-Q. Zhang, “Exploring generation of pronunciation lexicon for low-resource language ASR based on generic phone recognizer,” Journal of Shanghai Jiaotong University (Sci.), 2024. doi: 10.1007/s12204-024-2730-3.

发音词典生成

发音词典是传统混合自动语音识别系统的重要组成部分。然而, 高质量词典需要语言专家的精心标注, 通常难以获得, 特别是对于低资源语言。本文要解决的问题是, 如何利用多语言语音数据和发音词典训练获得的通用音素识别器, 通过语音数据驱动的方式为低资源语言生成发音词典。

本文提出了一个简易的方案来生成发音词典, 并将其应用到自动语音识别系统中。生成词典步骤是通用的：首先, 在语音数据上使用国际音标（IPA）音素识别器, 然后将音素识别结果与参考文本进行对齐, 接着进行过滤以获得一系列子词, 利用来生成AUTO-subword词典和AUTO-IPA词典。将生成的发音词典用于混合系统和微调预训练模型。实验结果表明, 能够在无需语言专家资源的情况下构建词典, 并应用到语音识别系统中。

上图中展示了提出的发音词典生成流程：音素识别、对齐、过滤和最终映射生成。首先，我们使用语言无关的音素识别器生成音素序列。然后，利用对齐在单词或子词层面对生成的音素序列进行分割。过滤模块的目的是去除音素识别和对齐过程中产生的一些噪声输出。经过过滤步骤后，可以得到一系列称为 AUTO-subword的子词，从而生成两种类型的词典。一种是AUTO-subword词典，将单词分割成子词；另一种是 AUTO-IPA 词典，根据为每个AUTO-subword对应的发音生成而得。

主要结果

在索马里语与粤语上的结果如下表所示。在索马里语的语音识别系统中，使用字素词典和专家词典之间的性能差距很小，而使用 AUTO-subword词典的性能要优于使用专家词典的性能。这表明我们可以通过提取 AUTO-subword单元来替代字素作为最小建模单元以进行改进。

对于粤语，使用字素词典和专家词典之间的性能差距较大，而使用AUTO-IPA词典可以缩小没有专家知识的情况和使用专家词典的情况之间的差距。在混合系统中，使用AUTO-IPA词典能够缩小约51.8%的差距，而在微调预训练系统中，这一数值达到了68.3%。

对比实验

我们还与其他生成方法进行了对比，如上图所示，对比结果如下表所示。从结果中可以看出，直接使用对齐后得到的词-音素序列对应关系作为词典内容时的性能很差。即使在对齐步骤后使用 G2P 模型生成词典，其性能也与提出的方法生成的词典有明显差距。这表明了提出的生成方法所做的改进能够提升系统的性能。

未来展望

随着语音识别模型性能的不断优化，未来此方法能更高效地为更多低资源语言生成优质的发音词典。这项研究不仅为低资源语言的语音识别技术开辟了新路径，也为跨语言语音处理技术的发展提供了有力支持。

上一条：GigaSpeech 2：三万小时东南亚多语种语音识别开源数据集发布

下一条：AI+心理健康：基于多模态融合的抑郁症检测系统挑战杯获奖