张卫强

个人信息Personal Information

教师英文名称:Wei-Qiang Zhang

教师拼音名称:Zhang Wei Qiang

电子邮箱:

办公地点:电子工程馆5-111

联系方式:010-62781847

学位:博士学位

毕业院校:清华大学

学科:信号与信息处理

教师博客

当前位置: 中文主页 >> 教师博客

基于注意力机制的低资源关键词检索技术超越传统方法

点击次数:

近日,清华大学语音与音频技术实验室在Neural Networks上发表论文,提出了一种端到端的基于注意力机制和能量评分器的关键词检索系统。该系统摆脱了语音识别的依赖,并且取得了超越传统方法的性能,尤其适用于低资源小语种关键词检索任务。

Z. Zhao and W.-Q. Zhang, “End-to-end keyword search system based on attention mechanism and energy scorer for low resource languages,” Neural Networks, vol. 139, pp. 326-334, Jul. 2021. doi: 10.1016/j.neunet.2021.04.002.

关键词检索任务及难点

关键词检索即为在连续的语音流当中检测和定位用户给定的关键词的技术。传统的关键词检索技术依赖于连续语音识别系统,即先使用语音识别系统得到识别结果(一般为多候选结果),然后再从识别结果之中寻找关键词并进行置信度估计。然而,训练出一个可靠的语音识别系统往往需要大量的标注语音数据,对于低资源语种,即可用的训练数据较少的语种,传统的方法往往会遇到一些困难。

论文创新点

论文所采用的框架不再依赖于语音识别系统,大大降低对数据资源的依赖,以下是系统的整体结构框图。该系统主要由四部分组成,包括语音编码器(Speech Encoder),文本编码器(Query Encoder),注意力机制(Attention Mechanism)以及能量评分器(Energy Scorer)。

fig1.png

论文工作详述

语音编码器(Speech Encoder):语音编码器的作用是接受语音输入(Input Speech),得到语音特征(Speech Embeddings)。此处关键为让语音特征含有关键词检索所需要的信息,即输入语音所包含的字符序列或者音素序列,即通过语音特征来预测目标序列。论文采取如下图所示结构来完成此过程。

可以采用不同的方法来预测目标序列。论文考察了两种方法,即联结时序分类(Connectionist Temporal Classification, CTC)和基于注意力机制的序列到序列方法(Attention-based Sequence-to-Sequence Method, Attention Seq2Seq);实验结果证明,二者在辅助监督语音编码器从输入语音中提取目标信息方面性能相当。

fig2.png

文本编码器(Query Encoder):文本编码器接受输入文本(Input Query),得到文本特征。此处关键为文本特征需包含原始输入文本的拼写信息。论文采用自监督的方式,通过文本解码器来对文本特征进行复原,即恢复成原始的输入文本。特别地,因为数据集提供了发音词典,也可以从文本特征中预测出音素序列。通过以上两种方式,分别可以得到包含有拼写和发音信息的文本特征。

注意力机制(Attention Mechanism):在得到语音和文本特征之后,便可以通过注意力机制来进行关键词大致位置的判断。注意这里的注意力机制与前文提到的语音解码器中的注意力机制的含义不同,这里的注意力机制是专为关键词检测而设计的,是本文的一个创新点。以下是注意力机制的输出,可以看到在输入的语音中不含有关键词的情况下(左图,蓝色为预测曲线,红色为真实情况,下同),注意力机制在每一个时刻上的输出也都尽可能的小,说明注意力机制认为这些时刻上存在有关键词的概率较小,对于关键词存在的情形(右图),注意力机制也可以大致预测出关键词在输入语音中的大致位置。

fig7.png

能量评分器(Energy Scorer):得到注意力机制输出结果之后,我们还是无法确定关键词的存在与否,其原因主要在于不知道关键词应该持续的时间长度。另外,注意力机制会导致虚警的发生。为了综合考虑语音特征,文本特征以及注意力权重,论文提出了能量评分器的概念,其结构如下图所示:

fig5.png

首先计算出语音特征和上下文特征的能量比,其中后者通过注意力权重和语音特征加权得到。即使注意力权重会在某些非语音部分发生虚警,但是一般地语音部分的能量会高于噪声部分的能量,这在某种程度上减轻了噪声对检测结果的影响。同时,通过文本特征得到对应于该关键词的能量比门限值,令前面得到的能量比与该门限值进行比较便可以得到最终的判决结果。如前文所述,文本特征中包含有拼写或发音信息,故通过文本特征来估计其能量比门限便是一种合理的设计。

实验与结论

通过语音文本的编解码器可以得到语音和文本所对应的拼写或者发音信息,故可以两两组合输入到注意力机制以及后续的系统之中,下表是论文中的一组结果对比,其中C-P表示提取了含有拼写信息(Character, C)的语音特征和含有发音信息(Phoneme, P)的文本特征所构成的系统,同时给出了Audhkhasi等人提出的ASR-free系统作为基线系统。可以看到,每种组合的效果均优于基线系统。

tab3.png

另外,本文给出了在包括孟加拉语、普什图语以及土耳其语等低资源小语种数据集的实验结果,如下表所示。其中SGMM表示的是传统的基于子空间GMM语音识别的关键词检索系统。可以看到本文所提出的系统要优于其他模型。

tab4.png