通知公告

学术报告:INTERSPEECH 2024 论文预讲会

发布时间:2024-08-15
点击次数:

时间:2024/8/17 [周六] 上午9:30 ~ 11:00

地点:线上

日程:

2.jpg

图片1.png

王皓宇

嘉宾简介:王皓宇,清华大学电子工程系硕士生,研究方向为低资源语音识别、流式语音识别和模型压缩。他在IEEE JSTSP期刊、INTERSPEECH等会议上发表多篇一作论文,并作为核心成员参加OpenASR21挑战赛获得多项冠军。

报告题目:Simul-Whisper:基于交叉注意力对齐和截断检测的流式Whisper模型

摘要:Whisper是目前性能最好的多语种语音识别模型之一。凭借大规模数据集上的弱监督训练,Whisper模型在低资源、高噪声等复杂场景中有着突出的表现,然而其编码器-解码器结构使之难以用于流式语音识别。我们提出了Simul-Whisper方法,利用Whisper交叉注意力中隐含的时间对齐信息来指导自回归解码,无需对Whisper进行任何微调,就可以实现分块的流式语音识别。我们还引入了一个额外的CIF模型,以缓解在块边界发生的单词截断对识别结果产生的影响。我们在多个语种和多个Whisper架构上的实验显示,在块长1s的情况下,相比离线模型,流式的Simul-Whisper仅有平均1.46%的绝对WER损失,明显优于当前最优系统。

论文链接:doi: 10.21437/Interspeech.2024-1814

图片2.png

李金朋

嘉宾简介:李金朋,清华大学电子工程系硕士生,研究方向为语音大模型及小语种语音识别。他在ICASSP、INTERSPEECH等会议上发表多篇一作论文,作为核心成员参加OpenASR21挑战赛获得多项冠军,并参加发布GigaSpeech 2数据集。

报告题目:利用无标注语音和文本改进Whisper在哈萨克语的识别性能

摘要:Whisper等大规模语音识别模型在诸多任务的性能方面取得了显著进步。然而,它们在许多代表性不足的语言(如哈萨克语)上的表现并不令人满意。如何利用低成本数据提高Whisper在代表性不足的语言上的性能值得研究。在这项研究中,我们利用了易于获取的未配对语音和文本数据,并将哈萨克语的语言模型 GPT与Whisper结合起来。我们采用了文本末尾判断修正和幻觉惩罚来提高语音识别的性能。此外,我们采用解码平均对数概率作为标准,从无标注的语音数据中选择样本,利用其伪标签对模型进行微调,以进一步提高模型性能。最终,我们在多个实验中提高了哈萨克语的识别性能,整个过程有望推广到其他代表性不足的语言。

论文地址:doi: 10.21437/Interspeech.2024-1790

图片3.png

姜安柏

嘉宾简介:姜安柏,清华大学电子工程系博士生,研究方向为音频信号处理及异常检测。他在ICASSP、INTERSPEECH等会议上发表多篇一作论文,作为核心成员获得DCASE 2024挑战赛获得异常声音检测赛道第一名。

报告题目:AnoPatch:从一致性角度提升机器异常声音检测

摘要:Large pre-trained models have demonstrated dominant performances in multiple areas, where the consistency between pre-training and fine-tuning is the key to success. However, few works reported satisfactory results of pre-trained models for the machine anomalous sound detection (ASD) task. This may be caused by the inconsistency of the pre-trained model and the inductive bias of machine audio, resulting in inconsistency in data and architecture. Thus, we propose AnoPatch which utilizes a ViT backbone pre-trained on AudioSet and fine-tunes it on machine audio. It is believed that machine audio is more related to audio datasets than speech datasets, and modeling it from patch level suits the sparsity of machine audio. As a result, AnoPatch showcases state-of-the-art (SOTA) performances on the DCASE 2020 ASD dataset and the DCASE 2023 ASD dataset. We also compare multiple pre-trained models and empirically demonstrate that better consistency yields considerable improvement.

论文地址:doi: 10.21437/Interspeech.2024-1761