新闻动态

基于副语言特征和预训练特征的跨语言阿尔兹海默症检测

发布时间:2023-05-29
点击次数:

本文介绍清华大学语音与音频技术实验室(SATLab) ICASSP 2023录用论文Cross-Lingual Alzheimer's Disease Detection Based on Paralinguistic and Pre-Trained Features。这篇文章研究基于自发语言的跨语言阿尔兹海默症(AD)检测,探索何种音频特征具有跨语言AD检测能力。在ICASSP-SPGC-2023 ADReSS-M挑战赛的测试结果表明,副语言特征对于跨语言AD检测较为有效。

一 跨语言阿尔兹海默症检测

阿尔兹海默症俗称老年痴呆症,是一种神经退行性疾病。截至2010年全世界痴呆症患者总数为3560 万人,到2050年预计将达到1.154亿,其中约60%-70%为阿尔兹海默病患者。

相比常规的脑部核磁共振和脑脊液化验,基于患者自发语言的阿尔兹海默症检测方法成本低廉、操作便捷,更适合大范围筛查和居家自查。

1.png

世界痴呆症患者人数


近年来,利用语音进行AD检测正成为一种趋势。现阶段该研究的一大难点是数据的局限性,由于医学伦理限制,难以大规模采集多语种的阿尔茨海默症患者的语音数据,从而训练得到具有较强泛化能力的检测模型。

在本文中,我们寻找可用于跨语言AD检测的音频特征,使得模型能够以较低代价迁移到低资源、零资源领域。




二 解决办法

我们研究了副语言特征、预训练语音特征和预训练语言特征三种特征。副语言特征在过去就被证明具有检测AD的能力,并且其本身是与语种无关的,而预训练特征已经被广泛用于单语言AD检测。我们认为这三种特征最有可能具备跨语言AD检测能力。

2.png

系统总体流程图


首先是副语言特征,我们使用openSmile开源工具提取了IS10-compat、IS10、IS11-ss三个副语言特征集,并用SVM模型进行分类与回归。

3.png

副语言特征提取流程


我们将XLSR-53模型提取的Embedding作为预训练语音特征。XLSR-53是用53种语言共同训练的语音预训练模型,在一定程度上具有多语言的通用性。

4.png

语音预训练特征提取流程


最后是预训练语言特征,我们使用语音识别模型Whisper将训练集和测试集转录为英语,而后使用语言预训练模型RoBERTa提取Embedding,作为预训练语言特征。

5.png

文本预训练特征提取流程




三 试验结果

我们在ICASSP-SPGC-2023 ADReSS-M挑战赛的数据集上进行了训练与测试,该挑战赛要求仅用英文数据训练模型,而在希腊语数据集上进行测试。

6.png

表1 试验结果


表1显示了各系统在分类任务上的实验结果。通过比较表1中各模型的性能,可以看出副语言特征的F1得分最高;预训练语言特征的精度很高,但召回率相对较低,这导致了较低的F1得分;预训练语音特征的准确率并不高,比预训练模型在单语AD检测上的表现差很多。对于回归任务,我们方法的最佳RMSE得分是4.788,表明我们的方法可以有效地用于跨语言的阿尔兹海默病检测。

总的来说,在多语言AD检测中,副语言学特征比预训练特征表现的更好,这可能是因为预训练模型提取的高维嵌入与语言有较强的耦合性,这导致了跨语言的泛化能力较弱。而副语言学特征集所包含的低层次描述符(LLD)是语种无关的,因此,在跨语言AD检测方面具有较好的性能。




学生作者简介



z1.png

陈旭初,清华大学电子工程系语音与音频技术实验室研究生三年级学生,主要研究方向为音频事件检测、阿尔兹海默症检测。


z2.png

蒲钰,清华大学电子工程系语音与音频技术实验室本科四年级学生,主要研究方向为阿尔兹海默症检测。


z3.png

李金朋,清华大学电子工程系语音与音频技术实验室研究生一年级学生,主要研究方向为低资源小语种语音识别。