基于副语言特征和预训练特征的跨语言阿尔兹海默症检测

发布时间：2023-05-29

点击次数：

本文介绍清华大学语音与音频技术实验室(SATLab) ICASSP 2023录用论文Cross-Lingual Alzheimer's Disease Detection Based on Paralinguistic and Pre-Trained Features。这篇文章研究基于自发语言的跨语言阿尔兹海默症（AD）检测，探索何种音频特征具有跨语言AD检测能力。在ICASSP-SPGC-2023 ADReSS-M挑战赛的测试结果表明，副语言特征对于跨语言AD检测较为有效。

一跨语言阿尔兹海默症检测

阿尔兹海默症俗称老年痴呆症，是一种神经退行性疾病。截至2010年全世界痴呆症患者总数为3560 万人，到2050年预计将达到1.154亿，其中约60%-70%为阿尔兹海默病患者。

相比常规的脑部核磁共振和脑脊液化验，基于患者自发语言的阿尔兹海默症检测方法成本低廉、操作便捷，更适合大范围筛查和居家自查。

世界痴呆症患者人数

近年来，利用语音进行AD检测正成为一种趋势。现阶段该研究的一大难点是数据的局限性，由于医学伦理限制，难以大规模采集多语种的阿尔茨海默症患者的语音数据，从而训练得到具有较强泛化能力的检测模型。

在本文中，我们寻找可用于跨语言AD检测的音频特征，使得模型能够以较低代价迁移到低资源、零资源领域。

二解决办法

我们研究了副语言特征、预训练语音特征和预训练语言特征三种特征。副语言特征在过去就被证明具有检测AD的能力，并且其本身是与语种无关的，而预训练特征已经被广泛用于单语言AD检测。我们认为这三种特征最有可能具备跨语言AD检测能力。

系统总体流程图

首先是副语言特征，我们使用openSmile开源工具提取了IS10-compat、IS10、IS11-ss三个副语言特征集，并用SVM模型进行分类与回归。

副语言特征提取流程

我们将XLSR-53模型提取的Embedding作为预训练语音特征。XLSR-53是用53种语言共同训练的语音预训练模型，在一定程度上具有多语言的通用性。

语音预训练特征提取流程

最后是预训练语言特征，我们使用语音识别模型Whisper将训练集和测试集转录为英语，而后使用语言预训练模型RoBERTa提取Embedding，作为预训练语言特征。

文本预训练特征提取流程

三试验结果

我们在ICASSP-SPGC-2023 ADReSS-M挑战赛的数据集上进行了训练与测试，该挑战赛要求仅用英文数据训练模型，而在希腊语数据集上进行测试。

表1 试验结果

表1显示了各系统在分类任务上的实验结果。通过比较表1中各模型的性能，可以看出副语言特征的F1得分最高；预训练语言特征的精度很高，但召回率相对较低，这导致了较低的F1得分；预训练语音特征的准确率并不高，比预训练模型在单语AD检测上的表现差很多。对于回归任务，我们方法的最佳RMSE得分是4.788，表明我们的方法可以有效地用于跨语言的阿尔兹海默病检测。

总的来说，在多语言AD检测中，副语言学特征比预训练特征表现的更好，这可能是因为预训练模型提取的高维嵌入与语言有较强的耦合性，这导致了跨语言的泛化能力较弱。而副语言学特征集所包含的低层次描述符（LLD）是语种无关的，因此，在跨语言AD检测方面具有较好的性能。

学生作者简介