个人信息Personal Information
教师英文名称:Wei-Qiang Zhang
教师拼音名称:Zhang Wei Qiang
电子邮箱:
办公地点:电子工程馆5-111
联系方式:010-62781847
学位:博士学位
毕业院校:清华大学
学科:信号与信息处理
基于副语言特征和预训练特征的跨语言阿尔兹海默症检测
点击次数:
本文介绍清华大学语音与音频技术实验室(SATLab)ICASSP 2023录用论文Cross-Lingual Alzheimer's Disease Detection Based on Paralinguistic and Pre-Trained Features。这篇文章研究基于自发语言的跨语言阿尔兹海默症(AD)检测,探索何种音频特征具有跨语言AD检测能力。在ICASSP-SPGC-2023 ADReSS-M挑战赛的测试结果表明,副语言特征对于跨语言AD检测较为有效。
X. Chen, Y. Pu, J. Li, and W.-Q. Zhang, “Cross-lingual Alzheimer’s disease detection based on paralinguistic and pre-trained features,” in Proc. ICASSP, 2023. doi: 10.1109/ICASSP49357.2023.10095522.
跨语言阿尔兹海默症检测
阿尔兹海默症俗称老年痴呆症,是一种神经退行性疾病。截至2010年全世界痴呆症患者总数为3560万人,到2050年预计将达到1.154亿,其中约60%-70%为阿尔兹海默病患者。
相比常规的脑部核磁共振和脑脊液化验,基于患者自发语言的阿尔兹海默症检测方法成本低廉、操作便捷,更适合大范围筛查和居家自查。
世界痴呆症患者人数
近年来,利用语音进行AD检测正成为一种趋势。现阶段该研究的一大难点是数据的局限性,由于医学伦理限制,难以大规模采集多语种的阿尔茨海默症患者的语音数据,从而训练得到具有较强泛化能力的检测模型。
在本文中,我们寻找可用于跨语言AD检测的音频特征,使得模型能够以较低代价迁移到低资源、零资源领域。
解决办法
我们研究了副语言特征、预训练语音特征和预训练语言特征三种特征。副语言特征在过去就被证明具有检测AD的能力,并且其本身是与语种无关的,而预训练特征已经被广泛用于单语言AD检测。我们认为这三种特征最有可能具备跨语言AD检测能力。
系统总体流程图
首先是副语言特征,我们使用openSmile开源工具提取了IS10-compat、IS10、IS11-ss三个副语言特征集,并用SVM模型进行分类与回归。
副语言特征提取流程
我们将XLSR-53模型提取的Embedding作为预训练语音特征。XLSR-53是用53种语言共同训练的语音预训练模型,在一定程度上具有多语言的通用性。
语音预训练特征提取流程
最后是预训练语言特征,我们使用语音识别模型Whisper将训练集和测试集转录为英语,而后使用语言预训练模型RoBERTa提取Embedding,作为预训练语言特征。
文本预训练特征提取流程
试验结果
我们在ICASSP-SPGC-2023 ADReSS-M挑战赛的数据集上进行了训练与测试,该挑战赛要求仅用英文数据训练模型,而在希腊语数据集上进行测试。
表中显示了各系统在分类任务上的实验结果。通过比较表1中各模型的性能,可以看出副语言特征的F1得分最高;预训练语言特征的精度很高,但召回率相对较低,这导致了较低的F1得分;预训练语音特征的准确率并不高,比预训练模型在单语AD检测上的表现差很多。对于回归任务,我们方法的最佳RMSE得分是4.788,表明我们的方法可以有效地用于跨语言的阿尔兹海默病检测。
结论
总的来说,在多语言AD检测中,副语言学特征比预训练特征表现的更好,这可能是因为预训练模型提取的高维嵌入与语言有较强的耦合性,这导致了跨语言的泛化能力较弱。而副语言学特征集所包含的低层次描述符(LLD)是语种无关的,因此,在跨语言AD检测方面具有较好的性能。