学术报告:ICASSP 2025 论文预讲会
时间:2025/3/27 [周四] 晚上19:00 ~ 20:30
地点:线上
日程:
蒲钰
嘉宾简介:清华大学电子工程系二年级硕士生,研究方向为阿尔兹海默病检测和端到端语音交互。
报告题目:Integrating Pause Information with Word Embeddings in Language Models for Alzheimer's Disease Detection from Spontaneous Speech
摘要:阿尔茨海默病(AD)是一种神经退行性疾病,其特征为认知能力下降和记忆丧失。早期检测对于有效干预和治疗至关重要。本文提出了一种基于自发语音的阿尔茨海默病检测新方法,将停顿信息融入语言模型中。我们的方法将停顿时长编码为嵌入,并将其集成到基于Transformer的语言模型中,使模型能够同时捕捉语音数据的语义和副语言特征。我们在ADReSS数据集及其扩展版本ADReSSo数据集上进行了实验,并将我们的方法与现有方法进行了对比。在ADReSSo测试集上,我们的方法达到了83.1%的准确率。结果表明,该方法在区分AD患者和健康个体方面具有较高的有效性,凸显了停顿信息在AD检测中的潜力。通过将语音分析作为一种非侵入性且成本低廉的早期AD筛查工具,我们的方法有助于阿尔茨海默病的及时诊断和治疗。
论文链接:doi: 10.1109/ICASSP49660.2025.10888563
邱子越
嘉宾简介:美国亚利桑那州立大学四年级本科生,清华大学语音与音频技术实验室实习生,研究方向主要为语音情感识别和阿尔兹海默病检测。
报告题目:Metadata-Enhanced Speech Emotion Recognition: Augmented Residual Integration and Co-Attention in Two-Stage Fine-Tuning
摘要:语音情感识别(SER)通过分析语音信号来判断说话者的情绪状态,其中充分利用音频信息至关重要。因此,我们提出了一种新颖的基于自监督学习(SSL)模型的方法,该方法利用所有可用的元数据来提升性能。在多任务学习两阶段微调的框架下,我们引入了增强残差融合(ARI)模块,来增强SSL模型编码器中的Transformer层,使其能够更高效地保留各层级的声学特征,从而显著提升依赖于不同层级特征的元数据相关辅助任务的性能。此外,我们引入了协同注意力模块,由于其与ARI模块具有互补特性,该模块能够帮助模型更有效地利用来自元数据相关辅助任务的多维信息及上下文关系。在仅使用基础预训练模型和说话人无关设置下,我们的方法在多个SSL编码器上在IEMOCAP数据集的实验中取得当前最优的性能。
论文地址:doi: 10.1109/ICASSP49660.2025.10890812
姜安柏
嘉宾简介:清华大学电子工程系三年级博士生,研究方向为异常声音检测和音频信号处理。曾在ICASSP、INTERSPEECH、SLT、GLOBECOM上发表多篇论文,并获得DCASE 2024挑战赛异常声音检测赛道第一名。
报告题目:Adaptive Prototype Learning for Anomalous Sound Detection with Partially Known Attributes
摘要:对预训练模型进行微调已经成为异常声音检测(ASD)的主流方法,其中微调的代理任务通常为分类机器工况属性。然而,对于某些机器,其工况属性可能难以收集,导致标签粒度不均,从而降低ASD的性能。因此,我们提出了一种用于微调预训练模型的自适应原型学习方法,该方法自适应地将粗粒度标签扩展为多个子中心,以保持与细粒度标签的一致性。为了解决领域迁移问题,我们采用SMOTE算法对目标领域的原型进行过采样。在DCASE 2024竞赛ASD数据集上的实验表明了该方案的有效性,在两个子集上的平均结果达到了65.01%,并超越了挑战赛的最佳系统。此外,我们还进行了详细的消融研究以验证该方法的有效性。