通知公告

学术报告:INTERSPEECH 2025 论文预讲会

发布时间:2025-08-01
点击次数:

时间:2025/8/5 [周二] 晚上19:00 ~ 20:40

地点:线上

日程:

rc.jpg

1.png

蒲钰

嘉宾简介:清华大学SATLab三年级硕士生,研究方向为端到端语音交互。

报告题目:Empowering Large Language Models for End-to-End Speech Translation Leveraging Synthetic Data

摘要:语音到语音翻译(S2ST)是实现跨语言交流的重要技术。传统的级联系统依赖语音识别、文本翻译和语音合成,容易产生误差传递和延迟。我们提出了端到端模型SLAM-TR,可直接将输入语音翻译为目标语音,避免了中间的文本处理步骤。在FLEURS基准上,SLAM-TR取得了8.2的ASR-BLEU分数,显示出良好的泛化能力。同时,为解决真实语音翻译数据稀缺的问题,我们构建了SynStard-1000数据集,通过高质量平行文本合成1000小时语音翻译数据,并已开源,为S2ST研究提供了有力支持。

lwr.png

梁文锐

嘉宾简介:清华大学SATLab二年级硕士生,研究方向为基于语音的抑郁症检测和工业异常声音检测。

报告题目:DepressGEN: Synthetic Data Generation Framework for Depression Detection

摘要:自动化抑郁症检测对于早期诊断至关重要,但由于伦理和隐私方面的顾虑,常常导致训练数据不足,从而阻碍了抑郁筛查的研究。为应对这一挑战,我们提出了DepressGEN这一新颖框架,用于生成模拟抑郁患者的合成访谈文本和语音,以增强检测模型的训练效果。该框架通过将与抑郁相关的语言特征输入大型语言模型,生成访谈文本,并借助文本转语音(TTS)系统合成相应语音。我们还设计了一个抑郁调制模块以调整合成语音的抑郁特征,以及一个语音验证模块,用于缩小合成数据与真实数据之间的分布差距。实验结果表明,使用额外合成数据训练的GRU/BiLSTM模型相比仅用原始数据训练的模型,F1值提升了9.9%,并在EATD数据集上优于现有方法。

sq.png

孙琪

嘉宾简介:清华大学SATLab二年级硕士生,研究方向为基于语音的阿尔兹海默病检测。

报告题目:PPGs-BERT: Leveraging Phoneme Sequence and BERT for Alzheimer’s Disease Detection from Spontaneous Speech

摘要:阿尔茨海默病(AD)是一种常见的神经退行性疾病,常伴随语言表达障碍。传统语音识别方法容易忽略或“规范化”患者语音中关键的异常特征,如迟疑、重复、停顿、发音错误等,且有语种依赖。本研究提出一种基于音素后验图(PPGs)和BERT模型的方法,用于从自发语音中检测AD。我们使用音素识别器代替传统ASR,保留更多语言细节,并通过BERT提取高维特征进行诊断。本方法具有良好的跨语言适应能力,兼顾准确性与计算效率。

jkc.png

贾恺琛

嘉宾简介:清华大学SATLab本科毕设学生,研究方向为基于语音的阿尔兹海默病检测。

报告题目:Whisper-Based Multilingual Alzheimer’s Disease Detection and Improvements for Low-Resource Language

摘要:阿尔茨海默病(AD)由于人口老龄化趋势,已成为全球日益严峻的健康挑战。利用自发性语音进行AD早期诊断,正成为一个重要的研究方向。针对AD的全球性问题,本研究提出了一种基于语音的多语言AD检测方法。我们采用Whisper进行迁移学习,构建了一个多语言AD诊断模型,在对应多语言测试集上取得了81.38%的准确率。为提升低资源语言的检测效果,我们在结合多语言数据和完整转录文本的基础上对多语言模型进行微调,使低资源语言准确率提升了4-7%。此外,我们还引入了受试者的背景信息,使低资源语言的检测准确率进一步提高了11-13%。实验结果验证了我们方法在多语言阿尔茨海默病检测任务中的有效性,也展现了其在应对全球AD检测需求方面的可行性。