张卫强

个人信息Personal Information

教师英文名称：Wei-Qiang Zhang

教师拼音名称：Zhang Wei Qiang

电子邮箱：

办公地点：电子工程馆5-111

联系方式：010-62781847

学位：博士学位

毕业院校：清华大学

学科：信号与信息处理

教师博客

当前位置：中文主页 >> 教师博客

AI+心理健康：基于多模态融合的抑郁症检测系统挑战杯获奖

点击次数：

语音与音频技术实验室（THUsatlab）的本科实习生张雪桢、李沐晟、李治宇、甘冀韬组队以“基于多模态融合的抑郁症检测系统”的项目参与清华大学第42届挑战杯，最终成功入围信息赛道的学校终审答辩，并斩获了校二等奖。

抑郁症是一种常见的精神障碍。在后疫情时代，我国国民抑郁症患病率持续走高，患病人群愈发庞大，并有年轻化的趋势。我国抑郁症患者总数已逾9500万人。截至2022年，成年人群抑郁障碍患病率为3.6%；18岁以下的儿童青少年患有抑郁症的比例17.5%。然而，与此同时，我国心理医疗资源紧缺。我国精神科医生数量仅6.4万，仅占全国医生总数的1.49%。传统抑郁症诊断方式对精神科医生资源和公众认知程度均要求较高，从而部分人群获取专业心理医疗资源的门槛高，供需矛盾亟待解决。

当前抑郁症的主要诊断与治疗形式为面对面交流：心理咨询师或心理医生通过量表以及引导性问题来判断受诊者是否抑郁。这种诊断方式具有时间长、花费高、跨度久的特点，需要患者投入大量的时间精力与财力。当前已有研究者在AI 抑郁症检测方面做出成果，但总体具有模态单一、无法适应中文语境、未投入实际应用等不足。

本项目研发基于多模态融合的抑郁症检测系统，该系统以网站为载体，结合了语音、文本、视频等多模态输入，通过整合量表、多模态检测模型与大语言模型，实现AI模拟面诊与日常交流的功能，并能基于输入数据得出诊断结果。

下图是系统的整体结构图，核心功能包含了多模态抑郁症检测的核心模型和量表功能；根据上述两个核心模块输出的结果与建议会正确引导用户的认知，有效降低他们的病耻感；同时，用户可创建个人账户并将历史数据（包括用户回答的原始数据和测试结果与建议等）存储起来，方便长时间监测；最后，所有功能模块搭载在一个网站上，用户可随时随地免费自测，大大地节省了时间经济成本。

在专业心理咨询师的指导下，我们设计的系统实现了模拟真实面诊的流程。具体来说，首先由用户填写自测量表，然后系统会根据其作答情况针对性地提问，最后根据用户回答情况给出详细具体的结果与建议。

在抑郁症检测的核心模型中，主要分为数据输入、数据处理、结果输出三部分。具体结构如下图。

在数据输入部分，引入了语音转文本模型，并以提取音频等操作实现视频模块可输入三个模态信息、音频模块可输入两个模态信息，从而实现多模态输入。

在数据处理部分，模型在三个独立的基座模型基础上，针对抑郁症检测任务和中文环境进行了微调适配，具体来说，语音模块基于多语种预训练模型XLSR-53，在中文数据集上微调；文本模块使用了PaddleNLP基于ERNIE 3.0预训练模型训练的中文通用信息抽取模型UIE；视频模块基于视觉情感识别框架EMO-AffectNet，提取了其中的部分情感成分进行融合判断。

在结果输出阶段，各个模块结果在分类器融合，归一化为[0,100]分数并进行二分类判断。除此之外，系统可针对部分关键词汇(涉及自杀轻生倾向)触发特殊情况机制，提高分数权重或弹窗提供援助信息。我们根据识别结果迭代调整分数策略，最终取得良好识别结果。

本系统在中文抑郁症数据集MODMA上进行了测试，结果为：基于音频单位的准确率和 F1 分数分别为0.806与 0.747，基于检测个体的准确率和 F1 分数分别为0.909和0.952，高于传统的SDS检测准确率(~0.75)与当前已有的语音加文本模态抑郁症检测模型准确率(~0.80)。

本系统已完成研发并上线推广使用，截至2024年4月11日，累计使用人数达2000+，并取得了100+条的用户体验反馈。同时，系统已申请到计算机软件著作权。

综上所述，本项目研发并推广了多模态的抑郁症检测系统，训练并改进了多模态AI抑郁症检测模块，引入了大语言模型接口，进行模拟面诊与日常交流。该系统具有经济、便捷、准确的特点，有望满足人们日益增长的抑郁症检测需求。

该参赛队伍的选手为清华大学致理书院和电子系的本科生，其中大部分是参加语音与音频技术实验室SRT项目的大二、大三学生。

上一条：低资源语音识别进展：基于通用音素识别器的低资源语言发音词典生成探索

下一条：SpeechColab Leaderboard：一个开源的语音识别评测平台