张卫强

个人信息Personal Information

教师英文名称：Wei-Qiang Zhang

教师拼音名称：Zhang Wei Qiang

电子邮箱：

办公地点：电子工程馆5-111

联系方式：010-62781847

学位：博士学位

毕业院校：清华大学

学科：信号与信息处理

教师博客

当前位置：中文主页 >> 教师博客

DCASE 2024挑战赛两项冠军

点击次数：

在刚刚结束的2024年DCASE（Detection and Classification of Acoustic Scenes and Events）挑战赛中，由清华大学电子工程系语音与音频技术实验室联合华控智加、上海交通大学计算机科学与工程系、华北电力大学组成的联队在低复杂度声学场景分类、工业设备异常声音检测两个赛道斩获冠军。

DCASE挑战赛是由IEEE AASP主办的声音事件领域的权威竞赛，自2013年发起以来已举办十届。2024年DCASE挑战赛设置了10个任务，吸引了全球108支队伍参赛，共提交了321个作品，涵盖了许多知名院校和企业参加。

任务1：低复杂度声学场景分类

声学场景分类旨在自动将音频记录归类为特定的环境声音场景，如“地铁站”、“城市公园”或“公共广场”。以往的声学场景分类（ASC）任务版本侧重于有限的计算资源和多样化的录音条件，反映了在为嵌入式系统开发ASC模型时通常遇到的挑战。

今年，参与者被鼓励额外应对另一个问题，即标记训练数据的有限可用性，挑战赛排名基于用于训练的标记示例数量以及系统在具有多样化录音条件的测试集上的性能。参与者将在预定义的训练集上训练他们的系统，这些训练集的项目数量各不相同。经过任务组织者的允许后，可以使用外部资源，例如非ASC专用的数据集和预训练模型，这些资源在排名中使用的标记训练数据计数中不予计入。

此外，通过限制模型大小为128kB以及对一秒钟音频片段进行乘法累加运算的数量为3000万次，保持了对低复杂度模型的关注。这确保了模型不仅准确，而且在资源受限的设备上运行效率高。

技术方案

当模型部署在端侧时，对模型的参数量及计算量本身就有严格限制，再叠加有限数据样本的考验，如何设计出更轻量的基础模型，使模型利用少量训练数据即可更准确地判断声音场景，是本次团队的技术创新点。

首先，团队基于MobileNet及CP-Mobile的模型，引入了空间可分离卷积操作，有效提升了低复杂度模型的识别性能。此外，团队选取并融合了多个Transformer架构作为教师模型，用于模型蒸馏。最后，团队提出了“迭代蒸馏剪枝”的模型压缩方案，不同于常见方法直接一步将模型压缩到需要的复杂度，而是逐渐多步迭代压缩，有效降低了模型在压缩中的性能损失。

任务2：工业设备异常声音检测

异常声音检测技术旨在仅有正常样本训练的情况下进行异常检测，2023年的任务关注零样本学习和域泛化问题，这是通过为开发和评估数据集提供完全不同的机器类型，并附加额外的属性信息来实现的。2024年的任务采用开发和评估数据集包含不同机器类型的方式进行，对于评估数据集，机器类型是在以前的任务中未曾见过的新类型。此外，主办方还将开发数据集中的机器类型的部分额外属性信息隐藏，用以模拟一些现实世界的情况。挑战赛期待参与者开发出有助于解决零样本学习问题的技术，并训练出能够具备域泛化能力的稳健模型。

这意味着参与者需要设计算法，不仅能够处理从未见过的声音模式，而且还能在面对新领域或环境变化时保持高效和准确性。这要求模型具有良好的泛化能力和自适应性，能够在没有具体指导的情况下学习到异常声音的关键特征。

技术方案

面对今年的技术挑战，联队提出基于预训练的异常检测系统，主要技术如下：

- 微调基于BEATs和EAT的三种预训练模型，将通用音频知识注入异常检测系统。
- 使用层次聚类获得缺失的工况，采用部分缺失的工况和预测补全后的工况，从粗细两种粒度对模型进行训练。
- 引入低秩微调 (LoRA) 技术，提升迁移学习时的鲁棒性。
- 使用SMOTE算法对目标域样本进行过采样，再对源域和目标域分域检测，提升跨域的鲁棒性。
- 使用权重平均、模型融合两种方法，组合多个模型，进一步提升异常检测性能。

上一条：把大模型装进小设备：语音预训练模型的非结构化剪枝和矩阵分解

下一条：GigaSpeech 2：三万小时东南亚多语种语音识别开源数据集发布